tensorflow之并行读入数据详解

脚本专栏 2024/11/3 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

最近研究了一下并行读入数据的方式，现在将自己的理解整理如下，理解比较浅，仅供参考。

并行读入数据主要分

1. 创建文件名列表

2. 创建文件名队列

3. 创建Reader和Decoder

4. 创建样例列表

5. 创建批列表（读取时可要可不要，一般情况下样例列表可以执行读取数据操作，但是在实际训练的时候往往需要批列表来分批进行数据的组织，提取）

其具体流程如下：

一、文件名列表：

文件名列表是一个list类型的数据，里面的内容是需要用的数据文件名。可以使用常规的python语法入：[file1, file2]。也可以使用tf.train.match_filename_once方法通过匹配输入。

二、文件名队列

一般使用tf.train.string_input_producer的方法创建文件名队列。该方法传入的是一个文件名列表，输出的是一个先进先出队列。在该方法中存在两个重要参数，num_epochs和shuffle。num_epochs表示列表遍历的次数，主要是由于有时候训练模型需要反复的遍历数据集便于更新模型参数，默认情况下是None（循环遍历）。shuffle表示是否随机遍历，默认情况下是true，表示数据会随机输入队列，当想顺序读入数据时shuffle设置为false。至于其他的capacity表示列表的容量，shared_name表示共享时的名字。

三、Reader和Decoder

Reader的功能是读取数据记录，Decoder的功能是将数据的记录转化为张量格式。在使用时需要先创建输入数据文件对应的Reader，然后从文件名队列中取出文件名，在调用Reader.read的方法返回一个类似于（输入文件名，数据记录）的元组。最后使用Decoder方法将每一列数据都转化为张量的形式。

四、批队列

批队列可以在构建图之前事先构建好，样例队列需要在图中直接产生不用直接预定义。所以先介绍批队列的构建方式。批队列主要是样例打包聚集成批数据，能供模型训练使用。一般是使用tf.train.shuffle_batch和tf.train.batch的方法构建。可以控制批的大小（一次性读入的数据大小），线程个数，然后在图中直接调用。

五、样例队列

样例队列的创建方式是隐式的，一般在图中为了计算任务顺利的输入数据，我们一般使用tf.train.start_queue_runners方法启动所有的入队操作所需的线程，此时会自动执行所有的文件名入队操作和文件名队列的操作，执行样例队列入队和样例队列的操作。这些都是在后台产生的。

六、线程协调器

并行读取数据离不开多线程操作，多线程操作离不开线程调节器。tensorflow使用tf.train.Coordinatior方法创建管理多线程生命周期的调节器。调节器的工作原理比较简单，它监控Tensoflow后台的所有线程，当某一个线程出现异常时，它的should_stop方法返回true，最后调用request_stop终止所有的线程。但是要注意我们在使用线程调节器之前一定要调用tf.local_variables_initializer方法进行初始化。

七、读入数据类型

tensorflow读入的数据类型可以使csv，TFRecord和自由格式文件。CSV的读取直接调用tf.TextLineReader构建Reader，再调用tf.decoder_csv的方法对文件进行解码变为张量。

TFRecoder是tensorflow标准的输入格式，它是通过protocolBuffer构建的存储数据记录的结构。该数据结构分明，一个样例中包含一组特征Features，一个Features又包含多个特征向量feature。其在读取的时候主要使用tf.TFRecoderReader的方法构建Reader，在使用read的方法读出元组。接着对元组中的value采用tf.parse_single_example()方法进行解析。再解析的时候需要传入features参数，该参数要和构造该文件时输入的字典型变量保持一致（key,value）。key和输入的key一致，value是一个表示该key对应的维度和类型的定西，用tf.FixedLenFeature函数构造，该函数传入参数表示特征形状和特征值的类型。具体如下：

自由格式是指用户自定义的二进制文件，他存储的对象是字符串，每条记录都是一个固定长度的字节块。再读入的时候首先要使用tf.FixedLengthRecoderReader的方法读取对应的二进制文件，然后使用tf.decode_raw的方法将字符串转化为uint8类型的张量。

八、整体代码

具体的相关码如下：

以上这篇tensorflow之并行读入数据详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

tensorflow,并行,数据

标签：

tensorflow,并行,数据

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“tensorflow之并行读入数据详解”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月03日

tensorflow之并行读入数据详解

tensorflow,并行,数据

Python操作注册表详细步骤介绍

Python类继承和多态原理解析

评论“tensorflow之并行读入数据详解”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接