对Tensorflow中Device实例的生成和管理详解

脚本专栏 2024/11/3 佚名

3 2 1

圆月山庄资源网 Design By www.vgjia.com

1. 关键术语描述

kernel

在神经网络模型中，每个node都定义了自己需要完成的操作，比如要做卷积、矩阵相乘等。

可以将kernel看做是一段能够跑在具体硬件设备上的算法程序，所以即使同样的2D卷积算法，我们有基于gpu的Convolution 2D kernel实例、基于cpu的Convolution 2D kernel实例。

device

负责运行kernel的具体硬件设备抽象。每个device实例，对应系统中一个具体的处理器硬件，比如gpu:0 device, gpu:1 device, cpu:0 device。一般来说，每个device实例同时包括处理器资源、内存资源。device的抽象支持硬件设备提供的并行处理能力。

2. device是什么

为方便描述，下面我们把在tensorflow里面运行的神经网络模型都统一称为graph。

我们知道，tensorflow主要针对的是跨硬件平台、分布式、并发运行的场景，参与运算的每个硬件资源，我们都抽象为device实例，便于管理。

device的主要职责：

管理处理器资源，为支持device内部的并行计算，进一步将其抽象为thread pool或streams：

cpu：使用thread pool来管理，thread之间可支持不同程度的并行计算能力

gpu: 针对nvidia gpu，使用cuda streams来管理，根据不同的gpu型号，可支持不同数量的stream做并行计算

管理内存资源：为kernel的运行，分配和释放内存，进一步抽象为Allocator及其各种子类的实例来管理。

主机内存：

cpu kernel 计算时需要的内存。

gpu kernel的输出结果如果要放置到主机内存中时，gpu kernel也需要申请主机内存。

显存： gpu kernel 计算时需要的内存。

3. device的种类及应用场景

由于device要抽象的设备种类较多，我们主要描述一下本地运行的cpu device、gpu device实例类型。先用一个UML图来表示一下各种device抽象类的关系：

可以看到，cpu device实例使用的类是GPUCompatibleCPUDevice，主要是在ThreadPoolDevice的基础上，增加了gpu<-> cpu之间内存传输数据的优化措施。

gpu device实例使用的类是 GPUDevice 。

4. device实例的关键数据结构

我们以常用的cpu device，gpu device为例，用下图描述一下device实例的关键数据结构：

可以看到每个device实例内部都具备并行处理的能力：

GPUCompatibleCPUDevice实例
 将 cpu 的计算资源抽象为thread pool，以支持多thread之间的并发执行；
 将主机内存抽象为 CPUAllocator 实例来进行管理，为cpu kernel、gpu kernel提供主机内存的申请、释放功能；

GPUDevice实例
 将gpu的计算资源抽象为streams， 由于目前只支持NVIDIA的gpu，所以这里我们可以看作抽象为cuda streams，多个cuda streams之间的计算可以并发处理；
 通过GPUBFCAllocator实例来管理显存，为gpu kernel提供显存的申请、释放功能。

5. device实例的创建

系统中可用的device实例，由session发起创建，归属于session实例。

device的创建，使用Factory 设计模式，session会调用所有注册的device factory，逐一产出符合条件的device实例。

以DirectSession实例创建gpu device、cpu device为例，具体流程如下图所示。

为方便结合代码阅读，已包含主要的类、函数调用路径：

可以看到，最终产出的gpu device、cpu device实例，都会保存至DirectSession实例的 devices_ 表中，由DirectSession实例进行分配和使用。

6. 在graph运行阶段device的使用

在graph的创建阶段，session为每个node分配一个具体的device实例，同时为每个node创建一个具体的kernel实例，这个kernel实例将会运行在分配的device实例上。(参见Tensorflow 核心流程剖析 2 – 神经网络模型的创建和分割)

接下来，在graph的运行阶段，session会依次处理graph中的node，调度node所分配的device实例，去运行node的kernel实例。

每个kernel 在运行时，会向其分配的device，申请需要的计算资源、内存资源等，完成具体的运算操作。

上述流程如下图所示。

为方便结合代码阅读，已包含主要的类、函数调用路径：

以上这篇对Tensorflow中Device实例的生成和管理详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

Tensorflow,Device,生成,管理

标签：

Tensorflow,Device,生成,管理

圆月山庄资源网 Design By www.vgjia.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

圆月山庄资源网 Design By www.vgjia.com

评论“对Tensorflow中Device实例的生成和管理详解”

暂无评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月03日

对Tensorflow中Device实例的生成和管理详解

Tensorflow,Device,生成,管理

python求一个字符串的所有排列的实现方法

Windows上安装tensorflow 详细教程(图文详解)

评论“对Tensorflow中Device实例的生成和管理详解”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接