TensorFlow之多核GPU的并行运算

tensorflow多GPU并行计算

TensorFlow可以利用GPU加速深度学习模型的训练过程,在这里介绍一下利用多个GPU或者机器时,TensorFlow是如何进行多GPU并行计算的。

首先,TensorFlow并行计算分为:模型并行,数据并行。模型并行是指根据不同模型设计不同的并行方式,模型不同计算节点放在不同GPU或者机器上进行计算。数据并行是比较通用简便的实现大规模并行方式,同时使用多个硬件资源计算不同batch数据梯度,汇总梯度进行全局参数更新。

在这里我们主要介绍数据并行的多GPU并行方法。数据并行,多块GPU同时训练多个batch数据,运行在每块GPU上的模型基于同一神经网络,网络结构一样,共享模型参数。数据并行也分为两个部分,同步数据并行和异步数据并行。

在每一轮迭代中,前向传播算法会根据当前参数的取值,计算出在一小部分训练数据上的预测值,然后反向传播算法,根据loss function计算参数的梯度并且更新参数。而不同的数据并行模式的区别在于参数的更新方式不同。

1.数据异步并行

图一:数据异步并行模式流程图

从图一可以看出,在每一轮迭代时候,不同的设备会读取参数最新的取值。但是因为不同的设备,读取参数取值的时间不一样,得到的值也有可能不一样。

也就是说数据异步并行模式根据当前参数的取值和随机获取的一小部分数据数据在不同设备上各自运行,不等待所有GPU完成一次训练,哪个GPU完成训练,立即将梯度更新到共享模型参数。

2.数据同步并行

 

图二:数据同步并行模式流程图

与数据异步并行模式不同的是数据同步并行模式在所有设备完成反向传播的计算之后,需要计算出不同设备上参数梯度的平均值,最后在根据平均值对参数进行更新。 

总结:

并行分为:模型并行和数据并行,数据并行又分为数据同步并行和数据异步并行。数据同步并行需要等所有的GPU都通过当前批次的训练语料求得损失值进而求得梯度之后对所有的GPU所得的梯度求均值,然后再以此均值进行参数的更新。

具体的分析可参考:https://blog.csdn.net/qq_29462849/article/details/81185126

优缺点的比较:

主要应用的是数据的并行化处理,因此主要是对数据的并行化处理的两种方法进行比较。数据同步并行,同步更新的信息开销很大,有时并不一定比直接利用一个GPU进行运算快,同时存在短板效应,所需的时间是由性能最差的那个GPU所决定。虽然其每个批次的计算时间由于信息开销的原因会变大,但是其每次对参数更新相当于以batch_size*GPU个数这么多的数据对参数进行更新,实际上相当于应用了更大批次的数据,这样也能解决批次的大小限制(若批次数据过大可能显存不够的情况)。数据异步并行会存在过期梯度的问题。

并行化代码的实现:

先分析下一个NLP方面的神经网络分类任务大体的流程:

一般NLP任务会输入一个三维的向量第一维mini-batch的大小,第二维人为设定的句子的最大长度,第三维词向量,数据输入之后会经过各种类型的网络(相同于前馈神经网络的功能)得到的向量是对原文的特征表示。因为NLP任务属于对序列文本的处理一般使用的网络要能够获得上下文信息也即为能够很好的对序列信息进行处理,因为学到了上下文信息,例如用LSTM,得到LSTM的输出后要把0,1维进行转换,转换为时间批次优先的形式,取结果的[-1]得到一个二维的向量第一维是批次大小,第二维是隐藏节点的个数,此时这个二维数据就是对输入原文数据的表示,对于应用较多的分类任务,随后会把对原文的特征表示做为输入,经过一个线性变换进行分类。得到二维数据pred,第一维是批次大小,第二维是类别的个数。再用精度进行结果的评估代码为:

correct_pred=tf.equal(tf.argmax(pred,1),tf.argmax(y,1))
accuracy=tf.reduce_mean(tf.cast(correct_pred,tf.float32))

因为pred是二维的,第二维的数据表示预测为各个类别的概率大小,这里可以用个softmax进行概率归一化也可不用,tf.argmax(pred,1)其作用为得到第二维最大值的那个下脚标,返回的值是一维的[batch]即为预测的是何种类别,tf.equal用于对比预测类别和正确的类别标签,返回的也是一维的[batch]但是bool类型的,随后accuracy=tf.reduce_mean(tf.cast(correct_pred,tf.float32))是精度的计算,先把bool类型的转换为float类型数据,再求均值即可。直到这里正向传播结束,随后需要进行反向传播,对模型中的参数进行更新,使获得的对于原文的表示outputs(从训练文本中抽取的特征)越来越优,以便于分类的结果越来越精确。反向传播即为通过优化函数对网络模型中的参数进行更新,一般优化的过程都是通过设定的目标函数,对目标函数进行优化,对模型中的参数进行求导,以此来更新参数。损失函数一般选用交叉熵函数

cost=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=pred))

通过如上代码获得损失值,交叉熵函数是用于求两个概率分布之间的距离,因此要对pred结果通过softmax转换为概率分布的数据。获得损失值传入优化函数对模型进行优化。这里的tf.nn.softmax_cross_entropy_with_logits(labels=y,logits=pred)获得的数据是[batch]的,然后对其求均值得到损失值,这就体现了通过一个batch的数据对参数进行更新。

#反向传播优化函数
optimizer=tf.train.AdamOptimizer(learning_rate=FLAGS.init_learning_rate).minimize(cost)

优化函数会对参数进行优化,一般都是通过设置运行优化函数的次数epoch来控制何时停止对参数进行更新,epoch的设置可以根据精度值进行判断具体的大小。这里的minimize完成了计算梯度和应用梯度的过程(传入的cost会用于求梯度,具体源码中没看懂),AdamOptimizer是确定选取何种方法对参数进行更新,因为它在对参数进行更新的过程中会自动调节学习率,故学习率可以不设置为衰减的(这一般在SGD中使用。)

主要代码的改变在于梯度的计算相关的方面:

平均梯度的计算:

 

 1 def average_grident(tower_grads):
 2     average_grads = []
 3     for val_and_grad in zip(*tower_grads):
 4         grads = []
 5         for g,_ in val_and_grad:
 6             grad = tf.expand_dims(g, 0)
 7             grads.append(grad)
 8         grad = tf.concat(grads, 0)
 9         grad = tf.reduce_mean(grad, 0)
10         v = val_and_grad[0][1]
11         grad_and_var = (grad, v)
12         average_grads.append(grad_and_var)
13     return average_grads

 

需要更新的是反向传播的部分:

tower_grad = []
#计算损失值选择优化器
#反向传播优化函数
global_step = tf.Variable(0, name="global_step", trainable=False)
optimizer=tf.train.AdamOptimizer(learning_rate=FLAGS.init_learning_rate)
#以下默认使用的两个GPU,batch_size是128
for i in range(2):
    with tf.device('/gpu:%d' % i):
        if i==0:
            cur_loss=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=y[:64],logits=pred[:64]))
            grads = optimizer.compute_gradients(cur_loss)
            tower_grad.append(grads)
        else:
            cur_loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=y[64:], logits=pred[64:]))
            grads = optimizer.compute_gradients(cur_loss)
            tower_grad.append(grads)
grads = average_grident(tower_grad)
train_op = optimizer.apply_gradients(grads,global_step=global_step)

 

 

原文地址:https://www.cnblogs.com/dyl222/p/10525629.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


MNIST数据集可以说是深度学习的入门,但是使用模型预测单张MNIST图片得到数字识别结果的文章不多,所以本人查找资料,把代码写下,希望可以帮到大家~1#BudingyourfirstimageclassificationmodelwithMNISTdataset2importtensorflowastf3importnumpyasnp4impor
1、新建tensorflow环境(1)打开anacondaprompt,输入命令行condacreate-ntensorflowpython=3.6注意:尽量不要更起名字,不然环境容易出错在选择是否安装时输入“y”(即为“yes”)。其中tensorflow为新建的虚拟环境名称,可以按喜好自由选择。python=3.6为指定python版本为3
这篇文章主要介绍“张量tensor是什么”,在日常操作中,相信很多人在张量tensor是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大...
tensorflow中model.fit()用法model.fit()方法用于执行训练过程model.fit(训练集的输入特征,训练集的标签,batch_size,#每一个batch的大小epochs,#迭代次数validation_data=(测试集的输入特征,
https://blog.csdn.net/To_be_little/article/details/124438800 目录1、查看GPU的数量2、设置GPU加速3、单GPU模拟多GPU环境1、查看GPU的数量importtensorflowastf#查看gpu和cpu的数量gpus=tf.config.experimental.list_physical_devices(device_type='GPU')cpus=tf.c
根据身高推测体重const$=require('jquery');consttf=require('@tensorflowfjs');consttfvis=require('@tensorflowfjs-vis');/*根据身高推测体重*///把数据处理成符合模型要求的格式functiongetData(){//学习数据constheights=[150,151,160,161,16
#!/usr/bin/envpython2#-*-coding:utf-8-*-"""CreatedonThuSep610:16:372018@author:myhaspl@email:myhaspl@myhaspl.com二分法求解一元多次方程"""importtensorflowastfdeff(x):y=pow(x,3)*3+pow(x,2)*2-19return
 继续上篇的pyspark集成后,我们再来看看当今热的不得了的tensorflow是如何继承进pycharm环境的参考:http://blog.csdn.net/include1224/article/details/53452824思路其实很简单,说下要点吧1.python必须要3.564位版本(上一篇直接装的是64位版本的Anaconda)2.激活3.5版本的
首先要下载python3.6:https://www.python.org/downloadselease/python-361/接着下载:numpy-1.13.0-cp36-none-win_amd64.whl 安装这两个:安装python3.6成功,接着安装numpy.接着安装tensorflow: 最后测试一下: python3.6+tensorflow安装完毕,高深的AI就等着你去
参考书《TensorFlow:实战Google深度学习框架》(第2版)以下TensorFlow程序完成了从图像片段截取,到图像大小调整再到图像翻转及色彩调整的整个图像预处理过程。#!/usr/bin/envpython#-*-coding:UTF-8-*-#coding=utf-8"""@author:LiTian@contact:694317828@qq.com
参考:TensorFlow在windows上安装与简单示例写在开头:刚开始安装的时候,由于自己的Python版本是3.7,安装了好几次都失败了,后来发现原来是tensorflow不支持3.7版本的python,所以后来换成了Python3.6,就成功了。。。。。anconda:5.3.2python版本:3.6.8tensorflow版本:1.12.0安装Anconda
实验介绍数据采用CriteoDisplayAds。这个数据一共11G,有13个integerfeatures,26个categoricalfeatures。Spark由于数据比较大,且只在一个txt文件,处理前用split-l400000train.txt对数据进行切分。连续型数据利用log进行变换,因为从实时训练的角度上来判断,一般的标准化方式,
 1)登录需要一个 invitationcode,申请完等邮件吧,大概要3-5个小时;2)界面3)配置数据集,在右边列设置 
模型文件的保存tensorflow将模型保持到本地会生成4个文件:meta文件:保存了网络的图结构,包含变量、op、集合等信息ckpt文件:二进制文件,保存了网络中所有权重、偏置等变量数值,分为两个文件,一个是.data-00000-of-00001文件,一个是.index文件checkpoint文件:文本文件,记录了最新保持
原文地址:https://blog.csdn.net/jesmine_gu/article/details/81093686这里只是做个收藏,防止原链接失效importosimportnumpyasnpfromPILimportImageimporttensorflowastfimportmatplotlib.pyplotaspltangry=[]label_angry=[]disgusted=[]label_d
 首先声明参考博客:https://blog.csdn.net/beyond_xnsx/article/details/79771690?tdsourcetag=s_pcqq_aiomsg实践过程主线参考这篇博客,相应地方进行了变通。接下来记载我的实践过程。  一、GPU版的TensorFlow的安装准备工作:笔者电脑是Windows10企业版操作系统,在这之前已
1.tensorflow安装  进入AnacondaPrompt(windows10下按windows键可找到)a.切换到创建好的tensorflow36环境下:activatetensorflow36    b.安装tensorflow:pipinstlltensorflow    c.测试环境是否安装好       看到已经打印出了"h
必须走如下步骤:sess=tf.Session()sess.run(result)sess.close()才能执行运算。Withtf.Session()assess:Sess.run()通过会话计算结果:withsess.as_default():print(result.eval())表示输出result的值生成一个权重矩阵:tf.Variable(tf.random_normal([2,3]
tf.zeros函数tf.zeros(shape,dtype=tf.float32,name=None)定义在:tensorflow/python/ops/array_ops.py.创建一个所有元素都设置为零的张量. 该操作返回一个带有形状shape的类型为dtype张量,并且所有元素都设为零.例如:tf.zeros([3,4],tf.int32)#[[0,0,
一、Tensorflow基本概念1、使用图(graphs)来表示计算任务,用于搭建神经网络的计算过程,但其只搭建网络,不计算2、在被称之为会话(Session)的上下文(context)中执行图3、使用张量(tensor)表示数据,用“阶”表示张量的维度。关于这一点需要展开一下       0阶张量称