TensorFlow的ParameterServerStrategy何时比其MultiWorkerMirroredStrategy更可取?

如何解决TensorFlow的ParameterServerStrategy何时比其MultiWorkerMirroredStrategy更可取?

在跨多个服务器和GPU训练神经网络时,我无法想到Options +FollowSymLinks -Indexes -MultiViews RewriteEngine On # redirect to www.* RewriteCond %{HTTP_HOST} ^example\.com$ [NC] RewriteRule ^ http://www.%{HTTP_HOST}%{REQUEST_URI} [R=301,L,NE] # external profile.php?id=$id to /$id RewriteCond %{THE_REQUEST} /profile\.php\?id=([\w-]+)\s [NC] RewriteRule ^ /%1? [R=301,L] # only allow rewriting to paths that don't exist RewriteCond %{REQUEST_FILENAME} -d [OR] RewriteCond %{REQUEST_FILENAME} -f RewriteRule ^ - [L] # /listing/$id RewriteRule ^listing/([\w-]+)/?$ listing.php?id=$1 [L,QSA,NC] # no php extension RewriteCond %{REQUEST_FILENAME}.php -f RewriteRule ^(.+?)/?$ $1.php [L] # /$username RewriteRule ^([\w-]+)/?$ profile.php?id=$1 [L,QSA] 胜过ParameterServerStrategy的情况。

MultiWorkerMirroredStrategy的主要用例是什么?为什么比使用ParameterServerStrategy更好?

解决方法

  • MultiWorkerMirroredStrategy用于在多个工作人员之间进行同步分布式培训,每个工作人员可以具有多个GPU

  • ParameterServerStrategy:支持参数服务器。可用于多GPU同步本地训练或异步多机训练。

主要区别之一是ParameterServerStrategy可用于异步训练,而MultiWorkerMirroredStrategy用于同步分布式训练。在MultiWorkerMirroredStrategy中,模型中所有变量的副本将保留在所有工作人员的每个设备上,并且需要一种通信方法来使所有变量保持同步。相反,在ParameterServerStrategy中,模型的每个变量都放在一个参数服务器上。

这很重要,因为:

  • 在同步培训中,所有工作人员在培训时期和步骤方面保持同步,其他工作人员将需要等待失败或被抢占的工作人员重新启动才能继续。如果失败或抢占的工作程序由于某种原因而没有重新启动,您的工作程序将继续等待。

  • 相比之下,在ParameterServerStrategy中,每个工作程序独立运行相同的代码,但是参数服务器运行标准服务器。这意味着尽管每个工作人员将在所有GPU上同步计算单个渐变更新,但工作人员之间的更新将异步进行。仅在第一个副本上发生的操作(例如增加全局步长)将在每个工作程序的第一个副本上发生。因此,与MultiWorkerMirroredStrategy不同,不同的工作人员不会彼此等待。

我想问题是,您是否期望工作人员失败,并且在MultiWorkerMirroredStrategy时重新启动工作人员的延迟会减慢培训速度吗?如果真是这样,那么ParameterServerStrategy可能更好。

编辑:对评论中的问题的回答:

因此,PSS的唯一优势是它具有更好的抗 比MWMS失败的工人?

不完全是-即使工作人员不会在MWMS中失败,由于工作人员仍需要保持同步,因此可能会出现网络瓶颈。

如果是这样,那么我想这只会在对许多人进行训练时才有用 工人(例如20个或更多),否则工人将 训练过程中的失败率很低(可以通过定期保存来避免 快照)。

也许不是,取决于情况。也许在您的情况下,失败的可能性很低。在其他人的情况下,可能会更高。对于相同数量的工人,工作时间越长,在工作中间发生失败的可能性就越大。为了进一步说明(通过一个过于简单的示例),如果我拥有相同数量的节点,但是它们速度较慢,则它们可能需要更长的时间才能完成工作,因此,在此期间发生任何类型的中断/故障的可能性更大工作。

(并且可以通过保存常规快照来避免这种情况。)

不知道我的意思是什么-如果工作人员失败了,并且保存了快照,那么您就不会丢失数据。但是工作人员仍然需要重新启动。在故障和重新启动之间,可能会等待其他工人。

I / O饱和度可能不会带来好处吗?如果更新是 异步,I / O会在时间上更分散,对吗?但是也许 使用更多I / O会抵消这种好处吗?您可以...吗 请详细说明一下吗?

我将首先尝试从概念上回答它。

  • 我想说的是尝试从另一个角度看待它-在同步操作中,您正在等待其他事情完成,并且您可能会无所事事,直到得到满足您需要的东西为止。 与异步操作相反,您可以做自己的工作,而在需要更多工作时,您可以要求它。

  • 关于同步操作还是异步操作没有更好的硬性规定。这要视情况而定。

我现在将尝试从优化的角度来回答它:

I / O饱和度可能不会带来好处吗?如果更新是 异步,I / O会在时间上更分散,对吗?但是也许 使用更多I / O会抵消这种好处吗?您可以...吗 请详细说明一下吗?

在分布式系统中,您的瓶颈可能是CPU / GPU,磁盘或网络。如今,网络确实非常快,在某些情况下还比磁盘快。根据您的工作人员配置,CPU / GPU可能会成为瓶颈。因此,这实际上取决于您的硬件和网络的配置。

因此,我将进行一些性能测试,以确定系统瓶颈所在的位置,并针对您的特定问题进行优化。

编辑:其他后续问题:

最后一件事:根据您的经验,在什么用例中使用了PSS?一世 意思是,PSS和MWMS显然都可用于大型数据集(或 否则一台机器就足够了),但是模型呢?将 PSS适用于较大型号吗?根据您的经验,MWMS还是更多 经常使用?

我认为成本和要解决的问题类型可能会影响选择。例如,AWS和GCP都提供“现货实例” /“可替代实例”,它们是打折的服务器,可以随时拿走。在这种情况下,使用PSS可能很有意义-即使发生机器故障的可能性很小,由于实例是“现场实例”,因此实例可能会被带走而无需事先通知。如果使用PSS,则服务器消失对性能的影响可能不如使用MWMS时大。 如果您使用的是专用实例,则这些实例是专用于您的,不会被删除-唯一的中断风险是计算机故障。在这种情况下,如果您可以利用性能优化或插件体系结构,则MWMS可能会更具吸引力。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 <select id="xxx"> SELECT di.id, di.name, di.work_type, di.updated... <where> <if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 <property name="dynamic.classpath" value="tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-