为什么多处理的每进程开销不断增加?

如何解决为什么多处理的每进程开销不断增加?

我在 for 循环中计算了 6 核 CPU 和 12 个逻辑 CPU,直到数次达到非常高的数字。

为了加快速度,我使用了多处理。我期待这样的事情:

  • 进程数
  • 进程数 + 1 = CPU 数 = 时间翻倍

我发现时间在不断增加。我很困惑。

代码是:

#!/usr/bin/python

from multiprocessing import Process,Queue
import random
from timeit import default_timer as timer

def rand_val():
    num = []
    for i in range(200000000):
        num = random.random()
    print('done')

def main():

    for iii in range(15):
        processes = [Process(target=rand_val) for _ in range(iii)]
        start = timer()
        for p in processes:
            p.start()

        for p in processes:
            p.join()

        end = timer()
        print(f'elapsed time: {end - start}')
        print('for ' + str(iii))
        print('')

if __name__ == "__main__":
    main()
    print('done')

结果:

  • 经过时间:14.9477102 为 1
  • 经过时间:15.4961154 为 2
  • 经过时间:16.9633134 for 3
  • 经过时间:18.723183399999996 for 4
  • 经过时间:21.568377299999995 5
  • 经过时间:24.126758499999994 for 6
  • 经过时间:29.142095499999996 for 7
  • 经过时间:33.175509300000016 for 8

。 . .

  • 经过时间:44.629786800000005 for 11
  • 经过时间:46.22480710000002 for 12
  • 经过时间:50.44349420000003 为 13
  • 经过时间:54.61919949999998 14

解决方法

我不明白你想达到什么目的?

您正在执行相同的工作,并运行 X 次,其中 X 是循环中 SMP 的数量。您应该将工作除以 X,然后向每个 SMP 单元发送一个块。

无论如何,就您所观察到的而言 - 您看到的是生成和关闭单独进程所需的时间。 Python 启动新进程的速度并不快。

,

你有两个错误的假设:

  1. 流程不是免费的。仅仅添加进程会增加程序的开销。
  2. 进程不拥有 CPU。一个 CPU 交错执行多个进程。

第一点是为什么即使进程数少于 CPU,您也会看到一些开销。请注意,您的系统通常有多个后台进程在运行,因此对于单个应用程序来说,“进程数少于 CPU”这一点并不明确。

第二点是当进程数多于 CPU 时,您会看到执行时间逐渐增加的原因。任何运行 Python 主线的操作系统都会执行 preemptive multitasking of processes;粗略地说,这意味着一个进程在完成之前不会阻塞 CPU,而是定期暂停,以便其他进程可以运行。
实际上,这意味着多个进程可以同时在一个 CPU 上运行。由于 CPU 每次仍然只能做固定数量的工作,因此所有进程都需要更长的时间才能完成。

,

你的测试有问题。

想象一下,一个农民用一台拖拉机耕种 10km^2 的农田需要 1 天时间。如果有两个农民在 20km^2 的农场工作,为什么您期望两个农民使用两台拖拉机耕种两倍的农田,从而花费更少的时间?

你有6个CPU核心,你村有6台拖拉机,但没人有钱买私人拖拉机。随着村里工人(工序)的增加,拖拉机的数量保持不变,所以每个人都必须分享有限数量的拖拉机。

在理想的世界中,两个农民使用两台拖拉机完成两倍的工作量与一个农民完成一份工作所需的时间完全相同,但在真实的计算机中,机器还有其他工作要做,即使它是好像很闲有任务切换,操作系统内核必须运行和监控硬件设备,内存缓存需要在 CPU 内核之间刷新和失效,你的浏览器需要运行,村长正在开会讨论谁应该拿到拖拉机,什么时候拿到等

随着工人数量的增加超过了拖拉机的数量,农民不仅仅为自己独占拖拉机。相反,他们安排了每三个小时左右经过拖拉机。这意味着第七个农民不必等待两天就可以获得他们的拖拉机时间份额。然而,在农田之间转移拖拉机是有成本的,就像 CPU 在进程之间切换是有成本的一样;任务切换过于频繁,CPU 实际上并没有在做工作,而切换频率较低,您会遇到资源匮乏,因为某些作业需要很长时间才能开始处理。

更明智的测试是保持农田规模不变,只增加农民数量。在您的代码中,这将对应于此更改:

def rand_val(num_workers):
    num = []
    for i in range(200000000 / num_workers):
        num = random.random()
    print('done')

def main():
    for iii in range(15):
        processes = [Process(target=lambda: rand_val(iii)) for _ in range(iii)]
        ...

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 <select id="xxx"> SELECT di.id, di.name, di.work_type, di.updated... <where> <if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 <property name="dynamic.classpath" value="tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-