为什么多处理的每进程开销不断增加？

如何解决为什么多处理的每进程开销不断增加？

我在 for 循环中计算了 6 核 CPU 和 12 个逻辑 CPU，直到数次达到非常高的数字。

为了加快速度，我使用了多处理。我期待这样的事情：

进程数
进程数 + 1 = CPU 数 = 时间翻倍

我发现时间在不断增加。我很困惑。

代码是：

#!/usr/bin/python

from multiprocessing import Process,Queue
import random
from timeit import default_timer as timer

def rand_val():
    num = []
    for i in range(200000000):
        num = random.random()
    print('done')

def main():

    for iii in range(15):
        processes = [Process(target=rand_val) for _ in range(iii)]
        start = timer()
        for p in processes:
            p.start()

        for p in processes:
            p.join()

        end = timer()
        print(f'elapsed time: {end - start}')
        print('for ' + str(iii))
        print('')

if __name__ == "__main__":
    main()
    print('done')

结果：

经过时间：14.9477102 为 1
经过时间：15.4961154 为 2
经过时间：16.9633134 for 3
经过时间：18.723183399999996 for 4
经过时间：21.568377299999995 5
经过时间：24.126758499999994 for 6
经过时间：29.142095499999996 for 7
经过时间：33.175509300000016 for 8

。 . .

经过时间：44.629786800000005 for 11
经过时间：46.22480710000002 for 12
经过时间：50.44349420000003 为 13
经过时间：54.61919949999998 14

解决方法

我不明白你想达到什么目的？

您正在执行相同的工作，并运行 X 次，其中 X 是循环中 SMP 的数量。您应该将工作除以 X，然后向每个 SMP 单元发送一个块。

无论如何，就您所观察到的而言 - 您看到的是生成和关闭单独进程所需的时间。 Python 启动新进程的速度并不快。

你有两个错误的假设：

流程不是免费的。仅仅添加进程会增加程序的开销。
进程不拥有 CPU。一个 CPU 交错执行多个进程。

第一点是为什么即使进程数少于 CPU，您也会看到一些开销。请注意，您的系统通常有多个后台进程在运行，因此对于单个应用程序来说，“进程数少于 CPU”这一点并不明确。

第二点是当进程数多于 CPU 时，您会看到执行时间逐渐增加的原因。任何运行 Python 主线的操作系统都会执行 preemptive multitasking of processes；粗略地说，这意味着一个进程在完成之前不会阻塞 CPU，而是定期暂停，以便其他进程可以运行。
实际上，这意味着多个进程可以同时在一个 CPU 上运行。由于 CPU 每次仍然只能做固定数量的工作，因此所有进程都需要更长的时间才能完成。

你的测试有问题。

想象一下，一个农民用一台拖拉机耕种 10km^2 的农田需要 1 天时间。如果有两个农民在 20km^2 的农场工作，为什么您期望两个农民使用两台拖拉机耕种两倍的农田，从而花费更少的时间？

你有6个CPU核心，你村有6台拖拉机，但没人有钱买私人拖拉机。随着村里工人（工序）的增加，拖拉机的数量保持不变，所以每个人都必须分享有限数量的拖拉机。

在理想的世界中，两个农民使用两台拖拉机完成两倍的工作量与一个农民完成一份工作所需的时间完全相同，但在真实的计算机中，机器还有其他工作要做，即使它是好像很闲有任务切换，操作系统内核必须运行和监控硬件设备，内存缓存需要在 CPU 内核之间刷新和失效，你的浏览器需要运行，村长正在开会讨论谁应该拿到拖拉机，什么时候拿到等

随着工人数量的增加超过了拖拉机的数量，农民不仅仅为自己独占拖拉机。相反，他们安排了每三个小时左右经过拖拉机。这意味着第七个农民不必等待两天就可以获得他们的拖拉机时间份额。然而，在农田之间转移拖拉机是有成本的，就像 CPU 在进程之间切换是有成本的一样；任务切换过于频繁，CPU 实际上并没有在做工作，而切换频率较低，您会遇到资源匮乏，因为某些作业需要很长时间才能开始处理。

更明智的测试是保持农田规模不变，只增加农民数量。在您的代码中，这将对应于此更改：

def rand_val(num_workers):
    num = []
    for i in range(200000000 / num_workers):
        num = random.random()
    print('done')

def main():
    for iii in range(15):
        processes = [Process(target=lambda: rand_val(iii)) for _ in range(iii)]
        ...

为什么多处理的每进程开销不断增加？

如何解决为什么多处理的每进程开销不断增加？

解决方法

相关推荐