Python:简单循环中的多重处理

如何解决Python:简单循环中的多重处理

我的目标是通过Selenium驱动程序包获取各种网页的源代码。要在打开页面时使用空闲时间,我想利用多重处理。但是,由于我是多处理新手,所以我无法使代码正常工作。

这是一个简单功能,用作我希望并行运行的示例(需要 selenium webdriver软件包和时间软件包):

def get_source(links):
    for i in range(len(links)):
        time.wait(3)
        driver.get(links[i])
        time.wait(3)
        print(driver.page_source)
        time.wait(3)
        print("Done with the page")

将不同的网页添加到此功能中,例如:

links = ["https://stackoverflow.com/questions/tagged/javascript","https://stackoverflow.com/questions/tagged/python","https://stackoverflow.com/questions/tagged/c%23","https://stackoverflow.com/questions/tagged/php"]

这是我到目前为止所拥有的。但是,不幸的是,它仅执行webdriver的垃圾邮件实例,而没有执行预期的操作。

if __name__ == '__main__':
    pool = Pool(2)
    pool.map(get_source(),links)

我们非常感谢您的帮助!非常感谢!

解决方法

使用multiprocessing.pool时,请使用apply_async方法将函数映射到参数列表。请注意,由于该函数是异步运行的,因此您应该将某种索引传递给该函数,并将其返回结果。在这种情况下,该函数将返回URL以及页面源。

尝试以下代码:

import multiprocessing as mp
import time
from selenium import webdriver

from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(ChromeDriverManager().install())

def get_source(link):  # single URL
    time.sleep(3)
    driver.get(link)
    time.sleep(3)
    print("Done with the page:",link)
    return (link,driver.page_source)   # return tuple: link & source
        
links = [
   "https://stackoverflow.com/questions/tagged/javascript","https://stackoverflow.com/questions/tagged/python","https://stackoverflow.com/questions/tagged/c%23","https://stackoverflow.com/questions/tagged/php"
   ]

if __name__ == '__main__':
    pool = mp.Pool(processes=2)
    results = [pool.apply_async(get_source,args=(lnk,)) for lnk in links] # maps function to iterator
    output = [p.get() for p in results]   # collects and returns the results
    for r in output:
       print("len =",len(r[1]),"for link",r[0])   # read tuple elements

输出

Done with the page: https://stackoverflow.com/questions/tagged/python
Done with the page: https://stackoverflow.com/questions/tagged/javascript
Done with the page: https://stackoverflow.com/questions/tagged/c%23
Done with the page: https://stackoverflow.com/questions/tagged/php
len = 163045 for link https://stackoverflow.com/questions/tagged/javascript
len = 161512 for link https://stackoverflow.com/questions/tagged/python
len = 192744 for link https://stackoverflow.com/questions/tagged/c%23
len = 192678 for link https://stackoverflow.com/questions/tagged/php

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?