如何解决multiprocessing.dummy池映射的异常处理
免责声明:刚开始学习Python或进行一般的编码。因此,请原谅我问一些愚蠢的问题或无法正确解释问题。
我在做什么?
要请求一些url(以快速异步方式或使用线程/多处理),请保存响应,对其中的某些内容进行grep,然后将其保存到文本文件中。可以使用bash轻松完成,但是我希望它可以扩展以用于将来的添加和学习python,python网络和多线程/处理的概念。
我想到的工作代码:
import os
import subprocess
from multiprocessing.dummy import Pool as ThreadPool
import requests
def cit(urls):
results = pool.map(requests.get,urls)
pool.close()
pool.join()
return [result.text for result in results]
def to(urls):
data = ' '.join(cit(urls))
p2 = subprocess.run([<external-prog>],text=True,capture_output=True,input=data)
p3 = subprocess.run([<another-external-prog>],input=p2.stdout)
with open('xyz.txt','w') as f:
subprocess.run(['sort','-u'],stdout=f,input=p3.stdout)
co()
def co():
with open('final.txt','w') as fs:
subprocess.run(<external prog>)
if __name__ == '__main__':
with open('urls.txt','r') as f:
urls = f.read().splitlines()
to(urls)
问题:
-
这是异步/并行请求url的正确方法吗?我了解到multiprocessing.dummy基本上是线程的包装,而python中的线程只是执行上下文切换,由于GIL并不是真正的 parallel 。但是我不知道在其中可以运行该代码的系统中将有多少个内核,因此我认为线程(通过用户控制要运行多少个线程)也许是更好的方法?
-
某些URL /链接可能不会返回200 OK,或者可能导致某些错误(引发任何异常),因此将不返回任何数据。我想忽略是否遇到任何这样的线程(或进程),而只是跳到文件的下一行。我尝试了一些东西,但是没有添加一些for循环就想不出办法了,这完全与我用于并行性(或并行性,如果考虑线程)的pool.map函数矛盾。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。