如何解决如何有效地使用Dask迭代函数中的数百万个参数?
我正在使用dask
模块来迭代给定函数processing
中的参数。我正在使用的脚本的片段如下。
import dask
from dask import delayed,compute
from dask.distributed import Client,progress
client = Client(threads_per_worker=2,n_workers=2) #Choosing the number of workers and threads per worker.
csv_file = pd.read_csv('coordinates.csv')
longitude = csv_file['Longitude'].values
latitude = csv_file['Latitude'].values
def processing(x,y):
'''
'''
return (result)
#Now calling the function in a 'dask' way.
lazy_results = []
for (x,y) in zip(longitude,latitude):
lazy_result = dask.delayed(processing)(x,y)
lazy_results.append(lazy_result)
#Computing the results
dask.compute(*lazy_results)
对于给定的一小部分参数(x,y),它可以正确运行,并且能够按预期加快迭代过程。但是,我有兴趣知道在dask
中对数百万个参数(以上代码中的x,y数百万个)执行相同处理的最有效方法是什么。由于在document中比较快,因此可以假设上述方法(即dask.delayed
)对于输入参数的大小(最多仅约100,000个)有效。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。