dask - 编程之家

我是DASK的新用户。我有一个使用DASK进行并行化的代码。是否有一些简单的方法（例如标记）在关闭DASK

在我的组织中，我们有两个Hadoop集群。我们有一个jupyterhub实例在最初设置为群集2的边缘节点的服务器上

我正在使用Mapr群集中的本地模式使用<code>dask-yarn</code>。我已将虚拟环境解压缩到节点之间的共享文件夹

我一直试图在dask中合并32个带有公共id列的文件。总共文件大小为82.4GB。我迭代遍历文件，对某些文件进

对于当前的项目，我计划将Dask合并为两个非常大的CSV文件，以替代Pandas。我已经通过<code>pip install "da

我正在尝试从mpi进程获取数据并使用dask处理该数据。为此，我创建了2个通信器，一个用于生产者进程，

由于函数read_metadata与旧版本不兼容，为什么<a href="https://github.com/dask/dask/commit/7138f470f0e55f2ebdb7638ddc4dfe2e78

我从单个栅格文件中提取5个波段，并将它们转换为5个numpy数组。我将这些数组组合成具有5列的pandas数据

我是dask的新手，正在考虑将其用于ml模型调整的并行化。我是否应该尝试dask-yarn或dask-kubernetes满足这种

我有一个用例，我想通过to_parquet（ddf，'TestParquet'，append = True）将多个Dask数据帧存储到一个公共镶木存

我有5个CSV文件，每个文件包含大约1M记录。我正在使用dask尝试以并行方式读取它们，并对每个记录进行

我目前正在阅读<a href="https://gateway.dask.org/" rel="nofollow noreferrer">Dask Gateway installation docs</a>。我注意到，

我在使用dask读取的不同文件中有一个相当大的数据集，其后是一个我想使用dask作为并行后端的机器学习

我需要将文件提取为Google Cloud Storage中的zip文件。我正在使用python函数来执行此操作，但是即使使用Dask

我尝试通过以下命令使用舵图在AWS上部署dask jupyter： <code>helm install dask dask/dask --set scheduler.serviceTy

我有几个压缩的大型CSV文件，其中包含要迭代的时间序列数据。我想按通用的时间顺序进行迭代，并且

迟钝的调度程序似乎将所有本地变量广播给占用我所有内存的工人。工人不需要大部分数据。设置如下

<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html" rel="nofollow noreferrer">From the docs</

我想加快DataFrame的处理速度，并决定为此目的使用dask库-但不能成功使用它。我做了一个测试示例来展示

我正在使用Dask Futures来加快python中的蒙特卡洛处理速度，并希望通过向用户显示“剩余时间”功能来改