dask - 编程之家

<pre><code>dfPiv = dd.pivot_table(df = df, index = 'ENTRID', columns = 'DGBRAID', values='summe', aggfunc = 'sum

我有两个大的Dask数组，一个是我感兴趣的值（N，M，2），另一个是（N，M）布尔值索引，它们实际上是

我们编写了一个python程序包，该程序包使用程序包全局连接池调用SQL查询，如下所示： <pre class="lang-p

我正在尝试设置一个本地dask群集，该群集通过<code>scheduler.submit()</code>将任务添加到调度程序中。我想将

我已经在一个项目中使用Dask + Pandas + PyArrow + HDFS + Parquet一段时间，该项目将推文存储在Parquet文件中，然

我正在尝试使用dask分发中的发布-订阅模式来广播消息。是否有机会为呆滞环境中的订户添加回调处理程

我正在将Pandas / Numpy代码转换为Dask，以处理较大的数据集。我似乎无法重新创建以下Pandas / Numpy代码：</p

请注意，我是新手。我有一个pandas数据框的apply函数，该函数占用大量内存，并转换为dask数据框。

当使用fastparquet从S3读取文件时，我没有统计信息（最小/最大）。打电话时 <pre><code>fp.ParquetFile(fn=path

我对Dask比较陌生，并且有一个12GB的大文件要处理。该文件是从SQL BCP文件导入的，在上传到sql之前，我

我有一个dask数据框，其列类型为int64的“ is_internal”。我想更新它类似于SQL case语句： <pre><code> CASE WH

我们有一个处理图像的代码，其中涉及运行<a href="https://github.com/ipazc/mtcnn" rel="nofollow noreferrer">MTCNN</a>和<

我有大型的csv文件（每个3gb 5个csv），并且需要在不崩溃的情况下将它们连接起来。根据之前发布的一

我想计算数据中唯一行的数量。下面是一个快速的输入/输出示例。 <pre><code>#input A,B 0,0 0,1 1,0 1,0 1,1 1,

我正在使用Dask Distributed通过<code>client.submit</code>界面向我的集群提交函数。如果群集不可用，则默认为

我的数据框如下所示： <pre><code>id refseqno xml 0 31110671 42 <my_xml> ... 1 34470834 6 <my_xml&g

我做了一个计时实验，但我不认为自己在正确使用<code>dask.delayed</code>。这是代码： <pre class="lang-py pre

我正在尝试使用NERSC上的dask-mpi客户端将一些相对较大（约15GB）的VTK文件加载到dask数据帧中。但是，要

当我运行dask数据帧<code>to_csv</code>或<code>df_merge.compute()</code>时，我看到以下错误。运行jupyter笔记本时看

Apache Spark附带了一个用于执行TF-IDF计算的软件包，我觉得它非常方便： <a href="https://spark.apache.org/docs/lat