dask - 编程之家

我正在使用一个超过10GB的数据集。我已经成功使用代码将其导入到dask数据框中： <pre><code>df = dd.read_c

我试图在Dask中搜索数据框中存在的值。我可以在<code>int</code>系列中找到该值，但在<code>float</code>系列中

我试图在Dask中合并2个带有float类型系列的数据框（由于内存问题，我不能使用纯Pandas）。从<a href="https:/

所有问题都在这里。当我对熊猫进行预处理时，我只需要这样做： <pre><code>import pandas as pd serie = pd.S

我想使用DASK的延迟功能。不幸的是，我不清楚在具有多个返回值的模块上使用延迟功能。例如，如果我

我正在尝试使用Dask-ML训练模型。我的最终目标是对大于内存的数据集进行预测，因此我正在利用Dask的Par

我试图将4个Dask系列作为列连接起来，以创建Dask DataFrame，但是它不起作用。 <pre><code>import dask.dataframe

我正在尝试使用dask来并行化一些代码。我并行化的函数有3个参数，但是随着循环的进行，这些参数中只

首先我有一个名为df1的数据框： <pre><code>id part 1 1 2 1 3 2 4 3 5 3 </code></pre> 和

我有一个具有以下结构的数据框式数据集，存储为磁盘上的大量csv文件： <pre><code>[ target_col | timestamp_

我正在尝试将dask数据框加入其索引。我期望像Dask文档中所述的那样令人尴尬地并行工作，因此可以提高

我正在尝试使用dask和sqlalchmey从teradata获取更大的数据集。我能够应用单个子句并能够获取数据。下面是

我有一个带有几个参数的函数： <pre><code>def my_function(df, angle, size): # do something return </code></pre> <

<strong>背景</strong>： <ul> <li> train.csv数据集有超过1亿条记录 </li> <li> 尝试了前100万条记录

我想通过<code>groupby</code> <code>dask</code> <code>level</code>多索引数据帧。我想在dask中做以下等效的熊猫：

进行汇总时出现以下错误 dfv = vaex.from_csv（_path +'sample.csv'） _monetary = dfv.groupby（'CusUnique'，agg = vaex

我有12个h5文件太大，无法容纳在内存中。这些文件的结构如下： <pre><code>file1.h5 ├image [float64: 3341 ×

我有一个数据框，其列名为<code>key</code>，其值的范围从<code>00</code>到<code>FF</code>（作为字符串）。理想

我正在尝试在Google Kubernetes Engine上部署Dask Gateway。部署没有问题。但是，在使用自定义dask-gateway dockerfile

我有一个dasaset，每天有20万个文件，这些文件很小<code>.txt.gz</code>，其中99％小于60 KB。由于gzip压缩，其