pyarrow - 编程之家

有没有办法增加 pyarrow 飞行中 <code>reader.read_chunk()</code> 的块大小？其中 <code>reader</code> 是 <code>pyarrow._fli

有没有办法为简单的嵌套列（字典列表）强制使用数据类型。如果我将列保存为字符串，那么我需要使

我正在尝试创建一个缺少值的 <code>pyarrow.StructArray</code>。当我使用 <code>pyarrow.array</code> 传递表示

运行下面的代码时，我收到一个 <strong>pyarrow</strong> 错误。我已经安装了 <strong>pyarrow</strong>，但仍然遇

我有一个作为 Arrow 记录批次流的结果集，我使用 reader.read_chunk() 来获取批次，我已将批次推送到批次数

我试图具体了解 Pandas UDF 分组地图的工作原理。在查看此处 [1] 的代码时，我看到首先将箭头对象转换为

Apache Arrow 的目的是什么？它从一种二进制格式转换为另一种格式，但我为什么需要它？如果我有一个 spa

<h3>问题</h3> 我正在尝试将数据框保存为 Databricks 上的镶木地板文件，出现 ArrowTypeError。 <strong>Databr

我决定熟悉一下箭头包。我想这会很好想运行一些使用示例 (<a href="https://github.com/apache/arrow/tree/master/pyt

我想先将一个流写入一个箭头文件，然后再将它读回一个 Pandas 数据帧，尽可能少地占用内存。批

为了在大型数据集上获得一些异常值图，我需要将 spark <code>DataFrame</code> 转换为 pandas。对于 Apache Arrow，

我正在尝试使用 arrow-cpp 构建一个表，然后将其传输回 python。为了做到这一点，我需要事先调用 ar

是否有更快的替代方法将 PySpark 数据帧转换为 Pandas 数据帧？我确实将“spark.sql.execution.arrow.enabled”设置

我有一个包含 6 个行组的镶木地板文件。我能够使用前 6 个 (<code>Graphics2D</code>) 进程（等级）读取 6 个

我想用字符串作为分区键创建一个分区的pyarrow数据集： <pre class="lang-py prettyprint-override"><code>import pand

我正在尝试使用 pyarrow 处理 s3 存储桶中的镶木地板文件，但我一直遇到此错误： <code>OSError: IOError:

我已经编写了使用 c++ 和 python 读取相同镶木地板文件的代码。 python读取文件的时间比c++少得多，但众所

我正在尝试为需要使用 apache_beam 写回 GCS 存储桶的 json 消息编写 parquest 架构我的 json 如下所示：</

我正在尝试使用 pyarrow.dataset 过滤 pyarrow 数据。我想添加一种动态方式来添加到表达式中。 <pre><code>fr

我有以下数据框和架构： <pre><code>df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], columns=['a', 'b', 'c