pyarrow - 编程之家

大家下午好，首先我是python的新手，所以请耐心等待。我正在尝试读取和操作一个 .parquet 文件，

Dremio 是否支持流式传输大型结果集，例如使用 Arrow 3.0 流式传输格式？还是按行组流式传输？背景

我想用pandas读取parquet文件夹的内容部分。我有日期时间日期作为UTC，当我尝试阅读它时，我得到

我刚刚读到 HDF5 允许您访问数据，而无需将整个文件读入内存。在没有 Java（非 pyspark 解决方案）

我正在读取一组箭头文件并将它们写入镶木地板文件： <pre><code>import pathlib from pyarrow import parquet as pq

假设我有三个整数数组： <ul> <li>天：例如<code>[23, 12, 2]</code></li> <li>月：例如<code>[3, 5, 11]</code></li> <li

我们想通过 pyarrow 将 pandas <code>generatePages() { return Promise.all(tabs.map((tab, index) => { document.getElemen

我的用例是我想将文件路径或过滤器作为 xcom 传递给 Airflow 中的任务，以便我的下一个任务可以读取刚

我有一个长度不均匀的 numpy 数组列表。从文档中，我猜从箭头文档中，正确的数据结构是 <code>pa.ChunkedAr

我正在尝试将 Pandas DataFrame 加载到带有浮点列的 pyarrow Table 并且在 pyarrow Table 构建过程中遇到问题：<code

我在 Pandas 中有一个数据框，我想用 pyarrow 将它写成镶木地板。我还需要能够指定列类型。如果我

将旧版本的 pyarrow 升级到 2.0.0 时，我看到 boost-cpp 1.63 作为依赖项被引入。我想避免添加 boost-cpp，因为

我在加载 <code>.parquet</code> 文件的速度方面遇到了一些问题。但是，我不知道我做错了什么。 <strong

我知道这可以在 R 中完成，如下所示 <pre><code>ds <- open_dataset("nyc-taxi/csv/2019", format = "csv"

我试图从箭头时间戳 [s] 类型中提取“年”“月”“日期”。我知道在pandas中怎么做，如下 <pre><code>im

我正在创建一个在 <code>pyarrow.plasma</code> 中存储大型 numpy 数组的系统。我想给每个数组一个唯一的、确

阅读 <a href="https://arrow.apache.org/" rel="nofollow noreferrer">Apache Arrow</a> 时，我遇到了记录批处理的概念，顾名

场景：在我的日常 ETL 过程中，我正在考虑将我的数据额外存储为 Apache Arrow 文件，以实现零拷贝序列化

我希望你们中的一些人能抽出一点时间来帮助像我这样的初学者。我整整一周都在处理这项任务，但找

我想使用本地羽毛文件作为 Intake 的来源。羽毛/箭头的插件尚不存在还是我遗漏了什么？