pyarrow - 编程之家

我正在尝试读取镶木地板文件以保存架构，然后在读取 csv 文件时使用此架构将其分配给数据帧。

我在使用 pandas、pyarrow 和 bigsql 时遇到问题。基本上我想读取 csv ，将其写入 parquet 并从 db 读取 parquet 。

我试图找到一种使用 LRU 策略缓存 NumPy 数组的简单有效的方法。使用 <a href="https://redis.io/" rel="nofollow nore

我在异步循环中获取消息，并从每条消息中解析 <code>row</code> 这是字典。我想将这些行写入镶木地板。

pyarrow 中是否有一种方法可以读取分区数据集，该数据集由第一行没有存储列名的 csv 文件组成？

考虑一个 numpy 数组列表： <pre><code>arr = [np.linspace(a1,a2,11) for a1,a2 in [(1,10),(20,30)]] nparr = np.array(arr) </cod

正如您在下面的代码中看到的，我在向保存在内存映射文件中的表中添加新行时遇到了麻烦。我只想用

我有 Python 3.7.3，我正在使用 pyarrow 2.0.0 并试图打开一个 3.7GB 的镶木地板文件。 python 脚本立即以“Killed

我运行此命令将 pyarrow 从 2.0.0 升级到 3.0.0： <pre><code>pip3 install --user --upgrade pyarrow </code></pre> 我收

我正在尝试在装有 MacOS Mojave 的 MacBook Pro 上安装 <code>delta-lake-reader[aws]</code>，但它失败了。我的笔记本

我是新手。有任何想法吗？谢谢你！ <a href="https://i.stack.imgur.com/QoGoy.png" rel="nofollow noreferrer"><img src="https:

我试图只获取我想要的列，就像我们在 Pandas 中所做的那样。 <pre><code>use_cols = ["ArrDelay", "DepD

我正在使用 pyspark 2.4.1，并且正在尝试使用 Pandas UDF 编写一个简单的函数，如下所示。基本上创建一个新

我在将数据写入镶木地板文件时遇到问题。我尝试了不同的 <code>pyarrow</code> 版本（2.0 和 3.0），但结果

我使用 pyarrow 创建了一个带有小数列类型 <code>pa.decimal128(12, 4)</code> 的镶木地板文件。读取文件并访问其

我正在尝试获取有关我的 pyarrow 表中两列中值的不同组合是什么的信息。我目前正在做的是： <

我有一个结构如下的数据框： <pre><code> Coumn1

我有一个 <code>9999-12-31 23:59:59</code> 的时间戳作为 int96 存储在镶木地板文件中。我使用 pyarrow.dataset 读取

我试图在给定的 HDFS 目录中递归列出所有文件和文件夹。下面的代码只是列出了第一级中的对象。有没

在读取镶木地板文件时，是否有与 spark 指定模式的能力等效的 dask？可能使用传递给 pyarrow 的 kwargs？