pyarrow - 编程之家

由于对<a href="https://github.com/wesm/feather" rel="nofollow noreferrer">Feather Github</a>中的问题以及<a href="https://stackov

我在Hive样式的分区镶木地板数据集中有一个分区列（由PyArrow从Pandas Dataframe编写），其条目为“ TYPE = 386

我正在用Python编写，并且想使用PyArrow生成Parquet文件。根据我的理解和<a href="https://arrow.apache.org/doc

我有数百个实木复合地板文件，我想将列名和关联的数据类型放入Python列表中。我知道我可以获得模式

我有一些带有时间戳的spark（scala）数据帧/表，这些数据帧/表来自我们的DHW，并且有时使用一些高水印

当我尝试将熊猫数据框转换为这样的pyspark <pre><code>def upload_file(file_name, bucket, object_name=None): "&#

我试图将数据帧转换为镶木地板文件。但是我遇到了以下错误。 <pre><code>result = pa.array(col, type=type_, fr

我正在使用scala箭头1.0.1和pyarrow 1.0.1 scala解码从python编码的字节时，会发生以下错误。试图

我有一个实木复合地板文件，其中包含许多类型为<code>converted_type (legacy): TIMESTAMP_MICROS</code>的列。我想

我正在开发一个程序来分析某些资产的某些历史价格。数据被构造和分析为熊猫数据框。列是日期，行

我的操作系统是Windows 10 64位，而我使用Anaconda 3.8 64位。我尝试使用PyArrow模块开发Hadoop File System 3.3客户

我有一个具有500万行和250列的spark数据框。当我使用<code>topandas()</code>作为<code>"spark.sql.execution.arrow.ena

我的应用程序从最大为1mb的Azure EventHubs中获取数据，将其转换为DataTable，然后将其另存为Parquet文件。

我有一个巨大的2D numpy数组（dtype = bool）和一个缓冲区，我想将此2D数组写入缓冲区。目前，我正在执行

我必须在不同的环境上运行一些测试。在测试中，我必须检查s3中的某些目录以查找镶木地板文件，并将

我有一个很大的PyArrow表，其中一列称为<code>index</code>，我想用它对表进行分区； <code>index</code>的每个单

一段时间以来，我一直在试图将头包裹在pyarrow上，阅读他们的文档，但是我仍然觉得我无法完全掌握它

我正在尝试使用pyarrow从S3读取一堆gzip压缩的csv文件。 <a href="https://arrow.apache.org/docs/python/generated/pyarrow.cs

我目前在我的机器学习模型中使用Arrow来读取Parquet中的数据。目前，我正在尝试弄清楚如何从Arrow表中获

我一直在尝试测试pyarrow，并且在将嵌套字典转换为表格时遇到了问题。当我运行此代码时： <pre><code>