pyarrow - 编程之家

我正在使用Great Expectations测试ETL管道中的数据。我拥有的数据文件为Parquet格式，并且确实包含一些数组

我正在尝试将CSV读入Pandas，然后将其写入Parquet。挑战在于CSV的date列的值为3000-12-31，显然Pandas无法

我使用此命令“ conda install pyarrow”安装了pyarrow。我正在运行一个sagemaker笔记本，但出现错误，没有名

我安装了pyarrow 2.0.0。 <a href="https://arrow.apache.org/docs/python/generated/pyarrow.parquet.write_table.html" rel="nofollow nore

我想将一个numpy数组转换为pyarrow.Table。有推荐的方法吗？通过熊猫DataFrame转换最简单： <pre><code

我有一个很大的压缩json文件，未压缩的单个文件大约为128GB。使用.gz压缩，文件约为21GB。我想利用pyarrow

是否可以使用Python中的Azure函数获取镶木地板文件的架构而无需从datalake下载文件？我使用BlobStorageClient

在Python中创建Parquet文件最常见的方式是先创建一个Pandas数据框，然后使用pyarrow将表写入Parquet。我担心

我有许多csv文件（超过90个）对于内存（每个压缩文件〜0.5gb）太大，它们都具有相同的架构。我想转换

我在 CentOS 8 上使用 eclipse pydev ide 并尝试使用 pyarrow python 包控制 hadoop 文件系统 3.3。在执行 eclipse pydev

我正在尝试使用 <code>pyarrow</code> 将羽毛文件读入 Python，如下所示： <pre><code>import pyarrow.feather as feathe

我尝试使用 pyarrow 包开发与 hadoop 文件系统 3.3 交互的 python 客户端。我的操作系统是 CentOS 8，ide 是 eclips

我正在使用 python2.7 向 pyarrow.parquet 写入一个 Pandas 数据帧，并使用 python3.7 读取它。我将 str 列作为字节

我想将记录批次的标量值转换为十六进制字符串，但是我使用的方法效率很低。操作如下： <pre><code>g

我正在使用 azure-storage-file-datalake 包来连接 ADLS gen2 <pre><code>from azure.identity import ClientSecretCredential # se

我打算： <ul> <li>加入</li> <li>分组依据</li> <li>过滤器</li> </ul> 使用 pyarrow 的数据（新的）。与 Pandas

我有以下代码，用于遍历镶木地板元数据文件中的行组，以查找整个文件中 i、j、k 列的最大值。据我所

我想将小的镶木地板文件合并为 1 或 2 个较大的文件。是否可以设置最大文件大小？我的目标是获取 200M

我在 CentOS 8 上使用 pyarrow 2.0.0 与 Hadoop 3.3 进行交互。Hadoop 和 pyarrow 模块的安装成功。所以我将一些本地

我正在尝试使用 pypy3 安装 pyarrow，但是出现了一些错误。基本信息是吹的： <pre><code>rb.AddForce(mo