如何解决PyArrow从S3中的文件获取元数据
我想使用PyArrow从S3中的文件中获取Parquet文件统计信息(例如最小/最大)。 我可以使用
来获取pq.ParquetDataset(s3_path,filesystem=s3)
并获取统计信息(如果我使用以下方式下载并阅读该信息:
ParquetFile(full_path).metadata.row_group(0).column(col_idx).statistics
希望有一种方法可以实现,而无需下载整个文件。
谢谢
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。