如何解决我可以使用 pyarrow 加载多个 csv 文件吗?
我知道这可以在 R 中完成,如下所示
ds <- open_dataset("nyc-taxi/csv/2019",format = "csv",partitioning = "month")
但是有没有办法在 python 中做?尝试了这些,但似乎不是一个选项
from pyarrow import csv
table = csv.read_csv("*.csv")
from pyarrow import csv
path = os.getcwd()
table = csv.read_csv(path)
table
有没有办法在python中实现它?
解决方法
是的,您也可以使用 pyarrow 执行此操作,与在 R 中类似,使用 pyarrow.dataset
子模块(pyarrow.csv
子模块仅公开处理单个 csv 文件的功能)。
示例代码:
import pyarrow.dataset as ds
dataset = ds.dataset("nyc-taxi/csv/2019",format="csv",partitioning=["month"])
table = dataset.to_table()
然后在 to_table()
方法中,您可以指定行/列过滤器。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。