如何解决如何指定在 pyarrow.dataset 中加载哪些列
我试图只获取我想要的列,就像我们在 Pandas 中所做的那样。
use_cols = ["ArrDelay","DepDelay"]
df = pd.read_csv(path,usecols=use_cols)
df
有类似箭头的选项吗?
dataset = ds.dataset(path,format="csv")
解决方法
我猜你想要的是...
table = dataset.to_table(columns=["ArrDelay","DepDelay"])
数据集方法 scan()
、to_batches()
和 to_tables()
都采用相同的参数,这些参数记录在 scan()
方法中。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。