如何解决如何从pyarrow或pandas加载modin数据帧
由于Modin不支持从s3上的多个pyarrow文件加载,因此我正在使用pyarrow加载数据。
import s3fs
import modin.pandas as pd
from pyarrow import parquet
s3 = s3fs.S3FileSystem(
key=aws_key,secret=aws_secret
)
table = parquet.ParquetDataset(
path_or_paths="s3://bucket/path",filesystem=s3,).read(
columns=["hotelId","startDate","endDate"]
)
# to get a pandas df the next step would be table.to_pandas()
如果我知道要将数据放入Modin df中进行并行计算,而不必写入和读取csv,该怎么办?有没有一种方法可以直接从pyarrow.Table或至少从pandas数据框中构造Modin df?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。