如何解决有没有办法增量更新Dask元数据文件?
我正在尝试处理数据集,并随着在Dask中的写出进行增量更新。 Dask元数据文件在重新读取处理后的数据时会很有帮助。但是,当我将新的分区/子集写入相同的路径时,那里的元数据会被新的分区/子集覆盖,而不是随新的分区/子集一起更新。
import dask.dataframe as dd
df = dd.read_parquet(read_path)
# some transformations
df = …
df.to_parquet(write_path,partition_on=[col1,col2,…],write_metadata_file=True)
在几个地方看过,还没有找到一种明显的方法来做到这一点。有谁知道是否有人做过处理这种用例的事情?可以增量更新元数据文件,也可以对其进行编辑/合并。任何建议将不胜感激。
解决方法
Dask的to_parquet()
方法具有一种append
模式,我认为这正是您想要的:
append : bool,optional
If False (default),construct data-set from scratch.
If True,add new row-group(s) to an existing data-set.
In the latter case,the data-set must exist,and the schema must match the input data.
我已经在pyarrow
版1.0.1
引擎中成功使用了此功能
此问题特定于fastparquet
引擎(在pyarrow
中正常运行)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。