如何解决如何对齐两个dask数据帧的分区
我有两个dask数据帧,它们首先在熊猫中读取,在它们各自的“ zo_id”列上建立索引,然后转换为具有4个分区的dask数据帧:
del_keys = [ key for key in old_dict if key not in key_list ]
for key in del_keys:
del old_dict[key]
(623725、627468、631429、636360、645492)
drivetimes = pd.read_sql('QUERY1',engine)
drivetimes.set_index('zo_id',inplace=True)
drivetimes = dd.from_pandas(drivetimes,npartitions=4)
drivetimes.npartitions
drivetimes.divisions
(623725、629167、634609、640051、645492)
如您所见,这些划分是不对齐的,当我使用它们各自的索引合并两个数据框时:
calc_zones = pd.read_sql('QUERY2',engine)
calc_zones.rename(columns={"re_id": "z_re_id"},inplace=True)
calc_zones.set_index('zo_id',inplace=True)
calc_zones = dd.from_pandas(calc_zones,npartitions=4)
calc_zones.npartitions
calc_zones.divisions
我可以在仪表板上看到该图以重新分区任务开始。我该如何“预先对齐”这两个数据帧的分区,以免每次执行计算时都不必重复进行重新混排数据?
解决方法
dd.from_pandas
函数接受一个divisions=
关键字
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。