如何解决Python DaskDataframe按列分组
我正在尝试在简单的数据帧上计算groupby操作:
import dask.dataframe as dd,t pandas as pd numpy as np
pdf = pd.DataFrame({'A':[1,2,1],'B':[4,5,6],'C':[7,8,9],'D':[1,3]})
pdf.columns=['A','A','B','B']
pdf.groupby(by=pdf.columns,axis=1).mean() # works
Out[83]:
A B
0 2.5 4.0
1 3.5 5.0
2 3.5 6.0
但是很快:
ddf = dd.from_pandas(pdf,npartitions=1)
#group = ddf.groupby(by=ddf.columns,axis=1).mean() #breaks
#group = ddf.groupby(by=list(ddf.columns),axis=1).mean() #breaks
TypeError: __init__() got an unexpected keyword argument 'axis'
文档说明(坐标轴:{0或“索引”,1或“列”},默认为0(在Dask中不受支持)`)。 有工作区吗?
作为参考,沿着axis=0
分组时不会发生这种情况:
pdf = pd.DataFrame({'A':[1,3]})
pdf.groupby('A').mean()
ddf = dd.from_pandas(pdf,npartitions=1)
ddf.groupby('A').mean().compute()
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。