如何解决熊猫合并:如何以“组计数-子组累积计数”的格式创建计数器字段,以更好地标记多对一联接行
我有一个数据框,它是以下两个数据框的左连接结果:
e1 = pd.DataFrame({'ID': ['A','B','C'],'Hour': [9,10,11]})
e2 = pd.DataFrame({'ID': ['A','C','Price': [25,32,33,110,108,112]})
ex = pd.merge(e1,e2,on = 'ID',how = 'left')
数据框如下所示:
我想要的结果是这样
现在,我这样做的过程相当漫长:
es1 = pd.DataFrame(ex.ID.drop_duplicates().reset_index(drop = True))
es1['new_count'] = es1.index + 1
ex['sub_group_count'] = ex.groupby(['ID']).cumcount()+1
ex_m = pd.merge(ex,es1,on='ID',how = 'left')
ex_m['many_to_one_id'] = ex_m.new_count.astype(str) + '-' + ex_m.sub_group_count.astype(str)
ex_m.loc[ex_m.duplicated(subset= ['ID']),['ID','Hour']] = np.nan
基本上,我手动创建了组计数器字段和子组累加字段,然后将它们合并在一起以获取“ many_to_one_id”字段。我想知道是否有更好,更Pythonic的方法来实现这一目标。
解决方法
您可以使用cumcount
创建其他密钥
e2['key']=e2.groupby('ID').cumcount()
e1['key']=e1.groupby('ID').cumcount()
ex = pd.merge(e2,e1,on = ['ID','key'],how = 'left')
ex
Out[15]:
ID Price key Hour
0 A 25 0 9.0
1 B 32 0 10.0
2 B 33 1 NaN
3 C 110 0 11.0
4 C 108 1 NaN
5 C 112 2 NaN
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。