如何解决熊猫在customerEmail上的MERGE列重复
目标是从此数据集中检测欺诈。
我有两个列的数据框为:
DF1 [客户电子邮件,客户电话,客户设备,customeripadd,NoOftransactions,欺诈]等(168,11)
DF2 [客户电子邮件,交易ID,付款方式,订单状态]等(623,11)
customerEmail列在两个数据框中都是通用的,因此在customerEmail上合并表是有意义的。
问题是我在DF2中重复了customerEmail,而在DF1中没有引用。所以当我合并时使用:
:DF3 = pd.merge(DF1,DF2,on ='customerEmail')
行和列的总大小为(819,18),其中重复发送的电子邮件ID具有误导性数据。
我希望它使用DF1的customerEmail进行匹配,因此我的最终数据帧DF3应该等于DF1。
这是数据链接,供您查看。干杯 https://www.kaggle.com/aryanrastogi7767/ecommerce-fraud-data
解决方法
尝试将方式参数更改为“左”。
例如:
DF3 = DF1.merge(DF2,how='left',on='customerEmail')
如果失败,我们可能需要更多信息。
,也许您应该为选项“ how”考虑一个不同的值。默认情况下,它是“内部”,表示删除所有没有匹配项的行
也许选项“ right”会为您提供帮助,因为DF2是参考,而DF1是DF2的联接。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。