如何解决如何处理数据集中的重复项导致唯一付款可能没有唯一客户
请帮助我处理数据集中的重复数据,因为唯一付款可能没有唯一的客户。
详细信息。 我想通过python3 / xgboost计算付款数据集,如下所示:
payment_id payment_sum client_id client_age client_region
1 35 1 **22** **London**
2 55 1 **22** **London**
3 65 1 **22** **London**
4 110 1 **22** **London**
5 50 2 25 Moscow
理想的结果是对每次付款的预测。
所有付款功能(例如payment_sum)具有唯一值。 我想加入有关付款的客户(例如client_age,client_region)的付款信息。
问题是1个客户可以进行100次付款。这将导致100次重复客户功能(在上表中以**突出显示)。
正常吗? 有一些统计方法可以解决这个问题吗?
谢谢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。