如何解决预测一段时间内的客户流失
我拥有的数据集除其他外有2列。订阅有service_start_date
和service_end_date
。目标列是has_churned
,它是布尔值。
如何进行火车/乘车/测试拆分?它应该与时间有关吗?例如,三个月之前的所有数据都是训练数据,最后三个月为验证数据,或者可以是随机数据吗?
另一个重要的问题是,如果我想在流失预测中添加时间范围,该怎么做?例如,如果我要预测在未来3个月,6个月等时间内可能会流失的客户?我该如何实现?测试数据集的外观如何?
谢谢。感谢帮助。
解决方法
看来您的最终目标是预测给定时间范围内的用户流失。在该任务中,您将在时间 t 上拥有数据快照,并使用该快照进行预测。您需要在训练数据集中重现这些条件,但让我们首先讨论什么是“时间依赖性”。
A)您的数据集时间如何?
您的数据集会随着时间而变化,但是我认为时间不应该是因变量。确实,(连续)时间可以告诉您客户流失的可能性有哪些?您可以转换数据集以消除对时间的依赖。方法如下:
- 当您使用
service_start_date
和service_end_date
时,我认为对于客户流失预测真正重要的是了解服务的持续时间。您可以进行一些功能设计并将service_start_date
替换为time_from_subscription
,将service_end_date
替换为time_to_end_of_subscription
。但是,这意味着您将为给定的日期创建一个数据集,我将在B部分中进行开发。但是请注意,如果您的服务只有一个可能的期限,那么您将拥有多余的功能,因此在这种情况下,您只能保留一个。 li> - 如果您的服务订阅可能会受到时间的影响,那么您当然可以用其他方式对其进行编码。例如,如果您的服务是亚马逊的主要试用版,那么人们可能会在圣诞节期间订阅从中受益,然后大吃一惊。可以通过将月份作为分类变量进行编码。
通常,您应该想知道时间本身是否可以解释流失,或者它只是可以以时间独立方式表达的另一个变量的代理,我认为对于您所做的事情,应该有可能。当然,我对您正在研究的服务一无所知,所以我可能是错的,但是如果需要,我很乐意更新此答案!
B)如何创建训练数据集?
如果可以按照上述方法转换数据集,则创建火车数据集将更加容易。为了模仿预测任务,您将不得不使用一个或几个日期来创建数据快照,并将这些快照组合到一个训练数据集中(实际上您将随时间进行采样)。根据快照,变量time_from_subscription
,time_to_end_of_subscription
和其他变量可能会有所不同。目标也将有所不同,您将不得不使用类似churn_in_three_months
之类的东西来代替have_churned
。
快照的数量和频率将取决于数据集。总体而言,最终数据集应代表变量所取的所有可能值。如果您有month
列,则每月至少需要一个快照。您还必须查看最终数据集中变量的分布,并估计采样是否正确完成。
最后一句话:如果您使用我在此描述的策略,则应谨慎使用将要使用的评估指标。实际上,假设您在训练数据集churn_in_three_months=True
中预测了churn_in_three_months=False
。如果客户实际上在三个月零一个星期后进行了搅动,那还是一个不好的预测吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。