如何解决显式评分的悖论
在使用 Movielens 100k 数据集调查负面案例对模型性能的影响的过程中,我有一个问题。我做了两个实验来评估模型性能。
在第一个实验中,从 Movielens 100k 数据集中提取了 55,375 个评级为 4 和 5 的案例,归为正案例(目标 = 1),而评级为 1 和 2 的 17,480 个案例被提取为负面案例(目标 = 0 )。构建训练模型后,性能评估结果如下。
--------------------------------------
precision recall f1-score support
0 0.67 0.47 0.55 5200
1 0.85 0.93 0.89 16657
accuracy 0.82 21857
aucs = 0.8306274331419916 rmse = 0.36533634653541674
在第二个实验中,从 Movielens 100k 数据集中抽取了 55,375 个评分为 4 和 5 的案例,并分类为正案例(目标 = 1),对于负面案例,从未知细胞中随机抽取了 17,480 个案例,训练构建数据并评估性能。评价结果如下。
-----------------------------------
precision recall f1-score support
0 0.77 0.60 0.67 5292
1 0.88 0.94 0.91 16565
accuracy 0.86 21857
aucs = 0.8838642248327038 rmse = 0.325668345531158
最初,我认为第一个实验的性能会比第二个实验的性能好。这是因为第一个实验模型预计会比使用随机提取的负面案例的模型表现得更好,因为即使是负面案例数据也包含用户偏好模式。 例如,在为喜欢科幻类型的用户随机生成负面案例的过程中,可以添加一些其他的科幻电影作为负面案例。由于这个原因,推荐模型的性能将不可避免地由于用户喜欢和不喜欢SF电影的信息混合而下降。然而,结果表明,随机生成负面案例的第二个实验模型的性能优于第一个实验模型,与想法相反。是不是因为用户评分信息中有很多噪音?你认为是什么原因?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。