如何解决创建一个“同时查看此内容的人”列表
| 我正在考虑创建一个在亚马逊,Yelp和其他在线网站上看到的“查看过此内容的人”列表。现在,我正在考虑使用\'product_id \',\'last_viewed_product_id \',\'hits \'创建一个新表,当用户从product_id = 100的页面转到product_id = 101的页面时,它将创建/ product_id = 101,last_viewed_product_id = 100更新此表,并增加\'hits \'值。是否有更好的方法可以更优化且计算量更少?解决方法
我所知道的最好的一点是,亚马逊用来降低计算强度的“技巧”是:a)使用贝叶斯统计/平均值,以及b)计算部分聚合。后者使您无需计算所有内容(您可以对预先计算的汇总求和)。前者允许您注入推断出的相关材料。
,看来您走的路正确-一些建议-
对于需要大量计算的用户-您可能希望缓存结果,因此您只会给出一个最高的'x'编号,该编号每天更新一次或类似的效果。在这种情况下,实时似乎并不重要。
我不确定您在网站上拥有哪种产品,但是如果种类很多,则您可能只想显示具有相关信息的物品(因此,“星球大战”只会弹出与“星球大战”相关的物品)。
因此,如果您的产品或关键字带有\“ tags \”,则可能要使用这种关系。
您可能还需要权衡他们如何获得产品。如果他们是通过单击您提供的列表来访问该产品的,则这些类型的项目将继续填充,并且不会给其他产品带来展示的机会,因此,请降低其重量。较重的项目将弹出。
,如果您具有所有访问者的用户ID(可以为未注册的用户创建临时ID),则可以创建包含user_id和product_id列的历史记录表,其中存储了用户访问过的所有产品。然后,当用户打开产品时,执行查询以搜索最近查看过该产品的user_id,然后将其加入那些用户已打开的产品。然后,只需对那些user_id打开最多的产品进行排序。
确保将其缓存,因为联接会降低任何SQL Server的速度。
,我很确定Amazon为此使用了关联规则。
开创性的论文:
http://dl.acm.org/citation.cfm?id=170072
快速算法(FP-Growth):
http://link.springer.com/chapter/10.1007/3-540-47887-6_34#page-1
还没有看到PHP库,但是有Java,Python。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。