如何解决如何查找仅包含标题的商品属于哪个类别?
| 我正在开发一项新服务,该服务将查询多个商品(Groupon等..),我想破译该商品属于哪个类别。 例: 我会得到以下标题:\“ Acqualina Wellness Expo – Acqualina Resort&Spa \”,我需要找出属于此优惠的类别。 我尝试使用http://www.google.com/insights/search/进行操作,但这并不容易,因为它仅接收7个参数(术语),并且有时我们有无法分开的复合词。解决方法
有一些基于Wordnet和搜索距离的有趣方法,但是标准方法是贝叶斯垃圾邮件过滤器方法。
步骤1:构建示例标题集(或标题和正文)以及您认为其所属的类别的示例。越大越多样化,则使此设置越好。您需要从想要识别的每个类别中获得许多(至少是两位数,但最好是数百个)不同的示例。如果您需要帮助来构建此集合,则可以使用Amazon的Mechanical Turk,并请其他人进行分类。
步骤2:通过CRM114(http://crm114.sourceforge.net/)或类似的方法运行所有示例。如果您想使用云服务,我认为Google Prediction API允许使用文本字段。
步骤3:进行测试时,不要让分类程序查看所有示例。将其中一些保存在所谓的“样本外集”中,以测试分类器。对其已经看到的内容进行分类要容易得多,因此您要确保您知道它在看不见的示例中有多好。一些分类程序将自动为您执行此测试。
祝好运!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。