如何解决大型资料集上方的文字比对技术,可取得文字比对ID?
我有一个非常大的数据集,如以下格式。我想应用一些文本匹配技术(针对用户提供的输入),该技术将产生匹配百分比/分数,并基于此(高于某个阈值)我想要获取ID。
我试图将数据存储在Elasticsearch
中并执行more like this query
。
但对于给定的关键字,例如Fan spinning
,它吸引了大量不需要的记录,在大文本中可能存在单个不相关的Fan
单词。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)