如何解决将多个字符串仅关联到一个
| 我正在尝试创建一种可以轻松地将同义词(具有不匹配,大写字母,字母缩写等)简化和分组的算法。我认为应该存在一种构建这种结构的标准方法,即寻找可能存在不匹配的字符串,如果该字符串存在于结构中,则它将返回标准化的字符串键。简而言之,有时可以用几种方式来编写相同的概念,但是我只想保留该概念。 例如:假设我要规范化或简化外观\"General Director\",\"General Manager\",\"G,Dtor\",\"Gen Dir\",...
进入
\"GEN_DIR\"
并仅保留此结果以供进一步参考。
顺便说一句,我想用键/值对构建一个Hash
hash[\"General Director\"]=\"GEN_DIR\"
hash[\"General Manager\"]=\"GEN_DIR\"
hash[\"G,Dtor\"]=\"GEN_DIR\"
hash[\"G,Dir\"]=\"GEN_DIR\"
可能是一个解决方案,但我怀疑对此有更优雅或更合适的解决方案。
我还需要一种无需任何数据库即可轻松保持这种关联结构的方法,因为随着我发现同一单词或句子的更多不匹配项,它应该会逐渐增长。我认为一种可能的方法是通过DSL定义此结构,但是我愿意提出建议。
解决方法
好吧,没有规则,至少是一个明确的规则。
我的目的是从Web上删除某些“结构化”数据,这些数据有时输入不正确或不完整。一些字段是描述,可以保留原样。但是,某些字段被假定为\“ sets \”,但未正确键入(例如在我的示例中)。作为人类可以阅读的内容,他立即知道其含义并将其与含义相关联。
但是我想尽可能地自动化将那些可能的不匹配减少到一个“字符串”(或符号)的过程,例如,将其保存到数据库之前。因此,我需要的是一种哈希或字典,如sawa正确指出的那样,我可以使用它查找任何此类脏字符串以获取规范化的字符串或符号。
同样,当然,也希望有一种方法可以使此哈希(或可能的其他值)以某种方式从新的不匹配中学习并自动添加新的关联(可能是基于不匹配的字符串和字符串之间的距离度量)归一化的字符串,如果该字符串小于X,则会建立新的关联)。整个关联(即哈希)应随着新的不匹配和概念的出现而增长,但是,应将其保留在任何地方(可能保存在xml文件中,或类似Mori在下文中回答的内容)以备将来使用。
有新想法吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。