如何解决模糊查找以找到最近的匹配项和位置以返回 ID
我正在匹配多个数据集。这些是来自许多不同系统的乘客到达。我需要尽可能地匹配这些。每个集合中 2% 是唯一的,其余的都是通用的。
我不是在尝试合并、删除重复数据或将数据标准化,这与模糊查找通常是一样的。我试图找到最接近匹配的质量、价值和位置。除了公共字段之外,数据集还有一大堆独特的字段。本质上是试图找到这些之间的链接,以便我可以使用不同的数据集创建报告,每个数据集都有我需要的信息。这些有超过 10 万行。
为了简化计算,我已经把公共字段变成了一个刺。这些字段是到达日期(excel 数字格式)、出生日期、护照和全名。即“44250 | 15-JAN-80 | UK1234567 | JOHN AMITH”
本质上从Table1开始,我想添加3列;文本中最接近的匹配项、第二个表中与此值关联的 ID 或行号,以便我可以索引/匹配数据,最后是示例中的百分比相似度。
我找到了可以找到最接近匹配的函数,但不能找到位置或关联的 ID。任何想法以下将如何工作或任何其他想法。
组成值
表 1 参考表 1 ID 44054 | 1960 年 8 月 29 日 | CL-F2944458 |约翰·汤姆森 ID1-010739 44054 | 1989 年 12 月 9 日 | LM389990 |爱德华·史密斯 ID1-010737 44054 | 1991 年 12 月 9 日 | LL556699 |理查德·弗里曼 ID1-010738 44054 | 1960 年 5 月 6 日 | LK9915782 |让·汉密尔顿 ID1-010740 44054 | 1954 年 11 月 5 日 | US 9910505 |本·琼斯 ID1-010753
表 2 参考表 2 ID 44054 | 1954 年 11 月 5 日 | US 9910505 |本杰明·琼斯 ID2-0001 44059 | 19-Aug-1960 | CL-F2944458 |约翰·汤姆森 ID2-0002 44054 | 1991 年 12 月 9 日 | LL556666 |理查德·弗里曼 ID2-0003 44054 | 1960 年 5 月 6 日 | LK9915782 |让·汉密尔顿 ID2-0004 44054 | 1989 年 11 月 9 日 | AU-LM389990 |爱德华·史密斯 ID2-0005
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。