如何解决搜索引擎如何在不考虑所有可能页面的情况下快速检索页面的相关子集?
在阅读有关搜索引擎的文章时,出现的前两个区域与 (A) PageRank 有关,即给定一组页面,根据网络流量模式按特征向量中心性对它们进行排名,以及 (B) 关键字/语义编码,例如 TF-IDF 或 word2vec。
我对这两个领域都很熟悉,但我很好奇,当搜索引擎查询“跑鞋”时,我无法想象在排名之前检索并执行数十亿个网页的编码并呈现给用户。是否有一些过程将查询映射到网页的半精细结构以限制检索到的候选页面?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。