如何解决Nutch指数作家
有人为Azure搜索创建了自定义Apache Nutch索引编写器吗?我想使用Apache Nutch搜寻器来搜寻某些网站,然后将所搜寻的内容推送到Azure搜索实例中。 Nutch附带了一些其他开源搜索引擎的索引编写器和一些文件编写器,但是毫不奇怪,Azure搜索没有特定的编写器。
我已经在网上搜索并搜索了这些论坛,但没有找到Azure搜索的索引编写器。
我可以写自己的一篇,但我试图避免使我的Java技能蒙上一层阴影(对Java没有冒犯,但对于这个小小的实验来说,ROI并不高)。
解决方法
看list of available IndexWriters for Nutch,我们看到诸如indexer-dummy或indexer-csv之类的东西。我可以想象调整其中之一以将内容提交到Azure Search API不会有太多工作。我将调查该虚拟索引器的作用,然后看看是否可以使用。
否则,CSV编写器将确定完成该工作。我可以想到两种方法。
- 将CSV文件提交到Blob存储,并配置带有选项的Azure搜索数据源和索引器以拉出CSV文件(开箱即用支持)。
- 将CSV文件拖放到本地存储中。编写一些C#代码以读取文件并通过推送API提交到Azure搜索。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。