如何解决我想刮擦很多站点并在所有站点上进行搜索,我应该使用什么系统?
| 我需要抓取约5000个网站,其中包含与某物相关的信息。因此,数据将以某种方式构造,例如“ 0”。 在页面上找到的其他信息仍然应该可以搜索。 我的想法是,我不需要关系数据库,不需要进行逻辑查询,只需要使用给定的关键字搜索数据。因此,只要输入\"green yellow\"
,它就会搜索所有包含两个单词的项目。考虑到这些项目可以达到数百万个,我想知道哪种技术最适合与此搭配使用,希望可以进行扩展,或者云上有解决方案?
对于抓取,我一直在考虑Node.js,因为我可以将其与可完美提供DOM和HTML结构的jQuery绑定。对于存储,我仍然有些失落,但是我对Lucene有一些经验,因此我可以将抓取的数据直接存储在Lucene中。
你怎么看?人们所做的任何这样的建议都将是很棒的!谢谢。
解决方法
对于基于节点的网络爬虫,请检查以下链接:
http://www.coderholic.com/scraping-the-web-with-node-io/
https://github.com/mikeal/spider
https://github.com/creationix/scraperdemo
, Nutch实际上是完美的。它包含Lucene / Solr作为其搜索引擎组件。
还可以查看Lucidworks的企业Solr,它具有内置的Web搜寻器以及相当整齐的GUI。
http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise
, Solr绝对适合此任务
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。