如何解决搜寻器可以在此服务器配置上工作吗?
| 我正在将一个小型爬虫作为一项爱好项目。我要做的就是爬上一百万页并将它们存储在数据库中。 (是的,它会不时地进行更新,但是在任何特定时间的条目将仅为一百万)。 我想用PHP / MySQL编写代码。我不需要任何搜索功能,因为我没有服务器资源来提供该功能。我想要的是,我应该能够自己对数据库运行几个SQL查询。 在数据库中,我将不会存储任何Page文本(我希望将其存储在单独的txt文件中-我不知道这是否可行)。仅标题,链接和其他一些信息将被存储。因此,基本上,如果我运行查询并给出一些结果,则可以从这些文件中提取文本数据。 想知道这种设计在以下环境中是否可行。 我将从Linode(512 MB RAM)购买一个VPS(我不能购买专用服务器,共享主机也不允许我这样做)。 我的问题:能否在需要时以批处理模式运行查询来维持这个大数据库(100万行)。 任何建议都欢迎。任何其他托管选项也将不胜感激。解决方法
从头开始编写Web搜寻器是一项艰巨的任务,至少在您希望搜寻数百万个页面的情况下。我从Heritrix Web搜寻器的个人经验中知道这一点。
阅读Heritrix开发人员指南中的“搜寻器概述”一章,您可能会受益。该章涵盖了高级设计,应该可以帮助您了解搜寻器的基本组件。
只需将其归结为“抓取状态”和“处理”即可。爬网状态是您看到的URL,已爬网的URL等。处理包括提取URL和后续处理以提取链接,保存下载的数据等。多个处理线程通常并行运行。
,您也可以尝试Scrapy。它速度很快,并且可以在Linode 512M服务器上正常工作,但是它是用Python编写的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。