如何解决Scrapy response.status是否不是100%准确?
我正在使用l.add_value('http_status',response.status)
来捕获每个域的响应状态并将其存储在SQL数据库中,但是某些域没有响应状态(空)。起初,我以为它们可能阻止了scrapy,但是当我在这些域上再次运行scrapy时,我的状态恢复为200。在使用urllib进行第二次检查之前,我想先问一下是否有人遇到过这种情况。之前或有任何建议。
解决方法
有几个原因导致请求未收到响应,
1)DNS未能及时找到它,即无法解析(增加DNS_TIMEOUT
)
2)服务器花了一段时间做出响应(增加了DOWNLOAD_TIMEOUT
)
3)如果您要检查大于1Gb的大文件(增加DOWNLOAD_MAXSIZE
)
4)您的互联网连接出现问题(DNS已解决,但之后您失去了连接)
5)Web服务器暂时关闭
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。