如何解决请勿随意抓取图片,css或主题以及脚本
我需要防止从网页上加载图像,css文件,主题和脚本。在基本的刮with中
有什么方法可以阻止它们访问setting.py或其他?
进口沙皮
class MySpyder(scrapy.Spider):
name = 'Spiderr'
start_urls = [l.strip() for l in open("Archive").readlines()]
def parse(self,response):
tittle = response.xpath("/html/body/").get('').strip()
url = response.url
yield {
'tittle': tittle,'URL': url,}
我想这会使网站的痛苦减少
解决方法
仅在响应时草率地使用源代码
您可以使用response.text
您要指的是JS渲染,哪些不适用于刮擦。
如果您想减少服务器访问量,则需要从time delay
中添加decrease concurrent requests
和settings.py
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。