如何解决Scrapy错误:请求网址中缺少方案
运行草率的程序时,我遇到一些网址问题
ValueError: Missing scheme in request url: mailto:?body=https%3A%2F%2Fiview.abc.net.au%2Fshow%2Finsiders
[scrapy.core.scraper:168|ERROR] Spider error processing <GET https://iview.abc.net.au/show/four-corners/series/2020/video/NC2003H028S00> (referer: None)
这是我的设置:
"base_urls" : [
{
# Start crawling from
"url": "https://www.abc.net.au/",# Overwrite the default crawler and use th RecursiveCrawler instead
"crawler": "RecursiveCrawler",
在以下设置下可以正常工作
"base_urls" : [
{
# Start crawling from
"url": "https://www.afr.com/",
不确定我在这里缺少什么
解决方法
由于内容刮刮,您有不同的行为。问题在于,您的蜘蛛有时会尝试对此URL发出请求:
mailto:?body=https%3A%2F%2Fiview.abc.net.au%2Fshow%2Finsiders
正确的URL可能是这样:
https://iview.abc.net.au/show/insiders
您可能是在刮取了错误的字段,或者在检索此“ URL”的站点中有错误。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。