引发ValueError'请求网址中缺少方案：％s'％self._urlValueError：请求网址中缺少方案：javascript：void0;

如何解决引发ValueError'请求网址中缺少方案：％s'％self._urlValueError：请求网址中缺少方案：javascript：void0;

这是我的蜘蛛密码

spider.py

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'moneycontrol'
    # allowed_domains = ['moneycontrol.com']
    start_urls = ['https://www.moneycontrol.com/india/stockpricequote/']

    def parse(self,response):
        stoke_link_list = response.css("table a::attr(href)").getall()

        if response.css("span.span_price_wrap::text").getall(): # value of this variable only present in first run
            stock_name =  response.css("h1.pcstname::text").get()
            bse_price,nse_price = response.css("span.span_price_wrap::text").getall()
            print(stock_name + ' ' + bse_price + ' ' + nse_price)
        else:
            print('stock_name bse_price nse_price')

        for link in stoke_link_list:
            if link is not None:
                next_page = response.urljoin(link)
                # yield scrapy.Request(next_page,callback=self.parse)
                yield response.follow(next_page,callback=self.parse)

在运行此程序时，出现一个奇怪的错误。再次运行时在刮擦某些网站时会报错，而在刮擦其他网站时会报错（我是说可能会在以前的网站上运行）。

错误：

2020-08-20 19:52:49 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.moneycontrol.com/mutual-funds/nav/motilal-oswal-midcap-30-fund-regular-plan/MMO025> (referer: https://www.moneycontrol.com/india/stockpricequote/pharmaceuticals/abbottindia/AI51)
Traceback (most recent call last):


  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/utils/defer.py",line 120,in iter_errback
    yield next(it)
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/utils/python.py",line 346,in __next__
    return next(self.data)
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/utils/python.py",in __next__
    return next(self.data)
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/core/spidermw.py",line 64,in _evaluate_iterable
    for r in iterable:
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/spidermiddlewares/offsite.py",line 29,in process_spider_output
    for x in result:
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/core/spidermw.py",in _evaluate_iterable
    for r in iterable:
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/spidermiddlewares/referer.py",line 340,in <genexpr>
    return (_set_referer(r) for r in result or ())
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/core/spidermw.py",in _evaluate_iterable
    for r in iterable:
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/spidermiddlewares/urllength.py",line 37,in <genexpr>
    return (r for r in result or () if _filter(r))
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/core/spidermw.py",in _evaluate_iterable
    for r in iterable:
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/spidermiddlewares/depth.py",line 58,in _evaluate_iterable
    for r in iterable:
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/moneycontrol/moneycontrol/spiders/my_spider.py",line 24,in parse
    yield scrapy.Request(next_page,callback=self.parse)
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/http/request/__init__.py",line 25,in __init__
    self._set_url(url)
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/http/request/__init__.py",line 69,in _set_url
    raise ValueError('Missing scheme in request url: %s' % self._url)
ValueError: Missing scheme in request url: javascript:void(0);

Run2

2020-08-20 19:55:15 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.moneycontrol.com/mutual-funds/nav/dsp-equity-opportunities-fund-regular-plan/MDS011> (referer: https://www.moneycontrol.com/india/stockpricequote/pharmaceuticals/alkemlaboratories/AL05)
Traceback (most recent call last):
  File "/home/vishvajeet/Desktop/Programming/python/scrapy/env/lib/python3.6/site-packages/scrapy/utils/defer.py",in _set_url
    raise ValueError('Missing scheme in request url: %s' % self._url)
ValueError: Missing scheme in request url: javascript:void(0);

我查看了其他stackoverflow答案，但都没有解决我的问题。例如尝试使用start_urls进行列表，使用关注等。 Missing scheme in request URL

解决方法

错误“ 请求网址中缺少方案”表示该URL没有http：//或https：//前缀。

由于正在测试的网页中存在带有相对URL的链接，因此出现了问题。

例如，在 moneycontrol.com 网站上名为“ Zee entertain ”的链接具有

“ /印度/股票价格/ mediaentertainment / zeeentertainmententerprises / ZEE”的参考值

因此，当Python程序尝试打开此链接时，将引发“缺少方案”错误。

如何解决该问题？

可以通过预先解决“ 缺少方案”的问题 https：//主机名到所有相对的URL链接（即，不以http：//或https：//开头的链接）

代码段，用于将https：//主机名添加到相对URL：

for link in stoke_link_list:
    if link is not None:
        if not link.startswith("https://moneycontrol.com/")
            page_url = ("https://moneycontrol.com/" + link)

引发ValueError'请求网址中缺少方案：％s'％self._urlValueError：请求网址中缺少方案：javascript：void0;

如何解决引发ValueError'请求网址中缺少方案：％s'％self._urlValueError：请求网址中缺少方案：javascript：void0;

解决方法

相关推荐