在两种解析方法之间发送数据并获取KeyError SCRAPY

如何解决在两种解析方法之间发送数据并获取KeyError SCRAPY

我正尝试抓取此链接。

https://www.thomasnet.com/suppliers

我想在两个解析方法之间发送类别名称，但是当scrapy crawler跟随下一页时，它为KeyError给出了category_name。

categories_names = response.request.meta['categories_names']
KeyError: 'categories_names'

在进入下一页时，如何获得相同类别的名称？

# -*- coding: utf-8 -*-
import scrapy

class MainSpider(scrapy.Spider):
    name = 'main'
    start_urls = ['https://www.thomasnet.com/suppliers']

    def parse(self,response):
        li = response.xpath('//div[@class="titled-list titled-list--covid-19-response-section titled-list--dropdown "]/ul/li/a')
        # li = response.xpath('//div[contains(@class,"titled-list--dropdown")]/ul/li/a')
        for each in li:
            categories_links = each.xpath('.//@href').get()
            categories = each.xpath('.//text()').get()

            yield response.follow(url=categories_links,callback=self.parse_li,meta={"categories_names": categories})


    def parse_li(self,response):
        categories_names = response.request.meta['categories_names']
        rows = response.xpath('//header[@class="profile-card__header"]/parent::div')
        for row in rows:
            links = row.xpath('.//header[@class="profile-card__header"]/h2/a/@href').get()
            company_type = row.xpath('.//span[@data-content="Company Type"]/text()[2]').get()
            yield {
                "Links": links,"Categories": categories_names,"Company Type": company_type if company_type else "N/A"
            }

        
        next_page = response.xpath('(//*[@class="icon"]/parent::a[@class="page-link"])[2]/@href').get()
        if next_page:
            yield response.follow(url=next_page,callback=self.parse_li)

解决方法

自从我误解了问题以来，我已经编辑了答案。

我相信问题在于parse_li会递归地产生新请求，但不会再次分配元参数：

    next_page = response.xpath('(//*[@class="icon"]/parent::a[@class="page-link"])[2]/@href').get()
    if next_page:
        yield response.follow(url=next_page,callback=self.parse_li)

据我所知meta中的任意数据不会传播到以下请求，因此您需要重新声明它：

        yield response.follow(
            url=next_page,callback=self.parse_li,meta={"categories_names": categories_names}
        )

考虑以后再查看cb_kwargs，自Scrapy v1.7起，推荐使用它们作为在请求之间传递仲裁数据的参数，您可以将其检出here。（它们的工作原理与meta稍有不同）

您应该从响应对象访问meta属性。

categories_names = response.meta ['categories_names']

但是，现在建议这样做的方法是使用cb_kwags。

https://docs.scrapy.org/en/latest/topics/request-response.html?highlight=cb#passing-additional-data-to-callback-functions

在两种解析方法之间发送数据并获取KeyError SCRAPY

如何解决在两种解析方法之间发送数据并获取KeyError SCRAPY

解决方法

相关推荐