scrapy中的无效xpathpython

如何解决scrapy中的无效xpathpython

您好，我正在尝试使用scrapy构建爬虫我的搜寻器代码是：

import scrapy
from shop.items import ShopItem


class ShopspiderSpider(scrapy.Spider):
    name = 'shopspider'
    allowed_domains = ['www.organics.com']
    start_urls = ['https://www.organics.com/product-tag/special-offers/']



    def parse(self,response):
      items = ShopItem()
      title = response.xpath('//*[@id="content"]/div[2]/div[1]/ul/li[1]/a/h3').extract()
      sale_price = response.xpath('//*[@id="content"]/div[2]/div[1]/ul/li[1]/a/span[2]/del/span').extract()
      product_original_price = response.xpath('//*[@id="content"]/div[2]/div[1]/ul/li[1]/a/span[2]/ins/span').extract()
      category = response.xpath('//*[@id="content"]/div[2]/div[1]/ul/li[1]/a/span[2]/ins/span').extract()

      items['product_name'] = ''.join(title).strip()
      items['product_sale_price'] = ''.join(sale_price).strip()
      items['product_original_price'] = ''.join(product_original_price).strip()
      items['product_category'] = ','.join(map(lambda x: x.strip(),category)).strip()
      yield items

但是当我运行命令时： scrapy crawlshoppider -o info.csv
以查看输出，我只能找到有关第一个产品的信息，而不是此页面中的所有产品。
因此，我删除了xpath中[]之间的数字，例如标题：// * [@@ =“ =”“” / div / div / ul / li / li / a / h3的xpath
但仍然得到相同的结果。
结果是：<span class="amount">Â£40.00</span>,<h3>Halo Skincare Organic Gift Set</h3>,"<span class=""amount"">Â£40.00</span>","<span class=""amount"">Â£58.00</span>"
请帮助

解决方法

如果删除XPath上的索引，它们将在页面中找到所有项目：

response.xpath('//*[@id="content"]/div/div/ul/li/a/h3').extract() # Returns 7 items

但是，您应该注意到这将返回所选html元素的字符串列表。如果要在元素内添加文本，则应在XPath中添加/text()。（看起来像你）

此外，您只能获得一个退货的原因是，当您将所有项目分配给item时，它们会将它们串联为一个字符串：

items['product_name'] = ''.join(title).strip()

此处title是元素列表，您可以将所有元素串联在单个字符串中。相同的逻辑适用于其他变量

如果这确实是您想要的，则可以忽略以下内容，但是我认为更好的方法是执行一个for循环并分别yield进行执行？

我的建议是：

def parse(self,response):
  products = response.xpath('//*[@id="content"]/div/div/ul/li')
  for product in products:
      items = ShopItem()
      items['product_name'] = product.xpath('a/h3/text()').get()
      items['product_sale_price'] = product.xpath('a/span/del/span/text()').get()
      items['product_original_price'] = product.xpath('a/span/ins/span/text()').get()
      items['product_category'] = product.xpath('a/span/ins/span/text()').get()

      yield items

请注意，在您的原始代码中，您的category变量具有与您的product_original_price相同的XPath，我将逻辑保留在代码中，但这可能是一个错误。

scrapy中的无效xpathpython

如何解决scrapy中的无效xpathpython

解决方法

相关推荐