刮多个页面的网站的问题

如何解决刮多个页面的网站的问题

我使用的是python 3.8和scrapy 1.6,我写了一个Spider来抓取非英语网站,但是分页不起作用,我得到了一个仅包含页面元素的CSV文件。由于无法从其他类似问题中找到解决方案,因此我正在寻求帮助。

这是我的蜘蛛代码:

# -*- coding: utf-8 -*-
import scrapy
import logging
import urllib.parse
parts= urllib.parse.urlsplit(u'http://fa.wikipedia.org/wiki/صفحهٔ_اصلی')
parts= parts._replace(path=urllib.parse.quote(parts.path.encode('utf8')))
encoded_url= parts.geturl().encode('ascii')
'https://fa.wikipedia.org/wiki/%D8%B5%D9%81%D8%AD%D9%87%D9%94_%D8%A7%D8%B5%D9%84%DB%8C'


class PromotionsSpider(scrapy.Spider):
    name= 'promotions'
    allowed_domains=['www.digikala.com']
    
    def start_requests(self):
        yield scrapy.Request(url= 'https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4',callback= self.parse,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/84.0.4147.125 Safari/537.36'})

    def parse(self,response):
        for product in response.xpath("//ul[@class='c-listing__items']/li"):
            yield{
                'title':product.xpath(".//a[@class='js-product-url']/text()").get(),'star':product.xpath(".//div[@class='c-product-box__engagement-rating']/text()").get(),'discounted_percent':product.xpath(".//div[@class='c-price__discount-oval']/span/text()").get(),'discounted_price':product.xpath(".//div[@class='c-price__value-wrapper']/text()").get(),'original_price':product.xpath(".//div[@class='c-price__value c-price__value--plp']/del/text()").get(),'url':response.urljoin(product.xpath(".//a[@class='js-product-url']/@href").get())
            }

        next_page=response.xpath("//a[@class='c-pager__next']/@href").get()
        if next_page:
            yield scrapy.Request(url=next_page,callback=self.parse,like Gecko) Chrome/84.0.4147.125 Safari/537.36'})

在下一个产量部分中使用下一页按钮的绝对URL加上response.follow或response.urljoin也不起作用。我的意思是更改下面的代码也无济于事:

next_page=response.xpath("//html/body/main/div[2]/div/div[1]/div/div[2]/div/article/div/div[3]/ul/li[8]/a/@href").get()
if next_page:
    yield response.follow(url=next_page,headers={'User-Agent': 
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) 
        Chrome/84.0.4147.125 Safari/537.36'})

有人可以帮助我解决分页问题吗?

谢谢!

顺便说一句,这是我在运行答案1中的代码后得到的日志:

2020-08-19 08:35:29 [scrapy.utils.log] INFO: Scrapy 1.6.0 started (bot: digikala)
2020-08-19 08:35:29 [scrapy.utils.log] INFO: Versions: lxml 4.5.2.0,libxml2 2.9.10,cssselect 1.1.0,parsel 1.5.2,w3lib 1.21.0,Twisted 20.3.0,Python 3.8.5 (default,Aug  5 2020,09:44:06) [MSC v.1916 64 bit (AMD64)],pyOpenSSL 19.1.0 (OpenSSL 1.1.1g  21 Apr 2020),cryptography 2.9.2,Platform Windows-10-10.0.19041-SP0
2020-08-19 08:35:29 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'digikala','FEED_FORMAT': 'csv','FEED_URI': 'dataset1.csv','NEWSPIDER_MODULE': 'digikala.spiders','ROBOTSTXT_OBEY': True,'SPIDER_MODULES': ['digikala.spiders']}
2020-08-19 08:35:29 [scrapy.extensions.telnet] INFO: Telnet Password: 7e28ac39aab69aaa
2020-08-19 08:35:29 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats','scrapy.extensions.telnet.TelnetConsole','scrapy.extensions.feedexport.FeedExporter','scrapy.extensions.logstats.LogStats']
2020-08-19 08:35:29 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware','scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware','scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware','scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware','scrapy.downloadermiddlewares.useragent.UserAgentMiddleware','scrapy.downloadermiddlewares.retry.RetryMiddleware','scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware','scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware','scrapy.downloadermiddlewares.redirect.RedirectMiddleware','scrapy.downloadermiddlewares.cookies.CookiesMiddleware','scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware','scrapy.downloadermiddlewares.stats.DownloaderStats']
2020-08-19 08:35:29 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware','scrapy.spidermiddlewares.offsite.OffsiteMiddleware','scrapy.spidermiddlewares.referer.RefererMiddleware','scrapy.spidermiddlewares.urllength.UrlLengthMiddleware','scrapy.spidermiddlewares.depth.DepthMiddleware']
2020-08-19 08:35:29 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2020-08-19 08:35:29 [scrapy.core.engine] INFO: Spider opened
2020-08-19 08:35:29 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min),scraped 0 items (at 0 items/min)
2020-08-19 08:35:29 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-08-19 08:35:32 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET https://www.digikala.com/robots.txt> (failed 1 times): 500 Internal Server Error
2020-08-19 08:35:33 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET https://www.digikala.com/robots.txt> (failed 2 times): 500 Internal Server Error
2020-08-19 08:35:33 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET https://www.digikala.com/robots.txt> (failed 3 times): 500 Internal Server Error
2020-08-19 08:35:33 [scrapy.core.engine] DEBUG: Crawled (500) <GET https://www.digikala.com/robots.txt> (referer: None)
2020-08-19 08:35:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4> (referer: None)
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب تختخوابت را مرتب کن اثر ژنرال ویلیام اچ. مک ریون','star': '\n                            ۴.۴\n                            ','discounted_percent': '\n                                    ٪۱۰\n                                         ','discounted_price': '\n                                    ۱۳,۵۰۰ ','original_price': '۱۵,۰۰۰','url': 'https://www.digikala.com/product/dkp-392946/کتاب-تختخوابت-را-مرتب-کن-اثر-ژنرال-ویلیام-اچ-مک-ریون'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب خودت را به فنا نده اثر گری جان بیشاپ','discounted_percent': '\n                                    ٪۲۹\n                                         ','discounted_price': '\n                                    ۱۲,۷۰۰ ','original_price': '۱۸,'url': 'https://www.digikala.com/product/dkp-1050124/کتاب-خودت-را-به-فنا-نده-اثر-گری-جان-بیشاپ'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب قانون 5 ثانیه اثر مل رابینز نشر نوین','discounted_percent': None,'discounted_price': '\n                                    ۳۵,۰۰۰ ','original_price': None,'url': 'https://www.digikala.com/product/dkp-1505778/%DA%A9%D8%AA%D8%A7%D8%A8-%D9%82%D8%A7%D9%86%D9%88%D9%86-5-%D8%AB%D8%A7%D9%86%DB%8C%D9%87-%D8%A7%D8%AB%D8%B1-%D9%85%D9%84-%D8%B1%D8%A7%D8%A8%DB%8C%D9%86%D8%B2-%D9%86%D8%B4%D8%B1-%D9%86%D9%88%DB%8C%D9%86?variant_id=3853061&ads_cookie=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJ0eXBlIjoic3BvbnNvcmVkIiwiaWQiOjIzNTE4MCwidmFyaWFudF9pZCI6Mzg1MzA2MSwiZXhwaXJlX2F0IjoxNjAwNDg4MzMzfQ.1Mh5KnFzmaQyP-dW73x3Ik7xkdXaaYWyktov9XTE8rQ&click_expire=1'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب ای کاش وقتی 20 ساله بودم می دانستم اثر تینا سیلیگ','star': '\n                            ۴.۵\n                            ','discounted_percent': '\n                                    ٪۱۵\n                                         ','discounted_price': '\n                                    ۲۹,'original_price': '۳۴,'url': 'https://www.digikala.com/product/dkp-222291/کتاب-ای-کاش-وقتی-20-ساله-بودم-می-دانستم-اثر-تینا-سیلیگ'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب چهار اثر از فلورانس اسکاول شین\xa0اثر فلورانس اسکاول شین نشر پیکان','discounted_percent': '\n                                    ٪۲۵\n                                         ','discounted_price': '\n                                    ۴۸,۹۰۰ ','original_price': '۶۵,'url': 'https://www.digikala.com/product/dkp-2696368/کتاب-چهار-اثر-از-فلورانس-اسکاول-شین-اثر-فلورانس-اسکاول-شین-نشر-پیکان'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب شرمنده نباش دختر اثر ریچل هالیس نشر کتاب کوله پشتی','star': '\n                            ۴.۶\n                            ','discounted_price': '\n                                    ۳۰,'url': 'https://www.digikala.com/product/dkp-1556940/کتاب-شرمنده-نباش-دختر-اثر-ریچل-هالیس-نشر-کتاب-کوله-پشتی'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب هنر شفاف اندیشیدن اثر رولف دوبلی','discounted_price': '\n                                    ۵۸,۴۰۰ ','url': 'https://www.digikala.com/product/dkp-82937/کتاب-هنر-شفاف-اندیشیدن-اثر-رولف-دوبلی'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب زنان زیرک اثر شری آرگو','discounted_price': '\n                                    ۳۳,'url': 'https://www.digikala.com/product/dkp-413298/کتاب-زنان-زیرک-اثر-شری-آرگو'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب قانون جذب اثر راندا برن نشر نیک فرجام','discounted_percent': '\n                                    ٪۶۰\n                                         ','discounted_price': '\n                                    ۱۸,۰۸۰ ','original_price': '۴۵,'url': 'https://www.digikala.com/product/dkp-1598779/کتاب-قانون-جذب-اثر-راندا-برن-نشر-نیک-فرجام'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب نیمه تاریک وجود اثر دبی فورد نشر آتیسا','discounted_percent': '\n                                    ٪۵۹\n                                         ','original_price': '۴۶,'url': 'https://www.digikala.com/product/dkp-1111023/کتاب-نیمه-تاریک-وجود-اثر-دبی-فورد-نشر-آتیسا'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب کاش وقتی بیست ساله بودم می دانستم اثر تینا سیلیگ نشر میلکان','discounted_percent': '\n                                    ٪۲۲\n                                         ','discounted_price': '\n                                    ۲۷,۲۶۰ ','original_price': '۳۵,'url': 'https://www.digikala.com/product/dkp-2163319/کتاب-کاش-وقتی-بیست-ساله-بودم-می-دانستم-اثر-تینا-سیلیگ-نشر-میلکان'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب حکایت دولت و فرزانگی اثر مارک فیشر','discounted_price': '\n                                    ۱۵,'url': 'https://www.digikala.com/product/dkp-174855/کتاب-حکایت-دولت-و-فرزانگی-اثر-مارک-فیشر'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب از حال بد به حال خوب اثر دیوید برنز','discounted_price': '\n                                    ۹۰,'url': 'https://www.digikala.com/product/dkp-211336/کتاب-از-حال-بد-به-حال-خوب-اثر-دیوید-برنز'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب پدر پولدار، پدر بی پول اثر رابرت کیوساکی','discounted_price': '\n                                    ۳۶,'original_price': '۴۸,'url': 'https://www.digikala.com/product/dkp-38248/کتاب-پدر-پولدار-پدر-بی-پول-اثر-رابرت-کیوساکی'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب برتری خفیف اثر جف اولسون','discounted_percent': '\n                                    ٪۱۳\n                                         ','discounted_price': '\n                                    ۳۹,۱۰۰ ','url': 'https://www.digikala.com/product/dkp-141776/کتاب-برتری-خفیف-اثر-جف-اولسون'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب اسرار ذهن ثروتمند اثر تی. هارو اکر','url': 'https://www.digikala.com/product/dkp-38199/کتاب-اسرار-ذهن-ثروتمند-اثر-تی-هارو-اکر'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب عیبی ندارد اگر حالت خوش نیست اثر مگان دیواین نشر میلکان','url': 'https://www.digikala.com/product/dkp-2295613/کتاب-عیبی-ندارد-اگر-حالت-خوش-نیست-اثر-مگان-دیواین-نشر-میلکان'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب به بچه ها گفتن، از بچه ها شنیدن 1 (گفت و شنود با کودکان)','discounted_price': '\n                                    ۵۵,'url': 'https://www.digikala.com/product/dkp-40926/کتاب-به-بچه-ها-گفتن-از-بچه-ها-شنیدن-1-گفت-و-شنود-با-کودکان'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب تحلیل رفتار متقابل اثر اریک برن','star': '\n                            ۴.۲\n                            ','discounted_price': '\n                                    ۶۵,'url': 'https://www.digikala.com/product/dkp-191367/کتاب-تحلیل-رفتار-متقابل-اثر-اریک-برن'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب پاکسازی ضمیر اثر دبی فورد انتشارات آتیسا','star': '\n                            ۴.۳\n                            ','discounted_percent': '\n                                    ٪۶۵\n                                         ','discounted_price': '\n                                    ۱۶,'url': 'https://www.digikala.com/product/dkp-1647566/کتاب-پاکسازی-ضمیر-اثر-دبی-فورد-انتشارات-آتیسا'}
2020-08-19 08:35:35 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4>
{'title': 'کتاب فلسفه تنهایی اثر لارس اسونسن نشر نو','url': 'https://www.digikala.com/product/dkp-1109645/کتاب-فلسفه-تنهایی-اثر-لارس-اسونسن-نشر-نو'}
2020-08-19 08:35:36 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62> (referer: https://www.digikala.com/search/category-book/?type[0]=4844&promotion_types[0]=promotion&pageno=1&last_filter=type&last_value=4844&sortby=4)
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب ماساژ آیورودیک اثر هریش جوهری انتشارات سفیر اردهال','star': None,'discounted_price': None,'url': 'https://www.digikala.com/product/dkp-2957437/کتاب-ماساژ-آیورودیک-اثر-هریش-جوهری-انتشارات-سفیر-اردهال'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب انسان های موفق چگونه می اندیشند اثر جان سی مکس ول','url': 'https://www.digikala.com/product/dkp-178649/کتاب-انسان-های-موفق-چگونه-می-اندیشند-اثر-جان-سی-مکس-ول'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب سمینار تصویری آموزشی اثر برایان تریسی','url': 'https://www.digikala.com/product/dkp-242658/کتاب-سمینار-تصویری-آموزشی-اثر-برایان-تریسی'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب تا نغمه ای در دل دارید باید زنده بمانید اثر سرنا دایر،وین دایر','url': 'https://www.digikala.com/product/dkp-247582/کتاب-تا-نغمه-ای-در-دل-دارید-باید-زنده-بمانید-اثر-سرنا-دایروین-دایر'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب اینترنت با مغز ما چه می کند اثر نیکلاس کار','url': 'https://www.digikala.com/product/dkp-143243/کتاب-اینترنت-با-مغز-ما-چه-می-کند-اثر-نیکلاس-کار'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب به چشمک های خداوند توجه کن اثر اسکوایر راشنل','star': '\n                            ۵\n                            ','url': 'https://www.digikala.com/product/dkp-271643/کتاب-به-چشمک-های-خداوند-توجه-کن-اثر-اسکوایر-راشنل'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب گانگ هو، مدیریت شگفت انگیز اثر کنت بلانچارد\xa0نشر نسل نواندیش','url': 'https://www.digikala.com/product/dkp-41160/کتاب-گانگ-هو-مدیریت-شگفت-انگیز-اثر-کنت-بلانچارد-نشر-نسل-نواندیش'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب راز شادابی کودکان اثر استیو بیدالف','star': '\n                            ۳\n                            ','url': 'https://www.digikala.com/product/dkp-71210/کتاب-راز-شادابی-کودکان-اثر-استیو-بیدالف'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب زندگی مثبت اثر کارن ریویچ،اندرو شاته','url': 'https://www.digikala.com/product/dkp-242600/کتاب-زندگی-مثبت-اثر-کارن-ریویچاندرو-شاته'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب آموزش محبت آمیز کودکان اثر دکتر مارشال روزنبرگ','star': '\n                            ۴\n                            ','url': 'https://www.digikala.com/product/dkp-345552/کتاب-آموزش-محبت-آمیز-کودکان-اثر-دکتر-مارشال-روزنبرگ'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب آینده خود را خلق کنید اثر برایان تریسی','url': 'https://www.digikala.com/product/dkp-38192/کتاب-آینده-خود-را-خلق-کنید-اثر-برایان-تریسی'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب پیام تن اثر ترز برترا و کارول برنشتاین نشر آسیم','url': 'https://www.digikala.com/product/dkp-2329294/کتاب-پیام-تن-اثر-ترز-برترا-و-کارول-برنشتاین-نشر-آسیم'}
2020-08-19 08:35:36 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.digikala.com/search/category-book/?type%5B0%5D=4844&promotion_types%5B0%5D=promotion&last_filter=type&last_value=4844&sortby=4&pageno=62>
{'title': 'کتاب قدرت همزمانی اثر دیوید ریکو نشر افکار','url': 'https://www.digikala.com/product/dkp-2270633/کتاب-قدرت-همزمانی-اثر-دیوید-ریکو-نشر-افکار'}
2020-08-19 08:35:36 [scrapy.core.engine] INFO: Closing spider (finished)
2020-08-19 08:35:36 [scrapy.extensions.feedexport] INFO: Stored csv feed (54 items) in: dataset1.csv
2020-08-19 08:35:36 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 1829,'downloader/request_count': 5,'downloader/request_method_count/GET': 5,'downloader/response_bytes': 173357,'downloader/response_count': 5,'downloader/response_status_count/200': 2,'downloader/response_status_count/500': 3,'finish_reason': 'finished','finish_time': datetime.datetime(2020,8,19,4,5,36,263555),'item_scraped_count': 54,'log_count/DEBUG': 60,'log_count/INFO': 10,'request_depth_max': 1,'response_received_count': 3,'retry/count': 2,'retry/max_reached': 1,'retry/reason_count/500 Internal Server Error': 2,'robotstxt/request_count': 1,'robotstxt/response_count': 1,'robotstxt/response_status_count/500': 1,'scheduler/dequeued': 2,'scheduler/dequeued/memory': 2,'scheduler/enqueued': 2,'scheduler/enqueued/memory': 2,'start_time': datetime.datetime(2020,29,409327)}
2020-08-19 08:35:36 [scrapy.core.engine] INFO: Spider closed (finished)

重点是'item_scraped_count'应该是2000左右,但仍然是54

解决方法

您可以这样尝试吗?

next_page=response.xpath("//a[@class='c-pager__next']/@href").get()
if next_page:
    yield scrapy.Request(response.urljoin(next_page),headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/84.0.4147.125 Safari/537.36'})

第二段代码中的xpath对我没有任何结果,因此这是行不通的。 如果您可以共享日志,这也很有用,这样我们就可以查看是否还有其他问题。

编辑: 上面的xpath将为您提供转到最后一页的链接。要转到下一页,可以使用以下页面:

next_page = response.xpath('//*[@class="c-pager__item is-active"]/../following-sibling::*//@href').extract_first()

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-