如何解决抓取n个域
我正在尝试检索许多具有不同允许域的网站。两个网站的方法是使用以下规则的代码:
class ArticleSpider(CrawlSpider):
name = 'ArticleSpider'
allowed_domains = [
'necjournals.ir','jlap.srbiau.ac.ir',]
start_urls = [
'http://necjournals.ir','http://jlap.srbiau.ac.ir',]
rules = (Rule(LinkExtractor(allow=()),callback='parse_link',follow=True),)
def parse_link(self,response):
yield {
'url' : response.url,}
但是我想要抓取的网站数量大约是1700个,请问有什么方法可以将start_urls和allowed_domain作为变量传递给蜘蛛?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。