Python2 爬虫六 -- 初尝Scrapy框架

1、Scrapy简介

Scrapy是1个为了爬取网站数据,提取结构性数据而编写的利用框架。 可以利用在包括数据发掘,信息处理或存储历史数据等1系列的程序中。
其最初是为了 页面抓取 (更确切来讲,网络抓取 )所设计的, 也能够利用在获得API所返回的数据(例如 Amazon Associates Web Services ) 或通用的网络爬虫。
Scrapy官网文档 -- 戳我

本来我是基于Python3.5学习爬虫的,但是Python3.x不支持Scrapy框架。即使不支持,也不能就此放弃这个强大的框架,因而转战Ubuntu,搭建Python2.7环境,安装Scrapy,开始学习~~~

2、环境搭建

【1】系统Ubuntu 15
【2】Python版本 -- 2.7 & 3.4 , 安装pip工具


我的Ubuntu系统上安装了Python2.7和Python3.4两个版本,但是默许配置仍然是2.7。
【3】安装Scrapy
使用命令(apt-get install python-scrapy)或(pip install scrapy)安装:


验证安装完成:


出现上图内容,说明正确安装Scrapy。其实Scrapy框架依赖setuptools,lxml,和OpenSSL软件,但是Ubuntu中Python2.7已内置安装,所以,1个简单的命令便可完成Scrapy框架的配置,非常简便。
至此,Scrapy已配置完成,下面开始我们的第1个Scrapy爬虫项目吧。

3、第1个Scrapy爬虫实例

此实例源于官网(Scrapy入门教程)。

3.1 开发步骤

接下来以 Open Directory Project(dmoz) (dmoz) 为例来说述爬取。
  1. 创建1个Scrapy项目
  2. 定义提取的Item
  3. 编写爬取网站的 spider 并提取 Item
  4. 编写 Item Pipeline 来存储提取到的Item(即数据)

3.2 创建项目

在开始爬取之前,您必须创建1个新的Scrapy项目。 进入您打算存储代码的目录中,运行以下命令:
scrapy startproject tutorial
该命令将会创建包括以下内容的 tutorial 目录:
tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...
这些文件分别是:
  1. scrapy.cfg: 项目的配置文件.
  2. tutorial/: 该项目的python模块。以后您将在此加入代码.
  3. tutorial/items.py: 项目中的item文件.
  4. tutorial/pipelines.py: 项目中的pipelines文件.
  5. tutorial/settings.py: 项目的设置文件.
  6. tutorial/spiders/: 放置spider代码的目录.

3.3 定义Item

Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写毛病致使的未定义字段毛病。item可以用scrapy.item.Item类来创建,并且用scrapy.item.Field对象来定义属性(可以理解成类似于ORM的映照关系)。
类似在ORM中做的1样,您可以通过创建1个 scrapy.Item 类, 并且定义类型为 scrapy.Field 的类属性来定义1个Item。 
首先根据需要从dmoz.org获得到的数据对item进行建模。 我们需要从dmoz中获得名字,url,和网站的描写。 对此,在item中定义相应的字段。编辑 tutorial 目录中的 items.py 文件,添加类DmozItem:
import scrapy class DmozItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() desc = scrapy.Field()

3.4 编写第1个爬虫

Spider是用户编写用于从单个网站(或1些网站)爬取数据的类。
其包括了1个用于下载的初始URL,如何跟进网页中的链接和如何分析页面中的内容, 提取生成 item 的方法。
为了创建1个Spider,您必须继承 scrapy.Spider 类, 且定义以下3个属性:
  • name: 用于区分Spider。 该名字必须是唯1的,您不可以为不同的Spider设定相同的名字。
  • start_urls: 包括了Spider在启动时进行爬取的url列表。 因此,第1个被获得到的页面将是其中之1。 后续的URL则从初始的URL获得到的数据中提取。
  • parse() 是spider的1个方法。 被调用时,每一个初始URL完成下载后生成的 Response 对象将会作为唯1的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)和生成需要进1步处理的URL的 Request 对象。
以下为我们的第1个Spider代码,保存在 tutorial/spiders 目录下的 dmoz_spider.py 文件中:
import scrapy class DmozSpider(scrapy.spiders.Spider): name = dmoz allowed_domains = [dmoz.org] start_urls = [ http://www.dmoz.org/Computers/Programming/Languages/Python/Books/,http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/ ] def parse(self,response): filename = response.url.split(/)[⑵] with open(filename,'wb') as f: f.write(response.body)

3.4.1 爬取

在项目的根目录输入命令(scrapy crawl dmoz)运行我们的爬虫,得到结果:

...中间省略


最后1句INFO: Closing spider (finished)表明爬虫已成功运行并且自行关闭了。
查看包括 [dmoz] 的输出,可以看到输出的log中包括定义在 start_urls 的初始URL,并且与spider中是逐一对应的。在log中可以看到其没有指向其他页面( (referer:None) )。
那末,刚才产生了甚么?
首先,Scrapy为Spider的 start_urls 属性中的每一个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了Request。
然后,Request对象经过调度,履行生成 scrapy.http.Response 对象并送回给spider parse() 方法。

3.4.2 使用XPath

Selectors选择器简介:
从网页中提取数据有很多方法。Scrapy使用了1种基于 XPath 和 CSS 表达式机制: Scrapy Selectors 。 关于selector和其他提取机制的信息请参考 Selector文档 。
这里给出XPath表达式的例子及对应的含义:
  • /html/head/title: 选择HTML文档中 <head> 标签内的 <title> 元素
  • /html/head/title/text(): 选择上面提到的 <title> 元素的文字
  • //td: 选择所有的 <td> 元素
  • //div[@class=mine]: 选择所有具有 class=mine 属性的 div 元素
为了配合XPath,Scrapy除提供了 Selector 以外,还提供了方法来避免每次从response中提取数据时生成selector的麻烦。
Selector有4个基本的方法:
  • xpath(): 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 。
  • css(): 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表。
  • extract(): 序列化该节点为unicode字符串并返回list。
  • re(): 根据传入的正则表达式对数据进行提取,返回unicode字符串list列表。
首先,先查看1下我们需要爬取的网页http://www.dmoz.org/Computers/Programming/Languages/Python/Books/


然后,在Shell中尝试Selector选择器
为了介绍Selector的使用方法,接下来我们将要使用内置的 Scrapy shell 。Scrapy Shell需要您预装好IPython(1个扩大的Python终端)。进入项目的根目录,履行以下命令来启动shell:
scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/


当shell载入后,您将得到1个包括response数据的本地 response 变量。输入 response.body 将输出response的包体, 输出 response.headers 可以看到response的包头。
更加重要的是,当输入 response.selector 时, 您将获得到1个可以用于查询返回数据的selector(选择器), 和映照到 response.selector.xpath() 、 response.selector.css() 的 快捷方法(shortcut): response.xpath() 和 response.css() 。
同时,shell根据response提早初始化了变量 sel 。该selector根据response的类型自动选择最适合的分析规则(XML vs HTML)。
让我们来试试:


xpath路径表达式(说明):
表达式 描写
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择确当前节点选择文档中的节点,而不斟酌它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。

3.4.3 查看网页源代码,提取有用数据


在查看了网页的源码后,您会发现网站的信息是被包括在 第2个 <ul> 元素中。
我们可以通过这段代码选择该页面中网站列表里所有 <li> 元素:
sel.xpath('//ul/li')
网站的描写:
sel.xpath('//ul/li/text()').extract()
网站的标题:
sel.xpath('//ul/li/a/text()').extract()
和网站的链接:
sel.xpath('//ul/li/a/@href').extract()
之条件到过,每一个 .xpath() 调用返回selector组成的list,因此我们可以拼接更多的 .xpath() 来进1步获得某个节点。我们将在下边使用这样的特性:

for sel in response.xpath('//ul/li'): title = sel.xpath('a/text()').extract() link = sel.xpath('a/@href').extract() desc = sel.xpath('text()').extract() print title,link,desc

3.4.4 修改dmoz_spider.py中DmozSpider类的代码:

# -*- coding: UTF⑻ -*- import scrapy,sys from scrapy.spider import Spider from scrapy.selector import Selector from tutorial.items import DmozItem #设置编码格式 reload(sys) sys.setdefaultencoding('gbk') class DmozSpider(Spider): name = dmoz allowed_domains = [dmoz.org] start_urls = [ http://www.dmoz.org/Computers/Programming/Languages/Python/Books/,http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/ ] def parse(self,response): The lines below is a spider contract. For more info see: http://doc.scrapy.org/en/latest/topics/contracts.html @url http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/ @scrapes name sel = Selector(response) sites = sel.xpath('//ul/li') for site in sites: title = site.xpath('a/text()').extract() link = site.xpath('a/@href').extract() disc = site.xpath('text()').extract() print(title= +str(title)+\tlink= +str(link)+\tdisc= +str(disc)+\n)
说明:

  • 代码中的中文注释,首句添加# -*- coding: UTF⑻ -*- 避免出现编码毛病
  • 若有写文件操作添加代码sys.setdefaultencoding('gbk'),设置编码格式

在项目的根目录输入命令(scrapy crawl dmoz)运行我们的爬虫,得到结果:


...省略
对照网站内容,我们发现网页顶层的Top和Python部份也被抓取出来,我们把这部份过滤掉。根据网页源代码发现,我们所要提取的目标信息是从  <ul class=directory-url...开始的。再次修改代码:
sites = sel.xpath('//ul[@class=directory-url]/li')
重新运行会发现此时已将Top和Python部份过滤掉了。

3.5 使用Item提取,并保存至dmoz.json

3.5.1  使用Item

Item 对象是自定义的python字典。 您可使用标准的字典语法来获得到其每一个字段的值。(字段即是我们之前用Field赋值的属性):
>>> item = DmozItem() >>> item['title'] = 'Example title' >>> item['title'] 'Example title'
1般来讲,Spider将会将爬取到的数据以 Item 对象返回。所以为了将爬取的数据返回,修改dmoz_spider.py中DmozSpider类的代码:
# -*- coding: UTF⑻ -*- import scrapy from scrapy.spider import Spider from scrapy.selector import Selector from tutorial.items import DmozItem #设置编码格式 reload(sys) sys.setdefaultencoding('gbk') class DmozSpider(Spider): name = dmoz allowed_domains = [dmoz.org] start_urls = [ http://www.dmoz.org/Computers/Programming/Languages/Python/Books/,response): The lines below is a spider contract. For more info see: http://doc.scrapy.org/en/latest/topics/contracts.html @url http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/ @scrapes name sel = Selector(response) sites = sel.xpath('//ul[@class=directory-url]/li') items = [] for site in sites: item = DmozItem() item['title'] = site.xpath('a/text()').extract() item['link'] = site.xpath('a/@href').extract() item['desc'] = site.xpath('text()').re('-\s[^\n]*\\r') items.append(item) return items

3.5.2 运行并保存为json文件

保存信息的最简单的方法是通过Feed exports,主要有4种:JSON,JSON lines,CSV,XML。
我们将结果用最经常使用的JSON导出,命令以下:
scrapy crawl dmoz -o items.json -t json  
-o 后面是导出文件名,-t 后面是导出类型。
运行结果:

查看items.json文件:

3.6 使用Pipeline输出结果

打开tutuorial/tutorial/pipelines.py文件,添加自定义JsonWithEncodingTutorialPipeline类代码:
# -*- coding: utf⑻ -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html import scrapy from scrapy import signals import json,codecs class TutorialPipeline(object): def process_item(self,item,spider): return item class JsonWithEncodingTutorialPipeline(object): def __init__(self): self.file = codecs.open('dmoz.json','w',encoding='utf⑻') def process_item(self,spider): line = json.dumps(dict(item),ensure_ascii=False)+'\n\n' self.file.write(line) return item def spider_closed(self,spider): self.file.close()
打开tutuorial/tutorial/settings.py文件,在末尾追加部份代码:
# -*- coding: utf⑻ -*- # Scrapy settings for tutorial project # # For simplicity,this file contains only the most important settings by # default. All the other settings are documented here: # # http://doc.scrapy.org/en/latest/topics/settings.html # BOT_NAME = 'tutorial' SPIDER_MODULES = ['tutorial.spiders'] NEWSPIDER_MODULE = 'tutorial.spiders' # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'tutorial (+http://www.yourdomain.com)' ITEM_PIPELINES = { 'tutorial.pipelines.JsonWithEncodingTutorialPipeline': 300,} LOG_LEVEL = 'INFO'
重新运行scrapy crawl dmoz:


我们可以发现,在根目录下多了1个dmoz.json文件,这就是我们利用pipeline管道自动生成的结果文件,可以查看其内容与上节的结果完全相同。

完全代码见:GitHub代码链接(请猛戳~~~)



版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


HTML代码中要想改变字体颜色,常常需要使用CSS样式表。CSS是一门用来描述网页上样式的语言,通过编写CSS代码可以实现网页中各元素的大小、颜色、字体等各种样式的控制。那么如何在HTML代码中应用CSS样式来改变字体颜色呢?这里为大家介绍一下。 首先,在HTML代码...
HTML代码如何让字体盖住图片呢?需要使用CSS的position属性及z-index属性。 img { position: relative; z-index: -1; } p { position: absolute; to...
HTML代码字体设置 在HTML中,我们可以使用标签来设置网页中的文字字体。常用的字体标签是font和style,下面我们来学习如何使用这些标签。 1. font标签 使用font标签可以改变文字的字体、颜色和大小。它有三个属性font-family、color和...
在网页设计中,HTML代码的字体和字号选择是非常重要的一个环节,因为它们直接关系到页面的可读性和视觉效果。 要指定文本的字体和字号,可以使用HTML中的样式属性。使用样式属性设置字体和字号,如下所示: <p style="font-family: Aria...
HTML(Hypertext Markup Language,超文本标记语言)是一种用于创建网页的标准语言。它由许多标签(一对尖括号包围的关键字)组成,这些标签告诉浏览器如何显示内容。使用HTML代码,我们可以轻松地创建各种类型的图像和图形,如太极图。 在HTM...
外链是指在一个网页中添加一个指向其他网站的链接,用户可以通过这个链接直接跳转到其他网站。在HTML中,实现外链的方法很简单,只需要使用标签就可以了。 <a href="http://www.example.com">这是一个外链,点击跳转到www.ex...
HTML代码是实现网页界面的基础,而网页中的各种表单则是用户和网站进行交互的重要方式之一。下面我们来介绍如何使用HTML代码实现一个简单的报名表格。 <form action="submit.php" method="post"> &lt...
HTML是一种标记语言,用于开发网站和其他互联网内容。字体是网站设计中的关键元素之一,它可以决定网站的整体风格和呈现效果。HTML提供了字体编辑器,使网站设计变得更加容易。 <font face="Arial"> 这里是Arial字体 &...
HTML代码中,字体样式是开发者们必备的一部分。在HTML中,我们可以通过特定的标签和属性设置字体的样式、颜色和大小,以达到更好的排版效果。 <p style="font-size: 14px; color: #333; font-family:...
HTML中的字体可以设为粗体,以强调文本信息。我们可以通过使用一些标签来实现这一功能。其中,常用的标签包括: 1. 标签:该标签会把文本加粗显示,语法如下: 这是一段加粗的文本 2. 标签:与标签作用相同,但语义更强,表示该文本内容的重要性。语法如下:...
HTML代码可以实现文件的上传和下载,在网页开发中相当常见。通过使用<input>标签和<form>标签,我们可以轻松创建一个文件上传表单。 <form action="upload.php" method="post" enct...
HTML代码非常常见于网页设计中。在一些需要处理时间相关数据的场景下,可能需要将时间戳转换为实际时间,这时候就需要使用一些特定的HTML代码。 function timeStamp2Time(time){ var date = new Date(time...
HTML是一种用于创建网页的标记语言。在HTML中,我们可以使用超链接标签实现下载文件到本地的功能。 具体实现步骤如下: <a href="文件的URL" download="文件名">下载文件</a> 其中,href属性是文件...
在HTML代码中,对于字体靠左对齐有各种方法。其中最简单的方式之一是使用pre标签。 使用pre标签可以保留一段文本中的空格和换行符,从而使代码排版更加整齐。下面是一个例子: <p>这是一个段落。</p> &lt...
HTML代码字典是一本解释HTML标记和属性的参考文献。这本字典中包含了最常用的HTML代码以及它们的属性和值的详细描述。 例如,以下是HTML代码字典中的一部分内容: <a href="url">link text</a> 在...
在网页开发过程中,遇到一些需要用户复制的内容,我们通常都会提供复制按钮,让用户更方便地复制所需内容。下面我们来介绍如何使用html代码实现一键复制的功能。 var copyBtn = document.querySelector('#copy-bt...
用户登录 欢迎来到公司登录界面,请输入用户名和密码登录 用户名: 密码: 代码解释: 第1行:定义了一个 HTML 文档 第2行:开始了 HTML 头部 第3行:定义了...
HTML 代码是用来创建网页的语言,它包含了许多不同的元素和属性,让我们可以在网页中添加各种不同的元素和内容,如文字、图片、链接等等。在编写 HTML 代码时,我们可以使用各种不同的样式来美化我们的网页,例如更改字体、颜色、大小等等。 font-family:...
HTML代码中的字体转移 在编写HTML代码时,我们经常会使用各种字体来增强页面的可读性和视觉效果。但是,有些字符或特殊符号可能会在HTML中具有不同的含义,这就需要使用字体转义转换成HTML可以正常显示的字符。 在HTML中,使用"&"符号表示一个特殊字符将要被转...
HTML 编程语言中,你可以使用字体属性来更改文本的字体大小、颜色和样式。其中,字体颜色是最常用的样式更改。在 HTML 中,你可以使用 "color" 属性来更改文本的颜色。下面是一个使用 "pre" 标签的代码示例,演示如何使用 "color" 属性来更改字体颜色...