Python爬虫常用库介绍requests、BeautifulSoup、lxml、json

1、requests库

http协议中,最常用的就是GET方法:
import requests

response = requests.get('http://www.baidu.com')
print(response.status_code)  # 打印状态码
print(response.url)           打印请求url
print(response.headers)       打印头信息
print(response.cookies)       打印cookie信息
print(response.text)         以文本形式打印网页源码
print(response.content)      以字节流形式打印

 

除此GET方法外,还有许多其他方法:
 requests

requests.get(http://httpbin.org/get)
requests.post(http://httpbin.org/post)
requests.put(http://httpbin.org/put)
requests.delete(http://httpbin.org/delete)
requests.head()
requests.options(')

 

2、BeautifulSoup库

BeautifulSoup库主要作用:

经过Beautiful库解析后得到的Soup文档按照标准缩进格式的结构输出,为结构化的数据,为数据过滤提取做出准备。

Soup文档可以使用find()和find_all()方法以及selector方法定位需要的元素:
1. find_all()方法

soup.find_all('div',"item") #查找div标签,class="item"

find_all(name,attrs,recursive,string,limit,**kwargs)
@PARAMS:
    name: 查找的value,可以是string,list,function,真值或者re正则表达式
    attrs: 查找的value的一些属性,class等。
    recursive: 是否递归查找子类,bool类型
    string: 使用此参数,查找结果为string类型;如果和name搭配,就是查找符合name的包含string的结果。
    limit: 查找的value的个数
    **kwargs: 其他一些参数

 

2. find()方法

find()方法与find_all()方法类似,只是find_all()方法返回的是文档中符合条件的所有tag,是一个集合,find()方法返回的一个Tag

3、select()方法

soup.selector(div.item > a > h1) 从大到小,提取需要的信息,可以通过浏览器复制得到。

select方法介绍

示例:

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link1"><!-- Elsie --></a>,<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" rel="external nofollow" rel="external nofollow" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

在写css时,标签名不加任何修饰,类名前加点,id名前加 #,我们可以用类似的方法来筛选元素,用到的方法是soup.select(),返回类型是list。

 

(1).通过标签名查找

print(soup.select(title')) 筛选所有为title的标签,并打印其标签属性和内容
# [<title>The Dormouse's story</title>]

a筛选所有为a的标签 [<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

b筛选所有为b的标签,并打印 [<b>The Dormouse's story</b>]

 

(2).通过类名查找

print soup.select(.sister')    查找所有class为sister的标签,并打印其标签属性和内容

 

(3).通过id名查找

#link1') 查找所有id为link1的标签,并打印其标签属性和内容[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

 

(4).组合查找

组合查找即和写class文件时,标签名与类名、id名进行的组合原理是一样的,例如查找p标签中,id等于link1的内容,二者需要空格分开。

p #link1[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

 

直接子标签查找

"head > title"[<title>The Dormouse's story</title>]

 

(5).属性查找

查找时还可以加入属性元素,属性需要用中括号括起来,注意属性和标签属于同一节点,所以中间不能加空格,否则会无法匹配到。

[<title>The Dormouse's story</title>]
 
a[href="http://example.com/elsie"][<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

 

属性仍然可以与上述查找方式组合,不在同一节点的空格隔开,同一节点的不加空格。

p a[href="http://example.com/elsie"][<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

 

BeautifulSoup库例句:

from bs4  BeautifulSoup
 requests

f = requests.get(url,headers=headers) 
   soup = BeautifulSoup(f.text,lxml) 

   for k in soup.find_all(div',class_=pl2'):     找到div并且class为pl2的标签
      b = k.find_all(')       在每个对应div标签下找a标签,会发现,一个a里面有四组span
      n.append(b[0].get_text())    取第一组的span中的字符串

 

3、lxml库

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

示例如下:

 使用 lxml 的 etree 库
from lxml  etree 

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签
     </ul>
 </div>
'''

利用etree.HTML,将字符串解析为HTML文档
html = etree.HTML(text) 

 按字符串序列化HTML文档
result = etree.tostring(html) 

print(result)

 

输出结果如下:

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>

可以看到。lxml会自动修改HTML代码。例子中不仅补全了li标签,还添加了body,html标签。

4、json库

函数 描述
json.dumps 将python对象编码成JSON字符串
json.loads 将已编码的JSON字符串解析为python对象
1. json.dumps的使用
!/usr/bin/python
 json

data = [ { name' : 张三age' : 25},{ 李四' : 26} ]

jsonStr1 = json.dumps(data) 将python对象转为JSON字符串
jsonStr2 = json.dumps(data,sort_keys=True,indent=4,separators=(,:让JSON数据格式化输出,sort_keys:当key为文本,此值为True则按顺序打印,为False则随机打印
jsonStr3 = json.dumps(data,ensure_ascii=False) 将汉字不转换为unicode编码

print(jsonStr1)
print(---------------分割线------------------(jsonStr2)
print(jsonStr3)

 

输出结果:

[{"name": "\u5f20\u4e09","age": 25},{"name": "\u674e\u56db","age": 26}]
---------------分割线------------------
[
    {
        "age":25,"name":"\u5f20\u4e09"
    },{
        "age":26,"name":"\u674e\u56db"
    }
]
---------------分割线------------------
[{"name": "张三",{"name": "李四","age": 26}]
2. json.loads的使用
} ]

jsonStr = json.dumps(data)
(jsonStr)

jsonObj = json.loads(jsonStr)
(jsonObj)
 获取集合第一个
for i in jsonObj:
    print(i['])

 

输出结果为:

[{"name": "\u5f20\u4e09","age": 26}]

[{'name': '张三','age': 25},{'name': '李四','age': 26}]

张三
李四`

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


本文从多个角度分析了vi编辑器保存退出命令。我们介绍了保存和退出vi编辑器的命令,以及如何撤销更改、移动光标、查找和替换文本等实用命令。希望这些技巧能帮助你更好地使用vi编辑器。
Python中的回车和换行是计算机中文本处理中的两个重要概念,它们在代码编写中扮演着非常重要的角色。本文从多个角度分析了Python中的回车和换行,包括回车和换行的概念、使用方法、使用场景和注意事项。通过本文的介绍,读者可以更好地理解和掌握Python中的回车和换行,从而编写出更加高效和规范的Python代码。
SQL Server启动不了错误1067是一种比较常见的故障,主要原因是数据库服务启动失败、权限不足和数据库文件损坏等。要解决这个问题,我们需要检查服务日志、重启服务器、检查文件权限和恢复数据库文件等。在日常的数据库运维工作中,我们应该时刻关注数据库的运行状况,及时发现并解决问题,以确保数据库的正常运行。
信息模块是一种可重复使用的、可编程的、可扩展的、可维护的、可测试的、可重构的软件组件。信息模块的端接需要从接口设计、数据格式、消息传递、函数调用等方面进行考虑。信息模块的端接需要满足高内聚、低耦合的原则,以保证系统的可扩展性和可维护性。
本文从电脑配置、PyCharm版本、Java版本、配置文件以及程序冲突等多个角度分析了Win10启动不了PyCharm的可能原因,并提供了解决方法。
本文主要从多个角度分析了安装SQL Server 2012时可能出现的错误,并提供了解决方法。
Pycharm是一款非常优秀的Python集成开发环境,它可以让Python开发者更加高效地进行代码编写、调试和测试。在Pycharm中设置解释器非常简单,我们可以通过创建新项目、修改项目解释器、设置全局解释器等多种方式进行设置。
Python中有多种方法可以将字符串转换为整数,包括使用int()函数、try-except语句、正则表达式、map()函数、ord()函数和reduce()函数。在实际应用中,应根据具体情况选择最合适的方法。
本文介绍了导入CSV文件的多种方法,包括使用Excel、Python和R等工具。同时,还介绍了导入CSV文件时需要注意的一些细节和问题。CSV文件是数据处理和分析中不可或缺的一部分,希望本文能够对读者有所帮助。
mongodb是一种新型的数据库,它采用了面向文档的数据模型,具有灵活性、高性能和高可用性等优势。但是,mongodb也存在数据结构混乱、安全性和学习成本高等问题。
当Python运行不了时,我们应该从代码、Python环境、操作系统和硬件设备等多个角度来排查问题,并采取相应的解决措施。
Python列表是一种常见的数据类型,排序是列表操作中的一个重要部分。本文介绍了Python列表降序排序的方法,包括使用sort()函数、sorted()函数以及自定义函数进行排序。使用sort()函数可以简单方便地实现降序排序,但会改变原始列表的顺序;使用sorted()函数可以保留原始列表的顺序,但需要创建一个新的列表;使用自定义函数可以灵活地控制排序的方式,但需要编写额外的代码。
本文介绍了如何使用Python输入一段英文并统计其中的单词个数,从去除标点符号、忽略单词大小写、排除常用词汇等多个角度进行了分析。此外,还介绍了使用NLTK库进行单词统计的方法。
虚拟环境可以帮助我们在同一台机器上运行不同版本的Python、安装不同的Python包,并且不会相互影响。创建虚拟环境的命令是python3 -m venv myenv,进入虚拟环境的命令是source myenv/bin/activate,退出虚拟环境的命令是deactivate。在虚拟环境中可以使用pip安装包,也可以使用Python运行程序。
本文从XHR对象、fetch API和jQuery三个方面分析了JS获取响应状态的方法及其应用。以上三种方法都可以轻松地发送HTTP请求,并处理响应数据。
桌面的命令包括常见的操作命令、系统命令、批处理命令以及第三方应用程序提供的命令。我们可以通过鼠标右键点击桌面、创建快捷方式、创建批处理文件等方式来运用这些命令,从而更好地管理计算机,提高工作效率。
本文分析了应用程序闪退的多个原因,包括应用程序本身存在问题、手机或平板电脑系统问题、硬件问题、网络问题和其他原因。同时,本文提供了解决闪退问题的多种方式,包括更新或卸载重新下载应用程序、升级系统或进行修复、清理手机缓存、清理不必要的文件或者是更换电池等方式来解决、确保网络信号的稳定性、注意用户隐私和安全问题。
本文介绍了使用Python下载图片的多种方法,包括使用Python标准库urllib.request、第三方库requests、多线程和异步IO。这些方法在不同情况下都有它们的优缺点。使用这些方法,我们可以轻松地将网络上的图片下载到本地,方便我们在离线状态下查看或处理这些图片。
MySQL数据文件是指存储MySQL数据库中数据的文件,存储位置的选择对数据库的性能、可靠性和安全性都有着重要的影响。本文从存储位置的选择、存储设备的选择、存储空间的管理和存储位置的安全性等多个角度对MySQL数据文件的存储位置进行分析,最后得出需要根据实际情况综合考虑多个因素,选择合适的存储位置和存储设备,并进行有效的存储空间管理和安全措施的结论。
AS400是一种主机操作系统,每个库都包含多个表。查询库表总数是一项基本任务。可以使用命令行、系统管理界面以及数据库管理工具来查询库表总数。查询库表总数可以帮助用户更好地管理和优化数据,包括规划数据存储、优化查询性能以及管理空间资源。