介绍python 数据抓取三种方法

时间：2022-02-02分类：Python作者：编程之家用户

免费学习推荐：python视频教程

三种数据抓取的方法

正则表达式（re库）
BeautifulSoup（bs4）
lxml

*利用之前构建的下载网页函数，获取目标网页的html，我们以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例，获取html。

在这里插入图片描述

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)

*假设我们需要爬取该网页中的国家名称和概况，我们依次使用这三种数据抓取的方法实现数据抓取。
1.正则表达式

from get_html import downloadimport re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)country = re.findall('class=h2dabiaoti>(.*?)</h2>', page_content) #注意返回的是listsurvey_data = re.findall('<tr><td bgcolor=#FFFFFF id=wzneirong>(.*?)</td></tr>', page_content)survey_info_list = re.findall('<p>　　(.*?)</p>', survey_data[0])survey_info = ''.join(survey_info_list)print(country[0],survey_info)

2.BeautifulSoup（bs4）

from get_html import downloadfrom bs4 import BeautifulSoup

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'html = download(url)#创建 beautifulsoup 对象soup = BeautifulSoup(html,html.parser)#搜索country = soup.find(attrs={'class':'h2dabiaoti'}).text
survey_info = soup.find(attrs={'id':'wzneirong'}).textprint(country,survey_info)

3.lxml

from get_html import downloadfrom lxml import etree #解析树url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'page_content = download(url)selector = etree.HTML(page_content)#可进行xpath解析country_select = selector.xpath('//*[@id=main_content]/h2') #返回列表for country in country_select:
    print(country.text)survey_select = selector.xpath('//*[@id=wzneirong]/p')for survey_content in survey_select:
    print(survey_content.text,end='')

运行结果：

在这里插入图片描述

最后，引用《用python写网络爬虫》中对三种方法的性能对比，如下图：

在这里插入图片描述

仅供参考。

相关免费学习推荐：python教程（视频）

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

python 数据抓取

相关推荐

使用OpenCV实现视频去抖

使用OpenCV实现视频去抖整体步骤：设置输入输出视频寻找帧之间的移动：使用opencv的特征检测器，检测前一帧的特征，并使用Lucas-Kanade光流算法在下一帧跟踪这些特征，根据两组点，将前一个坐标系映射到当前坐标系完成刚性（欧几里得）变换，最后使用数组纪录帧之间的运动。计算帧之间的平

中文标题相似度检测

前言对中文标题使用余弦相似度算法和编辑距离相似度分析进行相似度分析。准备数据集part1 本次使用的数据集来源于前几年的硕士学位论文，可根据实际需要更换。结构如下所示：学位论文题名基于卷积神经网络的人脸识别研究 P2P流媒体视频点播系统设计和研究校园网安全体系的设计与实现无线传感器网络中

爬取天气信息

前言之前尝试写过一个爬虫，那时对网页请求还不够熟练，用的原理是：爬取整个html文件，然后根据标签页筛选有效信息。现在看来这种方式无疑是吃力不讨好，因此现在重新写了一个爬取天气的程序。准备工作网上能轻松找到的是 101010100 北京这种编号，而查看中国气象局URL，他们使用的是北京545

模式识别实验：基于主成分分析（PCA）的人脸识别

前言本文使用Python实现了PCA算法，并使用ORL人脸数据集进行了测试并输出特征脸，简单实现了人脸识别的功能。 1. 准备 ORL人脸数据集共包含40个不同人的400张图像，是在1992年4月至1994年4月期间由英国剑桥的Olivetti研究实验室创建。此数据集包含40个类，每个类含10张图

基于OpenCV-Python的图像位置校正和版面分析

前言使用opencv对图像进行操作，要求：（1）定位银行票据的四条边，然后旋正。（2）根据版面分析，分割出小写金额区域。图像校正首先是对图像的校正读取图片对图片二值化进行边缘检测对边缘的进行霍夫曼变换将变换结果从极坐标空间投影到笛卡尔坐标得到倾斜角根据倾斜角对主体校正 import

Python 天气爬虫接口

天气预报API 功能从中国天气网抓取数据返回1-7天的天气数据，包括：日期天气温度风力风向 def get_weather(city): 入参：城市名，type为字符串，如西安、北京，因为数据引用中国气象网，因此只支持中国城市返回： 1、列表，包括1-7的天气数据，每一天的分别为一个

数据分析（以kaggle上的加州房价为例）

数据来源：House Prices - Advanced Regression Techniques 参考文献： Comprehensive data exploration with Python 1. 导入数据 import pandas as pd import warnings warnin

Python关键字 asynico

同步和异步同步和异步是指程序的执行方式。在同步执行中，程序会按顺序一个接一个地执行任务，直到当前任务完成。而在异步执行中，程序会在等待当前任务完成的同时，执行其他任务。同步执行意味着程序会阻塞，等待任务完成，而异步执行则意味着程序不会阻塞，可以同时执行多个任务。同步和异步的选择取决于你的程序需

《原神》那维莱特自动旋转的Python脚本

实现代码 import time import pydirectinput import keyboard if __name__ == '__main__': revolve = False while True: time.sleep(0.1) if keyboard.is_pr

vi编辑器保存退出命令

本文从多个角度分析了vi编辑器保存退出命令。我们介绍了保存和退出vi编辑器的命令，以及如何撤销更改、移动光标、查找和替换文本等实用命令。希望这些技巧能帮助你更好地使用vi编辑器。

python回车换行

Python中的回车和换行是计算机中文本处理中的两个重要概念，它们在代码编写中扮演着非常重要的角色。本文从多个角度分析了Python中的回车和换行，包括回车和换行的概念、使用方法、使用场景和注意事项。通过本文的介绍，读者可以更好地理解和掌握Python中的回车和换行，从而编写出更加高效和规范的Python代码。

sqlserver启动不了错误1067

SQL Server启动不了错误1067是一种比较常见的故障，主要原因是数据库服务启动失败、权限不足和数据库文件损坏等。要解决这个问题，我们需要检查服务日志、重启服务器、检查文件权限和恢复数据库文件等。在日常的数据库运维工作中，我们应该时刻关注数据库的运行状况，及时发现并解决问题，以确保数据库的正常运行。

信息模块是如何端接的

信息模块是一种可重复使用的、可编程的、可扩展的、可维护的、可测试的、可重构的软件组件。信息模块的端接需要从接口设计、数据格式、消息传递、函数调用等方面进行考虑。信息模块的端接需要满足高内聚、低耦合的原则，以保证系统的可扩展性和可维护性。

win10启动不了pycharm

本文从电脑配置、PyCharm版本、Java版本、配置文件以及程序冲突等多个角度分析了Win10启动不了PyCharm的可能原因，并提供了解决方法。

安装sql2012时出现以下错误

本文主要从多个角度分析了安装SQL Server 2012时可能出现的错误，并提供了解决方法。

pycharm如何设置解释器

Pycharm是一款非常优秀的Python集成开发环境，它可以让Python开发者更加高效地进行代码编写、调试和测试。在Pycharm中设置解释器非常简单，我们可以通过创建新项目、修改项目解释器、设置全局解释器等多种方式进行设置。

python str转int

Python中有多种方法可以将字符串转换为整数，包括使用int()函数、try-except语句、正则表达式、map()函数、ord()函数和reduce()函数。在实际应用中，应根据具体情况选择最合适的方法。

导入csv文件

本文介绍了导入CSV文件的多种方法，包括使用Excel、Python和R等工具。同时，还介绍了导入CSV文件时需要注意的一些细节和问题。CSV文件是数据处理和分析中不可或缺的一部分，希望本文能够对读者有所帮助。

数据库mongodb

mongodb是一种新型的数据库，它采用了面向文档的数据模型，具有灵活性、高性能和高可用性等优势。但是，mongodb也存在数据结构混乱、安全性和学习成本高等问题。

python运行不了怎么办

当Python运行不了时，我们应该从代码、Python环境、操作系统和硬件设备等多个角度来排查问题，并采取相应的解决措施。

热门文章

最新文章