AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

BeautifulSoup解析库详解

时间：2020-07-22分类：正则表达式作者：编程之家

BeautifulSoup是灵活又方便的网页解析库，处理高效，支持多种解析器

利用它不用编写正则表达式即可方便地实现网页信息的提取

安装：pip3 install beautifulsoup4

用法详解：

beautifulsoup支持的一些解析库

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(makeup,"html.parser")	python的内置标准库，执行速度适中，文档容错能力强	python2.7 or python3.2.2前的版本中文容错能力差
lxml HTML解析器	BeautifulSoup(makeup,"lxml")	速度快，文档容错能力强	需要安装c语言库
lxml XML解析器	BeautifulSoup(makeup,"xmlr")	速度快，唯一支持xml的解析器	需要安装c语言库
html5lib	BeautifulSoup(makeup,"html5lib")	最好的容错性，以浏览器的方式解析文档，生成HTML5格式的文档	速度慢，不依赖外部扩展

基本使用方法：

import bs4
from bs4 import BeautifulSoup

#下面是一段不完整的 HTML代码
html = ‘‘‘
<html><head><title>The Demouse‘s story</title></head>
<body>
<p class="title" name="dromouse"><b>The Domouse‘s story</b></p>
<p class="story">Once upon a time there were three little sisters,and their name were
<a href="http://examlpe.com/elele" class="sister" ld="link1"><!--Elsle--></a>
<a href="http://examlpe.com/lacie" class="sister" ld="link2"><!--Elsle--></a>
<a href="http://examlpe.com/title" class="sister" ld="link3"><title></a>
and they lived the bottom of a wall</p>
<p clas="stuy">..</p>
‘‘‘

soup = BeautifulSoup(html,‘lxml‘)

#将代码补全，也就是容错处理
print(soup.prettify())

#选择title这个标签，并打印内容
输出结果为：
<html>
 <head>
  <title>
   The Demouse‘s story
  </title>
 </head>
 <body>
  <p class="title" name="dromouse">
   <b>
    The Domouse‘s story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters,and their name were
   <a class="sister" href="http://examlpe.com/elele" ld="link1">
    <!--Elsle-->
   </a>
   <a class="sister" href="http://examlpe.com/lacie" ld="link2">
    <!--Elsle-->
   </a>
   <a class="sister" href="http://examlpe.com/title" ld="link3">
    <title>
    </title>
   </a>
   and they lived the bottom of a wall
  </p>
  <p clas="stuy">
   ..
  </p>
 </body>
</html>
The Demouse‘s story

标签选择器：

选择元素

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

正则替换html代码中img标签的src值

正则替换html代码中img标签的src值在开发富文本信息在移动端展示的项目中，难免会遇到后台返回的标签文本信息中img标签src属性按照相对或者绝对路径返回的形式，类似：<img src="qinhancity/v1.0.0/ima

作者：嘻嘻哈哈biubiubiu 时间：2023-03-03

【C++】正则表达式

正则表达式

作者：Scott.L 时间：2022-12-20

shell之三剑客awk基础用法

AWK是一种处理文本文件的语言，是一个强大的文件分析工具。它是专门为文本处理设计的编程语言，也是行处理软件，通常用于扫描，过滤，统计汇总等工作，数据可以来自标准输入也可以是管道或文件。当读到第一行时，匹配...

作者：yu.deqiang 时间：2022-12-19

正则表达式

正则表达式是特殊的字符序列，利用事先定义好的特定字符以及他们的组合组成了一个规则，然后检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。我们刚才在学习正则表达式的时候，我们表示数字，字母下划线...

作者：熬夜磕代码丶时间：2022-12-19

Python基础知识进阶之正则表达式

Python界一名小学生，热心分享编程学习。

作者：漫步桔田时间：2022-12-19

开发者神器，代码文档终于有救了

收集整理每周优质开发者内容，包括、、等方面。每周五定期发布，同步更新到和。欢迎大家投稿，，推荐或者自荐开源项目/资源/工具/文章~

作者：七步编程时间：2022-11-22

Shell编程从看懂到看开③(函数、echo、printf、test)

本文涉及Shell函数，Shell中的echo、printf、test命令等。

作者：十八岁讨厌编程时间：2022-11-21

正则表达式常用最新版

常用正则表达，包括：密码、手机号、身份证、邮箱、中文、车牌号、微信号、日期 YYYY-MM-DD hh:mm:ss、日期 YYY-MM-DD、十六进制颜色、邮政编号、用户名、 QQ号

作者：Java Fans 时间：2022-11-21

Python正则表达式(持续更新，各种字符串筛选，总有一款适合您当前的功能)

一、python【re】的用法1、re.match函数·单一匹配-推荐指数【★★】2、re.search函数·单一匹配-推荐指数【★★★★★】3、re.findall函数·多项匹配-推荐指数【★★★★★】4、re.finditer函数·多项匹配-推荐指数...

作者：红目香薰时间：2022-11-20

编译原理实验一:词法分析器的自动实现(Lex词法分析)

1.借助词法分析工具Flex或Lex完成（参考网络资源）2.输入：高级语言源代码（如helloworld.c）3.输出：以二元组表示的单词符号序列。通过设计、编制、调试一个具体的词法分析程序，加深对词法分析原理的理解，并掌握在...

作者：zombotany智咏时间：2022-11-19