如何解决我如何清理美丽汤的输出
我试图从网站上抓取一本书,在用 Beautiful Soup 解析它时,我注意到有一些错误。比如这句话:
“您可以 more…
直接控制您的 skaa。有多少会“哦,大约六个,”
"more…"
和 "woul" 都是脚本中发生的错误。
有没有办法自动清除这样的错误? 我所拥有的示例代码如下。
import requests
from bs4 import BeautifulSoup
url = 'http://thefreeonlinenovel.com/con/mistborn-the-final-empire_page-1'
res = requests.get(url)
text = res.text
soup = BeautifulSoup(text,'html.parser')
print(soup.prettify())
trin = soup.tr.get_text()
final = str(trin)
print(final)
解决方法
您需要将转换为 html 实体的详细信息转义为 here。但是,要在您的情况下应用并保留文本,您可以使用 stripped_strings:
import requests
from bs4 import BeautifulSoup
import html
url = 'http://thefreeonlinenovel.com/con/mistborn-the-final-empire_page-1'
res = requests.get(url)
text = res.text
soup = BeautifulSoup(text,'lxml')
for r in soup.select_one('table tr').stripped_strings:
s = html.unescape(r)
print(s)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。