如何解决使用BeautifulSoup在Python 3中提取表
我想使用BeautifulSoup从网站中提取表格并将其存储为结构化数据。 我需要的最终输出是可以导出到具有标题行和多个数据行的.csv文件。
我遵循了this question的答案,但是自从8年前发布以来,似乎对Python(或BeautifulSoup)的更新需要进行调整。我认为我已经解决了大多数问题(请参阅下文),但是除此之外,原始答案似乎还没有真正构建数据,而是输出了标头数据对列表。
我想使用类似的解决方案,因为它看起来确实很接近我的需求。我的数据已经使用BeautifulSoup进行了解析,所以我特别要求使用该软件包而不是Pandas解决方案。
可复制示例
由于原始问题,添加了第二行,因为我的数据有很多行。
from bs4 import BeautifulSoup
html = """
<table class="details" border="0" cellpadding="5" cellspacing="2" width="95%">
<tr valign="top">
<th>Tests</th>
<th>Failures</th>
<th>Success Rate</th>
<th>Average Time</th>
<th>Min Time</th>
<th>Max Time</th>
</tr>
<tr valign="top" class="Failure">
<td>103</td>
<td>24</td>
<td>76.70%</td>
<td>71 ms</td>
<td>0 ms</td>
<td>829 ms</td>
</tr>
<tr valign="top" class="Failure">
<td>109</td>
<td>35</td>
<td>82.01%</td>
<td>12 ms</td>
<td>2 ms</td>
<td>923 ms</td>
</tr>
</table>"""
soup = BeautifulSoup(html)
table = soup.find("table",attrs={"class":"details"})
# The first tr contains the field names.
headings = [th.get_text() for th in table.find("tr").find_all("th")]
datasets = []
for row in table.find_all("tr")[1:]:
dataset = zip(headings,(td.get_text() for td in row.find_all("td")))
datasets.append(dataset)
print(datasets)
结果应该看起来像下面的样子(尽管有多行,但我不确定确切的结构)。
[[(u'Tests',u'103'),(u'Failures',u'24'),(u'Success Rate',u'76.70%'),(u'Average Time',u'71 ms'),(u'Min Time',u'0 ms'),(u'Max Time',u'829 ms')]]
但是看起来像:
[<zip object at 0x7fb06b5efdc0>,<zip object at 0x7fb06b5ef980>]
尝试的解决方案
我尝试在现有的for循环中使用datasets.append(tuple(dataset))
,结果是:
[(('Tests','103'),('Failures','24'),('Success Rate','76.70%'),('Average Time','71 ms'),('Min Time','0 ms'),('Max Time','829 ms')),(('Tests','109'),'35'),'82.01%'),'12 ms'),'2 ms'),'923 ms'))]
这更接近于原始答案的预期输出,但显然是复制了对,而不是创建带有标题和值的数据表。因此,我不确定从现在开始如何处理数据。
解决方法
最后,只需将zip迭代器转换为列表即可:
for row in table.find_all("tr")[1:]:
dataset = zip(headings,(td.get_text() for td in row.find_all("td")))
datasets.append(list(dataset)) # process iterator to list
print(datasets)
最终输出:
[[('Tests','103'),('Failures','24'),('Success Rate','76.70%'),('Average Time','71 ms'),('Min Time','0 ms'),('Max Time','829 ms')],[('Tests','109'),'35'),'82.01%'),'12 ms'),'2 ms'),'923 ms')]]
如果要将数据集转换为csv字符串,请使用以下代码:
# convert to csv string
hdrline = ','.join(e[0] for e in datasets[0]) + "\n"
data = ""
for rw in datasets:
data += ','.join([e[1] for e in rw]) + "\n"
csvstr = hdrline + data
print(csvstr)
输出:
Tests,Failures,Success Rate,Average Time,Min Time,Max Time
103,24,76.70%,71 ms,0 ms,829 ms
109,35,82.01%,12 ms,2 ms,923 ms
,
如果您使用的是标准csv
模块,则无需将值与其标签相关联
您可以执行以下操作,假设您有一个csvwriter
,可以通过以下方式获得
https://docs.python.org/3.8/library/csv.html#csv.writer
import csv
...
with open('file.csv','w',newline='') as csvfile:
csvwriter = csv.writer(csvfile) # You may add options here to format your csv file as needed
headings = [th.get_text() for th in table.find("tr").find_all("th")]
csvwriter.writerow(headings)
for row in table.find_all("tr")[1:]:
data = (td.get_text() for td in row.find_all("td"))
csvwriter.writerow(data)
,
所以您已经拥有了:
datasets = [
(('Tests','829 ms')),(('Tests','923 ms'))
]
您可以在此处进行转换。假设所有行都相同,则可以从第一行中提取标题:
headers_row = [hdr for hdr,data in datasets[0]]
现在,提取每一行中每个元组的第二个字段,例如('Tests','103')
:
processed_rows = [
[data for hdr,data in row]
for row in datasets
]
# [['103','24','76.70%','71 ms','0 ms','829 ms'],['109','35','82.01%','12 ms','2 ms','923 ms']]
现在您有了标题行和processed_rows
的列表。您可以使用standard csv
module将它们写入CSV文件。
更好的解决方案可能是保留原始格式并使用csv.DictWriter
。
-
将标头提取到
headers_row
中,如上所示。 -
写数据:
import csv with open('data.csv',newline='') as csvfile: writer = csv.DictWriter(csvfile,fieldnames= headers_row) writer.writeheader() for row in datasets: # your original data writer.writerow(dict(row))
例如dict(datasets[0])
是:
{'Tests': '103','Failures': '24','Success Rate': '76.70%','Average Time': '71 ms','Min Time': '0 ms','Max Time': '829 ms'}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。