使用BeautifulSoup在Python 3中提取表

如何解决使用BeautifulSoup在Python 3中提取表

我想使用BeautifulSoup从网站中提取表格并将其存储为结构化数据。 我需要的最终输出是可以导出到具有标题行和多个数据行的.csv文件。

我遵循了this question的答案,但是自从8年前发布以来,似乎对Python(或BeautifulSoup)的更新需要进行调整。我认为我已经解决了大多数问题(请参阅下文),但是除此之外,原始答案似乎还没有真正构建数据,而是输出了标头数据对列表。

我想使用类似的解决方案,因为它看起来确实很接近我的需求。我的数据已经使用BeautifulSoup进行了解析,所以我特别要求使用该软件包而不是Pandas解决方案。

可复制示例

由于原始问题,添加了第二行,因为我的数据有很多行。

from bs4 import BeautifulSoup

html = """
  <table class="details" border="0" cellpadding="5" cellspacing="2" width="95%">
    <tr valign="top">
      <th>Tests</th>
      <th>Failures</th>
      <th>Success Rate</th>
      <th>Average Time</th>
      <th>Min Time</th>
      <th>Max Time</th>
   </tr>
   <tr valign="top" class="Failure">
     <td>103</td>
     <td>24</td>
     <td>76.70%</td>
     <td>71 ms</td>
     <td>0 ms</td>
     <td>829 ms</td>
  </tr>
  <tr valign="top" class="Failure">
     <td>109</td>
     <td>35</td>
     <td>82.01%</td>
     <td>12 ms</td>
     <td>2 ms</td>
     <td>923 ms</td>
  </tr>
</table>"""

soup = BeautifulSoup(html)
table = soup.find("table",attrs={"class":"details"})

# The first tr contains the field names.
headings = [th.get_text() for th in table.find("tr").find_all("th")]

datasets = []
for row in table.find_all("tr")[1:]:
    dataset = zip(headings,(td.get_text() for td in row.find_all("td")))
    datasets.append(dataset)

print(datasets)

结果应该看起来像下面的样子(尽管有多行,但我不确定确切的结构)。

[[(u'Tests',u'103'),(u'Failures',u'24'),(u'Success Rate',u'76.70%'),(u'Average Time',u'71 ms'),(u'Min Time',u'0 ms'),(u'Max Time',u'829 ms')]]

但是看起来像:

[<zip object at 0x7fb06b5efdc0>,<zip object at 0x7fb06b5ef980>]

尝试的解决方案

我尝试在现有的for循环中使用datasets.append(tuple(dataset)),结果是:

[(('Tests','103'),('Failures','24'),('Success Rate','76.70%'),('Average Time','71 ms'),('Min Time','0 ms'),('Max Time','829 ms')),(('Tests','109'),'35'),'82.01%'),'12 ms'),'2 ms'),'923 ms'))]

这更接近于原始答案的预期输出,但显然是复制了对,而不是创建带有标题和值的数据表。因此,我不确定从现在开始如何处理数据。

解决方法

最后,只需将zip迭代器转换为列表即可:

for row in table.find_all("tr")[1:]:
    dataset = zip(headings,(td.get_text() for td in row.find_all("td")))
    datasets.append(list(dataset))  # process iterator to list

print(datasets)

最终输出:

[[('Tests','103'),('Failures','24'),('Success Rate','76.70%'),('Average Time','71 ms'),('Min Time','0 ms'),('Max Time','829 ms')],[('Tests','109'),'35'),'82.01%'),'12 ms'),'2 ms'),'923 ms')]]

如果要将数据集转换为csv字符串,请使用以下代码:

# convert to csv string

hdrline = ','.join(e[0] for e in datasets[0]) + "\n"
data = ""
for rw in datasets:
    data += ','.join([e[1] for e in rw]) + "\n"
    
csvstr = hdrline + data

print(csvstr)

输出:

Tests,Failures,Success Rate,Average Time,Min Time,Max Time
103,24,76.70%,71 ms,0 ms,829 ms
109,35,82.01%,12 ms,2 ms,923 ms
,

如果您使用的是标准csv模块,则无需将值与其标签相关联

您可以执行以下操作,假设您有一个csvwriter,可以通过以下方式获得 https://docs.python.org/3.8/library/csv.html#csv.writer

import csv
...

with open('file.csv','w',newline='') as csvfile:
    csvwriter = csv.writer(csvfile) # You may add options here to format your csv file as needed

    headings = [th.get_text() for th in table.find("tr").find_all("th")]

    csvwriter.writerow(headings)

    for row in table.find_all("tr")[1:]:
        data = (td.get_text() for td in row.find_all("td"))
        csvwriter.writerow(data)
,

所以您已经拥有了:

datasets = [
  (('Tests','829 ms')),(('Tests','923 ms'))
]

您可以在此处进行转换。假设所有行都相同,则可以从第一行中提取标题:

headers_row = [hdr for hdr,data in datasets[0]]

现在,提取每一行中每个元组的第二个字段,例如('Tests','103')

processed_rows = [
  [data for hdr,data in row]
  for row in datasets
]
# [['103','24','76.70%','71 ms','0 ms','829 ms'],['109','35','82.01%','12 ms','2 ms','923 ms']]

现在您有了标题行和processed_rows的列表。您可以使用standard csv module将它们写入CSV文件。


更好的解决方案可能是保留原始格式并使用csv.DictWriter

  1. 将标头提取到headers_row中,如上所示。

  2. 写数据:

    import csv
    
    with open('data.csv',newline='') as csvfile:
        writer = csv.DictWriter(csvfile,fieldnames= headers_row)
    
        writer.writeheader()
    
        for row in datasets: # your original data
            writer.writerow(dict(row))
    

例如dict(datasets[0])是:

{'Tests': '103','Failures': '24','Success Rate': '76.70%','Average Time': '71 ms','Min Time': '0 ms','Max Time': '829 ms'}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-