python – 使用BeautifulSoup解析HTML表

时间：2019-05-15分类：Python作者：编程之家用户

我过去曾使用过BeautifulSoup,但我反对新事物;令人难以置信的通用/最小的HTML表格标记…我的目标是获取每个值和它的标签(每个都在自己的td中)并打印出来……它们可以合并,我不在乎,我只是想制作确保每个标签都应用于正确的值.这是一个示例表：


我知道如何抓住这些价值……

for td in soup.findAll('table')[0]:  # theres more than one table on the page
    print td.renderContents().strip()

但这只给了我……

'Dawn:'
'07:01'
'Sunrise:'
'07:26'
'Moonrise:'
'14:29'
'

我想我可以抓住那些类值“标签”和“site_data”,但我如何确保标签和数据分组正确？


最佳答案
以下内容应该更简单,更容易理解：

import pprint
from BeautifulSoup import BeautifulSoup  
soup = BeautifulSoup(docTxt)
groupedData = []
for row in soup.findAll("tr"):
    data = {}
    allTDs = row.findAll("td")
    for x in range(0,len(allTDs)-1,2):
        data[allTDs[x].renderContents().strip()] = allTDs[x+1].renderContents().strip()
    groupedData.append(data)

pprint.pprint(groupedData)

输出：

[{'Dawn:': '07:01','Moonrise:': '14:29','Sunrise:': '07:26'},{'Dusk:': '18:27','Moonset:': '01:55','Sunset:&nbsp;': '18:02'},{'Day length:': '10:36','Daylight:': '11:26','Moon Phase:': 'Waxing Gibbous'}]


版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容， 请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

beautifulsoup


                
                    
                        
                            相关推荐
                            

                                使用OpenCV实现视频去抖
                                使用OpenCV实现视频去抖 整体步骤： 设置输入输出视频 寻找帧之间的移动：使用opencv的特征检测器，检测前一帧的特征，并使用Lucas-Kanade光流算法在下一帧跟踪这些特征，根据两组点，将前一个坐标系映射到当前坐标系完成刚性（欧几里得）变换，最后使用数组纪录帧之间的运动。 计算帧之间的平
                            

                                中文标题相似度检测
                                前言 对中文标题使用余弦相似度算法和编辑距离相似度分析进行相似度分析。 准备数据集part1 本次使用的数据集来源于前几年的硕士学位论文，可根据实际需要更换。结构如下所示： 学位论文题名 基于卷积神经网络的人脸识别研究 P2P流媒体视频点播系统设计和研究 校园网安全体系的设计与实现 无线传感器网络中
                            

                                爬取天气信息
                                前言 之前尝试写过一个爬虫，那时对网页请求还不够熟练，用的原理是：爬取整个html文件，然后根据标签页筛选有效信息。 现在看来这种方式无疑是吃力不讨好，因此现在重新写了一个爬取天气的程序。 准备工作 网上能轻松找到的是 101010100 北京这种编号，而查看中国气象局URL，他们使用的是北京545
                            

                                模式识别实验：基于主成分分析（PCA）的人脸识别
                                前言 本文使用Python实现了PCA算法，并使用ORL人脸数据集进行了测试并输出特征脸，简单实现了人脸识别的功能。 1. 准备 ORL人脸数据集共包含40个不同人的400张图像，是在1992年4月至1994年4月期间由英国剑桥的Olivetti研究实验室创建。此数据集包含40个类，每个类含10张图
                            

                                基于OpenCV-Python的图像位置校正和版面分析
                                前言 使用opencv对图像进行操作，要求：（1）定位银行票据的四条边，然后旋正。（2）根据版面分析，分割出小写金额区域。 图像校正 首先是对图像的校正 读取图片 对图片二值化 进行边缘检测 对边缘的进行霍夫曼变换 将变换结果从极坐标空间投影到笛卡尔坐标得到倾斜角 根据倾斜角对主体校正 import
                            

                                Python 天气爬虫接口
                                天气预报API 功能 从中国天气网抓取数据返回1-7天的天气数据，包括： 日期 天气 温度 风力 风向 def get_weather(city): 入参： 城市名，type为字符串，如西安、北京，因为数据引用中国气象网，因此只支持中国城市 返回： 1、列表，包括1-7的天气数据，每一天的分别为一个
                            

                                数据分析（以kaggle上的加州房价为例）
                                数据来源：House Prices - Advanced Regression Techniques 参考文献： Comprehensive data exploration with Python 1. 导入数据 import pandas as pd import warnings warnin
                            

                                Python关键字 asynico
                                同步和异步 同步和异步是指程序的执行方式。在同步执行中，程序会按顺序一个接一个地执行任务，直到当前任务完成。而在异步执行中，程序会在等待当前任务完成的同时，执行其他任务。 同步执行意味着程序会阻塞，等待任务完成，而异步执行则意味着程序不会阻塞，可以同时执行多个任务。 同步和异步的选择取决于你的程序需
                            

                                《原神》那维莱特自动旋转的Python脚本
                                实现代码 import time import pydirectinput import keyboard if __name__ == &#39;__main__&#39;: revolve = False while True: time.sleep(0.1) if keyboard.is_pr
                            

                                vi编辑器保存退出命令
                                本文从多个角度分析了vi编辑器保存退出命令。我们介绍了保存和退出vi编辑器的命令，以及如何撤销更改、移动光标、查找和替换文本等实用命令。希望这些技巧能帮助你更好地使用vi编辑器。
                            

                                python回车换行
                                Python中的回车和换行是计算机中文本处理中的两个重要概念，它们在代码编写中扮演着非常重要的角色。本文从多个角度分析了Python中的回车和换行，包括回车和换行的概念、使用方法、使用场景和注意事项。通过本文的介绍，读者可以更好地理解和掌握Python中的回车和换行，从而编写出更加高效和规范的Python代码。
                            

                                sqlserver启动不了错误1067
                                SQL Server启动不了错误1067是一种比较常见的故障，主要原因是数据库服务启动失败、权限不足和数据库文件损坏等。要解决这个问题，我们需要检查服务日志、重启服务器、检查文件权限和恢复数据库文件等。在日常的数据库运维工作中，我们应该时刻关注数据库的运行状况，及时发现并解决问题，以确保数据库的正常运行。
                            

                                信息模块是如何端接的
                                信息模块是一种可重复使用的、可编程的、可扩展的、可维护的、可测试的、可重构的软件组件。信息模块的端接需要从接口设计、数据格式、消息传递、函数调用等方面进行考虑。信息模块的端接需要满足高内聚、低耦合的原则，以保证系统的可扩展性和可维护性。
                            

                                win10启动不了pycharm
                                本文从电脑配置、PyCharm版本、Java版本、配置文件以及程序冲突等多个角度分析了Win10启动不了PyCharm的可能原因，并提供了解决方法。
                            

                                安装sql2012时出现以下错误
                                本文主要从多个角度分析了安装SQL Server 2012时可能出现的错误，并提供了解决方法。
                            

                                pycharm如何设置解释器
                                Pycharm是一款非常优秀的Python集成开发环境，它可以让Python开发者更加高效地进行代码编写、调试和测试。在Pycharm中设置解释器非常简单，我们可以通过创建新项目、修改项目解释器、设置全局解释器等多种方式进行设置。
                            

                                python str转int
                                Python中有多种方法可以将字符串转换为整数，包括使用int()函数、try-except语句、正则表达式、map()函数、ord()函数和reduce()函数。在实际应用中，应根据具体情况选择最合适的方法。
                            

                                导入csv文件
                                本文介绍了导入CSV文件的多种方法，包括使用Excel、Python和R等工具。同时，还介绍了导入CSV文件时需要注意的一些细节和问题。CSV文件是数据处理和分析中不可或缺的一部分，希望本文能够对读者有所帮助。
                            

                                数据库mongodb
                                mongodb是一种新型的数据库，它采用了面向文档的数据模型，具有灵活性、高性能和高可用性等优势。但是，mongodb也存在数据结构混乱、安全性和学习成本高等问题。
                            

                                python运行不了怎么办
                                当Python运行不了时，我们应该从代码、Python环境、操作系统和硬件设备等多个角度来排查问题，并采取相应的解决措施。


            
              
          
            
              



              
            
          
          
          
            
              
                  热门文章
    • 使用OpenCV实现视频去抖
• 中文标题相似度检测
• 爬取天气信息
• 模式识别实验：基于主成分分析（PCA）的…
• 基于OpenCV-Python的图像位置校正和版面…
• Python 天气爬虫接口
• 数据分析（以kaggle上的加州房价为例）
• Python关键字 asynico
• 《原神》那维莱特自动旋转的Python脚本
• vi编辑器保存退出命令
              
            
          
          
            
              
                  最新文章
    • 使用OpenCV实现视频去抖
• 中文标题相似度检测
• 爬取天气信息
• 模式识别实验：基于主成分分析（PCA）的…
• 基于OpenCV-Python的图像位置校正和版面…
• Python 天气爬虫接口
• 数据分析（以kaggle上的加州房价为例）
• Python关键字 asynico
• 《原神》那维莱特自动旋转的Python脚本
• vi编辑器保存退出命令
              
            
          
          
          
            
              
                热门标签更多
                
                pythonJavaScriptjavaHTMLPHPreactjsC#AndroidCSSNode.jssqlrpython-3.xMysqLjQueryc++pandasFlutterangularIOSdjangolinuxswifttypescript路由器JSON路由器设置无线路由器h3c华三华三路由器设置华三路由器电脑软件教程arraysdocker软件图文教程Cvue.jslaravelspring-boot


    
    
        
            
                
                    友情链接:
菜鸟教程
ai导航
SSL证书
                
                    编程之家
-我要投稿
-广告合作
-联系我们
-免责声明
-网站地图
                
                版权所有 © 2018编程之家闽ICP备13020303号-8
                
            
            
                微信公众号搜"程序精选"关注
微信扫一扫可直接关注哦！