如何解决HTML抓取的Unicoding / UTF-8转换
我正在尝试抓取网站的这一部分,
我正在看'th'标签,并试图从每一行中提取文本。在本例中,重点放在第一行,即9:59:59值-遍历标签时遇到问题(在脚本的前面调用了BeautifulSoup,但未在下面显示)。
#... 对于逐行: 时间= row.find('th',class_ =“最新实时交易__单元格”) 值= row.find_all('td',class_ =“最新实时交易__单元格”) values.append(time.text) 打印(类型(时间)) 打印(值)
我的结果,
我认为它正在报告需要编码的类型?很显然,生成的['\ xa0']的值不是我希望的9:59:59。 .text不正确吗?
我尝试使用.decoding()而不是.text,但出现此错误: TypeError:“ NoneType”对象不可调用
非常感谢您的帮助。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。