如何解决在HTML网站上的href中提取网址
我已经从网页中提取了以下内容:
id new
0 1 --,increase,increase
我只希望每个提取的 href =“ united-states / il” 部分。目前,我正在尝试这样的事情:
<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/in">Indiana</a>,<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ia">Iowa</a>,<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ks">Kansas</a>,<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ky">Kentucky</a>,
我不断收到错误:
AttributeError:ResultSet对象没有属性“查找”。您可能正在将项目列表像单个项目一样对待。当您打算致电find()时,您是否致电过find_all()?
我希望将其运行在for循环中,以便可以提取每个州的url,但目前无法
解决方法
我不确定您如何到达soup_state
,但请尝试:
for state in soup_state:
print(state['href'])
看看是否能解决问题。
,您可以使用正则表达式查找这些内容。
import re
lines = ['<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/in">Indiana</a>','<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ia">Iowa</a>','<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ks">Kansas</a>','<a class="Directory-listLink" data-ya-track="todirectory" href="united-states/ky">Kentucky</a>']
for l in lines:
print(re.search('href="[^"]*"',l).group())
这将给出输出:
href="united-states/in"
href="united-states/ia"
href="united-states/ks"
href="united-states/ky"
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。