如何解决如何在python笔记本中使用BeautfulSoup在网站页面内抓取特定的url
我正在抓捕一个用于教育学习目的的网站。
我的问题是如何在网站的特定页面内抓取网址链接。
示例:see this link
它在图片下方包含一个网址。
那就是我的观点,要抓住每一页的链接。
我尝试了这个,但是没有用:
Websitelist=soup.find_all('div',class_='field-item even') itemz='field-item even' for tmp in Websitelist: for link in tmp.find_all('a',href=True): print(Websitelist)
我附上了它的inspect元素代码的样本图片。 image 注意:类名不是特定的,这意味着它在inspect元素代码中多次使用。 我在互联网上尝试了很多,但无法解决。 感谢您的帮助
解决方法
这是完美的答案 它在做什么
- 查找类为
div
的所有even
元素 - 如果div的子级为
a
,并且a
的属性为href
,则创建新的div列表。 - 打印
href
属性
divs = soup.find_all("div",class_="even")
a = [i.find("a") for i in divs if i.find("a") and i.find("a").has_attr("href")]
print(a[0]['href'])
>>> http://www.corporate.danone.it
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。