如何解决网页抓取不同格式
我试图在此页面https://www.aacps.org/Page/4014上抓取员工的姓名,电子邮件ID(链接到他们的姓名),年份和角色/主题,并将详细信息保存在excel工作表中。收集链接数据和纯文本信息时遇到困难。
这是我到目前为止所拥有的:
url_fac='https://www.aacps.org/Page/4014'
print(url_fac)
req_fac = urllib.request.Request(url_fac,headers=hdr)
html_page_fac = urllib.request.urlopen(req_fac)
soup_fac = BeautifulSoup(html_page_fac,"lxml")
links_fac=soup_fac.find_all('a')
非常感谢!
解决方法
可能不是最有效的方法,但是以可以清除的格式获取数据。
from bs4 import BeautifulSoup
import requests
headers = {
'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
url_fac = 'https://www.aacps.org/Page/4014'
req_fac = requests.get(url_fac,headers=headers)
soup_fac = BeautifulSoup(req_fac.content,'html.parser')
staff_fac = soup_fac.find('div',attrs={'id': "sw-module-78060"})
for link in staff_fac.find_all('a',href=True):
print("Url: " + link['href'])
print("Name: " + link.parent.text)
print("Team: " + link.parent.parent.parent.find("strong").text)
输出:
Url: mailto:shartford@aacps.org
Name: Principal – Shelley Hartford shartford@aacps.org
Team: Principal
等
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。