如何解决熊猫read_html错误:找不到我想要的表
我想通过此链接获取表格:https://radarintermediacoes.com.br/compra-e-venda-de-negocios/estacionamento-no-centro-17/
我正在尝试通过以下代码获取信息:
import pandas as pd
import requests
url = "https://radarintermediacoes.com.br/compra-e-venda-de-negocios/estacionamento-no-centro-17/"
header = {
"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/50.0.2661.75 Safari/537.36","X-Requested-With": "XMLHttpRequest"
}
r = requests.get(url,headers=header)
data = pd.read_html(r.text)
data
使用此代码,我设法只获取我想要的表之一,表“ DESPESAS FIXAS /VARIÁVEIS”,但我还希望表“ DETALHES DONEGÓCIO”。
希望我能得到一些帮助或建议,谢谢!
解决方法
您要查找的数据不在<table>
标记内,因此Pandas看不到它。但是您可以使用BeautifulSoup
解析数据,例如:
import requests
import pandas as pd
from bs4 import BeautifulSoup
url = "https://radarintermediacoes.com.br/compra-e-venda-de-negocios/estacionamento-no-centro-17/"
soup = BeautifulSoup(requests.get(url).content,'html.parser')
all_data = []
for li in soup.select('div.panel-heading:contains("Detalhes do Negócio") + div li'):
a,v = li.strong.text,li.strong.find_next_sibling(text=True)
all_data.append({'Attribute': a.strip(':'),'Value': v})
df = pd.DataFrame(all_data)
print(df)
打印:
Attribute Value
0 TIPO DE NEGÓCIO Estacionamentos
1 REGIÃO Centro
2 FATURAMENTO MENSAL R$ 13.500,00
3 LUCRO LÍQUIDO R$ 3.000,00
4 NÚMERO DE FUNCIONÁRIOS 1
5 TEMPO DE CONTRATO 3 anos
6 HORÁRIO DE FUNCIONAMENTO Segunda a sexta ds 07:00 as 19:00
7 CONDIÇÕES DE PAGAMENTO 50% de entrada e restante em 30 dias
8 PREÇO R$50.000,00
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。