如何解决如何在 Python 中以编程方式区分 XML 和 HTML?
我正在发送一个 http 请求并获得一个 http 响应,但我希望能够提取响应的正文并知道它是否包含 XML 或 HTML。
理想情况下,即使响应中的内容类型不明确,此方法也应该有效(即,它应该适用于不一定指定内容类型的网站)。
目前,我使用 lxml 来解析 html/xml,但在解析时不知道我是在处理 HTML 还是 XML。
解决方法
您可以检查 content-type
标头以了解您收到的是哪种类型的响应:
import requests
respond = requests.get(URL)
file_type = respond.headers['content-type']
print(file_type)
>>>'text/html; charset=utf-8'
你也可以
print(file_type.split(';')[0].split('/')[1])
获取 "html"
或 "xml"
作为输出
我不明白您为什么要这样做,我相信有更好的方法可以做到。但是...
xml和html的区别在于声明,HTML必须以<!DOCTYPE HTML>
开头,XML以<?xml version="1.0>
开头
XML 示例
<?xml version="1.0>
<address>
<name> Krishna Rungta</name>
<contact>9898613050</contact>
<email>krishnaguru99@gmail.com </email>
<birthdate>1985-09-27</birthdate>
</address>
HTML 示例
<!DOCTYPE html>
<html>
<head>
<title> Page title </title> </head>
<body>
<hl> First Heading</hl> <p> First paragraph.</p> </body>
</html>
如果我是你,我会用 BeautifulSoup 来选择 DOCTYPE,如果你找不到/选择,那就是 XML。你可以看到如何做到这一点here。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。