#!/usr/bin/env python # -*- coding: UTF-8 -*- from pyquery import PyQuery as pq from selenium import webdriver browser = webdriver.Firefox() browser.get('http://www.baidu.com/') html = browser.find_element_by_xpath("//*").get_attribute("outerHTML") # 不要用 browser.page_source,那样得到的页面源码不标准 browser.quit() html = pq(html) html.find("script").remove() # 清理 <script>...</script> html.find("style").remove() # 清理 <style>...</style> print html.outer_html()
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。