如何解决检测到Python Selenium Scraper
我通读了所有的scraper检测线程,并提出了必要的Selenium选项的完整列表。
但是...
一些链接似乎会引起问题,我对此采取的措施没有任何印象。
一个网址,例如我无法造景,如下所示: www.mobilityhouse.com/de_de/zubehoer/ladekabel.html
这是我的刮刀。
爱知道,缺少什么。 而且由于我想节省资源(因为稍后要进行线程处理),所以我正在寻找一种无忧的解决方案。
谢谢!
代码:
########################
# scraper
########################
def seleniumhtml_url(link):
dic={}
dirname = os.path.dirname(__file__)
filepath = os.path.join(dirname,'chromedriver')
chrome_options = Options()
chrome_options.add_argument('--incognito')
chrome_options.add_argument("--enable-javascript")
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/79.0.3945.79 Safari/537.36')
chrome_options.add_argument('--disable-extensions')
chrome_options.add_argument('start-maximized')
chrome_options.add_argument('disable-infobars')
chrome_options.add_experimental_option("excludeSwitches",["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension',False)
driver = webdriver.Chrome(executable_path=filepath,chrome_options=chrome_options) # Optional argument,if not specified will search path.
driver.get(link)
#time.sleep(3) # Let the user actually see something!
html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
driver.quit()
dic["html"] = html
return(dic)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。