Selenium,模仿真实用户的最佳方式是什么?

如何解决Selenium,模仿真实用户的最佳方式是什么?

我一直在使用 Selenium 和 Google Colab 从拍卖网站下载卖家数据。几个星期以来,我一直无法下载该站点的内容。我添加了 fake-user 但结果是一样的。否则我怎么能看起来像一个真正的用户来下载页面?

我的代码:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from fake_useragent import UserAgent

options = webdriver.ChromeOptions()

ua = UserAgent(use_cache_server=False)
userAgent = ua.random
print(userAgent)

options.add_argument("window-size=1280,800")
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--disable-blink-features=AutomationControlled')
options.add_argument(f'user-agent={userAgent}')

driver = webdriver.Chrome(options=options)
driver.get("https://allegro.pl/oferta/zageszczarka-6-5km-90kg-higher-briggs-gratisy-9003885105#aboutSeller")
print(driver.page_source)

结果:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/41.0.2227.0 Safari/537.36
<html><head><title>allegro.pl</title><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style><meta name="viewport" content="width=device-width,initial-scale=1.0"></head><body style="margin:0"><script>var dd={'cid':'AHrlqAAAAAMAOIflZgDZm2IAI-ywFA==','hsh':'77DC0FFBAA0B77570F6B414F8E5BDB','t':'fe','s':29560,'host':'geo.captcha-delivery.com'}</script><script src="https://ct.captcha-delivery.com/c.js"></script><script>if("string"==typeof navigator.userAgent&&navigator.userAgent.indexOf("Firefox")>-1){var isIframeLoaded=!1,maxTimeoutMs=5e3;function iframeOnload(e){isIframeLoaded=!0;var a=document.getElementById("noiframe");a&&a.parentNode.removeChild(a)}var initialTime=(new Date).getTime();setTimeout(function(){isIframeLoaded||(new Date).getTime()-initialTime>maxTimeoutMs&&(document.body.innerHTML='<div id="noiframe">Please enable JS and disable any ad blocker</div>'+document.body.innerHTML)},maxTimeoutMs)}else function iframeOnload(){}</script><iframe src="https://geo.captcha-delivery.com/captcha/?initialCid=AHrlqAAAAAMAOIflZgDZm2IAI-ywFA%3D%3D&amp;hash=77DC0FFBAA0B77570F6B414F8E5BDB&amp;cid=ak0Wk_5LBEPLw9rTmErZ~211JLk9IruT-DV3pn2r.NzAZ_JOOcDsOjFjoiO8O88Uty8imz7f4IXqYdOqun_vy9SJOl7y7x-cu4m.D1jxOt&amp;t=fe&amp;referer=https%3A%2F%2Fallegro.pl%2Foferta%2Fzageszczarka-6-5km-90kg-higher-briggs-gratisy-9003885105%23aboutSeller&amp;s=29560" width="100%" height="100%" style="height:100vh;" frameborder="0" border="0" scrolling="yes" onload="iframeOnload()"></iframe>
</body></html>

解决方法

我查看了该站点,如果您使用 Selenium Chrome 浏览器,它似乎可以将 IP 列入黑名单。

这应该可以工作(使用 HEAD 模式,不保证 HEADLESS 模式)https://github.com/ultrafunkamsterdam/undetected-chromedriver

此外,运行 Google Colab 的服务器不应具有列入黑名单的 IP。如果是这样,那太糟糕了,您对此无能为力。


编辑:您可以在此处了解有关站点如何检测 Selenium 驱动程序的更多信息:https://stackoverflow.com/a/56529616/8068153

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?