如何解决Web Scraping Enterprise Web App 时请求 Python 模块的身份验证问题
我的网页抓取想法:
我有一个公司内部网络应用程序,我正尝试在 python 中执行网络抓取操作(尝试连接到 XHR 请求以获取 JSON 数据)。我正在使用请求模块并计划在请求成功后解析 JSON 数据。
最终结果将是从 Web 应用程序使用的 API 创建我自己的自定义报告,因为用户界面太笨拙,而且它是我的组织创建的新系统,所以他们仍在解决错误。我可以通过 google chrome 访问该应用程序,当我登录时,系统会提示我选择证书。
问题 我最初在 python 中使用请求时遇到以下 SSL 错误。
[CERTIFICATE_VERIFY_FAILED] 证书验证失败:无法获得本地颁发者证书 (_ssl.c:1108)')))
为了解决 SSL 错误,我将层次结构(根、中间和应用程序)中的所有证书添加到我的 Cacert.pem 文件中,它消除了 SSL 错误。但是,每当我提出请求时,我都会收到 401 身份验证(有时是 403)错误。我一直在尝试通过调整我的标头以匹配我的 google chrome 请求标头(用户代理、cookie、请求 ID)来解决这个问题。我什至尝试从浏览器添加会话 cookie,但问题仍未解决。
问题:
-
将证书层次结构添加到 Cacerts.pem 文件是处理 SSL 错误的正确方法吗?
-
错误地将证书插入 Cacerts.pem 文件是否可能导致 401 错误?
-
下一步是否应该获取证书的私钥?
-
我尝试了基本身份验证,但我的 UN 和 PW 仍然出现 401 错误,该站点是否可能使用密钥连接到 API?
-
或者我应该尝试其他方法来抓取网页吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。