如何解决URL 解码和理解
最近我开始学习网络爬虫。为此,我需要关注 URL 及其基本结构。我考虑了来自 Amazon 和 Priceline 的两个 URL 用于家庭作业。
URL 的一些基本概念
- 一个查询字符串出现在 URL 的末尾,以单个 问号,“?”。
- 参数以键值对的形式提供,并由 &符号,“&”。
- 键和值使用等号“=”分隔
- 大多数网络框架都允许我们定义“nice 寻找”的 URL 只包含 URL 路径中的参数
亚马逊网址
https://www.amazon.com/books-used-books-textbooks/b/?ie=UTF8&node=283155&ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
据我所知:
Parameters
ie=UTF8
node = 283155
ref_=nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
Key Values
ie UTF8
node 283155
ref_ nav_cs_books_788dc1d04dfe44a2b3249e7a7c245230
价格线网址
https://www.priceline.com/relax/in/3000005381/from/20210310/to/20210317/rooms/1?vrid=16e829a6d7ee5b5538fe51bb7e6925e8
此网址基于 03/10/2021 至 03/17/2021 在芝加哥的酒店预订。
据我所知:
key values
from 20210310 2021 - 03 -10
to 20210317 2021 - 03 -17
rooms 1
我没有发现更多的东西。我只是确定我错过了什么?那些 URLS 分析能更准确吗?
解决方法
可能有帮助的提示是:
数据可以通过 GET 或 POST 发布。你用 URL 描述的是 GET。 POST 是指您在 url 中看不到任何内容。
在这两种情况下,熟悉使用浏览器的开发者控制台将有助于您探索网站的工作原理。在 Chrome 中,您可以按 F12 或右键单击任何元素并选择“检查元素”。这在尝试检查使用 POST 传递的数据时特别有用,因为您无法在 url 中看到它们。使用“网络”选项卡,同时点击查看网站在后台执行的操作。
最后,只是玩弄网站。例如,当您浏览 Amazon 时,您可能会注意到这些 url 看起来像 https://www.amazon.com/Avalon-Organics-Creme-Radiant-Renewal/dp/B082G172GL/?_encoding=UTF8,但是如果您尝试使用它,您会发现您可以删除标题,而 url 仍然是这样的:https://www.amazon.com/dp/B082G172GL
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。