如何解决未按数字顺序排序时如何获取网站链接
使用beautifulsoup,可以很容易地提取遵循一定数字顺序的URL。但是,如何组织URL链接(如https://mongolia.mid.ru/en_US/novosti
这样的URL链接,其中有类似
https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijskoj-federacii-v-mongolii-i-k-azizova-s-ministrom-energetiki-mongolii-n-tavinbeh?inheritRedirect=false&redirect=https%3A%2F%2Fmongolia.mid.ru%3A443%2Fen_US%2Fnovosti%3Fp_p_id%3D101_INSTANCE_hfCjAfLBKGW0%26p_p_lifecycle%3D0%26p_p_state%3Dnormal%26p_p_mode%3Dview%26p_p_col_id%3Dcolumn-1%26p_p_col_count%3D1
?
像这样的网站很奇怪,因为一旦您第一次打开链接,便有了» Бусад мэдээ
按钮来转到文章的下一页。但是,一旦您单击那里,现在您会看到Previous
或Next
按钮,它们是如此井井有条。
如何从类似(https://mongolia.mid.ru/en_US/novosti
或https://mongolia.mid.ru/ru_RU/
)的网站上获取所有新闻报道?
解决方法
似乎» Бусад мэдээ
中的https://mongolia.mid.ru/ru_RU/
按钮只是重定向到https://mongolia.mid.ru/en_US/novosti
。那么为什么不从后者开始呢?
要抓取所有新闻,只需使用Next
按钮中的链接逐页浏览即可。
如果您希望它更具编程性,只需检查查询参数之间的差异,您会发现_101_INSTANCE_hfCjAfLBKGW0_cur
设置为实际页面的编号(从1开始)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。