了解具有动态参数进行抓取的网络请求

如何解决了解具有动态参数进行抓取的网络请求

我有2个链接,需要从那里链接数据。

  1. https://www.meetup.com/find/tech/?allMeetups=false&radius=5&userFreeform=Brisbane&mcId=c1000655&change=yes&sort=default&eventFilter=mysugg
  2. https://www.meetup.com/find/tech/?allMeetups=true&radius=5&userFreeform=Canberra%2C+Australia&mcId=c1000660&change=yes&sort=recommended&eventFilter=mysugg

如您所见,最后有一个Show More按钮。最初,我使用Selenium并成功进行了剪贴。但是,在了解scrapy之后,我对仅使用requestsNetwork Requests模块感兴趣,因为它可以使事情变得更快。

我取得了一些进展。但是参数让我发疯。让我解释一下我不了解的内容。

对于第一个链接,在page source中,我提取的data-name的数目为127。 检查调试器,当我单击按钮时,我看到向XHR发出了请求

https://www.meetup.com/find/tech/?pageToken=default%7C100&allMeetups=false&keywords=&radius=5&userFreeform=Brisbane&mcId=c1000655&mcName=Brisbane%2C+AU&sort=default&__fragment=simple_search&op=

打开该链接并搜索data-name的唯一编号将得出100的计数。向下滚动到末尾后,新事件将与另一个请求一起添加

https://www.meetup.com/find/tech/?pageToken=default%7C200&allMeetups=false&keywords=&radius=5&userFreeform=Brisbane&mcId=c1000655&mcName=Brisbane%2C+AU&sort=default&__fragment=simple_search&op=

data-name的计数为29

我知道,如果使用正确的标头,则可以将结果作为JSON来获取,但是即使以这种格式获取,也不会有问题,因为我可以在{中使用Regex {1}}标签以获取所有事件。

接下来,监视第二个链接,我观察到有一个请求

https://www.meetup.com/find/?pageToken=recommended%7C100&allMeetups=false&keywords=Tech&radius=5&userFreeform=Canberra%2C+Australia&mcId=c1000660&mcName=Canberra%2C+AU&sort=recommended&__fragment=simple_search&op=search

,它返回了一种没有<p>的空响应。

现在,我有以下问题:

  1. 如果将data-name增加到pageToken=recommended|100,则一次提取一页信息。如何获得首页响应,即我要抓取的URL?制作200在第二链接中无济于事,并且返回的响应较少。 pageToken to 0表示什么?
  2. 我是否需要在程序中生成|请求URL?在这种情况下,我怎么知道从提供给我的链接中以这种格式创建URL的逻辑?如何调查JS以找到开发人员实际上是如何构成Ajax调用的URL的?
  3. 为什么在第二个链接中,XHRhttps://www.meetup.com/find/tech变为https://www.meetup.com/find/并以XHR作为关键字?同样,第二个链接中的TechallMeetups,在true请求中更改为false。尝试抓取页面时,我应该怎么做才能生成XHR这样的Ajax链接?

任何帮助,都感谢教程的链接。预先感谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com(将#修改为@)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?