从 Reddit 上的一个帖子中检索所有评论

如何解决从 Reddit 上的一个帖子中检索所有评论

我是 API 和 JSON 的新手，希望在这里得到一些帮助。

我知道我想要完成的所有事情都可以使用 PRAW 库来完成，但我正在尝试在没有 PRAW 的情况下解决这个问题。

我有一个 for 循环，它从特定 subreddit 中提取帖子标题，将所有帖子标题输入到一个 Pandas 数据框中，并在达到限制后，将 ‘after 参数更改为最后一个帖子 ID，以便重复下一批。

一切正常，但是当我对特定线程尝试相同的技术并收集评论时，‘after’ 参数无法抓取下一批。

我假设 ‘after’ 与线程和 subreddits 帖子的工作方式不同。我在 JSON ‘more’ 中看到了一个 id 列表。我需要以某种方式使用它吗？当我查看线程的 JSON 时，即使使用更新的参数，‘after’ 也会显示 ‘none’。

知道我需要在这里更改什么吗？可能很简单。

用于获取限制为 5 的 subreddit 帖子的工作代码：

params = {"t":"day","limit":5}
for i in range(2):
    response = requests.get('https://oauth.reddit.com/r/stocks/new',headers=headers,params = params)
    response = response.json()
    for post in response['data']['children']:
        name = post['data']['name']
        print('name',name)
    params['after'] = name
    print(params)

给出输出：

name t3_lifixn
name t3_lifg68
name t3_lif6u2
name t3_lif5o2
name t3_lif3cm
{'t': 'day','limit': 5,'after': 't3_lif3cm'}
name t3_lif26d
name t3_lievhr
name t3_liev9i
name t3_liepud
name t3_lie41e
{'t': 'day','after': 't3_lie41e'}

Reddit 线程的代码，限制为 10

params = {"limit":10}
for i in range(2):
    response = requests.get('https://oauth.reddit.com/r/wallstreetbets/comments/lgrc39/',params = params,headers=headers)
    response = response.json()
    for post in response[1]['data']['children']:
        name = post['data']['name']
        print(name)
    params['after'] = name
    print(params)

给出输出：

t1_gmt20i4
t1_gmzo4xw
t1_gmzjofk
t1_gmzjkcy
t1_gmtotfl
{'limit': 10,'after': 't1_gmtotfl'}
t1_gmt20i4
t1_gmzo4xw
t1_gmzjofk
t1_gmzjkcy
t1_gmtotfl
{'limit': 10,'after': 't1_gmtotfl'}

即使限制设置为 10，在继续循环之前它只给出了 5 个 ID。此外，它没有更新 'after' 参数，而是重新启动。

解决方法

我最终想出了如何去做。阅读 Reddit 的 API 文档，当在一个线程中并且您想要提取更多评论时，您必须编译来自 JSON 中 (2,2,3) 部分的 id 列表。这是一个嵌套的树，如下所示：

more

使用 get 请求时，您将使用以下网址和格式

{'kind': 'more','data': {'count': 161,'name': 't1_gmuram8','id': 'gmuram8','parent_id': 't1_gmt20i4','depth': 1,'children': ['gmuram8','gmt6mf6','gmubxmr','gmt63gl','gmutw5j','gmtpitn','gmtoec3','gmtnel0','gmt4p79','gmupqhx','gmv70rm','gmtu2sj','gmt2vc7','gmtmjai','gmtje0b','gmtkzzj','gmt93n5','gmtvsqa','gmumhat','gmuj73q','gmtor7c','gmuqcwv','gmt3lxe','gmt4l78','gmum9cm','gmt857f','gmtjrz3','gmu0qcl','gmt9t9i','gmt8jc7','gmurron','gmt3ysv','gmt6neb','gmt4v3x','gmtoi6t']}}

从 Reddit 上的一个帖子中检索所有评论

如何解决从 Reddit 上的一个帖子中检索所有评论

解决方法

相关推荐