如何解决使用Python进行网络爬虫:尽管参数更新,但request.getparam不会更新
我遇到以下问题:我尝试抓取域名调查网站(https://namecensus.com/male_names.htm) 使用以下代码:
for counter in range(0,len(links_male)):
print("Sleeping for 2 Seconds")
time.sleep(2)
print(url)
html_page=rq.get(url)
bs_instance_male=BeautifulSoup(html_page.text,"html.parser")
print(bs_instance.h1)
table_entries=bs_instance.select(".datatable > table >tr >td")
for entry in table_entries:
male_firstname_data.append(entry)
#Update Url
counter+=1
if(counter<len(links_male)):
url=links_male[counter]
print(f"URL updating to: {url}")
else:
print("Done")
这将提供以下输出:picture of output
如您所见,尽管URL字符串已正确更新,但仍不更新变量html_page? 有人可以解释我为什么会这样吗? 谢谢!
解决方法
您正在分配bs_instance_male
,但正在打印bs_instance.h1
,我认为是有问题的。另外,您提供的示例也不是mcve。为了增加有用答案的机会,请确保读者可以复制您的代码并得到与您遇到的相同的问题。在大多数情况下,做出这样一个例子的过程将使问题变得显而易见,甚至不会发布问题。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。