如何解决While 语句继续循环,即使它在技术上不可行
我正在编写一个 Selenium Python 脚本,它应该从所有页面中抓取所有超链接,并使用它点击的“下一步”按钮在它们之间切换。这成功地抓取了所有链接,但是当它到达“下一个”按钮元素不应该再存在的最后一页时,它会继续在最后一页上循环,并不断将抓取的数据一遍又一遍地写入 CSV 文件。
根据我对 while 和 try/except 语句的设置的理解,这在技术上是不可能的。我已经搞了几个小时的代码,并因此掉了头发,但我仍然没有设法修复它。
这是我试图从中获取信息的网站: https://www.sreality.cz/adresar
如您所见,有红色的公司名称,底部有“下一步”箭头按钮。这是我应该抓取所有链接的代码:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import WebDriverException,TimeoutException
from platform import system
from os import getcwd,getlogin
import csv
wait = WebDriverWait(driver,10)
with open('links.csv','w+',newline='') as write:
driver.get("https://www.sreality.cz/adresar")
writer = csv.writer(write)
page_spawn = 0
while page_spawn == 0:
try:
links = wait.until(ec.presence_of_all_elements_located((By.CSS_SELECTOR,"h2.title > a")))
#print(len(links))
for link in links:
print(link.get_attribute("href"))
writer.writerow([link.get_attribute("href")])
wait.until(ec.element_to_be_clickable((By.CSS_SELECTOR,"a.btn-paging-pn.icof.icon-arr-right.paging-next"))).click()
except TimeoutException:
page_spawn = 1
break
解决方法
那个箭头按钮元素仍然存在于 the last page 上,但已被禁用:
>> window.location
Location https://www.sreality.cz/adresar?strana=152
>> document.querySelector("a.btn-paging-pn.icof.icon-arr-right.paging-next")
<a class="btn-paging-pn icof icon-…ht paging-next disabled" ng-href="" ng-class="{disabled: !pagingData.nextUrl}">
在元素上调用 click()
方法什么也不做。
鉴于禁用元素具有 disabled
类值,在该选择器的末尾添加 :not(.disabled)
将阻止它匹配禁用元素:
>> window.location
Location https://www.sreality.cz/adresar?strana=152
>> document.querySelector("a.btn-paging-pn.icof.icon-arr-right.paging-next:not(.disabled)")
null
同时仍然匹配非禁用元素:
>> window.location
Location https://www.sreality.cz/adresar?strana=151
>> document.querySelector("a.btn-paging-pn.icof.icon-arr-right.paging-next:not(.disabled)")
<a class="btn-paging-pn icof icon-arr-right paging-next" ng-href="/adresar?strana=152" ng-class="{disabled: !pagingData.nextUrl}" href="/adresar?strana=152">
,
您没有更改 try 块中 page_spawn
的值,这可能是循环 n 次的原因。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。