如何解决urllib RobotFileParser - robots.txt 中看似冲突的规则
以下是amazon.co.jp/robots.txt的相关部分:
User-agent: *
Disallow: /-/
Disallow: /gp/aw/shoppingAids/
Allow: /-/en/
我要检查的网址:"https://www.amazon.co.jp/-/en/035719/dp/B000H4W9WG/ref=sr_1_61?dchild=1&keywords=dot%20matrix%20printer&qid=1617229306&s=computers&sr=1-61"
现在,它符合 disallow: Disallow: /-/
和 allow: Allow: /-/en/
。
urllib 的 RobotFileParser 将 URL 标记为 can_fetch = False。我检查了源代码,似乎是按时间顺序进行的。由于禁止在前,它将允许标记为 False,仅此而已。
考虑到 robots.txt 标准,这是否是正确的方法,因为在我看来这似乎很违反直觉,并且认为应该允许该网址。
相关代码:
import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()
rp.set_url("https://www.amazon.co.jp/robots.txt")
rp.read()
can_ftch = rp.can_fetch("*","https://www.amazon.co.jp/-/en/035719/dp/B000H4W9WG/ref=sr_1_61?dchild=1&keywords=dot%20matrix%20printer&qid=1617229306&s=computers&sr=1-61")
编辑:按照谷歌标准,它应该像我一样工作。应该允许 URL。 the most specific rule based on the length of the [path] entry trumps the less specific (shorter) rule
EIDT2:做了更多的挖掘,发现了这个 qoute:
对于 Google 和 Bing,规则是使用最多的指令 人物获胜。在这里,这是禁止指令。
- 禁止:/blog/(6 个字符)
- 允许:/blog(5 个字符)
如果 allow 和 disallow 指令的长度相等,则 限制最少的指令获胜。在这种情况下,这将是 允许指令。
至关重要的是,这仅适用于 Google 和 Bing。其他搜索 引擎侦听第一个匹配指令。在这种情况下,那就是 禁止。
按照这个逻辑,RobotFileParser 确实是正确的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。