如何解决如何从 robots.txt 文件中排除 URL
我有很多包含文档(内容)的中英文网址。两个 URL 的内容相同,所以我想禁止来自 robots.txt
的中文 URL。
下面是我的网址片段:
https://www.example.com/zh/docs/UBX-18006379
https://www.example.com/zh/ubx-viewer/view/cB-2254-12(fw_obs421_rd_v5.3.2).bin
我对以下通配符是否正确:
1- Disallow: /zh/docs/*
2- Disallow: /zh/ubx-viewer/*
谁能帮帮我?以上是正确使用吗? 提前致谢
解决方法
不,这是不正确的。机器人不支持正则表达式。
根据https://www.robotstxt.org/robotstxt.html
另请注意,不支持通配符和正则表达式 用户代理或禁止行。用户代理中的“” field 是一个特殊值,意思是“任何机器人”。具体来说,你不能 有像“User-agent: bot”、“Disallow: /tmp/”或“Disallow: *.gif”。
但是请记住,机器人可以忽略 robots.txt
。所以请注意,如果这些目录是公开可用的,任何人仍然可以访问这些目录,并且您不应该在其中存储敏感信息。
所以在你的情况下,如果你想排除这些目录:
User-agent: *
Disallow: /zh/docs/
Disallow: /zh/ubx-viewer/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。