如何解决如何允许机器人仅访问特定页面和主页
我有一个网站,我需要阻止机器人抓取所有页面、图像......一切。但我只需要允许机器人抓取包含 GET 参数 q
的页面以及主页。例如,我只想允许具有以下模式的 URL:
https://www.example.com
https://www.example.com/?q=xxx
https://www.example.com/?param=yyy&q=xxx
https://www.example.com/index.php?q=xxx&another=ppp
为此,我使用以下内容创建了我的 robots.txt
文件:
User-agent: *
Disallow: /
Allow: /*?q=
Allow: /*&q=
但是我可以发现两个问题:
- 有了上面的
robots.txt
,我就屏蔽了主页https://www.example.com
; - 我在许多网站上读到,当将
Disallow
与Allow
一起使用时,不得使用*
(通配符)以防止冲突。那么如何允许包含q
的请求?
非常感谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。