如何解决如何使用 robots.txt 阻止网络搜索
我有一个关于如何防止我们的开发文档网站被包含在搜索结果中的问题。
我们一直在对此进行研究,并找到了一种使用 robots.txt 文件执行此操作的可能方法,但它的实际工作方式令人困惑。
我在 Dummies 和 robotstxt.org 站点上找到了最好的信息,其中解释说您可以通过将这两行添加到 robots.txt 文件中,然后将该文件放在根级别,从而明确地阻止整个站点中的搜索您网站的:
User-agent: *
Disallow: /
我们的开发文档站点是这样设置的,其中 wwwroot 文件夹包含我们在文件夹 A-P 中的所有开发文档:
通过在 wwwroot 文件夹中添加带有这两行代码的 robots.txt,这会阻止搜索引擎索引文件夹 A-P 中的所有内容吗?
此外,在开发周期结束时,我们“切换”这个开发站点,它成为我们的生产站点。于是域名就从“https://docs-dev.OurSite.com”变成了“https://docs.OurSite.com”。
有没有办法“允许”使用相同的 robots.txt 文件搜索网站的生产版本?也许是这样的:
User-agent: *
Disallow: /docs-dev.OurSite.com/
我知道我们可以在“切换”后删除 robots.txt 文件,但我想知道以这种方式对 robots.txt 进行编码是否也能解决问题。
谢谢。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。