如何解决机器人如何读取 robots.txt?
我正在开发我的网站以观察 seo 性能。
我的问题
我正在尝试将爬虫设置为不允许爬取我的 api 域。
@app.route('/robots.txt',methods=['GET'])
def robots():
text = '''
User-agent: *
Disallow:/
User-agent: Screaming Frog SEO Spider
Disallow: /
'''
return text
我路由 robots.txt url 并返回 text/plain 而不是制作整个 robots.txt 文件。
抓取工具是否解析网页的纯文本和工作,或者重定向到现有的robots.txt文件?我在 root/robots.txt
url 处呈现了纯文本,但我不确定抓取工具是否会以这种方式工作。
感谢您的帮助!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。