robots.txt - 编程之家

django – Nginx：交替域的不同robots.txt

摘要我有一个内部和外部域指向它的单个Web应用程序,我希望robots.txt阻止对内部域的所有访问,但允许所有访问外部域.问题细节我有一个简单的Nginx服务器块,我曾用它代理Django应用程序(见下文).如您所见,此服务器块响应任何域(由于缺少server_name参数).但是,我想知道如何标记特定域名,例如Nginx将为他们提供自定义robots.t

html – YQL“重定向到robots.txt受限制的网址”Google Domain的错误

我正在使用YQL控制台,我想从此link in Google Shopping返回结果在YQL中使用以下内容： select content from html where url='www.google.com/products/seller?hl=en&q=burkett+restaurant+equipment+reviews&tbo

优化Robots.txt提升你的WordPress收录

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 robots.txt文件是一个文本文件，使用

针对robots.txt的正则表达式

我正在尝试设置我的robots.txt,但我不确定正则表达式. 我有四种不同的页面,全部有三种不同的语言版本.我认为我可以使用正则表达式而不是列出每页3次. nav.aspx page.aspx / changelang(可能附加了一个查询字符串,例如“？toLang = fr”.) mypage.aspx？id和login.aspx / logoff(= 12346？…等 – 每次不同) ！所有

ruby-on-rails – Rails：动态robots.txt与erb

我试图在我的Rails(3.0.10)应用程序中呈现一个动态文本文件(robots.txt),但它继续呈现为 HTML(控制台). match 'robots.txt' => 'sites#robots' 控制器： class SitesController < ApplicationController respond_to :html, :js, :xml, :css, :txt

ruby-on-rails – 用于rails中子域的多个robots.txt

我有一个包含多个子域的站点,我希望命名的子域robots.txt与www一个不同. 我尝试使用.htaccess,但FastCGI不看它. 所以,我试图设置路由,但似乎你不能直接重写,因为每个路由都需要一个控制器： map.connect '/robots.txt', :controller => ?, :path => '/robots.www.txt', :conditions => { :s

asp.net-mvc-4 – 同一网站的不同域的robots.txt文件

我有一个可以从多个不同域访问的ASP.NET MVC 4 Web应用程序。该网站根据请求中的域完全本地化(在概念上类似于 this question)。我想添加一个robots.txt文件，我想根据域本地化robots.txt文件，但我知道我在站点的文件系统目录中只能有一个物理“robots.txt”文本文件。使用ASP.NET MVC框架在每个域的基础上实现一个robots.txt文件是最简

asp.net-mvc – 在ASP.NET MVC 3中路由静态文件,如robots.txt

我想要将以下链接“http://mywebsite.com/robots.txt”链接到静态文件〜/ Content / robots.txt. 我该怎么做？谢谢, Merijn 添加这样的路线应该做的诀窍.这样可以提供任何静态.txt文件,如robots.txt. routes.IgnoreRoute("{resource}.txt");

asp.net-mvc – 如何在ASP.NET MVC中添加路由到动态robots.txt？

我有一个robots.txt,它不是静态的,而是动态生成的.我的问题是创建从root / robots.txt到我的控制器操作的路由. 这有效： routes.MapRoute( name: "Robots", url: "robots", defaults: new { controller = "Home", action = "Robots" }); 这不起作用： routes.MapRou

优化robots.txt，利于 WordPress 网站排名

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），robots.txt 文件通常位于网站的根目录，在SEO中起着很重要的作用，此文件是网站与搜索引擎之间的桥梁，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

如何使用robots.txt禁止仅对我的子域进行爬网？

如果我希望我的主网站在搜索引擎上,但没有子域名,我应该在子域名的目录中放置“禁止所有”robots.txt吗？如果我这样做,我的主域名仍然可以抓取吗？ robots.txt文件需要放在您的网络服务器的顶级目录中.如果您的主域和每个子域位于不同的vhost上,那么您可以将它放在每个子域的顶级目录中并包含类似的内容 User-agent: * Disallow: / robots.txt的位置取决于您

带宽 – 百度蜘蛛每天造成3Gb流量 – 但我在中国做生意

我遇到了困难,百度蜘蛛正在攻击我的网站,每天带来3Gb带宽.与此同时,我在中国开展业务,所以不要只是阻止它. 有没有其他人处于类似情况(任何蜘蛛)？你有没有遇到过神奇的解决方案？或者你只是接受它并阻止或不阻止机器人？只要它遵循robots.txt,您就可以限制请求 User-agent: * Crawl-delay: 10

为什么googlebot会从我的SSH服务器请求robots.txt？

我在我的服务器上运行ossec,并定期收到这样的警告： Received From: myserver->/var/log/auth.log Rule: 5701 fired (level 8) -> "Possible attack on the ssh server (or version gathering)." Portion of the log(s): Nov 19 14:26:33

web-crawler – 我应该在robots.txt中对不区分大小写的目录使用不同的大小写拼写吗？

不幸的是,我有一些不区分大小写的服务器,短期内无法更换.某些目录需要从抓取中排除,因此我必须在robots.txt中禁止它们.我们以/ Img /为例.如果我把它全部保持小写…… User-agent: * Disallow: /img/ …它没有映射到实际的物理路径,并且/ Img /或/ IMG /的地址未应用于Disallow指令. Crawlers会将这些变体视为不同的路径. 在这件事上看

Robots.txt – 多个用户代理的抓取延迟的正确格式是什么？

以下是一个示例robots.txt文件,允许每个用户代理具有多个爬网延迟的多个用户代理.抓取延迟值仅用于说明目的,并且在真实的robots.txt文件中将不同. 我已经在网上搜索了正确的答案,但找不到.有很多混合的建议,我不知道哪个是正确/正确的方法. 问题： (1)每个用户代理可以拥有自己的爬行延迟吗？ (我假设是) (2)在Allow / Dissallow行之前或之后,您将哪个用户代理的爬行

robots.txt解析器java

我想知道如何解析 java中的robots.txt. 有代码吗？ Heritrix是一个用Java编写的开源Web爬虫.通过他们的javadoc,我看到他们有一个实用程序类 Robotstxt用于解析robots.txt文件.

任何人都有任何C#代码来解析robots.txt并对其进行评估

简短的问题：有没有人有任何C#代码来解析robots.txt,然后针对它评估URLS,所以看看它们是否会被排除. 长问题：我一直在为一个尚未发布到谷歌的新网站创建一个站点地图.站点地图有两种模式,一种是用户模式(如传统的站点地图)和一种“管理”模式. 管理员模式将显示网站上所有可能的URL,包括特定外部合作伙伴的自定义条目URL或URL,例如example.com/oprah,适用于在Opra