asp.net-mvc-4 – 同一网站的不同域的robots.txt文件

我有一个可以从多个不同域访问的ASP.NET MVC 4 Web应用程序。该网站根据请求中的域完全本地化(在概念上类似于 this question)。

我想添加一个robots.txt文件,我想根据域本地化robots.txt文件,但我知道我在站点的文件系统目录中只能有一个物理“robots.txt”文本文件。

使用ASP.NET MVC框架在每个域的基础上实现一个robots.txt文件是最简单/最好的方法(甚至是可能的),以便相同的站点安装向每个域提供内容,但内容的机器人文件是根据所请求的域进行本地化的?

解决方法

这个过程很简单:

控制器/动作方式

>使用您的路线表,将您的robots.txt路径映射到控制器中的操作(我使用控制器和操作作为一个简单的例子来启动),就像给任何其他控制器和给定路径的视图一样。
>在Action中,检查请求中的域,然后为该域选择您的robots.txt内容。
>从磁盘返回相应的文件,如下所示:

> ContentResult并将ContentType设置为“text / plain”
> FilePathResult,如果您的机器人文件只是磁盘上的文件,通过Controller类上的一个帮助程序方法,如File(name,"text/plain")

以下示例假定单个顶级robots.txt文件:

// In App_Start/RouteConfig:
public static void RegisterRoutes(RouteCollection routes)
{
  routes.IgnoreRoute("{resource}.axd/{*pathInfo}");
  routes.MapRoute(
    name: "robots",url: "robots.txt",defaults: new { controller = "Seo",action = "Robots" }
);

// The controller:
public class SeoController : Controller {
  public ActionResult Robots() {
    var robotsFile = "~/robots-default.txt";
    switch (Request.Url.Host.ToLower()) {
      case "stackoverflow.com":
        robotsFile = "~/robots-so.txt";
        break;
      case "meta.stackoverflow.com":
        robotsFile = "~/robots-meta.txt";
        break;
    }
    return File(robotsFile,"text/plain");
  }
}

那么最简单的方法之一就是确保使用web.config中的runAllManagedModulesForAllRequests来调用所有请求的路由模块(请不要使用它,请参见下一段):

<system.webServer>
  <handlers>
    ...
  </handlers>
  <modules runAllManagedModulesForAllRequests="true" />
</system.webServer>

这通常不是一件好事,现在所有的静态文件(css,js,txt)在被转移到静态文件处理程序之前经过托管处理程序。 IIS非常适用于快速提供静态文件(大部分静态文件网站将在CPU之前最大化磁盘I / O方式),因此为避免这种性能受到打击,推荐的方法如下面的web.config示例部分。请注意与Visual Studio MVC 4模板应用程序中的ExtensionlessUrlHandler-Integrated-4.0处理程序的相似性:

<system.webServer>
  <handlers>
    <add name="Robots-Integrated-4.0"
         path="/robots.txt" verb="GET" 
         type="System.Web.Handlers.TransferRequestHandler" 
         preCondition="integratedMode,runtimeVersionv4.0" />
    ... the original handlers ...
  </handlers>
  <modules runAllManagedModulesForAllRequests="false" />
</system.webServer>

优点/缺点

一旦开始使用这种方法,这种方法的优点就会变得显而易见:

>您可以通过使用帮助程序生成Action url动态生成robots.txt文件,然后您可以将模板robots.txt文件的全部/部分添加到其中。
>您可以检查机器人用户代理,以便每个机器人用户代理返回不同的机器人文件
>您可以使用相同的控制器输出网页抓取工具的sitemap.xml文件
>您可以从容易由站点用户管理的数据库表中管理漫游器内容。

在缺点,

>您的漫游器文件现在使您的路由表复杂化,并不是真的需要
>您将需要优化缓存以防止持续的磁盘读取。但是,对于您采取的任何方式,这是一样的。

还要记住,不同的robots.txt文件可以用于不同的子目录。这通过路由和控制器方法变得棘手,所以IHttpHandler方法(下面)对于这种情况来说更容易。

IHttpHandler方法

您还可以使用自定义IHttpHandler registered in your web.config来实现此功能。我强调自定义,因为这样可以避免使所有控制器看到所有请求(使用runAllManagedModulesForAllRequests =“true”),这与在路由表中添加自定义路由处理程序不同。

这也可能是一个比控制器更轻便的方法,但您必须拥有巨大的网站流量才能注意到差异。其他好处是可以使用的代码段,可以用于所有的网站。您还可以添加自定义配置部分来配置机器人用户代理/域名/路径映射到漫游器文件。

<system.webServer>
  <handlers>
    <add name="Robots" verb="*" path="/robots.txt"
         type="MyProject.RobotsHandler,MyAssembly" 
         preCondition="managedHandler"/>
  </handlers>
  <modules runAllManagedModulesForAllRequests="false" />
</system.webServer>
public class RobotsHandler: IHttpHandler
{
  public bool IsReusable { get { return false; } }
  public void ProcessRequest(HttpContext context) {
    string domain = context.Request.Url.Host;
    // set the response code,content type and appropriate robots file here
    // also think about handling caching,sending error codes etc.
    context.Response.StatusCode = 200;
    context.Response.ContentType = "text/plain";

    // return the robots content
    context.Response.Write("my robots content");
  }
}

robots.txt在子目录中

要为子目录和站点根目录提供机器人,您无法轻松使用控制器方法;在这种情况下,处理程序方法更简单。这可以配置为将robots.txt文件请求提取到任何子目录,并相应地处理它们。然后,您可以选择为某些目录返回404,或为其他目录返回机器人文件的子部分。

我特别提到这里,因为这种方法也可以用于sitemap.xml文件,为站点的不同部分提供不同的站点地图,多个彼此引用的站点地图等。

其他参考文献:

> Scott Hanselman: Back to Basics: Dynamic Image Generation,ASP.NET Controllers,Routing,IHttpHandlers,and runAllManagedModulesForAllRequests
> MSDN – How to: Register HTTP Handlers

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


引言 本文从Linux小白的视角, 在CentOS 7.x服务器上搭建一个Nginx-Powered AspNet Core Web准生产应用。 在开始之前,我们还是重温一下部署原理,正如你所常见的.Net Core 部署图: 在Linux上部署.Net Core App最好的方式是在Linux机器
引言: 多线程编程/异步编程非常复杂,有很多概念和工具需要去学习,贴心的.NET提供Task线程包装类和await/async异步编程语法糖简化了异步编程方式。 相信很多开发者都看到如下异步编程实践原则: 遵守以上冷冰冰的②③条的原则,可保证异步程序按照预期状态正常运作;我们在各大编程论坛常看到违背
一. 宏观概念 ASP.NET Core Middleware是在应用程序处理管道pipeline中用于处理请求和操作响应的组件。 每个组件是pipeline 中的一环。 自行决定是否将请求传递给下一个组件 在处理管道的下个组件执行之前和之后执行业务逻辑 二. 特性和行为 ASP.NET Core处
背景 在.Net和C#中运行异步代码相当简单,因为我们有时候需要取消正在进行的异步操作,通过本文,可以掌握 通过CancellationToken取消任务(包括non-cancellable任务)。 Task&#160;表示无返回值的异步操作, 泛型版本Task&lt;TResult&gt;表示有返
HTTP基本认证 在HTTP中,HTTP基本认证(Basic Authentication)是一种允许网页浏览器或其他客户端程序以(用户名:口令) 请求资源的身份验证方式,不要求cookie,session identifier、login page等标记或载体。 - 所有浏览器据支持HTTP基本认
1.Linq 执行多列排序 OrderBy的意义是按照指定顺序排序,连续两次OrderBy,后面一个有可能会打乱前面一个的排序顺序,可能与预期不符。 要实现sql中的order by word,name类似效果; LINQ 有ThenBy可以紧接使用, ThenBy记住原本排序的值,然后再排其他值,
ASP.NET Core 核心特性:开源、跨平台、高性能是其决战JAVA的必胜法宝,最引人关注的跨平台特性 到底是怎么实现? &#xA; 本文分Unix、Windows剖析跨平台内幕,读完让你大呼过瘾。
前导 Asynchronous programming Model(APM)异步编程模型以BeginMethod(...) 和 EndMethod(...)结对出现。 IAsyncResult BeginGetResponse(AsyncCallback callback, object state
引言 最近在公司开发了一个项目,项目部署架构图如下: 思路 如图中文本所述,公司大数据集群不允许直接访问外网,需要一个网关服务器代理请求,本处服务器A就是边缘代理服务器的作用。 通常技术人员最快捷的思路是在服务器A上部署IISʺpplication Request Routing Module组件
作为一枚后端程序狗,项目实践常遇到定时任务的工作,最容易想到的的思路就是利用Windows计划任务/wndows service程序/Crontab程序等主机方法在主机上部署定时任务程序/脚本。 但是很多时候,若使用的是共享主机或者受控主机,这些主机不允许你私自安装exe程序、Windows服务程序
引言 熟悉TPL Dataflow博文的朋友可能记得这是个单体程序,使用TPL Dataflow 处理工作流任务, 在使用Docker部署的过程中, 有一个问题一直无法回避: 在单体程序部署的瞬间(服务不可用)会有少量流量无法处理;更糟糕的情况下,迭代部署的这个版本有问题,上线后无法运作, 更多的流
合格的web后端程序员,除搬砖技能,还必须会给各种web服务器配置Https,本文结合ASP.NET Core部署模型聊一聊启用Https的方式。 温故知新 目前常见的Http请求明文传输,请求可能被篡改,访问的站点可能被伪造。 HTTPS是HTTP加上TLS/SSL协议构建的可进行加密传输、身份认
长话短说 前文《解剖HttpClientFactory,自由扩展HttpMessageHandler》主要讲如何为HttpClientFactory自定义HttpMessageHandler组件, 现在来完成课后的小作业: 将重点日志字段显示到Nlog的LayoutRenderer上。 本文实现一个
引言问题 作为资深老鸟,有事没事,出去面试;找准差距、定位价值。 面试必谈哈希, Q1:什么是哈希? Q2:哈希为什么快? Q3:你是怎么理解哈希算法利用空间换取时间的? Q4:你是怎么解决哈希冲突的? Q5:你有实际用写过哈希算法吗? 知识储备 哈希(也叫散列)是一种查找算法(可用于插入),哈希算
前言 如题,有感于博客园最近多次翻车,感觉像胡子眉毛一把抓, 定位不了生产环境的问题。 抛开流程问题,思考在生产环境中如何做故障排除,&#160;发现博客园里面这方面的文章比较少。 .Net 本身是提供了sos.dll工具帮助我们在生产中故障排除,通过提供有关内部公共语言运行时(CLR)环境的信息,
.NET程序是基于.NET Framework、.NET Core、Mono、【.NET实现】开发和运行的 ,定义以上【.NET实现】的标准规范称为.NET Standard .NET Standard .NET标准是一组API集合,由上层三种【.NET实现】的Basic Class Library
长话短说 上个月公司上线了一个物联网数据科学项目,我主要负责前端接受物联网事件,并提供 参数下载。 webapp 部署在Azure云上,参数使用Azure SQL Server存储。 最近从灰度测试转向全量部署之后,日志时常收到: SQL Session超限报错。 排查 我在Azure上使用的是 S
临近年关,搜狗,360浏览器出现页面无法成功跳转,同域Cookie丢失? 也许是服务端 SameSite惹的祸。&#xA;本文揭示由于Chrome低版本内核不识别 SameSite= None, 引发的单点登录故障。
本文聊一聊TraceID的作用和一般组成,衍生出ASP. NETCore 单体和分布式程序中 TraceId 的使用方式
通过给 HttpClint请求的日志增加 TraceId,解锁自定义扩展 HttpClientFacroty 的姿势