分类导航

SEO:如何正确识别百度蜘蛛,且看官方说法

发布时间:2020-05-14 发布网站:脚本之家
脚本之家收集整理的这篇文章主要介绍了SEO:如何正确识别百度蜘蛛,且看官方说法脚本之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

SEO:如何正确识别百度蜘蛛,且看官方说法》要点:
本文介绍了SEO:如何正确识别百度蜘蛛,且看官方说法,希望对您有用。如果有疑问,可以联系我们。

这篇文章来自百度官网。


经常听到站长们问,百度蜘蛛是什么?

最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办?

还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,我们无法对外公布。


那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛。

1、查看UA:其中最主要的关键字是Baiduspider

如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML,like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

2、反查IP

站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1)、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

SEO:如何正确识别百度蜘蛛,且看官方说法1

2)、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。


3)、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。


附:下面是一个php函数,内含较为完整的蜘蛛类型判断。参数是UA。

/** 共源:http://www.jb51.cc
 *    判断是否为搜索引擎蜘蛛,返回蜘蛛类型
 *    @return    false/蜘蛛类型
 */
function spider($userAgent='')
{
       $agent= empty($userAgent) ? strtolower($_SERVER['HTTP_USER_AGENT']) : strtolower($userAgent);
       if (empty($agent)) return false;
#Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
       $spiderSite= array(
              "Googlebot" => "谷歌",              "Google AdSense" => "谷歌AdSense",              "Baiduspider+" => "百度",              "BaiduGame" => "百度",              "BaiDuSpider" => "百度",              "YisouSpider" => '神马',              "Sogou Spider" => "搜狗",              'Sogou web'=>'搜狗',              "msnbot" => "MSN",              'bingbot' =>'必应',              '360spider'=>'好搜',              'HaoSouSpider'=>'好搜',              "Sosospider+" => "SOSO",              "Yahoo! Slurp" => "雅虎",              "Yahoo Slurp" => "雅虎",              'YandexBot' =>'YandexBot',              "TencentTraveler" => "腾讯",              "YoudaoBot" => "有道",              "ia_archiver" => "Alex",              "MSNBot" => "MSN",              "Ask" => "Ask",              'linkdexbot'=>'linkdex',              "Speedy Spider" => "Speedy Spider",              "Java (Often spam bot)" => "Java (Often spam bot)",              "Voila" => "Voila",              "Yandex bot" => "Yandex bot",              "BSpider" => "BSpider",              "twiceler" => "twiceler",              "Heritrix" => "Heritrix",              "Python-urllib" => "Python-urllib",              "Alexa (IA Archiver)" => "Alexa (IA Archiver)",              "Exabot" => "Exabot",              "Custo" => "Custo",              "OutfoxBot/YodaoBot" => "OutfoxBot/YodaoBot",              "yacy" => "yacy",              "SurveyBot" => "SurveyBot",              "legs" => "legs",              "lwp-trivial" => "lwp-trivial",              "Nutch" => "Nutch",              "StackRambler" => "StackRambler",              "The web archive (IA Archiver)" => "The web archive (IA Archiver)",              "Perl tool" => "Perl tool",              "MJ12bot" => "MJ12bot",              "Netcraft" => "Netcraft",              "MSIECrawler" => "MSIECrawler",              "WGet tools" => "WGet tools",              "larbin" => "larbin",              "Fish search" => "Fish search",       );
       foreach($spiderSite as $spider => $spiderName) {
              $str = strtolower($spider);
              if (stripos($agent, $str) !== false) {
                     return $spiderName;
              }
       }
       return false;

}

总结

以上是脚本之家为你收集整理的SEO:如何正确识别百度蜘蛛,且看官方说法全部内容,希望文章能够帮你解决SEO:如何正确识别百度蜘蛛,且看官方说法所遇到的程序开发问题。

如果觉得脚本之家网站内容还不错,欢迎将脚本之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢交流学习经验,点击链接加入脚本之家官方QQ群:1065694478