最新消息:欢迎加入小松的QQ群一起讨论一起学习,服务器快到期了,新买了台服务器,最近要做服务器迁移

robots禁止抓取百度还是收录了首页

其他分享 908浏览 0评论

robots禁止抓取百度还是收录了首页

最近在做一个网站,因为域名要备案所以就没有直接放上去,而是放到一个二级域名上,test.XXXX.com,因为是测试的域名所以不希望百度收录
robots.txt的文件内容为

User-agent:*
Disallow:/
Disallow:/go/*

结果发现百度收录了这个二级域名,然后site了一下,发现只有首页,百度难道不怎么遵守robots,百度百科里的描述
百度对robots.txt是有反应的,但比较慢,在减少禁止目录抓取的同时也减少了正常目录的抓取。
原因应该是入口减少了,正常目录收录需要后面再慢慢增加。
Google对robots.txt反应很到位,禁止目录马上消失了,部分正常目录收录马上上升了。/comment/目录收录也下降了,还是受到了一些老目标减少的影响。
搜狗抓取呈现普遍增加的均势,部分禁止目录收录下降了。
总结一下:Google似乎最懂站长的意思,百度等其它搜索引擎只是被动的受入口数量影响了
我只知道360搜索无视robots协议,之前有服务器被360搜索引擎爬到瘫痪,用robots禁止了360蜘蛛的抓取,但是貌似没有什么用,只能从程序端开始控制不360蜘蛛访问。
只能感叹国内搜索引擎离google还有多远的距离

QQ交流群:136351212

如无特别说明,本站文章皆为原创,若要转载,务必请注明以下原文信息:
转载保留版权:小松博客» robots禁止抓取百度还是收录了首页
本文链接地址:https://www.phpsong.com/1492.html

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
木有头像就木有JJ!点这里按步骤申请Gravatar头像吧!

网友最新评论 (4)

加载中,请稍候...
  1. 360这么夸张
    陈庚华律师2年前 (2015-10-31)回复
    • 360有这个情况的,百度也有这种情况
      小松2年前 (2015-10-31)回复
  2. 做robots协议禁止百度还是照样抓,没有用。。
    小众博客1年前 (2015-11-03)回复
    • 对的,不清楚别人又没有遇到这个问题
      小松1年前 (2015-11-03)回复