由今日3B大战说说关于robots协议那点事
前几天还有人说今年的百天是上海有史以来最长的夏天,这不这边刚有人说完,上海的夏天转眼即至,晚上下班出公司出来,即使长袖还是觉得很冷。今天听到一句话:一夏无病三分虚,于是叫上几个小伙伴,晚上出去吃了顿烤鱼还秋补一下。FB回来,已经很晚了,本来也不打算写什么了,正好看见百度与360又打仗了,所以我也有了凑凑热闹的想法。
打仗的原因是百度要告360违反了robots协议不正当竞争,主要是百度文库百度百科的ROBOTS的协议中列了N个允许抓取的爬虫,唯独却没有360,不过我也不知道360爬虫的名字叫什么,但是360却擅自抓取了百度百科百度知道的内容,所以百度火了,就要告360。(注:虽然是这样说,但仔细读读百度文库的ROBOTS协议,却发现最后有一行User-agent: *,*号是一个通配符,意指所有搜索引擎,这不是指所有搜索引擎都可以抓取吗。。。。。)
其实这事咱们大家都不新鲜了,在360刚开始推出搜索的时候,就被指不准守ROBOTS协议而被其他几个搜索大王数落,但那时候ROBOTS协议只是google定义的一个行业规则,并不具备法律效应,不过还是被百度,搜搜搜狗等作为了行业准则,只是360不认同罢了。但现在不同了,因为在去年被纳入法律了。
2012年11月,中国《互联网搜索引擎服务自律公约》首次将遵守Robots协议(爬虫协议)的规定纳入实质性条款,确定了Robots协议作为行业规范的地位。《自律公约》第七条明确指出,搜索引擎服务应当“遵循国际通行的行业惯例与商业规则,遵守机器人协议(Robots协议)”,第九条则规定了违反Robots协议抓取内容的企业,应在收到权利人符合法律规定的通知后,及时删除、断开侵权链接,努力维护健康有序的网络环境。
据悉,百度、搜狗、360等12家搜索引擎服务商现场签署了公约,就Robots协议相关规定达成一致。
360在说百度在滥用robots协议,而百度却又说360违反了robots协议涉嫌不正当竞争,看来现在两家如今已经势同水火了。从我个人的角度来说,我觉得无论是百度这样的站点或是我自己的小站,我想如何写robots的协议那是我自己的事,我想让谁抓取就让谁抓取,怎会出现滥用一说呢,当初淘宝不是一直屏幕百度爬虫吗,百度不是也没有抓取淘宝网页,也没看见谁去告谁。
从另一方面说,百度这招也太狠了,完全是在钻空子,百度百科百度文库等还是不应该限制360抓取,毕竟搜索引擎都是服务于用户,你们之间打仗没关系,却苦了用户,若是每家都把自己的东西都掖着藏着,那实在不利于互联网的健康发展。对于这次的公司到底谁能赢,我猜还是百度的胜算太些,不过360的公关也是很强的,我还是拭目以待吧。最后看看百度文库的ROBOTS协议是怎么写的吧,稍微懂些SEO的都没看懂,不做详解。
User-agent: Baiduspider Disallow: /w? Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Googlebot Disallow: /search? Disallow: /submit Disallow: /upload User-agent: MSNBot Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Baiduspider-image Disallow: /search? Disallow: /submit Disallow: /upload User-agent: YoudaoBot Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Sogou web spider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Sogou inst spider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Sogou spider2 Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Sogou blog Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Sogou News Spider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Sogou Orion spider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: JikeSpider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: Sosospider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: PangusoSpider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: yisouspider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: EasouSpider Disallow: /search? Disallow: /submit Disallow: /upload User-agent: * Disallow: /
稍微解释一下:User-agent是指允许的搜索引擎,Goolebot等是指搜索引擎爬虫名称,Disallow是指不允许抓取,*号是通配符,指所有搜索引擎。
历史上的今天:
- 2014: 我还是安静的做个美男纸吧(15)
来源:项希的时光日记博客(QQ/微信:657558451),转载请注明出处!
FROYO
360和百度谁在理,关键是看robots行规还是法规,他们表面上的争论点就在这里,实际还不是为了各自的那点利益
夏日博客
360经常不按规则出牌。
天长地久
打打打
往shi了打
21氪
我网站都没搞这个文件
如何减肥
的确看不懂啊
王宝臣
其实很多人理解错误,robots.txt文档一般做下默认的设置就可以,而我们大多数用的开源程序比如dede,帝国,php168包括dz这些都有自己的默认robots文档。不需要专门去修改,只有后续可能经过了一些调整比如原本存在的栏目后来不想让抓取慢慢舍弃掉,那么这个时候才会用到robots。我是王宝臣,很高兴认识你。欢迎回访俺的博客 wangbaochen.com