搜索战争不断升级。在这场大站背后,搜索引擎到底是否可以自动抓取用户的资料,让“Robots协议”成为焦点。
自动抓取用户内容之争
自某网站推出搜索之日起,一直被业界指责无视在全世界范围内具有极强约束力的“Robots协议”。它不仅未经授权大量抓取百度、google内容……
简单而言,“robots协议”就是搜索引擎在抓取网站内容时,双方约定的一个规则。其中包括网站是否希望被搜索引擎抓取,希望或不希望被哪些搜索引擎抓取,以及哪些内容不允许被抓取。它有些类似于人类社会的“日内瓦公约”,但在法律上却不具备那样的约束效力。
“robots.txt”并不是某一个公司制定的。早在上世纪90年代中期就已出现,当时还没有Google。其实,“Robots协议”的起源,是在互联网从业人员的公开邮件组里讨论而诞生的。即便是今天,互联网领域的相关问题也仍在一些专门的邮件组中讨论,并随之产生(主要是在美国)。
自有搜索引擎之日起,“Robots协议”已是一种目前为止比较有效的方式,用自律维持着网站与搜索引擎之间的平衡,让两者之间的利益不致过度倾斜。
1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即“robots协议”。此前,相关人员一直在起草这份文档,并在世界互联网技术邮件组(www-talk@info.cern.ch)中公开讨论。其发布后,这一协议被几乎所有的搜索引擎采用,包括最早的altavista,infoseek,后来的google,bing;而中国的百度,搜搜,搜狗等公司也相继采用并严格遵循。
协议的约束与垄断无关
记者翻阅涉及“robots协议”的一些案例,发现它在这些年全世界范围内具有极强的约束力,甚至可以说是网站隐私与安全的一张王牌。事实证明,“robots协议”作为内容站和搜索引擎双方权利对等的一项约定,极大维护了整个互联网生态的平衡和秩序的安定。国内的网站和搜索引擎,即使利益受损也未越雷池一步,表现出了极强的自律和令人尊敬的人文关怀。
2008年9月8日,淘宝网宣布封杀百度爬虫,百度忍痛遵守爬虫协议。因为一旦破坏协议,用户的隐私和利益就无法得到保障,搜索网站就谈不到人性关怀。
面对“robots协议”,不仅百度受制,Google也是有苦难言。此前,facebook、NAVER(韩国著名门户和搜索引擎)都对google设置了“robots协议”内容,禁止其抓取。由于google还不像百度有自有内容,所以一直处于被动,令其在韩国始终无法获取大量市场份额。
在这些事实面前,称“Robots协议”帮助Google和百度这样的垄断搜索引擎“遏制后起的竞争者”的说法不攻自破。人们甚至可以看到,“robots协议”所扮演的,更多是一个有力的反垄断工具。
北京市汉卓律师事务所首席律师赵虎对媒体表示,“Robots协议”是维护互联网世界隐私安全的重要规则。如果这种规则被破坏,对整个行业就是灭顶之灾。这次3B大战中暴露出综合搜索侵犯用户隐私权的问题,就不应该小视。