拒绝垄断指控,谷歌利用开源打造官方互联网标准

  • 时间:
  • 浏览:0

谷歌希望将已有数十年历史的拒绝蜘蛛协议(Robots Exclusion Protocol,简称REP)转变为官方互联网标准,并将当时人的robots.txt解析器作为推广的一每项进行开源。

REP是1994年荷兰软件工程师Martijn Koster提出的1个多多多 标准,现在几乎变成了网站用来告诉自动爬虫多多系统进程 哪些地方每项不应该被防止的标准。类似,谷歌的Googlebot爬虫器在为网站编制索引时扫描robots.txt文件,以查看特殊说明,了解它应该忽略哪些地方每项。不可能 根目录中没1个多多多多 的文件,它将假定能不都上能对整个网站进行爬虫(并编制索引)。不过,哪些地方地方文件并非 老会 用于提供直接的爬虫指令,不可能 它们还能不都上能填充这一 关键字,以改进搜索引擎优化,以及这一 用例。

值得注意的是,并非 所有爬虫都遵循robots.txt文件,比如几年前Internet Archive选用为其Wayback Machine归档工具提供支持,而这一 更恶意的爬虫也选用忽略REP。

正如Internet Engineering Task Force(IETF)所定义的那样,尽管REP通常被称为“标准”,但它实际上从未成为真正的互联网标准。IETF是互联网非营利开放标准组织。而这正是谷歌正在努力改变的。它说,REP是开放的解释,不可能 并非 老会 饱含所有的情况汇报。

这一 切就有为了更好地定义现有的“未定义场景”——类似,当先前的扫描不可能 知道robots.txt文件的内容时,爬虫多多系统进程 应该要怎样防止使其无法访问的服务器故障场景?爬虫应该要怎样对待1个多多多 有拼写错误的规则?

谷歌在一篇博客文章中写道:“对于网站所有者来说,这是1个多多多 具有挑战性的问题,不可能 事实上模棱两可的标准使得比较慢正确地编写规则。朋友希望帮助网站所有者和开发人员在互联网上创造惊人的体验,而就有担心要怎样控制爬虫。”

谷歌表示,它已与REP的原始作者Martijn Koster以及网站管理员和这一 搜索引擎协作法律土辦法 ,向IETF提交一份提案,内容包括“要怎样在现代网络中使用REP”。

该公司还没有完正发表声明草案,但对其关注的这一 领域给出了这一 指示:

  • 任何基于URI的传输协议都能不都上能使用robots.txt。类似,它不再局限于HTTP,不都上能不都上能用于FTP或CoAP。

  • 开发人员需用大约解析robots.txt的前30千字节。定义最大文件大小能不都上能确保连接不想打开太长时间,从而减轻服务器上并非 要的压力。

  • 新的最长缓存时间为24小时或缓存指令值(不可能 可用),使网站所有者能不都上能随时更新robots.txt,而爬虫多多系统进程 不想使网站过载robots.txt请求。类似,对于HTTP,能不都上能使用缓存控制头来选用缓存时间。

  • 规范现在规定,当然后 可访问的robots.txt文件不可能 服务器故障而变得不可访问时,已知的不允许页面不想在相当长的一段时间内进行爬虫。

值得注意的是,爬虫能不都上能不同的法律土辦法 解释robots.txt文件饱含高的指令,这会因为网站所有者感到困惑。这我我应该 为哪些地方谷歌还把Googlebot的解析和匹配系统的C++库装进GitHub上供个人 访问。根据Github发布的说明,谷歌希望开发人员打造当时人的解析器,从而“更好地反映谷歌的robots.txt解析和匹配”。