您的位置:首页软件教程 → Google希望制订更严谨的「REP」网路爬虫机器人标准,让网站内容抓取更有效率

Google要将自身打造的网路爬虫机器人Googlebot所使用「REP」解析器开源,借此作为标准设计参考依据,并且期望能以此带动让「REP」协定设计能有更严谨、统一的标准。

Google稍早宣布,将针对1994年由荷兰软体工程师Martijn Koster提出的「Robot Exclusion Protocol (REP,网路爬虫机器人协定)」提出真正标准。

清欢网

虽然过去25年以来,诸多网站与网路搜寻服务都是依照「REP」协定设计,透过存放在网站根目录的robot.txt宣告哪些内容可以被网路爬虫机器人撷取,以及撷取频率,但实际上「REP」协定设计并不严谨,例如网站停摆时候如何让网路爬虫机器人运作,同时网路爬虫机器人应该依照何种频率抓取网站内容,避免造成网站伺服器负担过重,或是无法即时抓取更新内容等,实际上并没有一定规范。

因此,就Google稍早提出想法,除了将自身打造的网路爬虫机器人Googlebot所使用「REP」解析器开源,借此作为标准设计参考依据,并且期望能以此带动让「REP」协定设计能有更严谨、统一的标准。

虽然目前还没有明确标准确定时程,同时也不代表未来将以Google提供版本为准,主要还是会考量不同类型网站使用需求微设计,借此减少网路爬虫机器人所产生问题,并且让网路内容能更容易被网路搜寻服务适时、适当地撷取内容,进而让更多人可透过搜寻引擎服务找到合适内容。

关于我们|免责申明|商务合作|友情链接|网站地图

@2019- QHmanhua.com 清欢网 All Rights Reserved