Google希望制订更严谨的「REP」网路爬虫机器人标准，让网站内容抓取更有效率

2019-07-03 20:17:33

Google要将自身打造的网路爬虫机器人Googlebot所使用「REP」解析器开源，借此作为标准设计参考依据，并且期望能以此带动让「REP」协定设计能有更严谨、统一的标准。

Google稍早宣布，将针对1994年由荷兰软体工程师Martijn Koster提出的「Robot Exclusion Protocol (REP,网路爬虫机器人协定)」提出真正标准。

清欢网

虽然过去25年以来，诸多网站与网路搜寻服务都是依照「REP」协定设计，透过存放在网站根目录的robot.txt宣告哪些内容可以被网路爬虫机器人撷取，以及撷取频率，但实际上「REP」协定设计并不严谨，例如网站停摆时候如何让网路爬虫机器人运作，同时网路爬虫机器人应该依照何种频率抓取网站内容，避免造成网站伺服器负担过重，或是无法即时抓取更新内容等，实际上并没有一定规范。

因此，就Google稍早提出想法，除了将自身打造的网路爬虫机器人Googlebot所使用「REP」解析器开源，借此作为标准设计参考依据，并且期望能以此带动让「REP」协定设计能有更严谨、统一的标准。

虽然目前还没有明确标准确定时程，同时也不代表未来将以Google提供版本为准，主要还是会考量不同类型网站使用需求微设计，借此减少网路爬虫机器人所产生问题，并且让网路内容能更容易被网路搜寻服务适时、适当地撷取内容，进而让更多人可透过搜寻引擎服务找到合适内容。

Google希望制订更严谨的「REP」网路爬虫机器人标准，让网站内容抓取更有效率

相关文章

最新文章

热门文章

热门专题