站長之家(ChinaZ.com) 7月2日 消息:據(jù)外媒報道,谷歌希望將幾十年前的拒絕蜘蛛?yún)f(xié)議 (REP)變成為官方互聯(lián)網(wǎng)標準。為了推動該項計劃,谷歌正在制作自己的 robots.txt 解析器開源。
據(jù)venturebeat介紹,早在 1994 年,荷蘭軟件工程師Martijn Koster就提出了REP標準,它幾乎已經(jīng)成為網(wǎng)站用來告訴自動爬蟲程序的哪些部分不應該被處理的標準。例如谷歌的網(wǎng)頁抓取機器人Googlebot(類似百度蜘蛛)在為網(wǎng)站建立索引時會掃描robots.txt文件,以檢查應該忽略哪些部分的特殊說明。它最大限度地減少了無意義的索引,有時會隱藏敏感信息。此外,這些文件并不僅僅用于給出直接的爬行指令,還可以填充某些關鍵字,以改善搜索引擎優(yōu)化,以及其他用例。
不過,谷歌認為需要對其爬蟲技術進行改進,該公司正在公開尋找用于解碼robots.txt解析器,試圖建立一個真正的網(wǎng)絡爬行標準。理想情況下,這將從如何揭開robots.txt文件神秘面紗,并創(chuàng)造更多通用格式。
谷歌倡議向國際互聯(lián)網(wǎng)工程任務組提交自己方法,將“更好地定義”爬蟲應該如何處理 robots.txt,并減少一些意外。
該草案并不完全可用,但它將不僅適用于網(wǎng)站,還包括最小文件大小、設置最大一天緩存時間以及在服務器出現(xiàn)問題時讓網(wǎng)站休息。
(舉報)