《搜索引擎蜘蛛的抓取策略》文章已經(jīng)歸檔,站長之家不再展示相關(guān)內(nèi)容,下文是站長之家的自動化寫作機器人,通過算法提取的文章重點內(nèi)容。這只AI還很年輕,歡迎聯(lián)系我們幫它成長:
首先呢,搜索引擎的蜘蛛抓取網(wǎng)頁是有著一定的規(guī)律,不會去隨便抓取網(wǎng)頁,并且呢,蜘蛛是通過超連接來抓取網(wǎng)頁的,我們剛剛說了,搜索引擎有四種抓取網(wǎng)頁的策略,下邊我們一一講解...
現(xiàn)在搜索引擎是寬度和深度優(yōu)先的結(jié)合,蜘蛛在抓取一個網(wǎng)頁的時候,會先把這個頁面所有的鏈接都抓取一次,然后再根據(jù)這些ULR的權(quán)重來判定,那個URL的權(quán)重高,那么就采用深度優(yōu)先,那個URL權(quán)重低,就采用寬度優(yōu)先或者不抓取...
重訪抓取策略,是最后的一個,搜索引擎蜘蛛在抓取完這個網(wǎng)頁之后,然后根據(jù)這個頁面的權(quán)重、包括它的更新頻率、更新質(zhì)量、外鏈的數(shù)量等等來判定,那么對于權(quán)重高的頁面,蜘蛛會在相隔較短的時間段在回來重新抓取,比如新浪網(wǎng),權(quán)重很高,搜索引擎蜘蛛都是按照秒來重新抓取的...
......
本文由站長之家用戶“史占強的博客”投稿,本平臺僅提供信息索引服務(wù)。由于內(nèi)容發(fā)布時間超過平臺更新維護(hù)時間,為了保證文章信息的及時性,內(nèi)容觀點的準(zhǔn)確性,平臺將不提供完整的內(nèi)容展現(xiàn),本頁面內(nèi)容僅為平臺搜索索引使用。需閱讀完整內(nèi)容的用戶,請聯(lián)系作者獲取原文。
(舉報)