
搜索引擎蜘蛛,對于我們來說非常神秘,本文的配圖使用蜘蛛俠的原因就在于此。當(dāng)然我們也不是百度的也不是Google的,所以只能說探秘,而不是揭秘。本文內(nèi)容比較簡單,只是給不知道的朋友一個分享的途徑,高手和牛人請繞行吧。
傳統(tǒng)意義上,我們感覺搜索引擎蜘蛛(spider)爬行,應(yīng)該類似于真正的蜘蛛在蜘蛛網(wǎng)上爬行。也就是比如百度蜘蛛找到一個鏈接,順著這個鏈接爬行到一個頁面,然后再順著這個頁面里面的鏈接繼續(xù)爬……這個類似于蜘蛛網(wǎng),也類似于一棵大樹。這個理論雖然正確,但是不準(zhǔn)確。
搜索引擎內(nèi)部是有一個網(wǎng)址索引庫的,所以搜索引擎蜘蛛是從搜索引擎的服務(wù)器出發(fā),順著搜索引擎已有的網(wǎng)址爬行一個網(wǎng)頁,并將網(wǎng)頁內(nèi)容抓取回來。頁面采集回來之后,搜索引擎會對其進(jìn)行分析,將內(nèi)容和鏈接分開,內(nèi)容暫時先不說。分析出來鏈接之后,搜索引擎并不會馬上去派蜘蛛進(jìn)行抓取,而是把鏈接和錨文本記錄下來交給網(wǎng)址索引庫進(jìn)行分析、對比和計(jì)算,最后放入網(wǎng)址索引庫。進(jìn)入了網(wǎng)址索引庫之后,才會有蜘蛛去抓取。
也就是如果出現(xiàn)了某個網(wǎng)頁的外鏈,并不一定會立刻有蜘蛛去抓取這個頁面,而是會有一個分析計(jì)算的過程。即便是這個外鏈在蜘蛛抓取之后被刪除了,這個鏈接也有可能已經(jīng)被搜索引擎記錄,以后還有抓取的可能。而且下次如果蜘蛛再去抓取這個外鏈所在頁面,發(fā)現(xiàn)鏈接不存在了,或者外鏈所在頁面出現(xiàn)了404,那么只是減少了這個外鏈的權(quán)重,應(yīng)該不會去網(wǎng)址索引庫刪除這個鏈接。
所以說已經(jīng)不存在的頁面上的鏈接,也有作用。今天就分享這些,以后繼續(xù)跟大家分享我自己分析的內(nèi)容,如果有不準(zhǔn)確的地方,請大家批評指正。
轉(zhuǎn)載請注明來自逍遙博客@LiboSEO,本文地址:http://liboseo.com/1060.html 除非注明,逍遙博客文章均為原創(chuàng),轉(zhuǎn)載請注明出處和鏈接!

網(wǎng)友點(diǎn)評
精彩導(dǎo)讀
科技快報
品牌展示