1.其次,如果我們能夠通過對(duì)以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁,在今后的網(wǎng)頁收集過程中就可以避開這些網(wǎng)頁,從而提高網(wǎng)頁的收集速度。有研究表明重復(fù)網(wǎng)頁隨著時(shí)間不發(fā)生太大變化,所以這種從重復(fù)頁面集合中選擇部分頁面進(jìn)行索引是有效的。2.從另外一個(gè)角度看,如果用戶點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶引導(dǎo)到一個(gè)內(nèi)容相同頁面,這樣可以有效地增加用戶的檢索體驗(yàn)。因而近似重復(fù)網(wǎng)頁的及時(shí)發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。
3.另外,如果某個(gè)網(wǎng)頁的鏡像度較高,往往是其內(nèi)容比較受歡迎的一種間接體現(xiàn)也就預(yù)示著該網(wǎng)頁相對(duì)重要,在收集網(wǎng)頁時(shí)應(yīng)賦予它較高的優(yōu)先級(jí),而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請(qǐng)求并對(duì)輸出結(jié)果排序時(shí),應(yīng)該賦予它較高的權(quán)值。
4.首先,如果我們能夠找出這些重復(fù)網(wǎng)頁并從數(shù)據(jù)庫中去掉,就能夠節(jié)省一部分存儲(chǔ)空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁內(nèi)容,同時(shí)也提高了搜索引擎的搜索質(zhì)量和用戶體驗(yàn)。
實(shí)際工作的搜索引擎往往是在爬蟲階段進(jìn)行近似重復(fù)檢測的,下圖給出了近似重復(fù)檢測任務(wù)在搜索引擎中所處流程的說明。當(dāng)爬蟲新抓取到網(wǎng)頁時(shí),需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁,則直接將其拋棄,如果發(fā)現(xiàn)是全新的內(nèi)容,則將其加入網(wǎng)頁索引中。
推薦閱讀
>>>詳細(xì)閱讀
本文標(biāo)題:網(wǎng)站優(yōu)化刪除重復(fù)網(wǎng)頁有利搜索引擎爬行
地址:http://www.sh-jijian.com/a/34/20131021/291446.html

網(wǎng)友點(diǎn)評(píng)
精彩導(dǎo)讀
科技快報(bào)
品牌展示