日韩欧美综合-国产色影院-黄色欧美大片-奶茶视频黄色-无码粉嫩虎白一线天在线观看-亚洲天堂手机在线-亚洲欧美日本在线-日本特级黄色-亚洲tv在线-婷婷激情综合-亚洲精品无-成人免费黄色-亚洲色图久久久-色噜噜狠狠狠综合曰曰曰-精品久久久精品-蜜臀av在线播放-国产美女高潮流白浆视频

分析搜索引擎如何首先抓取最重要的網(wǎng)頁?

作者:Lgo100 來源:未知 2012-06-11 10:14:20 閱讀 我要評(píng)論 直達(dá)商品

  搜索引擎面對(duì)海量的網(wǎng)頁,他們并不是平行的抓取每一個(gè)網(wǎng)頁,因?yàn)闊o論搜索引擎數(shù)據(jù)庫怎么擴(kuò)張,都是無法跟上網(wǎng)頁的增長(zhǎng)速度,搜索引擎會(huì)優(yōu)先抓取最重要的網(wǎng)頁,一方面節(jié)省數(shù)據(jù)庫,一方面對(duì)普通的用戶也是有幫助的,因?yàn),?duì)用戶來說,他們并不需要海量的結(jié)果,只需要最重要的結(jié)果。所以說一個(gè)好的搜集策略是優(yōu)先搜集重要的網(wǎng)頁,以便能夠在最短的時(shí)間內(nèi)把最重要的網(wǎng)頁抓取過來。

  那么搜索引擎如何首先抓取最重要的網(wǎng)頁?

  通過對(duì)海量的網(wǎng)頁特征分析,搜索引擎認(rèn)為重要的網(wǎng)頁有如下的基本特征,雖然不一定完全準(zhǔn)確,但是大多數(shù)時(shí)候確實(shí)是這樣的:

  1) 網(wǎng)頁被其他的網(wǎng)頁鏈接的特點(diǎn),如果被鏈接的次數(shù)多或者被重要的網(wǎng)頁所鏈接,則是很重要的網(wǎng)頁;

  2) 某網(wǎng)頁的父網(wǎng)頁被鏈接的次數(shù)多或者被重要的網(wǎng)頁所鏈接,比如一個(gè)網(wǎng)頁是一個(gè)網(wǎng)站的內(nèi)頁,但是其首頁被鏈接的次數(shù)多,而首頁也鏈接了這個(gè)網(wǎng)頁,則說明這個(gè)網(wǎng)頁也比較重要;

  3) 網(wǎng)頁的內(nèi)容被轉(zhuǎn)載傳播的廣。

  4) 網(wǎng)頁的目錄深度小,易于用戶瀏覽到。 這里定義“URL 目錄深度”為:網(wǎng)頁 URL 中除去域名部分的目錄層次,即URL 為http://www.domain.com,則目錄深度為 0;如果是 http://www.domain.com/cs,則目錄深度為 1,一次類推。需要說明的是,URL 目錄深度小的網(wǎng)頁并非總是重要的,目錄深度大的網(wǎng)頁也并非全不重要,有些學(xué)術(shù)論文的網(wǎng)頁 URL 就有很長(zhǎng)的目錄深度。多數(shù)重要度高的網(wǎng)頁會(huì)同時(shí)具有上述 4 個(gè)特征。

  5)優(yōu)先收集網(wǎng)站首頁,并賦予首頁高的權(quán)重值。網(wǎng)站數(shù)目遠(yuǎn)小于網(wǎng)頁數(shù),并且重要的網(wǎng)頁也必然是從這些網(wǎng)站首頁鏈接過去的,因此搜集工作應(yīng)當(dāng)優(yōu)先獲得盡可能多的網(wǎng)站首頁。

  這里問題就隨之出現(xiàn),搜索引擎開始抓取網(wǎng)頁的時(shí)候,可能既不知道網(wǎng)頁被鏈接的情況也不知道被轉(zhuǎn)載的情況,換句話說,最開始的時(shí)候他并不能知道前面3項(xiàng)的特征,這些因素只能在獲得網(wǎng)頁或幾乎所有的 Web 鏈接結(jié)構(gòu)之后才能夠知道。那么怎么解決這個(gè)問題呢?那就是特征4和5是可以在抓取的時(shí)候就能知道的,只有特征 4 是不需要知道網(wǎng)頁的內(nèi)容(沒有抓取網(wǎng)頁之前)就可以確定某個(gè) URL 是否符合“重要”的標(biāo)準(zhǔn),而且網(wǎng)頁 URL 目錄深度的計(jì)算就是對(duì)字符串的處理,統(tǒng)計(jì)結(jié)果表明一般的 URL 長(zhǎng)度都小于 256 個(gè)字符,這使得 URL 目錄深度的判別易于實(shí)現(xiàn)。所以對(duì)于搜集策略的確定,特征 4 和5是最值得考慮的指導(dǎo)因素。

  但是,特征 4 和5具有局限性,因?yàn)殒溄拥纳疃炔⒉荒芡耆砻鬟@個(gè)網(wǎng)頁的重要程度。那么怎么解決這個(gè)問題?搜索引擎采用如下的辦法:

  1) URL 權(quán)值的設(shè)定:根據(jù) URL 的目錄深度來定,深度是多少,權(quán)值就減少多少,權(quán)值最小為零。

  2) 設(shè)定 URL 初始權(quán)值為 一個(gè)固定的數(shù)值 。

  3) URL 中出現(xiàn)字符”/”,”?” ,或”&” 1 次, 則權(quán)值減 一個(gè)數(shù)值 ,出

  現(xiàn)”search”,”proxy”,或”gate” 1 次,則權(quán)值減一個(gè)數(shù)值;最多減到零。(包含”?”,

  或”&” 的URL 是帶參數(shù)的形式,需要經(jīng)過被請(qǐng)求方程序服務(wù)獲得網(wǎng)頁,不是搜索引擎系統(tǒng)側(cè)重的靜態(tài)網(wǎng)頁,因此權(quán)值相應(yīng)降低。包含”search”,”proxy”,或”gate” ,說明該網(wǎng)頁極大可能是搜索引擎中檢索的結(jié)果頁面,代理頁面,因此要降低權(quán)值)。

  4) 選擇未訪問 URL 的策略。因?yàn)闄?quán)值小不一定說明不重要,所以有必要

  給一定的機(jī)會(huì)搜集權(quán)值小的未訪問 URL 。選擇未訪問 URL 的策略可以采用輪流的方法進(jìn)行,一次按照權(quán)值排序取,一次隨機(jī)取;或者 N次隨機(jī)選取。

  當(dāng)搜索引擎抓取了大量的網(wǎng)頁的時(shí)候,然后進(jìn)入到一個(gè)階段,對(duì)網(wǎng)頁進(jìn)行前面3個(gè)特征的判讀,再通過大量的算法判斷網(wǎng)頁的質(zhì)量,然后給予相對(duì)的排名。

  本文由51荷葉茶http://www.51heyecha.com/站長(zhǎng)原創(chuàng)提供


  推薦閱讀

  5個(gè)正規(guī)外鏈建設(shè)方法

現(xiàn)在又很多的博主都很不愿意或者很排斥去學(xué)習(xí)建設(shè)自己的SEO方案,認(rèn)為自己寫博客就是娛樂,或者抱著自己的文章好就會(huì)有人看,但是小黑在這里必須提出來的是,你的博客有多少人在看?你的內(nèi)容再好,如果不去進(jìn)行一定程>>>詳細(xì)閱讀


本文標(biāo)題:分析搜索引擎如何首先抓取最重要的網(wǎng)頁?

地址:http://www.sh-jijian.com/a/34/20120611/66857.html

頂一下

樂購科技部分新聞及文章轉(zhuǎn)載自互聯(lián)網(wǎng),供讀者交流和學(xué)習(xí),若有涉及作者版權(quán)等問題請(qǐng)及時(shí)與我們聯(lián)系,以便更正、刪除或按規(guī)定辦理。感謝所有提供資訊的網(wǎng)站,歡迎各類媒體與樂購科技進(jìn)行文章共享合作。

網(wǎng)友點(diǎn)評(píng)
我的評(píng)論: 人參與評(píng)論
驗(yàn)證碼: 匿名回答
網(wǎng)友評(píng)論(點(diǎn)擊查看更多條評(píng)論)
友情提示: 登錄后發(fā)表評(píng)論,可以直接從評(píng)論中的用戶名進(jìn)入您的個(gè)人空間,讓更多網(wǎng)友認(rèn)識(shí)您。
自媒體專欄

評(píng)論

熱度

呼伦贝尔市| 洪湖市| 佛教| 河北省| 满洲里市| 桃园县| 宜兴市| 崇文区| 福安市| 民丰县| 秀山| 华亭县| 法库县| 沙湾县| 林芝县| 宝山区| 万年县| 仪陇县| 绵竹市| 子长县| 拜城县| 奉化市| 泗阳县| 康马县| 桓台县| 建瓯市| 云和县| 济源市| 时尚| 和龙市| 从江县| 荔波县| 太湖县| 井陉县| 彭山县| 永修县| 庆安县| 贺兰县| 库尔勒市| 武川县| 简阳市|