日韩欧美综合-国产色影院-黄色欧美大片-奶茶视频黄色-无码粉嫩虎白一线天在线观看-亚洲天堂手机在线-亚洲欧美日本在线-日本特级黄色-亚洲tv在线-婷婷激情综合-亚洲精品无-成人免费黄色-亚洲色图久久久-色噜噜狠狠狠综合曰曰曰-精品久久久精品-蜜臀av在线播放-国产美女高潮流白浆视频

利用TF-IDF解釋“SEO診斷”排名現(xiàn)象

作者:Lgo100 來源:未知 2012-06-13 13:19:46 閱讀 我要評論 直達(dá)商品

  TF-IDF算法已經(jīng)被很多專業(yè)的SEO工作者所熟知,它是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),運(yùn)用到網(wǎng)頁分析中就是對于網(wǎng)頁中的相關(guān)關(guān)鍵詞進(jìn)行加權(quán),分析眾多網(wǎng)頁中某個特定關(guān)鍵詞的相關(guān)網(wǎng)頁關(guān)鍵詞權(quán)值,并在最后的排序算法中給予科學(xué)的依據(jù)。

  首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。為什么要分析這個公式呢?因為一個網(wǎng)頁的TF-IDF值越大,網(wǎng)頁中文本內(nèi)容與索引詞越相關(guān),其能夠在搜索引擎上獲得的權(quán)值就越高,對于后期的網(wǎng)頁的排序能夠提供很大的支持。

  TF*IDF中TF詞頻(Term Frequency),表示詞條在某個文檔中出現(xiàn)的頻率,而IDF反文檔頻率(Inverse Document Frequency)表示如果包含詞條t的文檔個數(shù)越少,IDF越大,則說明詞條t具有很好的類別區(qū)分能力,用公式表示IDF可以寫為:IDF(t) = log(N / DF(t))。DF(t)表示包含有某個搜索詞(以t為代表)的文檔數(shù),N表示互聯(lián)網(wǎng)的總網(wǎng)頁數(shù)。

  看這些概念很難理解透徹,給大家舉一個例子,大家就能夠很好地明白了。

  

利用TF-IDF解釋“SEO診斷”排名現(xiàn)象

 

  利用TF-IDF解釋“SEO診斷”排名現(xiàn)象

        例如“SEO診斷”這個關(guān)鍵詞的網(wǎng)頁排序,我們查排名前十中三個網(wǎng)站關(guān)于這個詞相關(guān)詞語的一些詞頻展現(xiàn)分析:

  排在第二的是A5的SEO診斷,他們的“SEO”和“診斷”的詞頻分別是41和46,“SEO診斷”的詞頻是20;

  排在第三的網(wǎng)站是長沙的一家公司,他們的“SEO”和“診斷”的詞頻分別是12和4,“SEO診斷”的詞頻是1;

  我的細(xì)嗅薔薇博客排名排名第十,網(wǎng)站中“SEO”詞頻最高,達(dá)到84,“診斷”的詞頻是7,“SEO診斷”的詞頻是4。

  搜索查看有關(guān)于“SEO診斷”的頁面約1,530,000個,“SEO”和“診斷”是百度上限約100,000,000個,取N=10000億。所以三個網(wǎng)頁三個關(guān)鍵詞的TF*IDF值做下面的計算:

  1、先計算三個詞的IDF值:

  SEO:IDF= log(N / DF(t))= log(10000/1)=4

  診斷:IDF= log(N / DF(t))= log(10000/1)=4

  SEO診斷:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6

  2、計算三個詞的TF值:

  三站的關(guān)鍵詞SEO的TF值:

  長沙:TF= log(TF(t,d))= log12≈1.1

  A5:TF= log(TF(t,d))= log41≈1.64

  細(xì)嗅薔薇:TF= log(TF(t,d))= log84≈1.92

  三站的關(guān)鍵詞診斷的TF值:

  長沙:TF= log(TF(t,d))= log4≈0.63

  A5:TF= log(TF(t,d))= log46≈1.68

  細(xì)嗅薔薇:TF= log(TF(t,d))= log7≈0.84

  三站的關(guān)鍵詞SEO診斷的TF值:

  長沙:TF= log(TF(t,d))= log1=0

  A5:TF= log(TF(t,d))= log20≈1.45

  細(xì)嗅薔薇:TF= log(TF(t,d))= log4≈0.63

  3、三個站三個詞的TF*IDF值為:

  TF*IDF值SEO診斷SEO診斷

  長沙站5.13.521

  A5站長網(wǎng)7.567.729.7

  細(xì)嗅薔薇8.684.464.78

  從上面的表格中我們可以清晰的看出,我的博客“SEO”的TF*IDF值最高,A5站長網(wǎng)的“診斷”和“SEO診斷”TF*IDF值最高。

  如果單純從TF*IDF值計算出來的相關(guān)性來講,“SEO診斷”這個詞的排名A5站長網(wǎng)的相關(guān)性是最高的,應(yīng)該獲得更好的排名,我的博客排名應(yīng)該在兩者之間(前天的排名的確在兩者之間),長沙站應(yīng)該在最后,但是和實際的結(jié)果看來是有一定的差距的。這說明網(wǎng)站網(wǎng)頁排名的因素還有其他的一些比較重要的因素,例如網(wǎng)站整體權(quán)重,單個網(wǎng)頁權(quán)重和質(zhì)量,外部鏈接,和用戶的交互(即用戶體驗),這些都是我們需要考慮的。

  另外,同一個網(wǎng)站相比較來看TF*IDF值,長沙站和我的細(xì)嗅薔薇博客要提升排名,對于關(guān)鍵詞“SEO”排名的要求就比較高,“SEO”排名起決定性作用,而A5站長站中“SEO診斷”的排名起到?jīng)Q定性的作用,關(guān)鍵詞“SEO”排名對于其排名波動影響要小。這一點有一定的根據(jù),例如前天我的博客“SEO診斷”排名第三,當(dāng)時“SEO”關(guān)鍵詞排名第十頁,現(xiàn)在掉到了23頁,排名就下降到第十,所以多運(yùn)用TF*IDF研究能夠幫助我們發(fā)現(xiàn)很多關(guān)鍵詞排名現(xiàn)象,并針對性的制定SEO優(yōu)化策略。

  當(dāng)然,這個計算都是基于理想狀態(tài)的,但是也能夠說明一些SEO現(xiàn)象的產(chǎn)生原因,只要我們能夠掌握TF*IDF算法的基本思想,然后運(yùn)用到網(wǎng)站優(yōu)化中,必然能夠更好地優(yōu)化網(wǎng)站,例如我的博客,降低“SEO”這個詞對于網(wǎng)站排名的影響,可能能夠更好地控制網(wǎng)頁的關(guān)鍵詞“SEO診斷”的排名。

  本文由虛子雨,杭州SEO(http://www.soxunseo.com)搜訊網(wǎng)絡(luò)網(wǎng)編發(fā)表,歡迎大家轉(zhuǎn)載,轉(zhuǎn)載時請保留此鏈接,謝謝合作!


  推薦閱讀

  SEO探索之廣告統(tǒng)計新發(fā)現(xiàn)

其實剛進(jìn)入SEO這個行業(yè)時,SEO的工作并不輕松,每天除了發(fā)布資訊文章,維護(hù)論壇博客之外,還要管理百度,GOOGLE廣告,時不時的還要通過站長工具查詢,關(guān)注網(wǎng)站每日動態(tài);一天的時間里需要完成這么多的工作,有時候真的>>>詳細(xì)閱讀


本文標(biāo)題:利用TF-IDF解釋“SEO診斷”排名現(xiàn)象

地址:http://www.sh-jijian.com/a/34/20120613/67490.html

頂一下

樂購科技部分新聞及文章轉(zhuǎn)載自互聯(lián)網(wǎng),供讀者交流和學(xué)習(xí),若有涉及作者版權(quán)等問題請及時與我們聯(lián)系,以便更正、刪除或按規(guī)定辦理。感謝所有提供資訊的網(wǎng)站,歡迎各類媒體與樂購科技進(jìn)行文章共享合作。

網(wǎng)友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網(wǎng)友評論(點擊查看更多條評論)
友情提示: 登錄后發(fā)表評論,可以直接從評論中的用戶名進(jìn)入您的個人空間,讓更多網(wǎng)友認(rèn)識您。
自媒體專欄

評論

熱度

林西县| 田东县| 上饶县| 来宾市| 丰台区| 三台县| 五河县| 弥渡县| 平陆县| 清新县| 布尔津县| 定日县| 淮南市| 扶沟县| 潼关县| 六安市| 阳西县| 班戈县| 故城县| 延吉市| 泸溪县| 曲松县| 金平| 平陆县| 锡林郭勒盟| 霞浦县| 慈利县| 神农架林区| 九寨沟县| 承德县| 涿鹿县| 论坛| 房产| 泽普县| 九龙城区| 新河县| 定襄县| 玉龙| 灵寿县| 洛川县| 衡阳市|