日韩欧美综合-国产色影院-黄色欧美大片-奶茶视频黄色-无码粉嫩虎白一线天在线观看-亚洲天堂手机在线-亚洲欧美日本在线-日本特级黄色-亚洲tv在线-婷婷激情综合-亚洲精品无-成人免费黄色-亚洲色图久久久-色噜噜狠狠狠综合曰曰曰-精品久久久精品-蜜臀av在线播放-国产美女高潮流白浆视频

<b>網(wǎng)站數(shù)據(jù)分析:參數(shù)估計與置信區(qū)間</b>

作者: 來源:未知 2012-07-02 19:39:18 閱讀 我要評論 直達商品

 

  

confidence-level

 

  我們總是希望能夠從一些樣本數(shù)據(jù)中去探究數(shù)據(jù)總體的表現(xiàn)特征,在網(wǎng)站數(shù)據(jù)分析中也是如此,我們試圖從最近幾天的數(shù)據(jù)表現(xiàn)來推測目前網(wǎng)站的整體形勢是怎么樣的,有沒有變好或者變差的信號,但當(dāng)前幾天的數(shù)據(jù)無法完全代表總體,所以這里只能使用“估計”。同時,網(wǎng)站的數(shù)據(jù)始終存在波動,將最近時間段的數(shù)據(jù)作為抽樣樣本很可能數(shù)據(jù)正好處于較低或者較高水平,所以我們用樣本得到的估計值不可能是無偏差的,我們同時需要去評估這個估計值可能的變化區(qū)間。

  參數(shù)估計(Parameter Estimation)是指用樣本的統(tǒng)計量去估計總體參數(shù)的方法,包括點估計和區(qū)間估計。

  點估計

  點估計(Point Estimation)是用抽樣得到的樣本統(tǒng)計指標(biāo)作為總體某個未知參數(shù)特征值的估計,是一種統(tǒng)計推斷方法。

  一般對總體參數(shù)的估計會包括兩類:一種是用樣本均值去估計總體均值,對應(yīng)到網(wǎng)站數(shù)據(jù)中的數(shù)值型指標(biāo),比如網(wǎng)站每天的UV,我們可以用近一周的日均UV去估計目前網(wǎng)站每天唯一訪客數(shù)量的大體情況;另外一種是用樣本概率去估計總體概率,對應(yīng)到網(wǎng)站數(shù)據(jù)中的比率型指標(biāo),比如網(wǎng)站的目標(biāo)轉(zhuǎn)化率,我們可以用近3天的轉(zhuǎn)化率去預(yù)估網(wǎng)站當(dāng)天目標(biāo)轉(zhuǎn)化的水平;同時我們會計算樣本的標(biāo)準(zhǔn)差來說明樣本均值或者概率的波動幅度的大小,從而估計總體數(shù)據(jù)的波動情況。

  點估計還包括了使用最小二乘法對線性回歸做曲線參數(shù)的擬合,以及最大似然估計的方法計算樣本集分布的概率密度函數(shù)的參數(shù)。

  區(qū)間估計

  區(qū)間估計(Interval Estimation)是依據(jù)抽取的樣本,根據(jù)一定的正確度與精確度的要求,估算總體的未知參數(shù)可能的取值區(qū)間。區(qū)間估計一般是在一個既定的置信水平下計算得到總體均值或者總體概率的置信區(qū)間(Confidence Interval),一般會根據(jù)樣本的個數(shù)和標(biāo)準(zhǔn)差計算得到總體的標(biāo)準(zhǔn)誤差,根據(jù)點估計中用樣本均值或樣本概率估計總體均值或總體概率,進而得出一個取值的上下臨界點。

  我們可以將樣本標(biāo)準(zhǔn)差記作S,如果我們抽樣獲取的有n個樣本,那么總體的標(biāo)準(zhǔn)差σ就可以用樣本標(biāo)準(zhǔn)差估算得到:

  

std_dev-to-std_err

 

  從這個公式中我們可以看到大數(shù)定理的作用,當(dāng)樣本個數(shù)n越大時,總體指標(biāo)差σ越小,樣本估計值越接近總體的真實值。Excel的圖表里面也提供了添加“誤差線”的功能:

  

Excel-error-bars

 

  有了總體的標(biāo)準(zhǔn)差σ,我們就可以使用區(qū)間估計的方法計算總體參數(shù)在一定置信水平下的置信區(qū)間,置信區(qū)間(Confidence Interval)給出了一個總體參數(shù)的真實值在一定的概率下會落在怎么樣的取值區(qū)間,而總體參數(shù)落在這個區(qū)間的可信程度的這個概率就是置信水平(Confidence Level)。

  根據(jù)Z統(tǒng)計量的計算公式:

  

Z-Score

 

  假如在1-α的置信水平下,則總體均值μ的置信區(qū)間為:

  

Confidence-Interval

 

  這里樣本均值和標(biāo)準(zhǔn)差都可以根據(jù)抽樣的結(jié)果計算得到,所以在既定置信水平的條件下,我們只要查Z值表(Z-Score)得到相應(yīng)的Z值就可以計算得到總體均值的置信區(qū)間。對于置信水平或者叫置信度的選擇,在統(tǒng)計學(xué)中一般認為95%的置信度的結(jié)果具有統(tǒng)計學(xué)意義,但其實在互聯(lián)網(wǎng)領(lǐng)域數(shù)據(jù)的分析中不需要這么高的置信度,我們有時也會選擇80%或者90%的置信度,相應(yīng)的Z值見下表:

 

置信水平1-α 對應(yīng)Z值Zα/2
95% 1.96
90% 1.65
80% 1.28

 

  對于總體概率的估計,在具備足夠樣本數(shù)量的條件下,我們用樣本概率p預(yù)估總體概率,而總體概率的標(biāo)準(zhǔn)差則是sqrt(p(1-p)/n),同樣可以計算得到置信區(qū)間。

  其實這篇文章的內(nèi)容大部分都可以在統(tǒng)計學(xué)書籍或者網(wǎng)上Wiki里面找到,當(dāng)然寫到博客里面不是為了做科普,這里的每篇“數(shù)據(jù)分析方法”類目下的文章都是跟相應(yīng)的網(wǎng)站數(shù)據(jù)分析的應(yīng)用文章結(jié)合,這篇也不例外,如果你對相關(guān)內(nèi)容感興趣,請關(guān)注后續(xù)發(fā)布的文章,或者訂閱我的博客吧。

 

  本文采用 BY-NC-SA 協(xié)議,轉(zhuǎn)載請注明來源:網(wǎng)站數(shù)據(jù)分析 » 《參數(shù)估計與置信區(qū)間》


  推薦閱讀

  <b>行業(yè)分析:電商企業(yè)如何用數(shù)據(jù)驅(qū)動銷售</b>

億邦動力網(wǎng)案例中心主編 施瑋 百分點科技COO 張韶峰 韓都衣舍公關(guān)總監(jiān) 陳新 電商經(jīng)歷粗放的野蠻增長,漸進入精細化運作階段,數(shù)據(jù)挖掘和分析也成為各電商企業(yè)發(fā)力的新標(biāo)的。 在這場數(shù)據(jù)的精細化之戰(zhàn)中,哪些數(shù)據(jù)挖掘>>>詳細閱讀


本文標(biāo)題:<b>網(wǎng)站數(shù)據(jù)分析:參數(shù)估計與置信區(qū)間</b>

地址:http://www.sh-jijian.com/a/22/20120702/72542.html

頂一下

樂購科技部分新聞及文章轉(zhuǎn)載自互聯(lián)網(wǎng),供讀者交流和學(xué)習(xí),若有涉及作者版權(quán)等問題請及時與我們聯(lián)系,以便更正、刪除或按規(guī)定辦理。感謝所有提供資訊的網(wǎng)站,歡迎各類媒體與樂購科技進行文章共享合作。

網(wǎng)友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網(wǎng)友評論(點擊查看更多條評論)
友情提示: 登錄后發(fā)表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網(wǎng)友認識您。
自媒體專欄

評論

熱度

扎囊县| 兴隆县| 乐昌市| 宁明县| 阿荣旗| 汕头市| 新平| 璧山县| 忻州市| 罗源县| 密云县| 砀山县| 来宾市| 米林县| 兴隆县| 榆树市| 苍山县| 南江县| 玛沁县| 寻甸| 乌拉特中旗| 太康县| 桂平市| 北碚区| 龙里县| 香格里拉县| 贺州市| 北碚区| 钟祥市| 罗田县| 湖州市| 盘锦市| 苏尼特左旗| 平阴县| 彝良县| 苍溪县| 廉江市| 邵阳县| 玉山县| 抚远县| 浮山县|