• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      輔助信息在數(shù)據(jù)缺失時的應用

      2012-03-15 00:23:08曾瓊軍
      統(tǒng)計與決策 2012年24期
      關(guān)鍵詞:估計量均值輔助

      羅 薇,曾瓊軍

      (1.暨南大學 經(jīng)濟學院,廣州 510632;2.廣東工業(yè)大學 管理學院,廣州 510520)

      1 問題的提出

      數(shù)據(jù)缺失是幾乎所有的抽樣調(diào)查都無法避免的問題,一般來說,數(shù)據(jù)缺失主要由以下幾方面的原因造成:抽樣框沒能覆蓋目標總體中的全部單元;樣本單元沒有參與調(diào)查;樣本單元沒有回答某些調(diào)查項目;或者出現(xiàn)一些明顯不合邏輯、有意造假的數(shù)據(jù)。數(shù)據(jù)缺失不但減少了接受調(diào)查者的實際單位數(shù),而且可能擴大估計量方差,嚴重時還會帶來估計量偏差,甚至造成抽樣的無效。在數(shù)據(jù)收集過程中,有許多方法可以用來處理缺失數(shù)據(jù)。這些方法的共同目的都是要將缺失的數(shù)據(jù)尋找回來。例如對無回答樣本進行重新調(diào)查,但是由于成本或其他種種原因的限制無法進行重新調(diào)查,或者重新調(diào)查也不能獲得回答。此時,我們就要關(guān)注數(shù)據(jù)處理階段對無回答的補救,如采用輔助抽樣框?qū)⑷笔?shù)據(jù)與抽樣總體單元進行某種方式的聯(lián)接,或者利用有關(guān)輔助資料對缺失數(shù)據(jù)進行推算,計算缺失數(shù)據(jù)帶來估計量偏差的影響程度。上述問題的解決都有賴于輔助信息運用。本文僅討論項目無回答背景下的處理,但其方法對單位無回答情況有參考意義。

      設(shè)目標總體為U,包含N個抽樣單元,Y為目標變量,X為與目標變量Y存在較高相關(guān)性的輔助變量,則有:

      Xi為第i個調(diào)查單元的已知輔助信息,q為輔助變量的個數(shù),εi為殘差,其均值為零,與Xi相互獨立。

      上式可以化為:

      2 輔助信息在加權(quán)調(diào)整法中的應用

      保證回答集中輔助變量的加權(quán)總值等于實際輔助變量的總體總值:

      (2)利用輔助信息,調(diào)整樣本的初始權(quán)數(shù)di,使得di=ωi,即在等式(4)約束下,使得di與ωi的距離最小,下面采用較為簡單的線性校準估計,距離函數(shù)表達為:

      利用拉格朗日定理求解線性距離最小化得:

      解得:

      即:

      從而校準估計量為:

      即:

      校準估計的方差估計量為:

      其中:

      上述情形為總體輔助信息已知。如果只有樣本輔助信息,在項目無回答發(fā)生時,校準估計可以利用樣本輔助信息調(diào)整無回答集的分布,使得回答單位集輔助信息的分布與樣本輔助信息的分布較為一致,從而減少無回答誤差,此時,校準估計的條件約束方程組為:

      則校準估計量為:

      3 利用輔助信息進行插補

      插補的基本原理是用已有的數(shù)據(jù)替代調(diào)查中的缺失數(shù)據(jù),然后利用調(diào)查所收集的數(shù)據(jù)或模擬出缺失數(shù)據(jù)對總體參數(shù)進行估計。已有的數(shù)據(jù)可以通過兩種方法獲得:一是以前進行過類似的調(diào)查,或存在與缺失數(shù)據(jù)相關(guān)的輔助信息,如果變量之間存在函數(shù)關(guān)系,建立起反映數(shù)據(jù)之間相互關(guān)系的模型,則可以對缺失數(shù)據(jù)進行推算估計。但是變量之間往往不存在函數(shù)關(guān)系,這就限制了這一方法在實際中的應用。二是利用當前正在進行的調(diào)查數(shù)據(jù),即利用樣本中回答數(shù)據(jù)模擬缺失數(shù)據(jù)的樣本單位,如均值插補、隨機插補、熱卡和冷卡插補、距離函數(shù)配對法、回歸估計插補,而這類方法可能會人為地扭曲數(shù)據(jù)的真實分布。而在相關(guān)的輔助信息下,模擬的精度往往得以提高。

      sr是對目標變量y回答單元的集合,sm是對目標變量y數(shù)據(jù)缺失單元的集合,為補上缺失數(shù)據(jù)yi而造出的插補值,下面將討論不同插補方法。

      (1)均值插補法

      (2)隨機插補法

      為了避免均值插補中插補值形成一個人造“峰值”的缺陷,我們按照某種概率抽樣的方法從回答單位數(shù)據(jù)中隨機抽取插補單位,以抽取的插補單位的實際回答值代替缺失值。即在樣本回答集中,在r個回答單元中隨機抽取m個回答單元,替代m個缺失數(shù)據(jù),若j∈sr使得p(=yj) =1 r,則=yj。這一方法彌補了均值插補中插補值過分集中的缺點,但是增加了一個再抽樣的過程,必然導致方差的增加。如果能利用相關(guān)輔助信息對樣本單位進行事后分層,再在每層中進行隨機插補,則調(diào)整效果較好。

      (3)熱卡和冷卡插補法

      熱卡插補就是先根據(jù)輔助變量的信息將樣本分為若干層,使得層內(nèi)各單位特征盡可能相似,然后按照某種概率抽樣的方法,從當前正在進行調(diào)查的同層回答單位中抽取與無回答單位數(shù)量相同的樣本,以抽取的樣本單位數(shù)據(jù)作為缺失數(shù)據(jù)的插補值。由于熱卡插補抽取的數(shù)據(jù)與缺失數(shù)據(jù)具有相似性,所以插補出的數(shù)據(jù)比較準確,且插補后仍可以保持數(shù)據(jù)的回答分布形式。如果缺失數(shù)據(jù)由當前調(diào)查外的其他信息,如歷史數(shù)據(jù)進行插補,則稱為冷卡插補。

      (4)距離函數(shù)配對法

      采用離缺失數(shù)據(jù)最近的回答數(shù)據(jù)作為插補值,若j∈sr使mindist(xi,xj)則=yj。距離函數(shù)一般是輔助變量的函數(shù),所選擇的輔助變量在性質(zhì)上應與目標變量相似,且兩者應具有密切關(guān)系。

      (5)回歸插補法

      回歸插補法需要完整的輔助變量x1,…xq和目標變量估計目標變量y對線性關(guān)系建立回歸方程,則:

      此時的插補值是通過標準方法(如最小平方法)計算出來的預測值,它所產(chǎn)生的插補值比均值法得到的插補值更為穩(wěn)定。往往可以采用前期數(shù)據(jù)作為輔助變量來預測現(xiàn)期數(shù)據(jù)。而當輔助信息x1,…xq相同時,得到的插補值也一樣,同樣會產(chǎn)生樣本扭曲的問題。

      4 利用輔助信息構(gòu)造間接估計量

      由于缺失數(shù)據(jù)的分布一般來說是隨機的,所以采用插補法推算缺失數(shù)據(jù),樣本方差將增大,估計量也是有偏的,同時,上述各插補方法也要求完整的輔助信息。下面研究在一般情況下,即在一些目標變量數(shù)據(jù)和一些輔助信息都缺失的情況下,利用回答數(shù)據(jù)和已知輔助信息構(gòu)造間接估計量來處理無回答。

      設(shè)目標總體U的樣本為s,第i個單位的包含概率為πi[1],將樣本分成三個不相交的子集:s1表示目標變量和對應輔助信息都完整的集合,s2表示目標變量無回答但輔助信息存在的集合,s3表示目標變量存在但輔助變量不存的目標變量的集合,其對應的樣本量分別為n1,n2,n3,且1≤n2,n3≤n/2[2]。要估計總體均值,一方面可以先對各子樣本考慮估計量,然后進行加權(quán)平均或相加,求得總體均值的估計量。令總體均值為:

      如果β未知,利用廣義最小二乘法,固定樣本下β的最小線性無偏估計量即為樣本回歸系數(shù),則為的線性無偏估計量。而未抽中單元均值估計量為=,所以:

      另外,根據(jù)樣本的結(jié)構(gòu),也可以利用所有已知目標變量和輔助變量來推斷缺失數(shù)據(jù),估計總體參數(shù)。子樣本s1,s2,s3的Horvitz-Thompson估計量為:

      則目標變量Y和輔助信息X的總體總量估計分別為:

      相應的比估計量和回歸估計量為:

      其中,X是輔助變量的總體總量,如果b未知,取b=cov(x,y)/var(x)。M.M.Rueda,S.Gonza′lez和A.Arcos的數(shù)據(jù)模擬研究證明,與簡單回歸估計插補相比,上述間接估計量的精度可以大大地提高[4]。

      5 結(jié)論

      綜合上述各種方法不難發(fā)現(xiàn),利用輔助信息,加權(quán)校準估計能調(diào)整樣本回答集的發(fā)布,使其更好地代表總體的分布,提高估計量的精度。采用輔助信息模擬缺失數(shù)據(jù)的插值法,簡單易明,能夠減少估計量的偏差。但傳統(tǒng)的插值法也存在這樣或那樣的缺點,如扭曲樣本的分布,低估方差,穩(wěn)定性較差,需要完整的輔助信息。而利用間接估計量進行插補,方法雖較為復雜,但是在一部分目標變量和一部分輔助信息缺失的情況下,利用所有已知的目標變量和輔助信息,能夠提高估計量的精度。

      [1]劉建平等.輔助信息在抽樣調(diào)查中的應用模型與方法[M].北京:中國統(tǒng)計出版社,2008.

      [2]Valliant,A.H,Dorfman,R.M.Royall.Finite Population Sampling and Inference[M].London:John Wiley,2000.

      [3]H.Toutenburg,V.K.Srivastava.Efficient Estimation of Population Mean Using Incomplete Survey Data on Study and Auxiliary Characteristics,Sonderforschungsbereich[C].Discussion Paper179,2000.

      [4]M.M.Rueda,S.González,A.Arcos.Indirect Methods of Imputation of Missing Data Based on Available Units[J].Applied Mathematics and Computation,2009,(175).

      [5]金勇進.非抽樣誤差分析[M].北京:中國統(tǒng)計出版社,1996.

      猜你喜歡
      估計量均值輔助
      小議靈活構(gòu)造輔助函數(shù)
      倒開水輔助裝置
      淺談估計量的優(yōu)良性標準
      減壓輔助法制備PPDO
      均值不等式失效時的解決方法
      均值與方差在生活中的應用
      提高車輛響應的轉(zhuǎn)向輔助控制系統(tǒng)
      汽車文摘(2015年11期)2015-12-02 03:02:53
      基于配網(wǎng)先驗信息的諧波狀態(tài)估計量測點最優(yōu)配置
      電測與儀表(2015年6期)2015-04-09 12:00:50
      關(guān)于均值有界變差函數(shù)的重要不等式
      對偶均值積分的Marcus-Lopes不等式
      富蕴县| 浙江省| 乐东| 巴林右旗| 巴里| 延吉市| 抚州市| 沙洋县| 正蓝旗| 无锡市| 涞水县| 平利县| 惠东县| 新田县| 浏阳市| 富阳市| 奎屯市| 承德市| 遂溪县| 自治县| 新邵县| 惠安县| 晋城| 辛集市| 莱阳市| 漳州市| 自治县| 阆中市| 北流市| 洛浦县| 梅河口市| 临沭县| 桐庐县| 二连浩特市| 雅江县| 德令哈市| 盐池县| 禄丰县| 遂昌县| 大宁县| 安岳县|