喬汭熙
摘要:本文總結(jié)了Bootstrap和Jackknife的相關(guān)理論知識(shí)與已有研究;利用R語言進(jìn)行模擬,設(shè)計(jì)復(fù)雜抽樣方案并進(jìn)行抽樣,對Bootstrap和Jackknife的部分性質(zhì)進(jìn)行了驗(yàn)證與解釋。除此之外,本文還對Bootstrap和Jackknife估計(jì)量的性質(zhì)進(jìn)行了簡要的介紹,并對方法的改進(jìn)進(jìn)行了討論。
關(guān)鍵詞:復(fù)雜抽樣;Bootstrap;Jackknife;估計(jì)
一、發(fā)展歷史與研究現(xiàn)狀
Jackknife是由Quenouille(1949)引入的一種方法,又稱刀切法。Jackknife方法的思想是,通過從原始數(shù)據(jù)集中每次刪除一個(gè)數(shù)據(jù)并利用其余數(shù)據(jù)重新計(jì)算估計(jì)量,根據(jù)得到的一組估計(jì)值,可以對待估參數(shù)及其他性質(zhì)進(jìn)行估計(jì)。
Quenouille在1949年提出,可以通過將樣本劃分為兩個(gè)半樣本的方式,以減少序列相關(guān)的估計(jì)量的偏差。在其1956年的研究中,提出將樣本量為n的樣本劃分為g組大小為h的樣本的方法,并討論了這種方法的可行性[1][2]。
Jackknife方法在對殘差的估計(jì)(P.S.R.S Rao and J.N.K.Rao,1970)、區(qū)間估計(jì)(Tukey)、極大似然估計(jì)(Fryer,1970)等方面優(yōu)良性質(zhì)均已被證明[1]。
對于多元的Jackknife,Dempster在其1966的研究中,提出了一種改進(jìn)的Jackknife方法,用于處理典型相關(guān)問題。Layard(1972)指出,當(dāng)傳統(tǒng)正態(tài)方法對兩個(gè)協(xié)方差矩陣相等性的檢驗(yàn)不穩(wěn)健時(shí),Jackknife方法可以很好的處理。Lachenbruch和Mickey[1]提出了U方法(實(shí)際是Jackknife方法的應(yīng)用)進(jìn)行判別分析。
L.B.Jaeckel提出一種無窮細(xì)分的刀切法,雖然此方法不如原始Jackknife方法實(shí)用,但卻在Jackknife和穩(wěn)健估計(jì)量之間建立了橋梁(1972)。
Jackknife在其他領(lǐng)域的應(yīng)用也極為廣泛。有研究者將Jackknife與自適應(yīng)加權(quán)相結(jié)合,提高了多傳感器有關(guān)數(shù)據(jù)處理的精確性和穩(wěn)健性[3]。還有研究者將Jackknife用于測算準(zhǔn)備電位啟始時(shí)間點(diǎn)[4]。
Bootstrap,又被稱為自舉法、自助法,是由美國斯坦福大學(xué)統(tǒng)計(jì)系的Efron(1979)提出的一種重抽樣的方法。它以原始數(shù)據(jù)為基礎(chǔ),即可用于參數(shù)估計(jì),又可用于非參數(shù)估計(jì),在進(jìn)行參數(shù)估計(jì)時(shí)只依賴于已有的觀測信息,是利用小樣本信息構(gòu)造先驗(yàn)分布的最理想的方法之一。
1979年Efron提出Bootstrap之初,曾因太簡單而被雜志拒收,后其發(fā)表在《The Annals of Statistics》上[2]。Bootstrap方法提出之后,統(tǒng)計(jì)學(xué)家爭相對其進(jìn)行研究擴(kuò)展:Hall對Bootstrap進(jìn)行了Edgeworth展開;Efron和Tibshirani對Bootstrap的性質(zhì)與估計(jì)方面進(jìn)行了詳細(xì)的理論推導(dǎo)與證明,討論了其在各種復(fù)雜數(shù)據(jù)結(jié)構(gòu)、回歸分析、交叉驗(yàn)證等方面的應(yīng)用;Lahiri介紹了Bootstrap在非獨(dú)立數(shù)據(jù)中的應(yīng)用;Shao和Tu將Bootstrap與Jackknife進(jìn)行了系統(tǒng)的介紹與對比。
Bootstrap對獨(dú)立同分布數(shù)據(jù)的研究是最早發(fā)展的一部分,Singh在此情形證明了在某些條件下Bootstrap近似比傳統(tǒng)正態(tài)近似的收斂速度快。
對于非獨(dú)立的數(shù)據(jù),可以用塊狀的Bootstrap來處理,也可以使用基于變換的Bootstrap。對于塊狀的Bootstrap方法,主要思想是將具有相依關(guān)系的數(shù)據(jù)放在同一個(gè)單元進(jìn)行重抽樣,該方法由Ktinsch與Liu和Singh首先提出。Hall等人對于塊狀Bootstrap樣本區(qū)間的劃分進(jìn)行了討論。對于基于變換的Bootstrap,其思想是對非獨(dú)立的數(shù)據(jù)進(jìn)行變換,使其轉(zhuǎn)換為獨(dú)立(或近似獨(dú)立)數(shù)據(jù),其中,最常用的變換是傅里葉變換。
Bootstrap理論的基本思想、歷史發(fā)展及其若干比較前沿的研究方向包括:獨(dú)立同分布數(shù)據(jù)、基于模型、帶有塊結(jié)構(gòu)、Sieve、基于變換、Markov過程、長期相依和空間數(shù)據(jù)的Bootstrap理論等[3]?,F(xiàn)如今Bootstrap方法已廣泛地應(yīng)用于統(tǒng)計(jì)學(xué)的各個(gè)領(lǐng)域,成為當(dāng)下最受歡迎的重抽樣方法之一。
除此之外,Bootstrap方法也被廣泛應(yīng)用于各個(gè)領(lǐng)域。黎光明[5]等人在其研究中,以心理學(xué)為背景,對于正態(tài)分布、二項(xiàng)分布、多項(xiàng)分布和偏態(tài)分布的數(shù)據(jù),對Bootstrap 方法進(jìn)行校正,作點(diǎn)估計(jì)和方差估計(jì),發(fā)現(xiàn)校正的Bootstrap 方法優(yōu)于未校正的Bootstrap 方法;有學(xué)者將Bootstrap方法應(yīng)用于森林系統(tǒng)的抽樣調(diào)查,提高了初始樣本的精度[6];有學(xué)者利用Bootstrap方法,計(jì)算了考試成績的均值、標(biāo)準(zhǔn)差、偏度與峰值,刻畫了考試成績前四階核密度函數(shù)曲線,對各個(gè)班級(jí)學(xué)生的考試成績情況進(jìn)行了研究[7];還有學(xué)者將Bootstrap方法應(yīng)用于過度分散的泊松模型中,得到了未決賠償準(zhǔn)備金的預(yù)測均方誤差,進(jìn)一步通過隨機(jī)模擬得到了預(yù)測分布,為保險(xiǎn)業(yè)進(jìn)行準(zhǔn)備金評估提供了新思路[8]。
二、模擬仿真與結(jié)果分析
(一)模擬
本文利用R語言,采取模擬的方法進(jìn)行研究,共進(jìn)行1000次模擬。首先,進(jìn)行二階段抽樣,第一階段采用PPS抽樣,第二階段采用簡單隨機(jī)抽樣,且簡單隨機(jī)抽樣抽取的樣本量相同。其次,進(jìn)行分層二階抽樣,將所有的初級(jí)抽樣單元按規(guī)模分層,在每一層內(nèi)進(jìn)行二階段抽樣。分別利用傳統(tǒng)方法、Bootstrap和Jackknife的方法對兩種方法抽取得到的樣本方差進(jìn)行估計(jì)和比較。對1000次模擬的結(jié)果進(jìn)行匯總、比較。結(jié)果如下。由上表可見,根據(jù)Bootstrap和Jackknife的方法對抽樣誤差進(jìn)行估計(jì),其效果明顯好于利用傳統(tǒng)方法進(jìn)行估計(jì)。而就Bootstrap和Jackknife來說,對于本研究中所使用的兩種抽樣方法,Jackknife方法的效果較好,Bootstrap對抽樣誤差估計(jì)并不是總優(yōu)于傳統(tǒng)方法。
(二)結(jié)果分析
在一致性方面,Jackknife分布估計(jì)量在非常弱的條件下是一致的。
Jackknife無法獲得樣本分位數(shù)方差的一致估計(jì),但Bootstrap卻可以通過選擇適當(dāng)?shù)牡讓臃植糉來獲得,這也是Bootstrap相對于Jackknife最大的優(yōu)勢之一。Jackknife無法對分布進(jìn)行估計(jì),但Bootstrap卻可以。除此之外,Jackknife分布估計(jì)量的收斂率也不如Bootstrap的分布估計(jì)量那樣好。
Jackknife是非參數(shù)方法,它利用的是原數(shù)據(jù)集的子集。因此,Jackknife可能不如Bootstrap估計(jì)量效率高,但是,Jackknife對模型假設(shè)的變化更加穩(wěn)健。Jackknife采用比Bootstrap更系統(tǒng)的取樣方法。因此,對于Jackknife會(huì)有更有效的計(jì)算方法。
對于方差估計(jì),當(dāng)?shù)讓臃植糉拖尾時(shí),Bootstrap估計(jì)量 即使對光滑的都可能是不一致的。Bootstrap方差估計(jì)量通常向下偏的。
另外,現(xiàn)有的結(jié)果表明 的一致性并不涵蓋廣泛的統(tǒng)計(jì)量。 的計(jì)算通常比 更復(fù)雜。因此,對于 是光滑時(shí)的方差估計(jì)量,綜合考慮理論和計(jì)算,Jackknife比Bootstrap的效果要好,且Jackknife可以很容易地?cái)U(kuò)展到多變量的情況。推薦使用Bootstrap來處理更復(fù)雜的問題,例如估計(jì)抽樣分布和建立置信度等。
事實(shí)上,由于樣本來自于不同的正態(tài)分布,研究利用傳統(tǒng)方法進(jìn)行估計(jì)已沒有意義,無論估計(jì)的數(shù)值大小如何,均無法說明總體的情況。在這種情況下,Bootstrap和Jackknife估計(jì)的結(jié)果更為可信。本文的模擬是對均值的方差(標(biāo)準(zhǔn)差)進(jìn)行的估計(jì),無論是從漸近性、一致性還是穩(wěn)健性考慮,Jackknife效果都更好,模擬的結(jié)果也與該結(jié)論相一致。
三、Bootstrap與Jackknife的缺陷
(一)Bootstrap的缺陷
(1)在對經(jīng)驗(yàn)分布函數(shù)進(jìn)行抽樣時(shí),Bootstrap樣本來自于原樣本,若原樣本樣本量很小,Bootstrap樣本中必然會(huì)出現(xiàn)重復(fù)的樣本點(diǎn),多次抽樣后會(huì)使概率分布集中于少數(shù)點(diǎn),從而導(dǎo)致計(jì)算的結(jié)果遠(yuǎn)遠(yuǎn)偏離真實(shí)結(jié)果,使估計(jì)出現(xiàn)偏差。
(2)在分布連續(xù)的情況下,我們只能獲得觀測點(diǎn)處的分布情況,對于非觀測點(diǎn)處的分布并無了解,據(jù)此推斷出的分布很有可能偏離真實(shí)分布。
(3)在使用Bootstrap方法時(shí),無法對分位數(shù)進(jìn)行估計(jì),對最大次序統(tǒng)計(jì)量、最小次序統(tǒng)計(jì)量自然也無法進(jìn)行估計(jì)。
(二)Jackknife的缺陷
通常情況下,Jackknife方差估計(jì)量是一致的,但在一些情況下Jackknife方差估計(jì)量會(huì)出現(xiàn)不一致的情況。不一致性的出現(xiàn)主要是因?yàn)闃颖竞瘮?shù)的不平滑。
(三)模擬
(1)對Bootstrap的改進(jìn)
選用的均值為2、標(biāo)準(zhǔn)差為5的正態(tài)分布對Bootstrap的改進(jìn)進(jìn)行模擬。對最大統(tǒng)計(jì)量和最小統(tǒng)計(jì)量進(jìn)行鄰域的擴(kuò)充并進(jìn)行抽樣,方法為:,。選取不同的m值,各進(jìn)行1000次模擬。結(jié)果如下。
“compare”代表了在1000次模擬中,改進(jìn)后的方法更優(yōu)的次數(shù)。由于模擬采取小樣本,所以m值應(yīng)當(dāng)取大一些??梢钥吹?,隨著m的增大,改進(jìn)后的方法效果越來越好。模擬結(jié)果符合已有結(jié)論。
(2)棄d刀切法
對Jackknife和棄d刀切法進(jìn)行模擬比較。生成100個(gè)均值為2、標(biāo)準(zhǔn)差為5的正態(tài)分布隨機(jī)數(shù),分別利用刀切法和棄d刀切法進(jìn)行標(biāo)準(zhǔn)差的估計(jì),棄d刀切法選取了不同的d值。結(jié)果如下。
“sd”代表了棄d刀切法估計(jì)的標(biāo)準(zhǔn)差,橫坐標(biāo)為抽取的樣本量r,橫線為刀切法估計(jì)的標(biāo)準(zhǔn)差。由上圖可見,當(dāng)d=1時(shí),棄d刀切法即為刀切法。棄d刀切法并不是總優(yōu)于刀切法,其效果與d的選取有關(guān)。
參考文獻(xiàn):
[1]Rupert G.Miller. The Jachhnife-A Review. Biometrika, 1974、30(1): 1-15.
[2]謝益輝,朱鈺. Bootstrap方法的歷史發(fā)展和前沿研究. 統(tǒng)計(jì)與信息論壇, 2008、23(2): 90-96.
[3]謝振南,楊宜民. 基于刀切法與自適應(yīng)加權(quán)的多傳感器信息融合算法. 計(jì)算機(jī)與現(xiàn)代化, 2012、25(10): 34-37.
[4]呂博,劉明霞,劉麗莎. 單側(cè)化準(zhǔn)備電位啟始時(shí)間點(diǎn)的測算:刀切法. 心理與行為研究, 2014、12(5): 707-711.
[5]謝益輝,朱鈺. Bootstrap方法的歷史發(fā)展和前沿研究. 統(tǒng)計(jì)與信息論壇, 2008、23(2) : 90-96.
[6]黎光明,張敏強(qiáng). 校正的Bootstrap方法對概化理論方差分量及其變異量估計(jì)的改善. 心理學(xué)報(bào), 2013、45(1): 114?124.
[7]余國寶,錢祖煌. 應(yīng)用自動(dòng)法樣本估計(jì)森林系統(tǒng)抽樣誤差的初步研究. 林業(yè)調(diào)查規(guī)劃, 1993、18(1):1-7.
[8]劉長虹,陳凱倫,郝杰,楊晨. Bootstrap 抽樣方法在考試成績分析中的應(yīng)用. 紡織服裝教育, 2015、30(3): 196-198.