屈云利,朱永忠
(河海大學理學院,南京 210098)
目前,用于解決小樣本問題的方法之一就是Bayes方法。利用Bayes方法的關(guān)鍵是如何有效地利用先驗信息來合理地確定先驗分布。許多學者對此進行了研究,如:Raiffa和Schlaifer[1]提出了利用共軛先驗分布來確定先驗分布;Jeffreys[2]研究提出了Jeffreys原則;Box和Tiao[3]對無信息先驗分布作了詳細的研究;20世紀50年代以 Robbins[4]為代表提出用經(jīng)驗 Bayes方法(EB)確定先驗分布。
隨著信息論的產(chǎn)生,Jaynes等[5]利用信息論中熵的概念提出用最大熵法來確定先驗分布,在獲得少量的統(tǒng)計樣本值時就可以獲得它的概率密度函數(shù)。這種方法充分利用了樣本中給定的信息,可以做到準確地確定概率密度分布以及相關(guān)的各個參數(shù)。隨著計算機的發(fā)展,對于小樣本問題,常利用一些非參數(shù)的統(tǒng)計方法(如Bootstrap[6]方法和S-SMART(sample-smoothing amplification technique)[7]方法確定先驗分布,并取得了較好的應用效果。一些參數(shù)方法都是針對大樣本的[8]。研究表明S-SMART方法比Bootstrap方法更穩(wěn)健,尤其在小樣本的情形下比Bootstrap方法更精確、效果更好[7]。最大熵法也不需要對試驗數(shù)據(jù)進行假設就能確定先驗分布,它是一種較好地處理不完全先驗信息和盡量避免主觀因素的方法[9]。在先驗樣本數(shù)據(jù)較多時,可替代經(jīng)典統(tǒng)計學中通過直方圖確定概率分布的方法,且給出的是連續(xù)分布函數(shù),便于利用Bayes公式進行計算。由此本文結(jié)合S-SMART方法和最大熵法的特點來進行相關(guān)研究,提出應用S-SMART最大熵法可以直接由試驗數(shù)據(jù)得到未知參數(shù)的連續(xù)概率密度函數(shù),且?guī)缀醪恍枰藶榧僭O,完全依賴樣本信息,客觀地得出該樣本的近似分布密度函數(shù)。
S-SMART最大熵法的基本思想是:通過 SSMART方法將小樣本問題轉(zhuǎn)化成大樣本問題后,再利用最大熵法求出其概率密度函數(shù),從而解決小樣本情況下Bayes統(tǒng)計方法中的先驗分布確定問題。
信息論中熵用來表示不確定性的量度。信息熵的定義是
其中:Pi為隨機變量取 xi時的概率;SUM為累加和。
當x為連續(xù)型時,熵的定義可以寫成
其中f(x)為隨機變量分布的概率密度函數(shù)。
最大熵的實質(zhì)就是在已知部分知識的前提下,關(guān)于未知分布最合理的推斷,就是符合已知知識最不確定或最隨機的推斷,即信息量最大的概率密度函數(shù)就是最佳(偏差最小)的概率密度函數(shù)。
設θ是連續(xù)型隨機變量,p(θ)是 θ的概率密度。
其中mi為隨機變量θ的各階原點矩。
通過構(gòu)造拉格朗日方程,使熵達到最大值,通過計算可得隨機變量θ的概率密度函數(shù)
其中 λ0,λ1,…λm為待定系數(shù)[10],可由式(4)、(5)求解。
考慮如下問題:設隨機樣本 X=(x1,x2,…,xn)是來自未知的總體分布F。當n很大時(即大樣本數(shù)據(jù)),可以采用經(jīng)驗分布函數(shù)法、直方圖法來近似求得總體的概率分布;但當n不大時(即小樣本數(shù)據(jù)),上述方法的誤差會比較大?,F(xiàn)以小樣本問題為例來說明S-SMART最大熵法的實現(xiàn)步驟。
1)對已知的樣本觀測值進行再抽樣得到SSMART樣本。具體的抽樣過程是:首先將原始樣本的2.5% ~97.5%的百分位點概率等分為k份(k為樣本的放大倍數(shù)),然后計算相應的分位點和原始樣本的標準差,之后以服從上述步驟中獲得的百分位點為均值,以原始樣本的標準差為標準差的正態(tài)分布來模擬產(chǎn)生k組S-SMART子樣,最后將這 k組S-SMART子樣結(jié)合起來獲得 SSMART樣本。
2) 記所要考察的未知參數(shù)θ^=R(X,F(xiàn)),θ^可以是總體的均值、方差或分布密度函數(shù)等分布特征。
3)借助計算機,利用Monte-Carlo方法對步驟1)和步驟2)進行N次模擬,得到估計參數(shù)的序列
其中Θ為參數(shù)空間。結(jié)合以上步驟可獲得p(θ)的表達式,從而可對隨機變量進行相關(guān)的假設檢驗。
根據(jù)以上步驟并不能得到p(θ)的解析表達式,只能利用數(shù)值方法進行求解。一般情況下,m取到3或4即可滿足較高的精度和工程需要,視具體情況而定。本文以m=4為例來進行仿真模擬試驗。
1)以不同的放大倍數(shù)和不同的分布為例,設隨機樣本分別來自標準正態(tài)分布N(0,1)和參數(shù)為10的指數(shù)分布,每個含有n個隨機數(shù),n取20,利用S-SMART方法進行10次和50次的再抽樣,應用Matlab[11]中統(tǒng)計工具箱計算各自的各階矩。
圖1~4分別表示運用S-SMART最大熵法放大10倍、50倍的模擬結(jié)果與理論的標準正態(tài)分布和參數(shù)為10的指數(shù)分布的比較,其中‘o’是樣本點。由圖1~4可以看出,在小樣本情形下,利用S-SMART最大熵法確定的先驗分布與各理論分布相近,若直接將小樣本進行擬合則與實際結(jié)果相差很大。由此可見S-SMART最大熵法是可行、有效的。這表明S-SMART最大熵法根據(jù)小樣本數(shù)據(jù)求取未知參數(shù)的先驗分布不需要對分布作假設即可得到連續(xù)的概率密度函數(shù),便于進行理論分析。該方法即可有效地擴充樣本數(shù)據(jù),同時也能充分利用樣本信息,盡量避免主觀因素的影響,因此得到的先驗分布也更能令人信服。
圖4 放大50倍的S-SMART最大熵法與理論分布的比較
[1]Raiffa H,Schlaifer R.Applied Statistical Decision Theory[M].Boston:Harvard University Press,1961.
[2]JeffreysH.Theory of Probability[M].Oxford:Oxford University Press,1961.
[3]Box C,Tiao G C.BayesianInferenceinStatisticalAnalysis[M].USA:Addision-Wrsley,1973.
[4]Robbines H.The Empirical Bayes Approach to Statistical Decision Problem[J].Ann.Math.Stat.,1964,35:1 -20.
[5]Jaynes E T.Information Theory and Statistical Mechanics[J].Phys.Rev,1957,108(2):171 -190.
[6]Efron B.Bootstrap Method:Another Look At The Jackknife[J].Ann Statist,1979,1:1 - 26.
[7]Haiyan Bai.A New Resampling Method to Improve Quality of Research with Small Samples[D].Cincinnati:University of Cincinnati,2006.
[8]余嘉元.基于神經(jīng)網(wǎng)絡集成的IRT參數(shù)估計[J].江南大學學報,2009(5):505-508.
[9]康文興,谷小松,黃希利.自助最大熵法確定先驗分布及其在導彈命中概率估計中的應用[J].裝備指揮技術(shù)學院學報,2007(3):109-113.
[10]張煥珍.基于蒙特卡羅和最大熵法的水泵測試不確定度研究[D].沈陽:沈陽工業(yè)大學,2010.
[11]蘇金明,張蓮花,劉波,等.MATLAB工具箱應用[M].北京:電子工業(yè)出版社,2004.