S-SMART最大熵法及在小樣本中的應用

2012-09-18 02:19:50屈云利朱永忠

重慶理工大學學報(自然科學) 2012年6期

屈云利，朱永忠

(河海大學理學院，南京 210098)

目前，用于解決小樣本問題的方法之一就是Bayes方法。利用Bayes方法的關(guān)鍵是如何有效地利用先驗信息來合理地確定先驗分布。許多學者對此進行了研究，如:Raiffa和Schlaifer［1］提出了利用共軛先驗分布來確定先驗分布;Jeffreys［2］研究提出了Jeffreys原則;Box和Tiao［3］對無信息先驗分布作了詳細的研究;20世紀50年代以 Robbins［4］為代表提出用經(jīng)驗 Bayes方法(EB)確定先驗分布。

隨著信息論的產(chǎn)生，Jaynes等［5］利用信息論中熵的概念提出用最大熵法來確定先驗分布，在獲得少量的統(tǒng)計樣本值時就可以獲得它的概率密度函數(shù)。這種方法充分利用了樣本中給定的信息，可以做到準確地確定概率密度分布以及相關(guān)的各個參數(shù)。隨著計算機的發(fā)展，對于小樣本問題，常利用一些非參數(shù)的統(tǒng)計方法(如Bootstrap［6］方法和S-SMART(sample-smoothing amplification technique)［7］方法確定先驗分布，并取得了較好的應用效果。一些參數(shù)方法都是針對大樣本的［8］。研究表明S-SMART方法比Bootstrap方法更穩(wěn)健，尤其在小樣本的情形下比Bootstrap方法更精確、效果更好［7］。最大熵法也不需要對試驗數(shù)據(jù)進行假設就能確定先驗分布，它是一種較好地處理不完全先驗信息和盡量避免主觀因素的方法［9］。在先驗樣本數(shù)據(jù)較多時，可替代經(jīng)典統(tǒng)計學中通過直方圖確定概率分布的方法，且給出的是連續(xù)分布函數(shù)，便于利用Bayes公式進行計算。由此本文結(jié)合S-SMART方法和最大熵法的特點來進行相關(guān)研究，提出應用S-SMART最大熵法可以直接由試驗數(shù)據(jù)得到未知參數(shù)的連續(xù)概率密度函數(shù)，且?guī)缀醪恍枰藶榧僭O，完全依賴樣本信息，客觀地得出該樣本的近似分布密度函數(shù)。

1 S-SMART最大熵法理論

S-SMART最大熵法的基本思想是:通過 SSMART方法將小樣本問題轉(zhuǎn)化成大樣本問題后，再利用最大熵法求出其概率密度函數(shù)，從而解決小樣本情況下Bayes統(tǒng)計方法中的先驗分布確定問題。

1.1 最大熵方法的理論

信息論中熵用來表示不確定性的量度。信息熵的定義是

其中:Pi為隨機變量取 xi時的概率;SUM為累加和。

當x為連續(xù)型時，熵的定義可以寫成

其中f(x)為隨機變量分布的概率密度函數(shù)。

最大熵的實質(zhì)就是在已知部分知識的前提下，關(guān)于未知分布最合理的推斷，就是符合已知知識最不確定或最隨機的推斷，即信息量最大的概率密度函數(shù)就是最佳(偏差最小)的概率密度函數(shù)。

設θ是連續(xù)型隨機變量，p(θ)是 θ的概率密度。

其中mi為隨機變量θ的各階原點矩。

通過構(gòu)造拉格朗日方程，使熵達到最大值，通過計算可得隨機變量θ的概率密度函數(shù)

其中 λ0，λ1，…λm為待定系數(shù)［10］，可由式(4)、(5)求解。

1.2 S-SMART最大熵法的方法實現(xiàn)

考慮如下問題:設隨機樣本 X=(x1，x2，…，xn)是來自未知的總體分布F。當n很大時(即大樣本數(shù)據(jù))，可以采用經(jīng)驗分布函數(shù)法、直方圖法來近似求得總體的概率分布;但當n不大時(即小樣本數(shù)據(jù))，上述方法的誤差會比較大?，F(xiàn)以小樣本問題為例來說明S-SMART最大熵法的實現(xiàn)步驟。

1)對已知的樣本觀測值進行再抽樣得到SSMART樣本。具體的抽樣過程是:首先將原始樣本的2.5% ～97.5%的百分位點概率等分為k份(k為樣本的放大倍數(shù))，然后計算相應的分位點和原始樣本的標準差，之后以服從上述步驟中獲得的百分位點為均值，以原始樣本的標準差為標準差的正態(tài)分布來模擬產(chǎn)生k組S-SMART子樣，最后將這 k組S-SMART子樣結(jié)合起來獲得 SSMART樣本。

2) 記所要考察的未知參數(shù)θ^=R(X，F(xiàn))，θ^可以是總體的均值、方差或分布密度函數(shù)等分布特征。

3)借助計算機，利用Monte-Carlo方法對步驟1)和步驟2)進行N次模擬，得到估計參數(shù)的序列

其中Θ為參數(shù)空間。結(jié)合以上步驟可獲得p(θ)的表達式，從而可對隨機變量進行相關(guān)的假設檢驗。

2 仿真模擬及結(jié)論

根據(jù)以上步驟并不能得到p(θ)的解析表達式，只能利用數(shù)值方法進行求解。一般情況下，m取到3或4即可滿足較高的精度和工程需要，視具體情況而定。本文以m=4為例來進行仿真模擬試驗。

1)以不同的放大倍數(shù)和不同的分布為例，設隨機樣本分別來自標準正態(tài)分布N(0，1)和參數(shù)為10的指數(shù)分布，每個含有n個隨機數(shù)，n取20，利用S-SMART方法進行10次和50次的再抽樣，應用Matlab［11］中統(tǒng)計工具箱計算各自的各階矩。

圖1～4分別表示運用S-SMART最大熵法放大10倍、50倍的模擬結(jié)果與理論的標準正態(tài)分布和參數(shù)為10的指數(shù)分布的比較，其中‘o’是樣本點。由圖1～4可以看出，在小樣本情形下，利用S-SMART最大熵法確定的先驗分布與各理論分布相近，若直接將小樣本進行擬合則與實際結(jié)果相差很大。由此可見S-SMART最大熵法是可行、有效的。這表明S-SMART最大熵法根據(jù)小樣本數(shù)據(jù)求取未知參數(shù)的先驗分布不需要對分布作假設即可得到連續(xù)的概率密度函數(shù)，便于進行理論分析。該方法即可有效地擴充樣本數(shù)據(jù)，同時也能充分利用樣本信息，盡量避免主觀因素的影響，因此得到的先驗分布也更能令人信服。

圖4 放大50倍的S-SMART最大熵法與理論分布的比較

［1］Raiffa H，Schlaifer R.Applied Statistical Decision Theory［M］.Boston:Harvard University Press，1961.

［2］JeffreysH.Theory of Probability［M］.Oxford:Oxford University Press，1961.

［3］Box C，Tiao G C.BayesianInferenceinStatisticalAnalysis［M］.USA:Addision-Wrsley，1973.

［4］Robbines H.The Empirical Bayes Approach to Statistical Decision Problem［J］.Ann.Math.Stat.，1964，35:1 －20.

［5］Jaynes E T.Information Theory and Statistical Mechanics［J］.Phys.Rev，1957，108(2):171 －190.

［6］Efron B.Bootstrap Method:Another Look At The Jackknife［J］.Ann Statist，1979，1:1 － 26.

［7］Haiyan Bai.A New Resampling Method to Improve Quality of Research with Small Samples［D］.Cincinnati:University of Cincinnati，2006.

［8］余嘉元.基于神經(jīng)網(wǎng)絡集成的IRT參數(shù)估計［J］.江南大學學報，2009(5):505－508.

［9］康文興，谷小松，黃希利.自助最大熵法確定先驗分布及其在導彈命中概率估計中的應用［J］.裝備指揮技術(shù)學院學報，2007(3):109－113.

［10］張煥珍.基于蒙特卡羅和最大熵法的水泵測試不確定度研究［D］.沈陽:沈陽工業(yè)大學，2010.

［11］蘇金明，張蓮花，劉波，等.MATLAB工具箱應用［M］.北京:電子工業(yè)出版社，2004.