李廣正
(中國人民銀行蘭州中心支行,蘭州 730000)
數理統計的本質是以樣本推斷總體,而區(qū)間估計又是統計推斷的核心內容,所以研究區(qū)間估計問題具有重要意義。在給定置信水平的情況下,基于單峰對稱分布的參數的區(qū)間估計,傳統方法構造的區(qū)間是最短置信區(qū)間;當分布為單峰非對稱時,利用傳統方法構造的區(qū)間是等尾置信區(qū)間,而不是最短置信區(qū)間。
關于研究最優(yōu)區(qū)間估計的文獻有很多,李柏林[1]證明了最優(yōu)區(qū)間估計的存在性,并推導出了常見分布的參數的區(qū)間估計公式;錢瑛[2]證明了單峰分布的最短置信區(qū)間的存在性;姜培華[3]證明了兩正態(tài)總體方差比的最優(yōu)區(qū)間的存在性,即F分布最優(yōu)區(qū)間的存在性,這些文獻都只是從理論上證明不同分布下的最優(yōu)區(qū)間估計的存在性。徐曉嶺[4]不僅運用拉格朗日乘數法證明了卡方分布的最優(yōu)區(qū)間估計存在性問題,還利用matlab求解出了卡方分布最短區(qū)間估計值,并構造了不同自由度下卡方分布的最短區(qū)間估計用表。孫鵬哲[5,6]給出了F分布和卡方分布最短置信區(qū)間的左側概率分配值表。其他針對單峰非對稱分布的最優(yōu)區(qū)間估計的研究還有很多,例如,王學敏[7]研究了指數分布和瑞利分布參數的最短區(qū)間估計問題。本文根據以上文獻的研究思路,研究如何計算出F分布最短區(qū)間估計用表,力爭在精度上優(yōu)于傳統方法。
設x1,x2,…,xm是來自正態(tài)分布的樣本,y1,y2,…,yn是來自正態(tài)分布的樣本,且兩樣本相互獨立。兩樣本均值分別為和兩樣本方差分別為:
對給定的置信水平1-α,由:
對給定的置信水平1-α,取滿足條件:
的x1和x2。由此得到的1-α的最短置信區(qū)間:
其中,0<x1<x2,且滿足:
F(m-1,n-1)(x)為F(m-1,n-1)的分布函數 。
姜培華[3]證明了基于F分布的兩正態(tài)總體方差比的最優(yōu)區(qū)間估計的存在性及唯一性,即上述非線性規(guī)劃問題存在最優(yōu)解。
周岱翰強調,飲食要均衡。一年到頭,他雷打不動要吃的“寶貝”,是最平常不過的蘋果,每天1~2個。有人問他:“蘋果就那么好吃嗎,吃多了不厭煩嗎?”“蘋果如果不好吃,就當藥吃嘛!”他說。
作者簡介:李廣正(1990—),男,河南信陽人,碩士,助理經濟師,研究方向:商務統計。
孫鵬哲[5]運用數值模擬方法,利用R軟件計算最短置信區(qū)間對應的左側概率分配值,同時給出了最優(yōu)左側概率分配統計表。其計算步驟為:第一步,計算基于最短置信區(qū)間對應的左側概率分配值;第二步,計算由第一步得到的左側概率分配值對應的分位數,此分位數就是最優(yōu)區(qū)間的左側端點值,再計算右側概率分配值對應的分位數,即為最優(yōu)區(qū)間的右側端點值。由于每一步的計算結果都不是精確的解析解,而是近似的數值解,所以這種分兩步計算最優(yōu)區(qū)間估計的方法擴大了估計誤差。而且,該文章只給出了基于F分布下最優(yōu)左側概率分配統計表,必須通過此表再計算相應概率下對應的分位數,才能得到最優(yōu)區(qū)間估計,這給實際應用帶來了麻煩?;谶@種考慮,本文通過運用拉格朗日乘數法,利用mathematics軟件分別計算出了在0.9、0.95和0.99置信水平下基于F分布的最短置信區(qū)間,并構造了F分布的最短區(qū)間估計用表。
由式(2)得:
由于F分布的分布函數形式非常復雜,一般的軟件很難求出式(6)決定的非線性規(guī)劃問題的最優(yōu)解。本文通過運用拉格朗日乘數法,將一個求解非線性規(guī)劃問題轉換成求解方程組的問題。經過分析可知,由式(6)決定的非線性規(guī)劃問題的最優(yōu)解和由式(4)和式(8)組成的方程組的解相同。利用mathematics軟件里的FindRoot函數能較精確地求出方程組的近似根。對于F(m,n)分布,只有當n>4時,分布的方差才存在,故為保證方差存在,本文的最優(yōu)區(qū)間估計表是在兩個自由度都大于4的條件下計算的,具體程序略。
表1 0.9置信水平下最優(yōu)區(qū)間的左側端點值
表2 0.9置信水平下最優(yōu)區(qū)間的右側端點值
表3 0.95置信水平下最優(yōu)區(qū)間的左側端點值
表4 0.95置信水平下最優(yōu)區(qū)間的右側端點值
表5 0.99置信水平下最優(yōu)區(qū)間的左側端點值
表6 0.99置信水平下最優(yōu)區(qū)間的右側端點值
本文計算出了在0.9、0.95和0.99置信水平下基于F分布的最短置信區(qū)間,構造了最短區(qū)間估計用表,同時將本文的方法與傳統方法和文獻[5]中介紹的方法進行比較,比較結果見表7。在表7中,區(qū)間長度1表示使用本文方法構造的最短置信區(qū)間的長度,區(qū)間長度2表示使用文獻[5]的方法構造的最短置信區(qū)間的長度,等尾置信區(qū)間長度表示傳統方法構造的置信區(qū)間的長度。(注:此處的區(qū)間長度比實際的區(qū)間長度少了倍,表7中的區(qū)間長度比是區(qū)間長度1與等尾置信區(qū)間長度的比值)。
表7 不同方法構造的置信區(qū)間對比
從表7中可以看出,在給定置信水平情況下,三種方法求得的置信區(qū)間長度都是隨著F分布的自由度的增加而減少,這是由于F分布隨著自由度的增加,其密度函數呈現“尖峰薄尾”的形狀,樣本的集中趨勢越來越明顯。
通過對比可以看出,在給定置信水平和自由度情況下,本文計算的最短置信區(qū)間要優(yōu)于文獻[5]中計算的置信區(qū)間,且兩者都遠遠優(yōu)于傳統方法構造的置信區(qū)間。而且,三個置信區(qū)間之間的差別隨著自由度大小的不同存在一定的變化。例如,在0.9置信水平下,當F分布的兩個自由度為4,4時,區(qū)間長度1為4.1041,區(qū)間長度2為4.1163,區(qū)間長度1略優(yōu)于區(qū)間長度2;當F分布的自由度為20,10時,兩者的區(qū)間長度幾乎一樣。在0.9置信水平下,當F分布的兩個自由度為4,4時,區(qū)間長度1為等尾置信區(qū)間長度的65.84%;當F分布的自由度為20,10時,區(qū)間長度1為等尾置信區(qū)間長度的92.04%,兩者之間的差別在縮小,這是由于當F分布的自由度增加時,其密度函數的對稱性越來越明顯,區(qū)間長度1與等尾置信區(qū)間的長度也越來越接近。所以,在小樣本情況下,研究F分布的最短區(qū)間估計是有意義的。
相比于文獻[5]中的方法,本文的方法一方面在精度上優(yōu)于前者(在小樣本情況下比較明顯),另一方面在使用便利程度上也優(yōu)于前者。本文直接構造了F分布的最短置信區(qū)間估計用表,而文獻[5]只給出了F分布的最短置信區(qū)間的左側概率分配值表。
相比于傳統方法,本文的方法不僅在精度上要遠遠優(yōu)于傳統方法,而且在適用面上也要比傳統方法更廣泛。使用傳統方法構造等尾置信區(qū)間時,需要查閱F分布的分位數表,而一般教材提供的都是有限自由度下F分布的分位數表,本文介紹的方法在理論上可以計算任意自由度下的F分布的最短置信區(qū)間,所以其適用面更廣。