侯瑞環(huán), 王 沁, 李裕奇
(1. 塔里木大學 信息工程學院, 新疆 阿拉爾 843300; 2. 西南交通大學 數(shù)學學院, 四川 成都 610031)
?
含輔助信息的最小非參似然比估計和檢驗
侯瑞環(huán)1,2,王沁2,李裕奇2
(1. 塔里木大學 信息工程學院, 新疆 阿拉爾 843300;2. 西南交通大學 數(shù)學學院, 四川 成都 610031)
摘要:當前,擬合優(yōu)度檢驗已經(jīng)比較完善,但仍存在對總體分布已有信息利用不足或者直接丟掉這部分信息的問題.為了實現(xiàn)對已有信息的充分利用,首先借助經(jīng)驗似然的思想與最小非參似然比統(tǒng)計量的形式,給出含輔助信息的最小非參似然比統(tǒng)計量;然后利用最小非參似然比估計與檢驗性質的研究方法,得到含輔助信息的最小非參似然比估計量,并考察檢驗統(tǒng)計量的相合性、穩(wěn)健性,同時得到其在復合零假設下的極限分布.這些結論在一定程度上可以豐富和完善擬合優(yōu)度檢驗與非參數(shù)估計的一些理論.
關鍵詞:經(jīng)驗似然; 輔助信息; 非參數(shù)似然比; 經(jīng)驗分布
在實際數(shù)據(jù)處理過程中,通常所抽取的樣本都是來自未知總體,然后再根據(jù)所得數(shù)據(jù)對總體做出推斷.這里面主要有2個問題:估計和推斷.從已知分布入手解決這一問題,是統(tǒng)計學界長期關注與研究的課題之一.然而,要解決這類問題的關鍵要知道這組數(shù)據(jù)的分布或者分布族,也就是統(tǒng)計中的擬合優(yōu)度檢驗問題.對于來自未知總體F的獨立同分布樣本X1,…,Xn,擬合優(yōu)度檢驗一般考慮如下2種問題的檢驗:
(1)
(2)
其中,F0是已知的分布函數(shù),Fθ={Fθ:θ∈Θ}是一個含有未知參數(shù)的分布族.
對(1)式的檢驗,當屬KarlPearson在1900年提出的χ2檢驗,經(jīng)過多年的發(fā)展,χ2型檢驗理論已經(jīng)相當之完善,又因計算簡單,時至今日,χ2型檢驗[1-2]仍然是統(tǒng)計應用中較為廣泛的檢驗之一.但是,χ2型檢驗卻有著“先天”的不足之處,為了彌補這一不足,人們提出了基于經(jīng)驗分布(EDF)的檢驗,EDF型檢驗主要有20世紀20—30年代提出的CV和KS統(tǒng)計量.到20世紀50年代,Anderson和Darling提出AD統(tǒng)計量及加權CV和KS統(tǒng)計量;20世紀70年代末,由R.H.Berk等[3]提出了似然比統(tǒng)計量;進入21世紀以來,又先后有了EM統(tǒng)計量和修正的BJn統(tǒng)計量BWn.隨后,文獻[4-7]分別從不同研究角度給出了上界型統(tǒng)計量和積分型統(tǒng)計量.對問題(2)的研究主要集中于2種途徑:一是先對未知參數(shù)做出相應估計,再利用已有的檢驗方法做檢驗;另一種則是對一些特殊分布,利用充分統(tǒng)計量,給出條件積分變換,由于對分布有一定的要求,以至于在實際應用中不具有普遍性.由前述發(fā)現(xiàn),不論哪種方法,除了檢驗統(tǒng)計量本身好壞之外,參數(shù)估計好壞直接影響著檢驗的好壞,經(jīng)典的參數(shù)估計有極大似然估計和最小距離估計,由于常見分布的參數(shù)極大似然估計計算容易,故其應用相當廣泛;最小距離估計在上世紀得到了相應的研究,因為其計算較為繁瑣,所得估計收斂速度較慢,但應用并不廣泛,直到進入20世紀,最小距離估計又得到了重視.然而這些統(tǒng)計量都無法更好地滿足人們的研究需求,所以近些年又出現(xiàn)了非參數(shù)似然比擬合優(yōu)度檢驗統(tǒng)計量及最小非參數(shù)似然比擬合優(yōu)度檢驗統(tǒng)計量.在實際應用中抽取樣本時往往會得到一些關于總體分布的輔助信息,為了能夠將這些信息加以有效利用,本文利用這2種統(tǒng)計量研究的思想與方法,給出含輔助信息的最小非參數(shù)似然比統(tǒng)計量,并從理論上對其估計和檢驗的相關性質及統(tǒng)計量的極限分布進行研究,得到相應結果.
1預備知識
1.1統(tǒng)計量提出
定義 1.1設X1,X2,…,Xn是來自于未知總體F的獨立同分布樣本,假設已有一些與總體相關的輔助信息,也就是存在r(r≥1)個函數(shù)g1(x),g2(x),…,gr(x)使得
EFg(X)=0,
這里g(X)=(g1(x),g2(x),…,gr(x))T.上述以定義的方式給出輔助信息,具體與輔助信息有關內容見文獻[8-10].
定義 1.2假設G為任意分布函數(shù),對應的上界型非參似然比統(tǒng)計量為
(3)
(4)
當G=Fn時,T(G)就是最小非參似然比估計;
1.2存在性證明
則BJG(θ)關于θ∈Θ1連續(xù),且滿足(4)式的T(G)所組成的集合為緊致的非空子集.
由條件(I)和(II)可知結論成立.
2含輔助信息最小非參統(tǒng)計量性質研究
統(tǒng)計量估計的相合性:
可知,當n→∞時有
當且僅當不含輔助信息,即g(Xi)=0時等號成立,
定理 2.1假設T(G)的值唯一,對于任意θ∈Θ1有
統(tǒng)計量估計[14]的穩(wěn)健性:
定理 2.2假定對任一x∈R,F(x,θ)關于θ的二階導數(shù)存在且連續(xù),BJG(θ)關于θ的某個領域內二階可微,并且二階偏導數(shù)矩陣連續(xù)可逆,則在T(G)處的響應函數(shù)為
(5)
其中,θ=T(G)∈Θ1,Δx為在x退化分布,P(G)為BJG(θ)在θ處的二階偏導數(shù)矩陣,即
含有輔助信息最小非參似然比檢驗統(tǒng)計量的極限分布:
引理 2.2假設對θ0的每一個鄰域Ω,存在某一正常數(shù)C,使得當θ?Ω時,對任意正δ有
成立,且對θ0的每一個鄰域Ω,當n→∞時有
(6)
從而當n→∞時有
(7)
所以有
定理 2.3假設F(x,θ)在θ0處可微,且存在一個常數(shù)C,使得任意θ∈Rm(m為參數(shù)的維數(shù))有
且
則在引理2.2條件下有
與
有相同的極限分布.由此可知含有輔助信息最小非參似然比檢驗統(tǒng)計量的極限分布存在,可以按兩部分理解:第一部分由于含輔助信息經(jīng)驗似然分布函數(shù)所導致的極限分布;另一部分為參數(shù)估計所引起的偏差部分.
3結語
至此,估計量T(G)的解是存在的,并且含輔助信息的最小非參似然比估計弱相合.另外影響估計穩(wěn)健性的因素是AG(△x):當|AG(△x)|有界時,估計是穩(wěn)健的;當|AG(△x)|無界時,一般得不到穩(wěn)健估計.這里的AG(△x)與分布函數(shù)有關,因此要想得到穩(wěn)健的估計,則必須考慮分布族.并從理論上證明了含輔助信息的非參似然比檢驗的極限分布是存在的,并且其與含輔助信息經(jīng)驗似然分布函數(shù)和參數(shù)估計所引起偏差兩部分有關.
定理2.1證明由含輔助信息的最小非參似然比估計
在此處,首先得說明
然而
由文獻[15]定理2.15容易得到
再結合定理條件2.1與引理2.1知
這與T(G)的唯一性相互矛盾,因此所有子序列均依概率收斂到.
定理2.2證明因為
所以
其中▽BJG(θ)表示BJG關于θ的一階偏導向量.
假設對于任意ε>0,Gε(t)=(1-ε)G(t)+ε△x(t),故而
綜上可以得到
又因為
其中θ1介于T(Gε)與T(G)之間.
其中,▽2BJG(θ)表示BJG關于θ的二階偏導矩陣,從而T在G處的影響函數(shù)為
定理2.3證明因為
對logF(x,θ)在F(x,θ0)處Taylor展開
類似的也可以對log(1-F(x,θ))在F(x,θ0)展開
所以將上述2式代入下式有
又因為有
所以
故而由定理2.3的條件與引理2.2及類似于文獻[16]的結論得到結果.
參考文獻
[1] 陳希孺,方兆本,李國英,等. 非參數(shù)統(tǒng)計[M]. 合肥:中國科學技術大學出版社,2012.
[2] 李裕奇,趙聯(lián)文,王沁,等. 非參數(shù)統(tǒng)計方法[M]. 成都:西南交通大學出版社,2010.
[3] BERK R H, JONES D H. Goodness-of-fit statistics that dominate the Kolmogorov statistics[J]. Z Wahrsch-Verw Gebiete,1979,47:47-59.
[4] ZHANG J. Power full goodness-of-fit tests on the likelihood ratio[J]. J Royal Statistical Society Soc,2002,B64(2):281-294.
[5] 張軍艦,楊振海,程維虎. 擬合優(yōu)度檢驗[M]. 北京:科學出版社,2010.
[6] 張軍艦,李國英. 上界型擬合優(yōu)度檢驗[J]. 數(shù)學物理學報,2010(2):344-357.
[7] JAGER L, WELLNER J A. A New Goodness of Fit Test:the Reversed Berk-Jones Statistic[M]. Seattle:University of Washington,2004:1-21.
[8] ZHANG B. M-estimation and quantile estimation in the presence of auxiliary information[J]. J Statistical Planning and Inference,1995,44:77-94.
[9] ZHANG B. Confidence intervals for a distribution function in the presence of auxiliary information [J]. Comput Statistics Data Analysis,1996,21:327-342.
[10] FENG L X, LI R. Smoothed empirical likelihood confidence intervals for quantile regression parameters with auxiliary information[J]. Statistical Methodology,2013,15:46-54.
[11] OWEN A B. Empirical likelihood ratio confidence intervals for a single function[J]. Biometrika,1988,75(2):237-249.
[12] OWEN A B. Non parametric Likelihood Confidence Bands for a Distribution Function[J]. J Am Statistical Association,1995,90:516-521.
[13] 林正炎,陸傳榮,蘇中根. 概率極限理論基礎[M]. 北京:高等教育出版社,1999.
[14] 許寶,姜玉秋,藤飛. 一種加權對稱損失函數(shù)下一類指數(shù)分布模型參數(shù)的估計[J]. 四川師范大學學報(自然科學版),2011,34(4):484-487.
[15] 張軍艦. 廣義非參似然比擬合優(yōu)度檢驗[D]. 北京:中國科學院,2006.
[16] POLLARD D. The minimum distance method of testing[J]. Metrikea,1980,27:43-70.
2010 MSC:62G86
(編輯鄭月蓉)
Minimum Non-Parametric Likelihood Ratio Estimation and Testing in the Presence of Auxiliary Information
HOU Ruihuan1,2,WANG Qin2,LI Yuqi2
(1.CollegeInformationEngineering,TarimUniversity,Alar843300,Xinjiang;2.SchoolofMathematics,SouthwestJiaotongUniversity,Chengdu610031,Sichuan)
Abstract:Currently, though the goodness of fit test is already fairly complete, there are still existing some outstanding problems, which will be lack of existing information or losing partly information directly during estimating the distribution. In order to achieve full utilization of existing information, first of all, with the idea of empirical likelihood and the form of minimum non-parametric likelihood ratio statistic, the paper gives the minimum nonparametric likelihood ratio statistic with the presence of auxiliary information. Then, using a minimum non-parametric likelihood ratio estimation and testing methods, the minimum nonparametric likelihood ratio estimator with the presence of auxiliary information is obtained. At last, the feature of consistency and robustness are studied, at the same time, the limit distribution in composite null hypothesis is got. To some extent, these conclusions can enrich and improve the theories of goodness testing and the nonparametric estimation.
Key words:empirical likelihood; auxiliary information; nonparametric likelihood ratio; empirical distribution
doi:10.3969/j.issn.1001-8395.2016.01.010
中圖分類號:O212.7
文獻標志碼:A
文章編號:1001-8395(2016)01-0059-06
*通信作者簡介:王沁(1973—),女,副教授,主要從事應用、經(jīng)濟統(tǒng)計、管理科學與工程的研究,E-mail:wangqin@home.swjtu.edu.cn
基金項目:中央高?;究蒲袠I(yè)務費專項資金(SWJTU11CX155)
收稿日期:2014-03-24