王卓健,虞健飛,王禮沅,沈安慰
(1.空軍工程大學(xué)航空航天工程學(xué)院,西安710038;2.北京航空工程技術(shù)研究中心,北京100076)
國內(nèi)生存分析在可靠性數(shù)據(jù)分析中的應(yīng)用進展*
王卓健1,虞健飛2,王禮沅2,沈安慰1
(1.空軍工程大學(xué)航空航天工程學(xué)院,西安710038;2.北京航空工程技術(shù)研究中心,北京100076)
針對可靠性數(shù)據(jù)分析中遇到的小樣本、異總體、刪失和截尾問題,引入現(xiàn)代統(tǒng)計學(xué)的重要分支——生存分析理論,分別從參數(shù)生存分析模型、非參數(shù)生存分析模型和半?yún)?shù)生存分析模型3個方面分析了國內(nèi)生存分析在可靠性數(shù)據(jù)分析中的研究現(xiàn)狀與應(yīng)用進展。
生存分析,可靠性,刪失,截尾,異總體,小樣本
可靠性數(shù)據(jù)分析是通過收集系統(tǒng)或單元產(chǎn)品在研制、試驗、生產(chǎn)和使用中所產(chǎn)生的可靠性數(shù)據(jù),并依據(jù)系統(tǒng)的功能或可靠性結(jié)構(gòu),利用概率統(tǒng)計方法,給出系統(tǒng)各種可靠性數(shù)量指標的定量估計[1],方法論上屬于歸納的范疇。它作為描述、評價產(chǎn)品可靠性的理論方法,隨著可靠性應(yīng)用的逐步發(fā)展,已成為可靠性工程的重要組成部分和基礎(chǔ)性工作,在其產(chǎn)品的全壽命階段均顯示出其重要的價值和作用。
在目前的工程應(yīng)用中,可靠性數(shù)據(jù)分析中面臨著一些新的困難和挑戰(zhàn)。一是由于科學(xué)技術(shù)的進步,航空部件的可靠性越來越高,在一定的時間區(qū)間內(nèi)故障信息樣本越來越少,導(dǎo)致了小樣本問題。二是由于可靠性工程中固有的“試驗-分析-改進(TAAF)”過程的存在,以及系統(tǒng)本身技術(shù)狀態(tài)變化迅速,可靠性數(shù)據(jù)收集來源雜亂,導(dǎo)致了異總體問題。三是在可靠性數(shù)據(jù)收集過程中,觀測對象進入或退出觀察時間的差別,導(dǎo)致了刪失和截尾的問題。因此,可靠性數(shù)據(jù)分析應(yīng)打開思路,借鑒其他學(xué)科的經(jīng)驗與學(xué)術(shù)成果勢在必行。
在醫(yī)學(xué)、生物學(xué)、保險精算學(xué)、經(jīng)濟學(xué)等學(xué)科領(lǐng)域,都存在對某給定事件發(fā)生時間進行估計和預(yù)測的問題。例如,疾病發(fā)生的時間,治療后疾病復(fù)發(fā)的時間,發(fā)行債券的違約時間,被保險人的索賠時間等。而這些問題催生了一門新的學(xué)科,即生存分析。研究事件發(fā)生時間的規(guī)律就是生存分析這門新的學(xué)科所要解決的主要問題。狹義來講,生存分析就是利用統(tǒng)計學(xué)的理論和方法解決與特定事件發(fā)生時間相關(guān)問題的一門學(xué)科,而可靠性的定義在廣義上而言就是與時間相關(guān)的質(zhì)量,因此,從這個角度來說,可靠性數(shù)據(jù)分析正被包含在生存分析學(xué)科之中。正是基于這一認識,國內(nèi)外對生存分析在可靠性中的應(yīng)用研究也日益繁榮,其中有代表性的國內(nèi)學(xué)者有:北京大學(xué)的陳家鼎教授與房祥忠教授,復(fù)旦大學(xué)的鄭祖康教授,華東師范大學(xué)的茆師松教授和湯銀才教授,西北工業(yè)大學(xué)的師義民教授,南京理工大學(xué)的韓玉啟教授,上海大學(xué)的葛廣平教授,上海師范大學(xué)的費鶴良教授,中科院系統(tǒng)所的李國英研究員等。本文將集中在3個方向研究。
參數(shù)生存分析在某些文獻有這種提法,但并無確切的定義。本文認為參數(shù)生存分析與統(tǒng)計學(xué)中的參數(shù)分析相對應(yīng),就對產(chǎn)品的壽命分布類型提前做出特定假設(shè),通過參數(shù)模型的假設(shè)和樣本的結(jié)合做出一定的統(tǒng)計推斷,稱之為參數(shù)生存分析。在經(jīng)典的可靠性工程文獻中,介紹最多同時也較為成熟的就是參數(shù)法。某種意義上,可以說可靠性領(lǐng)域和生存分析等其他學(xué)科領(lǐng)域共同推動了參數(shù)法的發(fā)展。
參數(shù)估計就是利用樣本構(gòu)造出適當?shù)慕y(tǒng)計量來估計總體參數(shù)。對于總體估計有兩種形式,一種是點估計,一種是區(qū)間估計。點估計是由樣本求出未知參數(shù)的一個估計值,區(qū)間估計則要由樣本給出參數(shù)值的一個估計范圍。
文獻[1]對指數(shù)分布情形下各種截尾形式(無替換定數(shù)(定時)截尾,有替換定數(shù)(定時)截尾,定時間隔測試,隨機截尾)的點估計(以極大似然方法為主)和區(qū)間估計分別做了詳細介紹。文獻[2]對威布爾分布、正態(tài)分布和對數(shù)正態(tài)分布的點估計和區(qū)間估計也做了相應(yīng)介紹,其相應(yīng)的方法在具體的可靠性工程上應(yīng)用較為成熟。
極大似然法是計算點估計的重要方法,也是一種有統(tǒng)計特色的思想方法。目前研究的熱點主要集中在數(shù)據(jù)缺失機制下的極大似然估計。彭非和王偉在理論上討論了含有隨機右刪失數(shù)據(jù)且在刪失值遺漏的情況下,指數(shù)分布的極大似然函數(shù)[3]。北京大學(xué)的陳家鼎從理論上主要討論了似然函數(shù)與最大似然估計的存在性,(n,r,T)型方案與隨機右截尾下的極大似然估計,分組數(shù)據(jù)情形下的極大似然估計等理論問題[2]。程從華提出了基于循序-Ⅰ型刪失數(shù)據(jù)的極大似然估計的新方法(主要針對指數(shù)分布和威布爾分布),并通過數(shù)值模擬研究說明了其方法的有效性[4]。
在算法的研究上,Dempster等人1977年提出的在不完全數(shù)據(jù)情況下計算極大似然估計的迭代算法[5],它可以很好地解決不完全數(shù)據(jù)情況下的統(tǒng)計分析問題。該算法強調(diào)迭代的兩個步驟,即E步(Expectation Step,期望步)和M步(Maximum likelihood Step,極大似然步),并且要求在E步和M步之間不斷迭代直到收斂為止,這種算法簡稱為EM算法。EM算法的優(yōu)勢在于它在一定的意義下可靠地收斂到局部最大,也就是說在一般條件下每次迭代都增加似然函數(shù)值,當似然函數(shù)值有界時,迭代序列收斂到一個穩(wěn)定值的上確界。EM算法的缺點是當缺失數(shù)據(jù)比例較大時,收斂比率極其緩慢[6]。EM算法經(jīng)過多年的發(fā)展,出現(xiàn)了較多的改進算法,具體情況可參閱文獻[6]。北京強度環(huán)境研究所的李海波(2009)將參數(shù)的極大似然估計對火箭發(fā)動機試車數(shù)據(jù)進行了可靠性評估分析[7],并取得了較好的結(jié)果。四川大學(xué)的吳耀國(2005)將EM算法用于隨機右刪失數(shù)據(jù)下指數(shù)分布、威布爾分布和對數(shù)正態(tài)分布的參數(shù)估計,并作了相應(yīng)的計算機模擬[8]。安徽大學(xué)的官飛討論了在數(shù)據(jù)隨機刪失和數(shù)據(jù)分組與右刪失兩種情形下指數(shù)分布的參數(shù)估計問題,并用EM算法對參數(shù)進行了估計[9]。目前主要的問題是大量的研究主要集中在指數(shù)和威布爾分布,其他類型分布研究較少,其有效性也難以知曉。
極大似然估計的優(yōu)點是適用面廣,不足之處是有時似然函數(shù)比較復(fù)雜,求最大值點在技術(shù)上遇到了困難,有時連最大值點的存在性也難以判斷,另一方面,在小樣本情形下極大似然估計也不一定最優(yōu)。因此,在點方法的選用上還有線性估計和矩法,這方面的研究主要針對的是位置-刻度分布族??紤]位置-刻度分布族的好處在于對定數(shù)截尾情形下的數(shù)據(jù)可用線性模型的知識進行參數(shù)估計;對定時截尾情形下的數(shù)據(jù)可用矩法進行參數(shù)估計[1]。文獻[1]從理論上主要討論了定數(shù)截尾下的最好線性無偏估計(BLUE)與最好線性不變估計(BLLE),定時截尾的矩估計等。
參數(shù)的區(qū)間估計就是由樣本給出參數(shù)的估計范圍,并使未知參數(shù)在其中具有指定的概率。一般而言,常用的區(qū)間估計方法有樞軸量方法,假設(shè)檢驗方法,樣本空間排序法等。目前大多數(shù)文獻集中在樞軸量方法和假設(shè)檢驗方法。胡思貴討論了指數(shù)分布區(qū)間型刪失數(shù)據(jù)下的可靠度最優(yōu)置信下限的估計問題[10]。董巖討論了對數(shù)正態(tài)型元件貯備系統(tǒng)可靠性的置信下限問題,并在小樣本下通過數(shù)值比較研究了Fiducial置信下限和Bayes置信下限的覆蓋率性質(zhì)[11]。吳和成基于元件的定數(shù)截尾壽命試驗數(shù)據(jù),給出了單個貯備系統(tǒng)、兩貯備系統(tǒng)組成的串聯(lián)系統(tǒng)的可靠性的置信下限[12]。盛驟考慮由3個獨立工作的成敗型元件組成的串聯(lián)系統(tǒng),利用隱蔽的系統(tǒng)壽命試驗數(shù)據(jù),用廣義似然比檢驗求出元件可靠性的區(qū)間估計[13]。郭維長利用經(jīng)典的區(qū)間估計方法,計算了液體發(fā)動機的熱試車壽命數(shù)據(jù)的可靠性置信下限,有一定的工程意義[14]。石春華對成敗型串聯(lián)系統(tǒng)可靠性近似置信下限較為系統(tǒng)的介紹[15]。陳文華將Bootstrap估計方法引入到可靠性統(tǒng)計分析,提出了可靠性參數(shù)和特征量的Bootstrap區(qū)間估計方法,同時,通過對Bootstrap估計值進行糾偏處理,解決了小樣本條件下Bootstrap區(qū)間估計的精度問題[16]。王智明在其博士論文中將模擬抽樣方法擴充樣本容量,并將其應(yīng)用到機床可靠性區(qū)間估計上,有效減少了區(qū)間長度[17]。
在處理現(xiàn)場數(shù)據(jù)時,故障數(shù)據(jù)往往找不到一個合適的分布來模擬,此時使用非參數(shù)方法是比較有效的[3]。對刪失數(shù)據(jù)的處理,將生存分析理論中對于存在刪失數(shù)據(jù)的處理方法引入可靠性數(shù)據(jù)分析。為了估計航空產(chǎn)品的可靠度,常用的非參數(shù)估計方法主要分為三類。第一類是針對隨機右刪失數(shù)據(jù)下的點估計,這也是可靠性估計中最常見的類型,主要方法有平均秩次法、殘存比率法、Kaplan-Meier估計、Nelson-Aalen估計、Herd-Johnson估計等。第二類是針對同時存在左截尾與右刪失數(shù)據(jù)時,對其可靠度函數(shù)的估計方法主要有特恩伯估計、修正乘積限估計等。第三類主要是針對只知道產(chǎn)品在哪個區(qū)間內(nèi)發(fā)生故障或者右刪失,不必知道準確的故障時間或右刪失時刻,對其可靠度函數(shù)的估計方法主要是壽命表法。
平均秩次法主要是利用平均秩或中位秩公式計算經(jīng)驗分布函數(shù)。因為平均秩次法計算的簡便性及適用于樣本量較小的情形,在工程實際中大量使用。于曉紅應(yīng)用平均秩次法對30臺發(fā)動機的壽命數(shù)據(jù)計算了經(jīng)驗分布函數(shù),然后利用最小二乘法對威布爾分布進行了參數(shù)估計[18]。方華元提出了一種平均秩次法的改進方法,并應(yīng)用到了某導(dǎo)彈部件的可靠性評估中,但其有效性還需探討[19]。申桂香利用平均秩次法計算了數(shù)控機床的經(jīng)驗分布函數(shù)[20]。殘存比率法是以條件概率公式為基礎(chǔ),適用于樣本量較大情況,在國內(nèi)應(yīng)用也較為廣泛。在文獻[1]中詳細地介紹此種方法并舉出實例。焦育潔應(yīng)用殘存比率法對航空發(fā)動機主軸軸承的壽命評估[21]。乘積限估計要求數(shù)據(jù)全部的壽終數(shù)據(jù)和右刪失數(shù)據(jù)都是確切知道的,不能有區(qū)間型數(shù)據(jù),可以估計可靠度函數(shù),此方法在數(shù)學(xué)理論上已經(jīng)有大量的探討[22-24]。文昌俊把殘次比率法,乘積限估計,累積風(fēng)險函數(shù)法,平均秩次法逐一進行了介紹[25]。
特恩伯方法對一組數(shù)據(jù)既包含壽終數(shù)據(jù)和右刪失數(shù)據(jù),又包含有左刪失數(shù)據(jù)的可靠度函數(shù)給出了估計方法[2]。但是此種方法在可靠性工程上的應(yīng)用文獻國內(nèi)幾乎沒有。
在系統(tǒng)可靠性試驗的許多場合,需要確定產(chǎn)品壽命與某些主要伴隨變量之間的關(guān)系??疾爝@種關(guān)系的方法之一就是建立回歸模型,在回歸中使產(chǎn)品的壽命分布依賴于某些伴隨變量,該方法稱為半?yún)?shù)生存分析。半?yún)?shù)法與非參數(shù)法相比,有較強的實際背景。同時和參數(shù)法相比,有較強的穩(wěn)健性。
比例危險率模型(Cox模型)是一類非常重要的廣義半?yún)⒛P?,在可靠性分析領(lǐng)域有著非常廣泛的應(yīng)用。Cox于20世紀70年代提出這個估計,認為該模型包含有大部分協(xié)變量參數(shù)β的信息,對他的估計量的合理性進行了辯解,但沒有給出具體證明,因此,很多人對此持懷疑態(tài)度。后來經(jīng)過一些統(tǒng)計學(xué)家的深入研究,并證明得出,在一些限制條件下,Cox估計具有相合性,即樣本量充分大時,估計值與真值相差可任意小。文獻[3]用兩章的內(nèi)容介紹了比例危險模型,討論了回歸分析要解決的典型問題,即從總體上對β的推斷,然后對其改進模型——分層比例危險模型進行詳細的介紹,并舉例說明該模型的應(yīng)用。文獻[1]也用了大量的篇幅進行分組數(shù)據(jù)與非分組數(shù)據(jù)下的詳細推導(dǎo)。文獻[27]基于逐步增加Ⅱ型截尾樣本,分別在均方損失和Linex損失下,利用ML–II方法研究了比例危險率模型的參數(shù)和可靠性指標的經(jīng)驗Bayes估計問題。
加法危險回歸模型是半?yún)?shù)生存分析中另一種類型。與比例危險模型不同,加法危險模型主要是假設(shè)這種半?yún)?shù)協(xié)變量以線性組合的方式對維修類產(chǎn)生影響。文獻[3]在該模型下討論了協(xié)變量參數(shù)不隨時間變化情況下的參數(shù)估計與假設(shè)檢驗問題,并給出了基于該模型的生存函數(shù)估計表達式。對于該方法的研究目前在國內(nèi)可靠性領(lǐng)域的應(yīng)用不多。
半?yún)?shù)模型中的貝葉斯生存分析模型近年來在國內(nèi)研究較多。在以往研究中所構(gòu)建的貝葉斯參數(shù)回歸模型大都依賴于對模型參數(shù)先驗信息的認知(包括產(chǎn)品壽命分布形式及其參數(shù)的先驗,以及回歸系數(shù)的先驗);然而,當先驗信息不足時,貝葉斯參數(shù)回歸模型估計的穩(wěn)健性欠佳。利用半?yún)?shù)先驗方法進行建模分析時,僅需對模型作較少的前提假設(shè),因此,向來為貝葉斯學(xué)者所關(guān)注。文獻[28]利用半?yún)?shù)貝葉斯生存分析方法進行建模分析,僅需對模型作較少的前提假設(shè),使得在先驗信息不足的情況下更準確地評估出回歸模型中伴隨變量對系統(tǒng)壽命分布的影響。
其他方面的研究還有:文獻[29]首先把擬似然估計方法引入到半?yún)?shù)模型的估計中來,研究了線性半?yún)?shù)模型和非線性半?yún)?shù)模型的參數(shù)估計。文獻[2]還對半?yún)?shù)生存分析中的位置刻度模型分別進行分布參數(shù)已知和分布參數(shù)未知時的詳細推導(dǎo)。
目前,在評估可靠性現(xiàn)場數(shù)據(jù)的工程實際應(yīng)用中,小樣本、隨機刪失、異總體等問題不斷出現(xiàn),引入統(tǒng)計學(xué)的重要分支——生存分析理論來解決可靠性評估的實際問題是目前的研究熱點。參數(shù)生存分析是生存分析學(xué)科中最古老也是最經(jīng)典的分析方法,目前,統(tǒng)計學(xué)者與可靠性專家還在非參數(shù)與半?yún)?shù)生存分析理論等方面進行不斷地探索。本文在研究前人工作的基礎(chǔ)上,介紹了近年來可靠性與生存分析領(lǐng)域的最新研究進展情況,希望能夠為生存分析理論在可靠性評估領(lǐng)域有更深入廣泛的應(yīng)用。
[1]趙宇.可靠性數(shù)據(jù)分析[M].北京:國防工業(yè)出版社,2011.
[2]陳家鼎.生存分析與可靠性[M].北京:北京大學(xué)出版社,2005.
[3]彭非,王偉.生存分析[M].北京:中國人民大學(xué)出版社,2004.
[4]程從華.生存分析中刪失數(shù)據(jù)統(tǒng)計推斷及其應(yīng)用[D].蘭州:蘭州大學(xué),2011.
[5]Dempster A P,Laird N M,Rudin D B.Maximum Likelihood From Incomplete Data Via the EM Algorithm[J].J.Roy. Statist.Soc,1977(39):1-38.
[6]林鴻.EM算法的改進及其在基因序列分析中的作用[D].福州:福州大學(xué),2011.
[7]李海波,張正平,胡彥平.基于隨機截尾數(shù)據(jù)下Weibulll分布的參數(shù)極大似然估計與應(yīng)用[J].強度與環(huán)境,2009,36(4):60-64.
[8]吳耀國.隨機刪失數(shù)據(jù)下基于EM算法的Weibull分布參數(shù)估計[J].四川大學(xué)學(xué)報(自然科學(xué)版),2005,42(5): 910-913.
[9]官飛,王峰,賈寶瑞.兩種刪失數(shù)據(jù)情形下基于EM算法的指數(shù)分布的參數(shù)估計[J].巢湖學(xué)院學(xué)報,2010,12(3): 1-4.
[10]胡思貴,趙明.指數(shù)分布區(qū)間型刪失數(shù)據(jù)的可靠度最優(yōu)置信下限[J].貴州大學(xué)學(xué)報,2007,24(6):571-574.
[11]董巖.對數(shù)正態(tài)型元件貯備系統(tǒng)可靠性的置信下限[J].工程數(shù)學(xué)學(xué)報,2009,26(5):845-854.
[12]吳和成,劉成峰.基于不確定數(shù)據(jù)指數(shù)型產(chǎn)品貯存可靠性的置信下限[J].中國機械工程,2006,17(22): 2330-2332.
[13]盛驟.基于隱蔽的系統(tǒng)成敗型數(shù)據(jù)的元件可靠性的極大似然估計和區(qū)間估計[J].工程數(shù)學(xué)學(xué)報,1999,16(4): 107-109.
[14]郭維長.威布爾分布的參數(shù)估計和可靠性置信下限近似解[J].航天器工程,2006,15(1):14-17.
[15]石春華.成敗型串聯(lián)系統(tǒng)可靠性近似置信下限[D].南京:河海大學(xué),2005.
[16]陳文華,陳奇志,張為鄂.產(chǎn)品可靠性的Bootstrap區(qū)間估計方法[J].機械工程學(xué)報,2003,39(6):106-109.
[17]王智明.數(shù)控機床的可靠性評估與不完全預(yù)防維修及其應(yīng)用[D].上海:上海交通大學(xué),2011.
[18]于曉紅,張來斌,王朝輝,等.基于新的威布爾分布參數(shù)估計法的設(shè)備壽命可靠性分析[J].機械強度,2007,29(6):932-936.
[19]方華元,胡昌華.提高可靠性數(shù)據(jù)分析精度的一種有效方法[J].電光與控制,2006,13(1):78-80.
[20]申桂香,陳炳錕,張英芝,等.基于墑值-模糊綜合評判的可靠性模型優(yōu)選[J].吉林大學(xué)學(xué)報,2008,38(2): 117-121.
[21]焦育杰.航空發(fā)動機主軸軸承可靠性技術(shù)研究[D].合肥:合肥工業(yè)大學(xué),2004.
[22]Michael G P,Kailash C K,康銳,等.可靠性工程基礎(chǔ)[M].北京:電子工業(yè)出版社,2011.
[23]周勇,吳長鳳.隨機左截斷數(shù)據(jù)下乘積限估計的強逼近及其應(yīng)用[J].應(yīng)用數(shù)學(xué)學(xué)報,1999,22(4):614-620.
[24]左國新.隨機右刪失下核光滑乘積限估計的大樣本性質(zhì)[J].華中師范大學(xué)學(xué)報,1999,33(4):491-494.
[25]文昌俊,鐘毓華,劉文超.現(xiàn)場數(shù)據(jù)可靠性分析非參數(shù)方法比較[J].湖北工學(xué)院學(xué)報,2002,17(4):31-33.
[26]梁薇.右刪失數(shù)據(jù)與經(jīng)驗似然方法[D].北京:北京大學(xué),2011.
[27]王亮,師義民.逐步增加II型截尾下比例危險率模型的可靠性分析[J].數(shù)理統(tǒng)計與管理,2011,30(2):315-321.
[28]林靜.基于MCMC的貝葉斯生存分析理論及其在可靠性評估中的應(yīng)用[D].南京:南京理工大學(xué),2008.
[29]郭新翠.半?yún)?shù)回歸模型的估計方法和模擬分析[D].長沙:中南大學(xué),2007.
Domestic Application Progress of Survival Analysis in Reliability Data Analysis Region
WANG Zhuo-jian1,YU Jian-fei2,WANG Li-yuan2,SHEN An-wei1
(1.Aeronautics Engineering College,Air Force Engineering University,Xi’an 710038,China;
2.Beijing Research Center of Aeronautic Engineering Technology,Beijing 100076,China)
In terms of the problem of small samples,diverse population,censoring and truncation issues for reliability data analysis,the theory of survival analysis is been introduced which using the parametric survival analysis model,non-parametric survival analysis model and semi-parametric survival analysis model.The theory of survival analysis analyses the domestic research status and the application progress of survival analysis in reliability data analysis region.
survival analysis,reliability,censoring,truncation,diverse population,small sample
V37
A
1002-0640(2015)01-0001-04
2013-11-05
2014-01-07
國家部委基金(513270303);陜西省軟科學(xué)技術(shù)資助項目(2011KRM122)
王卓?。?974-),男,湖北公安人,副教授。研究方向:飛行器發(fā)展論證與RMS工程。