潘海燕 孔丹莉 胡利人 于海兵 丁元林
多狀態(tài)隱Markov統(tǒng)計模型的基本原理及其應(yīng)用
潘海燕 孔丹莉 胡利人 于海兵 丁元林
隱馬爾可夫模型;慢性病學;語音識別;生物信息學;人臉識別
隱馬爾可夫模型(hidden Markov model,HMM )是一類統(tǒng)計模型,經(jīng)典理論于20世紀60年代末70年代初由L.E.Baum等提出,20世紀70年代中期開始應(yīng)用于語音識別領(lǐng)域。目前被廣泛應(yīng)用于基因關(guān)聯(lián)分析和基因識別、圖像識別、孤立詞識別和目標跟蹤等方面。本文對 HMM基本原理和目前應(yīng)用現(xiàn)狀進行綜述,旨在為HMM的深入探討提供參考。
馬爾可夫在1906-1912年間,提出并研究了一種能用數(shù)學分析方法研究自然過程的一般圖式-馬爾可夫鏈(Markov Chain)。其研究方法和重要發(fā)現(xiàn)推動了概率論的發(fā)展,特別是促進了概率論信分支-隨機過程論的發(fā)展。所以從某種程度上說隨機過程又叫作馬爾可夫過程(Markov Process)HMM是馬爾可夫模型(Markov model)的進一步發(fā)展。該模型認為模型的狀態(tài)是不可觀測的(這便是“隱”得名的由來),可以觀測到的只是在這些狀態(tài)下的各種表現(xiàn)形式。例如,睡眠的按階段分為清醒期、快速眼動期、S1、S2、S3、S4這6個期,它們便是“狀態(tài)”;可以觀測到的則是在這些狀態(tài)下的各種生理參數(shù)表現(xiàn),例如在腦電圖上的表現(xiàn)[1]。HMM是一種雙重隨機模型[2],它由兩個相互關(guān)聯(lián)的隨機過程組成,其一是隱蔽有限狀態(tài)的Markov鏈,另一個是與Markov鏈的每一個狀態(tài)相關(guān)的觀察結(jié)果的隨機過程[3]。觀察到的事件與狀態(tài)并不是一一對應(yīng),而是通過一組概率分布相聯(lián)系。
研究 HMM需要解決三個問題:學習問題、識別問題和解碼問題,對這三個問題的回答構(gòu)成了HMM理論。對HMM的基本原理主要從參數(shù)估計和假設(shè)檢驗兩個方面闡述。
1.1參數(shù)估計
HMM的基本要素用模型五元組λ=(N,M,π,A,B)簡單描述,或簡寫為 λ=(π,A,B)。N表示狀態(tài)數(shù)目,M表示每個狀態(tài)可能的觀察值數(shù)目,A表示與時間無關(guān)的狀態(tài)轉(zhuǎn)移概率矩陣,B表示給定狀態(tài)下觀察值概率的分布,π表示初始狀態(tài)下的概率分布。HMM需要估計如下三個主要參數(shù)[2]。
②觀察概率bj(k)=Pr[uk(sj)],表示在狀態(tài)sj下產(chǎn)生觀察值uk的概率。如果共有M種可能的觀察值,則bj(k)可用M×N矩陣B。表示如下:
③初始狀態(tài)概率,指初始狀態(tài)q1究竟取S=[s1,s2,…,sN]中哪一個的概率。它組成1×N矢量π:
估計以上主要三個參數(shù)通常采用前向法、后向法[4]、韋特比法[5]及Baum-Welch法[6]四種計算方法。
1.2 假設(shè)檢驗具體模型參數(shù)的假設(shè)檢驗我們可以采用最大似然比法,最大限度地估計某個觀察值出現(xiàn)的概率OW。給定某個狀態(tài)中HMM參數(shù)為λW,則可采用式(8)估計某個觀察值出現(xiàn)的最大似然概率:
一般情況下,在某一時間只考慮某一個狀態(tài)的觀察值,因此可將上式中的“w”去掉,最大似然概率估計公式可簡化為:
2.1語音識別
語音識別技術(shù)是信息社會朝著智能化和自動化方向發(fā)展的關(guān)鍵技術(shù)之一,具有重要的研究意義和實用價值[7]。HMM自20世紀70年代中期由Jenik等應(yīng)用到語音識別中,它提供了一種用統(tǒng)計方法訓練模型的框架,反應(yīng)了語音的統(tǒng)計特性。80年代以來,逐漸成為語音識別,特別是大詞匯、連續(xù)音、非特定人的語音識別技術(shù)的主流。被公認為語音識別中最矚目、最有效的技術(shù)之一[8]。
20世紀 90年代初,國內(nèi)謝錦輝等人翻譯了HMM一書,系統(tǒng)闡述了HMM的原理、種類、在語音分析中應(yīng)用、與神經(jīng)網(wǎng)絡(luò)的關(guān)系等等,并且初步探討將其應(yīng)用于語音分析及相應(yīng)改進方法。自此,HMM在中國開始廣泛應(yīng)用和研究,成為計算機智能等相關(guān)專業(yè)的研究熱點。1990年由丁紀凱[9]較早的應(yīng)用于孤立詞的識別,1991年吳建雄[10]等人討論了HMM在韻母識別中的應(yīng)用,林道發(fā)[11]用矢量量化和HMM實現(xiàn)英語話句的識別。之后的10年間國內(nèi)各個計算機研究所和智能化中心相繼展開 HMM在語音識別中各個方面的研究,其應(yīng)用領(lǐng)域和計算方法等得到了較大的拓展。并得到國家、省級等各種基金的大力贊助支持。目前以清化大學計算機智能研究中心為主要代表,對HMM進行大量的研究工作。浙江大學計算機智能研究中心等亦對此研究比較成熟。
2.2生物信息學
1989年Churchill[12]將HMM引入計算生物學。計算機生物信息學是伴隨著人類基因組計劃實施產(chǎn)生的一個新興學科,隱馬爾可夫模型就是這門學科中最突出的技術(shù)之一。目前 HMM 是生物信息學中應(yīng)用比較廣泛的一種統(tǒng)計方法,在生物統(tǒng)計、基因關(guān)聯(lián)分析、基因識別等方面都得到了成功的應(yīng)用[13-17]。
HMM在生物信息學研究中的新領(lǐng)域是其在蛋白質(zhì)序列分析中的研究。西安交通大學吳曉明等[18]用 HMM分析基因蛋白序列,認為編碼蛋白質(zhì)的原始DNA序列在生物進化過程中,會受到自然環(huán)境和各種因素的影響,使翻譯出的蛋白質(zhì)序列歷經(jīng)突變,遺失,或引入外源程序等變化,最后按不同的進化路徑分化,形成多種功能相近的蛋白質(zhì)。因此可以把這些蛋白質(zhì)看成由一個基本蛋白質(zhì)序列經(jīng)過插入、刪除或替換了某些氨基酸殘基而形成的。這個過程可以用HMM來表示。
2.3人臉識別
人臉識別在身份識別、安全驗證、高級視頻監(jiān)控和智能人機交互系統(tǒng)等方面的巨大應(yīng)用前景和很好的社會經(jīng)濟效益而受到人們的關(guān)注,并成為信息科學的研究熱點之一。計算機人臉識別技術(shù)是近二十年才逐漸發(fā)展起來的,90代成為科研熱點。僅1990~1998年間,EI可以檢索到的相關(guān)文獻就達數(shù)千篇。IEEE的PAMI匯刊于1997年7月出版了人臉識別編輯,每年國際會議上關(guān)于人臉識別的專題也屢見不鮮。
HMM用于人臉識別的報道始于90年代[19-20],近些年來亦成為各大研究所的研究熱點,但是技術(shù)尚待成熟。昆明理工大學信息工程與自動化學院李一民等將HMM應(yīng)用于人臉識別研究,建立了CCD工業(yè)攝像機的人臉識別系統(tǒng),完成了對隱馬爾可夫模型的初步理論和計算方法的研究工作,并針對人臉圖像分析開發(fā)了具有一定實用性的人臉識別算法[21-22]。為HMM在該領(lǐng)域的繼續(xù)應(yīng)用奠定了基礎(chǔ)。把HMM用于人臉識別的關(guān)鍵是尋求馬爾可夫模型與人臉圖像的關(guān)系,即如何用 HMM來為人臉圖像建立可靠的熟悉模型。
2.4臨床慢性病影響因素分析
2005年至今,筆者所在的丁元林教授課題組將隱Markov模型應(yīng)用于2型糖尿病不同發(fā)展階段影響因素的探討[23-24],并從應(yīng)用的角度出發(fā)提出了其應(yīng)用注意事項。結(jié)果顯示,引入的隱Markov模型擬合結(jié)果較好,發(fā)現(xiàn) 2型糖尿病不同發(fā)展階段的影響因素有11個:體重指數(shù)、文化程度、家庭月人均收入、飲酒、主食、甜食、健康教育、吸煙、葷油、體力活動量和生活事件。
2.5其他領(lǐng)域
HMM在在信號處理的相關(guān)學科中也能見到其蹤影,例如圖像處理[25]、文字識別[26]、頻率跟蹤[27]以及自然聲音的建模和分類[28]等。此外在睡眠分期中亦得到應(yīng)用[29]。但目前尚未見 HMM 應(yīng)用于醫(yī)學領(lǐng)域,特別是慢性病流行病研究方面的報道。
總之,對 HMM的研究雖然已經(jīng)有很大進展,但是在人臉識別等領(lǐng)域的應(yīng)用還不夠成熟,在醫(yī)學領(lǐng)域的應(yīng)用亦少見報道,本課題組利用該模型初步探討了 2型糖尿病患者不同發(fā)展階段影響因素,考慮到許多慢性病發(fā)生發(fā)展的狀態(tài)不可觀測,可以預(yù)見 HMM在慢性病流行病研究中有較廣闊的應(yīng)用前景。
[1]劉河生,高小榕,楊福生.隱馬爾可夫模型的原理與實現(xiàn)[J].國外醫(yī)學生物醫(yī)學工程分冊,2002,2(6),253-259.
[2]韓曉東,劉向明,潘華,等.基于隱Markov模型的離子單通道信號恢復(fù)及參數(shù)估計[J].中國醫(yī)療器械雜志,2001,25(6):311-315.
[3]Lin dy.mulcox:: a computer program for the Cox regression analysis of multipule failure time variable.[J]Computer Methods and Programs in Biomedicine ,1990,32(2):125-135.
[4]Sean R.Eddy.Hidden Markov Models[J].Current Opinion in Structural Biology ,1996,6:361-365.
[5]Rinber,LR..A Tutorial on Hidden Markov Models and selected aplications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[6]K.Morrison ,S.J.McKenna.Automatic visual recognition of gestures made by motor-impaired computer users[J].Thchnology and Disability,2002,14,197-203.
[7]馬志欣,王宏,李鑫.語音識別技術(shù)綜述[J],昌吉學院學報,2006:3:93-97.
[8]張杰,黃志同,王曉蘭.語音識別中隱馬爾可夫模型狀態(tài)數(shù)的選取原則及研究[J].計算機工程與應(yīng)用,2000,36(1):67-69.
[9]丁紀凱.HMM 識別孤立詞的研究與實現(xiàn)[J].中國紡織大學學報,1990,16(3):60-68
[10]吳建雄, 陳礎(chǔ)堅.矢量量化技術(shù)和隱馬爾柯夫模型方法在韻母識別中的應(yīng)用[J].上海交通大學學報,1991,25(5):35-42.
[11]林道發(fā), 羅萬伯.用矢量量化和隱馬爾可夫模型實現(xiàn)英語話句的識別[J].四川大學學報,1991,28(3):296-301.
[12]CHURCHILL G A.Stochastic models for heterogeneous DNA sequences [J].Bulletin of Mathematical Biology , 1989 ,51:792-794.
[13]DURBIN S R.Biological sequence analysis : Probalistic models of proteins and nucleic acids[M].Cambridge :Cambridge University Press , 1998.(1):21-38.
[14]EDDY S R.Hidden markov models[J].Current Opinion in Structurel Biology , 1996 , 6 :3612-3615.
[15]EDDY S R.Profile hidden markov models[J].Bioinformatics , 1998 ,14 :7552 -7763.
[16]KROGHM.Hidden Markov models in computational biology: Applications to protein modeling[J].J Mol Biol ,1994 , 235 :1512-1513.
[17]STEVEN S.In ComputationalMethodsin Molecular Biology [M].Holand :Elsevier Science , 1998-452-463.
[18]吳曉明,宋長新,王波,等.隱馬爾可夫模型用于蛋白質(zhì)序列分析[J].生物醫(yī)學工程學雜志, 2002, 19(3) : 455-458.
[19]4 Samaria F,Harter A.Parameterisation of a Stochanastic Model for Human Face Identification.Sarasota, Florida: IEEE Workshop on Application of Computer Vision, 1994.
[20]Nefian A V.A Hidden Markov Model-Based Approach for Face Detection and Recognition [PhD thesis].school of Electrical and Computer Engineering, Georigia Institute of Technology, 1998.
[21]羅瑜,李一民.基于隱馬爾可夫模型的人臉識別算法的研究[M].昆明理工大學研究生畢業(yè)論文,2001,12.
[22]談昌彬, 李一民.基于 EHMM 的人臉識別[J].云南民族大學學報:自然科學版.[J]2006,15(4):285-288.
[23]潘海燕,丁元林,等.多狀態(tài)統(tǒng)計模型在慢性病流行病學研究領(lǐng)域中的應(yīng)用進展[J].中國衛(wèi)生統(tǒng)計,2007,24(4):440-443.
[24]潘海燕,丁元林,等.2型糖尿病不同發(fā)展階段影響因素的隱Markov模型分析[J]中國衛(wèi)生統(tǒng)計,2009,26(1):38-40.
[25]Bahl L R,Jelinek F.Decoding for channels with Insertions,Delections ,and Substititions with Applications to peech Recognition[J].IEEE Trans.IT,1975,21(2):404-411.
[26]Jelinek F,Bahl L R,Mercer R L.Design of Linguistic Statistical Decoder for the Recognition of Continuous Speech[J].IEEE Trans.IT,1975,2(2):250-256.
[27]Levinson S E,Rabiner L R,Sondhi MM.An Intrduction to the Application of the Theory of Robabilistic Functions of a Markov Process to Automatic Speech Recognition[J].BSTJ,1983,62(4):1035-1074
[28]Rabiner LR,Juang B H.An Introduction to Hidden Markov Models[J].IEEE Assp Magazine.1986,3(1):4-16.
[29]江朝輝,李繼偉,等.隱馬爾可夫模型在睡眠分期中的應(yīng)用[J].山東生物醫(yī)學工程,2003,22(2):4-7.
廣東醫(yī)學院公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學教研室,廣東東莞523808