樊菊蘭
摘 要 有限混合模型是用于分析復(fù)雜問題的一個(gè)有效的建模工具。在諸多的混合模型中,混合高斯模型的應(yīng)用更為廣泛,尤其是在圖像處理、人臉識(shí)別、通信和信號(hào)處理等。理論及數(shù)值試驗(yàn)充分證明:混合高斯分布模型能夠逼近任何一個(gè)光滑分布,而對(duì)該模型參數(shù)的有效估計(jì)是準(zhǔn)確分析、模擬復(fù)雜問題的必要前提。EM算法自從提出,就已成為一種非常流行地處理不完全數(shù)據(jù)的極大似然估計(jì)的方法。恰好我們經(jīng)常處理的樣本數(shù)據(jù)集通??煽醋魇遣煌耆珨?shù)據(jù),進(jìn)而EM算法就為混合高斯模型的參數(shù)估計(jì)提供了一種標(biāo)準(zhǔn)框架。
關(guān)鍵詞 EM算法 R軟件 混合模型 高斯混合 參數(shù)估計(jì)
中圖分類號(hào):O212 文獻(xiàn)標(biāo)識(shí)碼:A
0引言
EM 算法就是一種一般的從“不完全數(shù)據(jù)”中求解模型參數(shù)的極大似然估計(jì)的方法,它是在觀察數(shù)據(jù)的基礎(chǔ)上添加一些“潛在數(shù)據(jù)”,從而簡化計(jì)算并完成一系列簡單的極大化或模擬。EM 算法的每一步迭代中包括一個(gè) E 步――期望步(Expectation Step)和一個(gè)M 步——極大似然步(Maximum Likelihood Step)。算法的優(yōu)勢(shì)在于它在一定意義下可靠地收斂到局部極大,也就是說在一般條件下每次迭代都增加似然函數(shù)值,當(dāng)似然函數(shù)值是有界的時(shí)候,迭代序列收斂到一個(gè)穩(wěn)定值的上確界。缺點(diǎn)是當(dāng)缺失數(shù)據(jù)比例較大時(shí)候,它的收斂比率比較緩慢?;旌戏植际怯邢迋€(gè)分布的組合,它綜合了各個(gè)分支的性質(zhì)和特點(diǎn),它具有許多優(yōu)勢(shì):
(1)可以用來模擬復(fù)雜的數(shù)據(jù)或問題。由于混合模型擁有許多不同類型的混合形式,有相同總體的混合,也有各種不同總體的混合。因此,可以根據(jù)數(shù)據(jù)的不同情況,來選擇與之相符的混合模型來進(jìn)行模擬。
(2)為同性質(zhì)和異性質(zhì)的模擬提供了一個(gè)方法。當(dāng)m= l時(shí),該模型就是一個(gè)單一分布。當(dāng)m〉l時(shí),它就是分布的線性組合。在現(xiàn)實(shí)生活中,許多現(xiàn)象都非常復(fù)雜,不同元素往往具有各不相同的性質(zhì),這時(shí),混合模型是一個(gè)最合適的工具,因?yàn)樗梢园言厮鶟M足的分布都綜合起來,組合成一個(gè)新的分布,在這個(gè)新的混合分布的基礎(chǔ)上,再進(jìn)行下一步的分析。它具比單一分布有更多的益處。
綜上所述,混合分布可以對(duì)大量的數(shù)據(jù)進(jìn)行有效的模擬,尤其是在對(duì)數(shù)據(jù)先驗(yàn)知識(shí)了解較少的情況下,混合分布是一個(gè)很好的選擇,它更加靈活、有效。
1同分布同類型的混合分布
一種類型的混合分布有:二項(xiàng)分布,指數(shù)分布,泊松分布,正態(tài)分布等等。下面我們以二項(xiàng)分布和正態(tài)分布為例研究混合分布的EM算法的過程。
1.1 L階混合二項(xiàng)分布參數(shù)估計(jì)的EM算法
L階混合二項(xiàng)分布的概率密度函數(shù)為
其中,且為未知參數(shù)。
現(xiàn)在設(shè)是來自于混合二項(xiàng)分布的樣本。我們的目的是求未知參數(shù)的極大似然估計(jì)。為此先考査其對(duì)數(shù)似然函數(shù)
不難看化直接求它的最大值點(diǎn)很難,我們下面將推導(dǎo)該問題的EM算法:
引入潛在變量,其中,且相互獨(dú)立,是取值為0或1的指示變量,表示來自于第j個(gè)分支密度,且
1.2 M階混合正態(tài)分布(高斯分布)的EM算法估計(jì)
隨著社會(huì)、科學(xué)的不斷發(fā)展,混合模型已經(jīng)越來越被大家熟悉和認(rèn)識(shí)。有限混合高斯分布的以其獨(dú)有的特性更是被大家熟知,并被用于實(shí)際生活中的各個(gè)領(lǐng)域。根據(jù)混合模型的介紹我們可以知道,有限混合正態(tài)分布就是有限個(gè)(2個(gè)或2個(gè)以上)正態(tài)分布的加權(quán)組合。它們的組合具有比單一高斯分布更豐富的性質(zhì)和特點(diǎn),并且當(dāng)混合正態(tài)分布的階數(shù)不斷增加時(shí),它可以逼近任何連續(xù)的概率分布。正因?yàn)槿绱?,它的?yīng)用非常廣泛,如在股票、金融、證券、醫(yī)藥、農(nóng)業(yè)等領(lǐng)域都可以用到它。如今,利用它對(duì)數(shù)據(jù)進(jìn)行擬合,即對(duì)其參數(shù)的估計(jì)已經(jīng)成為人們非常關(guān)心的問題。每個(gè)分支都有兩個(gè)參數(shù)需要估計(jì),并且待估計(jì)參數(shù)的先驗(yàn)分布也比較復(fù)雜。
1.2.1當(dāng)M己知時(shí),用EM算法估計(jì)參數(shù)
1.2.2當(dāng)M未知時(shí),基于聚類的EM算法
以上的EM算法是設(shè)定混合元個(gè)數(shù)在計(jì)算過程中是不變的,而在實(shí)際應(yīng)用中,混合高斯模型中的混合元個(gè)數(shù)M一般未知。下面就M未知時(shí)給出一種參數(shù)估計(jì)方法,該方法是建立在聚類算法和EM算法基礎(chǔ)上的一種方法,即初始狀態(tài)的混合元數(shù)比最終得到的混合元數(shù)要大(通常情況下將初始混合數(shù)設(shè)定為最終混合數(shù)的兩倍以上能得到比較好的結(jié)果)。這樣,在建模過程中可以將相近的兩個(gè)高斯分量并為一個(gè)聚類,然后在重新有EM算法進(jìn)行建模,以此往復(fù),最終得到想要的混合數(shù),具體步驟如下
(1)設(shè)置初始混合數(shù)(一般將初始混合數(shù)設(shè)置為目標(biāo)混合數(shù)的兩倍以上)。
(2)用以上方法算得到元混合高斯分布參數(shù)估計(jì)為。
(3)尋找相近(指均值和方差接近)的兩個(gè)高斯分量,將它們合并成一個(gè)新的高斯分量,并且將混合數(shù)減1。合并規(guī)則如下:設(shè)兩個(gè)相近高斯分量的參數(shù)分別為和,合并后新的高斯分量的參數(shù)為,則
(4)這時(shí)混合個(gè)數(shù)減小一個(gè),返回步驟(2)進(jìn)行EM算法估計(jì),依次下去直到混合數(shù)達(dá)到需要的混合數(shù)M即可。
基于聚類的EM算法在識(shí)別率上有所提高,而且其實(shí)際運(yùn)算速度也加快了。這是因?yàn)樵趯⒕垲愃惴ㄈ诤线M(jìn)來以后,相似的高斯分量合并在一起,因而提高了識(shí)別率;并且通過不斷地合并相似的高斯分量,使EM算法的收斂速度加快,迭代次數(shù)降低,從而提高了運(yùn)算效率.聚類方法的選取和聚類數(shù)目的判定是聚類分析中經(jīng)常遇到的兩大問題一般說來,混合元個(gè)數(shù)越大,用樣本對(duì)總體擬合度越高,但是計(jì)算越復(fù)雜,如何選取合適的混合元個(gè)數(shù)很關(guān)鍵,混合模型聚類常通過貝葉斯信息準(zhǔn)則(BIC)選擇模型。計(jì)算不同模型的BIC值,一般情況下模型的BIC值越大,該模型就越符合實(shí)際。BIC值的計(jì)算依賴于模型的參數(shù)估計(jì),因此EM算法直接影響B(tài)IC值的計(jì)算。
1.2.3基于EM算法的實(shí)例
以3—分支混合高斯分布模型為例做模擬試驗(yàn)來說明EM算法估計(jì)混合高斯模型參數(shù)的具體過程并且驗(yàn)證該算法的可行性,實(shí)驗(yàn)步驟如下:
(1)按照上述產(chǎn)生隨機(jī)樣本點(diǎn)的方法隨機(jī)產(chǎn)生2000個(gè)三分支二維混合高斯分布模型的樣本點(diǎn)。
(2)設(shè)定EM算法迭代計(jì)算過程中所涉及到的各參數(shù)的初始值,在本試驗(yàn)中初始值的選擇為:先對(duì)混合比例執(zhí)行平均分配原則,各分支的均值從各樣本的最大值與最小值之間隨機(jī)產(chǎn)生,各分支參數(shù)的初始值及估計(jì)結(jié)果如下:
從上表可以看出,通過大樣本的數(shù)值模擬試驗(yàn),證實(shí)了用EM算法對(duì)混合高斯分布模型的概率密度函數(shù)做參數(shù)估計(jì)時(shí),其收斂速度比較快。尤其是在大樣本的情況下,其估計(jì)結(jié)果更加接近參數(shù)的真值。
2結(jié)語
EM算法可通過對(duì)不完全數(shù)據(jù)進(jìn)行擴(kuò)充之后成為完全數(shù)據(jù),再對(duì)參數(shù)進(jìn)行極大似然估升,使得分析的結(jié)果更加有效。
參考文獻(xiàn)
[1] 肖枝洪,朱強(qiáng).統(tǒng)計(jì)模擬及其R實(shí)現(xiàn)[M].武漢:武漢大學(xué)出版社,2010.
[2] 連軍艷. EM算法及其改進(jìn)在混合模型參數(shù)估計(jì)中的應(yīng)用研究[D].西安:長安大學(xué), 2006.
[3] 王愛平,張功營,劉方. EM算法研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2009,19(09):108-110.
[4] 楊基棟.EM算法理論及其應(yīng)用[J].安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2009,15(04): 30-35.
[5] 張士峰,混合正態(tài)分布參數(shù)極大似然估計(jì)的EM算法[J].飛行器測(cè)控學(xué)報(bào),2004,23(04):47-52.
[6] Dempster,A.P.&D.B.Rubin; . Maximum likelihood estimation from incomplete data via the EM algorithm (with discussion[C].Journal of the Royal Statistical Society Series B,1977:1-3.