杜靜++匡泰++張麗娜
摘 要 子空間聚類是尋找從高維空間抽取最適合樣本點(diǎn)的多個(gè)子空間表示的一個(gè)問(wèn)題。現(xiàn)有的聚類模型一般采用不同的規(guī)范來(lái)描述噪聲,這相當(dāng)于假設(shè)數(shù)據(jù)被特定類型的噪聲所破壞。然而,實(shí)際上,噪音要復(fù)雜得多。因此,簡(jiǎn)單地用一定的范數(shù)來(lái)模擬噪聲是不合適的。因此,我們提出了將噪聲用混合高斯模型表示的混合高斯回歸子空間聚類。混合高斯回歸提供了一個(gè)有效的模型來(lái)表示更廣泛的范圍內(nèi)的噪聲分布。其結(jié)果是,所得到的關(guān)聯(lián)矩陣能夠更好地表征實(shí)際應(yīng)用中數(shù)據(jù)的結(jié)構(gòu)。多個(gè)視頻火焰數(shù)據(jù)集上的檢測(cè)結(jié)果表明,混合高斯回歸模型大大優(yōu)于當(dāng)前最優(yōu)的子空間聚類方法。
關(guān)鍵詞 子空間聚類;混合高斯回歸;視頻火焰檢測(cè)
中圖分類號(hào) TP2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2095-6363(2017)16-0023-02
在過(guò)去的20年中,多種子空間聚類方法已經(jīng)被相關(guān)學(xué)者提出。這些方法大致可分為四大類:代數(shù)方法、迭代方法、統(tǒng)計(jì)方法和基于光譜聚類的方法[1]。應(yīng)該指出的是,基于譜聚類的方法,它是基于譜圖理論,已在許多實(shí)際應(yīng)用中體現(xiàn)出優(yōu)良的性能。
一般的基于譜聚類的方法包括兩個(gè)步驟。首先,建立一個(gè)關(guān)聯(lián)矩陣來(lái)捕捉樣本點(diǎn)對(duì)之間的相似性。其次,將圖割方法應(yīng)用于一個(gè)圖,圖的頂點(diǎn)是樣本,其權(quán)值由關(guān)聯(lián)矩陣確定,用于對(duì)樣本點(diǎn)進(jìn)行分割。建立有效的關(guān)聯(lián)矩陣是保證聚類結(jié)果良好的關(guān)鍵。因此,許多子空間聚類方法都關(guān)注于建立有效的關(guān)聯(lián)矩陣。
幾乎所有的分布都可以用足夠數(shù)量的高斯模型混合來(lái)近似表示,本文即運(yùn)用了這種概率思想。本文利用復(fù)雜的混合高斯模型來(lái)精確地描述真實(shí)的噪聲,而不是假設(shè)噪聲是一些具體分布。高斯模型的個(gè)數(shù)可以通過(guò)交叉驗(yàn)證來(lái)估計(jì)。對(duì)Z的正則化,我們就選擇Frobenius范數(shù)。原因有兩方面。首先,我們要演示噪聲建模對(duì)子空間聚類的影響。因此,Z上的正則化可以更好地展示這種影響。其次,對(duì)Z的正則化可以更容易估計(jì)高斯模型的個(gè)數(shù)。例如,我們可以利用傳統(tǒng)的期望最大化算法來(lái)解決本文提出的子空間聚類模型。
1 混合高斯回歸的子空間聚類
如文獻(xiàn)[2]所述的,我們考慮子空間聚類作為以下優(yōu)化問(wèn)題:
(1)
其中,
L(E)代表描述噪聲的損失函數(shù),R(Z)代表表示表征矩陣Z上的一些性質(zhì)的正則項(xiàng)。從公示(1)可以看出,如何描述噪聲在子空間聚類中有著重要的意義。
1.1 混合高斯回歸
在本文中,我們提出了一種新的方法稱為混合高斯回歸,采用混合高斯模型描述一般的噪聲來(lái)實(shí)現(xiàn)魯棒的子空間聚類。
我們假設(shè)E的每一列服從一個(gè)混合高斯分布。
其中,K是高斯分量的個(gè)數(shù),代表權(quán)值代表均值為0的多元高斯分布。代表協(xié)方差矩陣。與經(jīng)典回歸分析相似,E中的所有列都假定為獨(dú)立同分布。所以我
們有:
在一般的混合高斯模型中,我們期望找到使最大化。
我們利用代替LSR模型中的Frobenius 范數(shù),則我們提出的混合高斯回歸模型將可以寫(xiě)成如下形式:
(2)
其中,
為正則化參數(shù)。我們選擇Frobenius范數(shù)來(lái)正則化Z。在Z上利用Frobenius范數(shù)不僅能夠減少計(jì)算量還可以表示出利用混合高斯回歸模型表示噪聲來(lái)計(jì)算子空間聚類的效果。
一般利用EM算法來(lái)解決公式(2),它可以迭代地找到參數(shù)的最大似然估計(jì)。它從一個(gè)初始猜測(cè)開(kāi)始,迭代地運(yùn)行一個(gè)期望(E)步驟,它使用當(dāng)前估計(jì)的參數(shù)來(lái)評(píng)估后驗(yàn)概率,以及最大化(M)步驟,它基于E步驟中計(jì)算的概率重新估計(jì)參數(shù)。直到滿足某些收斂條件[3],
迭代停止。結(jié)合EM算法的傳統(tǒng)步驟,我們可以得到問(wèn)題(2)的解。
1.2 混合高斯回歸的子空間聚類
與以前的方法相似,我們的聚類方法也基于譜聚類理論[4]。解決公式(2)后得到表示矩陣Z,我們定義為關(guān)聯(lián)矩陣,即:
其中,C中的每個(gè)分量測(cè)量了數(shù)據(jù)點(diǎn)和之間的相似性?;旌细咚够貧w子空間聚類的方法更善于描述噪聲的分布,從而表現(xiàn)出更強(qiáng)的集群效應(yīng)和恢復(fù)真實(shí)子空間結(jié)構(gòu)的能力更強(qiáng)。最后,我們對(duì)關(guān)聯(lián)矩陣C利用Normalize-cut[5]算法來(lái)產(chǎn)生最終的聚類結(jié)果。
2 視頻火焰檢測(cè)結(jié)果
本文提取視頻火焰圖片的顏色特征、LBP紋理特征、通過(guò)累積差分算法得出的火焰動(dòng)態(tài)特征,將混合高斯回歸的子空間聚類應(yīng)用于上述三種特征組合成的特征向量,實(shí)驗(yàn)結(jié)果如圖1所示。
3 結(jié)論
在本文中,我們提出了一種新的子空間聚類方法,該方法采用混合高斯回歸模型來(lái)描述復(fù)雜的噪聲分布。理論分析表明,本文提出的混合高斯回歸方法保持了集群效果。在運(yùn)動(dòng)分割實(shí)驗(yàn)中,手動(dòng)標(biāo)記聚類和復(fù)雜的視頻火焰圖片聚類表明了該方法的優(yōu)越性。假定噪聲服從高斯分布或者是稀疏噪聲,該方法在處理一般噪聲方面,穩(wěn)定性和魯棒性較好。
參考文獻(xiàn)
[1]E.Elhamifar and R.Vidal. Sparse subspace clustering:Algorithm,theory,and Applications.IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013,35(11):2765-2781.
[2]C.Lu,J.Tang,M.Lin,L.Lin,S.Yan,and Z.Lin.Correntropyinduced l2 graph for robust subspace clustering InProceedings of IEEE International Conference on ComputerVision,2013:1801-1808.
[3]D.Nettleton. Convergence properties of the EM algorithmin constrained parameter spaces. Canadian Journal of Statistics,1999,27(3):639-648.
[4]A.Y.Ng,M.I.Jordan,Y.Weiss,et al.On spectral clustering:Analysis and an algorithm. Advances in neural informationprocessing systems,2002(2):849-856.
[5]J.Shi and J.Malik.Normalized cuts and image segmentation.IEEE Transactions on Pattern Analysis and MachineIntelligence,2000,22(8):888-905.endprint