李志偉
摘要:對論文進(jìn)行科學(xué)性學(xué)習(xí)研究與探討是提高科研能力的必經(jīng)之路。本文針對譜聚類算法科學(xué)研究進(jìn)行分析、探討性學(xué)習(xí),旨在通過研讀國內(nèi)外高水平論文,獲得啟發(fā)和創(chuàng)作新思路,學(xué)習(xí)他人之長來提高自身科研能力。在此基礎(chǔ)上產(chǎn)生自己的想法、更好地創(chuàng)作,為后期將理論研究轉(zhuǎn)化為社會(huì)生產(chǎn)力奠定基礎(chǔ)。最后期望本文能夠?qū)蒲性谝痪€的學(xué)者、研究人員提供幫助。
關(guān)鍵詞:譜聚類算法 相似度矩陣 學(xué)術(shù)研究
中圖分類號:TP301.6 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)07-0124-01
1 研究內(nèi)容描述
文獻(xiàn)[1]針對醫(yī)學(xué)圖像數(shù)據(jù)難以用數(shù)學(xué)模型來表述和聚類的問題,提出了一種基于近似密度函數(shù)的醫(yī)學(xué)圖像聚類分析方法,該方法采用核密度估計(jì)模型來構(gòu)造近似密度函數(shù),利用爬山策略來提取聚類模式。文獻(xiàn)[2]說明了各種密度函數(shù)的優(yōu)越性及使用高斯密度核的工程常用性,分析了計(jì)算高斯密度模型各參數(shù)的評價(jià)函數(shù),以及如何確定用到的參數(shù)。比如:模型個(gè)數(shù)如何確定,哪些樣本應(yīng)該作為該數(shù)據(jù)點(diǎn)的影響樣本參與計(jì)算密度,哪些樣本被同一吸引子吸引,特征值參數(shù)epsilon(控制聚類特征點(diǎn)的存儲量)如何確定等理論。文獻(xiàn)[3]選用常用的懲罰似然形式AIC和BIC準(zhǔn)則確定高斯融合模型的分量個(gè)數(shù),然后采用EM算法反復(fù)迭代得到最終收斂后的各個(gè)參數(shù)數(shù)值。文獻(xiàn)[4]提出了一種核密度估計(jì)方法用于估計(jì)模型的分量個(gè)數(shù)K,然后對原始圖像S的直方圖分成取樣得到對應(yīng)的數(shù)據(jù)樣本SX,計(jì)算SX的估計(jì)密度,由EM算法得到的參數(shù)和爬山算法共同估計(jì)模型個(gè)數(shù)K,然后對K個(gè)模型分類。
文獻(xiàn)[5]為了減少有限融合模型中參數(shù)方法對先驗(yàn)知識的過度依賴問題和莫尼切比雪夫正交多項(xiàng)式僅僅能夠處理灰度圖像的問題,提出了一種多變量切比雪夫正交多項(xiàng)式的融合模型彩色圖像分割方法。首先,由傅里葉分析和張量積理論得到多變量切比雪夫正交多項(xiàng)式,而后提出一種多變量正交多項(xiàng)式的非參數(shù)融合模型,期望積分平方誤差用于估計(jì)每個(gè)模型的平滑參數(shù)。第二,解決密度融合模型的估計(jì)模型分量個(gè)數(shù)問題,使用隨機(jī)非參最大期望算法估計(jì)作用該正交多項(xiàng)式,并得出每個(gè)模型的權(quán)重。
文獻(xiàn)[6]提出了一種改進(jìn)的基于密度分布函數(shù)的聚類方法,該方法使用K最近鄰(KNN)的思想度量密度以尋找當(dāng)前密度最大點(diǎn), 即中心點(diǎn)。并使用區(qū)域比例將類從中心點(diǎn)開始擴(kuò)展,每次擴(kuò)展的同時(shí)引入半徑比例因子以發(fā)現(xiàn)核心點(diǎn),再從該核心點(diǎn)的KNN擴(kuò)展類,直至密度下降到中心點(diǎn)密度的給定比率時(shí)結(jié)束。
2 思路啟發(fā)
文獻(xiàn)[1-5]均是在基于高斯密度模型下采用爬山策略計(jì)算局部最大值,然后采用最大期望EM算法完成數(shù)據(jù)聚類,整個(gè)過程不涉及樣本相似矩陣的構(gòu)造。也可將聚類過程理解為概率模型下的最大似然樣本類的劃分。不涉及譜聚類。文獻(xiàn)[6]在得出每個(gè)樣本的高斯密度后,找到密度最大的那個(gè)核心點(diǎn),然后以該點(diǎn)為中心點(diǎn)向其KNN擴(kuò)展,將密度相差在一定閾值下的樣本看成一類,不滿足條件的樣本做標(biāo)記。當(dāng)密度下降到中心點(diǎn)密度的給定的比率a時(shí)類延伸結(jié)束。該過程被循環(huán)直至聚類完成。整個(gè)過程也不涉及樣本相似矩陣構(gòu)造,也不涉及譜聚類。啟發(fā)如下:
(1)采用對樣本增加新屬性的方式重新構(gòu)造映射下的數(shù)據(jù)集合。比如:可以將各個(gè)樣本的密度對應(yīng)的密度向量看成樣本的一個(gè)新屬性,并帶入聚類計(jì)算。當(dāng)樣本處于高維空間時(shí),可以先采用降維技術(shù)先對對樣本聚類結(jié)果影響最小或包含信息量最小的樣本屬性先排除,然后在添加樣本新屬性的方法對數(shù)據(jù)進(jìn)行再處理。
(2)聯(lián)系基于參數(shù)的密度估計(jì)模型(高斯核估計(jì)密度)和基于爬山算法得到密度局部最大值所在區(qū)域?qū)?yīng)樣本,如何構(gòu)造樣本相似矩陣。比如:首先如何確定樣本x的密度,取哪些樣本作為對該樣本的影響,Near(x)如何取值得探討。其次,一旦Near(x)確定,爬山后得到的局部密度最大值對應(yīng)的區(qū)域個(gè)數(shù)K是多少,值得分析。即閾值epsilon如何取。取的大,則模型分量個(gè)數(shù)較少,極端情況下造成樣本為一類。取的小,模型分量個(gè)數(shù)較多,極端下每個(gè)樣本自成一類。
3 問題分析及探討
假設(shè)分量模型個(gè)數(shù)K確定了,那么基于密度的極大似然估計(jì)的迭代算法的聚類結(jié)果優(yōu)劣僅僅與密度及相關(guān)參數(shù)有關(guān),密度的高低決定了樣本劃分的類別。尚若通過EM迭代能夠得到滿意的聚類結(jié)果,如何采用構(gòu)造樣本的相似矩陣,采用譜聚類算法聚類。倘若分量模型個(gè)數(shù)K確定了,則每個(gè)樣本都有自己的模型歸屬。這K個(gè)模型的相似性如何確定。僅僅通過密度值的近鄰來決定理論上本身就存在低密度區(qū)中的某一小區(qū)域是高密度區(qū)而被劃到高密度區(qū)對應(yīng)的類別。反過來也成立。所以,一次根據(jù)樣本密度值近鄰來構(gòu)造樣本相似矩陣存在很大風(fēng)險(xiǎn)。通過迭代呢?如何迭代?迭代時(shí)空復(fù)雜度如何控制,倘若存在一種迭代能夠得到滿意的相似矩陣,帶入譜聚類能夠得到滿意的聚類結(jié)果。那尚若期望聚類的個(gè)數(shù)恰好等于模型個(gè)數(shù)K,那迭代后得到的樣本模型其實(shí)就是一個(gè)劃分好的類,樣本相似矩陣的構(gòu)造就是純屬多余,后面的譜聚類更是用不著。
4 結(jié)語
本文分別對文獻(xiàn)研究的內(nèi)容方向進(jìn)行介紹描述,并分析所用方法及結(jié)果。在深入學(xué)習(xí)、科學(xué)研究之后,獲得啟發(fā)開闊思路,形成自己的想法和觀點(diǎn)。最后對當(dāng)前存在的問題加以分析探討。通過本文學(xué)術(shù)論文研究能夠?qū)蒲幸痪€的工作人員提供幫助。
參考文獻(xiàn)
[1]宋余慶,謝從華,朱玉全,李存華,陳健美,王立軍.基于近似密度函數(shù)的醫(yī)學(xué)圖像聚類分析研究[J].計(jì)算機(jī)研究與發(fā)展,2006,43(11): 1947-1952.
[2]陳建美.基于密度聚類和多特征融合的醫(yī)學(xué)圖像識別研究[D].蘇州:蘇州大學(xué),2008.
[3]Yu-qing Song, Cong-hua Xie, Jian-mei Chen. Medical Image Segmentation using Characteristic Function of Gaussian Mixture Models [J]. In: 2010 3rd International Conference on Biomedical Engineering and Informatics (BMEI), Yantai, China, 2010.
[4]Cong-Hua Xie, Yu-Qing Song, Jian-Mei Chen. Fast medical image mixture density clustering segmentation using strati cation sampling and kernel density estimation [J]. Signal, Image and Video Processing, 2011, 5(2): 257-267.
[5]Zhe Liu, Yu-Qing Song, Jian-Mei Chen, Cong-Hua Xie, Feng Zhu. Color image segmentation using nonparametric mixture models with multivariate orthogonal polynomials [J]. Neural Comput and Application, 2012, 21:801-811.
[6]譚建豪,章兢,李偉雄.密度分布函數(shù)在聚類算法中的應(yīng)用[J].控制理論與應(yīng)用,2011,28(12):1791-1796.