程國建 范鵬召
摘要;巖石組分識別是巖石圖像分析中的重要工作之一。該文先提取巖石圖像區(qū)域顏色特征,再分別使用k均值和模糊C均值兩種聚類算法進行聚類,實驗表明,通過提取區(qū)域顏色特征進行聚類能劃分巖石組分,從而為后期的巖石組分識別奠定基礎。
關鍵詞:巖石圖像;k均值聚類;模糊C均值聚類;巖石組分
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)07-0250-02
圖像分析是人們獲取信息的一種重要手段。聚類是通過機器學習算法將相似的對象聚在一起組成一個集合,不相似的對象分離開,并要集合內對象具有較高的相似性,而集合與集合之間的對象具有較高的互異性。目前已有很多學者對K均值(k-means)聚類算法和模糊C均值聚(FCM)類算法及其在圖像分析中的而應用進行了研究,如:曾山、嚴峻等對FCM算法進行了研究,樸尚哲對FCM算法進行了有效性評價;聶生東使用FCM分割算法對磁共振顱腦圖像進行了研究與分析;彭立軍使用FCM研究了遙感圖像的分割方法等。蔣帥、樊寧等研究了k-means聚類算法;李丹丹、劉靖明等在HIS空間下使用K-means方法研究了彩色圖像的分割;廖松有_10]對比研究了FCM與K-means聚類算法等。為了方便巖石組分分析,本文分別使用K-means聚類算法與FCM聚類算法對巖石組分進行了聚類,并有效的劃分了巖石組分,為后期巖石組分分析奠定了基礎。
1K-means聚類算法
K-means聚類算法是麥克奎因(J.B MacQueen)于1967年提出的。該算法簡單易行,廣泛應用于科學及工業(yè)領域。它是將含有n個實體的集合X=(x1,x2,…,xn)劃分為k個簇(類)。該算法的輸入時集合X與類別數k,輸出是聚類結果,具體算法流程如下:
1)令I=1,從具有t1個實體的樣本集中隨機選取k個實體作為初始聚類中心,%(D,j=1,2,…,k;
2)分別計算其余n-k各個實體到各聚類中心的距離d(xi,mj(I)),i=1,2,…,n,j=1,2,…,k,并將各實體與距離最近的聚類中心聚為一類;
3)分別計算每個簇內實體的平均值,并將該值作為新的聚類中心,得到k個新的聚類中心;
4)分別對所有實體計算其與k個新聚類中心的距離,并將各個實體與距離最近的聚類中心聚為一類;
K-means聚類算法優(yōu)缺點
K-means是一種基于劃分的聚類算法,思想簡單并易于實現,是目前最常用的聚類算法之一。然而同其他大部分聚類算法一樣,K-means算法仍然存在其自身的局限性。
1)K-means算法需要用戶實現給出聚類數目。
2)K-means算法對初始聚類中心的選取及奇異值非常敏感。K-means聚類算法每次迭代過程都要重新計算實體與聚類中心的距離,并將每個實體與距離最近的聚類中心聚為一類,故它嚴重依賴于聚類中心的選取。再者,聚類中心的更新是以簇內實體平均值代替的,故,奇異值對K-means算法的影響也較大。
3)K-means算法不適用于大數據量的聚類問題。由于K-means算法每次迭代過程都要計算距離并求平均值,計算量較大,故當數據量大時,迭代過程的計算量更為龐大,此時,該算法效率較低。
2FCM聚類算法
K-means算法是一種硬聚類算法,非一即二,即實體要么數據屬于某一類別,要么不屬于。但由于事物在質上沒有明確的定義,在量上沒有明確的界限,導致時間呈現“亦此亦彼”的性態(tài),這是事物的模糊性,用隸屬度來衡量。而FCM算法是一種模糊聚類算法,通過隸屬度判斷實體屬于某一類別的程度,能較為客觀的反映現實世界,已廣泛應用于大規(guī)模數據分析、圖像分割、模式識別等領域。
FCM算法流程
FCM算法結合了模糊理論與K-means算法,假設樣本集為X={x1,x2,…,xn),類別數為c,樣本i對于第j個類別的隸屬度為μj(xi),各聚類中心記為mi,模糊度參數記為b,則FCM聚類過程可描述如下:
1)確定聚類數目c以及參數b;
2)在數據樣本中隨機選取c個實體作為初始聚類中心;
3)按式1計算隸屬度函數:
(式1)
4)按式2更新聚類中心:
(式2)
5)損失函數如式3所示,判斷其是否收斂,如若收斂,結束迭代并輸出所有的聚類中心及隸屬度值;否則迭代執(zhí)行第三步至第五步。
(式3)
6)將輸出的模糊聚類結果轉化為確定分類,即去模糊化。
F℃M算法中,參數b>l,其選取也是其中關鍵問題之一。b→1時,FCM算法便等價于K-means算法;b→∞時,FCM算法得到的是完全模糊的聚類結果,沒有實際意義。通常情況下,令b等于2。
FCM聚類算法引入了模糊集理論,克服了K-means算法非一即二的性質,但它仍然需要預先確定類別數目并隨機初始化聚類中心,對聚類中心的選取仍具有較高的依賴性。
3實驗及結果分析
本文巖石圖像取自鄂爾多斯某油田并在偏光顯微鏡下拍攝而成。圖像大小為760*753像素。
3.1特征提取
由于RGB顏色空間有R、G和B三個分量,本文分別從這三個顏色空間提取了6個區(qū)塊特征,圖像區(qū)域塊大小為15*15,提取的巖石特征如下:特征1,2,3分別為R、G,B顏色區(qū)塊的均值,特征4,5,6分別R、G,B顏色區(qū)塊的標準偏差。
3.2實驗結果分析
本文使用分別使用了K-means與FCM聚類算法對上述提取的巖石圖像巖石特征進行聚類。原始巖石圖像如圖1,由圖可知,聚類劃分類別為5,聚類結果如下:圖2是使用k-means聚類算法的結果,圖3是FCM的聚類結果:
由圖可知:K-Means聚類和FCM聚類都能夠劃分出不同的巖石組分,且能清晰地看出巖石圖像輪廓,說明聚類方法在巖石組分劃分中的可行性,為后續(xù)的圖像邊緣提取工作奠定基礎,但FCM聚類要比K-means聚類算法更好地反映原圖,如圖中標志1處所示,FCM算法對噪聲的敏感較低,聚類結果更加準確。然而,由于巖石圖像礦物復雜的特殊性,FCM及K_means仍不能實現精準的巖石組分劃分,如圖中標志2處所示,兩個聚類結果都出現了錯誤聚類,故還需在巖石組分聚類方面作更多研究。
4總結
本文通過提取巖石圖像區(qū)域顏色特征,再分別使用k均值和模糊C均值兩種聚類算法對提取特征進行聚類,能將巖石顆粒進行有效劃分,從而為后期的巖石組分識別奠定了基礎。由于巖石圖像復雜,只使用顏色特征進行雖能劃分顆粒,但某些細節(jié)無法進行聚類劃分,因此,下一步工作準備在其他巖石空間進行紋理特征提取,并在此聚類基礎上進行聚類,從而實現對巖石圖像組分進行細分。