林青青+胡勝+鄭靈鳳+郭淑敏+朱蓉
摘要:伴隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人類逐漸積累的數(shù)據(jù)量急劇增多。為了從海量的數(shù)據(jù)中挖掘出有用的信息,為用戶提供決策支持,聚類算法得到了廣泛的關(guān)注,并應(yīng)用于各類數(shù)據(jù)處理與數(shù)據(jù)挖掘之中。本項(xiàng)目在分析圖像視覺(jué)特性的基礎(chǔ)之上,通過(guò)對(duì)圖像顏色、紋理和形狀多種特征信息的有效融合,利用K-均值算法進(jìn)行聚類。提出的方法在采集的圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),有很好的聚類效果。
關(guān)鍵詞:數(shù)據(jù)處理;數(shù)據(jù)挖掘;特征提??;聚類分析
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)31-0164-04
Abstract:With the rapid development of computer technology and Internet technology, the amount of data accumulated in the human gradually increased dramatically. For the vast amounts of data into useful information for the user to provide decision support, clustering algorithm has been widely attention and applied to all types of data processing and data mining applications. The project based on the analysis of visual features on the image, through the effective integration of color, texture and shape features of the image information, the use of K-Means algorithm to cluster. The proposed method can be carried out experiments on the acquired image data set, and has a good clustering effect .
Key words: data processing; data mining;feature extraction;cluster analysis
現(xiàn)今,互聯(lián)網(wǎng)上的圖像信息數(shù)量如海洋般龐大,我們雖可以通過(guò)眼睛獲取十分豐富的信息,然而人類可以接受的范圍是有限的,如何從海量的數(shù)據(jù)之中準(zhǔn)確、快速地將圖像進(jìn)行聚類,最終為人類社會(huì)的發(fā)展服務(wù),是當(dāng)前圖像特征提取領(lǐng)域的一個(gè)研究焦點(diǎn)。
圖像聚類就是運(yùn)用計(jì)算機(jī)對(duì)圖像庫(kù)中圖像進(jìn)行定量分析,再把圖像劃分到某一種特征類別中,以代替人類對(duì)圖像的視覺(jué)判別。圖像聚類的過(guò)程實(shí)質(zhì)上就是一個(gè)基于知識(shí)的圖像理解過(guò)程,同時(shí)也是人類對(duì)圖像的視覺(jué)判別的延續(xù)與發(fā)展。
基于視覺(jué)特征的圖像聚類研究是解決視覺(jué)圖像問(wèn)題的一條重要途徑,也是一個(gè)聚集了計(jì)算機(jī)視覺(jué)、圖像處理、數(shù)據(jù)挖掘等多個(gè)研究領(lǐng)域的交叉研究方向?,F(xiàn)如今,基于視覺(jué)特征的圖像分類研究已越來(lái)越受到國(guó)內(nèi)外研究者的關(guān)注,在近幾年舉辦的與該領(lǐng)域研究相關(guān)的一些頂級(jí)國(guó)際會(huì)議,如計(jì)算機(jī)視覺(jué)與圖像處理國(guó)際會(huì)議CVPR、數(shù)據(jù)挖掘國(guó)際會(huì)議KDD、ICDM等等,都有相關(guān)文獻(xiàn)發(fā)表。
文獻(xiàn)[2]中,孫君頂?shù)热嗽谛螤钐卣魈崛≈刑岢鲆环N新的圖像分塊形狀特征的描述方法,對(duì)圖像采用固定塊的分割方法。文獻(xiàn)[4]中,劉麗等人介紹了關(guān)于紋理特征的所有研究方法。文獻(xiàn)[6]中,趙書(shū)蓮在應(yīng)用研究過(guò)程中使用Hu不變矩算法進(jìn)行形狀特征的提取。在博士論文[11]中,朱蓉論述了所有視覺(jué)特征的提取方法。
隨著研究者在聚類技術(shù)上的不斷改進(jìn)和創(chuàng)新,許多新奇且高效的聚類算法層出不窮,針對(duì)特定的問(wèn)題和用戶,許多學(xué)者研究出了多種具有代表性的聚類算法,并且廣泛地應(yīng)用于模式識(shí)別、生物信息、圖像處理以及數(shù)據(jù)挖掘等領(lǐng)域。
文獻(xiàn)[7]中,臧少杰介紹了所有聚類算法,并且將這些算法進(jìn)行了比較。文獻(xiàn)[8]中,路晶等人針對(duì)非監(jiān)督學(xué)習(xí),在基于EM算法啟發(fā)式迭代優(yōu)化算法的框架下,提出了6種多例聚類算法。文獻(xiàn)[9]中,周俊祥對(duì)模糊C-均值聚類(FCM,全稱為Fuzzy C-Means Algorithm)算法進(jìn)行改進(jìn),有效地降低了孤立點(diǎn)對(duì)圖像數(shù)據(jù)聚類結(jié)果的影響。
1 特征提取
基于視覺(jué)特征的網(wǎng)絡(luò)圖像特征有三個(gè),分別為顏色、紋理、形狀。特征提取是將某一模式的一組測(cè)量值進(jìn)行變換,用以表現(xiàn)這一模式具有代表性特征的方法。通過(guò)影像分析和變換,以提取所需特征的方法。
1.1 顏色特征的提取
顏色特征的提取主要有四種方法,為顏色直方圖、顏色矩與顏色熵的研究、顏色相關(guān)圖的研究、
顏色聚合向量的研究。在這四種方法中,顏色矩與顏色熵的研究方法的分辨能力比較低,所以通常也必須和其他圖像特征結(jié)合起來(lái)進(jìn)行檢索。顏色相關(guān)圖的研究計(jì)算量很大,近些年來(lái)對(duì)于顏色相關(guān)圖的研究才剛剛起步,主要是結(jié)合其他方法一起來(lái)研究,在文獻(xiàn)[3]中作者介紹了一種基于顏色相關(guān)圖和小波變換的算法。顏色聚合向量的研究當(dāng)前也主要集中于與其他方法結(jié)合來(lái)進(jìn)行效果的改進(jìn)上,比如該文中作者在顏色直方圖的基礎(chǔ)之上采用了一種基于顏色聚合向量的方法從而提高了檢索的精度。而顏色直方圖具有相似度計(jì)算,有特征提取簡(jiǎn)潔和不隨圖像尺度、旋轉(zhuǎn)等變化而變化的特點(diǎn)。所以顏色直方圖相較于其他方法更適合于顏色特征的提取。具體方法如下:
1.2紋理特征的提取
紋理是指在圖像中重復(fù)出現(xiàn)的局部模式及其排列規(guī)則。紋理特征與顏色特征相似,同樣也是一個(gè)整體性的特征。近年來(lái),對(duì)紋理分析方法的種種理論或者方法在紋理特征提取中的實(shí)踐已然基本成形,Tuceryan和Jain將紋理特征提取的方法歸納為五大類,即結(jié)構(gòu)統(tǒng)計(jì)、 模型、信號(hào)處理、幾何和結(jié)構(gòu)家族。這種分類方法被大多學(xué)者所采納。
模型家族的方法能兼顧紋理局部的隨機(jī)性與整體上的規(guī)律性,而且有很強(qiáng)大的靈活性;主要優(yōu)勢(shì)是提供了用來(lái)表示空間上相關(guān)的隨機(jī)變量之間的相互作用的模型。它的不足在于模型系數(shù)的求解有難度,需要相當(dāng)大的計(jì)算量,往往需要迭代了數(shù)百次才能達(dá)到收斂。信號(hào)處理家族對(duì)紋理進(jìn)行多分辨描述,可以在更精準(zhǔn)的尺度之上分析紋理。但有有效性不佳和計(jì)算量大的缺陷。
而本文推薦使用的統(tǒng)計(jì)家族方法簡(jiǎn)便,容易實(shí)現(xiàn),特別是灰度共生矩陣(GLCM,全稱為Gray Level Co-occurrence Matrix)方法是世界公認(rèn)的有效方法,具有比較強(qiáng)的適應(yīng)性。
灰度共生矩陣是被廣泛使用的紋理提取的算法,也是分析圖像的基礎(chǔ),它運(yùn)用統(tǒng)計(jì)學(xué)當(dāng)中的概率來(lái)反映圖像灰度的有關(guān)方向和間隔等整體信息。其算法描述如下:
是圖像中任意一點(diǎn),是圖像中移動(dòng)后的另一點(diǎn),因此形成一個(gè)點(diǎn)對(duì), 是該點(diǎn)對(duì)的灰度值,即m是點(diǎn)的灰度值, n是點(diǎn)的灰度值。然后固定和,通過(guò)點(diǎn)的改動(dòng),來(lái)明確相應(yīng)的值,所以相應(yīng)灰度值的組合為(灰度值的級(jí)數(shù)為L(zhǎng))。對(duì)于研究的圖像,計(jì)算出值出現(xiàn)的頻率,化其積分為1,它的概率為,則灰度共生矩陣(灰度聯(lián)合概率密度)為。
對(duì)于有區(qū)別的紋理周期分布,就有不一樣的離差分值,即不一樣的與值。在紋理比較細(xì)致的情況下,選?。?,0),(0,1),(1,1),(-1,1)等小的差分值是非常有效果的。若與取值比較小,則表明紋理圖像變化情況遲緩,那么在灰度聯(lián)合概率矩陣對(duì)角線上的數(shù)值就相對(duì)較大,適合于做對(duì)角線分布;若與取值比較大,那么說(shuō)明紋理變化愈快,則在灰度聯(lián)合概率矩陣對(duì)角線上的數(shù)值就愈小,適合于做均勻分布。一系列的紋理特征的統(tǒng)計(jì)量能夠通過(guò)灰度共生矩陣而得到,其中常用的有以下8個(gè)紋理特征值。
(1)角二階矩
(2)對(duì)比度其中。
(3)灰度相關(guān)其中分別為與的標(biāo)準(zhǔn)差和準(zhǔn)值。
(4)熵
(5)逆差矩其中k為常數(shù)且。
(6)最大概率
(7)相異
(8)反差
1.3 形狀特征的提取
形狀特征提取表示方法有2種,一種是區(qū)域特性,它主要是針對(duì)于圖像的整個(gè)形狀區(qū)域;另一種是輪廓特性,它主要針對(duì)于物體的外邊界。前人關(guān)于形狀特征提取的典型方法有:邊界特征值法、幾何參數(shù)法、形狀不變矩法、傅里葉形狀描述法等。本文采用Hu不變矩算法來(lái)提取形狀特征。
Hu不變矩是由Hu在1962年提出來(lái)的。不變矩是一種經(jīng)過(guò)提取具有平移、旋轉(zhuǎn)與比例不變性的圖像特征,不變矩的中心思想是使用對(duì)變換不敏感的基于區(qū)域的幾個(gè)矩陣作為形狀特征,從而進(jìn)行圖像識(shí)別的方法。矩不變量因?yàn)榫哂胁浑S圖像的位置、大小與方向而變化的特點(diǎn),對(duì)于提取圖像中的形狀特征而言,是一個(gè)很常用的工具。
2 聚類分析
聚類是依據(jù)事物的某些屬性特性,將事物劃分成為不同類的過(guò)程,其目的是使得類間的相似性盡可能小,類內(nèi)的相似性盡可能大。在許多應(yīng)用當(dāng)中,聚類分析是一種數(shù)據(jù)預(yù)處理的過(guò)程,同時(shí)也是進(jìn)一步分析和處理數(shù)據(jù)的基礎(chǔ)。經(jīng)過(guò)恰當(dāng)?shù)木垲愃惴?,?duì)事物的特征數(shù)據(jù)進(jìn)行預(yù)處理,從而事物才便于研究,事物的內(nèi)部規(guī)律才可能被人類所掌握。
聚類算法大致可以分為以下幾種:劃分、層次、基于密度、基于網(wǎng)格和基于模型的聚類。
基于層次的聚類是將既定數(shù)據(jù)對(duì)象集合進(jìn)行層次的分解,雖然適用于任意形狀和任意屬性的數(shù)據(jù)集,但算法執(zhí)行時(shí)間長(zhǎng),不能回溯處理;基于密度的聚類是基于發(fā)現(xiàn)所有形狀的聚類結(jié)果,能夠用來(lái)過(guò)濾“噪聲”孤立點(diǎn)數(shù)據(jù),發(fā)現(xiàn)所有形狀的不同簇,但處理時(shí)間與每維空間所劃分的單元數(shù)相關(guān),一定程度上降低了聚類的質(zhì)量和準(zhǔn)確性;基于網(wǎng)格的聚類能夠處理所有類型的數(shù)據(jù),但這是以降低聚類的質(zhì)量和準(zhǔn)確度為代價(jià)的;基于模型的方法對(duì)每個(gè)簇假設(shè)了一個(gè)固定的模型,繼而找到對(duì)給定模型最佳擬合的數(shù)據(jù)?;谀P偷乃惴軌蚪?jīng)過(guò)搭建反映數(shù)據(jù)點(diǎn)空間分布的密度函數(shù)來(lái)確定聚類。
基于劃分的算法首先構(gòu)建一個(gè)初始的劃分,確定需要構(gòu)建的劃分?jǐn)?shù)目k。之后使用一種迭代的重定位技術(shù),通過(guò)對(duì)象在劃分間變動(dòng)來(lái)改進(jìn)劃分,使在相同的類中對(duì)象之間盡可能接近或相近,相反不同類中的對(duì)象盡可能闊別或有差別。為了能夠達(dá)到全局的最優(yōu),基于劃分的聚類會(huì)需要列舉所有可能的劃分。實(shí)際上,大部分應(yīng)用采用了K-均值算法(K-Means)和K-中心點(diǎn)算法這兩種較流行的啟發(fā)式算法。
這兩種啟發(fā)式聚類算法對(duì)在中小規(guī)模的數(shù)據(jù)庫(kù)中找到球狀簇非常適用。下面主要介紹本文所采用的K-均值算法。
2.1 K-均值算法
K-均值算法的過(guò)程:
1.隨機(jī)選取k個(gè)數(shù)據(jù)點(diǎn)作為初始的種子聚類中心。
2.計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與各個(gè)中資聚類中心之間的距離,把每個(gè)數(shù)據(jù)點(diǎn)分配給距離它最近的聚類中心。聚類中心以及分配給它的數(shù)據(jù)點(diǎn)就代表一個(gè)聚類。
3.重復(fù)以上步驟,直至達(dá)到以下任一條件便會(huì)終止:
(1)沒(méi)有(或最小數(shù)目)數(shù)據(jù)點(diǎn)被重新分配給不同的聚類。
(2)沒(méi)有(或最小數(shù)目)聚類中心再發(fā)生變化。
3.2 特征提取實(shí)驗(yàn)
紋理特征提?。簭膱D像庫(kù)中選取100幅花朵類圖像,用統(tǒng)計(jì)家族的灰度共生矩陣(GLCM)提取其8維紋理特征。
形狀特征提取:從圖像庫(kù)中選取100幅花朵類圖像,選擇Hu不變矩方法提取其形狀特征。
3.3 具體分析過(guò)程
第一步:從圖像庫(kù)中選取兩組不同圖像,使用灰度共生矩陣和Hu不變矩提取各自的紋理和形狀特征;
第二步:利用K均值算法將這兩組圖像分別基于紋理和形狀特征進(jìn)行聚類,再?gòu)闹蟹謩e選取60幅得到聚類中心的范圍,求出平均值;
第三步:分別從花朵類和美食類圖像中選取40幅圖像,將每幅圖像的紋理和形狀特征數(shù)值與平均值進(jìn)行歐式距離計(jì)算,距離較小時(shí)可認(rèn)為屬于該類,而后計(jì)算兩組數(shù)據(jù)的準(zhǔn)確率。
1)紋理特征的聚類結(jié)果
測(cè)試集中40幅花朵類圖像的紋理特征數(shù)據(jù)與訓(xùn)練集中花朵類圖像紋理特征數(shù)據(jù)平均值的歐式距離全都小于和訓(xùn)練集中美食類圖像紋理特征數(shù)據(jù)平均值的歐式距離,故實(shí)驗(yàn)準(zhǔn)確率達(dá)到100.0%;測(cè)試集中40幅美食類圖像的紋理特征數(shù)據(jù)與訓(xùn)練集中美食類圖像紋理特征數(shù)據(jù)平均值的歐式距離全都小于和訓(xùn)練集中花朵類圖像紋理特征數(shù)據(jù)平均值的歐式距離,故實(shí)驗(yàn)準(zhǔn)確率達(dá)到100.0%。紋理特征的比較結(jié)果如表1所示:
2)形狀特征的聚類結(jié)果
測(cè)試集中40幅花朵類圖像的形狀特征數(shù)據(jù)與訓(xùn)練集中花朵類圖像形狀特征數(shù)據(jù)平均值的歐式距離有28幅圖像的數(shù)值小于和訓(xùn)練集中美食類圖像形狀特征數(shù)據(jù)平均值的歐式距離,故實(shí)驗(yàn)準(zhǔn)確率達(dá)到70.0%。測(cè)試集中40幅美食類圖像的形狀特征數(shù)據(jù)與訓(xùn)練集中美食類圖像形狀特征數(shù)據(jù)平均值的歐式距離有30幅圖像的數(shù)值小于和訓(xùn)練集中花朵類圖像形狀特征數(shù)據(jù)平均值的歐式距離,故實(shí)驗(yàn)準(zhǔn)確率達(dá)到75.0%。形狀特征的比較結(jié)果如表2所示:
綜上所述:
1)花朵類圖像和美食類圖像在紋理上的有很大的相似性,因?yàn)榛ǘ漕悎D像的紋理較細(xì)致,其基元較小,因而空間頻率較高,而美食類圖像的紋理較粗糙,其基元較大,空間頻率較低。
2)花朵類圖像和美食類圖像在形狀上的區(qū)別比較小,由于某些花朵的形狀與某些美食的形狀有相似性,如帶有花邊圖案的盤子所盛的美食的圖像和擺盤呈花型的美食圖像與花朵類圖像有很大的相似度,如圖1中的(a)圖與圖2中的(c)圖,會(huì)有較低的準(zhǔn)確率。而圖2中(a)圖的美食呈長(zhǎng)方形,則會(huì)與花朵類圖像有很大的區(qū)別。
4 總結(jié)
基于視覺(jué)特征的圖像聚類研究中,花朵類圖像和美食類圖像在紋理和形狀上的聚類都有一定的準(zhǔn)確率,特別是在紋理的聚類上本次研究有著100.0%的準(zhǔn)確率。同時(shí)也有不足之處,本次研究并未融入顏色特征,針對(duì)特定的圖像也還需要進(jìn)一步研究具有區(qū)分度的特征。本文所用的K-均值算法只能應(yīng)用于那些均值能夠被定義的數(shù)據(jù)上。因此,它很難應(yīng)用到范疇數(shù)據(jù)上,且對(duì)于異常值異常敏感。所以現(xiàn)在所用的聚類算法未來(lái)要繼續(xù)改進(jìn),比如聚類中心的計(jì)算能夠?qū)崿F(xiàn)自適應(yīng)等。
基于視覺(jué)特征的圖像聚類方法研究涉及圖像搜索引擎、數(shù)字照片的個(gè)性化管理、敏感圖像的識(shí)別與過(guò)濾、藝術(shù)圖像鑒別等等,具有十分重要的現(xiàn)實(shí)意義,相關(guān)研究領(lǐng)域的最新知識(shí)與研究成果都可以創(chuàng)新性地應(yīng)用到解決各方面的問(wèn)題中,以促進(jìn)圖像聚類技術(shù)的快速發(fā)展。
參考文獻(xiàn):
[1] 高進(jìn)樂(lè),康耀紅,伍小芹.基于顏色特征圖像檢索方法的研究[J] .信息技術(shù),2008(11):4-7.
[2] 孫君頂,趙珊.圖像底層特征提取與檢索技術(shù)[M].北京:電子工業(yè)出版社,2009:49-85.
[3] 張篤振.基于顏色特征與LBP的圖像檢索算法研究[J] .微計(jì)算機(jī)應(yīng)用,2009,30(6):35-38.
[4] 劉麗,匡綱要.圖像紋理特征提取方法綜述[J].中國(guó)圖象圖形學(xué)報(bào),2009(4).
[5] 王志瑞,閆彩良.圖像特征提取方法的綜述[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,2011(6).
[6] 趙書(shū)蓮.形狀分類及其在圖像檢索系統(tǒng)中的應(yīng)用研究[D].山東:山東師范大學(xué),2006.
[7] 臧少杰.基于視覺(jué)的聚類算法研究及應(yīng)用[D].山東.山東師范大學(xué),2008:1-49.
[8] 路晶等.基于多例學(xué)習(xí)的WEB圖像聚類[J].計(jì)算機(jī)研究與發(fā)展,2009,46(9):1462-1470.
[9] 周俊祥.改進(jìn)FCM的圖像聚類方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(7).
[10] 劉康苗.基于視覺(jué)與語(yǔ)義融合特征的階段式圖像聚類[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2008,42(12).
[11] 朱蓉.基于語(yǔ)義的WEB圖像分類研究[D].浙江大學(xué),2011.
[12] 張建萍,劉希玉.基于聚類分析的K-means算法研究及應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2007(5).
[13] 張講社,徐宗本.基于視覺(jué)系統(tǒng)的聚類:原理與算法[J].工程數(shù)學(xué)學(xué)報(bào),2000(5).
[14] Jain A. K. Data Clustering: a Reviewing[J].ACM Comput. Surv., 1999, 31(3):264-323.
[15] Tan S.K. Clustering Analysis: Basic Concepts and Algorithms [J].Data Ming (Chapter 8),2004, 487-568.