王華秋王重陽(yáng)聶 珍
(1.重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶400054;2.重慶理工大學(xué)圖書(shū)館,重慶400054)
空間密度聚類(lèi)在數(shù)字圖書(shū)館圖像檢索中的應(yīng)用
王華秋1王重陽(yáng)1聶 珍2
(1.重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶400054;2.重慶理工大學(xué)圖書(shū)館,重慶400054)
圖像聚類(lèi)為數(shù)字圖書(shū)館圖像管理提供了新的技術(shù)支持,能夠在大量圖像數(shù)據(jù)中發(fā)掘使用戶感興趣的信息。傳統(tǒng)應(yīng)用于圖像聚類(lèi)的特征提取算法往往忽略圖像顏色的空間分布信息,且適應(yīng)性較差。通過(guò)等面積矩形環(huán)對(duì)圖像進(jìn)行劃分并計(jì)算各空間區(qū)域的相關(guān)性,并根據(jù)空間區(qū)域相關(guān)性計(jì)算各區(qū)域的重要性,將空間信息與顏色信息進(jìn)行融合。同時(shí)對(duì)快速搜索密度峰值聚類(lèi)算法的截?cái)嗑嚯x進(jìn)行了合理改進(jìn),在保證聚類(lèi)精度的同時(shí)提高收斂速度。最后將該密度聚類(lèi)算法應(yīng)用于數(shù)字圖書(shū)館圖像檢索之中。通過(guò)實(shí)驗(yàn)驗(yàn)證,本文提出的方法是可行的、有效的。
密度聚類(lèi);截?cái)嗑嚯x;空間相關(guān)性;數(shù)字圖書(shū)館;圖像檢索
隨著數(shù)字圖書(shū)館圖像采集技術(shù)以及存儲(chǔ)技術(shù)的不斷發(fā)展,圖像數(shù)據(jù)正在以驚人的速度增長(zhǎng),越來(lái)越多的圖像數(shù)據(jù)使之成為了傳遞信息的重要媒介。對(duì)于如此龐大的數(shù)據(jù),如何有效地管理和檢索,并從中獲取潛在的信息及價(jià)值已成為研究者們研究熱點(diǎn)。圖像聚類(lèi)通常應(yīng)用于圖像檢索與圖像管理之中,通過(guò)圖像聚類(lèi)可以有效地縮小檢索范圍,提高圖像檢索的效率,同時(shí)可以幫助數(shù)字圖書(shū)館圖像管理者發(fā)掘感興趣的信息。
合理有效的低層特征提取是提高圖像聚類(lèi)準(zhǔn)確度的關(guān)鍵。顏色特征作為一種重要的視覺(jué)特征,被廣泛的應(yīng)用于機(jī)器視覺(jué)、圖像檢索等領(lǐng)域。與其它特征相比,顏色特征對(duì)于圖像本身的大小、方向、角度等依賴(lài)性較小,魯棒性較高。直方圖法[1]是較為常用的顏色特征提取方法,但它并沒(méi)有反映圖像顏色的空間位置分布信息。進(jìn)而有學(xué)者提出分塊直方圖法,將空間信息與顏色信息相融合,但分塊直方圖破壞了顏色特征本身所具備的旋轉(zhuǎn)、縮放、平移不變性。就此,張?chǎng)危?]等提出了一種矩形環(huán)結(jié)構(gòu)的顏色分塊方案,在考慮空間位置的同時(shí)保留了圖像特征的旋轉(zhuǎn)、縮放以及平移不變性。但其在為各區(qū)域塊分配權(quán)重時(shí)簡(jiǎn)單假設(shè)圖像的主體部分位于中心區(qū)域,各區(qū)域權(quán)重從中心至四周遞減且固定不變,沒(méi)有考慮到圖像各區(qū)域間的相關(guān)性。因此,本文將圖像區(qū)域間的相關(guān)性與顏色特征相結(jié)合,形成一種融入?yún)^(qū)域相關(guān)性的顏色特征提取方法。該方法利用等面積矩形環(huán)對(duì)圖像進(jìn)行劃分并提取各區(qū)域特征,之后計(jì)算各區(qū)域之間相似度,根據(jù)區(qū)域間相似度計(jì)算各區(qū)域的權(quán)重。在計(jì)算圖像間相似度時(shí),將圖像的區(qū)域相關(guān)性融入相似度計(jì)算之中,提高聚類(lèi)準(zhǔn)確度。
由于本文提出的特征提取方法得到的各區(qū)域權(quán)值是基于圖像內(nèi)容自動(dòng)設(shè)定的,在進(jìn)行聚類(lèi)時(shí),無(wú)法簡(jiǎn)單的通過(guò)計(jì)算各圖像特征的質(zhì)心來(lái)確定圖像的聚類(lèi)中心,因此本文選取基于圖像間相似度的快速搜索密度峰值聚類(lèi)(DP)算法實(shí)現(xiàn)圖像聚類(lèi)。DP算法是由Alex Rodriguez和Alessandro Laio等人于2014年提出的一種新型無(wú)監(jiān)督聚類(lèi)算法[3],該算法無(wú)需預(yù)先指定聚類(lèi)數(shù)目,在迭代過(guò)程中不斷搜索合適的聚類(lèi)中心,避免了聚類(lèi)結(jié)果受初始類(lèi)代表點(diǎn)影響的缺點(diǎn)。同時(shí)該算法在處理多類(lèi)數(shù)據(jù)時(shí)運(yùn)算速度較快,性能更優(yōu)?;谝陨显?,本文采用DP聚類(lèi)算法對(duì)圖像進(jìn)行聚類(lèi),該算法根據(jù)相似度矩陣對(duì)各數(shù)據(jù)點(diǎn)進(jìn)行劃分。由于該聚類(lèi)算法采用固定的截?cái)嗑嚯x,該系數(shù)過(guò)小會(huì)導(dǎo)致同一個(gè)簇中被拆分成多個(gè),過(guò)大會(huì)導(dǎo)致聚類(lèi)區(qū)分度不高[4]。因此本文自適應(yīng)調(diào)整截?cái)嗑嚯x,使算法能夠減少聚類(lèi)的極端情況。
1.1 顏色特征提取及其量化方法
常用的顏色空間有RGB顏色空間、HSV顏色空間等,但RGB顏色模型是基于硬件角度提出的,不能很好的與人眼感知相匹配,人眼的色彩感知主要包括色調(diào)、飽和度和亮度3個(gè)要素,因此,本文選取HSV顏色空間作為顏色空間模型。
為了減少顏色維度過(guò)高為計(jì)算帶來(lái)的不便,本文對(duì)HSV顏色空間的h、s、v 3個(gè)分量按照人類(lèi)對(duì)顏色的感知進(jìn)行量化,將h分為7份依次代表紅、橙、黃、綠、青、藍(lán)、紫,s和v各分為3份。對(duì)處理后的h、s、v值進(jìn)行非等間距量化,得到一系列離散值,從而便于對(duì)顏色特征進(jìn)行統(tǒng)計(jì)和計(jì)算。具體量化方式如下:
式(1)中的H、S、V分別表示量化后的離散值,h、s、v為通過(guò)RGB值計(jì)算得到的HSV顏色空間連續(xù)值。根據(jù)量化后的H、S、V值對(duì)各分量進(jìn)行線性組合,得到一維矢量L:
式(2)中Qs、Qv分別為飽和度(S)和亮度(V)的量化基數(shù),本文中Qs=4,Qv=2,以減小亮度和飽和度對(duì)聚類(lèi)結(jié)果的影響。量化后的特征值范圍為[0,1,2,…,54],即一副圖像的每個(gè)像素點(diǎn)通過(guò)以上方法映射到55種顏色中。
1.2 區(qū)域相關(guān)性計(jì)算方法
傳統(tǒng)的顏色直方圖法僅僅對(duì)圖像中各像素的顏色值進(jìn)行統(tǒng)計(jì)和整理,并不考慮顏色的空間分布情況,為了使顏色特征更具代表性,并將空間信息與顏色特征進(jìn)行融合,可以在統(tǒng)計(jì)顏色特征時(shí)對(duì)圖像進(jìn)行區(qū)域劃分。均勻分塊法[5]為一種常用的圖像劃分方法,但融入該方法的圖像特征失去了本身所具備的旋轉(zhuǎn)和縮放不變性,因此有學(xué)者提出矩形環(huán)法,該方法在保留了旋轉(zhuǎn)和縮放不變性的同時(shí)能夠反映顏色的空間分布情況,突出圖像不同區(qū)域的重要性,但傳統(tǒng)的矩形環(huán)劃分法對(duì)不同區(qū)域的重要性采用固定值來(lái)表示,適應(yīng)性較差,因此本文提出一種基于圖像內(nèi)容的區(qū)域相關(guān)性計(jì)算方法,并根據(jù)區(qū)域相關(guān)性自動(dòng)調(diào)整各區(qū)域的重要性權(quán)值。具體方法描述如下:
首先按照等面積劃分的方式用矩形環(huán)將圖像劃分為面積相同的不同區(qū)域,假設(shè)圖像的長(zhǎng)為l,寬為w,將圖像劃分為M個(gè)不同的區(qū)域,則矩形環(huán)的邊長(zhǎng)公式如下:
公式(3)中k表示從內(nèi)到外劃分圖像的矩形環(huán)標(biāo)號(hào),劃分方式如圖1所示:
圖1 等面積矩形環(huán)劃分法
劃分后對(duì)各區(qū)域分別賦予不同的權(quán)值,即wk,就一般情況來(lái)說(shuō),圖像中的主體區(qū)域一般位于中心,而邊緣部分為背景區(qū)域,因此wk一般呈中心高,邊緣低的分布,但由于不同圖像的主體區(qū)域所占面積不同,或圖像各區(qū)域所反映的事物大致相同,所以采用固定的權(quán)值不具有普適性,因此本文根據(jù)圖像各區(qū)域的相似性判斷圖像主體區(qū)域的顯著程度及所在區(qū)域,并以此作為設(shè)定wk的標(biāo)準(zhǔn)。
由于累積直方圖較傳統(tǒng)直方圖具有更好的魯棒性[6],本文統(tǒng)計(jì)圖像I各區(qū)域的HSV顏色累積直方圖作為圖像特征,假設(shè)共將圖像分為D個(gè)區(qū)域,區(qū)域k共有Nk個(gè)像素,顏色值為[0,1,…,54],則區(qū)域k的顏色累積直方圖Gk的計(jì)算方法如下:
其中ni為HSV顏色量化值為i的像素點(diǎn)的個(gè)數(shù)。區(qū)域m與n的相似度Sm,n計(jì)算公式如下:
公式(5)中L為HSV顏色空間的量化級(jí)數(shù),本文為55。通過(guò)計(jì)算各區(qū)域之間的相似度,可以有效的描述圖像的區(qū)域相關(guān)性。下面以將圖像劃分為3個(gè)區(qū)域?yàn)槔f(shuō)明通過(guò)圖像的區(qū)域相關(guān)性計(jì)算各區(qū)域重要因子的詳細(xì)過(guò)程。
如圖1所示,假設(shè)從內(nèi)至外分別表示區(qū)域1、區(qū)域2和區(qū)域3,一般情況下,主體區(qū)域分布于圖像中心,而且主體區(qū)域之間相似度較高,背景區(qū)域之間相似度同樣較高,主體區(qū)域與背景區(qū)域往往存在較大的差距。
通過(guò)分析可知,若區(qū)域1重要性權(quán)值較高,則說(shuō)明主體部分集中于區(qū)域1,區(qū)域2與區(qū)域3為背景部分,即區(qū)域2與區(qū)域3相似度較高,而區(qū)域1與區(qū)域3,區(qū)域1與區(qū)域2相似度較低,因此w1正相關(guān)于S2,3,負(fù)相關(guān)于S1,2、S1,3?;谏鲜龇治?,本文定義區(qū)域1的重要性權(quán)值如下:
按照同樣的分析方法,定義區(qū)域2與區(qū)域3的重要性權(quán)值如下:
為了體現(xiàn)圖像的區(qū)域重要性一般從中心至四周遞減,本文定義區(qū)域k的基礎(chǔ)重要性影響因子,其中λ為中心重要性參數(shù),λ越大則中心區(qū)域的重要性越高,反之重要性越低,本文中λ=0.1。
計(jì)算出各區(qū)域權(quán)值之后,需要進(jìn)行歸一化處理,歸一化方法如下:
將各權(quán)值收集至W便得到圖像I的重要性向量:
表1給出了6張圖片所對(duì)應(yīng)的重要性向量:
表1 代表圖像權(quán)值向量對(duì)比表
通過(guò)表1可以看出,本文提出的方法可以通過(guò)圖像各區(qū)域的相似性計(jì)算出各區(qū)域的重要程度,從而反映出主體區(qū)域所在區(qū)域及所占面積。對(duì)于圖像1、3、4,明顯主體區(qū)域大部分位于區(qū)域1內(nèi),因此區(qū)域1權(quán)值較高,而區(qū)域2區(qū)域3的權(quán)值較低。對(duì)于圖像5、6主體區(qū)域不夠明顯,由于基礎(chǔ)重要性影響因子的存在,重要性權(quán)值仍然從中心至四周遞減。
通過(guò)上述運(yùn)算過(guò)程可以看出,本方法即保留了中心區(qū)域的重要性,又根據(jù)圖像內(nèi)容中各區(qū)域的相關(guān)性對(duì)各區(qū)域的重要性進(jìn)行自動(dòng)調(diào)整,提高了特征提取算法的魯棒性及適應(yīng)性。
2.1 快速搜索密度峰值聚類(lèi)(DP)
以n個(gè)數(shù)據(jù)點(diǎn)兩兩之間的相似度組成的相似度矩陣sn×n作為算法的輸入。給定用于確定截?cái)嗑嚯xdc的參數(shù),計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)i的局部密度ρi,原文中局部密度計(jì)算采用了cut-off函數(shù),公式如下:
其中函數(shù)χ(x)定義如下:
得到ρi之后,需要對(duì)每一個(gè)數(shù)據(jù)點(diǎn)i計(jì)算i到任何比i密度大的點(diǎn)的距離的最小值δi,計(jì)算公式如下:
對(duì)于局部密度ρi最大的點(diǎn),要對(duì)其δi進(jìn)行處理,采取如下公式:
至此,對(duì)于每一個(gè)數(shù)據(jù)點(diǎn)i,得到兩個(gè)值ρi和δi,如果該點(diǎn)同時(shí)具有較大的ρi和δi,那么該點(diǎn)很可能為聚類(lèi)中心。在判斷聚類(lèi)中心時(shí),將每一個(gè)點(diǎn)的ρi和δi按如下公式進(jìn)行計(jì)算得到每個(gè)數(shù)據(jù)點(diǎn)i的密度峰值:
最終在得到每個(gè)數(shù)據(jù)點(diǎn)i的密度峰值γi之后,以ρi為橫軸、δi為縱軸繪制決策圖,用戶自行選擇γi值較高的點(diǎn)作為聚類(lèi)中心,剩余的數(shù)據(jù)點(diǎn)則被歸屬到各自的有更高密度的最近鄰點(diǎn)所屬的類(lèi)簇,類(lèi)簇分布僅需這一步即可完成。
一個(gè)簇中的數(shù)據(jù)點(diǎn)可分為簇中心和離群兩部分,前者局部密度較大,對(duì)應(yīng)簇的核心部分,而后者的局部密度較小,對(duì)應(yīng)簇的邊緣部分,我們常說(shuō)的離群點(diǎn)就分布在halo中,這里,如果hi=1,則表示xi屬于離群點(diǎn),如果hi=0,則表示xi屬于簇中心。
2.2 DP算法的優(yōu)化
DP聚類(lèi)算法截?cái)嗑嚯xdc固定不變,參數(shù)dc的選取,從某種意義上決定著聚類(lèi)算法的成效,取得太大或太小都不行:如果dc太大將使得每個(gè)數(shù)據(jù)點(diǎn)i的局部密度都非常大導(dǎo)致難以區(qū)分;如果dc太小則有很大可能會(huì)導(dǎo)致同一個(gè)類(lèi)簇被拆分成多個(gè)。因此,找到一個(gè)合適的截?cái)嗑嚯xdc對(duì)DP算法有較明顯的影響。
本文提出一種截?cái)嗑嚯x動(dòng)態(tài)調(diào)整方案,在DP算法中動(dòng)態(tài)調(diào)整截?cái)嗑嚯x,使之在保證收斂精度的同時(shí)具有較快的收斂速度。因此,我們加入了最后一步,就是剔除離群點(diǎn),再轉(zhuǎn)到公式(11)重新迭代DP算法。
假設(shè)共有n個(gè)數(shù)據(jù)點(diǎn),兩兩之間的相似度組成相似度矩陣Sn×n,同時(shí)由于DP算法中往往以對(duì)角線上的數(shù)值S(k,k)作為數(shù)據(jù)點(diǎn)k是否成為聚類(lèi)中心的標(biāo)準(zhǔn),因此本文根據(jù)迭代過(guò)程中Sn×n對(duì)角線上數(shù)值之和的變化速度來(lái)確定截?cái)嗑嚯x的大小,具體方法如下:
式中dc0為初始截?cái)嗑嚯x,本文中dc0=0.02,α和β為范圍系數(shù),用于調(diào)整截?cái)嗑嚯x的變化范圍和變化速度,α越大,截?cái)嗑嚯x受迭代變化的影響越大,反之影響越小。β主要用于配合α,使得截?cái)嗑嚯x的變化范圍在合理范圍內(nèi),本文中α=0.4,β=0.5。
2.3 相似度矩陣的計(jì)算方法
相似度矩陣的計(jì)算是保證聚類(lèi)精度的關(guān)鍵,為提高相似度計(jì)算的魯棒性,本文提出一種融合區(qū)域相關(guān)性的相似度矩陣計(jì)算方法。該方法在計(jì)算圖像間相同區(qū)域的相似度時(shí),通過(guò)圖像各區(qū)域的重要性權(quán)值調(diào)整各區(qū)域相似度對(duì)整體相似度的影響。
首先設(shè)圖像k區(qū)域i的HSV顏色累積直方圖為Gk(i),重要性權(quán)值向量為Wk,D為區(qū)域劃分的總塊數(shù),則圖像p和q在計(jì)算相似度時(shí)各區(qū)域的重要性權(quán)重Wp,q的計(jì)算方法如下:
則圖像p和圖像q的距離S′(p,q)的計(jì)算公式如下:
式中dis(Gp(i),Gq(i))表示圖像p與圖像q區(qū)域i累積直方圖的歐式距離。最后需要對(duì)S′(p,q)進(jìn)行歸一化處理并取反,得到圖像p與圖像q的相似度S(p,q):
其中S(p,q)=S(q,p),且S(k,k)=0,k=1,2,…,N。
由式(19)可知,相似度計(jì)算時(shí)各區(qū)域的重要性權(quán)值與進(jìn)行對(duì)比的兩幅圖片的重要性向量有關(guān),通過(guò)式(18)和式(19)可以有效的減小主體區(qū)域分布不同的圖像間的相似度,增加主體分布相似圖像間的相似度,提高相似度計(jì)算的魯棒性。
為了將圖像聚類(lèi)應(yīng)用于圖像檢索之中,本文假設(shè)用戶提供的圖像為I,首先對(duì)圖像I根據(jù)不同的特征提取方法進(jìn)行特征提取,之后根據(jù)圖像I與各個(gè)聚類(lèi)中心的距離來(lái)判斷圖像I與哪個(gè)聚類(lèi)中心最為接近。但由于DP聚類(lèi)算法的聚類(lèi)中心數(shù)是算法根據(jù)相似度矩陣自行得到的,其數(shù)量往往會(huì)多于實(shí)際類(lèi)別數(shù),因此只在與圖像I相似度最高類(lèi)中查找相似圖像會(huì)將圖像聚類(lèi)產(chǎn)生的錯(cuò)誤累積至圖像檢索,在這里本文找出與圖像I相似度最高的3個(gè)聚類(lèi)中心,分別為C1、C2、C3,則圖像I與由C1、C2、C3所屬的類(lèi)中的所有圖片進(jìn)行相似度對(duì)比,按照相似度大小返回檢索結(jié)果,整體流程如圖2所示。
圖2 采用聚類(lèi)的圖像檢索流程圖
3.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)在Windows7 64位操作系統(tǒng)下進(jìn)行,測(cè)試軟件為matlab 2010b,實(shí)驗(yàn)的硬件環(huán)境為CPU:Intel(R)Core(TM)2 Duo,內(nèi)存:4G。
3.2 聚類(lèi)算法在圖像檢索中的應(yīng)用
為驗(yàn)證本文提出的圖像聚類(lèi)算法在檢索中的有效性,實(shí)驗(yàn)選用Corel庫(kù)[7]作為測(cè)試圖像庫(kù),其中包括Bus、Flower、Dinosaurs、Horse、Mountain、Sunset 6類(lèi)圖像,每類(lèi)圖像100張共600張圖像作為圖像庫(kù),其中每類(lèi)抽取50張做180°旋轉(zhuǎn),每類(lèi)中隨機(jī)抽取10張作為查詢(xún)圖像。通過(guò)計(jì)算各類(lèi)圖像的查準(zhǔn)率-查全率[8]來(lái)評(píng)價(jià)特征提取及相似度計(jì)算方法的性能。
實(shí)驗(yàn)對(duì)比全局HSV顏色直方圖法(GH)、均勻分塊HSV顏色直方圖法(BH)、矩形環(huán)分塊法(BCH)及本文提出的融入?yún)^(qū)域相關(guān)性的顏色特征提取方法(RBCH)所對(duì)應(yīng)的檢索精度。各直方圖均采取累積直方圖的方式。為了更加直觀的比較各種方法,圖3~圖6給出了各種方法在查全率為給定值時(shí)所對(duì)應(yīng)的查準(zhǔn)率。
圖3 查全率=50%時(shí)查準(zhǔn)率統(tǒng)計(jì)圖
圖4 查全率=60%時(shí)各查準(zhǔn)率統(tǒng)計(jì)圖
圖5 查全率=70%時(shí)查準(zhǔn)率統(tǒng)計(jì)圖
圖6 查全率=80%時(shí)查準(zhǔn)率統(tǒng)計(jì)圖
根據(jù)圖3~圖6可以看出,RBCH法根據(jù)圖像內(nèi)容自動(dòng)調(diào)整各區(qū)域的重要性權(quán)值,具有更高的適應(yīng)性,更具體的描述了顏色的空間分布特性,在一定程度上提高了檢索精度。GH法僅僅對(duì)全局顏色特征進(jìn)行了統(tǒng)計(jì),沒(méi)有描述顏色的空間分布情況,檢索精度較低。BH法能夠更具體的描述顏色的空間分布情況,但由于實(shí)驗(yàn)中加入了旋轉(zhuǎn)的干擾,檢索精度有所降低。
為了對(duì)比聚類(lèi)與未聚類(lèi)對(duì)檢索精度的影響,本研究以RBCH為特征提取方法,對(duì)聚類(lèi)后的檢索精度與未聚類(lèi)的檢索精度進(jìn)行了比較,對(duì)比結(jié)果如表2所示:
表2 聚類(lèi)與未聚類(lèi)檢索結(jié)果對(duì)比統(tǒng)計(jì)表
從表2可以看出,在查全率較低時(shí),應(yīng)用聚類(lèi)算法的圖像檢索具有較高的查準(zhǔn)率;而在查全率較高時(shí),未應(yīng)用聚類(lèi)算法的圖像檢索具有較高的查準(zhǔn)率,原因在于聚類(lèi)算法能夠?qū)⑾嗨贫容^高的聚集在一起,在進(jìn)行圖像檢索時(shí)只在與查詢(xún)圖像較為相似的類(lèi)中查詢(xún),排除了大量圖像的干擾,因此在查全率較低時(shí)查準(zhǔn)率較高,然而由于聚類(lèi)精度有限,有部分原本與查詢(xún)圖像相似的圖像并不在查詢(xún)庫(kù)內(nèi),因此在查全率較高時(shí),檢索精度略低,但在檢索時(shí)間上,應(yīng)用聚類(lèi)算法的圖像檢索效率要高于原始方法。
本文在傳統(tǒng)顏色空間分布特征提取的基礎(chǔ)上,提出了一種融入?yún)^(qū)域相關(guān)性的顏色特征提取方法,根據(jù)圖像自身內(nèi)容調(diào)整圖像各區(qū)域的重要性權(quán)值,提高了特征提取算法的適應(yīng)性,其重點(diǎn)在于區(qū)域相關(guān)性的提取以及與區(qū)域特征的融合方法,并沒(méi)有引入復(fù)雜的特征提取方法。另外,考慮DP算法中截?cái)嗑嚯xdc對(duì)聚類(lèi)的影響,提出了一種自適應(yīng)調(diào)整方法,該方法使DP算法在保證收斂穩(wěn)定性及準(zhǔn)確性的同時(shí),減少迭代次數(shù),提高收斂速度。實(shí)驗(yàn)結(jié)果證明,本文提出的彩色圖像聚類(lèi)算法是可行的、有效的。接下來(lái)的研究將考慮引入更加高效的特征提取方法,同時(shí)將在大型圖像數(shù)據(jù)庫(kù)中進(jìn)行實(shí)驗(yàn),并根據(jù)數(shù)據(jù)量改進(jìn)DP聚類(lèi)算法使之適應(yīng)數(shù)字圖書(shū)館圖像數(shù)據(jù)庫(kù)。
[1]Pin Liao,Yongjun Wang,Mingyan Wang,Siru Ding,Huimin Ma. An Effective Preprocessing Scheme for Face Recognition Based on Local Gabor Binary Pattern Histogram Sequence[J].IEEE International Conference on Computer Science and Automation Engineering,Zhangjiajie,2012:581-585.
[2]張?chǎng)?,溫顯斌,孟慶霞.基于顏色特征的圖像檢索方法研究[J].計(jì)算機(jī)科學(xué),2012,39(11):243-260.
[3]Alex Rodriguez,Alessandro Laio.Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492-1496.
[4]Xu R,Wunsch D.Survey of clustering algorithms[J].IEEE Trans Neural Networks,2005,16(3):645-678.
[5]Lincy Rachel Mathews,Arathy C.Haran V.Histogram Shifting Based Reversible Data Hiding Using Block Division and Pixel Differences[C].2014 International Conference on Control,Instrumentation,Communication and Computational Technologies,Kanyakumari,2014:937-940.
[6]Li Xiao,Wang Weilan,Yang Wei.Improved local accumulate histogram-based Thangka Image Retrieval[C].Image Analysis and Signal Processing,2010,(6):318-321.
[7]James Z.Wang,Jia Li,Gio Wiederhold,SIMPL Icity:Semanticssensitive Integrated Matching for Picture LIbraries,IEEE Trans.on Pattern Analysis and Machine Intelligence,2001,23(9):947-963.
[8]黃承慧,印鑒,候 .一種結(jié)合詞項(xiàng)語(yǔ)義信息的TF-IDF方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5):856-864.
(本文責(zé)任編輯:孫國(guó)雷)
Application of Spatial Density Clustering in Image Retrieval of Digital Library
Wang Huaqiu1Wang Chongyang1Nie Zhen2
(1.College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China;2.Library,Chongqing University of Technology,Chongqing 400054,China)
Image clustering of digital library can discover user interested information from large image database so as to provide a new technical support for image management.Traditional feature extraction algorithms which are applied to image clustering often ignore the space distribution information of image color,and have the poor adaptability.Images are divided by equal regional rectangle ring and regional spatial correlations are calculated,which is used to calculate regional importance to integrate spatial information with color information.At the same time,to ensure clustering accuracy and improve convergence speed,the cutoff distance parameter of the fast search density peaks clustering(DP)is improved reasonably.Finally the proposed clustering algorithm is used in image retrieval of digital library.Experimental results show that the proposed method is feasible and effective.
density clustering;cutoff distance;spatial area correlation;digital library;image retrieval
10.3969/j.issn.1008-0821.2016.02.025
TP391.41
A
1008-0821(2016)02-0129-06
2015-08-03
國(guó)家社會(huì)科學(xué)基金一般項(xiàng)目“數(shù)字圖書(shū)館智能圖像檢索系統(tǒng)研制”(項(xiàng)目編號(hào):14BTQ053),重慶市研究生教育教學(xué)改革研究項(xiàng)目“研究生《大數(shù)據(jù)挖掘》課程案例與演示系統(tǒng)研制”(項(xiàng)目編號(hào):yjg143090)。
王華秋(1975-),男,教授,博士,研究方向:圖像檢索、數(shù)據(jù)挖掘,發(fā)表論文6篇。