郭玉堂,李 艷
(1.安徽大學(xué)計算機科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.合肥師范學(xué)院計算機科學(xué)與技術(shù)系,安徽 合肥 230601)
基于連續(xù)預(yù)測的半監(jiān)督學(xué)習(xí)圖像語義標(biāo)注*
郭玉堂1,2,李 艷1
(1.安徽大學(xué)計算機科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2.合肥師范學(xué)院計算機科學(xué)與技術(shù)系,安徽 合肥 230601)
為了在圖像底層特征與高層語義之間建立關(guān)系,提高圖像自動標(biāo)注的精確度,結(jié)合基于圖學(xué)習(xí)的方法和基于分類的標(biāo)注算法,提出了基于連續(xù)預(yù)測的半監(jiān)督學(xué)習(xí)圖像語義標(biāo)注的方法,并對該方法的復(fù)雜度進行分析。該方法利用標(biāo)簽數(shù)據(jù)提供的信息和標(biāo)簽事例與無標(biāo)簽事例之間的關(guān)系,根據(jù)鄰接點(事例)屬于同一個類的事實,構(gòu)建K鄰近圖。用一個基于圖的分類器,通過核函數(shù)有效地計算鄰接信息。在建立圖的基礎(chǔ)上,把經(jīng)過劃分后的樣本節(jié)點集通過基于連續(xù)預(yù)測的多標(biāo)簽半監(jiān)督學(xué)習(xí)方法進行標(biāo)簽傳遞。實驗表明,提出的算法在圖像標(biāo)注中的標(biāo)注詞的平均查準(zhǔn)率、平均查全率方面有顯著的提高。
連續(xù)預(yù)測;半監(jiān)督;圖像標(biāo)注;圖學(xué)習(xí);多標(biāo)簽
圖像檢索技術(shù)從誕生以來,經(jīng)歷了基于文本的圖像檢索TBIR(Text Based Image Retrieval)、基于內(nèi)容的圖像檢索CBIR(Content Based Image Retrieval)以及基于標(biāo)注的圖像檢索技術(shù)ABIR(Annotation Based Image Retrieval)。ABIR技術(shù)能有效地解決圖像低層特征與高層語義之間存在的“語義鴻溝”問題,它的出現(xiàn)促進了自動圖像標(biāo)注技術(shù)AIA(Automatic Image Annotation)的發(fā)展。自動圖像標(biāo)注技術(shù)是利用計算機視覺、模式識別、機器學(xué)習(xí)等技術(shù),讓計算機自動地給未標(biāo)注圖像加上能準(zhǔn)確反映圖像語義特征的關(guān)鍵詞,以便將圖像檢索技術(shù)轉(zhuǎn)化為相對比較成熟的文本檢索技術(shù)。
對于自動圖像標(biāo)注技術(shù),目前已經(jīng)取得一定的成果,也存在各種不同的標(biāo)注方法。1999年,Mori Y等人[1]提出共生模型,它首創(chuàng)性地開辟了自動圖像標(biāo)注領(lǐng)域的研究。Jeon J等人[2]提出一種交叉媒體相關(guān)模型CMRM,將圖像標(biāo)注問題看作跨語言檢索問題,通過計算圖像區(qū)域類和標(biāo)簽集的聯(lián)合概率對圖像進行標(biāo)注。文獻[3]提出的基于機器翻譯的識別模型,將圖像分割的區(qū)域進行聚類,利用機器翻譯模型在區(qū)域類與標(biāo)簽之間形成映射,再通過EM算法進行實現(xiàn)。Lavrenko V等人[4]提出的連續(xù)空間相關(guān)模型CRM(Continueness Relationship Model),則是用連續(xù)概率密度函數(shù)來描述區(qū)域類,進而利用區(qū)域類與標(biāo)簽的聯(lián)合概率分布圖像進行標(biāo)注。有監(jiān)督多標(biāo)注方法SML(Supervised Multi-Label)[5,6]采用最小錯誤率的優(yōu)化準(zhǔn)則和統(tǒng)計分類的思想。文獻[7]利用支持向量機SVM(Support Vector Machine)的多分類器為空間映射方法,將圖像的低層特征映射成具有一定高層語義的模型特征,從而實現(xiàn)基于概念索引的圖像標(biāo)注。近年來,基于圖學(xué)習(xí)的方法受到很多學(xué)者的關(guān)注。文獻[8]提出了一種基于Gcap自動圖像標(biāo)注的方法,它運用圖像分割算法把圖像分割成一系列區(qū)域,用一個關(guān)聯(lián)圖表示圖像與區(qū)域、圖像與標(biāo)注詞、區(qū)域與區(qū)域的關(guān)系,以待標(biāo)注的圖像節(jié)點作為起點,運行隨機游走算法對待標(biāo)注圖像進行標(biāo)注。文獻[9]介紹了圖的半監(jiān)督學(xué)習(xí),并敘述了如何構(gòu)建圖等內(nèi)容。文獻[10]提出通過連續(xù)預(yù)測的方式傳遞標(biāo)簽的半監(jiān)督學(xué)習(xí)方法,但這種方法是一種傳統(tǒng)的二分類方法,在很多方面具有局限性。
為了提高圖像標(biāo)注的精確度,結(jié)合基于圖學(xué)習(xí)標(biāo)注方法和基于分類的標(biāo)注方法,提出了基于連續(xù)預(yù)測的半監(jiān)督學(xué)習(xí)圖像語義標(biāo)注,該方法利用標(biāo)簽數(shù)據(jù)提供的信息和標(biāo)簽事例與無標(biāo)簽事例之間的關(guān)系,根據(jù)鄰接點(事例)屬于同一個類的事實,以頂點對應(yīng)事例,邊權(quán)值對應(yīng)相似性的形式,構(gòu)建相似圖,用相似圖表示數(shù)據(jù)點之間的關(guān)系。用一個基于圖的分類器,通過核函數(shù)有效地計算鄰接信息。進而,每一個無標(biāo)簽節(jié)點相對于每個類都對應(yīng)一個值,這個值用來度量屬于這個類的程度,進而得出每個節(jié)點關(guān)于類的一序列的值,根據(jù)某一量度對這一序列的值進行取舍,便可得出這個無標(biāo)簽點對應(yīng)的多標(biāo)簽。并可以應(yīng)用兩種不同方式:類標(biāo)簽(硬標(biāo)簽)和似然類估計(軟標(biāo)簽)對圖像進行標(biāo)注。
2.1 基于圖的半監(jiān)督學(xué)習(xí)
傳統(tǒng)的基于分類的機器學(xué)習(xí)的方法僅僅利用標(biāo)簽集作為訓(xùn)練集得出分類器,然而困難的是如何得到這些標(biāo)簽集,因為這些標(biāo)簽集的得到是很費時費事的,需要大量的人力和物力。而無標(biāo)簽數(shù)據(jù)是很容易得到的,但無標(biāo)簽數(shù)據(jù)卻很少被利用。半監(jiān)督學(xué)習(xí)卻可以充分利用少量的標(biāo)簽數(shù)據(jù)和大量的無標(biāo)簽數(shù)據(jù)建立分類器,進而對無標(biāo)簽數(shù)據(jù)進行分類,事實證明結(jié)果確實比較精確,很令人滿意,同時節(jié)省了大量的人力。在理論和實踐上有很大的意義和可行性,因此得到多數(shù)學(xué)者的青睞。
在半監(jiān)督算法中,已知類標(biāo)的訓(xùn)練數(shù)據(jù)和未知類標(biāo)的測試數(shù)據(jù)都將參與到算法的學(xué)習(xí)過程中。在學(xué)習(xí)階段利用更多的信息,如數(shù)據(jù)的分布特性等,它適用于總數(shù)據(jù)量較大、已標(biāo)記訓(xùn)練數(shù)據(jù)量相對較小的情況。主要利用數(shù)據(jù)的總體空間分布特征和原始類標(biāo)簽信息,使得最終得到的分類結(jié)果在數(shù)據(jù)空間上能夠總體充分平滑(相鄰點的標(biāo)簽相似),并保證盡可能地擬合訓(xùn)練數(shù)據(jù)。
2.2 基于連續(xù)預(yù)測的半監(jiān)督學(xué)習(xí)
傳統(tǒng)的連續(xù)預(yù)測算法利用一個基于圖的核光滑分類器和一個標(biāo)準(zhǔn)化機制,依次預(yù)測Xu內(nèi)節(jié)點的標(biāo)簽。在給定相似矩陣Wr的情況下,首先進行光滑化,光滑矩陣Sr的元素是:
(1)
光滑矩陣Sr是一個隨機矩陣,所有行之和等于1。然后在經(jīng)過局部階段的迭代后,預(yù)測出對任何一個v∈Xr的標(biāo)簽fv,fv是一個[0,1]的真實實數(shù)值,若v∈Xl,則fv=1。在局部階段的基礎(chǔ)上,全局階段把局部階段的值進行規(guī)則化。同時,這個正規(guī)化部分考慮到遠離標(biāo)簽節(jié)點的無標(biāo)簽節(jié)點的分類更加不確定的事實,最終每一個樣本點對應(yīng)一個數(shù)值,這個數(shù)值表示它屬于某個指定類的概率的大小。
傳統(tǒng)的連續(xù)預(yù)測的半監(jiān)督學(xué)習(xí)是一個二分類問題。對于傳統(tǒng)的二分類,它的主要思想是:假設(shè)類與類之間相互獨立,一個樣本只歸為其中的一個類。而在實際應(yīng)用中,僅僅二分類并不能理想地解決一些現(xiàn)實問題,因為樣本會和多個類相關(guān)聯(lián),需將樣本同時歸到多個類,如:圖像標(biāo)注問題,因為一個圖像它可以同時擁有多個標(biāo)簽,假如一個人物山水畫的圖像,二分類標(biāo)注只會把它標(biāo)注為人物、山、水中的某一個標(biāo)簽,這具有局限性。而多標(biāo)簽分類則把上面的三個關(guān)鍵詞同時標(biāo)注出來,這能更準(zhǔn)確和全面地反映出圖像的特性。這就是多標(biāo)簽分類問題的優(yōu)點。所以,僅僅用二分類的方法是很難合理解決一些問題的,但若用多標(biāo)簽分類方法來解決的話,問題就會變得簡單易行。所以,在此基礎(chǔ)上,我們提出基于連續(xù)預(yù)測的多標(biāo)簽半監(jiān)督學(xué)習(xí)。
基于連續(xù)預(yù)測的多標(biāo)簽半監(jiān)督學(xué)習(xí)是在傳統(tǒng)的連續(xù)預(yù)測算法的基礎(chǔ)上進行的擴展?;谶B續(xù)預(yù)測的多標(biāo)簽半監(jiān)督學(xué)習(xí)在光滑化的基礎(chǔ)上,首先定義一個分類器,對于任何一個節(jié)點v∈Xr,分類器Hr(v)為:
(2)
其中Fr是標(biāo)簽預(yù)測矩陣,F(xiàn)r∈Rn×c,且F0=YL。對每個節(jié)點v∈Xr對應(yīng)的Hr(v)是一個Rn×c的矩陣。
多標(biāo)簽連續(xù)預(yù)測算法描述如下:
輸出:Y=Fk。
從r=1開始進行下面兩個階段的循環(huán):
(1)局部階段:
(2)全局階段:
首先我們從圖像數(shù)據(jù)庫中取出一小部分圖像作為標(biāo)簽集,其余圖像作為待標(biāo)注點。然后對數(shù)據(jù)庫中所有的圖像進行視覺特征提取,為避免分割后的局部特征不能完整反映圖像的全局語義信息的問題,我們采取提取圖像全局特征的方法。這里的視覺特征包括顏色特征、邊緣特征、邊緣方向特征、紋理特征等。對于圖像庫我們分別進行某一視覺特征的提取。如顏色特征的提?。簭牟季峙c結(jié)構(gòu)信息得到圖像特征,對每個給定的圖像求出其對應(yīng)的顏色分布直方圖,采用一定的量化方法(如:歸一化)將顏色特征直方圖轉(zhuǎn)化為顏色特征向量。對以上圖像特征我們分別進行了實驗比較,發(fā)現(xiàn)顏色特征在我們實驗中效果最好。
(3)
其中d(,)表示最短路徑,調(diào)節(jié)參數(shù)τ>0。在距離的計算中,我們對歐氏距離、余弦角距離、直方圖相交距離等,進行了一系列的實驗比較,發(fā)現(xiàn)歐氏距離具有很大的優(yōu)越性。
劃分后,Xr對應(yīng)的對稱相似矩陣Wr,是權(quán)值相似矩陣W的子矩陣。對每個節(jié)點集Xr(r∈1,…,k)中的點利用多標(biāo)簽連續(xù)預(yù)測算法,分別進行局部和全局的處理,最終得出標(biāo)簽預(yù)測矩陣Fk。
對于實驗數(shù)據(jù)集的選取,為了實驗的可靠性,我們選取Corel 5000圖像數(shù)據(jù)集作為實驗對象,其中有花、熊、虎、人物、飛機、山脈、鳥,珊瑚等50類圖像,每類中包含100幅圖像,共計5 000幅圖像作為實驗數(shù)據(jù),每幅圖像與l~5個標(biāo)注詞關(guān)聯(lián),共371個詞。取其中的500個圖像作為已標(biāo)簽數(shù)據(jù),其余的作為未標(biāo)簽樣本數(shù)據(jù),我們的最終目標(biāo)是對未標(biāo)簽圖像進行語義標(biāo)注,我們用4到5個關(guān)鍵詞描述每個圖像的基本語義。用Matlab 7.10作為實驗的平臺。
由于每幅圖像使用1~5個來標(biāo)注,因此取概率最大的5個詞作為該圖像的標(biāo)注詞。對每個標(biāo)注詞用查準(zhǔn)率(Precision)、查全率(Recall)和F-Measure標(biāo)準(zhǔn)對各種方法的性能進行分析。并用平均查準(zhǔn)率(ave-precision)、平均查全率(ave-recall)和平均F值(ave-F)的三種情況的分布情況進行比較分析。
Figure 1 Performance comparison of several kinds of annotation algorithms
為了說明我們的算法標(biāo)注圖像的有效性,在圖1中,把我們的算法與下面的幾種傳統(tǒng)的經(jīng)典算法TM、CMRM、GLM(Graph Learning Model)[11]、Gcap、互相關(guān)傳播模型(CLP)[12]和CRM在平均查準(zhǔn)率(ave-precision)、平均查全率(ave-recall)、平均F值(ave-F)進行比較。其中GLM是采用傳統(tǒng)建圖方法的基本圖像標(biāo)注,CLP利用詞匯間的相關(guān)性提高圖像標(biāo)注的性能。從圖1可以看出,即使與標(biāo)注性能比較好的GLM、CLP相比較,本文方法的標(biāo)注性能都比GLM、CLP要好,因此可以知道:我們提出的算法的標(biāo)注性能得到了顯著的改進。
Table 1 Results of image annotation
Figure 2 Effect of K values on experimental resutlts in the sparse graph
本文提出的基于連續(xù)預(yù)測的多標(biāo)簽半監(jiān)督學(xué)習(xí)是在傳統(tǒng)的連續(xù)預(yù)測算法的思想上進行的擴展。結(jié)合連續(xù)預(yù)測和半監(jiān)督學(xué)習(xí)的思想,在傳統(tǒng)的二分類的連續(xù)預(yù)測的基礎(chǔ)上,進一步把連續(xù)預(yù)測算法擴展為多標(biāo)簽半監(jiān)督學(xué)習(xí),并利用這種方法進行圖像標(biāo)注。它根據(jù)圖像之間的相似度建立圖,把經(jīng)過劃分后的樣本節(jié)點集通過連續(xù)預(yù)測的方法進行多標(biāo)簽傳遞。實驗表明,本文提出的算法顯著提高了圖像標(biāo)注的性能。與經(jīng)典的算法相比,算法的實時性,有待于進一步提高。所以,在今后的工作中將考慮進一步提高算法的效率和半監(jiān)督學(xué)習(xí)算法的研究。
[1] Mori Y, Takahashi H, Oka R. Image-to-word transformation based on dividing and vector quantizing images with words[EB/OL].[2013-06-13]. http://citeseer.ist.psu.edu/368129.html.
[2] Jeon J, Lavrenko V, Mnmatha R. Automatic image annotation and retrieval using cross-media relevance models[C]∥Proc of the 26th Annual Intelnational ACM SIGIR Conference on Research and Development in information Retrieval, 2003:119-126.
[3] Duygulu P, Barnard K, de Freitas J F G, et al. Object recognition as machine translation:learning a lexicon for a fixed image vocabulary[C]∥Proc of the 7th European Conference on Computer Vision Copenhagen, 2002:97-112.
[4] Lavrenko V, Mnmatha R, Jeon J. A model for learning the semantics of pictures[C]∥Proc of Information Retrieval(2003) Citeseer, 2003:553-560.
[5] Carneiro G, Chan A B, Moreno P J, et al.Supervised learning of semantic classes for image annotation and retrival[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(3):394-410.
[6] Vasconcelos N. Minimum probability of error image retrieval [J]. IEEE Transactions on Signal Processing,2004,52(8):2322-2336.
[7] Cusano C, Ciocca G, Schettini R. Image annotation using SVM [J]. Proceedings of SPIE,2004,53(41):330-338.
[8] Pan Jia-yu, Yang Hyung-jeong, Faloutsos C, et al. Gcap:Graphbased automatic image captioning[C]∥Proc of the 4th International Workshop on Muhimedia Data and Document Engineering(MDDE 04),in Conjunction with Computer Vision Pat-tern Recognition Conference(CVPR 04),2004:146-156.
[9] Zhu X. Semi-supervised learning with graphs[R]. Technical Report, Pittsburgh:Carnegie Mellon University, 2005.
[10] Culp M, Michailidis G. Graph-based semisupervised learning[J]. IEEE Transactions on Pattern Analysis and Mac-
hine Intelligence,2008, 30(6):174-179.
[11] Tong H,He J,Li M,et al.Graph based multi-modality learning[C]∥Proc of the 13th Annual ACM International Conference on Multimedia,2005:862-871.
[12] Kang F, Jin R, Sukthankar R. Correlated label propagation with application to multi-label learning[C]∥Proc of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1719-1726.
[13] Liu Wei,Wang Jun,Chang S-F.Robust and scalable graph-based semisupervised learning[J]. Proceedings of the IEEE,2012,100(9):2624-2638.
[14] Tang Jin-hui, Hong Ri-chang, Yan Shui-chang, et al. Image annotation by kNN-sparse graph-based label propagation over noisily tagged web images[J].ACM Transactions on Intelligent Systems and Technology,2011,2(2):14.
[15] Gu Fang-ming,Liu Oayou,Wang Xin-ying.Semi-supervised weighted distance metric learning for kNN classification[C]∥Proc of IEEE International Conference on Computer, Mechatronics, Control and Electronic Engineering (CMCE)2010:406-409.
GUO Yu-tang,born in 1962,PhD,professor,his research interests include pattern recognition, and image processing.
李艷(1984-),女,安徽阜陽人,碩士生,研究方向為模式識別與圖像處理。E-mail:274732046@qq.com
LI Yan,born in 1984,MS candidate,her research interests include pattern recognition, and image processing.
Semi-supervised learning image semantic annotation based on sequential prediction
GUO Yu-tang1,2,LI Yan1
(1.School of Computer Science and Technology,Anhui University,Hefei 230601;2.Department of Computer Science and Technology,Hefei Normal College,Hefei 230601,China)
In order to establish the relationship between low-level features and high-level semantics of the image,improve the accuracy of image automatic annotation,combining with graph learning and classification annotation algorithm,we propose an image semantic annotation method for sequential prediction-based semi-supervised learning,and analyze the complexity of the method.According to the fact that the adjacent vertexes (cases) should belong to the same class, by using the information provided by tag datum and the relationship between tag cases and cases with no labels,the method constructs a K relative neighborhood graph.We use a graph-based classifier and a kernel function to calculate the adjacency information effectively.On the basis of building graphs,we propagate the labels of the node sets derived from the samples by sequential prediction-based semi-supervised multiple labels learning method.Experiments show that the proposed algorithm for image annotation significantly improves the average precision ratio and the average recall ratio of the marked words .
sequential prediction;semi-supervised;image annotation;graph learning;multiple labels
1007-130X(2015)03-0553-06
2013-09-24;
2014-02-22基金項目:安徽省自然科學(xué)基金資助項目(11040606M134);安徽省高校自然科學(xué)基金資助項目(KJ2103A217)
TP391.41
A
10.3969/j.issn.1007-130X.2015.03.024
郭玉堂(1962-),男,安徽潛山人,博士,教授,研究方向為模式識別與圖像處理。E-mail:aieyt@ah.edu.cn
通信地址:230601 安徽省合肥市合肥經(jīng)濟技術(shù)開發(fā)區(qū)九龍路111號安徽大學(xué)新區(qū)計算機科學(xué)與技術(shù)學(xué)院
Address:School of Computer Science and Technology,New Area,Anhui University,111 Jiulong Rd,District of Economic Technology Development,Hefei 230601,Anhui,P.R.China