鄭新想+段士雷
摘要:該文首先簡單介紹多層次卷積ICA-HMAX模型;然后提出卷積核的可視化方法實現(xiàn)對不同層次卷積核的理解。提出采用ICA-HMAX模型的S3層特征實現(xiàn)不同類別的視覺的相似度計算。通過在Caltech101數(shù)據(jù)集上實現(xiàn)對不同的類別之間的視覺相似度計算,并與類別之間的語義相似度進行對比分析進而探討語義相似與視覺相似之間的關(guān)系。
關(guān)鍵詞:ICA-HMAX模型;視覺相似度;卷積核;語義相似度
中圖分類號:TP317 文獻標識碼:A 文章編號:1009-3044(2016)08-0177-05
Abstract: This paper firstly introduces a multi-level convolutional ICA-HMAX model; then propose visualization methods of the convolution kernel convolution kernel to achieve different levels of understanding. Proposed using S3 layer feature of the ICA-HMAX model to achieve visual similarity calculation of different categories. By implementing different categories of visual similarity between calculated on Caltech 101 datasets, and compared with the semantic similarity between categories and further explore the relationship between semantic similarity and visual similarity between.
Key words: ICA-HMAX model ;visual similarity; kernel convolution kernel; semantic similarity
1 概述
21世紀以來,數(shù)字成像技術(shù)和存儲技術(shù)得到了空前的發(fā)展;使得每天有數(shù)量巨大的數(shù)字圖像進入人們的生活,成為人類生活、工作、娛樂中的組成部分。另一方面,互聯(lián)網(wǎng)技術(shù)的發(fā)展給圖像的迅速傳播提供了有利的條件。此外,圖像是視覺信息的重要來源之一,蘊含豐富的語義信息。圖像理解是人工智能領(lǐng)域中的一個新的方向,其核心問題是研究如何使計算機能夠像人腦一樣有效正確理解圖像中所表達的高層語義信息。
仿生多層模型在計算機視覺和人工智能鄰域取得了顯著的成果。20世紀末,Poggio和Riesenhuber根據(jù)IT皮層的生理學數(shù)據(jù)提出了標準HMAX模型[1],該模型模擬視皮層中腹側(cè)通路中簡單細胞(Simple Cell)和復雜細胞(Complex Cell)的交替處理的功能,實現(xiàn)多層次特征提取。在此基礎上,Serre等人提出一種具有隨著層次的增加復雜度和不變性逐漸增強的圖像特征表達[2],并將其應用到真實場景的目標識別中,其識別性能明顯優(yōu)于傳統(tǒng)的特征表達(如SIFT特征[3]);Hu等人根據(jù)大腦神經(jīng)元響應的稀疏特性進一步擴展HMAX模型,提出了Sparse-HMAX模型[4],在分類性能上遠遠優(yōu)于HMAX模型,同時較好模擬和解釋神經(jīng)元對視覺信號的稀疏響應。
本文內(nèi)容章節(jié)安排如下:第2節(jié)首先簡要描述了本文的ICA-HMAX模型;然后介紹卷積核的可視化方法;第3節(jié)介紹基于WordNet的語義相似度計算和基于ICA-HMAX的視覺相似度計算方法。第4節(jié)實驗結(jié)果和分析。第5節(jié)總結(jié)與展望。
2 ICA-HMAX模型與卷積核可視化
2.1 ICA-HMAX模型簡介
前饋ICA-HMAX模型由五層構(gòu)成如圖1所示。自底向上依次為S1→C1→S2→C2→S3五層,其中S1層卷積核(W1、V1)由獨立成分析(Independent Component Analysis,ICA)方法從彩色圖像的數(shù)據(jù)塊中學習獲得,為了使得C1層具有局部空間平移不變性,在S1層的每個二維平面響應圖上進行局部最大值匯聚(max pooling)操作;同理,S2層卷積核(W2、V2)也是采用ICA方法從C1層采樣塊中學習獲得;同樣,為了使得C2層也具有局部空間平移不變性,在S2層的每個二維平面響應圖上進行最大值匯聚(max pooling)操作;同理可以獲得S3層的卷積核(W3、V3)以及S3層的特征表達。值得注意的是該前饋模型的卷積核均為單尺度。
2.2 卷積核的可視化
若要實現(xiàn)對多層模型ICA-HMAX的深入的了解,需要知道不同層次的卷積核編碼的圖像信息。由于S1層特征卷積核是在彩色圖像的原始像素層上學習,可以在像素空間上直接觀察S1層卷積核編碼的圖像信息。而S2、S3層的卷積核是在圖像C1、C2層的響應圖上經(jīng)過ICA學習獲得高維數(shù)據(jù),因此不能直接觀察其卷積核編碼的圖像信息。為了觀察S2、S3層的卷積核所編碼的圖像信息,當給定一個某個類別的卷積核的條件下,本文提出在該類別的圖像上找出使得該卷積核的刺激最大的前50個感受野區(qū)域,并將這些區(qū)域與其刺激的響應值進行加權(quán)求和,然后取平均;所得結(jié)果具有表示S2、S3層卷積核所編碼的圖像信息從而作為S2、S3層的卷積核可視化。
3 相似度計算
3.1 基于WordNet的語義相似度計算
WordNet是由普林斯頓大學心理學家,語言學家和計算機工程師聯(lián)合設計的一種基于認知語言學的英語詞典。它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個“單詞的網(wǎng)絡”。一般來講,國內(nèi)外的研究學者將經(jīng)典的基于語義的相似度的計算方法分為三個類型[6,7]:基于距離的相似度計算(Path Counting Measures)、基于信息內(nèi)容的相似度計算(Information Content Measures)和基于特性的相似度計算(Feature-based Measures)。本文主要介紹基于距離的相似度計算方法——Shortest Path算法和Leacock and Chodorow算法。
3.2 基于視覺的類別相似度
眾所周知,不同類別之間存在部分外觀相似性,比如山貓和豹、狼和哈士奇、浣熊和果子貍等等??梢?,分別在兩個類別的訓練集上訓練ICA-HMAX模型,若兩個類別視覺相似度越高,則這兩個類別的S3層卷積核相似的基元個數(shù)越多;反之,兩類別的S3層卷積核中的相似的基元個數(shù)越多,兩個類別的視覺相似度越高。
我們知道兩個類別的相似度越高,則兩個類別的ICA-HMAX模型越能較好地實現(xiàn)對異類圖像的相互表達。因此采用配對字典的方法[10]實現(xiàn)對S3特征表達的重構(gòu)。然后,將重構(gòu)圖像與輸入圖的結(jié)構(gòu)相似度[11](SSIM)作為衡量S3層特征對輸入圖像描述的好壞。若重構(gòu)圖像與輸入圖的結(jié)構(gòu)相似度越高,則兩個類別的視覺語義相似度越高,反之亦然。基于目標類別的視覺語義相似度算法流程如表1所示:
4 實驗結(jié)果與分析
實驗設置:實驗所使用的PC機配置為Intel(R) Core(TM) i7-4770、CPU 3.4GHz × 8 cores、RAM 16 GB、Windows 7操作系統(tǒng)。為了探索不同類別之間的語義相似度和基于ICA-HMAX模型S3層的特征描述子的視覺語義相似度之間的關(guān)系,本文選擇了Caltech 101數(shù)據(jù)集[12]進行實驗,該數(shù)據(jù)集以彩色自然場景圖像為主(包含一定數(shù)量的人造圖像)。包括動物、花、人臉等101個目標類別以及一個背景類別。除背景類別之外,每個類別中的每張圖片只包括一個類別中的一個實例,這有利于本實驗進行。在進行實驗之前,首先對數(shù)據(jù)集中每張圖像做如下預測處理:統(tǒng)一圖像高度為140個像素,保持圖像的長寬比不變,采用雙三次插值對其進行縮放。將每個類別中的圖片按照4:1的比例分成訓練集和測試集,在訓練上訓練各個類別的ICA-HMAX模型,采用3.2節(jié)介紹的視覺語義相似度方法在測試集上測試不同類別之間的視覺相似度。
4.1卷積核的可視化
圖3(b)、(c)、(d)分別給出了S1、S2和S3層卷積核的可視化結(jié)果。結(jié)果表明,不同層次的卷積核編碼了圖像不同類型的特征。圖3(b)中的S1層卷積核均編碼了圖像底層特征(如彩色邊緣、彩色表面、拐角等結(jié)構(gòu)信息等),并且不同類別的底層特征具有相似的結(jié)構(gòu)特征;值得注意的是,通過ICA在彩色圖像上的學習,獲得了重要的顏色信息如彩色邊緣、彩色表面等。S2層卷積核編碼了各類別的中層部件特征,例如face_easy類別的S2層編碼了人臉的眼睛、嘴巴、鼻子等信息,如圖3(c)所示。由圖3(d)可以看出,由于S3層卷積核的感受野比S2層大,編碼信息更趨于類別信息。研究表明:這符合圖像理解的層次特性[13]。
4.2 相似度
數(shù)據(jù)集Caltech101圖像部分類別之間的基于路徑的Shortest Path算法和Leacock and Chodorow的相似度矩陣分別如圖4和圖5所示。由圖4和圖5可以看出這兩個矩陣都是對稱矩陣。與一個類別最相似的類別有的不止一個,如與ant類別最相近的類別是butterfly、dragonfly、mayfly。值得注意的是圖5中基于路徑的Leacock and Chodorow算法的類別相似度數(shù)據(jù)是經(jīng)過歸一化處理后的數(shù)據(jù)。
本文采用基于ICA-HMAX模型的S3層的特征計算視覺相似,其視覺相似度矩陣的結(jié)果如圖6所示。在該相似度矩陣中,把同一類別之間的視覺相似度設置為1作參考,來衡量不同類別之間的視覺相對度。在圖6中橫軸表示ICA-HMAX模型的類別??v軸表示測試圖像的類別。由圖6可見,不同類別之間的視覺相似度矩陣不是對稱。比如用airplane的ICA-HMAX模型對helicopter類別的圖像進行表達,并計算其視覺相似度其值為0.506;而當用helicopter的ICA-HMAX模型對airplane類別的圖像進行表達,并計算其視覺相似度其值為0.253。且與一個類別最相似的類別只有一個。在Caltech101數(shù)據(jù)集中helicopter類別的直升機的實例圖片上都存在較為明顯的螺旋槳。在airplane類別的飛機圖像沒有明顯的螺旋槳。而在忽略helicopter類別的直升機螺旋槳后,直升機的機體形狀與airplane類別的機體在視覺上存在相似。基于語義和視覺的相似度統(tǒng)計如表2所示。
兩種相似度之間的差異性分析:由表2可知,基于語言的語義的相似度與基于視覺的相似度之間存在一致性和差異性。一致性:由表2可知,20個類別中基于語義和視覺的相似度一致有5對,分別sunflower和bonsai、rhino和llama、airplane和helicopter、ant和mayfly、hedgehog和llama。比如airplane和helicopter這兩個類別的實例如圖7所示。由圖可見,不同類別之間存在視覺相似,兩個類別實例在的某些局部形狀、顏色、紋理等方面具有視覺上的相似性。差異性:由表2可知:20個類別中基于語義和視覺的相似度不一致的較多。如圖8所示,ant、butterfly和dragonfly這三個類別的語義相對度很高但是它們的視覺相似度相差較大。原因在于:語義即語言意義,是人腦對客觀上事物的認識和理解,它具有高度的概括性和抽象性。類別之間的語義往往根據(jù)類別所屬范疇、關(guān)系、屬性、功能等綜合特性來進行劃分。而僅僅從事物的視覺外觀上無法體現(xiàn)出上述種種關(guān)系。
5 結(jié)論與展望
通過ICA-HMAX不同層次卷積核的可視化分析可知:自底層到高層不同層次的卷積編碼規(guī)律如下:不同層次的卷積核編碼了圖像不同類型的特征。模型的層次越高,卷積核編碼的信息越趨向于反映目標類別的特性,S1層卷積核編碼體現(xiàn)底層共享特征(如拐角、 彩色邊緣、彩色表面等)。S2層卷積核編碼中層部件特征,比如face_easy類別的S2層編碼了人臉的眼睛、嘴巴、鼻子等局部信息。S3層編碼信息更趨于類別的全局信息。研究表明:這符合圖像理解的層次特性。
通過視覺的相似和語義的相似度分析可知,基于ICA-HMAX模型的S3層特性的視覺相似度與語義相似之間存在一致性和差異性。這種一致性和差異性在計算機視覺和人工智能領(lǐng)域具有互補性。比如對于那些語義和視覺的相似度一致的類別,尤其是視覺相似度較高的類別之間可以進行遷移學習,使得計算機實現(xiàn)人類的類比學習能力。對于語義和視覺的相似度差異性在圖像的檢索和圖像理解等方面可以實現(xiàn)互補。通過語義的相似度我們可以檢索到較多的相似類別,如與ant語義相似的有ant、dragonfly、butterfly。這樣我們可以實現(xiàn)大范圍的查找。然后在通過視覺的相似度進一步篩選正確的類別圖片。反之,通過語義可以指導基于視覺的機器學習。
參考文獻:
[1] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex [J]. Nature neuroscience, 1999, 2(11): 1019-1025.
[2] Serre T, Wolf L, Bileschi S, et al. Robust object recognition with cortex-like mechanisms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007, 29(3): 411-426.
[3] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91-110.
[4] Hu X, Zhang J, Li J, et al. Sparsity-regularized HMAX for visual recognition [J]. PloS one, 2013, 9(1): e81813-e81813
[5] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines [C] //Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010: 807-814.
[6] Hliaoutakis A. Semantic Similarity Measures in MeSH Ontology and their application to Information Retrieval on Medline [J]. 2005.
[7] Raftopoulou P, Petrakis E. Semantic similarity measures: A comparison study [J]. Technical University of Crete, Department of Electronic and Computer Engineering, Tech. Rep. TR-TUC-ISL-04-2005, 2005.
[8] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and Application of a Metric on Semantic Nets”, IEEE Transactions on Systems, Man and Cybernetics, vol. 19, Issue 1, (1989) January-February, pp. 17 - 30.
[9] H. Bulskov, R. Knappe and T. Andreasen, “On Measuring Similarity for Conceptual Querying”, Proceedings of the 5th International Conference on Flexible Query Answering Systems, (2002) October 27-29, Copenhagen, Denmark.
[10] Vondrick C, Khosla A, Malisiewicz T, et al. HOGgles: Visualizing Object Detection Features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1-8.
[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[12] Li Fei-Fei, Rob Fergus, and Pietro Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories [J]. Computer Vision and Image Understanding, 2007, 106(1): 59-70.
[13] 謝昭. 圖像理解的關(guān)鍵問題和方法研究[D]. 合肥工業(yè)大學, 2007.