• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合語義知識的深度表達學習及在視覺理解中的應用

      2017-06-23 12:47:04張瑞茂彭杰鋒
      計算機研究與發(fā)展 2017年6期
      關鍵詞:語義像素神經(jīng)網(wǎng)絡

      張瑞茂 彭杰鋒 吳 恙 林 倞

      (中山大學數(shù)據(jù)科學與計算機學院 廣州 510006)

      融合語義知識的深度表達學習及在視覺理解中的應用

      張瑞茂 彭杰鋒 吳 恙 林 倞

      (中山大學數(shù)據(jù)科學與計算機學院 廣州 510006)

      (linliang@ieee.org)

      近幾年來,隨著深度學習技術(shù)的日趨完善,傳統(tǒng)的計算機視覺任務得到了前所未有的發(fā)展.如何將傳統(tǒng)視覺研究中的領域知識融入到深度模型中提升深度模型的視覺表達能力,從而應對更為復雜的視覺任務,成為了學術(shù)界廣泛關注的問題.鑒于此,以融合了語義知識的深度表達學習為主線展開了一系列研究.取得的主要創(chuàng)新成果包括3個方面:1)研究了將單類型的語義信息(類別相似性)融入到深度特征的學習中,提出了嵌入正則化語義關聯(lián)的深度Hash學習方法,并將其應用于圖像的相似性比對與檢索問題中,取得了較大的性能提升;2)研究了將多類型信息(多重上下文信息)融入到深度特征的學習中,提出了基于長短期記憶神經(jīng)網(wǎng)絡的場景上下文學習方法,并將其應用于復雜場景的幾何屬性分析問題中;3)研究了將視覺數(shù)據(jù)的結(jié)構(gòu)化語義配置融入到深度表達的學習中,提出了融合語法知識的表達學習方法,并將其應用到復雜場景下的通用內(nèi)容解析問題中.相關的實驗結(jié)果表明:該方法能有效地對場景的結(jié)構(gòu)化配置進行預測.

      深度學習;神經(jīng)網(wǎng)絡;語義嵌入;場景解析;相似性檢索

      Fig. 1 Development of computer vision in various fields圖1 計算機視覺在多個相關領域的發(fā)展

      自1956年達特茅斯會議開始,有關人工智能的研究已經(jīng)經(jīng)歷了50年的歷史,而計算機視覺又是其中最為重要、最具有應用價值的研究領域之一.近10年來,伴隨著神經(jīng)網(wǎng)絡(深度學習)研究的巨大突破[1-3],以及大型視覺數(shù)據(jù)集的不斷涌現(xiàn)[4-6].基于深度神經(jīng)網(wǎng)絡的視覺模型對圖像、視頻等數(shù)據(jù)的表達能力獲得了空前的提升,諸如圖像分類、物體識別等傳統(tǒng)視覺問題得到了有效解決,更加復雜多樣的視覺任務也隨之涌現(xiàn).隨著研究的不斷深入,傳統(tǒng)的深度模型(諸如卷積神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡等)已經(jīng)很難滿足日趨豐富的視覺應用任務.究其原因,主要集中于2個方面:

      1) 深度學習植根于人工智能早期的聯(lián)結(jié)主義研究.其核心目的在于構(gòu)建較為通用的網(wǎng)絡結(jié)構(gòu),進而通過組合的方式實現(xiàn)從簡單模式到復雜模式的抽象.近幾年來,深度學習作為機器學習的一個分支再次受到了學界的廣泛關注[7].但是在網(wǎng)絡結(jié)構(gòu)的設計與改進方面,多數(shù)研究工作依舊側(cè)重從學習理論入手,如使用Dropout技術(shù)[8]避免過擬合現(xiàn)象,使用ReLU函數(shù)[9]替代Sigmoid函數(shù)避免非線性變化過程中的梯度消失等.該類工作將視覺數(shù)據(jù)作為整體的處理對象,并沒有對數(shù)據(jù)內(nèi)部蘊含的信息進行深層次地挖掘,因此所能夠處理的視覺任務也比較單一.而在傳統(tǒng)的計算機視覺研究中,大量的深層次的視覺信息被用于模型的構(gòu)建,使得模型能夠處理的視覺任務也較為豐富.

      2) 隨著Web2.0技術(shù)及其周邊應用的迅猛發(fā)展,互聯(lián)網(wǎng)上的圖片和視頻數(shù)量在近幾年呈極速增長趨勢.例如,截至2014年,雅虎公司旗下的圖片分享網(wǎng)站Flickr所托管的圖片數(shù)量已經(jīng)接近于100億張.除了視覺數(shù)據(jù)本身的增長迅猛,與視覺數(shù)據(jù)相關的標題注釋、文字說明以及標簽描述也充斥在互聯(lián)網(wǎng)中.這使得互聯(lián)網(wǎng)中的視覺數(shù)據(jù)普遍包含了豐富的描述性信息以及語義知識.因此,如何利用這些語義信息[10]對視覺數(shù)據(jù)中所呈現(xiàn)的內(nèi)容進行深層次的理解,從而更好地實現(xiàn)相關數(shù)據(jù)的自動標注、科學管理以及高效檢索,成為了互聯(lián)網(wǎng)信息資源高效利用的核心問題之一,受到了學術(shù)界和工業(yè)界的廣泛關注.

      基于以上討論,如何更為有效地、充分地利用數(shù)據(jù)資源,挖掘數(shù)據(jù)里潛在的語義知識,進而提升深度表達模型的表達能力,實現(xiàn)更為豐富的視覺理解任務是當下計算機視覺領域亟待思考與解決的問題.如圖1所示,深度模型表達能力的提升將進一步推動虛擬現(xiàn)實、增強現(xiàn)實、自動駕駛、無人機、智能媒體等相關領域的發(fā)展.

      Fig. 3 This paper discusses how to combine semantic knowledge with existing deep model from three aspects圖3 本文從3個方面探討了如何將語義知識與現(xiàn)有深度模型相結(jié)合

      鑒于此,本課題致力于研究融合語義知識的深度表達學習.其特點在于利用多層的非線性模型來對復雜的視覺內(nèi)容進行表達,同時借助豐富的語義知識來指導模型的學習和視覺特征的優(yōu)化,從而實現(xiàn)面向特定任務的視覺理解.如圖2所示,與傳統(tǒng)的深度學習研究借助數(shù)據(jù)的體量去提升表達能力,進而填補語義鴻溝不同,本文的研究側(cè)重從人類視覺出發(fā),通過對豐富語義知識的建模來拓展模型的視覺表達能力,逐步消除語義鴻溝對智能視覺系統(tǒng)發(fā)展的桎梏.

      Fig. 2 The semantic gap is eliminated by the integration of deep learning and semantic knowledge modeling圖2 結(jié)合深度學習與語義知識建模逐步消除語義鴻溝

      如圖3所示,針對視覺理解的實際任務,本文將重點針對3個方面研究融合語義知識的深度表達學習:

      1) 融合單類型語義知識的深度表達模型.即僅利用圖像的類別信息來提升特征表達的判別能力.與傳統(tǒng)的深度學習方法利用類別標簽對圖像的特征表達與分類器進行聯(lián)合學習不同,本文通過圖片之間的相似性關系來定義模型的損失函數(shù),從而將度量學習與卷積神經(jīng)網(wǎng)絡[11]的訓練集成在統(tǒng)一的框架中.在具體的視覺應用方面,我們將以基于內(nèi)容的圖像檢索[12-13]問題來驗證所提出模型的有效性.

      2) 融合多類型語義知識的深度表達模型.對于圖片中的不同場景區(qū)域,除了其自身的類別標簽之外,區(qū)域之間的上下文信息也能有效地輔助模型的訓練.本文利用場景區(qū)域的類別標簽以及區(qū)域之間的交互關系進行建模,并通過循環(huán)神經(jīng)網(wǎng)絡[14]將上述的信息在整個場景中進行傳遞,從而更好地實現(xiàn)了場景上下文的表達學習.我們將該模型用于場景圖像的幾何屬性分析問題,并在2個數(shù)據(jù)集上驗證了其有效性.

      3) 融合結(jié)構(gòu)化語義的深度表達模型.人類視覺系統(tǒng)對復雜的場景結(jié)構(gòu)具有較強的感知能力,例如場景中的物體類別、物體的空間位置、物體間的組合關系等.如何將上述具有明顯結(jié)構(gòu)的語義信息融入到深度模型的設計中,是視覺研究領域廣泛關注的問題.本文將把一系列帶有結(jié)構(gòu)的語法知識融入到深度表達學習中,借助遞歸神經(jīng)網(wǎng)絡[15]的特性對場景中的物體、物體間的關系等進行結(jié)構(gòu)化的組合與表達.最終,我們將利用該模型實現(xiàn)場景圖像的深度層次化解析.

      1 融合單類型語義的深度表達模型

      隨著互聯(lián)網(wǎng)分享網(wǎng)站的興起,以及拍攝設備成本的迅速降低,視覺數(shù)據(jù)呈現(xiàn)出爆炸式的增長,針對視覺數(shù)據(jù)的分類與快速檢索技術(shù)成為了計算機視覺、多媒體領域重要研究的內(nèi)容.鑒于視覺數(shù)據(jù)的Hash表示占用的存儲空間少,檢索時的效率極高,因此Hash技術(shù)作為一種有效的解決方式,在海量視覺檢索領域[16-20]及其相關的應用領域受到了廣泛的關注.近幾年來,許多基于學習的Hash技術(shù)被提出[21-24],其核心的目標是學習一個緊致的、能夠有效保持數(shù)據(jù)之間語義相似性的視覺表達,即相似的視覺數(shù)據(jù)在轉(zhuǎn)換成為二進制編碼之后具有較小的海明距離.

      在所有的Hash學習方法中,監(jiān)督式的方法[22,25]通過在學習的過程中嵌入單一類型的語義知識(通常是視覺數(shù)據(jù)的類別標簽)獲得了巨大的成功.監(jiān)督式Hash學習方法通常包含2個步驟:1)數(shù)據(jù)庫中存儲的圖像會被表達成視覺特征向量的形式;2)一系列基于單張圖像或者圖像對的Hash學習方法[26-27]被用于學習圖像的Hash表達.但是,在先前的研究中,以上2個過程通常是被拆分成2個獨立的過程,這樣的拆分極大地限制了Hash表達的能力.因為第1個步驟產(chǎn)生的圖像表達并不一定能夠完美地契合Hash學習的目標.換言之,這里的圖像特征表達不是面向于Hash學習這種特定任務的.所使用的語義知識也僅僅用于指導分類器或測度空間的學習.

      為了解決以上問題,本文提出一種新的監(jiān)督式位長可變深度Hash學習框架,該框架基于卷積神經(jīng)網(wǎng)絡(convolution neural network, CNN)構(gòu)建了一個端到端的Hash生成網(wǎng)絡,能夠?qū)⑤斎雸D像直接變換成用于快速檢索的二進制編碼.同時,網(wǎng)絡所輸出的編碼的每一位都會對應一個確定的權(quán)重.在檢索的過程中,系統(tǒng)可以根據(jù)位的重要性,截取不同長度的Hash編碼.在使用語義知識方面,該框架有別于借助類別標簽對分類器和圖像的特征表達進行聯(lián)合學習的傳統(tǒng)深度分類框架.本文的方法是基于三元組的相對相似性來構(gòu)建模型的,即通過圖像的類別標簽構(gòu)建圖像之間的相對相似關系,并最終指導圖像的特征以及Hash函數(shù)的聯(lián)合學習.如前人工作所述[17,26,28],在排序優(yōu)化方法中,基于三元組的方法能夠有效地捕捉類內(nèi)與類間的差距;同時我們也希望具有相似視覺外觀的圖像能夠在海明空間中具有相近的Hash編碼.因此通過引入一個正則項,進一步拓展了原有的基于三元組的Hash學習方法,引入部分受到了拉普拉斯稀疏編碼(Laplacian sparse coding)[29]工作的啟發(fā).

      1.1 基于卷積神經(jīng)網(wǎng)絡的Hash表達學習

      Hash學習的主要目標是找到映射h(x)將p維的圖像特征表達x∈p,映射成q維的二進制Hash編碼h∈{-1,1}p.本節(jié)我們重點介紹位長可變的深度學習框架,如圖4所示,位長可變的深度學習框架將原始圖片作為輸入,將圖像的特征表達學習與Hash函數(shù)的學習集成為一個非線性變化函數(shù).同時,模型引入一個權(quán)重向量來表示每一個Hash位在相似性檢索的過程中的重要性.

      (1)

      其中,Φw(·,·,·)是基于一個三元組的最大間隔損失.我們需要帶權(quán)重的海明仿射[30]符合約束:

      Fig. 4 The bit-scalable deep Hash learning framework圖4 位長可變的深度Hash學習框架

      (2)

      于是有損失函數(shù):

      (3)

      (4)

      由于Hash編碼是一種二值化的表示,因此式(4)是不連續(xù)且非可導的,無法直接使用梯度下降法來進行優(yōu)化.為了解決此問題,本節(jié)提出使用類雙曲正切函數(shù)o(·)來替代符號函數(shù).而在測試階段,我們將直接使用符號函數(shù)作為激活函數(shù)來獲得離散的Hash編碼.本文我們將Hash編碼hi近似地表示為ri∈[-1,1]q:

      r=o(φ(I)).

      (5)

      (6)

      Hash編碼在檢索任務中的優(yōu)勢在于能夠?qū)ξ皇褂卯惢虿僮?,或者使用查表的形式迅速度量Hash編碼之間的距離.我們提出一種基于查表法(lookup table, LUT)的相似性計算方式來迅速地返回2個Hash編碼之間帶權(quán)的仿射值.令l表示Hash編碼的長度,于是可以構(gòu)建一個長度為2l的查詢表,其長度等于2個Hash編碼所有可能的異或操作結(jié)果.至此,在確定查詢圖片的情況下,查詢結(jié)果的序列可以通過查表法迅速地返回.然而查詢表的大小會隨著Hash位的增長呈指數(shù)級增長.一種解決方式是將Hash編碼分成等長的若干段(本節(jié)中該長度設置為8),每一段與一個子表相對應,則每一個子表所輸出的帶權(quán)相似性就與對定的Hash段相關聯(lián).最終,整個Hash編碼的帶權(quán)相似性可以通過累加每一段Hash編碼的帶權(quán)相似性獲得,最后的排序結(jié)果也基于這一總的帶權(quán)相似性.

      1.2 視覺相似性檢索中的應用

      本節(jié)將在圖像檢索的標準數(shù)據(jù)集CIFAR-10上對本節(jié)所提出的位長可變的深度Hash學習框架的有效性進行驗證.其中,將使用DRSCH來表示最完整的帶有正則項的方法,同時使用DSCH來表述該方法的簡化版本,即移除拉普拉斯正則項的版本.這里需要注意,DRSCH和DSCH均是使用了不帶權(quán)重的訓練方法,因此訓練的過程需要預先確定Hash位的長度.而位長可變的Hash學習方法將分別使用BS-DRSCH和BS-DSCH表示.

      本節(jié)使用了近期提出的4種有監(jiān)督的Hash學習方法作為對比方法,它們分別是最小損失Hash(MLH)[31]、二值重建嵌入(BRE)[32]、基于核方法的有監(jiān)督Hash(KSH)[22]和深度語義排序Hash(DSRH)[33].為了公平比較,前3種方法我們還使用了深度特征,后文中用-CNN進行表示.提取CNN特征使用了AlexNet[34]網(wǎng)絡,整個網(wǎng)絡在ImageNet數(shù)據(jù)集上進行了分類任務的預訓練.在這種情境下,CNN網(wǎng)絡可以看作是一個通用的特征提取器[35].本節(jié)中所有關于DSRH的實驗結(jié)果均是基于作者在Caffe框架上的自行實現(xiàn)結(jié)果.表1報告了具體的檢索精度.圖5報告了位長可變方法與直接訓練方法前500張的準確率.

      Table 1 Image Retrieval Results (Mean Average Precision, MAP) with Various Number of Hash Bit on the CIFAR-10 Dataset

      Note: The bold indicates the best results.

      Fig. 5 Precision on CIFAR-10 dataset圖5 CIFAR-10數(shù)據(jù)集上的檢索準確率

      2 融合多類型語義的深度表達模型

      從單張圖片中感知場景的幾何結(jié)構(gòu)是人類視覺系統(tǒng)的一項基本能力,但是對于現(xiàn)有的多數(shù)智能系統(tǒng),例如機器人、自動巡航儀,這仍舊是一項十分具有挑戰(zhàn)性的任務.本節(jié)重點研究場景幾何屬性分析問題,即給定輸入的場景圖像,輸出像素級別的場景幾何面標注,同時對不同幾何面之間的交互關系進行預測.與傳統(tǒng)場景分析方法[36-40]僅僅用于分割出場景中的視覺元素(如“建筑物”、“車輛”、“樹木”等)不同,場景的幾何屬性分析需要更深層次地理解場景中的內(nèi)容.其主要包含2個難點:1)在確定的場景內(nèi)容中,同一個幾何區(qū)域常常包含不同的語義區(qū)域和空間配置.例如,樹木和建筑物雖然屬于不同語義區(qū)域,但是它們卻同屬于“垂直面”這一幾何區(qū)域.2)除了對幾何區(qū)域進行識別之外,對幾何區(qū)域之間的關系預測也至關重要.一方面,幾何關系的預測能夠反過來約束幾何面的預測;另一方面,關系的有效挖掘?qū)τ诨謴蛨鼍暗膸缀谓Y(jié)構(gòu)有著巨大的幫助.

      Fig. 6 An illustration of our geometric scene parsing圖6 場景幾何屬性分析示意圖

      圖6給出了場景的幾何屬性分析的示意圖,其中第1列是輸入圖片以及算法預測出的幾何標注,第2列是算法預測出的幾何面之間的交互關系.針對這一問題,我們需要在模型的訓練過程中引入類型豐富的語義信息.例如,場景區(qū)域的幾何類別信息(天空、水平面、垂直面等),以及幾何面之間的交互關系(同類關系、支撐關系、層次關系等).2種類型的語義知識可以相互作用,從3個方面共同促進幾何屬性分析的效果:1)相鄰區(qū)塊在局部的語義一致性.例如圖6中,雖然“建筑物”和“樹木”具有較大的外觀差異,但是它們同屬于“垂直面”的范疇.因此在建模的過程中,需要通過像素/超像素級的類別標簽去促進較大幾何區(qū)域的識別能力.2)局部區(qū)域上區(qū)塊之間關系的一致性.例如,“建筑物”和“地面”之間應該存在“支撐關系”,“樹木”和“地面”之間也存在“支撐關系”,則在局部關系一致性的前提下,“建筑物”和“樹木”應該存在“類同關系”.3)幾何面類別屬性和關系屬性之間的一致性,也就是說特定的幾何面之間應該呈現(xiàn)特定的幾何關系.

      基于以上討論,本文提出一種基于高階圖模型的長短期記憶循環(huán)神經(jīng)網(wǎng)絡(high-order graph LSTM network, HG-LSTM),并將其用于場景的上下文表達建模中,從而使得幾何面的標注和幾何面間交互關系的預測能夠從局部到全局地保持一致性.該模型包括2個相互耦合的子網(wǎng)絡結(jié)構(gòu):1)面向超像素本身構(gòu)建的基于圖模型的長短期記憶循環(huán)神經(jīng)網(wǎng)絡,用于對幾何面進行像素級別的標注.由于幾何面的分割是幾何面關系預測基礎,因此該子網(wǎng)絡在本節(jié)中表述為First-order LSTM,簡稱F-LSTM.2)面向超像素之間關系構(gòu)建的基于圖模型的長短期記憶循環(huán)神經(jīng)網(wǎng)絡,用于對幾何面之間的交互關系進行預測.這里圖模型的節(jié)點用于表示任意相鄰超像素之間的交互關系,因此該子網(wǎng)絡在本節(jié)中稱為Second-order LSTM,簡稱S-LSTM.與F-LSTM相類似,S-LSTM中的節(jié)點之間也能夠相互傳遞信息,從而在局部上保持近鄰超像素對之間語義關系的一致性.本節(jié)提出的2個子網(wǎng)絡能夠相互之間傳遞信息,從而使得整個網(wǎng)絡更為全面地挖掘場景的上下文信息,聯(lián)合的優(yōu)化過程也有助于2個子任務的相互促進.

      2.1 基于長短期記憶神經(jīng)網(wǎng)絡的上下文學習

      本節(jié)提出一種新的基于高階圖模型的長短期記憶循環(huán)神經(jīng)網(wǎng)絡(HG-LSTM)模型用于對場景的上下文進行學習.借助多種類型的語義信息,實現(xiàn)場景幾何屬性的分析任務.如圖7所示,輸入圖像首先經(jīng)過卷積神經(jīng)網(wǎng)絡(CNN)生成圖像的卷積特征表達.之后模型將借助第三方算法從圖片中提取一系列的超像素,并將這些超像素的分割結(jié)果作用在卷積特征表達上,傳入到F-LSTM網(wǎng)絡中用于對幾何面進行標注/分割.同時,任意2個相鄰的超像素將產(chǎn)生一個關系表達,將所有的超像素對生成的關系集合構(gòu)建起圖模型并傳入到S-LSTM中,從而進行幾何面之間的關系預測.這里需要說明的是,在本模型中底層的超像素構(gòu)成了一階的圖模型,圖模型的邊表示了2個超像素之間的關系.此關系將被抽象成二階圖模型中的節(jié)點.

      Fig. 7 The proposed LSTM recurrent framework for geometric scene parsing圖7 提出的基于高階圖模型的長短期記憶循環(huán)神經(jīng)網(wǎng)絡

      (7)

      (8)

      (9)

      Fig. 8 The structure of F-LSTM[41]圖8 F-LSTM的結(jié)構(gòu)示例[41]

      (10)

      (11)

      (12)

      2.2 場景幾何屬性分析中的應用

      我們使用了2個數(shù)據(jù)集分別是LM+SUN數(shù)據(jù)集[42]和Cityscapes數(shù)據(jù)集[6].其中,LM+SUN數(shù)據(jù)集包含45 676張圖片(21 182張室內(nèi)圖片、24 494張室外圖片);Cityscapes數(shù)據(jù)集是一個用于對城市街道場景進行語義分割的數(shù)據(jù)集.本節(jié)使用了該數(shù)據(jù)集中的2 975張精細標注的圖片作為訓練圖片,500張圖片作為測試圖片.本文使用了像素準確率、平均類別準確率和平均交并比(IoU)作為幾何面標注評測指標,使用了平均準確率作為幾何關系預測的評測指標.

      1) 幾何面標注任務.表2列舉了提出的方法與當前3種方法的平均IoU以及平均準確率.在2個數(shù)據(jù)集上實驗結(jié)果說明了2個問題:①將F-LSTM網(wǎng)絡和S-LSTM網(wǎng)絡相結(jié)合能夠有效捕捉復雜的上下文信息,進而對外觀差異巨大的幾何面進行有效地標注;②在較大的數(shù)據(jù)集LM+SUN上,效果更為明顯.說明本文的方法在處理海量數(shù)據(jù)的問題時,將具有更為突顯的效果.

      2) 交互關系預測.S-LSTM子網(wǎng)絡可以對2個相鄰超像素之間的幾何關系進行預測.在所有實驗中,我們將每張圖片分割成1 024個超像素.任意2個相鄰的超像素之間定義了其幾何關系,表3展示了2個數(shù)據(jù)集上不同S-LSTM層輸出的關系預測的平均準確率.通過實驗可以看到,在大多數(shù)情況下,隨著HG-LSTM層數(shù)的加深,預測的準確率也將進一步提升.這說明學習到的關系特征表達將隨著層數(shù)的加深更加具有判別性.

      3) 基于單張圖片的三維重建.我們將利用文獻[43]中的提出的pop-up模型,基于場景幾何解析的結(jié)果實現(xiàn)單張圖片的三維場景重建.該模型利用預測的幾何面及其之間的關系對圖片進行“切割和折疊”操作.這個過程可以分為2個步驟:①通過近鄰超像素之間的幾何關系恢復出三維的空間結(jié)構(gòu);②通過將圖片匯總對應幾何區(qū)域的外觀、紋理信息賦值給三維空間中的不同平面,輸出最終的重建結(jié)果.圖9展示了部分場景圖片以及在本文幾何屬性預測的結(jié)果之上,通過第三方軟件重建出來的不同視角下的三維效果圖,其中,圖9(a)是輸入的原始圖像,圖9(b)是重建后在不同視角下的結(jié)果.

      Table 2 Performance of Geometric Surface Labeling Over LM+SUN and Cityscapes

      Table 3 Geometric Relation Prediction with Different Number of S-LSTM Layers

      Fig. 9 Some results of single-view 3D reconstruction圖9 利用本節(jié)場景幾何屬性的分析結(jié)果實現(xiàn)的單張圖片的三維重建結(jié)果

      3 融合結(jié)構(gòu)化語義的深度表達模型

      場景解析任務的核心目的是通過構(gòu)建模型,從圖像中推斷出符合人類認知的場景配置信息,例如物體的部件、物體本身以及它們之間的交互關系等.現(xiàn)有的場景理解工作多集中于場景的標注或分割問題[44,47-48],即為場景圖像中的每一個像素賦予類別標簽.但是卻很少有工作針對輸入的場景圖片,生成有意義的結(jié)構(gòu)化配置.其原因在于,該類工作通常包含兩大困難:1)傳統(tǒng)的融入語法知識的視覺模型[49]中,場景的結(jié)構(gòu)化信息通常存在著多義性.相同的場景可能存在多個合理的結(jié)構(gòu)化配置,因此,如何使得得到的場景結(jié)構(gòu)化配置更加符合人類的認知規(guī)律,是解決該類問題的第1個挑戰(zhàn).2)模型訓練數(shù)據(jù)的獲取成本高昂.在使用傳統(tǒng)的有監(jiān)督學習方法對場景結(jié)構(gòu)化解析模型進行訓練時,需要包括像素級標簽、物體之間關系、場景結(jié)構(gòu)在內(nèi)的多種語義信息.每種信息都具有較高的復雜性,且成體呈現(xiàn)較為明顯的結(jié)構(gòu)化.如果通過手工進行標注,標注的成本將極其昂貴.這也極大地限制了包括深度神經(jīng)網(wǎng)絡在內(nèi)的數(shù)據(jù)驅(qū)動型模型在相關問題上的發(fā)展.

      Fig. 11 The structured prediction of a scene image using our proposed CNN-RNN model圖11 利用本節(jié)提出的CNN-RNN模型對場景圖片進行結(jié)構(gòu)化預測

      圖10給出了視覺場景解析的示意圖,其中輸入圖片被自動地解析成包含分層的語義物體(黑色標簽標注)以及物體之間的交互關系(紅色標簽標注)在內(nèi)的結(jié)構(gòu)化配置.當輸入一副場景圖片時,模型將會自動輸出一個包含有物體之間交互關系的場景結(jié)構(gòu)化配置.針對這一問題,我們需要在對深度模型訓練過程中引入結(jié)構(gòu)化的語義知識.例如,場景中像素/超像素級別的類別信息(人、馬、草地等),物體之間的交互信息(人騎馬、人牽馬等),以及整個場景的組合配置結(jié)構(gòu),同時要盡可能降低上述語義知識獲取的成本.一個直觀的方法就是借助自然語言的標準解析模型[50]、WordNet詞語知識庫[51]以及相應的后處理操作,將圖像的語句標注解析成一棵包含了名詞和動詞的語義樹,從而廉價高效地獲得場景結(jié)構(gòu)化所需要的全部監(jiān)督信息.

      Fig. 10 An illustration of our structured scene parsing圖10 視覺場景解析的示意圖

      為了更好地利用上述結(jié)構(gòu)化語義知識,本節(jié)提出一種新的混合神經(jīng)網(wǎng)絡結(jié)構(gòu),用于深度結(jié)構(gòu)化場景解析任務.該網(wǎng)絡包含了2個相互連接的神經(jīng)網(wǎng)絡結(jié)構(gòu),底層是深度卷積神經(jīng)網(wǎng)絡(CNN)[1,44],上層是遞歸神經(jīng)網(wǎng)絡(RNN)[15].前者能夠生成具有判別能力的圖像特征表達,因此被廣泛地應用于圖像分類與物體識別任務中;后者則被一系列工作[48,52-53]證明能夠?qū)D像或者自然語言[15]中的結(jié)構(gòu)化組合關系進行預測,其原因在于該類網(wǎng)絡能夠同時對語義和結(jié)構(gòu)化表達進行遞歸地學習.對于本節(jié)所提出的CNN-RNN模型、CNN模型和RNN模型將協(xié)同工作.其中,CNN模型將被用作物體類別的表達學習;RNN模型將把CNN模型產(chǎn)生的特征表達作為輸入,用于進一步生成場景的結(jié)構(gòu)化配置.受圖片描述生成模型[54-55]的啟發(fā),本節(jié)還提出了一種弱監(jiān)督訓練方法對CNN-RNN模型進行訓練.

      3.1 基于CNN-RNN混合神經(jīng)網(wǎng)絡的場景語義表達

      本節(jié)所提出的場景內(nèi)容解析模型主要完成以下3個方面工作:語義實體的標注、分層結(jié)構(gòu)的生成以及物體之間交互關系的預測.圖11舉例說明了場景結(jié)構(gòu)化解析的過程.

      (13)

      (14)

      為了生成每一個實體類別的特征表達,算法將具有相同類別標簽的像素聚合到一起獲得具體的語義實體.我們將使用Log-Sum-Exp(LSE)[57]方法來融合不同像素的特征表達,最終獲得物體區(qū)域的特征表達.

      在本節(jié)的模型中,RNN模型將利用CNN模型所輸出的每個語義類別的特征表達來生成圖像的解析樹,從而對圖像進行內(nèi)容上的分層表達,同時預測語義實體之間的交互關系.這里的RNN模型包含5個子網(wǎng)絡,分別是中間轉(zhuǎn)換網(wǎng)絡(用transitionmapper表示)、節(jié)點合并網(wǎng)絡(用combiner表示)、語義解釋網(wǎng)絡(用interpreter表示)、關系分類網(wǎng)絡(用categorizer表示)和合并分數(shù)網(wǎng)絡(用scorer表示),則RNN網(wǎng)絡的參數(shù)集合可以表述為WR={Wtran,Wcom,Wcat,Wscore}.

      Fig. 12 An illustrate of recursive neural network圖12 遞歸結(jié)構(gòu)示意圖

      如圖12所示,實體的特征vk首先將被輸入到中間轉(zhuǎn)換網(wǎng)絡中進行特征空間的變化,該層在神經(jīng)網(wǎng)絡中用一個全連接的神經(jīng)網(wǎng)絡表示,其中,xk表示映射的特征.而后,被變化的2個實體的特征(xk和xl)將被作為遞歸樹種的2個子節(jié)點輸入到節(jié)點合并網(wǎng)絡Fcom,并輸出父節(jié)點的特征表達xk l來表達2個子節(jié)點的語義信息及合并的結(jié)構(gòu)信息.進一步,關系分類網(wǎng)絡Fcat通過xk l預測2個節(jié)點之間的語義關系yk l.同時,合并分數(shù)網(wǎng)絡Fscore度量出2個子節(jié)點能夠合并的置信度hk l.

      3.2 融入語法知識的弱監(jiān)督學習方法

      1) 語句預處理.為了能夠利用圖片的語句標注有效地進行場景的標注和結(jié)構(gòu)化配置,本節(jié)將利用一些自然語言處理的基本技術(shù)將語句轉(zhuǎn)換成為語義樹.如圖13所示.在圖例的頂端,語言解析工具將根據(jù)輸入的語句生成一個構(gòu)造語法樹.圖例的中間展示了對構(gòu)造語法樹中的詞語進行過濾的過程.圖例的最低端展示了轉(zhuǎn)換之后的語義樹.

      2) 損失函數(shù). 對于輸入圖像Ii,假設全標記的語義圖Ci和真實的語義樹Ti已知.則損失函數(shù)可以定義為3個部分的累加,分別是:語義標記的損失JC,場景結(jié)構(gòu)的損失JR,和模型參數(shù)的正則化約束R(W).對于一個包含Z張圖片{(I1,C1,T1),(I2,C2,T2),…,(IZ,CZ,TZ)}的數(shù)據(jù)集,損失函數(shù)可以定義為

      (15)

      其中,W={WC,WR}表示模型所有的參數(shù);WC,WR分別表示CNN模型和RNN模型的參數(shù).

      Fig. 13 An illustration of the tree conversion process圖13 圖片的描述語句變換成解析樹的具體過程

      ① 語義表述的損失.令Cf表示最終預測的語義圖,Ce表示第e個尺度下預測的語義圖.則圖像I在語義標注任務上的最終的損失函數(shù)可以定義為

      (16)

      其中,i={1,2,…,Z}.Lf表示最終預測語義圖Cf以及全標記的語義圖Ci之間的損失.為了考慮多尺度下的預測,我們同時定義了每一個尺度下的損失Le,{e=1,2,…,E}.

      ② 場景結(jié)構(gòu)的損失.場景結(jié)構(gòu)的損失可以進一步表示為2個部分.第1部分用于定義場景結(jié)構(gòu)化的構(gòu)建中的損失,第2部分用于定義物體之間關系的損失,

      JR(W;I,T)=Jstruc(W;I,TS)+Jrel(W;I,TR),

      (17)

      Jstruc(W;I,TS)=

      (18)

      3.3 場景結(jié)構(gòu)化解析中的應用

      本節(jié)首先使用了PASCAL VOC 2012[58]的語義分割數(shù)據(jù)集作為測試本節(jié)提出方法的標準數(shù)據(jù)集.該數(shù)據(jù)集包括20個前景語義類和一個背景類,共計有1 464張標注圖片用于訓練,有1 456張圖片用于測試.同時,我們還自行構(gòu)建了一個新的用于場景語義解析的數(shù)據(jù)集SYSU-Scenes.該數(shù)據(jù)集包括5 046張圖片,涉及到33個語義類別.對于每張圖片,我們提供了物體的語義標注圖、場景的分層結(jié)構(gòu)標注和語義物體之間的交互關系在內(nèi)的3種標注信息.在所有的圖片中,將有3 793張圖片用于訓練、1 253張圖片用于測試.在上述2個數(shù)據(jù)集中,我們分別定義了9種和13種常見的物體之間的交互關系.

      Fig. 14 Visualized scene parsing result of weakly supervised method on PASCAL VOC 2012圖14 PASCAL VOC 2012數(shù)據(jù)集上弱監(jiān)督條件下的場景解析可視化結(jié)果

      1) 語義標注任務.為了評測本節(jié)提出方法在場景的語義標注任務上的效果,我們將像素級別的標簽預測圖上采樣到與原始的真實標注同樣的大小.分別使用像素準確率、平均類別準確率和平均IoU[44]作為評測指標對本節(jié)提出的方法進行評估.對于語義標注任務,表4和表5分別列舉了在3種評測指標下相關方法在PASCAL VOC 2012數(shù)據(jù)集和SYSU-Scene數(shù)據(jù)集上的結(jié)果.

      2) 場景結(jié)構(gòu)生成任務.本節(jié)首先引入2個用于場景結(jié)構(gòu)生成的評測指標:結(jié)構(gòu)準確率和平均關系準確率.令T是由CNN-RNN模型生成的圖像的解析樹,P={T,T_1,T_2,…,T_m}表示解析樹所有子樹的集合.對于葉節(jié)點,算法認為其正確當且僅當其對應的語義類別同語義樹(由描述語句生成)中對應位置的名詞相一致.對于非葉子節(jié)點T_i(存在2個子樹T_l和T_r),我們說T_1是正確的,當且僅當左右子樹都是正確的,且2棵子樹之間的關系也是正確的.則關系的準確率可以定義為(#ofcorrectsubtrees)(m+1),該準確率可以通過遞歸遍歷整個樹結(jié)構(gòu)而獲得.而平均的關系準確率只是每個類別關系準確率的平均值.表6報告了PASCAL VOC 2012數(shù)據(jù)集和SYSU-Scene數(shù)據(jù)集上的測試結(jié)果.圖14展示了場景結(jié)構(gòu)化解析的可視化結(jié)果,圖14(a)是解析正確的示例,圖14(b)是失敗的示例.在每個示例中,左邊的樹結(jié)構(gòu)是基于圖像的描述語句生成的,右邊的樹結(jié)構(gòu)是通過本文的CNN-RNN模型預測得到的.

      Table 4 PASCAL VOC 2012 Result of Weakly Supervised Methods

      表4 弱監(jiān)督學習方法在PASCAL VOC 2012 數(shù)據(jù)集上的結(jié)果 %

      Table 5 SYSU-Scenes Result of Weakly Supervised Methods

      Table 6 Comparison of Different Learning Strategies on Two Datasets

      4 結(jié)束語

      隨著機器視覺技術(shù)、智能硬件、多媒體技術(shù)的快速發(fā)展,針對大規(guī)模視覺數(shù)據(jù)的高層次理解任務成為了當前最熱門的研究方向.而如何借助豐富的語義知識提升深度模型的表達學習能力,又是處理上述任務的重要技術(shù)手段.本文主要研究了融合語義知識的深度表達學習.基于視覺數(shù)據(jù)的相似性比對,場景數(shù)據(jù)的內(nèi)容解析等應用場景對該問題進行了深度探討和研究.主要研究內(nèi)容可以概括為3個方面:

      1) 研究了將單類型語義知識融入到深度表達模型中,提出了嵌入正則化語義關聯(lián)的深度Hash學習方法,并將其應用于圖像的相似性比對與檢索問題中;

      2) 研究了將多類型語義知識與深度模型的學習相結(jié)合,提出了基于長短期記憶神經(jīng)網(wǎng)絡的場景上下文學習方法,并將其應用于復雜場景的幾何屬性分析問題中;

      3) 研究了將視覺數(shù)據(jù)的結(jié)構(gòu)化語義配置融入到深度表達的學習中,提出了融合語法知識的表達學習方法,并將其應用到復雜場景下的通用內(nèi)容解析問題中.

      本文針對融合語義知識的深度表達學習及其在視覺理解中的應用進行了相關的研究和討論.但是針對實際的應用場景,完全解決計算視覺中各種面向高層理解的任務仍然需要長期不懈的探索.類似的任務包括如何利用更為豐富的語法知識實現(xiàn)深入和精確的解析算法、如何利用海量的視覺數(shù)據(jù)自動地強化模型的表達能力、如何處理高層視覺理解中的多義性和不確定性、如何針對視覺信息進行行為估計和預判、如何更為自然流暢地進行視覺問答等.上述問題的解決將對未來人工智能的發(fā)展起到積極的推動作用.從學術(shù)研究角度來說,設計和發(fā)展更為輕量化、高效化的表達模型來解決上述問題,使用無標注數(shù)據(jù)來進行模型的訓練,自動地挖掘視覺數(shù)據(jù)中的語義知識都是亟待解決的學術(shù)問題.

      [1]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1097-1105

      [2]Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231

      [3]Wang X, Zhang L, Lin L, et al. Deep joint task learning for generic object extraction[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 523-531

      [4]Russakovsky O, Deng J, Su H, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252

      [5]Xiao J, Ehinger K A, Hays J, et al. Sun database: Exploring a large collection of scene categories[J]. International Journal of Computer Vision, 2016, 119(1): 3-22

      [6]Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C] //Proc of the 2016 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2016: 3213-3223

      [7]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444[8]Srivastava N, Hinton G E, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958

      [9]Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C] //Proc of Aistats. Brookline, MA: Microtome Publishing, 2011, 15(106): 275

      [10]Zhu Rong. Research on key problems of image understanding based on semantic information[J]. Application Research of Computers, 2009, 26(4): 1234-1240 (in Chinese)

      (朱蓉. 基于語義信息的圖像理解關鍵問題研究[J]. 計算機應用研究, 2009, 26(4): 1234-1240)

      [11]LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551

      [12]Zhang Lei, Lin Fuzong, Zhang Ba. A forward neural network based relevance feedback algorithm design in image retrieval[J]. Chinese Journal of Computers, 2002, 25(7): 673-680 (in Chinese)

      (張磊, 林福宗, 張鈸. 基于前向神經(jīng)網(wǎng)絡的圖像檢索相關反饋算法設計[J]. 計算機學報, 2002, 25(7): 673-680)

      [13]Li Qingyong, Hu Hong, Shi Zhiping, et al. Research on texture-based semantic image retrieval[J]. Chinese Journal of Computers, 2006, 29(1): 116-123 (in Chinese)

      (李清勇, 胡宏, 施智平, 等. 基于紋理語義特征的圖像檢索研究[J]. 計算機學報, 2006, 29(1): 116-123)

      [14]Elman J L. Distributed representations, simple recurrent networks, and grammatical structure[J]. Machine Learning, 1991, 7(2/3): 195-225

      [15]Socher R, Manning C D, Ng A Y. Learning continuous phrase representations and syntactic parsing with recursive neural networks[C] //Proc of the NIPS-2010 Deep Learning and Unsupervised Feature Learning Workshop. Cambridge, MA: MIT Press, 2010: 1-9

      [16]Jegou H, Douze M, Schmid C. Hamming embedding and weak geometric consistency for large scale image search[C] //Proc of the 10th European Conf on Computer Vision. Berlin: Springer, 2008: 304-317

      [17]Wang J, Song Y, Leung T, et al. Learning fine-grained image similarity with deep ranking[C] //Proc of the 2014 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2014: 1386-1393

      [18]Liu Z, Li H, Zhou W, et al. Contextual hashing for large-scale image search[J]. IEEE Trans on Image Processing, 2014, 23(4): 1606-1614

      [19]Cao L, Li Z, Mu Y, et al. Submodular video hashing: A unified framework towards video pooling and indexing[C] //Proc of the 20th ACM Int Conf on Multimedia. New York: ACM, 2012: 299-308

      [20]Peng Tianqiang, Li Fang. Image retrieval based on deep convolutional neural networks and binary hashing learning[J]. Journal of Electronics & Information Technology, 2016, 38(8): 2068-2075 (in Chinese)

      (彭天強, 栗芳. 基于深度卷積神經(jīng)網(wǎng)絡和二進制哈希學習的圖像檢索方法[J]. 電子與信息學報, 2016, 38(8): 2068-2075)

      [21]Li X, Lin G, Shen C, et al. Learning Hash functions using column generation[C] //Proc of ICML. Brookline, MA: Microtome Publishing, 2013: 142-150

      [22]Liu W, Wang J, Ji R, et al. Supervised hashing with kernels[C] //Proc of 2012 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2012: 2074-2081

      [23]Kong W, Li W J. Isotropic hashing[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1646-1654

      [24]Zhu X, Zhang L, Huang Z. A sparse embedding and least variance encoding approach to hashing[J]. IEEE Trans on Image Processing, 2014, 23(9): 3737-3750

      [25]Cheng J, Leng C, Li P, et al. Semi-supervised multi-graph hashing for scalable similarity search[J]. Computer Vision and Image Understanding, 2014, 124: 12-21

      [26]Chechik G, Sharma V, Shalit U, et al. Large scale online learning of image similarity through ranking[J]. Journal of Machine Learning Research, 2010, 11(3): 1109-1135

      [27]Frome A, Singer Y, Malik J. Image retrieval and classification using local distance functions[C] //Proc of the 19th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2006: 417-424

      [28]Ding S, Lin L, Wang G, et al. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern Recognition, 2015, 48(10): 2993-3003

      [29]Gao S, Tsang I W H, Chia L T. Laplacian sparse coding, hypergraph laplacian sparse coding, and applications[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(1): 92-104

      [30]Weiss Y, Fergus R, Torralba A. Multidimensional spectral hashing[C] //Proc of the 12th European Conf on Computer Vision. Berlin: Springer, 2012: 340-353

      [31]Norouzi M, Blei D M. Minimal loss hashing for compact binary codes[C] //Proc of the 28th Int Conf on Machine Learning (ICML-11). Brookline, MA: Microtome Publishing, 2011: 353-360

      [32]Kulis B, Darrell T. Learning to Hash with binary reconstructive embeddings[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2009: 1042-1050

      [33]Zhao F, Huang Y, Wang L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C] //Proc of the 2015 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1556-1564

      [34]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1097-1105

      [35]Babenko A, Slesarev A, Chigorin A, et al. Neural codes for image retrieval[C] //Proc of European Conf on Computer Vision. Berlin: Springer, 2014: 584-599

      [36]Luo Xiping, Tian Jie. Overview of image segmentation methods[J]. Pattern Recognition & Artificial Intelligence, 1999, 12(3): 300-312 (in Chinese)

      (羅希平, 田捷. 圖像分割方法綜述[J]. 模式識別與人工智能, 1999, 12(3): 300-312)

      [37]Wang Xili, Liu Fang, Jiao Licheng. Multiscale Bayesian image segmentation fusin context information[J]. Chinese Journal of Computers, 2005, 28(3): 386-391 (in Chinese)

      (汪西莉, 劉芳, 焦李成. 融合上下文信息的多尺度貝葉斯圖像分割[J]. 計算機學報, 2005, 28(3): 386-391)

      [38] He Ning, Zhang Peng. Varitional level set image segmentation method based on boundary and region information[J]. Acta Electronica Sinica, 2009, 37(10): 2215-2219 (in Chinese)

      (何寧, 張朋. 基于邊緣和區(qū)域信息相結(jié)合的變分水平集圖像分割方法[J]. 電子學報, 2009, 37(10): 2215-2219)

      [39]Guo Lei, Hou Yimin, Lun Xiangmin. An unsupervised color image segmentation algorithm based on context information[J]. Pattern Recognition & Artificial Intelligence, 2008, 21(1): 82-87 (in Chinese)

      (郭雷, 侯一民, 倫向敏. 一種基于圖像上下文信息的無監(jiān)督彩色圖像分割算法[J]. 模式識別與人工智能, 2008, 21(1): 82-87)

      [40]Qiu Zeyu, Fang Quan, Sang Jitao, et al. Regional context-aware image annotation[J]. Chinese Journal of Computers, 2014, 37(6): 1390-1397 (in Chinese)

      (邱澤宇, 方全, ?;w, 等. 基于區(qū)域上下文感知的圖像標注[J]. 計算機學報, 2014, 37(6): 1390-1397)

      [41]Liang X, Shen X, Feng J, et al. Semantic object parsing with graph LSTM[C] //Proc of European Conf on Computer Vision. Berlin: Springer, 2016: 125-143

      [42]Tighe J, Lazebnik S. Superparsing: Scalable nonparametric image parsing with superpixels[C] //Proc of European Conf on Computer Vision. Berlin: Springer, 2010: 352-365

      [43]Hoiem D, Efros A A, Hebert M. Automatic photo pop-up[J]. ACM Trans on Graphics, 2005, 24(3): 577-584

      [44]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C] //Proc of the 2015 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 3431-3440

      [45]Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFS[J]. arXiv preprint arXiv: 1412.7062, 2014

      [46]Peng Z, Zhang R, Liang X, et al. Geometric scene parsing with hierarchical LSTM[C] //Proc of IJCAI-16. Palo Alto, CA: AAAI Press, 2016: 3439-3445

      [47]Lempitsky V, Vedaldi A, Zisserman A. Pylon model for semantic segmentation[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2011: 1485-1493

      [48]Sharma A, Tuzel O, Liu M Y. Recursive context propagation network for semantic scene labeling[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2447-2455

      [49]Zhu S C, Mumford D. A stochastic grammar of images[J]. Foundations and Trends?in Computer Graphics and Vision, 2007, 2(4): 259-362

      [50]Socher R, Bauer J, Manning C D, et al. Parsing with compositional vector grammars[C] //Proc of ACL (1). Stroudsburg, PA: ACL: 2013: 455-465

      [51]Miller G A, Beckwith R, Fellbaum C, et al. Introduction to WordNet: An on-line lexical database[J]. International Journal of Lexicography, 1990, 3(4): 235-244

      [52]Socher R, Lin C C, Manning C, et al. Parsing natural scenes and natural language with recursive neural networks[C] //Proc of the 28th Int Conf on Machine Learning (ICML-11). Brookline, MA: Microtome Publishing, 2011: 129-136

      [53]Sharma A, Tuzel O, Jacobs D W. Deep hierarchical parsing for semantic segmentation[C] //Proc of the 2015 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 530-538

      [54]Karpathy A, Li Fei-Fei. Deep visual-semantic alignments for generating image descriptions[C] //Proc of the 2015 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 3128-3137

      [55]Xu J, Schwing A G, Urtasun R. Tell me what you see and I will show you where it is[C] //Proc of the 2014 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2014: 3190-3197

      [56]Xie S, Tu Z. Holistically-nested edge detection[C] //Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2015: 1395-1403

      [57]Boyd S, Vandenberghe L. Convex Optimization[M]. Cambridge, UK: Cambridge University Press, 2004

      [58]Everingham M, Eslami S M A, Van Gool L, et al. The pascal visual object classes challenge: A retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98-136

      [59]Pinheiro P O, Collobert R. From image-level to pixel-level labeling with convolutional networks[C] //Proc of the 2015 IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 1713-1721

      [60]Papandreou G, Chen L C, Murphy K P, et al. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation[C] //Proc of the IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2015: 1742-1750

      Peng Jiefeng, born in 1993. Received his BEn degree from the School of Mathematics, Sun Yat-sen University, Guangzhou, China, in 2016. Master candidate in computer science at the School of Data and Computer Science. His main research interests include deep learning, computer vision, and related applications.

      Wu Yang, born in 1993. Received her bachelor degree from the School of Mathematics, South China University of Technology, Guangzhou, China, in 2016. Master candidate in computer science in the School of Data and Computer Science. Her main research interests include computer vision, data mining, machine learning and other relevant areas.

      Lin Liang, born in 1981. Received his BSc and PhD degrees from the Beijing Institute of Technology, Beijing, China, in 1999 and 2008, respectively. Professor with the School of Data and Computer Science, Sun Yat-sen University, China. Associate Editor of Neurocomputing and the Visual Computer. His main research interests include new models, algorithms, and systems for intelligent processing and understanding of visual data, such as images and videos.

      The Semantic Knowledge Embedded Deep Representation Learning and Its Applications on Visual Understanding

      Zhang Ruimao, Peng Jiefeng, Wu Yang, and Lin Liang

      (SchoolofDataandComputerScience,SunYat-senUniversity,Guangzhou510006)

      With the rapid development of deep learning technique and large scale visual datasets, the traditional computer vision tasks have achieved unprecedented improvement. In order to handle more and more complex vision tasks, how to integrate the domain knowledge into the deep neural network and enhance the ability of deep model to represent the visual pattern, has become a widely discussed topic in both academia and industry. This thesis engages in exploring effective deep models to combine the semantic knowledge and feature learning. The main contributions can be summarized as follows: 1)We integrate the semantic similarity of visual data into the deep feature learning process, and propose a deep similarity comparison model named bit-scalable deep hashing to address the issue of visual similarity comparison. The model in this thesis has achieved great performance on image searching and people’s identification. 2)We also propose a high-order graph LSTM (HG-LSTM) networks to solve the problem of geometric attribute analysis, which realizes the process of integrating the multi semantic context into the feature learning process. Our extensive experiments show that our model is capable of predicting rich scene geometric attributes and outperforming several state-of-the-art methods by large margins. 3)We integrate the structured semantic information of visual data into the feature learning process, and propose a novel deep architecture to investigate a fundamental problem of scene understanding: how to parse a scene image into a structured configuration. Extensive experiments show that our model is capable of producing meaningful and structured scene configurations, and achieving more favorable scene labeling result on two challenging datasets compared with other state-of-the-art weakly-supervised deep learning methods.

      deep learning; neural networks; semantic embedding; scene parsing; similarity search

      mao, born in 1989.

      his PhD degree from the School of Data and Computer Science, Sun Yat-sen University, Guangzhou, China, in 2016. His main research interests include computer vision, pattern recognition, machine learning, and related applications.

      2017-01-03;

      2017-03-30

      國家自然科學基金優(yōu)秀青年科學基金項目(6162200366) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (NSFC) (6162200366).

      TP391.41

      猜你喜歡
      語義像素神經(jīng)網(wǎng)絡
      趙運哲作品
      藝術(shù)家(2023年8期)2023-11-02 02:05:28
      像素前線之“幻影”2000
      語言與語義
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      “像素”仙人掌
      “上”與“下”語義的不對稱性及其認知闡釋
      高像素不是全部
      CHIP新電腦(2016年3期)2016-03-10 14:22:03
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
      井冈山市| 土默特左旗| 云霄县| 广昌县| 庄河市| 景东| 团风县| 弥勒县| 宁安市| 怀仁县| 曲麻莱县| 锡林郭勒盟| 外汇| 聊城市| 盘山县| 新宾| 林州市| 偃师市| 漳浦县| 甘孜县| 伊宁市| 元朗区| 陇川县| 克拉玛依市| 青阳县| 西平县| 樟树市| 牟定县| 澜沧| 岳普湖县| 建阳市| 旅游| 鱼台县| 澎湖县| 逊克县| 兰溪市| 辽宁省| 惠州市| 河间市| 吴忠市| 遵化市|