劉尚爭 劉斌
摘? 要: 針對傳統(tǒng)圖像類別標(biāo)簽識別系統(tǒng)只能單一模態(tài)識別圖像類別標(biāo)簽的問題,設(shè)計一種生成對抗網(wǎng)絡(luò)圖像類別標(biāo)簽跨模態(tài)識別系統(tǒng)。將待識別圖像輸入系統(tǒng)跨模態(tài)多標(biāo)簽標(biāo)定模塊中,該模塊采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建圖像模型和文本模型,采用同質(zhì)遷徙學(xué)習(xí)和混合遷徙學(xué)習(xí)訓(xùn)練兩個模型,融合訓(xùn)練后的圖像內(nèi)容和說明文本兩種模態(tài),多模態(tài)類別標(biāo)簽標(biāo)定圖像;將標(biāo)定圖像傳輸?shù)缴蓪咕W(wǎng)絡(luò)中,該網(wǎng)絡(luò)采用流行一致方法結(jié)合生成器生成的圖像和隱變量、真實圖像和編碼器獲取的圖像特征,將結(jié)合結(jié)果傳輸?shù)借b別器后采用循環(huán)交替優(yōu)化方式訓(xùn)練對抗網(wǎng)絡(luò),輸出圖像類別標(biāo)簽識別結(jié)果。經(jīng)過實驗分析發(fā)現(xiàn),該系統(tǒng)能跨模態(tài)識別出原始圖像中的花、電視圖像類別標(biāo)簽,漢明損失數(shù)值均低于0.02,宏平均值高于0.97,系統(tǒng)跨模態(tài)識別圖像類別標(biāo)簽效果好。
關(guān)鍵詞: 生成對抗網(wǎng)絡(luò); 圖像類別標(biāo)簽; 跨模態(tài)識別; 系統(tǒng)設(shè)計; 卷積神經(jīng)網(wǎng)絡(luò); 訓(xùn)練模型
中圖分類號: TN926?34; TP391? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)08?0173?03
Design of cross?modal identification system for image category label in
generative adversarial networks
LIU Shangzheng, LIU Bin
(Nanyang Institute of Technology, Nanyang 473004, China)
Abstract: As the traditional image category label recognition system only can recognize the image category label with single mode, a cross?modal recognition system for the image category label in generative adversarial network is designed. The image to be identified is input into the multi?label calibration module of the cross?modal system, which constructs the image model and text model by means of the convolutional neural network, both models are trained by the homogeneous migration learning and hybrid migration learning. The two mode of trained image content and explanatory text of two modal category labels calibrate images are fused. The multi?mode category labels calibrate images, and transmit the calibrated images to the generative adversarial network, which combines the image generated by the generator with the hidden variables, real image and image feature obtained by the encoder by means of the popular consistent method. After the combined results are transmitted to the discriminator, the adversarial network is trained by means of the cyclic alternating optimization method to output the recognition results of the image category label. The experimental analysis results show that the system can cross?model recognize the flower and TV image category labels in the original image, the Hamming loss value is lower than 0.02, and the macro average value is higher than 0.97. The system cross?modal recognition of image category label effect is good.
Keywords: generative adversarial networks; image category label; cross?modal identification; system design; convolution neural network; training model
0? 引? 言
隨著科技不斷發(fā)展,海量圖像資源涌現(xiàn),如何對其精準(zhǔn)高效地歸類整理成為研究熱點[1]。圖像是一種多模態(tài)數(shù)據(jù),而當(dāng)前大部分學(xué)者主要采用單一模態(tài)識別方法,無法精準(zhǔn)識別圖像類別標(biāo)簽。因此本文采用跨模態(tài)方法識別圖像類別標(biāo)簽,充分考慮圖像的多種模態(tài)特征[2],將其作為識別圖像類別標(biāo)簽的前提,提升圖像類別標(biāo)簽識別精度。
跨模態(tài)標(biāo)簽定位圖像后,需識別圖像類別標(biāo)簽,選取具有較高識別率的方法識別圖像類別信息。查閱相關(guān)文獻(xiàn)發(fā)現(xiàn),大部分學(xué)者采用生成對抗網(wǎng)絡(luò)識別圖像類別標(biāo)簽并優(yōu)化生成網(wǎng)絡(luò)[3],其具有較強的模擬能力,能從簡單的隱變量中模擬產(chǎn)生復(fù)雜數(shù)據(jù)[4]。部分學(xué)者采用貝葉斯公式使生成對抗網(wǎng)絡(luò)保持半監(jiān)督學(xué)習(xí)狀態(tài),還有學(xué)者改變生成對抗網(wǎng)絡(luò)訓(xùn)練誤差,依照數(shù)據(jù)不確定熵信息訓(xùn)練生成對抗網(wǎng)絡(luò)中的分類器[5]。但上述改進(jìn)方法沒有考慮從隱變量中提取圖像特征,而在生成對抗網(wǎng)絡(luò)中添加編碼器,可充分提取隱變量中的圖像特征,提升跨模態(tài)圖像類別標(biāo)簽識別精度。
基于上述分析,本文設(shè)計一種生成對抗網(wǎng)絡(luò)圖像類別標(biāo)簽跨模態(tài)識別系統(tǒng),先采用跨模態(tài)表多標(biāo)簽標(biāo)定算法標(biāo)定圖像類別標(biāo)簽,再采用優(yōu)化后的生成對抗網(wǎng)絡(luò)識別標(biāo)定后的圖像類別標(biāo)簽。
1? 跨模態(tài)識別系統(tǒng)設(shè)計
生成對抗網(wǎng)絡(luò)圖像類別標(biāo)簽跨模態(tài)識別系統(tǒng)設(shè)計,主要包含跨模態(tài)標(biāo)簽標(biāo)定模塊和生成對抗網(wǎng)絡(luò)模塊。系統(tǒng)總體結(jié)構(gòu)圖如圖1所示。
系統(tǒng)先將待識別圖像輸入跨模態(tài)多標(biāo)簽標(biāo)定模塊中,采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建圖像模型和文本模型,其中通過同質(zhì)遷徙學(xué)習(xí)獲取文本模型的預(yù)訓(xùn)練網(wǎng)絡(luò),依照預(yù)訓(xùn)練網(wǎng)絡(luò)訓(xùn)練文本模型[6],通過同質(zhì)遷徙學(xué)習(xí)和異質(zhì)遷徙學(xué)習(xí)混合遷徙學(xué)習(xí),獲取預(yù)訓(xùn)練網(wǎng)絡(luò),依照獲取的預(yù)訓(xùn)練網(wǎng)絡(luò)訓(xùn)練圖像模型,融合訓(xùn)練后的圖像內(nèi)容和說明文本兩種模態(tài),多模態(tài)類別標(biāo)簽標(biāo)定圖像[7],將標(biāo)定后圖像傳輸?shù)缴蓪咕W(wǎng)絡(luò)模塊中,通過該模塊處理標(biāo)定后圖像,識別圖像類別標(biāo)簽。
1.1? 跨模態(tài)多標(biāo)簽標(biāo)定模塊
多標(biāo)簽遷徙模型由文本模型和圖像模型兩部分構(gòu)成,采用跨模態(tài)標(biāo)簽標(biāo)定算法標(biāo)定時,需采用相應(yīng)方法構(gòu)建圖像模型和文本模型。
1) 圖像模型。采用極深卷積神經(jīng)網(wǎng)絡(luò)處理圖像模型,微調(diào)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使其適應(yīng)跨模態(tài)標(biāo)簽標(biāo)定算法。其中極深卷積網(wǎng)絡(luò)是一種深度殘差網(wǎng)絡(luò),深度為50層。圖像模型中采用二元交叉熵?fù)p失函數(shù)[8],將最后一層softMax替換成激活函數(shù),激活函數(shù)的表達(dá)式如下:
式中:[sig(y)]用于估計圖像中每個標(biāo)簽的相關(guān)后驗概率;[y]表示訓(xùn)練集中的樣本。
2) 文本模型。需先收集所有文章的圖像說明文本,再采用相關(guān)工具訓(xùn)練圖像文本說明,獲取詞向量詞典,采用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本模型。卷積神經(jīng)網(wǎng)絡(luò)由嵌入層、兩個全連接層、卷積層和全局最大池化層構(gòu)成。其中嵌入層中包含詞向量詞典和采用訓(xùn)練集解釋說明的文本,同構(gòu)訓(xùn)練層轉(zhuǎn)換輸入文本,將其轉(zhuǎn)變成詞向量形式,縮放處理句子長度[9],將句子長度變成既定單詞數(shù)。訓(xùn)練過程中采用同質(zhì)遷徙學(xué)習(xí)方法,分類文字模型[10]。
1.2? 圖像類別標(biāo)簽跨模態(tài)識別
經(jīng)過實際調(diào)查分析發(fā)現(xiàn),原始生成對抗網(wǎng)絡(luò)主要由生成器和鑒別器構(gòu)成,如果想采用生成對抗網(wǎng)絡(luò)跨模態(tài)識別圖像類別標(biāo)簽,需在網(wǎng)絡(luò)中添加一個提取特征的結(jié)構(gòu),即在生成對抗網(wǎng)絡(luò)中添加一個編碼器,作為生成結(jié)構(gòu)的逆運算,通過既定訓(xùn)練方式訓(xùn)練編碼器,獲取圖像原始數(shù)據(jù)本質(zhì)特征[11],改進(jìn)后的生成對抗網(wǎng)絡(luò)鑒別器不僅輸出圖像數(shù)據(jù),且輸出對應(yīng)的特征信息,達(dá)到跨模態(tài)識別圖像類別標(biāo)簽的目的[12?13]。優(yōu)化后生成對抗網(wǎng)絡(luò)損失函數(shù),采用損失函數(shù)調(diào)整訓(xùn)練方式,改善網(wǎng)絡(luò)學(xué)習(xí)能力[14]。優(yōu)化后的生成對抗網(wǎng)絡(luò)結(jié)果如圖2所示。
生成對抗網(wǎng)絡(luò)先采用生成器映射隨機隱變量,獲取生成圖像,通過編碼器映射圖像庫中圖像獲取圖像特征,將生成圖像、真實圖像以及圖像對應(yīng)的特征輸入到鑒別器中。輸入過程中采用流行一致方法,固定鑒別器采納數(shù)后,采用鑒別器判斷輸入是否是真實圖像數(shù)據(jù)。反向調(diào)整生成器和編碼器的參數(shù),直到網(wǎng)絡(luò)收斂時不再調(diào)整參數(shù),使生成圖像與數(shù)據(jù)庫中的圖像之間相似度較高,此時編碼器輸出圖像類別標(biāo)簽識別結(jié)果。
2? 實驗分析
2.1? 系統(tǒng)識別圖像結(jié)果
為驗證本文系統(tǒng)圖像類別標(biāo)簽識別效果,從圖庫中隨機選取一幅圖像進(jìn)行識別測試,原始圖像和識別結(jié)果如圖3所示。
原始圖像中包含多個類別標(biāo)簽,例如電視、桌子、燈和花等,本文系統(tǒng)能將其中的花、電視圖像類別標(biāo)簽跨模態(tài)識別出來,說明本文系統(tǒng)能精準(zhǔn)地跨模態(tài)識別出圖像類別標(biāo)簽。
2.2? 分析識別效果
為驗證本文系統(tǒng)識別效果,需設(shè)置相應(yīng)的評價指標(biāo),本文選取的評價指標(biāo)為漢明損失、宏平均值。其中漢明損失表示誤識別次數(shù),漢明損失數(shù)值范圍在0~1之間;宏平均值表示精度和召回率的調(diào)和平均,宏平均值數(shù)值范圍在0~1之間,宏平均值數(shù)值越大表示識別效果越好,統(tǒng)計所選圖像類別標(biāo)簽跨模態(tài)識別結(jié)果,統(tǒng)計結(jié)果如表1所示。
從表1可以看出,本文系統(tǒng)識別所選圖像類別標(biāo)簽的漢明損失數(shù)值均低于0.02,宏平均值高于0.97,識別時間在5~6 ms的范圍內(nèi),說明本文系統(tǒng)識別圖像類別標(biāo)簽的誤識別次數(shù)較低,識別精度較好,識別時間短。
3? 結(jié)? 論
本文設(shè)計一種生成對抗網(wǎng)絡(luò)圖像類別標(biāo)簽跨模態(tài)識別系統(tǒng),通過生成對抗網(wǎng)絡(luò)識別圖像類別標(biāo)簽。本文系統(tǒng)可通過較少的圖像標(biāo)簽數(shù)據(jù)訓(xùn)練得到識別效果較好的識別器,逆向利用生成器識別圖像類別標(biāo)簽,使生成對抗網(wǎng)絡(luò)具備直接學(xué)習(xí)圖像本質(zhì)特征的能力,減少處理過程中圖像信息損失程度,提升識別圖像類別標(biāo)簽效果,使本文系統(tǒng)適用性較強,可應(yīng)用于實際識別圖像類別標(biāo)簽中。
注:本文通訊作者為劉斌。
參考文獻(xiàn)
[1] 于玉海,林鴻飛,孟佳娜,等.跨模態(tài)多標(biāo)簽生物醫(yī)學(xué)圖像分類建模識別[J].中國圖象圖形學(xué)報,2018,23(6):143?153.
[2] 李凱,彭亦功.基于生成對抗網(wǎng)絡(luò)的圖像識別改進(jìn)方法[J].計算機工程與設(shè)計,2019,40(2):199?202.
[3] 唐賢倫,杜一銘,劉雨微,等.基于條件深度卷積生成對抗網(wǎng)絡(luò)的圖像識別方法[J].自動化學(xué)報,2018,44(5):90?99.
[4] 杜秋平,劉群.基于圖像云模型語義標(biāo)注的條件生成對抗網(wǎng)絡(luò)[J].模式識別與人工智能,2018,31(4):379?388.
[5] 陳文兵,管正雄,陳允杰.基于條件生成式對抗網(wǎng)絡(luò)的數(shù)據(jù)增強方法[J].計算機應(yīng)用,2018,38(11):259?265.
[6] 李幼軍,黃佳進(jìn),王海淵,等.基于SAE和LSTMRNN的多模態(tài)生理信號融合和情感識別研究[J].通信學(xué)報,2017,38(12):109?120.
[7] 征察,吉立新,李邵梅,等.基于多模態(tài)信息融合的新聞圖像人臉標(biāo)注[J].計算機應(yīng)用,2017,37(10):3006?3011.
[8] 李志欣,鄭永哲,張燦龍,等.結(jié)合深度特征與多標(biāo)記分類的圖像語義標(biāo)注[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2018,30(2):318?326.
[9] 趙樹陽,李建武.基于生成對抗網(wǎng)絡(luò)的低秩圖像生成方法[J].自動化學(xué)報,2018,44(5):64?74.
[10] 李健偉,曲長文,彭書娟,等.基于生成對抗網(wǎng)絡(luò)和線上難例挖掘的SAR圖像艦船目標(biāo)檢測[J].電子與信息學(xué)報,2019,41(1):148?154.
[11] 劉玉杰,竇長紅,趙其魯,等.基于條件生成對抗網(wǎng)絡(luò)的手繪圖像檢索[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2017,29(12):2336?2342.
[12] 桑亮,高爽,尹增山.基于生成對抗網(wǎng)絡(luò)的運動模糊圖像復(fù)原[J].計算機工程與應(yīng)用,2019(6):173?177.
[13] 楊真真,匡楠,范露,等.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法綜述[J].信號處理,2018,34(12):84?99.
[14] 楊懿男,齊林海,王紅,等.基于生成對抗網(wǎng)絡(luò)的小樣本數(shù)據(jù)生成技術(shù)研究[J].電力建設(shè),2019,40(5):71?77.