• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于遷移學(xué)習(xí)與多標(biāo)簽平滑策略的圖像自動(dòng)標(biāo)注

      2018-12-14 05:26:24張奧帆王利琴董永峰
      計(jì)算機(jī)應(yīng)用 2018年11期
      關(guān)鍵詞:標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)

      汪 鵬,張奧帆,王利琴,董永峰

      (1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401; 2.河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室(河北工業(yè)大學(xué)),天津 300401)(*通信作者電子郵箱wangliqin@scse.hebut.edu.cn)

      0 引言

      隨著多媒體技術(shù)的飛速發(fā)展和圖像采集設(shè)備的日趨便捷,數(shù)字圖像資源呈爆炸式增長(zhǎng),如何從海量的圖像中快速檢索出用戶感興趣的資源已成為圖像處理領(lǐng)域重要的研究方向。圖像自動(dòng)標(biāo)注技術(shù)實(shí)現(xiàn)對(duì)圖像自動(dòng)標(biāo)注反映其語(yǔ)義內(nèi)容的關(guān)鍵詞,從而縮小圖像底層視覺(jué)特征與高層語(yǔ)義標(biāo)簽之間的鴻溝[1],提高圖像檢索的效率和準(zhǔn)確性,在圖像與視頻檢索、場(chǎng)景理解、人機(jī)交互等領(lǐng)域具有廣闊的應(yīng)用前景[2]。但由于“語(yǔ)義鴻溝”問(wèn)題,圖像自動(dòng)標(biāo)注仍是一項(xiàng)具有挑戰(zhàn)性的課題,一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。

      圖像特征是圖像語(yǔ)義內(nèi)容的一種重要表示,因此圖像特征提取方法對(duì)于改善圖像標(biāo)注性能至關(guān)重要[3]。近幾年,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為代表的深度學(xué)習(xí)被廣泛地應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,取得了較淺層學(xué)習(xí)更好的效果。然而,在圖像自動(dòng)標(biāo)注領(lǐng)域,普遍存在著標(biāo)準(zhǔn)數(shù)據(jù)集樣本數(shù)量有限并且標(biāo)簽分布不均勻的問(wèn)題,造成網(wǎng)絡(luò)過(guò)擬合及標(biāo)注性能不佳,因此本文通過(guò)遷移學(xué)習(xí)的思想解決圖像數(shù)據(jù)集樣本數(shù)量有限的問(wèn)題,通過(guò)在網(wǎng)絡(luò)中加入多標(biāo)簽平滑單元減輕標(biāo)簽分布不均勻問(wèn)題,從而進(jìn)一步提高圖像自動(dòng)標(biāo)注的性能。

      1 相關(guān)工作

      在圖像自動(dòng)標(biāo)注領(lǐng)域,學(xué)者們已提出大量的模型,這些模型大致分為三類:生成模型、最鄰近模型以及判別模型。以多貝努利相關(guān)模型(Multiple Bernoulli Relevance Model, MBRM)[3]與跨媒體相關(guān)模型 (Cross Media Relevance Model,CMRM)[4]為代表的基于生成模型的圖像標(biāo)注方法,首先提取圖像的視覺(jué)信息(如顏色、形狀、紋理、空間關(guān)系等),然后計(jì)算圖像的視覺(jué)特征與圖像標(biāo)注詞之間的聯(lián)合概率分布或不同標(biāo)注詞的條件概率分布,最后利用這些概率分布對(duì)標(biāo)注詞打分從而完成標(biāo)注。最近, Moran等[5]提出一種改進(jìn)的連續(xù)相關(guān)模型SKL-CRM (Sparse Kernel Learning Continuous Relevance Model),該模型通過(guò)學(xué)習(xí)特征核之間的最優(yōu)組合,提升了圖像標(biāo)注性能。

      最近鄰模型以JEC(Joint Equal Contribution)方法[6]、基于度量學(xué)習(xí)的TagProp_ML (Tag Propagation_Metric Learning)方法[3]和2PKNN(Two-PassK-Nearest Neighbor)方法[7]為代表。這些模型的基本思想是找到與測(cè)試圖片最相似的若干張圖片,并利用這些圖片對(duì)應(yīng)標(biāo)簽為測(cè)試圖片進(jìn)行標(biāo)注。其中2PKNN_ML(2PKNN_Metric Learning)方法[8]在找到測(cè)試圖片的語(yǔ)義近鄰圖片后,通過(guò)度量學(xué)習(xí)優(yōu)化特征間距離權(quán)重的方法獲得較好的標(biāo)注效果,成為近幾年最近鄰模型中較先進(jìn)、較有代表性的方法。在2PKNN模型思想的基礎(chǔ)上,文獻(xiàn)[9]將CNN作為特征提取器,提出了NN-CNN(Nearest Neighbor-CNN)方法,取得了較好的效果。

      判別模型將每一個(gè)標(biāo)簽作為一類,將圖像標(biāo)注任務(wù)看成是多分類任務(wù),通過(guò)訓(xùn)練一個(gè)多分類器,將一張測(cè)試圖片劃分到某個(gè)標(biāo)簽所屬的類別中去。近幾年,隨著深度學(xué)習(xí)的不斷發(fā)展,基于深度CNN的判別模型在多標(biāo)簽圖像自動(dòng)標(biāo)注領(lǐng)域取得了一定的成績(jī)。文獻(xiàn)[10]在CNN模型的基礎(chǔ)上,設(shè)計(jì)了一種基于Softmax回歸的多標(biāo)簽排名損失函數(shù)網(wǎng)絡(luò)模型,與傳統(tǒng)方法相比有較大提升; 文獻(xiàn)[11]將CNN視為特征提取器,并將損失層替換為可進(jìn)行多分類的支持向量機(jī)(Support Vector Machine,SVM)分類器,以適應(yīng)多標(biāo)簽學(xué)習(xí),在其特定的數(shù)據(jù)集上取得了一定的標(biāo)注效果; 文獻(xiàn)[12]提出了基于線性回歸器的CNN-R(CNN-Regression)方法,該方法通過(guò)反向傳播(Back Propagation, BP)算法優(yōu)化模型參數(shù),取得了一定效果; 文獻(xiàn)[13]提出了CNN-MSE(CNN-Mean Squared Error)方法,該方法設(shè)計(jì)了基于多標(biāo)簽學(xué)習(xí)的均方誤差損失函數(shù),較傳統(tǒng)方法在性能上獲得了很大提高。然而,這些方法忽略了數(shù)據(jù)集普遍存在的標(biāo)簽分布不平衡問(wèn)題,因此導(dǎo)致訓(xùn)練出的網(wǎng)絡(luò)模型對(duì)于低頻詞的標(biāo)注效果較差。

      為了有效提取圖像特征并減輕標(biāo)簽分布不平衡帶來(lái)的影響,考慮到基于語(yǔ)義標(biāo)簽出現(xiàn)頻率設(shè)置不同的權(quán)重可以改善標(biāo)簽數(shù)據(jù)集不平衡問(wèn)題[14],本文在遷移學(xué)習(xí)的基礎(chǔ)上,設(shè)計(jì)了基于標(biāo)簽平滑策略的多標(biāo)簽平滑單元(Multi-Label Smoothing Unit, MLSU),通過(guò)給標(biāo)簽分配不同的平滑系數(shù),提高弱標(biāo)簽的標(biāo)注效果,從而提升了整個(gè)模型的標(biāo)注性能。

      2 基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)

      2.1 遷移學(xué)習(xí)

      深度學(xué)習(xí)訓(xùn)練需要大量已標(biāo)注的數(shù)據(jù),然而在現(xiàn)實(shí)條件下根本無(wú)法獲得大量已標(biāo)注的數(shù)據(jù), 因此,考慮通過(guò)遷移學(xué)習(xí)的方法,將已有的知識(shí)遷移到目標(biāo)領(lǐng)域中,解決僅有少量已標(biāo)注樣本數(shù)據(jù)的學(xué)習(xí)問(wèn)題[15]。遷移學(xué)習(xí)的數(shù)學(xué)模型[16]如下:

      首先在源領(lǐng)域基礎(chǔ)數(shù)據(jù)集DS和基礎(chǔ)任務(wù)TS上預(yù)訓(xùn)練一個(gè)基礎(chǔ)網(wǎng)絡(luò),然后再用目標(biāo)數(shù)據(jù)集DT和目標(biāo)任務(wù)TT微調(diào)網(wǎng)絡(luò)。如果特征是泛化的,那么這些特征對(duì)基礎(chǔ)任務(wù)TS和目標(biāo)任務(wù)TT都是適用的,從而訓(xùn)練出來(lái)的模型fT(·)具有較好的泛化性能。

      在圖像處理領(lǐng)域,圖像具有相同的底層特征,如邊緣、視覺(jué)形狀、幾何變化、光照變化等,這些特征可應(yīng)用于分類、目標(biāo)識(shí)別、自動(dòng)標(biāo)注等不同的任務(wù),因此,可以將經(jīng)過(guò)大規(guī)模圖像訓(xùn)練集預(yù)訓(xùn)練之后的網(wǎng)絡(luò)模型視為一個(gè)通用的特征提取器,將提取到的通用圖像特征應(yīng)用到新任務(wù)上。目前通用的多標(biāo)簽圖像標(biāo)注數(shù)據(jù)集,如Corel5K,僅有4 999張圖片、IAPR TC-12也只有19 627張,如果僅用這些數(shù)據(jù)進(jìn)行深度模型的訓(xùn)練,由于網(wǎng)絡(luò)參數(shù)數(shù)量較大,極易出現(xiàn)過(guò)擬合, 因此,基于遷移學(xué)習(xí)的思想,考慮將應(yīng)用在其他圖像分類任務(wù)上取得良好效果的模型遷移至多標(biāo)簽標(biāo)注領(lǐng)域。目前,AlexNet模型[17]在ImageNet圖像數(shù)據(jù)集上取得了空前的成功,該模型在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上使用了ReLU激活函數(shù), 加入了局部響應(yīng)歸一化和Dropout,使其具有較好的特征提取與泛化性能, 因此本文將AlexNet作為基本模型,通過(guò)修改損失函數(shù)與輸出層參數(shù)以適應(yīng)特定數(shù)據(jù)集下多標(biāo)簽圖像標(biāo)注的要求,最后微調(diào)網(wǎng)絡(luò)以獲得深度卷積特征。

      2.2 基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)

      基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由輸入層、網(wǎng)絡(luò)預(yù)訓(xùn)練和網(wǎng)絡(luò)微調(diào)三部分組成。

      圖1 基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      輸入層輸入原始的RGB圖像,大小為227×227。網(wǎng)絡(luò)預(yù)訓(xùn)練模塊基于AlexNet模型設(shè)計(jì),包含5個(gè)卷積層(Convolution, Conv)、3個(gè)最大池化層(Max-Pooling)及2個(gè)全連接層(Fully Connected layers, FC);網(wǎng)絡(luò)微調(diào)模塊包含1個(gè)全連接層和1個(gè)多標(biāo)簽損失層,各層參數(shù)設(shè)置如表1所示。在表1中,F(xiàn)、S、P分別表示卷積核/池化窗的大小(Filter size)、滑動(dòng)步長(zhǎng)(Stride)、邊界填充(Padding);而K(l)表示本層卷積核/池化窗的個(gè)數(shù),K(0)表示輸入層圖像的通道數(shù);Df表示由本層輸出的特征圖維數(shù);為防止過(guò)擬合使用Dropout,概率設(shè)置為0.5;所有的激活函數(shù)均采用ReLU,學(xué)習(xí)率設(shè)置為0.000 1。最后一個(gè)全連接層輸出節(jié)點(diǎn)的個(gè)數(shù)由微調(diào)網(wǎng)絡(luò)的數(shù)據(jù)集決定,Corel5K數(shù)據(jù)集和IAPR TC-12數(shù)據(jù)集輸出節(jié)點(diǎn)個(gè)數(shù)N分別設(shè)定為260和291。

      表1 模型各層參數(shù)設(shè)置

      3 多標(biāo)簽平滑

      3.1 基于多標(biāo)簽的Sigmoid交叉熵?fù)p失函數(shù)

      基于遷移學(xué)習(xí)進(jìn)行網(wǎng)絡(luò)參數(shù)微調(diào)時(shí),損失層的損失函數(shù)設(shè)計(jì)主要針對(duì)單標(biāo)簽分類,為適應(yīng)多標(biāo)簽標(biāo)注,需要將圖片對(duì)應(yīng)的標(biāo)簽從單個(gè)數(shù)值變?yōu)闃?biāo)簽向量,并確定一個(gè)能夠?qū)⒛硞€(gè)標(biāo)簽向量中的每個(gè)標(biāo)簽元素對(duì)應(yīng)的損失進(jìn)行累加求和的損失函數(shù)[18]。本文將Sigmoid交叉熵?fù)p失函數(shù)應(yīng)用到基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)中,并使其適應(yīng)多標(biāo)簽分類任務(wù),其公式表示如下:

      (1)

      σ(xk)=1/(1+e-xk)

      (2)

      其中xk∈(-∞,+∞)表示網(wǎng)絡(luò)模型最后一層第k個(gè)神經(jīng)元的輸出值。可以看出基于多標(biāo)簽的Sigmoid交叉熵?fù)p失函數(shù)可以分解成Sigmoid層與交叉熵?fù)p失層,即網(wǎng)絡(luò)的輸出值先通過(guò)Sigmoid函數(shù)層,然后在交叉熵?fù)p失層進(jìn)行運(yùn)算,從而得出最終的多標(biāo)簽損失。對(duì)式(1)利用梯度下降法求導(dǎo),得到:

      (3)

      將式(3)化簡(jiǎn)后得:

      (4)

      3.2 多標(biāo)簽平滑單元

      目前通用的圖像標(biāo)注數(shù)據(jù)集普遍存在標(biāo)簽分布不平衡問(wèn)題,即不同的語(yǔ)義標(biāo)簽在圖像集中出現(xiàn)的頻率有較大的方差[2],例如,通常圖像中標(biāo)注詞“sky”和“tree”在數(shù)據(jù)集出現(xiàn)的頻率遠(yuǎn)遠(yuǎn)高于標(biāo)注詞“canyon”和“whales”。對(duì)于多標(biāo)簽圖像數(shù)據(jù)集Corel5K與IAPR TC-12,其標(biāo)簽分布不平衡問(wèn)題更為嚴(yán)重,如表2所示??梢钥吹?,Corel5K和IAPR TC-12數(shù)據(jù)集中大約75%的標(biāo)簽出現(xiàn)頻率低于平均標(biāo)簽頻率。

      表2 圖像標(biāo)注數(shù)據(jù)集描述

      在訓(xùn)練模型時(shí),由于訓(xùn)練集的標(biāo)簽分布不平衡,高頻詞對(duì)應(yīng)的網(wǎng)絡(luò)輸出值與低頻詞對(duì)應(yīng)的網(wǎng)絡(luò)輸出值差距很大,即學(xué)習(xí)到的模型對(duì)高頻標(biāo)簽比低頻標(biāo)簽更敏感,從而使系統(tǒng)對(duì)高頻標(biāo)簽標(biāo)注具有較高的準(zhǔn)確率,而對(duì)低頻標(biāo)簽的標(biāo)注性能偏低。由于低頻標(biāo)簽數(shù)量很大,因此低頻標(biāo)簽的標(biāo)注準(zhǔn)確性對(duì)模型整體的標(biāo)注性能有重要影響。

      為改善低頻標(biāo)簽的標(biāo)注性能,在高頻標(biāo)簽中加入噪聲,從而在訓(xùn)練過(guò)程中適當(dāng)減弱模型對(duì)高頻標(biāo)簽的偏好,在一定程度上相當(dāng)于增強(qiáng)了那些原本被忽略掉的低頻標(biāo)簽,使網(wǎng)絡(luò)模型對(duì)低頻標(biāo)簽的標(biāo)注性能得到提升?;谝陨纤枷耄O(shè)計(jì)了多標(biāo)簽平滑單元(MLSU), 對(duì)于每張圖片的多個(gè)標(biāo)簽,可以假設(shè)每個(gè)標(biāo)簽都是相對(duì)獨(dú)立的,那么這些標(biāo)簽可以組成一個(gè)標(biāo)簽向量y∈R1×K,K為數(shù)據(jù)集中標(biāo)簽總數(shù)。yj=1表示對(duì)這張圖片標(biāo)注第j個(gè)標(biāo)簽;相應(yīng)地,yj=0則表示沒(méi)有標(biāo)注第j個(gè)標(biāo)簽。向量Ω=[ε1,ε2,…,εK]表示為數(shù)據(jù)集標(biāo)簽的平滑參數(shù),每個(gè)標(biāo)簽的平滑參數(shù)表示如下:

      εj=nj/N

      (5)

      其中:nj表示標(biāo)簽j在訓(xùn)練集中被標(biāo)注的次數(shù),N為訓(xùn)練集樣本總數(shù)。對(duì)于樣本x所對(duì)應(yīng)的標(biāo)簽向量y,通過(guò)定義一個(gè)新的標(biāo)簽yj′替換掉原來(lái)的標(biāo)簽yj,其中u(K)為一個(gè)固定分布。

      yj′=εj×yj+ (1-εj)×u(K)×sign(yj)

      (6)

      式(6)表示將原始標(biāo)簽與分布u(K)進(jìn)行混合,原始標(biāo)簽由其對(duì)應(yīng)的平滑參數(shù)來(lái)調(diào)整權(quán)重,相當(dāng)在原來(lái)的標(biāo)簽yj中加入噪聲,使得yj有(1-εj)的概率來(lái)自分布u(K)。為了方便計(jì)算,u(K)一般取均勻分布,則式(6)可表示為:

      (7)

      多標(biāo)簽平滑單元處理過(guò)程如下所示:

      輸入:訓(xùn)練樣本x及其對(duì)應(yīng)的標(biāo)簽向量y=[y1,y2,…,yK],所有標(biāo)簽的平滑參數(shù)Ω=[ε1,ε2,…,εK]。

      2)

      Fori=1,2,…,K

      3)

      IFεi>δ

      4)

      根據(jù)式(7)計(jì)算yj′

      5)

      End IF

      6)

      End For

      輸出:經(jīng)過(guò)平滑處理的多標(biāo)簽向量y′=[y1′,y2′,…,yK′]。

      4 實(shí)驗(yàn)與結(jié)果分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

      為了測(cè)試本文方法的有效性,實(shí)驗(yàn)分別在兩個(gè)通用的多標(biāo)簽圖像標(biāo)注數(shù)據(jù)集Corel5K與IAPR TC-12數(shù)據(jù)集上進(jìn)行,數(shù)據(jù)集詳細(xì)描述如表2所示。

      評(píng)價(jià)指標(biāo)使用平均查準(zhǔn)率(Average Precision,AP)、平均查全率(Average Recall,AR)以及F1度量,計(jì)算公式如下所示,為了能夠與其他方法進(jìn)行比較,每張測(cè)試圖片使用5個(gè)標(biāo)簽進(jìn)行標(biāo)注。

      (8)

      (9)

      (10)

      實(shí)驗(yàn)基于Caffe(Convolutional architecture for fast feature embedding)深度學(xué)習(xí)框架,使用NVIDIA K620 GPU進(jìn)行計(jì)算,使用cuDNN庫(kù)加速。實(shí)驗(yàn)參數(shù)如表3所示,其中,δ為多標(biāo)簽平滑閾值,Batch_size為批訓(xùn)練樣本個(gè)數(shù),Epoch為訓(xùn)練集迭代次數(shù)。

      表3 實(shí)驗(yàn)參數(shù)設(shè)置

      4.2 多標(biāo)簽平滑單元對(duì)標(biāo)注性能的提升

      為了驗(yàn)證本文提出的MLSU對(duì)標(biāo)注性能的提升,將CNN-MLSU模型與只進(jìn)行遷移學(xué)習(xí)而沒(méi)有進(jìn)行多標(biāo)簽平滑操作的模型CNN-TL(CNN-Transfer-Learning)進(jìn)行標(biāo)注性能的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。從表4可以看出,在網(wǎng)絡(luò)模型中加入MLSU后,在標(biāo)注的各項(xiàng)評(píng)價(jià)指標(biāo)都有較為明顯的提升,其算法性能在通用數(shù)據(jù)集Corel5K和IAPR TC-12上均得到驗(yàn)證,從而證明了CNN-MLSU模型的有效性與普適性。

      表4 CNN-MLSU與CNN-TL性能對(duì)比

      此外,為了驗(yàn)證CNN-MLSU方法在低頻詞匯上的標(biāo)注性能,本文對(duì)比了CNN-MLSU與CNN-TL在低頻詞匯的平均準(zhǔn)確率AP、平均召回率AR、召回率大于0的低頻詞的個(gè)數(shù)N+,對(duì)于Corel5K有195個(gè)低頻詞匯,對(duì)于IAPR TC-12有217個(gè)低頻詞匯,實(shí)驗(yàn)結(jié)果如表5所示。

      表5 MLSU對(duì)低頻詞標(biāo)注性能的改善結(jié)果

      綜合表4與表5的實(shí)驗(yàn)數(shù)據(jù)可以看出,CNN的網(wǎng)絡(luò)模型在加入MLSU多標(biāo)簽平滑單元后,在幾乎不影響高頻詞匯標(biāo)注性能的情況下,提升了低頻詞匯的標(biāo)注性能。

      4.3 與其他圖像標(biāo)注方法比較

      為驗(yàn)證本文提出的基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)在多標(biāo)簽標(biāo)注方面的標(biāo)注性能,分別與傳統(tǒng)的JEC方法、MBRM方法、改進(jìn)的TagProp_ML方法、SKL-CRM方法、2PKNN方法以及較為先進(jìn)的2PKNN_ML方法和NN-CNN方法進(jìn)行了比較。并與同樣使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像標(biāo)注的CNN-R方法、CNN-MSE方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。

      表6在通用數(shù)據(jù)集上各圖像標(biāo)注方法的實(shí)驗(yàn)結(jié)果

      Tab. 6 Experimental results of image annotation methods on generic datasets

      通過(guò)表6可以看出,在Corel5K數(shù)據(jù)集上,本文提出的CNN-MLSU方法較傳統(tǒng)方法有較大的提高,平均準(zhǔn)確率較JEC方法提高了10個(gè)百分點(diǎn),平均召回率較MBRM方法提高了24個(gè)百分點(diǎn)。在使用卷積神經(jīng)網(wǎng)絡(luò)的模型中,CNN-MLSU的平均準(zhǔn)確率較CNN-R方法提升5個(gè)百分點(diǎn),平均召回率提升8個(gè)百分點(diǎn)。 另外,CNN-MLSU在平均準(zhǔn)確率上雖然低于2PKNN_ML方法,但是在平均召回率上較2PKNN_ML提高了3個(gè)百分點(diǎn),仍是可比較的。在IAPR TC-12數(shù)據(jù)集上,CNN-MLSU較傳統(tǒng)方法及其他CNN方法在各項(xiàng)指標(biāo)上均有較好的表現(xiàn),與較為先進(jìn)的NN-CNN相比,雖然在平均準(zhǔn)確率上存在差距,但在平均召回率上性能要明顯優(yōu)于NN-CNN,綜合指標(biāo)F1值也與其不相上下。

      圖2給出了使用CNN-MLSU模型進(jìn)行標(biāo)注后部分圖像的標(biāo)注結(jié)果示例。通過(guò)圖2可以看出,雖然模型預(yù)測(cè)出的某些詞(用斜體表示)不是測(cè)試圖片的真實(shí)標(biāo)簽,但是從圖片的語(yǔ)義內(nèi)容角度來(lái)說(shuō),這些詞能夠正確表達(dá)圖像的部分內(nèi)容。然而,這些預(yù)測(cè)出的標(biāo)注詞卻在計(jì)算準(zhǔn)確率和召回率的過(guò)程中被判定為錯(cuò)誤的標(biāo)簽,不但沒(méi)有提高召回率,反而導(dǎo)致了準(zhǔn)確率的下降。結(jié)合表2中關(guān)于數(shù)據(jù)集的描述,IAPR TC-12數(shù)據(jù)集中平均每張圖片被標(biāo)注的個(gè)數(shù)為5.7,但是在Corel5K數(shù)據(jù)集中卻只有3.5個(gè),這種由于數(shù)據(jù)集標(biāo)注不全面而產(chǎn)生的“弱標(biāo)注”現(xiàn)象在Corel5K數(shù)據(jù)集中更為嚴(yán)重,在一定程度上導(dǎo)致了Corel5K數(shù)據(jù)集準(zhǔn)確率不高。此外,本文提出的CNN-MLSU模型隸屬于判別模型,較近鄰模型而言,對(duì)訓(xùn)練數(shù)據(jù)樣本數(shù)量的要求更高。在Corel5K數(shù)據(jù)集僅有4 500張訓(xùn)練樣本的前提下,CNN-MLSU的綜合指標(biāo)略低于近幾年較先進(jìn)的近鄰模型,但隨著訓(xùn)練樣本的增加,判別模型的優(yōu)勢(shì)逐步顯現(xiàn),因此在擁有17 665張訓(xùn)練樣本的IAPR TC-12數(shù)據(jù)集下,本文提出的CNN-MLSU模型能夠獲得較好的綜合標(biāo)注性能。

      圖2 真實(shí)標(biāo)簽與模型預(yù)測(cè)標(biāo)簽對(duì)比

      5 結(jié)語(yǔ)

      本文在卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet的基礎(chǔ)上,利用遷移學(xué)習(xí)較優(yōu)的通用特征提取能力與較強(qiáng)的泛化能力,改善了特定領(lǐng)域圖像樣本數(shù)量不足的問(wèn)題,有效地防止了網(wǎng)絡(luò)過(guò)擬合。同時(shí)引入多標(biāo)簽平滑方法,根據(jù)標(biāo)簽在數(shù)據(jù)集中的分布情況,自動(dòng)對(duì)高頻標(biāo)簽進(jìn)行平滑操作,在一定程度上提升了低頻標(biāo)簽的標(biāo)注性能。在Corel5K數(shù)據(jù)集上,本文提出的CNN-MLSU模型較卷積神經(jīng)網(wǎng)絡(luò)回歸方法(CNN-R)的平均準(zhǔn)確率與平均召回率分別提升了5個(gè)百分點(diǎn)和8個(gè)百分點(diǎn)。在IAPR TC-12數(shù)據(jù)集上,較近幾年表現(xiàn)較優(yōu)的兩場(chǎng)K最鄰近模型(2PKNN_ML)的平均召回率提升了6個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,CNN-MLSU與其他傳統(tǒng)方法、普通卷積神經(jīng)網(wǎng)絡(luò)標(biāo)注方法相比,具有更好的綜合標(biāo)注性能。

      猜你喜歡
      標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      標(biāo)簽化傷害了誰(shuí)
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      新乡市| 麻江县| 东辽县| 舟山市| 连云港市| 登封市| 邻水| 炉霍县| 永仁县| 黄大仙区| 扎囊县| 盈江县| 华阴市| 子洲县| 台中市| 林州市| 嘉义市| 大足县| 海南省| 嘉禾县| 宁波市| 长顺县| 衡东县| 长岭县| 博客| 罗甸县| 沁阳市| 阿鲁科尔沁旗| 高碑店市| 囊谦县| 广丰县| 万全县| 息烽县| 丰镇市| 罗平县| 东山县| 福贡县| 宜川县| 依安县| 栾川县| 贵德县|