• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合CNN與交互特征的多標(biāo)簽圖像分類方法

      2022-09-24 02:42:42王盼紅朱昌明
      關(guān)鍵詞:集上標(biāo)簽準(zhǔn)確率

      王盼紅,朱昌明

      (上海海事大學(xué)信息工程學(xué)院,上海 201306)

      0 引 言

      自從深度學(xué)習(xí)的概念問世以來,相關(guān)研究一直在蓬勃發(fā)展。由于深受其益,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的非凡突破也被應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域的各個(gè)方面[1],如圖像分類[2-3]、目標(biāo)檢測[4-5]等。具有一層或多層卷積層的神經(jīng)網(wǎng)絡(luò)稱為卷積神經(jīng)網(wǎng)絡(luò),其卷積層由具有學(xué)習(xí)能力的濾波器組成[6-7]。單標(biāo)簽分類主要是對(duì)所研究問題,每次僅為其匹配一個(gè)最可能的標(biāo)簽。近年來,CNN在單標(biāo)簽圖像分類中表現(xiàn)出良好的分類性能。如Ghazi等人[8]采用預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型結(jié)合遷移學(xué)習(xí)對(duì)植物物種進(jìn)行分類,最優(yōu)分類準(zhǔn)確率達(dá)到80%;Dias等人[9]設(shè)計(jì)出了一種基于CNN的花卉類別檢測算法,該算法利用計(jì)算機(jī)視覺技術(shù)結(jié)合顏色和形態(tài)信息,最終召回率和準(zhǔn)確率接近80%;Gayathri等人[10]提出了一種新的模型提取視網(wǎng)膜眼底圖像的特征,并使用J48分類器進(jìn)行分類,其二分類的平均準(zhǔn)確率為99.89%,多分類的平均準(zhǔn)確率為99.59%。然而,由于在現(xiàn)實(shí)世界中,每個(gè)圖像通常都帶有豐富的語義信息,如對(duì)象、場景、動(dòng)作以及屬性等,而通過這些豐富的語義信息及其依賴關(guān)系來建模對(duì)于圖像理解至關(guān)重要[11]。因而多標(biāo)簽圖像分類問題開始得到關(guān)注。多標(biāo)簽問題即針對(duì)所給數(shù)據(jù),可同時(shí)為其分配多個(gè)標(biāo)簽,如圖1可同時(shí)標(biāo)記為“風(fēng)景”“樹”“河”3個(gè)標(biāo)簽。

      圖1 多標(biāo)簽實(shí)例

      Song等人[12]提出了一種深度多模型的CNN框架,模型中將每幅圖像表示為一個(gè)用于圖像分類的實(shí)例包,并繼承神經(jīng)網(wǎng)絡(luò)和多實(shí)例多標(biāo)簽的優(yōu)點(diǎn);Dao等人[13]提出在有監(jiān)督的環(huán)境下利用對(duì)比學(xué)習(xí)來學(xué)習(xí)圖像在不同標(biāo)簽背景下的多種表示方法;Wang等人[14]利用殘差網(wǎng)絡(luò)提取圖像深度學(xué)習(xí)特征并將該結(jié)果作為輸入,通過圖像空間和標(biāo)簽空間的正則化生成結(jié)果向量,有效提高分類的準(zhǔn)確率和召回率;Jin等人[15]基于深度學(xué)習(xí)設(shè)計(jì)一種新的圖像語義分割模型解決多標(biāo)簽分類任務(wù),該模型使用感受野代替標(biāo)準(zhǔn)卷積,實(shí)驗(yàn)結(jié)果取得較好的分割精度;黃睿等人[16]提出基于標(biāo)簽正負(fù)相關(guān)性的多標(biāo)簽類屬特征學(xué)習(xí)方法。著名的多標(biāo)簽分類方法是簡單地為每個(gè)標(biāo)簽訓(xùn)練一個(gè)獨(dú)立的分類器來處理問題,這在研究文獻(xiàn)中通常被稱為二元相關(guān)性(Binary Relevance, BR)轉(zhuǎn)換[17-18]。

      上述文獻(xiàn)研究中處理多標(biāo)簽分類任務(wù)普遍存在建模的時(shí)間復(fù)雜度高、模型復(fù)雜導(dǎo)致內(nèi)存消耗較大、特征信息不足導(dǎo)致分類精度低等問題。針對(duì)這些不足,本文提出一種融合CNN與交互特征的多標(biāo)簽圖像分類方法,即MLCNN-IF。該模型主要分成2個(gè)部分:1)提出一個(gè)只有9層的輕量級(jí)神經(jīng)網(wǎng)絡(luò),即MLCNN,該網(wǎng)絡(luò)參考傳統(tǒng)的CNN基本結(jié)構(gòu)進(jìn)行搭建,同時(shí)網(wǎng)絡(luò)中循環(huán)增加Batch Normalization(BN)層[19]和Dropout層[20],并使用全局最大池化代替?zhèn)鹘y(tǒng)的全連接層;2)由于網(wǎng)絡(luò)提取特征僅考慮單個(gè)特征,造成一些對(duì)分類任務(wù)有價(jià)值的組合特征信息丟失,因此基于MLCNN得到的特征再采用交叉特征技術(shù)獲得更豐富的特征信息,進(jìn)一步提高分類性能。實(shí)驗(yàn)選擇4種不同場景下的多標(biāo)簽圖像數(shù)據(jù)集,對(duì)比網(wǎng)絡(luò)有VGG16[21]、AlexNet[22]和GoogLeNet[23],通過豐富的對(duì)比實(shí)驗(yàn)成功驗(yàn)證所提的MLCNN-IF模型的有效性與先進(jìn)性。

      1 所提模型MLCNN-IF

      為降低模型復(fù)雜度,減少參數(shù)量,提高多標(biāo)簽分類性能,本文提出融合CNN與交互特征的MLCNN-IF模型。該模型首先提出一種僅有9層的輕量級(jí)神經(jīng)網(wǎng)絡(luò),即MLCNN處理圖像并提取特征;其次基于MLCNN得到的特征,采用交互特征方法獲得各獨(dú)立特征的各種組合特征信息,進(jìn)一步提高分類準(zhǔn)確率。

      1.1 Dropout與BN

      1)Dropout。

      在深度網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,隱藏層節(jié)點(diǎn)參數(shù)變得越來越多,但并不是所有的節(jié)點(diǎn)權(quán)重參數(shù)都對(duì)下一層的網(wǎng)絡(luò)訓(xùn)練有正面積極作用。引入Dropout的目的在于保證在不刪除權(quán)重參數(shù)的前提下,保留一部分參數(shù),即通過設(shè)置一定的篩選率,將隨機(jī)“拋棄”一些節(jié)點(diǎn)權(quán)重參數(shù),不讓其進(jìn)入隱藏層。

      2)BN。

      傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只是在原始樣本數(shù)據(jù)輸入到輸入層之前對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化處理,以降低樣本間的差異性。添加BN層則是在此基礎(chǔ)上,不僅只對(duì)輸入層的輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,還對(duì)每個(gè)隱藏層的輸入進(jìn)行標(biāo)準(zhǔn)化。其目的在于一方面提高梯度的收斂程度,加快模型的訓(xùn)練速度,另一方面使得每一層可以盡量面對(duì)同一特征分布的輸入值,減少輸入變化帶來的不確定性,可降低對(duì)后層網(wǎng)路的影響,使得各層網(wǎng)路變得相對(duì)獨(dú)立,緩解模型訓(xùn)練中的梯度消失問題。

      批量歸一化主要是分2步走,第1步是對(duì)數(shù)據(jù)特征的每個(gè)維度進(jìn)行歸一化處理,即:

      (1)

      (2)

      1.2 所提MLCNN網(wǎng)絡(luò)

      MLCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)繼承傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),即包含卷積層和池化層。將卷積層(Conv)、激活函數(shù)(ReLU)和BN層組合一起默認(rèn)為一個(gè)“基本模塊”,如圖2(a)所示。MLCNN圖像的輸入大小為96×96。與傳統(tǒng)的CNN模型不同的是,卷積層后不會(huì)立刻進(jìn)行池化層處理,而是先進(jìn)入BN層對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,再經(jīng)過池化后進(jìn)入Dropout去隨機(jī)“拋棄”一些節(jié)點(diǎn)權(quán)重參數(shù)幫助網(wǎng)絡(luò)訓(xùn)練模型?!盎灸K”的訓(xùn)練在網(wǎng)絡(luò)中高達(dá)5次,這是為了充分獲取圖像數(shù)據(jù)的特征信息,在減少訓(xùn)練參數(shù)量的同時(shí)保證一定大小的感受野,使得數(shù)據(jù)在經(jīng)過池化層后不僅能得到有效的特征信息,還能避免產(chǎn)生冗余特征;網(wǎng)絡(luò)中存在連續(xù)2輪同樣的訓(xùn)練操作,這是為了保證整個(gè)網(wǎng)絡(luò)的平衡,提高其分類精度,如圖2(b)所示。MLCNN中采用全局最大池化層(Global Max Pool, GMP)代替全連接層,使得經(jīng)由網(wǎng)絡(luò)提取出的特征具有更高效的表達(dá)效果,其計(jì)算公式為:

      (a) 基本模塊

      (b) MLCNN結(jié)構(gòu)圖2 MLCNN網(wǎng)絡(luò)結(jié)構(gòu)圖

      (3)

      1.3 交互特征

      本文所提MLCNN-IF中采用交互特征獲得豐富的特征信息表達(dá),獲得特征之間的交互作用。簡單來說,將網(wǎng)絡(luò)提取出的特征向量相乘得到新的一對(duì)交互特征,將該交互特征以及產(chǎn)生交互特征的原始特征進(jìn)行混合得到新的特征集合。由于網(wǎng)絡(luò)提取出的特征為單個(gè)特征,而實(shí)際在分類任務(wù)中通過組合特征會(huì)產(chǎn)生一些新的有效信息,則新的特征集合中不僅包含原特征信息,還含有由原特征產(chǎn)生的組合特征信息。

      假設(shè)提取出的一對(duì)獨(dú)立特征為x1、x2,則x1·x2得到該獨(dú)立特征的組合特征,擴(kuò)展到多個(gè)特征序列,即提取到的獨(dú)立輸入特征為x1,x2,…,xn,模型使用該特征序列的線性組合得到預(yù)測結(jié)果變量為:

      y=ω1x1+ω2x2+ω3x3+…+ωnxn

      (4)

      其中,ωi(i=1,2,3,…,n)為相應(yīng)的系數(shù)。擴(kuò)展到多個(gè)特征之間的交互作用,即得到的預(yù)測結(jié)果變量為:

      y=ω1x1+ω2x2+…+ω1,1x1x1+ω1,2x1x2+…

      (5)

      1.4 MLCNN-IF模型

      多標(biāo)簽分類問題可以定義為:給定一個(gè)數(shù)據(jù)集合X和一個(gè)標(biāo)簽集合Y,其中X=Rd表示d維的特征空間,Y是有N個(gè)標(biāo)簽的集合Y={y1,y2,…,yn}。包含m個(gè)樣本的多標(biāo)簽數(shù)據(jù)集D={(xi,Yi)|1≤i≤m},其中xi∈X是一個(gè)d維的特征向量(xi1,xi2,…,xid)T,Yi∈Y是xi對(duì)應(yīng)一個(gè)標(biāo)簽集合。多標(biāo)簽分類就是從數(shù)據(jù)集D中學(xué)習(xí)到一個(gè)從實(shí)例空間映射到標(biāo)簽空間的模型W:X→2Y,對(duì)于?xi∈X,模型W都能給出對(duì)應(yīng)的標(biāo)簽。

      為有效處理多標(biāo)簽圖像分類問題,本文提出融合CNN與交互特征的多標(biāo)簽圖像分類模型,即MLCNN-IF模型,如圖3所示。圖中的序號(hào)分別表示該模型首先基于所提MLCNN網(wǎng)絡(luò)提取獨(dú)立特征,其次針對(duì)獨(dú)立特征采用交互特征方法獲得各組合特征,豐富特征信息;⊕分別表示新的特征集由原獨(dú)立特征和組合特征融合而成,最后利用新特征集訓(xùn)練網(wǎng)絡(luò)得到所提模型MLCNN-IF,采用Softmax分類器處理多標(biāo)簽分類任務(wù)。

      圖3 MLCNN-IF模型結(jié)構(gòu)

      2 實(shí)驗(yàn)分析與結(jié)果

      通過在4種多標(biāo)簽數(shù)據(jù)集上進(jìn)行多個(gè)評(píng)價(jià)指標(biāo)的對(duì)比實(shí)驗(yàn),從不同的角度有效證明所提出的MLCNN-IF模型在分類性能相對(duì)VGG16、AlexNet和GoogLeNet這3種神經(jīng)網(wǎng)絡(luò)模型上取得的優(yōu)勢。

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)中的數(shù)據(jù)集是從Kaggle庫中下載的。主要是4種不同場景下的多標(biāo)簽圖像數(shù)據(jù)集,包括服裝、車輛、年齡和巖石。由于原始數(shù)據(jù)集存在類別不平衡問題,可能對(duì)后續(xù)的模型訓(xùn)練和分類識(shí)別造成影響,故預(yù)處理部分對(duì)4種數(shù)據(jù)集分別進(jìn)行數(shù)據(jù)增強(qiáng),保證各類別相對(duì)平衡。實(shí)驗(yàn)中訓(xùn)練集與測試集各占原數(shù)據(jù)集的80%與20%。而在訓(xùn)練集中80%樣本用于訓(xùn)練,20%用于驗(yàn)證。關(guān)于數(shù)據(jù)集的具體描述如表1所示。

      表1 所用數(shù)據(jù)集描述

      2.2 實(shí)驗(yàn)參數(shù)及環(huán)境配置

      采用的深度學(xué)習(xí)框架為keras。為提高檢測性能,所有模型訓(xùn)練之前會(huì)進(jìn)行數(shù)據(jù)增強(qiáng)策略,主要是對(duì)原始數(shù)據(jù)樣本的不同類別隨機(jī)選擇50%進(jìn)行下平移、左平移、翻轉(zhuǎn)、旋轉(zhuǎn)和加噪處理;剩下的50%樣本進(jìn)行上平移、右平移、翻轉(zhuǎn)、旋轉(zhuǎn)、加噪和增加亮度對(duì)比度處理,保證對(duì)于同一數(shù)據(jù)集處于類別平衡。圖片大小統(tǒng)一設(shè)置為96×96。

      4種模型的Batchsize大小均為32,損失函數(shù)采用交叉熵?fù)p失函數(shù),迭代次數(shù)epoch為80,學(xué)習(xí)率調(diào)整策略為Adam[28],超參數(shù)設(shè)置為:學(xué)習(xí)率(learning rate, lr)為0.0001,學(xué)習(xí)率衰減設(shè)置為lr/epoch。為保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性,在訓(xùn)練和測試過程中設(shè)置相同的隨機(jī)種子,訓(xùn)練集與測試集各占數(shù)據(jù)集的80%與20%。激活函數(shù)選擇為ReLU函數(shù),除最后一層Dopout設(shè)為0.5外,其余均為0.25。

      實(shí)驗(yàn)平臺(tái)是64位的Windows 10,所有的實(shí)驗(yàn)都在Pycharm 2019上開展。該電腦配備了NVIDIA GeForce RTX 2060 14 GB顯卡、英特爾i7-Core@2.6 GHz處理器和16 GB內(nèi)存。

      2.3 評(píng)價(jià)指標(biāo)

      為了更好衡量所提模型的好壞,實(shí)驗(yàn)主要采用的評(píng)價(jià)指標(biāo)有測試集的平均準(zhǔn)確率(Accuracy)與損失值(Loss)、精準(zhǔn)率(Precision)、召回率(Recall)、F1_Score、網(wǎng)絡(luò)層數(shù)、模型參數(shù)量、模型訓(xùn)練時(shí)間。為進(jìn)一步證明所提模型的先進(jìn)性與有效性,還進(jìn)行消融實(shí)驗(yàn)和顯著性分析實(shí)驗(yàn),其中顯著性分析主要是配對(duì)t-test檢驗(yàn)。具體指標(biāo)計(jì)算公式如下:

      Accuracy=(TP+TN)/(TP+TN+FP+FN)

      (6)

      (7)

      Precision=TP/(TP+FP)

      (8)

      Recall=TP/(TP+FN)

      (9)

      (10)

      其中,TP表示樣本預(yù)測與實(shí)際都為正,TN表示樣本預(yù)測與實(shí)際都為負(fù),F(xiàn)P表示樣本預(yù)測為正,實(shí)際為負(fù),F(xiàn)N表示樣本預(yù)測為負(fù),實(shí)際為正;yi表示樣本i的類別標(biāo)簽,正類為1,負(fù)類為0;p(yi)表示樣本i預(yù)測為類別yi的概率[29]。

      2.4 實(shí)驗(yàn)結(jié)果

      2.4.1 分類性能對(duì)比

      本節(jié)先給出MLCNN-IF模型與另外3種深度學(xué)習(xí)模型的準(zhǔn)確率及損失值對(duì)比情況,然后給出準(zhǔn)確率、召回率及F1_Score實(shí)驗(yàn)結(jié)果。

      圖4給出4種模型在每種數(shù)據(jù)集的測試集上的平均測試準(zhǔn)確率和平均損失值。橫坐標(biāo)表示數(shù)據(jù)集,縱坐標(biāo)分別表示相應(yīng)的平均準(zhǔn)確率值和平均損失值。從圖4(a)可以得到:1)總體來說,所提MLCNN-IF模型相對(duì)其它3種網(wǎng)絡(luò)具有一定的優(yōu)勢,在各數(shù)據(jù)集上其平均分類準(zhǔn)確率明顯提高。分別提高2%、14%、16%與4%,因此可以認(rèn)為準(zhǔn)確率平均提高9%;2)相對(duì)AlexNet和VGG16模型而言,GoogLeNet的分類效果稍好,以數(shù)據(jù)集automobile為例,準(zhǔn)確率分別提高4%與10%,在其余3個(gè)數(shù)據(jù)集上的現(xiàn)象也類似。這主要是因?yàn)镚oogLeNet模型本就是基于VGG模型和AlexNet模型進(jìn)一步改進(jìn)的,其網(wǎng)絡(luò)結(jié)構(gòu)得到一定程度的優(yōu)化,故而表現(xiàn)出相對(duì)較好的分類性能。從圖4(b)可以看出:1)各網(wǎng)絡(luò)在每種數(shù)據(jù)集上的損失值變化趨勢與準(zhǔn)確率保持一致,模型的準(zhǔn)確率越高,其損失值就會(huì)越低;2)總體而言,所提MLCNN-IF方法的損失值相對(duì)另外3種模型都有降低,以數(shù)據(jù)集automobile為例,損失值分別降低0.21,0.05,0.293,在其余數(shù)據(jù)集上結(jié)論也類似。因此,可以說明所提MLCNN-IF模型在處理多標(biāo)簽圖像分類任務(wù)上具有一定的優(yōu)勢。

      (a) 平均準(zhǔn)確率

      (b) 平均損失值圖4 4種模型在測試集上的實(shí)驗(yàn)結(jié)果

      表2給出了MLCNN-IF方法相對(duì)傳統(tǒng)模型在所有數(shù)據(jù)集上關(guān)于精準(zhǔn)率、召回率以及F1_Score的實(shí)驗(yàn)結(jié)果。表中加粗?jǐn)?shù)值表示對(duì)于不同模型的相同指標(biāo)在同一種數(shù)據(jù)集上的最佳結(jié)果。從表2明顯看出MLCNN-IF方法對(duì)比其它模型而言,絕大多數(shù)情況下,相同指標(biāo)基于同一數(shù)據(jù)集都能取得較優(yōu)的結(jié)果。以clothes數(shù)據(jù)集為例,精準(zhǔn)率結(jié)果依次為:0.9824(MLCNN-IF)>0.9812(GoogLeNet)>0.9335(AlexNet)>0.8572(VGG16);召回率結(jié)果依次為:0.9288(MLCNN-IF)>0.9098(GoogLeNet)>0.8260(AlexNet)>0.8120(VGG16);F1_Score結(jié)果為:0.9548(MLCNN-IF)>0.9441(GoogLeNet)>0.8765(AlexNet)>0.8340(VGG16)。因此驗(yàn)證了MLCNN-IF方法在分類性能上占有一定的優(yōu)勢。

      表2 4種模型在所有數(shù)據(jù)集上的精準(zhǔn)率、召回率、F1_Score結(jié)果對(duì)比

      2.4.2 網(wǎng)絡(luò)層數(shù)及可訓(xùn)練參數(shù)量對(duì)比

      4種模型從網(wǎng)絡(luò)結(jié)構(gòu)來看,都是基于卷積神經(jīng)網(wǎng)絡(luò)的基本層形成。MLCNN-IF在提出輕量級(jí)MLCNN網(wǎng)絡(luò)后進(jìn)行擴(kuò)充特征表達(dá)過程,該過程不涉及網(wǎng)絡(luò)層次結(jié)構(gòu)的改變。按照網(wǎng)絡(luò)中的基本層進(jìn)行計(jì)算,則4種網(wǎng)絡(luò)的層數(shù)對(duì)比如表3所示。從表3可以看出:1)GoogLeNet的網(wǎng)絡(luò)層次最深,達(dá)到22層,這是因其網(wǎng)絡(luò)中含有多個(gè)Inception結(jié)構(gòu),其網(wǎng)絡(luò)深度也會(huì)有所增加;2)本文所提MLCNN-IF方法的網(wǎng)絡(luò)僅有9層,相對(duì)GoogLeNet和VGG16分別降低了11層和7層;3)與AlexNet相比多一層,但是這在其分類性能上得到彌補(bǔ),因此可以認(rèn)為該模型仍舊是有效的。

      表3 各模型在數(shù)據(jù)集上的可訓(xùn)練參數(shù)量及網(wǎng)絡(luò)層數(shù)對(duì)比

      為進(jìn)一步驗(yàn)證MLCNN-IF方法能有效減少模型可訓(xùn)練節(jié)點(diǎn)參數(shù)量,從而降低硬件要求,減少內(nèi)存消耗,表3同時(shí)對(duì)比了4種模型在每種數(shù)據(jù)集上的可訓(xùn)練參數(shù)量。從表3可以看出:1)本文所提MLCNN-IF在每種數(shù)據(jù)集上的可訓(xùn)練參數(shù)量相對(duì)AlexNet和VGG16網(wǎng)絡(luò)得到很大的降低,其參數(shù)量約為AlexNet的1/3,VGG16的1/14;2)GoogLeNet網(wǎng)絡(luò)與AlexNet和VGG16相比,其可訓(xùn)練參數(shù)量也有很大程度的降低,約為AlexNet的1/4,VGG16的1/22,這主要是因?yàn)镚oogLeNet網(wǎng)絡(luò)使用平均池化層代替全連接層,很大程度減少了模型參數(shù),因此即便網(wǎng)絡(luò)較深,其參數(shù)量會(huì)降低;3)MLCNN-IF與GoogLeNet對(duì)比來看略處劣勢,網(wǎng)絡(luò)中的參數(shù)量約為GoogLeNet的1.5倍,這主要是因?yàn)樗酠LCNN網(wǎng)絡(luò)是基于傳統(tǒng)的CNN框架進(jìn)行改進(jìn)搭建而成,而GoogLeNet則是基于成熟的VGG模型并增加Inception模塊優(yōu)化網(wǎng)絡(luò),但兩者參數(shù)量差距相對(duì)較小,基本可以忽略。整體而言,MLCNN-IF模型可有效降低內(nèi)存消耗。

      2.4.3 訓(xùn)練時(shí)間對(duì)比

      實(shí)驗(yàn)還將從模型訓(xùn)練時(shí)間進(jìn)行對(duì)比,以此驗(yàn)證本文所提MLCNN-IF模型在處理多標(biāo)簽分類問題上的有效性與先進(jìn)性。圖5給出了4種網(wǎng)絡(luò)模型在4種多標(biāo)簽數(shù)據(jù)集上的模型訓(xùn)練時(shí)間。橫坐標(biāo)表示數(shù)據(jù)集,縱坐標(biāo)表示模型訓(xùn)練時(shí)間,以s為基本單位。從圖5能明顯看到:1)相比AlexNet、GoogLeNet和VGG16神經(jīng)網(wǎng)絡(luò),本文所提MLCNN-IF模型的訓(xùn)練時(shí)間明顯消耗最小,以數(shù)據(jù)集automobile為例,本文所提模型的訓(xùn)練時(shí)間約為AlexNet的1/4,約為GoogLeNet的1/5,約為VGG16的1/11,在其余數(shù)據(jù)集上也能得到同樣的現(xiàn)象,因此有效驗(yàn)證了MLCNN-IF在模型訓(xùn)練上的時(shí)間優(yōu)勢;2)4種模型在不同數(shù)據(jù)集上的時(shí)間消耗趨勢整體保持一致,在相同的實(shí)驗(yàn)設(shè)置下,VGG16模型的訓(xùn)練時(shí)間最長,這是因?yàn)閂GG16網(wǎng)絡(luò)中可訓(xùn)練的參數(shù)量最多,訓(xùn)練時(shí)更加消耗時(shí)間;3)所有網(wǎng)絡(luò)的訓(xùn)練時(shí)間對(duì)比,發(fā)現(xiàn)在Rock上的訓(xùn)練時(shí)間最長,這是由于Rock數(shù)據(jù)集規(guī)模相對(duì)其它數(shù)據(jù)集都偏大,說明數(shù)據(jù)集的規(guī)模也對(duì)模型訓(xùn)練時(shí)間有很大影響。

      圖5 4種模型在所有數(shù)據(jù)集上訓(xùn)練時(shí)間對(duì)比

      2.4.4 消融實(shí)驗(yàn)

      2.4.1節(jié)中已從多個(gè)實(shí)驗(yàn)指標(biāo)的角度充分驗(yàn)證本文所提MLCNN-IF方法的有效性,由于本文所提方法首次將交互特征引入到多標(biāo)簽圖像分類任務(wù)中,因此還具有一定的先進(jìn)性。上述實(shí)驗(yàn)結(jié)果表明所提方法對(duì)比該領(lǐng)域內(nèi)的經(jīng)典模型能有效處理多標(biāo)簽分類問題,已說明其具有先進(jìn)性。本節(jié)為進(jìn)一步證實(shí)交互特征的優(yōu)勢以及設(shè)計(jì)的輕量級(jí)網(wǎng)絡(luò)中選擇5個(gè)“基本模塊”的合理性,選擇融合交互特征的模型(MLCNN-IF)、不加交互特征的網(wǎng)絡(luò)(MLCNN)以及含有不同“基本模塊”數(shù)量的融合交互特征模型進(jìn)行消融實(shí)驗(yàn)。由于受到篇幅限制,“基本模塊”數(shù)量選擇2種,即含1個(gè)“基本模塊”的模型(MLCNN1-IF)與含3個(gè)“基本模塊”的模型(MLCNN3-IF),剩下其它不同數(shù)量的模塊其結(jié)果類似。表4給出四者基于準(zhǔn)確率、精準(zhǔn)率、召回率和訓(xùn)練時(shí)間上的對(duì)比結(jié)果。

      表4 MLCNN-IF與相關(guān)模型的準(zhǔn)確率、精準(zhǔn)率、召回率和訓(xùn)練時(shí)間對(duì)比

      表4中,MLCNN-IF在精準(zhǔn)率和召回率指標(biāo)上的結(jié)果參考表2中的實(shí)驗(yàn)數(shù)據(jù),“Time”指模型訓(xùn)練時(shí)間,以s為基本單位。從表4可以明顯得到:1)MLCNN-IF對(duì)比MLCNN,在準(zhǔn)確率、精準(zhǔn)率和召回率3個(gè)指標(biāo)上的結(jié)果均占據(jù)優(yōu)勢,分別平均提高3%、4%、2%,表明交互特征的引入一定程度上提高分類性能;2)就訓(xùn)練時(shí)間而言,MLCNN-IF花費(fèi)時(shí)間稍高于另外3種,這是因?yàn)樵贛LCNN-IF的網(wǎng)絡(luò)中含有5個(gè)“基本模塊”進(jìn)行訓(xùn)練,且融合交互特征豐富特征信息,這必然使得特征數(shù)量和維度變大,但根據(jù)結(jié)果來看,訓(xùn)練時(shí)間差距很小,這在深度學(xué)習(xí)模型中完全可以忽略,對(duì)硬件要求基本一致;3)不同數(shù)量的“基本模塊”模型間對(duì)比,明顯其性能在隨著“基本模塊”數(shù)量的增加而逐步上升,說明設(shè)計(jì)的MLCNN輕量級(jí)網(wǎng)絡(luò)包含5個(gè)“基本模塊”是合理的;4)從MLCNN1-IF、MLCNN3-IF及MLCNN的對(duì)比結(jié)果來看,交互特征相比“基本模塊”而言對(duì)分類性能貢獻(xiàn)更大,如以clothes數(shù)據(jù)集的準(zhǔn)確率為例,0.9668(MLCNN3-IF)>0.9646(MLCNN1-IF)>0.9311(MLCNN)。綜上,可以說融合交互特征的網(wǎng)絡(luò)模型,即MLCNN-IF方法,不僅能有效處理多標(biāo)簽圖像分類任務(wù),提升識(shí)別準(zhǔn)確率,還在該領(lǐng)域內(nèi)具有一定的先進(jìn)性。

      2.4.5 顯著性分析

      通過顯著性分析實(shí)驗(yàn),進(jìn)一步有效驗(yàn)證所提MLCNN-IF模型在處理多標(biāo)簽圖像任務(wù)的有效性與先進(jìn)性。顯著性分析主要是進(jìn)行配對(duì)t-test[30]分析。就配對(duì)t-test而言,主要用于分析在一個(gè)數(shù)據(jù)集上2種不同算法之間的差異是否顯著,其主要目的判斷在檢驗(yàn)條件1和條件2情況下的平均識(shí)別率是否有顯著差異。通常情況下,使用sig值來表示測試集的顯著性差異結(jié)果。一般來說,sig值的閾值設(shè)置為0.05,當(dāng)大于0.05時(shí),表示2種算法在同一個(gè)數(shù)據(jù)集上沒有顯著性差異,反之則代表有顯著性差異[31]。若sig值越小,表示算法之間的差異越顯著。

      圖6展示4種網(wǎng)絡(luò)模型在4種多標(biāo)簽數(shù)據(jù)集數(shù)據(jù)集上的配對(duì)t-test結(jié)果。橫坐標(biāo)表示數(shù)據(jù)集,縱坐標(biāo)表示對(duì)應(yīng)的配對(duì)t-test值。主要展示本文所提模型MLCNN-IF分別與另外3種模型在不同數(shù)據(jù)集上的配對(duì)t-test對(duì)比結(jié)果。其中“MLCNN-IF vs VGG16”表示模型MLCNN-IF與VGG16進(jìn)行對(duì)比,其余同理。從圖6可以看出,以sig值為0.05作為閾值判斷,在大多情況下,MLCNN-IF模型與其它網(wǎng)絡(luò)對(duì)比的sig值都小于0.05,且部分對(duì)比結(jié)果遠(yuǎn)小于0.05而接近0.01,表明該模型與另外3種網(wǎng)絡(luò)在處理多標(biāo)簽圖像分類任務(wù)上存在顯著差異。因此基于配對(duì)t-test結(jié)果驗(yàn)證了本文所提MLCNN-IF模型的有效性。

      圖6 4種模型在不同數(shù)據(jù)集上的配對(duì)t-test值

      3 結(jié)束語

      本文針對(duì)多標(biāo)簽圖像分類中存在的時(shí)間復(fù)雜度高、分類準(zhǔn)確率低、特征信息不足等問題,提出了一種融合CNN與交互特征的多標(biāo)簽圖像分類模型,即MLCNN-IF。該模型首先提出一種輕量級(jí)的MLCNN神經(jīng)網(wǎng)絡(luò)用于處理圖像并提取特征;其次基于提取出的特征使用交互特征來獲得網(wǎng)絡(luò)中可能丟失的組合特征信息,擴(kuò)充特征集。3個(gè)對(duì)比網(wǎng)絡(luò)模型分別為VGG16、AlexNet和GoogLeNet,通過大量的對(duì)比實(shí)驗(yàn)驗(yàn)證本文所提MLCNN-IF模型的優(yōu)點(diǎn)有:1)將多標(biāo)簽學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,并首次提出將交互特征應(yīng)用于多標(biāo)簽圖像分類領(lǐng)域中;2)提出的一種輕量級(jí)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征,簡化了網(wǎng)絡(luò)結(jié)構(gòu),模型可訓(xùn)練參數(shù)量極大降低,有效降低內(nèi)存消耗;3)降低了時(shí)間復(fù)雜度并有效提高分類準(zhǔn)確率。

      盡管所提MLCNN-IF模型已在多標(biāo)簽數(shù)據(jù)集上被證實(shí)是有效的,但仍然有一個(gè)問題需要在未來的工作中解決,即在現(xiàn)實(shí)世界中,每張圖像的語義信息都相當(dāng)豐富,從不同標(biāo)簽和視角角度看,能獲取到不同的特征信息。因此在未來的工作中,應(yīng)考慮基于多標(biāo)簽多視角數(shù)據(jù)集來驗(yàn)證所提MLCNN-IF模型的有效性。

      猜你喜歡
      集上標(biāo)簽準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      復(fù)扇形指標(biāo)集上的分布混沌
      標(biāo)簽化傷害了誰
      梁山县| 昔阳县| 汨罗市| 司法| 将乐县| 安陆市| 林芝县| 疏附县| 锦屏县| 本溪市| 贵溪市| 鱼台县| 茶陵县| 威远县| 息烽县| 凯里市| 三门县| 平阳县| 仁布县| 广州市| 伊川县| 平乡县| 阿荣旗| 天祝| 镇康县| 辉县市| 大庆市| 耿马| 翁源县| 凤城市| 淳化县| 新乡市| 买车| 陆河县| 沁水县| 沅陵县| 沙湾县| 安徽省| 教育| 乐陵市| 光山县|