融合CNN與交互特征的多標(biāo)簽圖像分類方法

2022-09-24 02:42:42王盼紅朱昌明

計(jì)算機(jī)與現(xiàn)代化 2022年9期

王盼紅,朱昌明

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

0 引言

自從深度學(xué)習(xí)的概念問世以來，相關(guān)研究一直在蓬勃發(fā)展。由于深受其益，卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的非凡突破也被應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域的各個(gè)方面[1]，如圖像分類[2-3]、目標(biāo)檢測[4-5]等。具有一層或多層卷積層的神經(jīng)網(wǎng)絡(luò)稱為卷積神經(jīng)網(wǎng)絡(luò)，其卷積層由具有學(xué)習(xí)能力的濾波器組成[6-7]。單標(biāo)簽分類主要是對(duì)所研究問題，每次僅為其匹配一個(gè)最可能的標(biāo)簽。近年來，CNN在單標(biāo)簽圖像分類中表現(xiàn)出良好的分類性能。如Ghazi等人[8]采用預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型結(jié)合遷移學(xué)習(xí)對(duì)植物物種進(jìn)行分類，最優(yōu)分類準(zhǔn)確率達(dá)到80%；Dias等人[9]設(shè)計(jì)出了一種基于CNN的花卉類別檢測算法，該算法利用計(jì)算機(jī)視覺技術(shù)結(jié)合顏色和形態(tài)信息，最終召回率和準(zhǔn)確率接近80%；Gayathri等人[10]提出了一種新的模型提取視網(wǎng)膜眼底圖像的特征，并使用J48分類器進(jìn)行分類，其二分類的平均準(zhǔn)確率為99.89%，多分類的平均準(zhǔn)確率為99.59%。然而，由于在現(xiàn)實(shí)世界中，每個(gè)圖像通常都帶有豐富的語義信息，如對(duì)象、場景、動(dòng)作以及屬性等，而通過這些豐富的語義信息及其依賴關(guān)系來建模對(duì)于圖像理解至關(guān)重要[11]。因而多標(biāo)簽圖像分類問題開始得到關(guān)注。多標(biāo)簽問題即針對(duì)所給數(shù)據(jù)，可同時(shí)為其分配多個(gè)標(biāo)簽，如圖1可同時(shí)標(biāo)記為“風(fēng)景”“樹”“河”3個(gè)標(biāo)簽。

圖1 多標(biāo)簽實(shí)例

Song等人[12]提出了一種深度多模型的CNN框架，模型中將每幅圖像表示為一個(gè)用于圖像分類的實(shí)例包，并繼承神經(jīng)網(wǎng)絡(luò)和多實(shí)例多標(biāo)簽的優(yōu)點(diǎn)；Dao等人[13]提出在有監(jiān)督的環(huán)境下利用對(duì)比學(xué)習(xí)來學(xué)習(xí)圖像在不同標(biāo)簽背景下的多種表示方法；Wang等人[14]利用殘差網(wǎng)絡(luò)提取圖像深度學(xué)習(xí)特征并將該結(jié)果作為輸入，通過圖像空間和標(biāo)簽空間的正則化生成結(jié)果向量，有效提高分類的準(zhǔn)確率和召回率；Jin等人[15]基于深度學(xué)習(xí)設(shè)計(jì)一種新的圖像語義分割模型解決多標(biāo)簽分類任務(wù)，該模型使用感受野代替標(biāo)準(zhǔn)卷積，實(shí)驗(yàn)結(jié)果取得較好的分割精度；黃睿等人[16]提出基于標(biāo)簽正負(fù)相關(guān)性的多標(biāo)簽類屬特征學(xué)習(xí)方法。著名的多標(biāo)簽分類方法是簡單地為每個(gè)標(biāo)簽訓(xùn)練一個(gè)獨(dú)立的分類器來處理問題，這在研究文獻(xiàn)中通常被稱為二元相關(guān)性(Binary Relevance, BR)轉(zhuǎn)換[17-18]。

上述文獻(xiàn)研究中處理多標(biāo)簽分類任務(wù)普遍存在建模的時(shí)間復(fù)雜度高、模型復(fù)雜導(dǎo)致內(nèi)存消耗較大、特征信息不足導(dǎo)致分類精度低等問題。針對(duì)這些不足，本文提出一種融合CNN與交互特征的多標(biāo)簽圖像分類方法，即MLCNN-IF。該模型主要分成2個(gè)部分：1)提出一個(gè)只有9層的輕量級(jí)神經(jīng)網(wǎng)絡(luò)，即MLCNN，該網(wǎng)絡(luò)參考傳統(tǒng)的CNN基本結(jié)構(gòu)進(jìn)行搭建，同時(shí)網(wǎng)絡(luò)中循環(huán)增加Batch Normalization(BN)層[19]和Dropout層[20]，并使用全局最大池化代替?zhèn)鹘y(tǒng)的全連接層；2)由于網(wǎng)絡(luò)提取特征僅考慮單個(gè)特征，造成一些對(duì)分類任務(wù)有價(jià)值的組合特征信息丟失，因此基于MLCNN得到的特征再采用交叉特征技術(shù)獲得更豐富的特征信息，進(jìn)一步提高分類性能。實(shí)驗(yàn)選擇4種不同場景下的多標(biāo)簽圖像數(shù)據(jù)集，對(duì)比網(wǎng)絡(luò)有VGG16[21]、AlexNet[22]和GoogLeNet[23]，通過豐富的對(duì)比實(shí)驗(yàn)成功驗(yàn)證所提的MLCNN-IF模型的有效性與先進(jìn)性。

1 所提模型MLCNN-IF

為降低模型復(fù)雜度，減少參數(shù)量，提高多標(biāo)簽分類性能，本文提出融合CNN與交互特征的MLCNN-IF模型。該模型首先提出一種僅有9層的輕量級(jí)神經(jīng)網(wǎng)絡(luò)，即MLCNN處理圖像并提取特征；其次基于MLCNN得到的特征，采用交互特征方法獲得各獨(dú)立特征的各種組合特征信息，進(jìn)一步提高分類準(zhǔn)確率。

1.1 Dropout與BN

1)Dropout。

在深度網(wǎng)絡(luò)中，隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深，隱藏層節(jié)點(diǎn)參數(shù)變得越來越多，但并不是所有的節(jié)點(diǎn)權(quán)重參數(shù)都對(duì)下一層的網(wǎng)絡(luò)訓(xùn)練有正面積極作用。引入Dropout的目的在于保證在不刪除權(quán)重參數(shù)的前提下，保留一部分參數(shù)，即通過設(shè)置一定的篩選率，將隨機(jī)“拋棄”一些節(jié)點(diǎn)權(quán)重參數(shù)，不讓其進(jìn)入隱藏層。

2)BN。

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只是在原始樣本數(shù)據(jù)輸入到輸入層之前對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化處理，以降低樣本間的差異性。添加BN層則是在此基礎(chǔ)上，不僅只對(duì)輸入層的輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化，還對(duì)每個(gè)隱藏層的輸入進(jìn)行標(biāo)準(zhǔn)化。其目的在于一方面提高梯度的收斂程度，加快模型的訓(xùn)練速度，另一方面使得每一層可以盡量面對(duì)同一特征分布的輸入值，減少輸入變化帶來的不確定性，可降低對(duì)后層網(wǎng)路的影響，使得各層網(wǎng)路變得相對(duì)獨(dú)立，緩解模型訓(xùn)練中的梯度消失問題。

批量歸一化主要是分2步走，第1步是對(duì)數(shù)據(jù)特征的每個(gè)維度進(jìn)行歸一化處理，即：

(1)

(2)

1.2 所提MLCNN網(wǎng)絡(luò)

MLCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)繼承傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)，即包含卷積層和池化層。將卷積層(Conv)、激活函數(shù)(ReLU)和BN層組合一起默認(rèn)為一個(gè)“基本模塊”，如圖2(a)所示。MLCNN圖像的輸入大小為96×96。與傳統(tǒng)的CNN模型不同的是，卷積層后不會(huì)立刻進(jìn)行池化層處理，而是先進(jìn)入BN層對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理，再經(jīng)過池化后進(jìn)入Dropout去隨機(jī)“拋棄”一些節(jié)點(diǎn)權(quán)重參數(shù)幫助網(wǎng)絡(luò)訓(xùn)練模型?！盎灸K”的訓(xùn)練在網(wǎng)絡(luò)中高達(dá)5次，這是為了充分獲取圖像數(shù)據(jù)的特征信息，在減少訓(xùn)練參數(shù)量的同時(shí)保證一定大小的感受野，使得數(shù)據(jù)在經(jīng)過池化層后不僅能得到有效的特征信息，還能避免產(chǎn)生冗余特征；網(wǎng)絡(luò)中存在連續(xù)2輪同樣的訓(xùn)練操作，這是為了保證整個(gè)網(wǎng)絡(luò)的平衡，提高其分類精度，如圖2(b)所示。MLCNN中采用全局最大池化層(Global Max Pool, GMP)代替全連接層，使得經(jīng)由網(wǎng)絡(luò)提取出的特征具有更高效的表達(dá)效果，其計(jì)算公式為：

(a) 基本模塊

(b) MLCNN結(jié)構(gòu)圖2 MLCNN網(wǎng)絡(luò)結(jié)構(gòu)圖

(3)

1.3 交互特征

本文所提MLCNN-IF中采用交互特征獲得豐富的特征信息表達(dá)，獲得特征之間的交互作用。簡單來說，將網(wǎng)絡(luò)提取出的特征向量相乘得到新的一對(duì)交互特征，將該交互特征以及產(chǎn)生交互特征的原始特征進(jìn)行混合得到新的特征集合。由于網(wǎng)絡(luò)提取出的特征為單個(gè)特征，而實(shí)際在分類任務(wù)中通過組合特征會(huì)產(chǎn)生一些新的有效信息，則新的特征集合中不僅包含原特征信息，還含有由原特征產(chǎn)生的組合特征信息。

假設(shè)提取出的一對(duì)獨(dú)立特征為x1、x2，則x1·x2得到該獨(dú)立特征的組合特征，擴(kuò)展到多個(gè)特征序列，即提取到的獨(dú)立輸入特征為x1,x2,…,xn，模型使用該特征序列的線性組合得到預(yù)測結(jié)果變量為：

y=ω1x1+ω2x2+ω3x3+…+ωnxn

(4)

其中，ωi(i=1,2,3,…,n)為相應(yīng)的系數(shù)。擴(kuò)展到多個(gè)特征之間的交互作用，即得到的預(yù)測結(jié)果變量為：

y=ω1x1+ω2x2+…+ω1,1x1x1+ω1,2x1x2+…

(5)

1.4 MLCNN-IF模型

多標(biāo)簽分類問題可以定義為:給定一個(gè)數(shù)據(jù)集合X和一個(gè)標(biāo)簽集合Y,其中X=Rd表示d維的特征空間,Y是有N個(gè)標(biāo)簽的集合Y={y1,y2,…,yn}。包含m個(gè)樣本的多標(biāo)簽數(shù)據(jù)集D={(xi,Yi)|1≤i≤m},其中xi∈X是一個(gè)d維的特征向量(xi1,xi2,…,xid)T,Yi∈Y是xi對(duì)應(yīng)一個(gè)標(biāo)簽集合。多標(biāo)簽分類就是從數(shù)據(jù)集D中學(xué)習(xí)到一個(gè)從實(shí)例空間映射到標(biāo)簽空間的模型W:X→2Y,對(duì)于?xi∈X,模型W都能給出對(duì)應(yīng)的標(biāo)簽。

為有效處理多標(biāo)簽圖像分類問題，本文提出融合CNN與交互特征的多標(biāo)簽圖像分類模型，即MLCNN-IF模型，如圖3所示。圖中的序號(hào)分別表示該模型首先基于所提MLCNN網(wǎng)絡(luò)提取獨(dú)立特征，其次針對(duì)獨(dú)立特征采用交互特征方法獲得各組合特征，豐富特征信息；⊕分別表示新的特征集由原獨(dú)立特征和組合特征融合而成，最后利用新特征集訓(xùn)練網(wǎng)絡(luò)得到所提模型MLCNN-IF，采用Softmax分類器處理多標(biāo)簽分類任務(wù)。

圖3 MLCNN-IF模型結(jié)構(gòu)

2 實(shí)驗(yàn)分析與結(jié)果

通過在4種多標(biāo)簽數(shù)據(jù)集上進(jìn)行多個(gè)評(píng)價(jià)指標(biāo)的對(duì)比實(shí)驗(yàn)，從不同的角度有效證明所提出的MLCNN-IF模型在分類性能相對(duì)VGG16、AlexNet和GoogLeNet這3種神經(jīng)網(wǎng)絡(luò)模型上取得的優(yōu)勢。

2.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)中的數(shù)據(jù)集是從Kaggle庫中下載的。主要是4種不同場景下的多標(biāo)簽圖像數(shù)據(jù)集，包括服裝、車輛、年齡和巖石。由于原始數(shù)據(jù)集存在類別不平衡問題，可能對(duì)后續(xù)的模型訓(xùn)練和分類識(shí)別造成影響，故預(yù)處理部分對(duì)4種數(shù)據(jù)集分別進(jìn)行數(shù)據(jù)增強(qiáng)，保證各類別相對(duì)平衡。實(shí)驗(yàn)中訓(xùn)練集與測試集各占原數(shù)據(jù)集的80%與20%。而在訓(xùn)練集中80%樣本用于訓(xùn)練，20%用于驗(yàn)證。關(guān)于數(shù)據(jù)集的具體描述如表1所示。

表1 所用數(shù)據(jù)集描述

2.2 實(shí)驗(yàn)參數(shù)及環(huán)境配置

采用的深度學(xué)習(xí)框架為keras。為提高檢測性能，所有模型訓(xùn)練之前會(huì)進(jìn)行數(shù)據(jù)增強(qiáng)策略，主要是對(duì)原始數(shù)據(jù)樣本的不同類別隨機(jī)選擇50%進(jìn)行下平移、左平移、翻轉(zhuǎn)、旋轉(zhuǎn)和加噪處理；剩下的50%樣本進(jìn)行上平移、右平移、翻轉(zhuǎn)、旋轉(zhuǎn)、加噪和增加亮度對(duì)比度處理，保證對(duì)于同一數(shù)據(jù)集處于類別平衡。圖片大小統(tǒng)一設(shè)置為96×96。

4種模型的Batchsize大小均為32，損失函數(shù)采用交叉熵?fù)p失函數(shù)，迭代次數(shù)epoch為80,學(xué)習(xí)率調(diào)整策略為Adam[28]，超參數(shù)設(shè)置為：學(xué)習(xí)率(learning rate, lr)為0.0001，學(xué)習(xí)率衰減設(shè)置為lr/epoch。為保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性，在訓(xùn)練和測試過程中設(shè)置相同的隨機(jī)種子，訓(xùn)練集與測試集各占數(shù)據(jù)集的80%與20%。激活函數(shù)選擇為ReLU函數(shù)，除最后一層Dopout設(shè)為0.5外，其余均為0.25。

實(shí)驗(yàn)平臺(tái)是64位的Windows 10，所有的實(shí)驗(yàn)都在Pycharm 2019上開展。該電腦配備了NVIDIA GeForce RTX 2060 14 GB顯卡、英特爾i7-Core@2.6 GHz處理器和16 GB內(nèi)存。

2.3 評(píng)價(jià)指標(biāo)

為了更好衡量所提模型的好壞，實(shí)驗(yàn)主要采用的評(píng)價(jià)指標(biāo)有測試集的平均準(zhǔn)確率(Accuracy)與損失值(Loss)、精準(zhǔn)率(Precision)、召回率(Recall)、F1_Score、網(wǎng)絡(luò)層數(shù)、模型參數(shù)量、模型訓(xùn)練時(shí)間。為進(jìn)一步證明所提模型的先進(jìn)性與有效性，還進(jìn)行消融實(shí)驗(yàn)和顯著性分析實(shí)驗(yàn)，其中顯著性分析主要是配對(duì)t-test檢驗(yàn)。具體指標(biāo)計(jì)算公式如下：

Accuracy=(TP+TN)/(TP+TN+FP+FN)

(6)

(7)

Precision=TP/(TP+FP)

(8)

Recall=TP/(TP+FN)

(9)

(10)

其中，TP表示樣本預(yù)測與實(shí)際都為正，TN表示樣本預(yù)測與實(shí)際都為負(fù)，F(xiàn)P表示樣本預(yù)測為正，實(shí)際為負(fù)，F(xiàn)N表示樣本預(yù)測為負(fù)，實(shí)際為正；yi表示樣本i的類別標(biāo)簽，正類為1，負(fù)類為0；p(yi)表示樣本i預(yù)測為類別yi的概率[29]。

2.4 實(shí)驗(yàn)結(jié)果

2.4.1 分類性能對(duì)比

本節(jié)先給出MLCNN-IF模型與另外3種深度學(xué)習(xí)模型的準(zhǔn)確率及損失值對(duì)比情況，然后給出準(zhǔn)確率、召回率及F1_Score實(shí)驗(yàn)結(jié)果。

圖4給出4種模型在每種數(shù)據(jù)集的測試集上的平均測試準(zhǔn)確率和平均損失值。橫坐標(biāo)表示數(shù)據(jù)集，縱坐標(biāo)分別表示相應(yīng)的平均準(zhǔn)確率值和平均損失值。從圖4(a)可以得到：1)總體來說，所提MLCNN-IF模型相對(duì)其它3種網(wǎng)絡(luò)具有一定的優(yōu)勢，在各數(shù)據(jù)集上其平均分類準(zhǔn)確率明顯提高。分別提高2%、14%、16%與4%，因此可以認(rèn)為準(zhǔn)確率平均提高9%；2)相對(duì)AlexNet和VGG16模型而言，GoogLeNet的分類效果稍好，以數(shù)據(jù)集automobile為例，準(zhǔn)確率分別提高4%與10%，在其余3個(gè)數(shù)據(jù)集上的現(xiàn)象也類似。這主要是因?yàn)镚oogLeNet模型本就是基于VGG模型和AlexNet模型進(jìn)一步改進(jìn)的，其網(wǎng)絡(luò)結(jié)構(gòu)得到一定程度的優(yōu)化，故而表現(xiàn)出相對(duì)較好的分類性能。從圖4(b)可以看出：1)各網(wǎng)絡(luò)在每種數(shù)據(jù)集上的損失值變化趨勢與準(zhǔn)確率保持一致，模型的準(zhǔn)確率越高，其損失值就會(huì)越低；2)總體而言，所提MLCNN-IF方法的損失值相對(duì)另外3種模型都有降低，以數(shù)據(jù)集automobile為例，損失值分別降低0.21，0.05，0.293，在其余數(shù)據(jù)集上結(jié)論也類似。因此，可以說明所提MLCNN-IF模型在處理多標(biāo)簽圖像分類任務(wù)上具有一定的優(yōu)勢。

(a) 平均準(zhǔn)確率

(b) 平均損失值圖4 4種模型在測試集上的實(shí)驗(yàn)結(jié)果

表2給出了MLCNN-IF方法相對(duì)傳統(tǒng)模型在所有數(shù)據(jù)集上關(guān)于精準(zhǔn)率、召回率以及F1_Score的實(shí)驗(yàn)結(jié)果。表中加粗?jǐn)?shù)值表示對(duì)于不同模型的相同指標(biāo)在同一種數(shù)據(jù)集上的最佳結(jié)果。從表2明顯看出MLCNN-IF方法對(duì)比其它模型而言，絕大多數(shù)情況下，相同指標(biāo)基于同一數(shù)據(jù)集都能取得較優(yōu)的結(jié)果。以clothes數(shù)據(jù)集為例，精準(zhǔn)率結(jié)果依次為：0.9824(MLCNN-IF)>0.9812(GoogLeNet)>0.9335(AlexNet)>0.8572(VGG16)；召回率結(jié)果依次為：0.9288(MLCNN-IF)>0.9098(GoogLeNet)>0.8260(AlexNet)>0.8120(VGG16)；F1_Score結(jié)果為：0.9548(MLCNN-IF)>0.9441(GoogLeNet)>0.8765(AlexNet)>0.8340(VGG16)。因此驗(yàn)證了MLCNN-IF方法在分類性能上占有一定的優(yōu)勢。

表2 4種模型在所有數(shù)據(jù)集上的精準(zhǔn)率、召回率、F1_Score結(jié)果對(duì)比

2.4.2 網(wǎng)絡(luò)層數(shù)及可訓(xùn)練參數(shù)量對(duì)比

4種模型從網(wǎng)絡(luò)結(jié)構(gòu)來看，都是基于卷積神經(jīng)網(wǎng)絡(luò)的基本層形成。MLCNN-IF在提出輕量級(jí)MLCNN網(wǎng)絡(luò)后進(jìn)行擴(kuò)充特征表達(dá)過程，該過程不涉及網(wǎng)絡(luò)層次結(jié)構(gòu)的改變。按照網(wǎng)絡(luò)中的基本層進(jìn)行計(jì)算，則4種網(wǎng)絡(luò)的層數(shù)對(duì)比如表3所示。從表3可以看出：1)GoogLeNet的網(wǎng)絡(luò)層次最深，達(dá)到22層，這是因其網(wǎng)絡(luò)中含有多個(gè)Inception結(jié)構(gòu)，其網(wǎng)絡(luò)深度也會(huì)有所增加；2)本文所提MLCNN-IF方法的網(wǎng)絡(luò)僅有9層，相對(duì)GoogLeNet和VGG16分別降低了11層和7層；3)與AlexNet相比多一層，但是這在其分類性能上得到彌補(bǔ)，因此可以認(rèn)為該模型仍舊是有效的。

表3 各模型在數(shù)據(jù)集上的可訓(xùn)練參數(shù)量及網(wǎng)絡(luò)層數(shù)對(duì)比

為進(jìn)一步驗(yàn)證MLCNN-IF方法能有效減少模型可訓(xùn)練節(jié)點(diǎn)參數(shù)量，從而降低硬件要求，減少內(nèi)存消耗，表3同時(shí)對(duì)比了4種模型在每種數(shù)據(jù)集上的可訓(xùn)練參數(shù)量。從表3可以看出：1)本文所提MLCNN-IF在每種數(shù)據(jù)集上的可訓(xùn)練參數(shù)量相對(duì)AlexNet和VGG16網(wǎng)絡(luò)得到很大的降低，其參數(shù)量約為AlexNet的1/3，VGG16的1/14；2)GoogLeNet網(wǎng)絡(luò)與AlexNet和VGG16相比，其可訓(xùn)練參數(shù)量也有很大程度的降低，約為AlexNet的1/4，VGG16的1/22，這主要是因?yàn)镚oogLeNet網(wǎng)絡(luò)使用平均池化層代替全連接層，很大程度減少了模型參數(shù)，因此即便網(wǎng)絡(luò)較深，其參數(shù)量會(huì)降低；3)MLCNN-IF與GoogLeNet對(duì)比來看略處劣勢，網(wǎng)絡(luò)中的參數(shù)量約為GoogLeNet的1.5倍，這主要是因?yàn)樗酠LCNN網(wǎng)絡(luò)是基于傳統(tǒng)的CNN框架進(jìn)行改進(jìn)搭建而成，而GoogLeNet則是基于成熟的VGG模型并增加Inception模塊優(yōu)化網(wǎng)絡(luò),但兩者參數(shù)量差距相對(duì)較小，基本可以忽略。整體而言，MLCNN-IF模型可有效降低內(nèi)存消耗。

2.4.3 訓(xùn)練時(shí)間對(duì)比

實(shí)驗(yàn)還將從模型訓(xùn)練時(shí)間進(jìn)行對(duì)比，以此驗(yàn)證本文所提MLCNN-IF模型在處理多標(biāo)簽分類問題上的有效性與先進(jìn)性。圖5給出了4種網(wǎng)絡(luò)模型在4種多標(biāo)簽數(shù)據(jù)集上的模型訓(xùn)練時(shí)間。橫坐標(biāo)表示數(shù)據(jù)集，縱坐標(biāo)表示模型訓(xùn)練時(shí)間，以s為基本單位。從圖5能明顯看到：1)相比AlexNet、GoogLeNet和VGG16神經(jīng)網(wǎng)絡(luò)，本文所提MLCNN-IF模型的訓(xùn)練時(shí)間明顯消耗最小，以數(shù)據(jù)集automobile為例，本文所提模型的訓(xùn)練時(shí)間約為AlexNet的1/4，約為GoogLeNet的1/5，約為VGG16的1/11，在其余數(shù)據(jù)集上也能得到同樣的現(xiàn)象，因此有效驗(yàn)證了MLCNN-IF在模型訓(xùn)練上的時(shí)間優(yōu)勢；2)4種模型在不同數(shù)據(jù)集上的時(shí)間消耗趨勢整體保持一致，在相同的實(shí)驗(yàn)設(shè)置下，VGG16模型的訓(xùn)練時(shí)間最長,這是因?yàn)閂GG16網(wǎng)絡(luò)中可訓(xùn)練的參數(shù)量最多，訓(xùn)練時(shí)更加消耗時(shí)間；3)所有網(wǎng)絡(luò)的訓(xùn)練時(shí)間對(duì)比，發(fā)現(xiàn)在Rock上的訓(xùn)練時(shí)間最長，這是由于Rock數(shù)據(jù)集規(guī)模相對(duì)其它數(shù)據(jù)集都偏大，說明數(shù)據(jù)集的規(guī)模也對(duì)模型訓(xùn)練時(shí)間有很大影響。

圖5 4種模型在所有數(shù)據(jù)集上訓(xùn)練時(shí)間對(duì)比

2.4.4 消融實(shí)驗(yàn)

2.4.1節(jié)中已從多個(gè)實(shí)驗(yàn)指標(biāo)的角度充分驗(yàn)證本文所提MLCNN-IF方法的有效性，由于本文所提方法首次將交互特征引入到多標(biāo)簽圖像分類任務(wù)中，因此還具有一定的先進(jìn)性。上述實(shí)驗(yàn)結(jié)果表明所提方法對(duì)比該領(lǐng)域內(nèi)的經(jīng)典模型能有效處理多標(biāo)簽分類問題，已說明其具有先進(jìn)性。本節(jié)為進(jìn)一步證實(shí)交互特征的優(yōu)勢以及設(shè)計(jì)的輕量級(jí)網(wǎng)絡(luò)中選擇5個(gè)“基本模塊”的合理性，選擇融合交互特征的模型(MLCNN-IF)、不加交互特征的網(wǎng)絡(luò)(MLCNN)以及含有不同“基本模塊”數(shù)量的融合交互特征模型進(jìn)行消融實(shí)驗(yàn)。由于受到篇幅限制，“基本模塊”數(shù)量選擇2種，即含1個(gè)“基本模塊”的模型(MLCNN1-IF)與含3個(gè)“基本模塊”的模型(MLCNN3-IF)，剩下其它不同數(shù)量的模塊其結(jié)果類似。表4給出四者基于準(zhǔn)確率、精準(zhǔn)率、召回率和訓(xùn)練時(shí)間上的對(duì)比結(jié)果。

表4 MLCNN-IF與相關(guān)模型的準(zhǔn)確率、精準(zhǔn)率、召回率和訓(xùn)練時(shí)間對(duì)比

表4中，MLCNN-IF在精準(zhǔn)率和召回率指標(biāo)上的結(jié)果參考表2中的實(shí)驗(yàn)數(shù)據(jù)，“Time”指模型訓(xùn)練時(shí)間，以s為基本單位。從表4可以明顯得到：1)MLCNN-IF對(duì)比MLCNN，在準(zhǔn)確率、精準(zhǔn)率和召回率3個(gè)指標(biāo)上的結(jié)果均占據(jù)優(yōu)勢，分別平均提高3%、4%、2%，表明交互特征的引入一定程度上提高分類性能；2)就訓(xùn)練時(shí)間而言，MLCNN-IF花費(fèi)時(shí)間稍高于另外3種，這是因?yàn)樵贛LCNN-IF的網(wǎng)絡(luò)中含有5個(gè)“基本模塊”進(jìn)行訓(xùn)練，且融合交互特征豐富特征信息，這必然使得特征數(shù)量和維度變大，但根據(jù)結(jié)果來看，訓(xùn)練時(shí)間差距很小，這在深度學(xué)習(xí)模型中完全可以忽略，對(duì)硬件要求基本一致；3)不同數(shù)量的“基本模塊”模型間對(duì)比，明顯其性能在隨著“基本模塊”數(shù)量的增加而逐步上升，說明設(shè)計(jì)的MLCNN輕量級(jí)網(wǎng)絡(luò)包含5個(gè)“基本模塊”是合理的；4)從MLCNN1-IF、MLCNN3-IF及MLCNN的對(duì)比結(jié)果來看，交互特征相比“基本模塊”而言對(duì)分類性能貢獻(xiàn)更大，如以clothes數(shù)據(jù)集的準(zhǔn)確率為例，0.9668(MLCNN3-IF)>0.9646(MLCNN1-IF)>0.9311(MLCNN)。綜上，可以說融合交互特征的網(wǎng)絡(luò)模型，即MLCNN-IF方法，不僅能有效處理多標(biāo)簽圖像分類任務(wù)，提升識(shí)別準(zhǔn)確率，還在該領(lǐng)域內(nèi)具有一定的先進(jìn)性。

2.4.5 顯著性分析

通過顯著性分析實(shí)驗(yàn)，進(jìn)一步有效驗(yàn)證所提MLCNN-IF模型在處理多標(biāo)簽圖像任務(wù)的有效性與先進(jìn)性。顯著性分析主要是進(jìn)行配對(duì)t-test[30]分析。就配對(duì)t-test而言，主要用于分析在一個(gè)數(shù)據(jù)集上2種不同算法之間的差異是否顯著，其主要目的判斷在檢驗(yàn)條件1和條件2情況下的平均識(shí)別率是否有顯著差異。通常情況下，使用sig值來表示測試集的顯著性差異結(jié)果。一般來說，sig值的閾值設(shè)置為0.05，當(dāng)大于0.05時(shí)，表示2種算法在同一個(gè)數(shù)據(jù)集上沒有顯著性差異，反之則代表有顯著性差異[31]。若sig值越小，表示算法之間的差異越顯著。

圖6展示4種網(wǎng)絡(luò)模型在4種多標(biāo)簽數(shù)據(jù)集數(shù)據(jù)集上的配對(duì)t-test結(jié)果。橫坐標(biāo)表示數(shù)據(jù)集，縱坐標(biāo)表示對(duì)應(yīng)的配對(duì)t-test值。主要展示本文所提模型MLCNN-IF分別與另外3種模型在不同數(shù)據(jù)集上的配對(duì)t-test對(duì)比結(jié)果。其中“MLCNN-IF vs VGG16”表示模型MLCNN-IF與VGG16進(jìn)行對(duì)比，其余同理。從圖6可以看出，以sig值為0.05作為閾值判斷，在大多情況下，MLCNN-IF模型與其它網(wǎng)絡(luò)對(duì)比的sig值都小于0.05，且部分對(duì)比結(jié)果遠(yuǎn)小于0.05而接近0.01，表明該模型與另外3種網(wǎng)絡(luò)在處理多標(biāo)簽圖像分類任務(wù)上存在顯著差異。因此基于配對(duì)t-test結(jié)果驗(yàn)證了本文所提MLCNN-IF模型的有效性。

圖6 4種模型在不同數(shù)據(jù)集上的配對(duì)t-test值

3 結(jié)束語

本文針對(duì)多標(biāo)簽圖像分類中存在的時(shí)間復(fù)雜度高、分類準(zhǔn)確率低、特征信息不足等問題，提出了一種融合CNN與交互特征的多標(biāo)簽圖像分類模型，即MLCNN-IF。該模型首先提出一種輕量級(jí)的MLCNN神經(jīng)網(wǎng)絡(luò)用于處理圖像并提取特征；其次基于提取出的特征使用交互特征來獲得網(wǎng)絡(luò)中可能丟失的組合特征信息，擴(kuò)充特征集。3個(gè)對(duì)比網(wǎng)絡(luò)模型分別為VGG16、AlexNet和GoogLeNet，通過大量的對(duì)比實(shí)驗(yàn)驗(yàn)證本文所提MLCNN-IF模型的優(yōu)點(diǎn)有：1)將多標(biāo)簽學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合，并首次提出將交互特征應(yīng)用于多標(biāo)簽圖像分類領(lǐng)域中；2)提出的一種輕量級(jí)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征，簡化了網(wǎng)絡(luò)結(jié)構(gòu)，模型可訓(xùn)練參數(shù)量極大降低，有效降低內(nèi)存消耗；3)降低了時(shí)間復(fù)雜度并有效提高分類準(zhǔn)確率。

盡管所提MLCNN-IF模型已在多標(biāo)簽數(shù)據(jù)集上被證實(shí)是有效的，但仍然有一個(gè)問題需要在未來的工作中解決，即在現(xiàn)實(shí)世界中，每張圖像的語義信息都相當(dāng)豐富，從不同標(biāo)簽和視角角度看，能獲取到不同的特征信息。因此在未來的工作中，應(yīng)考慮基于多標(biāo)簽多視角數(shù)據(jù)集來驗(yàn)證所提MLCNN-IF模型的有效性。