羅會(huì)蘭,易 慧
(江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000)
傳統(tǒng)的圖像分類(lèi)算法首先對(duì)圖像進(jìn)行特征提取,然后將獲取到的特征描述符來(lái)充分描述圖像的完整信息。即將原始圖像包含的一些特定信息充分提取,進(jìn)而用來(lái)表示圖像的結(jié)構(gòu)化特征數(shù)據(jù),然后將圖像的結(jié)構(gòu)化特征數(shù)據(jù)傳輸?shù)娇蛇M(jìn)行網(wǎng)絡(luò)模型訓(xùn)練的分類(lèi)器,最終得到圖像分類(lèi)結(jié)果。該方法得到的圖像分類(lèi)準(zhǔn)確度取決于手工提取特征的充分性。
卷積神經(jīng)網(wǎng)絡(luò)主要由若干層不同尺寸大小的卷積層和池化層組成,前一卷積層的輸出特征圖作為后一卷積層的輸入。其中卷積層主要由一個(gè)大小固定的卷積核與輸入進(jìn)行卷積運(yùn)算,正好對(duì)應(yīng)模擬了生物視覺(jué)系統(tǒng)中的簡(jiǎn)單細(xì)胞,而池化層則是一種下采樣操作,用來(lái)擴(kuò)大感受野(receptive fields),并且獲得一定的不變性,例如旋轉(zhuǎn)不變性,尺度不變性。若干卷積層和池化層的組合,其功能相當(dāng)于一個(gè)特征提取器;隨后的若干層由全連接層構(gòu)成,其作用相當(dāng)于一個(gè)分類(lèi)器。一般情況下,特征信息提取越完整,越能有效改善分類(lèi)精度,但是沒(méi)有區(qū)分度的特征信息通常會(huì)對(duì)分類(lèi)結(jié)果產(chǎn)生不好的影響。在當(dāng)前圖像數(shù)據(jù)集龐大的情況下,隨著卷積神經(jīng)網(wǎng)絡(luò)模型深度的不斷加深,寬度不斷加寬,這種特征算法耗費(fèi)大量人力物力,并且效率低下。
為了解決圖像特征信息提取不完整的問(wèn)題,本文將迭代訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型和集成學(xué)習(xí)分類(lèi)器兩者相結(jié)合,提出一種使用迭代訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型和集成學(xué)習(xí)相結(jié)合的圖像分類(lèi)算法,旨在提升圖像分類(lèi)精度,使卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練效率更高。通過(guò)構(gòu)建三流卷積神經(jīng)網(wǎng)絡(luò)模型,然后對(duì)3個(gè)網(wǎng)絡(luò)流采用迭代訓(xùn)練的方式訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),這樣便可以提取到完整的能夠描述圖像的特征信息。最后采用集成學(xué)習(xí)的思想,根據(jù)各網(wǎng)絡(luò)流基分類(lèi)器的表現(xiàn)性能,賦予分類(lèi)器不同權(quán)重,能力越強(qiáng)的分類(lèi)器權(quán)重越大。
卷積神經(jīng)網(wǎng)絡(luò)發(fā)展已經(jīng)日趨完善,從近幾年ImageNet競(jìng)賽圖像分類(lèi)中表現(xiàn)出色的隊(duì)伍中我們不難發(fā)現(xiàn),由于當(dāng)前龐大的訓(xùn)練數(shù)據(jù)和多并行GPU加速運(yùn)算效率帶來(lái)的便利,當(dāng)前該領(lǐng)域已經(jīng)采取了多種不同的方法來(lái)提高圖像分類(lèi)精度。例如,Zhang等[6]提出了一個(gè)Maxout Network模型,相當(dāng)于卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù)層,替換了之前卷積神經(jīng)網(wǎng)絡(luò)模型常用的Sigmod,Relu,Tanh等函數(shù),但又不同于這些激活函數(shù),它是一個(gè)可學(xué)習(xí)的激活函數(shù),網(wǎng)絡(luò)中的參數(shù)都是可學(xué)習(xí)變化的,并且可以擬合任意的凸函數(shù)。因?yàn)镸axout是一個(gè)分段線性函數(shù),然而任意一個(gè)凸函數(shù)都可由線性分段函數(shù)以任意精度進(jìn)行擬合,即可以擬合上述3種常用的激活函數(shù)。但是這種方法的不足之處在于新的激活函數(shù)的提出會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)個(gè)數(shù)比原始網(wǎng)絡(luò)參數(shù)成倍的增加,在數(shù)據(jù)量較大的情況下,會(huì)對(duì)網(wǎng)絡(luò)模型帶來(lái)巨大負(fù)荷,造成“維數(shù)災(zāi)難”[7]。因此這種方法并不適合數(shù)據(jù)集較大的情況。
而針對(duì)數(shù)據(jù)量少或包含罕見(jiàn)類(lèi)的數(shù)據(jù)集的分類(lèi)問(wèn)題,將先驗(yàn)知識(shí)添加到?jīng)Q策樹(shù)的結(jié)構(gòu)中,同時(shí)將這些先驗(yàn)知識(shí)應(yīng)用于網(wǎng)絡(luò)模型的最后一層網(wǎng)絡(luò)層,根據(jù)加入的先驗(yàn)知識(shí)得出的圖像分類(lèi)性能差異模型,將得到的圖像分類(lèi)性能較強(qiáng)的網(wǎng)絡(luò)模型賦予較大的權(quán)重,可以改善深度卷積神經(jīng)網(wǎng)絡(luò)的性能。Lin等[8]提出的NIN網(wǎng)絡(luò)模型,將多個(gè)感知卷積層替換了傳統(tǒng)的卷積層,以此來(lái)提升網(wǎng)絡(luò)泛化能力和增強(qiáng)抽象特征信息的提取能力;同時(shí)利用全局平均池化層替換了網(wǎng)絡(luò)模型中的全連接層,并且最后加上Softmax層用作分類(lèi)。Xiao等[9]提出將先驗(yàn)知識(shí)添加到?jīng)Q策樹(shù)的結(jié)構(gòu)中,同時(shí)將這些先驗(yàn)知識(shí)應(yīng)用于網(wǎng)絡(luò)模型的最后一層網(wǎng)絡(luò)層,根據(jù)加入的先驗(yàn)知識(shí)得出的圖像分類(lèi)性能差異模型,將得到的圖像分類(lèi)性能較強(qiáng)的網(wǎng)絡(luò)模型賦予較大的權(quán)重,最后運(yùn)用類(lèi)繼承的圖像分類(lèi)方法來(lái)達(dá)到相同類(lèi)別間的圖像特征信息共享。這種方法從一定程度上擴(kuò)充了訓(xùn)練的數(shù)據(jù)集,并且能夠解決圖像數(shù)據(jù)樣本量不足的問(wèn)題以及罕見(jiàn)圖像類(lèi)別數(shù)據(jù)集的分類(lèi)問(wèn)題。Lee等[10]利用了一個(gè)先驗(yàn)經(jīng)驗(yàn),如果能夠讓圖像特征具有區(qū)分性,則分類(lèi)性能就會(huì)比較優(yōu)越。文中在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上對(duì)隱藏層進(jìn)行監(jiān)督學(xué)習(xí)。即對(duì)卷積神經(jīng)網(wǎng)絡(luò)的隱藏層采用Squared Hinge Loss,使得卷積神經(jīng)網(wǎng)絡(luò)的隱藏層具有區(qū)分性。但是文中并沒(méi)有對(duì)這種先驗(yàn)經(jīng)驗(yàn)方法是否真實(shí)有效進(jìn)行驗(yàn)證說(shuō)明。Agostinelli等[11]提出了一個(gè)自適應(yīng)分段線性激活函數(shù),每個(gè)神經(jīng)元能夠使用梯度下降算法獨(dú)立學(xué)習(xí)。Yan等[12]通過(guò)將深度卷積神經(jīng)網(wǎng)絡(luò)模型添加到具有兩級(jí)分類(lèi)層次的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,以此進(jìn)一步加深卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層深度。通過(guò)粗略調(diào)節(jié)網(wǎng)絡(luò)參數(shù)和加載預(yù)訓(xùn)練模型來(lái)微調(diào)網(wǎng)絡(luò)參數(shù)相結(jié)合的方法,并以此改善網(wǎng)絡(luò)性能。Murthy等[13]通過(guò)運(yùn)用決策樹(shù)理論和將不同類(lèi)型的圖像樣本劃分成多個(gè)區(qū)域子塊的方法構(gòu)建了深度決策網(wǎng)絡(luò),達(dá)到不同類(lèi)別樣本分區(qū)域分別聚類(lèi)的目的。上述這些方法均是從網(wǎng)絡(luò)模型結(jié)構(gòu),激活函數(shù),以及將傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)結(jié)合的幾個(gè)方面進(jìn)行模型的改進(jìn)創(chuàng)新,并且取得了性能的改進(jìn)。
卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)由卷積層與降采樣層交替出現(xiàn)的多層神經(jīng)網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)層由多個(gè)二維特征平面組成。CNN首先通過(guò)反向傳播算法 (backpropagation algorithm,BP)來(lái)預(yù)測(cè)輸入圖像的分類(lèi)結(jié)果,然后將實(shí)際得到的正確圖像標(biāo)簽和預(yù)測(cè)的正確圖像標(biāo)簽進(jìn)行比較,以此得到分類(lèi)誤差,最后利用梯度下降算法將網(wǎng)絡(luò)權(quán)值更新。卷積層是模型的重要網(wǎng)絡(luò)層,而特征提取則是計(jì)算機(jī)視覺(jué)任務(wù)中至關(guān)重要的問(wèn)題。以CaffeNet網(wǎng)絡(luò)模型為例,本文的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示,主要由特征提取部分,分類(lèi)器和融合分類(lèi)器3部分組成。其中圖1中只畫(huà)出了3個(gè)子網(wǎng)絡(luò)流所對(duì)應(yīng)的分類(lèi)器。在訓(xùn)練分類(lèi)器階段,本文利用集成學(xué)習(xí)訓(xùn)練了多個(gè)分類(lèi)器,鑒于文章篇幅大小有限,圖1中只畫(huà)出了其中3個(gè)。網(wǎng)絡(luò)框架中的3個(gè)子網(wǎng)絡(luò)S1,S2和S3均可以設(shè)計(jì)成NIN[8],ResNet[14],VGGNet[15]等其它常用的卷積神經(jīng)網(wǎng)絡(luò)模型。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)網(wǎng)絡(luò)模型進(jìn)行迭代訓(xùn)練,主要是對(duì)網(wǎng)絡(luò)框架中的3個(gè)子網(wǎng)絡(luò)S1,S2和S3之間,固定其中兩個(gè)子網(wǎng)絡(luò)的模型參數(shù),以迭代訓(xùn)練的方式微調(diào)另外一個(gè)子網(wǎng)絡(luò)。一方面,這樣做主要是考慮到GPU內(nèi)存限制和減少網(wǎng)絡(luò)模型過(guò)擬合的問(wèn)題。另一方面,相對(duì)于另外兩個(gè)特征提取部分,這樣提取到的圖像特征更詳細(xì)豐富且具有區(qū)分性。Hou等[16]提出了一種新穎高效率的卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法——迭代交替訓(xùn)練。這種訓(xùn)練方法主要以單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),從網(wǎng)絡(luò)框架的形式上構(gòu)建一個(gè)孿生卷積神經(jīng)網(wǎng)絡(luò)模型;然后分別對(duì)兩個(gè)具有相同網(wǎng)絡(luò)參數(shù)的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,迭代訓(xùn)練多次后,最后微調(diào)迭代訓(xùn)練成功的孿生網(wǎng)絡(luò)(即識(shí)別率較高的網(wǎng)絡(luò)模型),以此來(lái)得到兩個(gè)具有相同網(wǎng)絡(luò)結(jié)構(gòu)模型的互補(bǔ)特征,提升分類(lèi)準(zhǔn)確率。本文受到此文獻(xiàn)迭代交替訓(xùn)練方法的啟發(fā),文中的3個(gè)子網(wǎng)絡(luò)也采用這種迭代交替訓(xùn)練的方法來(lái)充分提取不同類(lèi)別圖像的具有區(qū)分性質(zhì)的圖像特征,從而提升網(wǎng)絡(luò)模型的分類(lèi)準(zhǔn)確率。
在單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型中,首先對(duì)單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,根據(jù)單個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型的分類(lèi)性能表征的強(qiáng)弱,持續(xù)對(duì)表征分類(lèi)性能良好的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行迭代交替訓(xùn)練。在訓(xùn)練過(guò)程中,由單流網(wǎng)絡(luò)變成孿生雙流網(wǎng)絡(luò),通過(guò)訓(xùn)練雙流網(wǎng)絡(luò)得到的互為補(bǔ)充的圖像特征信息實(shí)現(xiàn)圖像充分有效的提取。本文的方法以迭代交替訓(xùn)練雙流網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),在首迭代訓(xùn)練雙流卷積神經(jīng)網(wǎng)絡(luò)模型的時(shí)候,三流結(jié)構(gòu)的子網(wǎng)絡(luò)S1的網(wǎng)絡(luò)參數(shù)設(shè)定為初始參數(shù)(即對(duì)應(yīng)最原始的卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)),只訓(xùn)練三流網(wǎng)絡(luò)結(jié)構(gòu)的子網(wǎng)絡(luò)S2和S3,此時(shí)的損失函數(shù)為
Loss1=λs2loss_S2+λs3loss_S3
(1)
然后在第二次迭代的時(shí)候,固定S2,訓(xùn)練子網(wǎng)絡(luò)S1和S3,此時(shí)的損失函數(shù)為
Loss2=λs1loss_S1+λs3loss_S3
(2)
最后在第三次迭代的時(shí)候,固定S3,訓(xùn)練子網(wǎng)絡(luò)S1和S2,此時(shí)的損失函數(shù)為
D.若A是應(yīng)用最廣泛的金屬,反應(yīng)④用到A,反應(yīng)②⑤均用到同一種氣態(tài)非金屬單質(zhì),實(shí)驗(yàn)室保存D溶液的方法是加入適量鐵粉與稀鹽酸
Loss3=λs1loss_S1+λs2loss_S2
(3)
3個(gè)子網(wǎng)絡(luò)重復(fù)迭代交替多次訓(xùn)練,直到Loss1,Loss2和Loss3這3個(gè)損失函數(shù)的數(shù)值都趨于穩(wěn)定,然后在以圖像分類(lèi)性能表征較強(qiáng)的3個(gè)子網(wǎng)絡(luò)流S1,S2和S3網(wǎng)絡(luò)為基礎(chǔ),對(duì)3個(gè)子網(wǎng)絡(luò)流進(jìn)行微調(diào),此時(shí)的損失函數(shù)為
Loss3=λs1loss_S1+λs2loss_S2+λs3loss_S3
(4)
以上4個(gè)損失函數(shù)中的λ都參照文獻(xiàn)[16]中的設(shè)置取0.3,其中l(wèi)oss_S1, loss_S2和 loss_S3用的都是softmax損失函數(shù)。
在訓(xùn)練參數(shù)復(fù)雜的神經(jīng)網(wǎng)絡(luò)時(shí),如果沒(méi)有足夠大的訓(xùn)練數(shù)據(jù)集,模型極有可能陷入過(guò)擬合的狀態(tài)。為了解決網(wǎng)絡(luò)模型過(guò)擬合的問(wèn)題,同時(shí)增加足夠的圖像數(shù)據(jù),更有效提取到圖像中有區(qū)分度的特征,并且減少圖像中特征數(shù)據(jù)的冗余,提高模型的分類(lèi)精度。文中在圖像預(yù)處理階段,采用了數(shù)據(jù)增強(qiáng)的操作方法,一方面擴(kuò)充了數(shù)據(jù)集,另一方面可以得到不同類(lèi)別圖像更豐富有效的圖像特征。例如:將原始圖像旋轉(zhuǎn)一個(gè)小角度,添加隨機(jī)噪聲,帶彈性的形變和截取原始圖像的一部分等方法。
圖像增強(qiáng)的具體操作為:圖像平移,目的是讓網(wǎng)絡(luò)模型學(xué)習(xí)到圖像的平移不變性;圖像旋轉(zhuǎn),旨在讓網(wǎng)絡(luò)模型學(xué)習(xí)圖像的旋轉(zhuǎn)不變性特征;并且調(diào)節(jié)圖像不同亮度和對(duì)比度,可以得到不同光照條件下圖像的不同特征。
集成學(xué)習(xí)(ensemble learning)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用較為廣泛。近年來(lái)該方法是各個(gè)領(lǐng)域的研究重點(diǎn),并且該方法在圖像識(shí)別領(lǐng)域?qū)D像分類(lèi)精度的提升有著很大的潛力,具有其獨(dú)特的優(yōu)勢(shì)。
集成學(xué)習(xí)的主要思想是將不同分類(lèi)器進(jìn)行集合,根據(jù)各分類(lèi)器的表征性能進(jìn)行合理選擇并且重組,旨在獲得比單個(gè)表征性能最好的分類(lèi)器還要優(yōu)秀的分類(lèi)精度[17]。在圖像分類(lèi)問(wèn)題上,單個(gè)分類(lèi)器的性能表現(xiàn)出來(lái)的隨機(jī)性較大,并且不穩(wěn)定。但是通過(guò)引入集成學(xué)習(xí)的思想,某一個(gè)網(wǎng)絡(luò)模型在學(xué)習(xí)某些圖像特征方面,能夠得到良好的結(jié)果。因此,選取訓(xùn)練得到的表征性能較強(qiáng)的不同網(wǎng)絡(luò)模型集成,得到的網(wǎng)絡(luò)模型泛化能力更強(qiáng),在不同的情況下均能得到一個(gè)良好的分類(lèi)結(jié)果。
本文在經(jīng)過(guò)多次迭代訓(xùn)練后,得到多個(gè)分類(lèi)器,本文中集成學(xué)習(xí)分類(lèi)器的示意圖,如圖2所示。
圖2 分類(lèi)器融合結(jié)構(gòu)
如圖2 所示,采用文獻(xiàn)[18]中的直接平均法對(duì)分類(lèi)器進(jìn)行多網(wǎng)絡(luò)模型集成訓(xùn)練,直接平均法通過(guò)對(duì)不同模型產(chǎn)生的類(lèi)別置信度求平均值而得到最終的分類(lèi)結(jié)果。假設(shè)共有N個(gè)模型待集成,對(duì)測(cè)試樣本D,其測(cè)試結(jié)果為N個(gè)C維(C為數(shù)據(jù)的標(biāo)記空間大小)向量q1,q2,…,qN。 直接平均法對(duì)應(yīng)的公式如下
(5)
對(duì)于加權(quán)平均法中網(wǎng)絡(luò)層權(quán)值大小的設(shè)定,根據(jù)不同網(wǎng)絡(luò)模型在訓(xùn)練集上單獨(dú)表征的圖像分類(lèi)性能來(lái)確定。因此圖像分類(lèi)性能準(zhǔn)確率較高的網(wǎng)絡(luò)模型權(quán)值較大,圖像分類(lèi)性能準(zhǔn)確率低的網(wǎng)絡(luò)模型的權(quán)值較小。
為了測(cè)試該網(wǎng)絡(luò)模型的有效性和泛化性能,選取了CaffeNet[19],VGGNet[15],NIN[8]和ResNet[14]這4個(gè)常用的網(wǎng)絡(luò)模型,分別在CIFAR-100[20],Stanford Dogs[21]和UEC FOOD-100[22]這3個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試。
本文進(jìn)行實(shí)驗(yàn)操作的硬件配置為:CPU為Intel(R) Xeon(R) CPU E5-2690 v4 @ 2.60GHz,內(nèi)存512GB,4塊16GB的NVIDIA Tesla P100-PCIE,系統(tǒng)類(lèi)型為64位Win10操作系統(tǒng)。本文實(shí)驗(yàn)結(jié)果采用平均精度均值(mean average precision,mAP)[23]來(lái)評(píng)價(jià)卷積神經(jīng)網(wǎng)絡(luò)性能的表現(xiàn)差異。mAP算法不僅考慮了圖像分類(lèi)的召回率,而且考慮了圖像分類(lèi)性能好壞的排名分布情況,可以較為全面地反應(yīng)網(wǎng)絡(luò)性能。
CIFAR-100數(shù)據(jù)集由60 000張彩色圖像組成,包括100種不同的圖像類(lèi)別,其中每個(gè)圖像類(lèi)別分別有6000張圖像,圖像像素尺寸大小為32×32。在本文實(shí)驗(yàn)中,隨機(jī)的選取50 000(即每類(lèi)100張圖像)張圖像用來(lái)作為訓(xùn)練數(shù)據(jù)集,剩下的10 000張圖像作為測(cè)試數(shù)據(jù)集使用。
Stanford Dogs數(shù)據(jù)集是一個(gè)主要用于圖像細(xì)粒度分類(lèi)的數(shù)據(jù)集,合計(jì)20 580張圖像,由120種不同品種的狗組成,每個(gè)品種的狗的圖像數(shù)量為148張~252張。本文將該數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩大類(lèi):12 000張圖像用作訓(xùn)練集,8580張圖像用作測(cè)試集[24]。
UEC FOOD-100數(shù)據(jù)集是一個(gè)主要用來(lái)識(shí)別不同種日本食品的數(shù)據(jù)集,合計(jì)14 461張圖像。包含了100個(gè)不同食物類(lèi)別,每個(gè)類(lèi)的圖像數(shù)目為101到729不等,本文將該數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩大類(lèi):10 000張圖像用作訓(xùn)練集,4461張圖像用作測(cè)試集[25]。
為了驗(yàn)證本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練和集成學(xué)習(xí)的圖像分類(lèi)方法具有良好的分類(lèi)性能,本文在上述3個(gè)數(shù)據(jù)集上分別和前期不同研究者的實(shí)驗(yàn)結(jié)果進(jìn)行了分類(lèi)性能比較。
3.3.1 CIFAR-100數(shù)據(jù)集上分類(lèi)性能對(duì)比
本文方法在CIFAR-100數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見(jiàn)表1。表1中的基礎(chǔ)網(wǎng)絡(luò)NIN和ResNet-20的分類(lèi)結(jié)果來(lái)源文獻(xiàn)[16],其中,DNI和DNR分別是文獻(xiàn)[16]中以NIN-3和ResNet-20為基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型搭建的雙流卷積神經(jīng)網(wǎng)絡(luò)模型。從表1的實(shí)驗(yàn)結(jié)果可以觀察到,本文的方法在NIN和ResNet-20兩個(gè)網(wǎng)絡(luò)模型上均取得了良好的性能。其中,在NIN網(wǎng)絡(luò)模型上,本文的方法比文獻(xiàn)[16]中的單個(gè)網(wǎng)絡(luò)模型準(zhǔn)確率提高了4.58%,比文獻(xiàn)[16]中的雙流NIN網(wǎng)絡(luò)DNI準(zhǔn)確率提高了1.73%。在ResNet-20網(wǎng)絡(luò)模型上,本文的方法較文獻(xiàn)[16]中單個(gè)網(wǎng)絡(luò)模型提高了6.15%,比文獻(xiàn)[16]中的雙流網(wǎng)絡(luò)DNR準(zhǔn)確率提高了2.81%。并且,CIFAR-100數(shù)據(jù)集在本文提出的方法上均取得了較好的結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的三流卷積神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練和集成學(xué)習(xí)的算法能夠充分完整地提取到圖像的充分有效特征信息,使得圖像分類(lèi)性能有比較顯著的提升。
表1 CIFAR-100數(shù)據(jù)集上本文方法的mAP(%)比較
表2所示的是本文方法與當(dāng)前一些主流方法[8,10-13,16]在CIFAR-100數(shù)據(jù)集上的分類(lèi)性能的比較。其中文獻(xiàn)[8]利用多層感知卷積層來(lái)替代傳統(tǒng)卷積網(wǎng)絡(luò)層,本文的方法較文獻(xiàn)[8]中的方法提高了10.92%。文獻(xiàn)[10]對(duì)卷積網(wǎng)絡(luò)模型的隱藏層進(jìn)一步運(yùn)用監(jiān)督學(xué)習(xí)的方法來(lái)獲得充分有效的圖像特征信息,實(shí)驗(yàn)結(jié)果得到的準(zhǔn)確率為65.43%,本文的方法較文獻(xiàn)[10]中的方法提高了9.81%。文獻(xiàn)[11]提出了一個(gè)自適應(yīng)分段線性激活函數(shù),并利用該激活函數(shù)來(lái)替換卷積神經(jīng)網(wǎng)絡(luò)中的Softmax函數(shù),進(jìn)行圖像特征提取。本文的方法較文獻(xiàn)[11]中的方法提高了9.64%。文獻(xiàn)[12]通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)層數(shù)較多的深度CNN添加到兩級(jí)類(lèi)別層次結(jié)構(gòu)中來(lái)獲取圖像充分有效的特征信息,使用粗類(lèi)別圖像分類(lèi)器來(lái)得到圖像特征信息簡(jiǎn)單的簡(jiǎn)單圖像類(lèi)別,精細(xì)類(lèi)別分類(lèi)器來(lái)獲取圖像特征多而復(fù)雜的圖像類(lèi)別,并且通過(guò)運(yùn)用粗類(lèi)別圖像分類(lèi)器與精細(xì)類(lèi)別分類(lèi)器相結(jié)合的方法,得到的圖像分類(lèi)準(zhǔn)確率為67.38%,本文的方法較文獻(xiàn)[12]中的方法提高了7.86%。文獻(xiàn)[13]提出深度決策網(wǎng)絡(luò)DDN,得到的圖像分類(lèi)準(zhǔn)確率為68.35%,本文的方法較文獻(xiàn)[13]中的方法提高了6.89%。本文方法在ResNet-20方法的圖像分類(lèi)準(zhǔn)確率分別比文獻(xiàn)[16]中的DNI,DNR提高了5.48%,2.81%。由表2實(shí)驗(yàn)結(jié)果可以看出,本文方法相較于當(dāng)前一些數(shù)據(jù)集在不同卷積神經(jīng)網(wǎng)絡(luò)模型上的方法準(zhǔn)確率均有一定提升,具有較好的分類(lèi)性能。
表2 各主流方法與本文方法的mAP(%)比較
3.3.2 Stanford Dogs數(shù)據(jù)集上分類(lèi)性能對(duì)比
因?yàn)镃IFAR-100(32×32)數(shù)據(jù)集比CaffeNet(227×227)和VGGNet(224×224)兩個(gè)網(wǎng)絡(luò)模型的輸入尺寸要小很多,如果增大CIFAR-100中的圖像尺寸,會(huì)導(dǎo)致圖像模糊不清,在一定程度上給實(shí)驗(yàn)結(jié)果帶來(lái)影響。所以,本文選擇了另外一個(gè)數(shù)據(jù)集Stanford Dogs用來(lái)驗(yàn)證本文方法在CaffeNet和VGGNet網(wǎng)絡(luò)模型上性能。表3中展示了Stanford Dogs數(shù)據(jù)集利用本文方法在CaffeNet和VGGNet兩個(gè)網(wǎng)絡(luò)上的實(shí)驗(yàn)結(jié)果。由表3的實(shí)驗(yàn)結(jié)果可以看出,在CaffeNet網(wǎng)絡(luò)模型上,本文的方法均比文獻(xiàn)[16]中的單個(gè)CaffeNet網(wǎng)絡(luò)模型和雙流網(wǎng)絡(luò)模型DNC的分類(lèi)精度要高,分別高了2.30%,1.20%。同時(shí),在VGGNet網(wǎng)絡(luò)模型上,本文的方法分別比文獻(xiàn)[16]中的單個(gè)VGGNet高了5.76%,2.31%。實(shí)驗(yàn)結(jié)果表明,本文提出的方法比文獻(xiàn)[16]中的雙流卷積神經(jīng)網(wǎng)絡(luò)模型分類(lèi)精度更高,具有較好的分類(lèi)性能。
表3 Stanford Dogs數(shù)據(jù)集上的mAP(%)比較
3.3.3 UEC FOOD-100數(shù)據(jù)集上分類(lèi)性能對(duì)比
表4中展示了UEC FOOD-100數(shù)據(jù)集利用本文方法在CaffeNet和VGGNet兩個(gè)網(wǎng)絡(luò)上的實(shí)驗(yàn)結(jié)果。由表4的實(shí)驗(yàn)結(jié)果可以看出,在CaffeNet網(wǎng)絡(luò)模型上,本文的方法比文獻(xiàn)[16]中雙流網(wǎng)絡(luò)模型DNC和雙流網(wǎng)絡(luò)模型DNV分類(lèi)精度有較為明顯的提升。其中,在CaffeNet網(wǎng)絡(luò)模型上,本文方法分別比文獻(xiàn)[16]中的單個(gè)CaffeNet網(wǎng)絡(luò)模型和雙流網(wǎng)絡(luò)模型DNC分類(lèi)精度高了3.12%,1.93%。在VGGNet網(wǎng)絡(luò)模型上,本文方法分別比文獻(xiàn)[16]中的單個(gè)VGGNet網(wǎng)絡(luò)模型和雙流網(wǎng)絡(luò)模型DNV分類(lèi)精度高了3.57%,1.78%。由此說(shuō)明了本文提出的方法可以有效學(xué)習(xí)到圖像的充分有效特征,使得圖像分類(lèi)精度提升較為顯著。
表4 UEC FOOD-100數(shù)據(jù)集上的mAP(%)比較
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的迭代訓(xùn)練和集成學(xué)習(xí)的圖像分類(lèi)方法。該方法主要運(yùn)用了迭代訓(xùn)練的方式,來(lái)訓(xùn)練3個(gè)子網(wǎng)絡(luò)流。這種對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練的方式主要有兩個(gè)優(yōu)點(diǎn):①訓(xùn)練時(shí)網(wǎng)絡(luò)梯度回傳的層數(shù)更少,所以梯度消失的問(wèn)題更少;②具有更好的并行性,每一個(gè)子網(wǎng)絡(luò)流可以進(jìn)行單獨(dú)訓(xùn)練,故可以獲得更好的訓(xùn)練效率,并減少設(shè)備內(nèi)存空間的限制。并且對(duì)圖像數(shù)據(jù)預(yù)處理采用了數(shù)據(jù)增強(qiáng)的方式,這樣不僅擴(kuò)充了圖像數(shù)據(jù)集,而且能有效減少網(wǎng)絡(luò)模型過(guò)擬合。最后采用集成學(xué)習(xí)對(duì)分類(lèi)器進(jìn)行集成,得到分類(lèi)結(jié)果。本文在Stanford Dogs,UEC FOOD-100和CIFAR-100數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的方法在圖像分類(lèi)中具有較好的性能。本文的良好性能主要是通過(guò)對(duì)3個(gè)子網(wǎng)絡(luò)進(jìn)行多次迭代訓(xùn)練獲得的。在后續(xù)的工作中將探討利用網(wǎng)絡(luò)壓縮模型來(lái)減少網(wǎng)絡(luò)參數(shù),同時(shí)在保證網(wǎng)絡(luò)性能良好的基礎(chǔ)上,提高模型訓(xùn)練效率。