半徑間隔界驅(qū)動(dòng)卷積神經(jīng)網(wǎng)絡(luò)模型的圖像識(shí)別

2021-03-19 05:56:24王曉明杜亞軍黃增喜

西華大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年2期

肖遙，蔣琦，王曉明,2*，杜亞軍，黃增喜

（1.西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院，四川成都 610039；2.西華大學(xué)機(jī)器人研究中心，四川成都 610039）

圖像識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向，其任務(wù)是識(shí)別給定的一張或多張圖像的類(lèi)別或?qū)傩?。圖像識(shí)別技術(shù)被廣泛應(yīng)用于自動(dòng)駕駛、視頻監(jiān)控以及智能醫(yī)療等領(lǐng)域。實(shí)際應(yīng)用中，圖像識(shí)別的主要挑戰(zhàn)在于如何提取具有強(qiáng)鑒別性的圖像特征。傳統(tǒng)的圖像識(shí)別算法針對(duì)不同模式的識(shí)別任務(wù)設(shè)計(jì)了多種類(lèi)型的特征[1?3]。然而，這些特征往往只針對(duì)某一特定的識(shí)別環(huán)境，無(wú)法完全適應(yīng)復(fù)雜環(huán)境。隨著計(jì)算機(jī)硬件的迅速發(fā)展及大規(guī)模數(shù)據(jù)集可用性的提高，卷積神經(jīng)網(wǎng)絡(luò)（convolution neural network,CNN）在圖像識(shí)別領(lǐng)域受到越來(lái)越多研究者的關(guān)注。不同于傳統(tǒng)的識(shí)別算法，基于CNN 的圖像識(shí)別能夠自適應(yīng)的提取適合當(dāng)前識(shí)別模式的深度特征，具有更強(qiáng)的泛化性能及更高的識(shí)別率。為了進(jìn)一步增強(qiáng)深度模型的特征表達(dá)能力，研究者提出了許多不同的改進(jìn)方案。按照實(shí)現(xiàn)的方式，這些改進(jìn)可分為基于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)和基于能量函數(shù)的改進(jìn)?；诰W(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)旨在增加網(wǎng)絡(luò)的深度以提高深度模型的特征表達(dá)能力。文獻(xiàn)[4]提出了具有13～19 層網(wǎng)絡(luò)的VGG 深度卷積模型。文獻(xiàn)[5]提出的GoogLeNet 深度卷積模型將網(wǎng)絡(luò)層數(shù)提高到了22 層。文獻(xiàn)[6]將網(wǎng)絡(luò)模型進(jìn)一步提高到了110 層，并探索了高達(dá)1 102 層的網(wǎng)絡(luò)模型的有效性。增加網(wǎng)絡(luò)的深度能夠增強(qiáng)模型的特征表達(dá)能力，然而，這種策略是不可持續(xù)的。隨著網(wǎng)絡(luò)層數(shù)的增加，深度模型將變得更難收斂。此外，更深的網(wǎng)絡(luò)需要更多GPU/CPU 集群和復(fù)雜的分布式計(jì)算平臺(tái)，以實(shí)現(xiàn)具有高計(jì)算復(fù)雜性的學(xué)習(xí)，然而在當(dāng)前計(jì)算機(jī)硬件性能的限制下，這樣的策略不可避免地將會(huì)達(dá)到極限。

不同于基于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)，基于能量函數(shù)的改進(jìn)著手于采用不同的學(xué)習(xí)策略來(lái)指導(dǎo)深度模型的訓(xùn)練。傳統(tǒng)的CNN 模型中往往采用Softmax 能量函數(shù)指導(dǎo)模型的更新，但這種策略是間接和低效的[7]。針對(duì)這一不足，文獻(xiàn)[7]采用Triplet 能量函數(shù)代替Softmax，然而，該能量函數(shù)中錨樣本對(duì)的構(gòu)造與選擇是一個(gè)復(fù)雜且困難的過(guò)程，會(huì)導(dǎo)致模型的訓(xùn)練變得不穩(wěn)定。文獻(xiàn)[8]提出的中心損失能量函數(shù)在魯棒性和模型收斂速度上具有優(yōu)勢(shì)，但其應(yīng)用必須依賴(lài)于Softmax 損失。文獻(xiàn)[9]在Softmax 中引入了Fisher 判別正則項(xiàng)與旋轉(zhuǎn)不變正則項(xiàng)，增加了圖像特征的質(zhì)量與魯棒性，但過(guò)多的正則項(xiàng)約束使得深度模型的學(xué)習(xí)變得更加困難。

不同于上述基于能量函數(shù)的改進(jìn)，文獻(xiàn)[10]認(rèn)為支持向量機(jī)（support vector machine,SVM）能夠提供更出色的正則化效果，提出了一種基于SVM的CNN 模型。與傳統(tǒng)的CNN 模型相比，基于SVM 的CNN 最顯著的優(yōu)勢(shì)在于將大間隔原理引入到CNN 的學(xué)習(xí)策略中，迫使CNN 更多的關(guān)注異類(lèi)樣本特征間的分類(lèi)間隔，從而提取到具有更強(qiáng)鑒別性的樣本特征。然而，它忽略了一關(guān)鍵事實(shí)：SVM 的泛化能力不僅取決于不同類(lèi)別樣本之間的間隔，還與特征空間中所有樣本的最小包含球（minimum enclosing ball,MEB）的半徑有關(guān)[11]。實(shí)際上，在一般的識(shí)別任務(wù)中，給定的樣本特征往往是不變的，MEB 的半徑是一個(gè)固定的常數(shù)。在CNN 模型中，訓(xùn)練樣本的特征會(huì)隨著網(wǎng)絡(luò)參數(shù)的更新而變化，MEB 的半徑也隨之發(fā)生改變?；赟VM 的CNN 模型中未考慮到這一變化，導(dǎo)致SVM 泛化能力不足，進(jìn)而限制了其對(duì)CNN 正則化效果的提高。

針對(duì)上述不足，本文提出了一種半徑間隔界（radius margin bound,RMB）驅(qū)動(dòng)的CNN 模型。與傳統(tǒng)的CNN 相比，半徑間隔界驅(qū)動(dòng)的CNN 采用了更嚴(yán)格的學(xué)習(xí)策略，不僅考慮了不同類(lèi)別的樣本特征間的間隔，還進(jìn)一步考慮了不斷變化的MEB 的半徑對(duì)SVM 泛化能力的影響。本質(zhì)上，通過(guò)在學(xué)習(xí)策略中引入SVM 的泛化誤差界理論，本文模型中的CNN 能夠擴(kuò)大不同類(lèi)別的圖像特征間的分類(lèi)間隔，同時(shí)減小包含所有圖像特征的MEB 的半徑。換言之，迫使CNN 在增大類(lèi)間間隔的同時(shí)減小類(lèi)內(nèi)間隔，從而能夠提取到更高質(zhì)量的特征。此外，作為一種基于能量函數(shù)的改進(jìn)方案，本文模型能夠顯著提高深度卷積模型的泛化能力而不會(huì)額外增加網(wǎng)絡(luò)的復(fù)雜度，且不受限于某一特定的網(wǎng)絡(luò)結(jié)構(gòu)，能夠應(yīng)用于不同的深度模型中。在多個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，半徑間隔界驅(qū)動(dòng)的CNN模型能夠提取到鑒別性更強(qiáng)的圖像特征，在識(shí)別應(yīng)用中表現(xiàn)出了更高的識(shí)別率。

1 相關(guān)工作

為了建立半徑間隔界驅(qū)動(dòng)的CNN 模型，本章首先闡述SVM 及其泛化誤差理論，然后介紹基于SVM 的CNN 模型。

1.1 SVM 與泛化誤差

SVM 是一種典型的基于大間隔的分類(lèi)算法，其目標(biāo)是在給定的特征空間中尋找一個(gè)最優(yōu)分類(lèi)超平面，使得特征空間中正負(fù)樣本間有最大的分類(lèi)間隔。對(duì)于一組線性可分的訓(xùn)練樣本{x1,···,xn}，SVM 的優(yōu)化問(wèn)題可表示為:

式中：yi∈{+1,?1}是對(duì)應(yīng)的訓(xùn)練樣本的標(biāo)簽；n表示訓(xùn)練樣本的個(gè)數(shù)；||w||=1/γ為特征空間中正負(fù)樣本分類(lèi)間隔 γ的倒數(shù)；b為對(duì)應(yīng)的偏置項(xiàng)。為了選擇有效的分類(lèi)參數(shù)，使SVM 在數(shù)據(jù)集上取得更好的分類(lèi)表現(xiàn)，VAPNIK 等[12]提出了留一法(leave-oneout,LOO)誤差估計(jì)用于評(píng)估SVM 的泛化性能。LOO 誤差被定義為

式中a為MEB 的中心。由式（2）可知，SVM 泛化誤差上界不僅取決于正負(fù)樣本間的分類(lèi)間隔，還與特征空間中包含所有樣本的MEB 半徑有關(guān)。

在一般分類(lèi)任務(wù)中，給定的訓(xùn)練樣本往往是線性不可分的，對(duì)于此類(lèi)情況，定義L2 范數(shù)SVM的優(yōu)化問(wèn)題為：

式中：ξi為引入的松弛變量；λ為懲罰系數(shù)用于表示模型對(duì)分類(lèi)誤差的容忍度，當(dāng)λ=0時(shí)為線性可分的情況。實(shí)際上，根據(jù)文獻(xiàn)[13]，L2 范數(shù)SVM 可以被轉(zhuǎn)換為一個(gè)等價(jià)的硬間隔SVM 問(wèn)題。

1.2 基于SVM 的CNN 模型

傳統(tǒng)的CNN 模型中往往采用Softmax 能量函數(shù)指導(dǎo)模型的學(xué)習(xí)。給定一組包含C個(gè)類(lèi)別的訓(xùn)練樣本，則Softmax 能量函數(shù)可表達(dá)為

式中：zi=wT?(xi;ω)+b為模型中Softmax 層的預(yù)測(cè)輸出；w是模型中預(yù)測(cè)層的權(quán)重系數(shù)；?(xi;ω)為模型提取到的樣本xi的圖像特征；ω表示網(wǎng)絡(luò)中的權(quán)重系數(shù)；表示樣本zi中的第c個(gè)元素；yi是對(duì)應(yīng)樣本的標(biāo)簽向量；N表示樣本的個(gè)數(shù)。顯然，式（7）只考慮了模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)，其正則化效果有限。針對(duì)這一不足，文獻(xiàn)[10]提出了一種基于SVM 的CNN模型。該模型通過(guò)結(jié)合L2 范數(shù)的SVM，將大間隔原理引入到了CNN 模型中?；赟VM 的CNN定義了能量函數(shù)，為

式中：||w||2是分類(lèi)間隔項(xiàng)，越小則表示不同類(lèi)別的圖像特征間的間隔越大；max(·)2表示二次方的合頁(yè)損失用于度量卷積深度模型的識(shí)別誤差，該項(xiàng)越小則表明模型的識(shí)別誤差越小。與式（7）相比，基于SVM 的CNN 模型額外考慮了不同類(lèi)別的樣本間的間隔，能夠提取高質(zhì)量的圖像特征。

2 半徑間隔界驅(qū)動(dòng)卷積網(wǎng)絡(luò)的目標(biāo)識(shí)別

本章的目的在于建立半徑間隔界驅(qū)動(dòng)的CNN模型，首先構(gòu)建二分類(lèi)模式下的模型，并進(jìn)一步推廣到多類(lèi)別的模式中；其次詳細(xì)說(shuō)明所提模型的訓(xùn)練策略；最后給出模型的識(shí)別方法。

2.1 模型的構(gòu)建

基于SVM 的CNN 模型通過(guò)結(jié)合L2 范數(shù)的SVM，將大間隔原理引入到了深度模型中。相比于傳統(tǒng)的基于Softmax 的CNN 模型，基于SVM 的CNN 在識(shí)別中表現(xiàn)出了更好的泛化能力。然而，其忽視了一個(gè)關(guān)鍵事實(shí)：SVM 的泛化性能不僅取決于異類(lèi)樣本特征間的間隔，還與包含所有樣本特征的MEB 的半徑有關(guān)。實(shí)際上，在一般分類(lèi)任務(wù)中，確定了特征提取器后，訓(xùn)練樣本的特征就不再變化。包含所有樣本特征的MEB 的半徑隨之被固定為一個(gè)常數(shù)。由式（2）可知，此時(shí)SVM 的泛化誤差只取決于異類(lèi)樣本間的分類(lèi)間隔因此不必考慮MEB 的半徑。然而，在基于CNN 的深度模型中，作為特征提取器的CNN 會(huì)隨著權(quán)重系數(shù)的每一輪更新而改變，由所有樣本特征決定的MEB 的半徑在不斷變化。在這種情況下，如果仍忽略MEB 的半徑對(duì)SVM 泛化能力的影響，會(huì)導(dǎo)致分類(lèi)間隔只是簡(jiǎn)單的隨著的增大而增大，而無(wú)法對(duì)SVM 泛化性能的提升做出有效的貢獻(xiàn)。換言之，CNN 提取到的樣本特征雖然具有更大的類(lèi)間間隔，但其類(lèi)內(nèi)間隔也更大，顯然，這樣的特征并不能有效提高深度模型的識(shí)別能力。

針對(duì)上述不足，基于SVM 的泛化誤差界理論，本文提出了一種半徑間隔界驅(qū)動(dòng)的CNN 模型。為了同時(shí)考慮不同類(lèi)別的圖像特征間的間隔和MEB 的半徑，所提模型中定義的能量函數(shù)為

化簡(jiǎn)式（13），可得

本質(zhì)上，這是一個(gè)簡(jiǎn)單的求圖像特征間最大距離的問(wèn)題，只需要遍歷圖像特征便可求得的值。顯然，相對(duì)于求解復(fù)雜的對(duì)偶優(yōu)化問(wèn)題，求解最大成對(duì)距離可以有效地減小模型的計(jì)算開(kāi)銷(xiāo)。采用替換式（9）中的，得到改進(jìn)后的能量函數(shù)，為

在實(shí)際應(yīng)用中，識(shí)別處理的圖像往往遠(yuǎn)大于2 個(gè)類(lèi)別。因此，本文將提出的深度模型擴(kuò)展到多類(lèi)別的模式。借鑒文獻(xiàn)[14]中一對(duì)多的策略，本文分別學(xué)習(xí)每個(gè)類(lèi)別間的分類(lèi)間隔的倒數(shù)及其對(duì)應(yīng)的最大成對(duì)距離。對(duì)于給定的一組包含C個(gè)類(lèi)別的訓(xùn)練樣本，令{y1,···,yn}表示對(duì)應(yīng)樣本的標(biāo)簽，yi∈{1,···,C}。由此擴(kuò)展能量函數(shù)（16）到多類(lèi)別的模式，為

圖1 本文卷積深度模型的結(jié)構(gòu)

2.2 模型的更新

本節(jié)將介紹半徑間隔界驅(qū)動(dòng)的CNN 模型中各個(gè)參數(shù)的更新，包括卷積網(wǎng)絡(luò)中的權(quán)重系數(shù) ω、分類(lèi)器參數(shù)以及最大成對(duì)距離。更新過(guò)程采用交替優(yōu)化的策略，將深度模型分為3 個(gè)部分進(jìn)行更新：固定 ω與更新固定ω 與，更新固定與更新 ω。

2.2.1 更新最大成對(duì)距離

式（21）是一個(gè)尋找樣本間最大間隔的問(wèn)題，簡(jiǎn)單地遍歷圖像特征就可求得該問(wèn)題的解。求得{i?,j?}后，通過(guò)計(jì)算式（22）便可得到Dˉ的值。

其中si=?(xi,ω)。該無(wú)約束問(wèn)題是關(guān)于wc和bc可導(dǎo)的[13]，因此，可通過(guò)梯度下降法對(duì)其進(jìn)行求解。為了便于表述，將問(wèn)題式（23）改寫(xiě)為

得到梯度后，通過(guò)梯度下降法便可求得wc與bc在卷積深度模型中的局部最優(yōu)解。

2.2.3 更新權(quán)重系數(shù)ω

其中?si/?ω表示反向傳播，可由深度學(xué)習(xí)框架如TensorFlow 以及Caffe 等提供的自動(dòng)微分技術(shù)進(jìn)行計(jì)算。最后，能量函數(shù)關(guān)于權(quán)重系數(shù) ω的梯度為

利用式（33），在反向傳播的過(guò)程中，通過(guò)梯度下降法即可實(shí)現(xiàn)對(duì)卷積網(wǎng)絡(luò)中各權(quán)重系數(shù)的更新。

圖2 示出了本文提出的深度模型的更新過(guò)程。其中步驟（a）表示更新分類(lèi)器參數(shù)以及最大成對(duì)距離，步驟（b）表示更新卷積網(wǎng)絡(luò)中權(quán)重系數(shù) ω。

圖2 本文提出的深度模型的更新過(guò)程

綜合所提模型的更新步驟，概括半徑間隔界驅(qū)動(dòng)的CNN 模型的學(xué)習(xí)過(guò)程如下。

輸入：訓(xùn)練樣本X∈Rm×n,訓(xùn)練樣本的標(biāo)簽Y∈Rn，設(shè)置懲罰系數(shù)λ，學(xué)習(xí)率 σ以及最大迭代次數(shù)T。

步驟3：通過(guò)式（26）與式（27）更新分類(lèi)器參數(shù)wc與bc。

步驟4：通過(guò)式（20）計(jì)算能量函數(shù)的值。判斷，若能量函數(shù)停止收斂或迭代次數(shù)t＞T，則終止迭代，否則繼續(xù)進(jìn)行步驟5。

步驟5：通過(guò)式（33）更新權(quán)重系數(shù) ω。返回步驟1）繼續(xù)迭代。

2.3 識(shí)別方法

3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

為了綜合評(píng)價(jià)本文提出的半徑間隔界驅(qū)動(dòng)的CNN 模型，本章首先分析了不同的懲罰系數(shù)λ對(duì)所提模型性能的影響，然后通過(guò)可視化的方式將所提模型提取的圖像特征與傳統(tǒng)CNN 及基于SVM 的CNN 提取的圖像特征進(jìn)行比較，最后基于3 種具有代表性的深度卷積網(wǎng)絡(luò)結(jié)構(gòu)，在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了仿真實(shí)驗(yàn)，以驗(yàn)證所提模型在識(shí)別率上的有效性。本文中所有的實(shí)驗(yàn)都在Nvidia TITAN X(Pascal) GPU 以及Intel(R) Xeon(R) W-2125 CPU環(huán) 境中進(jìn)行。

3.1 懲罰系數(shù)對(duì)模型性能的影響

半徑間隔界驅(qū)動(dòng)的CNN 模型中，懲罰系數(shù)λ被用于度量模型對(duì)誤差的容忍度。為了調(diào)查其對(duì)模型性能的影響，本節(jié)基于ResNet-18 網(wǎng)絡(luò)結(jié)構(gòu)[5]在數(shù)據(jù)集CIFAR-10[15]上對(duì)多個(gè)不同的 λ進(jìn)行仿真實(shí)驗(yàn)。CIFAR-10 數(shù)據(jù)集包含了10 個(gè)類(lèi)別的真實(shí)圖像，由5 萬(wàn)張訓(xùn)練圖像以及1 萬(wàn)張測(cè)試圖像組成，每個(gè)圖像均為32×32 大小的RGB 彩色圖。實(shí)驗(yàn)中設(shè)置懲罰系數(shù)λ ∈{0.001,0.01,0.1,1,10,100}，采用Mini-batch 策略，設(shè)置每次迭代中使用250 張訓(xùn)練圖像，規(guī)定最大迭代次數(shù)t=2 000。為了使模型盡可能的收斂，采用梯度學(xué)習(xí)率策略，具體設(shè)置為：若迭代次數(shù)t＜500，則學(xué)習(xí)率σ=10?3；若500 ≤t＜1 500，則σ=10?4；若1 500 ≤t＜2 000，則σ=10?5。圖3 示出了在不同懲罰系數(shù)λ下能量函數(shù)值的收斂曲線、識(shí)別率的增長(zhǎng)曲線。圖4 示出了模型在CIFAR-10 數(shù)據(jù)集上取得的最大識(shí)別準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果中可以看出：在λ=0.01 時(shí)能量函數(shù)的收斂速度最快，模型取得了最高的識(shí)別率；隨著懲罰系數(shù)λ的增大，能量函數(shù)的收斂速度變慢，對(duì)應(yīng)的識(shí)別率的增長(zhǎng)明顯變緩，模型也難以取得較高的識(shí)別準(zhǔn)確率。分析其原因，過(guò)大的懲罰系數(shù)使得深度卷積模型過(guò)多的關(guān)注被錯(cuò)誤識(shí)別的樣本，迫使模型擬合更復(fù)雜的網(wǎng)絡(luò)參數(shù)以盡可能多地修正被錯(cuò)分的訓(xùn)練樣本，這增加了模型的優(yōu)化難度，同時(shí)導(dǎo)致模型出現(xiàn)過(guò)擬合。根據(jù)實(shí)驗(yàn)結(jié)果，設(shè)定本文實(shí)驗(yàn)中的懲罰系數(shù)λ=0.01。

圖3 不同的懲罰系數(shù)對(duì)模型的收斂和識(shí)別率的影響

圖4 不同懲罰系數(shù)下模型的最大識(shí)別率

3.2 圖像特征可視化分析

為了驗(yàn)證半徑間隔界驅(qū)動(dòng)的CNN 模型能夠提取到鑒別性更強(qiáng)的圖像特征，本節(jié)在CIFAR-10 數(shù)據(jù)集上通過(guò)可視化的方式將所提模型提取的圖像特征與基于中心損失、基于Softmax 以及基于SVM 的深度卷積模型提取的圖像特征進(jìn)行比較。其中，比較的圖像特征提取于CIFAR-10 數(shù)據(jù)集中全部的測(cè)試樣本。同時(shí)，為了調(diào)查本文提出的模型在不同網(wǎng)絡(luò)結(jié)構(gòu)中的泛化能力，實(shí)驗(yàn)中采用AlexNet[16]、VGGNet-13[4]以及ResNet-18[5]3 種具有代表性的網(wǎng)絡(luò)結(jié)構(gòu)。由于深度模型提取的特征為高維的圖像特征，實(shí)驗(yàn)先通過(guò)TSNE 降維算法[17]，將圖像特征的維度降到二維后再進(jìn)行可視化比較。

圖5 示出AlexNet、VGGNet-13 以及ResNet-18在3 種損失函數(shù)驅(qū)動(dòng)下提取到的圖像特征的可視化結(jié)果。其中：xxx-Center 表示基于中心損失的深度卷積模型；xxx-Softmax 表示基于Softmax 的深度卷積模型；xxx-SVM 表示基于SVM 的深度卷積模型；xxx-RMB 表示半徑間隔界驅(qū)動(dòng)的深度卷積模型。

圖5 各卷積深度模型提取的圖像特征的可視化比較

從實(shí)驗(yàn)結(jié)果可以看出：與另外3 種深度模型相比，半徑間隔界驅(qū)動(dòng)的深度卷積模型能夠有效分隔不同類(lèi)別的樣本，得到線性可分的圖像特征，從而提取到更高質(zhì)量的圖像特征；基于Softmax 的深度卷積模型難以分隔不同類(lèi)別的圖像特征，并且提取的同類(lèi)樣本特征的分布較為分散；基于SVM 的深度卷積模型能夠提供較大的類(lèi)間間隔，對(duì)不同類(lèi)別的樣本的分隔能力相對(duì)較差，使得圖像特征間線性不可分；基于中心損失的深度卷積模型能夠聚合同類(lèi)圖像特征，減小了類(lèi)內(nèi)間隔，但其難以分隔不同類(lèi)別的圖像特征。綜上，半徑間隔界驅(qū)動(dòng)的深度模型在圖像特征表達(dá)上是非常有效的。

3.3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文所提出的深度卷積模型在識(shí)別率上的有效性，本節(jié)在5 個(gè)大規(guī)模數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn)。使用的數(shù)據(jù)集包括2 個(gè)數(shù)字識(shí)別數(shù)據(jù)集MINIST[18]和SVHN[19]、1 個(gè)表情識(shí)別數(shù)據(jù)集FER2013[20]，以及2 個(gè)相對(duì)復(fù)雜的真實(shí)圖像數(shù)據(jù)集CIFAR-10[15]和CIFAR-100[15]。其中：MINIST 與SVHN 都是由0-9 這10 個(gè)類(lèi)別的數(shù)字圖像組成，MINIST 為簡(jiǎn)單的手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集，包含的圖像是28×28 尺寸的灰度圖，SVHN 是相對(duì)復(fù)雜的街景數(shù)字?jǐn)?shù)據(jù)集，由尺寸為32×32 的RGB 彩色圖組成；FER2013 由7 個(gè)類(lèi)別的表情圖像組成，每個(gè)圖像都是48×48 的灰度圖；CIFAR-10 和CIFAR-100 由相同的從真實(shí)世界收集的圖像構(gòu)成，這些圖像均為32×32 的RGB 彩色圖，CIFAR-10 將其分為了10 個(gè)類(lèi)別，CIFAR-100 進(jìn)一步將這些圖像細(xì)分成了100 個(gè)不同的類(lèi)別。為了規(guī)范數(shù)據(jù)集中的圖像，使用時(shí)，本文首先將MINIST 和FER2013 中的圖像尺寸縮放到32×32 大小，然后對(duì)所有數(shù)據(jù)集中的圖像做歸一化處理。實(shí)驗(yàn)中，采用3 種具有代表性的卷積網(wǎng)絡(luò)結(jié)構(gòu) AlexNet、VGGNet-13 以及ResNet-18，使用TensorFlow 深度學(xué)習(xí)框架搭建對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)，使用Top-1 和Top-5 正確率作為模型識(shí)別性能的評(píng)價(jià)指標(biāo)[21]。Top-1 正確率表示深度卷積模型輸出的預(yù)測(cè)向量中響應(yīng)最大的那個(gè)類(lèi)別就是測(cè)試圖像真實(shí)類(lèi)別的準(zhǔn)確率。Top-5 正確率則表示預(yù)測(cè)響應(yīng)最大的前5 個(gè)類(lèi)別中包含真實(shí)類(lèi)別的概率。所提深度模型中的懲罰系數(shù)根據(jù)3.1節(jié)中的結(jié)論進(jìn)行設(shè)置，基于SVM的深度模型與基于中心損失的深度模型中的相關(guān)參數(shù)參考文獻(xiàn)[10]和文獻(xiàn)[22]進(jìn)行設(shè)置。實(shí)驗(yàn)中的剩余參數(shù)采用與3.1 節(jié)中相同設(shè)置，包括設(shè)置最大迭代次數(shù)、梯度學(xué)習(xí)率以及Mini-batch 策略。

表1-2 示出了基于Softmax 的深度卷積模型、基于中心損失的深度卷積模型、基于SVM 的深度卷積模型以及半徑間隔界驅(qū)動(dòng)的深度卷積模型在5 個(gè)大規(guī)模數(shù)據(jù)集上的Top-1 識(shí)別率和Top-5 識(shí)別率。從實(shí)驗(yàn)結(jié)果可以看出，相比于另外3 種類(lèi)別的深度卷積模型，半徑間隔界驅(qū)動(dòng)的深度卷積在所有測(cè)試數(shù)據(jù)集的Top-1 以及Top-5 識(shí)別率上均取得了最好的表現(xiàn)，尤其在類(lèi)別最多且最復(fù)雜的CIFAR-100 數(shù)據(jù)集上表現(xiàn)出了最顯著的識(shí)別率，其中：與次優(yōu)的基于中心損失的深度卷積相比，半徑間隔界驅(qū)動(dòng)的CNN 模型在CIFAR-100 的Top-5正確率上對(duì)AlexNet 的增益為0.03%，對(duì)VGGNet-13的增益為0.63%以及對(duì)ResNet-18 的增益為1.28%；同時(shí)在Top-1 正確率上對(duì)AlexNet、VGGNet-13 以及ResNet-18 的增益分別為3.40%、2.90%以及3.66%。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提模型在識(shí)別率上的有效性。此外，觀察深度卷積模中的參數(shù)總量可知，所提模型能夠應(yīng)用于不同的網(wǎng)絡(luò)結(jié)構(gòu)中，并且不會(huì)額外增加網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度。

表1 各深度卷積模型的參數(shù)總量和在5 個(gè)所使用的數(shù)據(jù)集上的Top-5 識(shí)別率比較

表2 各深度卷積模型的參數(shù)總量和在5 個(gè)所使用的數(shù)據(jù)集上的Top-1 識(shí)別率比較

4 結(jié)束語(yǔ)

為了提高CNN 的圖像特征表達(dá)能力并增強(qiáng)其在識(shí)別應(yīng)用中的泛化性能，本文基于SVM 的泛化誤差理論，提出了一種半徑間隔界驅(qū)動(dòng)的CNN 模型。該模型采用基于SVM 泛化誤差界的準(zhǔn)則來(lái)指導(dǎo)CNN 深度模型學(xué)習(xí)和相應(yīng)分類(lèi)器構(gòu)建，其不僅考慮了大間隔原理，還進(jìn)一步考慮了包含所有訓(xùn)練樣本的MEB 的半徑對(duì)SVM 泛化能力的影響。在多個(gè)大規(guī)模數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，相對(duì)于傳統(tǒng)CNN 模型、基于SVM 的CNN 模型以及基于中心損失的CNN 模型，該模型夠提取到鑒別性更強(qiáng)的圖像特征，并且在圖像識(shí)別中具有更高的識(shí)別率。同時(shí)，該模型具有較強(qiáng)的泛化能力，能夠被應(yīng)用于不同的網(wǎng)絡(luò)結(jié)構(gòu)中，因此，下一步的研究方向是探索所提深度卷積模型在其他模式中的應(yīng)用，如目標(biāo)檢測(cè)、目標(biāo)追蹤以及行為識(shí)別等。