• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      半徑間隔界驅(qū)動(dòng)卷積神經(jīng)網(wǎng)絡(luò)模型的圖像識(shí)別

      2021-03-19 05:56:24王曉明杜亞軍黃增喜
      關(guān)鍵詞:識(shí)別率類(lèi)別間隔

      肖 遙,蔣 琦,王曉明,2*,杜亞軍,黃增喜

      (1.西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院,四川 成都 610039;2.西華大學(xué)機(jī)器人研究中心,四川 成都 610039)

      圖像識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向,其任務(wù)是識(shí)別給定的一張或多張圖像的類(lèi)別或?qū)傩?。圖像識(shí)別技術(shù)被廣泛應(yīng)用于自動(dòng)駕駛、視頻監(jiān)控以及智能醫(yī)療等領(lǐng)域。實(shí)際應(yīng)用中,圖像識(shí)別的主要挑戰(zhàn)在于如何提取具有強(qiáng)鑒別性的圖像特征。傳統(tǒng)的圖像識(shí)別算法針對(duì)不同模式的識(shí)別任務(wù)設(shè)計(jì)了多種類(lèi)型的特征[1?3]。然而,這些特征往往只針對(duì)某一特定的識(shí)別環(huán)境,無(wú)法完全適應(yīng)復(fù)雜環(huán)境。隨著計(jì)算機(jī)硬件的迅速發(fā)展及大規(guī)模數(shù)據(jù)集可用性的提高,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)在圖像識(shí)別領(lǐng)域受到越來(lái)越多研究者的關(guān)注。不同于傳統(tǒng)的識(shí)別算法,基于CNN 的圖像識(shí)別能夠自適應(yīng)的提取適合當(dāng)前識(shí)別模式的深度特征,具有更強(qiáng)的泛化性能及更高的識(shí)別率。為了進(jìn)一步增強(qiáng)深度模型的特征表達(dá)能力,研究者提出了許多不同的改進(jìn)方案。按照實(shí)現(xiàn)的方式,這些改進(jìn)可分為基于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)和基于能量函數(shù)的改進(jìn)?;诰W(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)旨在增加網(wǎng)絡(luò)的深度以提高深度模型的特征表達(dá)能力。文獻(xiàn)[4]提出了具有13~19 層網(wǎng)絡(luò)的VGG 深度卷積模型。文獻(xiàn)[5]提出的GoogLeNet 深度卷積模型將網(wǎng)絡(luò)層數(shù)提高到了22 層。文獻(xiàn)[6]將網(wǎng)絡(luò)模型進(jìn)一步提高到了110 層,并探索了高達(dá)1 102 層的網(wǎng)絡(luò)模型的有效性。增加網(wǎng)絡(luò)的深度能夠增強(qiáng)模型的特征表達(dá)能力,然而,這種策略是不可持續(xù)的。隨著網(wǎng)絡(luò)層數(shù)的增加,深度模型將變得更難收斂。此外,更深的網(wǎng)絡(luò)需要更多GPU/CPU 集群和復(fù)雜的分布式計(jì)算平臺(tái),以實(shí)現(xiàn)具有高計(jì)算復(fù)雜性的學(xué)習(xí),然而在當(dāng)前計(jì)算機(jī)硬件性能的限制下,這樣的策略不可避免地將會(huì)達(dá)到極限。

      不同于基于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),基于能量函數(shù)的改進(jìn)著手于采用不同的學(xué)習(xí)策略來(lái)指導(dǎo)深度模型的訓(xùn)練。傳統(tǒng)的CNN 模型中往往采用Softmax 能量函數(shù)指導(dǎo)模型的更新,但這種策略是間接和低效的[7]。針對(duì)這一不足,文獻(xiàn)[7]采用Triplet 能量函數(shù)代替Softmax,然而,該能量函數(shù)中錨樣本對(duì)的構(gòu)造與選擇是一個(gè)復(fù)雜且困難的過(guò)程,會(huì)導(dǎo)致模型的訓(xùn)練變得不穩(wěn)定。文獻(xiàn)[8]提出的中心損失能量函數(shù)在魯棒性和模型收斂速度上具有優(yōu)勢(shì),但其應(yīng)用必須依賴(lài)于Softmax 損失。文獻(xiàn)[9]在Softmax 中引入了Fisher 判別正則項(xiàng)與旋轉(zhuǎn)不變正則項(xiàng),增加了圖像特征的質(zhì)量與魯棒性,但過(guò)多的正則項(xiàng)約束使得深度模型的學(xué)習(xí)變得更加困難。

      不同于上述基于能量函數(shù)的改進(jìn),文獻(xiàn)[10]認(rèn)為支持向量機(jī)(support vector machine,SVM)能夠提供更出色的正則化效果,提出了一種基于SVM的CNN 模型。與傳統(tǒng)的CNN 模型相比,基于SVM 的CNN 最顯著的優(yōu)勢(shì)在于將大間隔原理引入到CNN 的學(xué)習(xí)策略中,迫使CNN 更多的關(guān)注異類(lèi)樣本特征間的分類(lèi)間隔,從而提取到具有更強(qiáng)鑒別性的樣本特征。然而,它忽略了一關(guān)鍵事實(shí):SVM 的泛化能力不僅取決于不同類(lèi)別樣本之間的間隔,還與特征空間中所有樣本的最小包含球(minimum enclosing ball,MEB)的半徑有關(guān)[11]。實(shí)際上,在一般的識(shí)別任務(wù)中,給定的樣本特征往往是不變的,MEB 的半徑是一個(gè)固定的常數(shù)。在CNN 模型中,訓(xùn)練樣本的特征會(huì)隨著網(wǎng)絡(luò)參數(shù)的更新而變化,MEB 的半徑也隨之發(fā)生改變?;赟VM 的CNN 模型中未考慮到這一變化,導(dǎo)致SVM 泛化能力不足,進(jìn)而限制了其對(duì)CNN 正則化效果的提高。

      針對(duì)上述不足,本文提出了一種半徑間隔界(radius margin bound,RMB)驅(qū)動(dòng)的CNN 模型。與傳統(tǒng)的CNN 相比,半徑間隔界驅(qū)動(dòng)的CNN 采用了更嚴(yán)格的學(xué)習(xí)策略,不僅考慮了不同類(lèi)別的樣本特征間的間隔,還進(jìn)一步考慮了不斷變化的MEB 的半徑對(duì)SVM 泛化能力的影響。本質(zhì)上,通過(guò)在學(xué)習(xí)策略中引入SVM 的泛化誤差界理論,本文模型中的CNN 能夠擴(kuò)大不同類(lèi)別的圖像特征間的分類(lèi)間隔,同時(shí)減小包含所有圖像特征的MEB 的半徑。換言之,迫使CNN 在增大類(lèi)間間隔的同時(shí)減小類(lèi)內(nèi)間隔,從而能夠提取到更高質(zhì)量的特征。此外,作為一種基于能量函數(shù)的改進(jìn)方案,本文模型能夠顯著提高深度卷積模型的泛化能力而不會(huì)額外增加網(wǎng)絡(luò)的復(fù)雜度,且不受限于某一特定的網(wǎng)絡(luò)結(jié)構(gòu),能夠應(yīng)用于不同的深度模型中。在多個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,半徑間隔界驅(qū)動(dòng)的CNN模型能夠提取到鑒別性更強(qiáng)的圖像特征,在識(shí)別應(yīng)用中表現(xiàn)出了更高的識(shí)別率。

      1 相關(guān)工作

      為了建立半徑間隔界驅(qū)動(dòng)的CNN 模型,本章首先闡述SVM 及其泛化誤差理論,然后介紹基于SVM 的CNN 模型。

      1.1 SVM 與泛化誤差

      SVM 是一種典型的基于大間隔的分類(lèi)算法,其目標(biāo)是在給定的特征空間中尋找一個(gè)最優(yōu)分類(lèi)超平面,使得特征空間中正負(fù)樣本間有最大的分類(lèi)間隔。對(duì)于一組線性可分的訓(xùn)練樣本{x1,···,xn},SVM 的優(yōu)化問(wèn)題可表示為:

      式中:yi∈{+1,?1}是對(duì)應(yīng)的訓(xùn)練樣本的標(biāo)簽;n表示訓(xùn)練樣本的個(gè)數(shù);||w||=1/γ為特征空間中正負(fù)樣本分類(lèi)間隔 γ的倒數(shù);b為對(duì)應(yīng)的偏置項(xiàng)。為了選擇有效的分類(lèi)參數(shù),使SVM 在數(shù)據(jù)集上取得更好的分類(lèi)表現(xiàn),VAPNIK 等[12]提出了留一法(leave-oneout,LOO)誤差估計(jì)用于評(píng)估SVM 的泛化性能。LOO 誤差被定義為

      式中a為MEB 的中心。由式(2)可知,SVM 泛化誤差上界不僅取決于正負(fù)樣本間的分類(lèi)間隔,還與特征空間中包含所有樣本的MEB 半徑有關(guān)。

      在一般分類(lèi)任務(wù)中,給定的訓(xùn)練樣本往往是線性不可分的,對(duì)于此類(lèi)情況,定義L2 范數(shù)SVM的優(yōu)化問(wèn)題為:

      式中:ξi為引入的松弛變量;λ為懲罰系數(shù)用于表示模型對(duì)分類(lèi)誤差的容忍度,當(dāng)λ=0時(shí)為線性可分的情況。實(shí)際上,根據(jù)文獻(xiàn)[13],L2 范數(shù)SVM 可以被轉(zhuǎn)換為一個(gè)等價(jià)的硬間隔SVM 問(wèn)題。

      1.2 基于SVM 的CNN 模型

      傳統(tǒng)的CNN 模型中往往采用Softmax 能量函數(shù)指導(dǎo)模型的學(xué)習(xí)。給定一組包含C個(gè)類(lèi)別的訓(xùn)練樣本,則Softmax 能量函數(shù)可表達(dá)為

      式中:zi=wT?(xi;ω)+b為模型中Softmax 層的預(yù)測(cè)輸出;w是模型中預(yù)測(cè)層的權(quán)重系數(shù);?(xi;ω)為模型提取到的樣本xi的圖像特征;ω表示網(wǎng)絡(luò)中的權(quán)重系數(shù);表示樣本zi中的第c個(gè)元素;yi是對(duì)應(yīng)樣本的標(biāo)簽向量;N表示樣本的個(gè)數(shù)。顯然,式(7)只考慮了模型的經(jīng)驗(yàn)風(fēng)險(xiǎn),其正則化效果有限。針對(duì)這一不足,文獻(xiàn)[10]提出了一種基于SVM 的CNN模型。該模型通過(guò)結(jié)合L2 范數(shù)的SVM,將大間隔原理引入到了CNN 模型中?;赟VM 的CNN定義了能量函數(shù),為

      式中:||w||2是分類(lèi)間隔項(xiàng),越小則表示不同類(lèi)別的圖像特征間的間隔越大;max(·)2表示二次方的合頁(yè)損失用于度量卷積深度模型的識(shí)別誤差,該項(xiàng)越小則表明模型的識(shí)別誤差越小。與式(7)相比,基于SVM 的CNN 模型額外考慮了不同類(lèi)別的樣本間的間隔,能夠提取高質(zhì)量的圖像特征。

      2 半徑間隔界驅(qū)動(dòng)卷積網(wǎng)絡(luò)的目標(biāo)識(shí)別

      本章的目的在于建立半徑間隔界驅(qū)動(dòng)的CNN模型,首先構(gòu)建二分類(lèi)模式下的模型,并進(jìn)一步推廣到多類(lèi)別的模式中;其次詳細(xì)說(shuō)明所提模型的訓(xùn)練策略;最后給出模型的識(shí)別方法。

      2.1 模型的構(gòu)建

      基于SVM 的CNN 模型通過(guò)結(jié)合L2 范數(shù)的SVM,將大間隔原理引入到了深度模型中。相比于傳統(tǒng)的基于Softmax 的CNN 模型,基于SVM 的CNN 在識(shí)別中表現(xiàn)出了更好的泛化能力。然而,其忽視了一個(gè)關(guān)鍵事實(shí):SVM 的泛化性能不僅取決于異類(lèi)樣本特征間的間隔,還與包含所有樣本特征的MEB 的半徑有關(guān)。實(shí)際上,在一般分類(lèi)任務(wù)中,確定了特征提取器后,訓(xùn)練樣本的特征就不再變化。包含所有樣本特征的MEB 的半徑隨之被固定為一個(gè)常數(shù)。由式(2)可知,此時(shí)SVM 的泛化誤差只取決于異類(lèi)樣本間的分類(lèi)間隔因此不必考慮MEB 的半徑。然而,在基于CNN 的深度模型中,作為特征提取器的CNN 會(huì)隨著權(quán)重系數(shù)的每一輪更新而改變,由所有樣本特征決定的MEB 的半徑在不斷變化。在這種情況下,如果仍忽略MEB 的半徑對(duì)SVM 泛化能力的影響,會(huì)導(dǎo)致分類(lèi)間隔只是簡(jiǎn)單的隨著的增大而增大,而無(wú)法對(duì)SVM 泛化性能的提升做出有效的貢獻(xiàn)。換言之,CNN 提取到的樣本特征雖然具有更大的類(lèi)間間隔,但其類(lèi)內(nèi)間隔也更大,顯然,這樣的特征并不能有效提高深度模型的識(shí)別能力。

      針對(duì)上述不足,基于SVM 的泛化誤差界理論,本文提出了一種半徑間隔界驅(qū)動(dòng)的CNN 模型。為了同時(shí)考慮不同類(lèi)別的圖像特征間的間隔和MEB 的半徑,所提模型中定義的能量函數(shù)為

      化簡(jiǎn)式(13),可得

      本質(zhì)上,這是一個(gè)簡(jiǎn)單的求圖像特征間最大距離的問(wèn)題,只需要遍歷圖像特征便可求得的值。顯然,相對(duì)于求解復(fù)雜的對(duì)偶優(yōu)化問(wèn)題,求解最大成對(duì)距離可以有效地減小模型的計(jì)算開(kāi)銷(xiāo)。采用替換式(9)中的,得到改進(jìn)后的能量函數(shù),為

      在實(shí)際應(yīng)用中,識(shí)別處理的圖像往往遠(yuǎn)大于2 個(gè)類(lèi)別。因此,本文將提出的深度模型擴(kuò)展到多類(lèi)別的模式。借鑒文獻(xiàn)[14]中一對(duì)多的策略,本文分別學(xué)習(xí)每個(gè)類(lèi)別間的分類(lèi)間隔的倒數(shù)及其對(duì)應(yīng)的最大成對(duì)距離。對(duì)于給定的一組包含C個(gè)類(lèi)別的訓(xùn)練樣本,令{y1,···,yn}表示對(duì)應(yīng)樣本的標(biāo)簽,yi∈{1,···,C}。由此擴(kuò)展能量函數(shù)(16)到多類(lèi)別的模式,為

      圖1 本文卷積深度模型的結(jié)構(gòu)

      2.2 模型的更新

      本節(jié)將介紹半徑間隔界驅(qū)動(dòng)的CNN 模型中各個(gè)參數(shù)的更新,包括卷積網(wǎng)絡(luò)中的權(quán)重系數(shù) ω、分類(lèi)器參數(shù)以及最大成對(duì)距離。更新過(guò)程采用交替優(yōu)化的策略,將深度模型分為3 個(gè)部分進(jìn)行更新:固定 ω與更新固定ω 與,更新固定與更新 ω。

      2.2.1 更新最大成對(duì)距離

      式(21)是一個(gè)尋找樣本間最大間隔的問(wèn)題,簡(jiǎn)單地遍歷圖像特征就可求得該問(wèn)題的解。求得{i?,j?}后,通過(guò)計(jì)算式(22)便可得到Dˉ的值。

      其中si=?(xi,ω)。該無(wú)約束問(wèn)題是關(guān)于wc和bc可導(dǎo)的[13],因此,可通過(guò)梯度下降法對(duì)其進(jìn)行求解。為了便于表述,將問(wèn)題式(23)改寫(xiě)為

      得到梯度后,通過(guò)梯度下降法便可求得wc與bc在卷積深度模型中的局部最優(yōu)解。

      2.2.3 更新權(quán)重系數(shù)ω

      其中?si/?ω表示反向傳播,可由深度學(xué)習(xí)框架如TensorFlow 以及Caffe 等提供的自動(dòng)微分技術(shù)進(jìn)行計(jì)算。最后,能量函數(shù)關(guān)于權(quán)重系數(shù) ω的梯度為

      利用式(33),在反向傳播的過(guò)程中,通過(guò)梯度下降法即可實(shí)現(xiàn)對(duì)卷積網(wǎng)絡(luò)中各權(quán)重系數(shù)的更新。

      圖2 示出了本文提出的深度模型的更新過(guò)程。其中步驟(a)表示更新分類(lèi)器參數(shù)以及最大成對(duì)距離,步驟(b)表示更新卷積網(wǎng)絡(luò)中權(quán)重系數(shù) ω。

      圖2 本文提出的深度模型的更新過(guò)程

      綜合所提模型的更新步驟,概括半徑間隔界驅(qū)動(dòng)的CNN 模型的學(xué)習(xí)過(guò)程如下。

      輸入:訓(xùn)練樣本X∈Rm×n,訓(xùn)練樣本的標(biāo)簽Y∈Rn,設(shè)置懲罰系數(shù)λ,學(xué)習(xí)率 σ以及最大迭代次數(shù)T。

      步驟3:通過(guò)式(26)與式(27)更新分類(lèi)器參數(shù)wc與bc。

      步驟4:通過(guò)式(20)計(jì)算能量函數(shù)的值。判斷,若能量函數(shù)停止收斂或迭代次數(shù)t>T,則終止迭代,否則繼續(xù)進(jìn)行步驟5。

      步驟5:通過(guò)式(33)更新權(quán)重系數(shù) ω。返回步驟1)繼續(xù)迭代。

      2.3 識(shí)別方法

      3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      為了綜合評(píng)價(jià)本文提出的半徑間隔界驅(qū)動(dòng)的CNN 模型,本章首先分析了不同的懲罰系數(shù)λ對(duì)所提模型性能的影響,然后通過(guò)可視化的方式將所提模型提取的圖像特征與傳統(tǒng)CNN 及基于SVM 的CNN 提取的圖像特征進(jìn)行比較,最后基于3 種具有代表性的深度卷積網(wǎng)絡(luò)結(jié)構(gòu),在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了仿真實(shí)驗(yàn),以驗(yàn)證所提模型在識(shí)別率上的有效性。本文中所有的實(shí)驗(yàn)都在Nvidia TITAN X(Pascal) GPU 以及Intel(R) Xeon(R) W-2125 CPU環(huán) 境中進(jìn)行。

      3.1 懲罰系數(shù)對(duì)模型性能的影響

      半徑間隔界驅(qū)動(dòng)的CNN 模型中,懲罰系數(shù)λ被用于度量模型對(duì)誤差的容忍度。為了調(diào)查其對(duì)模型性能的影響,本節(jié)基于ResNet-18 網(wǎng)絡(luò)結(jié)構(gòu)[5]在數(shù)據(jù)集CIFAR-10[15]上對(duì)多個(gè)不同的 λ進(jìn)行仿真實(shí)驗(yàn)。CIFAR-10 數(shù)據(jù)集包含了10 個(gè)類(lèi)別的真實(shí)圖像,由5 萬(wàn)張訓(xùn)練圖像以及1 萬(wàn)張測(cè)試圖像組成,每個(gè)圖像均為32×32 大小的RGB 彩色圖。實(shí)驗(yàn)中設(shè)置懲罰系數(shù)λ ∈{0.001,0.01,0.1,1,10,100},采用Mini-batch 策略,設(shè)置每次迭代中使用250 張訓(xùn)練圖像,規(guī)定最大迭代次數(shù)t=2 000。為了使模型盡可能的收斂,采用梯度學(xué)習(xí)率策略,具體設(shè)置為:若迭代次數(shù)t<500,則學(xué)習(xí)率σ=10?3;若500 ≤t<1 500,則σ=10?4;若1 500 ≤t<2 000,則σ=10?5。圖3 示出了在不同懲罰系數(shù)λ下能量函數(shù)值的收斂曲線、識(shí)別率的增長(zhǎng)曲線。圖4 示出了模型在CIFAR-10 數(shù)據(jù)集上取得的最大識(shí)別準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果中可以看出:在λ=0.01 時(shí)能量函數(shù)的收斂速度最快,模型取得了最高的識(shí)別率;隨著懲罰系數(shù)λ的增大,能量函數(shù)的收斂速度變慢,對(duì)應(yīng)的識(shí)別率的增長(zhǎng)明顯變緩,模型也難以取得較高的識(shí)別準(zhǔn)確率。分析其原因,過(guò)大的懲罰系數(shù)使得深度卷積模型過(guò)多的關(guān)注被錯(cuò)誤識(shí)別的樣本,迫使模型擬合更復(fù)雜的網(wǎng)絡(luò)參數(shù)以盡可能多地修正被錯(cuò)分的訓(xùn)練樣本,這增加了模型的優(yōu)化難度,同時(shí)導(dǎo)致模型出現(xiàn)過(guò)擬合。根據(jù)實(shí)驗(yàn)結(jié)果,設(shè)定本文實(shí)驗(yàn)中的懲罰系數(shù)λ=0.01。

      圖3 不同的懲罰系數(shù)對(duì)模型的收斂和識(shí)別率的影響

      圖4 不同懲罰系數(shù)下模型的最大識(shí)別率

      3.2 圖像特征可視化分析

      為了驗(yàn)證半徑間隔界驅(qū)動(dòng)的CNN 模型能夠提取到鑒別性更強(qiáng)的圖像特征,本節(jié)在CIFAR-10 數(shù)據(jù)集上通過(guò)可視化的方式將所提模型提取的圖像特征與基于中心損失、基于Softmax 以及基于SVM 的深度卷積模型提取的圖像特征進(jìn)行比較。其中,比較的圖像特征提取于CIFAR-10 數(shù)據(jù)集中全部的測(cè)試樣本。同時(shí),為了調(diào)查本文提出的模型在不同網(wǎng)絡(luò)結(jié)構(gòu)中的泛化能力,實(shí)驗(yàn)中采用AlexNet[16]、VGGNet-13[4]以及ResNet-18[5]3 種具有代表性的網(wǎng)絡(luò)結(jié)構(gòu)。由于深度模型提取的特征為高維的圖像特征,實(shí)驗(yàn)先通過(guò)TSNE 降維算法[17],將圖像特征的維度降到二維后再進(jìn)行可視化比較。

      圖5 示出AlexNet、VGGNet-13 以及ResNet-18在3 種損失函數(shù)驅(qū)動(dòng)下提取到的圖像特征的可視化結(jié)果。其中:xxx-Center 表示基于中心損失的深度卷積模型;xxx-Softmax 表示基于Softmax 的深度卷積模型;xxx-SVM 表示基于SVM 的深度卷積模型;xxx-RMB 表示半徑間隔界驅(qū)動(dòng)的深度卷積模型。

      圖5 各卷積深度模型提取的圖像特征的可視化比較

      從實(shí)驗(yàn)結(jié)果可以看出:與另外3 種深度模型相比,半徑間隔界驅(qū)動(dòng)的深度卷積模型能夠有效分隔不同類(lèi)別的樣本,得到線性可分的圖像特征,從而提取到更高質(zhì)量的圖像特征;基于Softmax 的深度卷積模型難以分隔不同類(lèi)別的圖像特征,并且提取的同類(lèi)樣本特征的分布較為分散;基于SVM 的深度卷積模型能夠提供較大的類(lèi)間間隔,對(duì)不同類(lèi)別的樣本的分隔能力相對(duì)較差,使得圖像特征間線性不可分;基于中心損失的深度卷積模型能夠聚合同類(lèi)圖像特征,減小了類(lèi)內(nèi)間隔,但其難以分隔不同類(lèi)別的圖像特征。綜上,半徑間隔界驅(qū)動(dòng)的深度模型在圖像特征表達(dá)上是非常有效的。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證本文所提出的深度卷積模型在識(shí)別率上的有效性,本節(jié)在5 個(gè)大規(guī)模數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn)。使用的數(shù)據(jù)集包括2 個(gè)數(shù)字識(shí)別數(shù)據(jù)集MINIST[18]和SVHN[19]、1 個(gè)表情識(shí)別數(shù)據(jù)集FER2013[20],以及2 個(gè)相對(duì)復(fù)雜的真實(shí)圖像數(shù)據(jù)集CIFAR-10[15]和CIFAR-100[15]。其中:MINIST 與SVHN 都是由0-9 這10 個(gè)類(lèi)別的數(shù)字圖像組成,MINIST 為簡(jiǎn)單的手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集,包含的圖像是28×28 尺寸的灰度圖,SVHN 是相對(duì)復(fù)雜的街景數(shù)字?jǐn)?shù)據(jù)集,由尺寸為32×32 的RGB 彩色圖組成;FER2013 由7 個(gè)類(lèi)別的表情圖像組成,每個(gè)圖像都是48×48 的灰度圖;CIFAR-10 和CIFAR-100 由相同的從真實(shí)世界收集的圖像構(gòu)成,這些圖像均為32×32 的RGB 彩色圖,CIFAR-10 將其分為了10 個(gè)類(lèi)別,CIFAR-100 進(jìn)一步將這些圖像細(xì)分成了100 個(gè)不同的類(lèi)別。為了規(guī)范數(shù)據(jù)集中的圖像,使用時(shí),本文首先將MINIST 和FER2013 中的圖像尺寸縮放到32×32 大小,然后對(duì)所有數(shù)據(jù)集中的圖像做歸一化處理。實(shí)驗(yàn)中,采用3 種具有代表性的卷積網(wǎng)絡(luò)結(jié)構(gòu) AlexNet、VGGNet-13 以及ResNet-18,使用TensorFlow 深度學(xué)習(xí)框架搭建對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu),使用Top-1 和Top-5 正確率作為模型識(shí)別性能的評(píng)價(jià)指標(biāo)[21]。Top-1 正確率表示深度卷積模型輸出的預(yù)測(cè)向量中響應(yīng)最大的那個(gè)類(lèi)別就是測(cè)試圖像真實(shí)類(lèi)別的準(zhǔn)確率。Top-5 正確率則表示預(yù)測(cè)響應(yīng)最大的前5 個(gè)類(lèi)別中包含真實(shí)類(lèi)別的概率。所提深度模型中的懲罰系數(shù)根據(jù)3.1節(jié)中的結(jié)論進(jìn)行設(shè)置,基于SVM的深度模型與基于中心損失的深度模型中的相關(guān)參數(shù)參考文獻(xiàn)[10]和文獻(xiàn)[22]進(jìn)行設(shè)置。實(shí)驗(yàn)中的剩余參數(shù)采用與3.1 節(jié)中相同設(shè)置,包括設(shè)置最大迭代次數(shù)、梯度學(xué)習(xí)率以及Mini-batch 策略。

      表1-2 示出了基于Softmax 的深度卷積模型、基于中心損失的深度卷積模型、基于SVM 的深度卷積模型以及半徑間隔界驅(qū)動(dòng)的深度卷積模型在5 個(gè)大規(guī)模數(shù)據(jù)集上的Top-1 識(shí)別率和Top-5 識(shí)別率。從實(shí)驗(yàn)結(jié)果可以看出,相比于另外3 種類(lèi)別的深度卷積模型,半徑間隔界驅(qū)動(dòng)的深度卷積在所有測(cè)試數(shù)據(jù)集的Top-1 以及Top-5 識(shí)別率上均取得了最好的表現(xiàn),尤其在類(lèi)別最多且最復(fù)雜的CIFAR-100 數(shù)據(jù)集上表現(xiàn)出了最顯著的識(shí)別率,其中:與次優(yōu)的基于中心損失的深度卷積相比,半徑間隔界驅(qū)動(dòng)的CNN 模型在CIFAR-100 的Top-5正確率上對(duì)AlexNet 的增益為0.03%,對(duì)VGGNet-13的增益為0.63%以及對(duì)ResNet-18 的增益為1.28%;同時(shí)在Top-1 正確率上對(duì)AlexNet、VGGNet-13 以及ResNet-18 的增益分別為3.40%、2.90%以及3.66%。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提模型在識(shí)別率上的有效性。此外,觀察深度卷積模中的參數(shù)總量可知,所提模型能夠應(yīng)用于不同的網(wǎng)絡(luò)結(jié)構(gòu)中,并且不會(huì)額外增加網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度。

      表1 各深度卷積模型的參數(shù)總量和在5 個(gè)所使用的數(shù)據(jù)集上的Top-5 識(shí)別率比較

      表2 各深度卷積模型的參數(shù)總量和在5 個(gè)所使用的數(shù)據(jù)集上的Top-1 識(shí)別率比較

      4 結(jié)束語(yǔ)

      為了提高CNN 的圖像特征表達(dá)能力并增強(qiáng)其在識(shí)別應(yīng)用中的泛化性能,本文基于SVM 的泛化誤差理論,提出了一種半徑間隔界驅(qū)動(dòng)的CNN 模型。該模型采用基于SVM 泛化誤差界的準(zhǔn)則來(lái)指導(dǎo)CNN 深度模型學(xué)習(xí)和相應(yīng)分類(lèi)器構(gòu)建,其不僅考慮了大間隔原理,還進(jìn)一步考慮了包含所有訓(xùn)練樣本的MEB 的半徑對(duì)SVM 泛化能力的影響。在多個(gè)大規(guī)模數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)CNN 模型、基于SVM 的CNN 模型以及基于中心損失的CNN 模型,該模型夠提取到鑒別性更強(qiáng)的圖像特征,并且在圖像識(shí)別中具有更高的識(shí)別率。同時(shí),該模型具有較強(qiáng)的泛化能力,能夠被應(yīng)用于不同的網(wǎng)絡(luò)結(jié)構(gòu)中,因此,下一步的研究方向是探索所提深度卷積模型在其他模式中的應(yīng)用,如目標(biāo)檢測(cè)、目標(biāo)追蹤以及行為識(shí)別等。

      猜你喜歡
      識(shí)別率類(lèi)別間隔
      間隔問(wèn)題
      基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      間隔之謎
      提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
      高速公路機(jī)電日常維護(hù)中車(chē)牌識(shí)別率分析系統(tǒng)的應(yīng)用
      服務(wù)類(lèi)別
      上樓梯的學(xué)問(wèn)
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
      明光市| 闽清县| 南阳市| 紫云| 特克斯县| 青岛市| 印江| 芦山县| 方城县| 宁强县| 宝山区| 合阳县| 扬州市| 防城港市| 凤山市| 永和县| 乐清市| 永川市| 周至县| 健康| 扬中市| 高唐县| 北海市| 华宁县| 富平县| 卢湾区| 全南县| 东安县| 南漳县| 仙桃市| 常宁市| 咸宁市| 东兰县| 遂溪县| 余干县| 苏州市| 黑山县| 霍城县| 田林县| 潜山县| 沙河市|