• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于信息修正的深度殘差學(xué)習(xí)

    2020-06-23 05:45:42謝煙平譚曉陽(yáng)
    數(shù)據(jù)采集與處理 2020年3期
    關(guān)鍵詞:解碼殘差卷積

    謝煙平,譚曉陽(yáng)

    (1. 南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京,211106;2. 模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,南京,211106;3.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京,211106)

    引 言

    在當(dāng)今的計(jì)算機(jī)視覺任務(wù)中,比如圖像分類[1-2]、目標(biāo)檢測(cè)[3-4]和圖像分割[5],深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已經(jīng)取得了一系列重大突破。這些成功主要?dú)w功于卷積神經(jīng)網(wǎng)絡(luò)可以在ImageNet[6]和MSCOCO[7]等大規(guī)模圖像數(shù)據(jù)集上監(jiān)督訓(xùn)練后泛化到其他各種任務(wù)中去。卷積核通過(guò)端到端的訓(xùn)練,會(huì)在高層產(chǎn)生輸入圖像的分布式表示[8],不同的特征圖激活不同的圖像區(qū)域。但是這會(huì)帶來(lái)分類精度的問(wèn)題,如圖1 所示(第1 行分別是輸入圖片、原模型輸出的各個(gè)通道的平均激活和基于本文提出的方法輸出的平均激活,第2 行是隨機(jī)采樣得到的特定通道的特征圖,數(shù)字代表通道號(hào)),對(duì)于1 張測(cè)試圖像而言,一些不相關(guān)的背景也會(huì)有高的激活值(第2 行),會(huì)損害卷積神經(jīng)網(wǎng)絡(luò)的分類精度。

    圖1 卷積神經(jīng)網(wǎng)絡(luò)中輸入圖像的分布式表示Fig.1 Distributed representation of input image in conrolutional neural networks

    深度殘差網(wǎng)絡(luò)(Residual network,ResNet)[2]引進(jìn)恒等映射來(lái)提高訓(xùn)練效率并且使得更多特征能夠被重復(fù)利用。最近試圖提高殘差網(wǎng)絡(luò)性能的方法可以分為兩類:(1)通過(guò)注意力機(jī)制選擇特征[9];(2)通過(guò)通道維度上的重新加權(quán)來(lái)進(jìn)行通道選擇[10]。這些工作主要都是側(cè)重于改善殘差函數(shù)的表示能力,而對(duì)于殘差網(wǎng)絡(luò)至關(guān)重要的恒等映射卻沒有人去提高改善。

    本文提出了一種簡(jiǎn)單的卷積式編碼-解碼模塊(Encoder-decoder,ED)來(lái)改善深度殘差網(wǎng)絡(luò)中的恒等映射。首先,恒等映射的作用是傳遞信息,它的輸入合并了來(lái)自先前層的所有卷積響應(yīng),當(dāng)然包括那些噪聲響應(yīng),所以改善恒等映射是非常必要的;其次,由于編碼-解碼結(jié)構(gòu)可以有效提取關(guān)鍵信息,通過(guò)純粹的無(wú)監(jiān)督學(xué)習(xí)能很好地恢復(fù)輸入數(shù)據(jù)的結(jié)構(gòu)[11],那么就可以通過(guò)監(jiān)督訓(xùn)練的方式從冗余和噪聲信息中提取更多具有判別力的特征。本文在恒等映射的基礎(chǔ)上并行增加了編碼-解碼模塊來(lái)提高信息傳遞的質(zhì)量。此模塊能產(chǎn)生激活比較集中的特征圖,這些激活往往突出了最具有判別力的地方而抑制了背景區(qū)域。通過(guò)元素級(jí)相加和激活后,恒等映射的輸入(被傳遞的特征)被這些編碼-解碼模塊產(chǎn)生的打分圖(特征圖)所修正。不僅如此,通過(guò)減少殘差模塊的通道數(shù)來(lái)降低整個(gè)模型的計(jì)算復(fù)雜度,但是裝備了本文提出的信息修正模塊的輕量級(jí)殘差網(wǎng)絡(luò)卻沒有明顯的精度損失,甚至有些還比原來(lái)沒有減通道數(shù)的殘差網(wǎng)絡(luò)高。本文將這個(gè)簡(jiǎn)單的即插即用模塊集成到了一系列現(xiàn)在流行的性能最好的殘差網(wǎng)絡(luò)結(jié)構(gòu)中,包括ResNet[2],ResNeXt[12]以及它們的擠壓與激勵(lì)模塊(Sequeeze-and-excitation,SE)[10]版本。本文在ImageNet[6]和CIFAR[13]數(shù)據(jù)集上進(jìn)行了圖像分類實(shí)驗(yàn),在MS-COCO[7]數(shù)據(jù)集上進(jìn)行了目標(biāo)檢測(cè)任務(wù)。利用這個(gè)輕量的編碼-解碼模塊,在各個(gè)任務(wù)上獲得了性能的一致性提高。不僅如此,裝備了信息過(guò)濾模塊的輕量級(jí)ResNet-50 比原來(lái)的ResNet-50 少了近一半的每秒浮點(diǎn)運(yùn)算次數(shù)(Floating-point operations per second,F(xiàn)LOPs),但是仍然在精度上優(yōu)于原模型。

    1 研究現(xiàn)狀

    自2012 年以來(lái),神經(jīng)網(wǎng)絡(luò)的發(fā)展得到了飛速提高,殘差網(wǎng)絡(luò)(ResNet)[2]的出現(xiàn)使得跨層連接被普遍使用,本節(jié)將先介紹跨層連接,然后介紹編碼-解碼架構(gòu),最后介紹分組式卷積操作。(1)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的跨層連接來(lái)提高網(wǎng)絡(luò)的性能已經(jīng)有一段很長(zhǎng)的發(fā)展歷史,其旨在解決梯彌散和爆炸問(wèn)題,并且使得信息能夠在網(wǎng)絡(luò)中直接流動(dòng)。高速公路網(wǎng)絡(luò)[14]首次使用跨層連接方式來(lái)簡(jiǎn)化深層網(wǎng)絡(luò)的訓(xùn)練,但是其門控機(jī)制帶來(lái)了非常多的額外參數(shù),導(dǎo)致了優(yōu)化難度的上升。殘差網(wǎng)絡(luò)簡(jiǎn)化了高速公路網(wǎng)絡(luò)的門控機(jī)制,直接使用恒等映射作為跨層連接,極大地簡(jiǎn)化了優(yōu)化,從而很好地解決了更深層的網(wǎng)絡(luò)退化問(wèn)題。(2)編碼-解碼架構(gòu)已經(jīng)被廣泛用于數(shù)據(jù)降維[15]、無(wú)監(jiān)督特征學(xué)習(xí)[16]和語(yǔ)義分割[17-18]中。在無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域,編碼-解碼架構(gòu)已經(jīng)能從原始輸入中提取信息(甚至是噪聲輸入[11])。例如,受限玻爾茲曼機(jī)(Restricted Boltzmann machine,RBM)可以恢復(fù)輸入數(shù)據(jù)的結(jié)構(gòu)[15];卷積編碼器提取的特征在高級(jí)識(shí)別任務(wù)中比手工特征更加具有判別力[16]。最近,卷積編碼-解碼架構(gòu)適用于解決語(yǔ)義分割任務(wù)[17-18],堆疊的沙漏網(wǎng)絡(luò)(Hourglass networks)[19]已經(jīng)在姿態(tài)估計(jì)領(lǐng)域表現(xiàn)驚人。(3)分組式卷積首次被使用是在AlexNet[1]上,卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)中廣泛采用了組卷積,比如追求高精度的Inception 系列[20-21]和ResNeXt[12]等大型網(wǎng)絡(luò),還有追求高效率的Xception[22],MobileNet[23]和ShuffleNet[24]等適合在計(jì)算能力非常有限的移動(dòng)設(shè)備上部署的小型網(wǎng)絡(luò)。

    2 本文方法

    文中所用符號(hào)說(shuō)明如下:F(·)為特征映射函數(shù),x為輸入的卷積特征;H(·)為特征修正函數(shù);A(·)為激勵(lì)函數(shù);ED(·)為編-解碼函數(shù)。

    2.1 動(dòng)機(jī)、關(guān)鍵因素和選擇

    在殘差網(wǎng)絡(luò)中,關(guān)鍵的映射方式被定義為“F(x) +x”[2],現(xiàn)在存在的對(duì)殘差網(wǎng)絡(luò)的改進(jìn)都是集中在殘差映射F(x)上面,比如使用多分支的ResNeXt[12],使用注意力機(jī)制的殘差注意力網(wǎng)絡(luò)(Residual attention networks)[9],使用通道重加權(quán)的SE-ResNet[10]等。區(qū)別于之前的方法,本文專注于“如何重新定義恒等映射”來(lái)提升ResNet 的分類性能。在ResNet 中,跨層連接被簡(jiǎn)單地定義為恒等映射,這樣會(huì)將前層產(chǎn)生的噪聲響應(yīng)也傳到后層,甚至整個(gè)網(wǎng)絡(luò)。因此改造恒等映射“+x”也是一種提高網(wǎng)絡(luò)性能的方式,這樣的一種改造方式能夠加強(qiáng)輸入信號(hào)中富有判別力區(qū)域的響應(yīng),同時(shí)抑制不相關(guān)區(qū)域,它會(huì)有利于提高分類能力。

    一個(gè)非常自然的方式是利用一個(gè)卷積編碼-解碼模塊去修正跨層連接的輸入x,將重新定義的跨層連接映射記為H(x)。選擇編碼-解碼架構(gòu)的原因在于其兩個(gè)性質(zhì):一方面可以從純粹的無(wú)監(jiān)督學(xué)習(xí)方式中分離有用信息[15-16];另外一方面,在標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)中可以根據(jù)不同的任務(wù)提取具備相應(yīng)特性的強(qiáng)大語(yǔ)義信息(例如語(yǔ)義分割)[17-18]。

    把卷積編碼-解碼模塊作為恒等映射的并行連接,如圖2(a)所示,因此最后的映射表示為

    重新定義的跨層連接不會(huì)像高速公路網(wǎng)絡(luò)一樣帶來(lái)非常多的額外參數(shù),導(dǎo)致深層網(wǎng)絡(luò)難以訓(xùn)練的后果。

    圖2 基于信息修正的卷積模塊及其激活圖Fig.2 Convolutional block with encoder-decoder architecture and activation maps

    2.2 卷積編碼-解碼連接

    編碼-解碼(ED)連接可以被集成到任意的殘差網(wǎng)絡(luò)中,比如ResNet,ResNeXt 等。最后為了計(jì)算高效,本文又實(shí)現(xiàn)了它們的輕量版本。

    (1)對(duì)ResNet和ResNeXt的集成非常方便,把集成的模型稱為“ED-ResNet”和“ED-ResNeXt”。將ED的卷積操作進(jìn)行了分組(共32組),同時(shí)使用重構(gòu)損失來(lái)指導(dǎo)ED 模塊的訓(xùn)練,圖3給出了實(shí)現(xiàn)細(xì)節(jié)示意圖。

    (2)輕量級(jí)版本的實(shí)現(xiàn)是為了比較的公平性。在原始的網(wǎng)絡(luò)上增加ED 模塊會(huì)引起計(jì)算量的少量增加,相應(yīng)減少了殘差模塊分支的通道數(shù)以保持計(jì)算量的相等,從而證明ED 模塊能夠提高網(wǎng)絡(luò)的分類能力。

    圖3 組成ED-ResNet 和ED-ResNeXt 的卷積模塊Fig.3 Convolutional block of ED-ResNet and ED-ResNeXt

    2.3 可視化和分析

    編碼-解碼模塊輸出擁有集中激活的特征圖,這些特征圖保持了輸入中正確激活的響應(yīng),同時(shí)抑制了錯(cuò)誤激活的響應(yīng)。圖2(b)中給出了輸入特征圖、殘差映射特征圖、ED 模塊特征圖以及它們的組合在原始輸入圖片上的響應(yīng)。輸入特征x有著非常多的激活點(diǎn),這些激活點(diǎn)包含了很多無(wú)關(guān)的背景區(qū)域,但是ED 模塊提取信息后,通過(guò)元素級(jí)別的相加與非線性映射,原始輸入被ED 的輸出特征圖修正。

    3 實(shí)驗(yàn)與分析

    在ImageNet 數(shù)據(jù)集上,參照了大家公認(rèn)的AlexNet[1]和ResNet[2]的實(shí)驗(yàn)設(shè)定。圖片被裁剪到224 邊長(zhǎng),每張圖片都做1 次標(biāo)準(zhǔn)的歸一化后被隨機(jī)的水平翻轉(zhuǎn)作為輸入。選擇使用隨機(jī)梯度下降(Stochastic gradient descent,SGD)作為優(yōu)化器,Momentum 設(shè)置成0.9,Weight decay 設(shè)置成0.000 1,Batch size 設(shè)置成256,并且利用8 塊GPU 訓(xùn)練網(wǎng)絡(luò),初始化學(xué)習(xí)率是0.1,每次經(jīng)過(guò)30 輪訓(xùn)練后將學(xué)習(xí)率除以10,一共進(jìn)行100 輪訓(xùn)練。在每次卷積后,利用了Batch normalization[25]來(lái)進(jìn)行歸一化,緊接著是ReLU[26]層。編碼器由簡(jiǎn)單的3 邊長(zhǎng)卷積層構(gòu)成,步長(zhǎng)設(shè)定為2 來(lái)進(jìn)行降維,編碼器由3 邊長(zhǎng)的反卷積組成,步長(zhǎng)也設(shè)定為2,重構(gòu)損失使用MSE。

    在CIFAR數(shù)據(jù)集上進(jìn)行了分析實(shí)驗(yàn)。訓(xùn)練時(shí)每張圖片外面補(bǔ)充4排0,使得圖片尺寸變?yōu)?6,然后隨機(jī)裁剪到32邊長(zhǎng),測(cè)試時(shí)保持原圖片不變。這些設(shè)定都是參考了目前大家公認(rèn)的設(shè)定(ResNet[2]),所有的模型都訓(xùn)練300輪,初始化學(xué)習(xí)率為0.1,在第150輪和第225輪將學(xué)習(xí)率除以10,Batch size設(shè)定為128。本節(jié)給出了在ImageNet數(shù)據(jù)集上的圖像分類實(shí)驗(yàn)、在CIFAR上的分析實(shí)驗(yàn)和在MS-COCO上的目標(biāo)檢測(cè)實(shí)驗(yàn)。

    3.1 ImageNet 上的對(duì)比實(shí)驗(yàn)

    在ImageNet 上進(jìn)行了3 個(gè)系列的實(shí)驗(yàn)來(lái)證明本文提出的ED 模塊的有效性。為了記號(hào)的簡(jiǎn)單,把裝備了ED 模塊的網(wǎng)絡(luò)記為ED-Net,為了保證公平性,所有的實(shí)驗(yàn)都將復(fù)現(xiàn)。

    (1) 與原模型的對(duì)比實(shí)驗(yàn)。ResNet 和ResNeXt 是當(dāng)今最流行且有效的兩個(gè)殘差網(wǎng)絡(luò)的代表,將它們作為本文的對(duì)比實(shí)驗(yàn)。如表1 所示,本文的ED 模塊能夠幫助其進(jìn)一步提高精度。

    表1 原模型與ED 版本對(duì)比Table 1 Comparison between baseline and ED-Nets %

    (2) 與SE-Net 的對(duì)比實(shí)驗(yàn)。Squeeze-and-Excitation 模塊(SE)[10]獲得了最后一屆ImageNet 大規(guī)模圖像分類大賽的冠軍。本文比較了裝備ED 模塊的SE-Net 與原始網(wǎng)絡(luò)的性能,表2 的結(jié)果顯示本文的ED模塊得到了一致性的精度提升。

    (3) 輕量級(jí)版本模型的實(shí)驗(yàn)。因?yàn)楸疚牡腅D 模塊輕微增加了模型的計(jì)算復(fù)雜度,所以為了公平比較,通過(guò)減少殘差分支的通道數(shù)實(shí)現(xiàn)了輕量級(jí)模型的比較,以此來(lái)證明ED 模塊的精度提升能力。對(duì)于ED-ResNet-50,本文依次減少了其4,8,16 和32 個(gè)殘差分支的通道數(shù),把它記為ED-ResNet-50-A;為了進(jìn)一步探索其模型壓縮能力,本文直接減少了殘差分支一半的通道數(shù),把它記為ED-ResNet-50-B。對(duì)于ED-ResNeXt-50,本文依次減少了其20,40,80 和160 個(gè)殘差分支的通道數(shù),同時(shí)配合相應(yīng)的分組,將它記為ED-ResNeXt-50-A;本文又進(jìn)一步減少了殘差分支一半的通道數(shù),將其記為EDResNeXt-50-B。實(shí)驗(yàn)結(jié)果如表3 所示,結(jié)果表明ED 有助于降低模型的計(jì)算復(fù)雜度,且可能在模型壓縮領(lǐng)域得到利用。

    表2 SE 版本與ED 版本對(duì)比Table 2 Comparison between SE-Nets and ED-Nets %

    表3 基于計(jì)算量的公平性比較Table 3 Apple-to-apple comparison

    3.2 CIFAR 上的分析實(shí)驗(yàn)

    在CIFAR 上進(jìn)行了分析實(shí)驗(yàn),從兩個(gè)方面證明了ED 模塊的有效性。(1) 卷積編碼-解碼模塊與2個(gè)卷積層的對(duì)比是為了進(jìn)一步證明ED 模塊對(duì)模型精度提升的有效性,2 個(gè)卷積層指把ED 模塊的編碼器和解碼器都用普通的3 邊長(zhǎng)卷積層替換。表4 的結(jié)果表明ED 模塊一致優(yōu)于2 個(gè)卷積層。不僅如此,在ResNeXt 的實(shí)驗(yàn)中,發(fā)現(xiàn)2 個(gè)卷積層不僅不能帶來(lái)精度提升,還會(huì)損害原模型的判別能力,但是本文的ED 模塊仍然可能幫助模型提高精度。(2) 為了探索組卷積帶來(lái)的影響進(jìn)一步進(jìn)行了實(shí)驗(yàn)研究。表5的結(jié)果表明,組卷積只會(huì)帶來(lái)性能的降低,當(dāng)計(jì)算資源有限時(shí),建議使用卷積分組。

    表4 CIFAR 上的雙卷積版本與ED 版本錯(cuò)誤率對(duì)比Table 4 Comparison between two-convolution and ED-Nets on CIFAR %

    表5 卷積分組對(duì)性能和計(jì)算效率的權(quán)衡Table 5 Trade-off between accuracy and complexity with and without grouped convolutions

    3.3 MS-COCO 上的目標(biāo)檢測(cè)實(shí)驗(yàn)

    為了評(píng)估ED 模塊的泛化能力,本文還在MS-COCO 的目標(biāo)檢測(cè)任務(wù)上進(jìn)行了實(shí)驗(yàn),本文使用官方給定的8 萬(wàn)張圖片訓(xùn)練,4 萬(wàn)張圖片測(cè)試。本文使用的算法是Faster R-CNN[4],將基礎(chǔ)模型ResNet 改成ED-ResNet 后,表6 的結(jié)果表明本文的ED 模塊能夠很好地泛化到目標(biāo)檢測(cè)任務(wù)中。

    表6 用Faster R-CNN 在MS-COCO 上的目標(biāo)檢測(cè)實(shí)驗(yàn)Table 6 Object detection on MS-COCO using faster R-CNN %

    4 結(jié)束語(yǔ)

    本文提出了一種新穎的、簡(jiǎn)單又有效的方法來(lái)處理深度殘差學(xué)習(xí)中的恒等映射問(wèn)題。盡管恒等映射是當(dāng)前殘差學(xué)習(xí)成功的關(guān)鍵因素,它使得反向傳播的梯度信息能夠在非常深的網(wǎng)絡(luò)中流動(dòng),但是它也可以看做一種信息聚合,將底層就產(chǎn)生的噪聲信息進(jìn)行傳遞,使之充滿整個(gè)網(wǎng)絡(luò)。這些噪聲信息會(huì)嚴(yán)重干擾最后的分類結(jié)果,本文提出的ED 模塊表現(xiàn)出了優(yōu)秀的信息選擇能力,而且?guī)?lái)的計(jì)算復(fù)雜度非常小。輕量級(jí)版本的結(jié)果表明本文的ED 模塊可能在模型壓縮領(lǐng)域得到運(yùn)用。在當(dāng)下流行的大型圖像數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,本文方法始終有利于提升殘差網(wǎng)絡(luò)的性能,有效降低噪聲信號(hào)的傳輸并提高其高級(jí)語(yǔ)義表示能力。

    猜你喜歡
    解碼殘差卷積
    《解碼萬(wàn)噸站》
    基于雙向GRU與殘差擬合的車輛跟馳建模
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
    解碼eUCP2.0
    基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    NAD C368解碼/放大器一體機(jī)
    Quad(國(guó)都)Vena解碼/放大器一體機(jī)
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    克拉玛依市| 莱阳市| 南澳县| 哈巴河县| 乐安县| 漳浦县| 明星| 永顺县| 阿拉善盟| 盖州市| 鹤峰县| 平远县| 万山特区| 拉孜县| 庄浪县| 海林市| 泸定县| 丘北县| 玉屏| 平武县| 水富县| 寻乌县| 千阳县| 壶关县| 深圳市| 温泉县| 荆门市| 方城县| 理塘县| 昔阳县| 澜沧| 通城县| 怀集县| 浪卡子县| 晋江市| 西吉县| 洛南县| 沐川县| 古蔺县| 浦县| 济南市|