• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學習的圖像大數(shù)據(jù)分類研究

    2022-02-19 09:37:34韓志濤
    關鍵詞:殘差注意力卷積

    ■韓志濤

    (山西科技學院能源工程學院,山西 太原 030499)

    一、引言

    隨著人工智能與大數(shù)據(jù)的高速發(fā)展,圖像分類任務作為大數(shù)據(jù)處理中的一個基本任務,受到了學者們的廣泛關注。圖像分類是通過算法找出一副圖片的所屬類別,計算機不同于人類的大腦,它無法顯式地判斷給定圖片的類別。這就要求算法具有提取圖像中隱含信息,即特征的能力,在特征提取之后,算法通過判斷特征與已有數(shù)據(jù)的標簽類別的相似程度,將圖像進行分類,這種技術廣泛應用于人臉識別、自動駕駛、點云數(shù)據(jù)識別等領域。然而傳統(tǒng)的圖像分類技術只能提取簡單的圖像特征,如顏色、位置、形狀等,這是由于即使是一張維數(shù)很小的圖片,其特征數(shù)也會達到百萬級別,傳統(tǒng)的圖像分類算法無法同時識別數(shù)據(jù)量如此巨大的特征數(shù),并且對其進行分類。

    人工神經網(wǎng)絡(artificial neural networks,ANN)的出現(xiàn)解決了這一難題[1],最基本的人工神經網(wǎng)絡包括輸入層、隱藏層和輸出層,如圖1所示,人工神經網(wǎng)路通過模擬人體神經元的工作模式,在算法層面實現(xiàn)一種自適應性的學習模式,使得模型具有學習數(shù)據(jù)中隱含知識的能力。在人工神經網(wǎng)絡的基礎上,陸續(xù)提出了前饋神經網(wǎng)絡、卷積神經網(wǎng)絡、遞歸神經網(wǎng)絡、生成對抗網(wǎng)絡等。為了進一步提升圖像分類的性能,2012年,Krizhevsky等[2]提出了AlexNet網(wǎng)絡。該網(wǎng)絡作為深度學習的代表,在卷積神經網(wǎng)絡的基礎上,用多個小卷積層的疊加替換了單個的大卷積層,獲得了非常好的圖像分類能力。

    圖1 人工神經網(wǎng)絡

    深度學習通過加深神經網(wǎng)絡的層數(shù)來獲得更好的模型泛化性能,然而在模型性能提升的同時,深度網(wǎng)絡還會造成過梯度消失、梯度爆炸、過擬合等問題,這使得在模型訓練時在加深網(wǎng)絡層數(shù)的同時,還應該設計更加合理的深度網(wǎng)絡結構,因此基于殘差模塊的深度網(wǎng)絡應運而生[3]。在深度網(wǎng)絡中引入殘差模塊,可以在保證梯度穩(wěn)定的條件下,網(wǎng)絡模型訓練精度不發(fā)生退化。在此基礎上,基于注意力機制的深度網(wǎng)絡可以進一步地提升模型的訓練精度。接下來,本文將具體回顧經典的深度神經網(wǎng)絡、基于殘差模塊的深度神經網(wǎng)絡和基于注意力機制的深度網(wǎng)絡近年來的相關工作,并且對比三者的模型測試精度。值得注意的是,由于用于圖像分類的深度網(wǎng)絡研究具有極其豐富的內容,本文難以涵蓋所有的工作,因此取其特例進行介紹,旨在讓學者們更快地掌握圖像分類深度網(wǎng)絡的研究歷史、典型例證和未來研究趨勢,為基于深度網(wǎng)絡的圖像分類任務研究提供一定的參考。

    二、深度網(wǎng)絡模型

    (一)經典的深度網(wǎng)絡模型

    深度神經網(wǎng)絡是在卷積神經網(wǎng)絡的基礎上發(fā)展而來的,Le Cun等[4-5]于1998年最早提出了卷積神經網(wǎng)絡LeNet模型,該網(wǎng)絡包括3個卷積層、2個池化層和2個全連接層,如圖2所示。

    圖2 LeNet網(wǎng)絡結構

    在此基礎上,AlexNet網(wǎng)絡更加細化了深度網(wǎng)絡的特點。其使用ReLu函數(shù)作為激活函數(shù),ReLU函數(shù)可以選擇性地或分布式地激活神經元,學習相對稀疏的特征并實現(xiàn)自動分離;并且引入了Dropout,神經元可以按照一定的概率從網(wǎng)絡中丟棄,以減少網(wǎng)絡模型參數(shù),防止過度擬合。此外,該網(wǎng)絡還提出了重疊最大池化,讓池化步長小于池內核的邊緣,提升了特征空間的信息量,如圖3所示。

    圖3 AlexNet網(wǎng)絡結構

    AlexNet網(wǎng)絡雖然取得了不錯的圖像分類效果,但是其卷積核的尺寸較大,所以網(wǎng)絡參數(shù)量相較而言更多。因此,VGGNet網(wǎng)絡被提出,VGGNet具有6種結構,其中VGGNet-16/19是目前較為流行的深度網(wǎng)絡架構。VGGNet網(wǎng)絡通過將尺寸較大的卷積核更改為3×3的卷積核,并且進行堆疊,加深網(wǎng)絡深度,當深度堆疊到16層/19層時,實驗表明模型測試效果有了大幅度的提升,這也從側面驗證了深度學習的魯棒性。VGGNet網(wǎng)絡如圖4所示。

    圖4 VGG-16 Net網(wǎng)絡結構

    此外,Szegedy等[6]提出了GoogLeNet網(wǎng)絡,該網(wǎng)絡受到VGGNet的啟發(fā),巧妙地提出了Inception模塊,該模塊可以進一步拓寬模型的寬度和深度。本文以LeNet模型為例,分別介紹卷積層、池化層和全連接層的結構。

    1.卷積層

    卷積層的目的是提取圖像特征,一般通過一個正方形的卷積核對輸入圖像的每一個通道內像素點進行遍歷,其中像素點對應卷積核的位置表示為該點的權重,在進行卷積操作時,卷積核與對應位置像素點相乘,然后對得到的結果求和,視為一次卷積操作。一次遍歷輸入圖像中的所有像素點,達到提取特征的目的。LeNet網(wǎng)絡在卷積層之后加入下采樣層,之后再進行卷積層操作,這種方法可以通過設定參數(shù)調整我們想要學習得到特征的大小,已經初步具有了深度網(wǎng)絡的雛形。

    2.池化層

    池化層與卷積層類似,在池化層中,通過池化窗口對特性進行降采樣處理。池化操作可以給特征施加一個強先驗知識,使得模型更多地關注于特征本身信息而非特征的位置,進行池化操作的網(wǎng)絡模型可以允許圖像特征存在微小位移擾動。同時池化層降采樣的操作本質上是一種降維操作,其具有一定稀疏性,因此還具有一定的去噪能力。

    3.全連接層

    全連接層一般位于整個網(wǎng)絡的最后,其作用是將前面經過卷積層和池化層后的特征空間整合到一起。由于卷積和池化操作后得到的特征是不同的,對同一圖像,其提取的特征空間信息也可能包括許多方面,而通過全連接操作后,可以將這些特征整合到一個樣本空間中,可以有效提高模型的泛化能力,也可以保證分類結果不受特征位置的影響。

    (二)基于殘差模塊的深度網(wǎng)絡模型

    深度學習雖然在圖像分類任務上取得了較大的成功,然而隨著網(wǎng)絡層數(shù)的增加,梯度消失問題也會隨之而來。當網(wǎng)絡在不斷的訓練過程中,神經元的權重由于計算得到的梯度越來越小而得不到有效更新,導致模型過早收斂,針對這一問題,設置激活函數(shù)和dropout可以有效解決。但是當傳統(tǒng)的深度網(wǎng)絡的層數(shù)加深時,模型會發(fā)生退化,也就是說模型的測試精度會發(fā)生下降。He等[7]提出了深度殘差神經網(wǎng)絡ResNet,傳統(tǒng)的深度網(wǎng)絡通常先進行卷積操作,然后進行池化操作,然后不斷堆疊卷積和池化模塊來構成網(wǎng)絡;而ResNet的主要創(chuàng)新之處在其在數(shù)據(jù)輸入和輸出之前添加了一條捷徑,如圖5所示。

    圖5 殘差模塊

    當在輸入和輸出之間添加了捷徑之后,輸入節(jié)點與輸出節(jié)點之前有了直接進行信息交換的能力,這在一定程度上可以緩解梯度消失的問題;在卷積神經網(wǎng)絡中,數(shù)據(jù)經過卷積層之后的原始映射為H(x),而在殘差網(wǎng)絡中,數(shù)據(jù)經過殘差模塊的殘差映射為F(x),其中F(x)=H(x)-x,x為原始數(shù)據(jù)的觀測值。通過這種方式,深度網(wǎng)絡學習用更簡單的殘差映射來獲得輸出值。由于殘差網(wǎng)絡的輸出為F(x)+x,顯而易見地,在對輸出求偏導更新權重層時不會發(fā)生梯度消失的現(xiàn)象。

    在此基礎上,殘差網(wǎng)絡的一些變體被提出。Li等人[8]提出了一種可調快捷連接改進的ResNet,該網(wǎng)絡在CIFAR-100數(shù)據(jù)集上比ResNet的測試精度高出了3.66%,且沒有增加網(wǎng)絡的計算量;Qin等[9]在ResNet的基礎上,提出了RT-ResNet和RS-ResNet兩種方法,其中RT-ResNet是一種基于統(tǒng)一時間步長的多步方法,RS-ResNet是一種使用可變時間步長的自適應多步方法;Shen等[10]提出了加權殘差網(wǎng)絡,通過更新權重來有效組合來自不同層的殘差,實驗表明該方法使得網(wǎng)絡深度在100層增加到1000層時,模型的精度和收斂性能可以持續(xù)改進;Han等人[11]提出了新穎的殘差結構,類似于金子塔結構。該網(wǎng)絡逐漸提高特征圖尺寸,將深層特征和淺層特征相融合,以涉及更多可能的特征位置。此外,Ahmed等人[12]將ResNet-FPN中的特征金字塔網(wǎng)絡替換為一組卷積層,提出了一種新的網(wǎng)絡架構用于學習被篡改區(qū)域的判別偽影;Zhang等人[13]提出了多級殘差卷積神經網(wǎng)絡,其將殘差網(wǎng)絡中的殘差塊進行分組,并且在每組中添加二級連接,按照這種結構,再對殘差塊進行二次分組,然后繼續(xù)添加躍層連接;Zagoruyko等人[14]提出了寬度dropout塊,可以通過增加網(wǎng)絡寬度來增加殘差網(wǎng)絡的深度;Xie等人[15]提出了ResNcxt網(wǎng)絡,該網(wǎng)絡提出了一個同質的多分支架構,通過重復構建塊來聚合一組具有相同拓撲的轉換。

    在深度網(wǎng)絡中加入殘差模塊從網(wǎng)絡結構上提高了模型得泛化能力,解決了深度模型梯度消失的問題,也可以在一定程度上緩解深度學習參數(shù)量過大的問題,是現(xiàn)階段應用較為廣泛的深度學習策略。殘差網(wǎng)絡的各種變體形式也有效地提高的網(wǎng)絡的訓練模型精度。

    (三)基于注意力機制的深度網(wǎng)絡模型

    近年來,注意力機制在深度網(wǎng)絡中的應用越來越廣泛,顧名思義,注意力機制的作用就是可以使神經網(wǎng)絡更多地關注于特定的重要特征,忽略一些不重要的特征,通過這種方式可以利用有限的注意力資源從大量的信息中提取出對學習任務有用的信息,可以大大提高圖像分類任務的處理效率與精度。

    在ResNet作為主干網(wǎng)絡的深度學習分類任務中,雖然可以有效緩解梯度消失的問題,但是其在圖像分類任務上表現(xiàn)不佳。由此,Wang等[16]提出了基于注意力機制的深度殘差網(wǎng)絡,其中的殘差網(wǎng)絡是通過堆疊注意力模塊來形成的,這些模塊生成注意感知特征,如圖6所示,其中p,q,r是待調節(jié)的超參數(shù)。值得注意的是,網(wǎng)絡中不同模塊將捕獲不同的注意力信息,實驗結果也表明,這種混合注意力機制比單一的注意力機制往往表現(xiàn)更好。另外,作者還創(chuàng)新地將自上而下的注意力機制編碼為一種分布式的架構,整體呈現(xiàn)為自下而上的前饋神經網(wǎng)絡結構,而在每個模塊中表現(xiàn)為自上而下的形式。

    圖6 注意力模塊

    Zhang等[17]提出了一種多分支結構來改進卷積神經網(wǎng)絡中的表示學習,利用分割注意力模塊將多個通道的注意力整合到一起,用來提升圖像分類任務的性能。另外,作者基于分割注意力模塊,提出了一種殘差網(wǎng)絡的變體ResNeSt,該網(wǎng)絡用分割注意力模塊替代殘差塊,經過實驗驗證,ResNeSt在精度和時延上都優(yōu)于傳統(tǒng)模型。Choi等[18]提出了一種基于細粒度的注意力機制,在訓練中每個標量都有其對應的一個上下文向量,上下文向量的每個維度都將獲得單獨的注意力評分。Li等人[19]提出了一種具有跨級群歸一化和擠壓激勵運算的信道注意機制,三種類型的注意力統(tǒng)一起來構建混合注意力機制,實驗指出混合注意力機制可以顯著提高模型精度。Wang等[20]提出了基于深度學習的多尺度特征融合和注意力機制網(wǎng)絡,將金字塔模塊和信道注意力機制有效集成。其中通道注意機制獲取不同感受場的特征圖,將每個特征圖分為兩組,并使用不同的卷積來獲得權重。Hu等[21]同樣針對通道之間的相互依賴性,提出了擠壓激勵模塊,通過顯式建模通道之間的相互依賴性,自適應地重新校準通道特征響應。此外,全局二階池GSoP表現(xiàn)出了較好的性能,Gao等[22]將GSoP從較低層引入到較高層,以便在整個網(wǎng)絡中從空間維度和通道維度利用整體圖像信息。

    在深度網(wǎng)絡中不考慮模型退化時,一般而言網(wǎng)絡深度越深,其模型參數(shù)量越大,該模型對特征的表達能力就會更強。然而大量的參數(shù)也可能導致過擬合現(xiàn)象,加入注意力機制的深度網(wǎng)絡可以有效緩解這一問題。注意力機制會關注于當前輸入數(shù)據(jù)的重要特征,提高任務處理的效率,在圖像分類任務中這一機制表現(xiàn)出了顯著的效果。

    三、實驗對比

    本小節(jié)中,我們通過對比AlexNet、ResNet和殘差注意力網(wǎng)絡三種典型網(wǎng)絡在圖像分類中的精度,進一步了解三種類型的深度網(wǎng)絡之間的關系與區(qū)別。實驗指標為Top-5錯誤率,分別在圖像數(shù)據(jù)集ImageNet和CIFAR-10上進行,附表1展示了三種深度網(wǎng)絡的實驗結果,從附表1中可以看出,ResNet的參數(shù)量是最少的,殘差注意力網(wǎng)絡并沒有降低深度網(wǎng)絡的參數(shù)量;在ImageNet數(shù)據(jù)集上,ResNet的錯誤率明顯低于AlexNet的錯誤率,從側面驗證了殘差模塊的效率;在CIFAR-10數(shù)據(jù)集上,殘差注意力網(wǎng)絡的錯誤比ResNet降低了約5.8%,注意力機制在深度網(wǎng)絡中扮演了重要的角色。

    附表1 三種類型深度網(wǎng)絡結果對比

    圖7所示為錯誤率結果直方圖,直觀地反映了三個網(wǎng)絡的錯誤率對比情況。由圖7中可以看出,在兩個數(shù)據(jù)集上,經典的深度網(wǎng)絡AlexNet錯誤率最高。在ImageNet數(shù)據(jù)集上ResNet錯誤率改善明顯,在CIFAR-10數(shù)據(jù)集上殘差注意力機制相較于AlexNet,錯誤率降低不明顯,但也有一定程度的提高。

    圖7 Top-5錯誤率結果直方圖

    四、總結與未來展望

    深度學習作為圖像分類工作的重要方法,是目前大數(shù)據(jù)計算視覺中的一個熱門領域。從由仿生人神經系統(tǒng)設計的人工神經網(wǎng)絡開始,學者們一直致力于對圖像特征全方位的提取和學習,本文回顧了深度神經網(wǎng)絡的發(fā)展歷史的三個重要階段,經典深度神經網(wǎng)絡、殘差神經網(wǎng)絡、注意力殘差神經網(wǎng)絡三種類型,總結和討論了深度網(wǎng)絡用于圖像分類的優(yōu)缺點,在此基礎上,提出下一步更深入的研究方向。

    (1)圖像分類作為最基本的計算視覺識別任務,現(xiàn)有的方法已經在許多公開數(shù)據(jù)集上取得了很高的精確度。然而,針對核磁共振圖像、高光譜圖像、雷達圖像等等特殊數(shù)據(jù)集上的精度還有待提高,需要設計特定的深度網(wǎng)絡結構來進行圖像分類。

    (2)輕量化的深度網(wǎng)絡問題亟待解決。深度網(wǎng)絡由于其龐大的參數(shù)量和較長的訓練時間,使其在移動設備上的應用很難實現(xiàn),需要對深度網(wǎng)絡進行壓縮,研究輕量化網(wǎng)絡,使其更易于在移動邊緣節(jié)點上部署。

    (3)在實際問題中,數(shù)據(jù)往往是沒有標簽的。如何利用無標簽數(shù)據(jù)進行半監(jiān)督學習和無監(jiān)督學習,也是未來研究的熱點問題。

    猜你喜歡
    殘差注意力卷積
    基于雙向GRU與殘差擬合的車輛跟馳建模
    讓注意力“飛”回來
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    基于殘差學習的自適應無人機目標跟蹤算法
    基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
    自動化學報(2019年6期)2019-07-23 01:18:32
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標跟蹤算法
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    平穩(wěn)自相關過程的殘差累積和控制圖
    河南科技(2015年8期)2015-03-11 16:23:52
    额敏县| 石渠县| 泗阳县| 隆昌县| 金门县| 石嘴山市| 五原县| 石阡县| 延寿县| 玉山县| 闽侯县| 那坡县| 东港市| 丹棱县| 沈阳市| 浠水县| 桑日县| 都兰县| 舒兰市| 桃园市| 射洪县| 栖霞市| 兴隆县| 榕江县| 稻城县| 通州市| 泊头市| 东山县| 益阳市| 错那县| 汤原县| 盐池县| 金乡县| 景东| 武安市| 新泰市| 哈尔滨市| 肥东县| 南江县| 台湾省| 密山市|