• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多視圖和注意力推薦網(wǎng)絡的三維物體識別方法

      2023-01-09 01:01:58張滿囤權子洋師子奇
      鄭州大學學報(理學版) 2023年1期
      關鍵詞:池化視圖分類器

      張滿囤,權子洋,師子奇,劉 川,申 沖,吳 清,田 琪

      (河北工業(yè)大學 人工智能與數(shù)據(jù)科學學院 天津 300130)

      0 引言

      三維物體識別是計算機視覺和圖像學的基本問題,具有廣闊的應用前景。近幾年大數(shù)據(jù)和深度學習算法發(fā)展快速,越來越多的科學研究者開始采用深度卷積神經(jīng)網(wǎng)絡自動獲取三維特征進行物體分類識別研究[1-3]。根據(jù)輸入形式,上述方法可以分為基于多視圖的方法、基于點云的方法[4]和基于體素的方法[5]。基于多視圖的方法從三維物體的一組二維投影視圖中學習特征描述符,通過二維神經(jīng)網(wǎng)絡進行分類識別?;邳c云的方法采用三維空間坐標下的無序點作為輸入,通過三維神經(jīng)網(wǎng)絡進行分類。基于體素的方法是對三維物體進行體素化處理,應用于更復雜的網(wǎng)絡提取特征進行分類。本文針對物體在多角度的二維視圖信息來進行分類識別研究,即基于多視圖的物體識別方法。

      基于多視圖的三維物體識別過程的主要環(huán)節(jié)一般有三個:視圖預處理、特征提取和分類識別,其中的特征提取是物體識別的關鍵,受到國內外學術界的廣泛關注。Su等[6]首次提出并行的多視圖卷積神經(jīng)網(wǎng)絡(multi-view convolutional neural networks,MVCNN),通過并行的CNN1來提取基于多個視圖的特征,然后這些信息在視圖池化層被匯集起來,并通過CNN2獲得一個緊湊的物體特征描述符。Fu等[7]提出一個包含注意力推薦網(wǎng)絡(attention-proposal-network,APN)的模型,對物體圖像中關鍵區(qū)域定位再放大輸入到下一層網(wǎng)絡中,在三個細粒度識別分類任務中取得了最佳效果。

      在本文中,提出一個基于MVCNN的改進算法模型,旨在提升算法的識別精度,減少識別運行時間。主要貢獻如下:1) 在卷積層引入APN注意力模塊,實現(xiàn)定位、聚焦關鍵特征區(qū)域;2) 在提取特征時的池化操作中使用最大池化和平均池化,避免只取最大值時忽略其他關鍵信息;3) 在某些情況下,物體圖像會存在光強變化、遮擋等問題,使用SRC分類器代替softmax分類器,可有效提高物體識別的抗干擾性。

      1 相關工作

      近年來,卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)被廣泛用于三維物體識別任務中。在基于點云結構的物體識別任務上,Charles等[8]針對三維點云數(shù)據(jù)提出網(wǎng)絡名為PointNet的結構,該網(wǎng)絡的輸入數(shù)據(jù)為一系列無序的點云數(shù)據(jù),通過對稱性的函數(shù)實現(xiàn)網(wǎng)絡最大池化操作,之后通過優(yōu)化函數(shù)學習,進行相應識別操作,平均的識別精確度約為86.2%。但是,PointNet沒有利用點云的局部結構來捕獲全局特征。KC-Net[9]是一種克服PointNet局限性的網(wǎng)絡,提出了用于提取相鄰點之間局部特征的最近鄰圖和在圖結構上的最大池化層。邊緣條件卷積網(wǎng)絡(ECC)[10]是為了圖結構數(shù)據(jù)而設計的,使用圖結構構建點云并應用卷積網(wǎng)絡處理圖形結構化數(shù)據(jù)?;隗w素的算法和基于點云的算法具有相似的處理流程,其中非結構化和不確定的有序點云在初始階段被轉換成一系列規(guī)則的體素,3D ShapeNets[11]在ModelNet上的準確率約為84%。基于3DshapeNets,VoxNet[12]采用的是點云數(shù)據(jù),但是將點云數(shù)據(jù)轉換為體素格式,輸入卷積神經(jīng)網(wǎng)絡中處理。Sedaghat等[13]通過使用面向對象的概念改進了VoxNet的架構,修改后的體系結構的名稱是ORION,不僅預測對象的類標簽,還對物體的方向進行了評估,該網(wǎng)絡在訓練期間也學習對象的方向信息,在測試時可以獲得更好的分類結果。

      基于多視圖的物體識別任務中,除MVCNN[6]模型外,F(xiàn)eng等[14]設計了一個組視圖卷積神經(jīng)網(wǎng)絡(group-view CNN,GVCNN)框架,用于分層關聯(lián)建模,以實現(xiàn)對三維形狀的區(qū)分描述。Gao等[15]設計了用于三維物體識別的成對多組視圖的網(wǎng)絡(pairwise multi-view CNN,PMV-CNN),將自動特征提取和目標識別結合在一個統(tǒng)一的CNN體系結構中。通過利用每個視圖的元素最大化操作挖掘高響應值特征映射,提高兩個對象的對比度,因此提取的特征非常適合三維物體識別,其性能遠遠優(yōu)于手工特征。Jiang等[16]設計了一種分層多環(huán)視圖神經(jīng)網(wǎng)絡框架(multi-loop-view CNN,MLVCNN),并對來自長短期記憶中所有隱藏層的輸出應用最大池,以獲得回路級描述符。雖然最大池操作可以輕松融合多視圖特征,但它會導致視覺信息的丟失。Sun等[17]設計一種使用重排和仿射變換轉換特征,自適應地選擇特征的動態(tài)路由網(wǎng)絡(dynamic routing CNN,DRCNN),經(jīng)過重排、仿射變換、改進的動態(tài)路由算法和合并操作形成表示三維物體的新特征。

      2 網(wǎng)絡框架

      本文以深度學習算法Att-MVCNN(attention multi-view CNN,Att-MVCNN)為物體特征提取的基本方法,提出的基于Att-MVCNN的三維物體識別流程圖如圖1所示。

      整個三維物體識別的過程包括兩部分,分別是神經(jīng)網(wǎng)絡學習和待測樣本識別,使用前期訓練好的卷積神經(jīng)網(wǎng)絡進行物體特征提取,然后利用基于I2范數(shù)的稀疏分類。主要步驟如下:1) 利用訓練好的神經(jīng)網(wǎng)絡提取訓練數(shù)據(jù)集x的物體視圖特征,構建特征空間的訓練集字典D;2) 使用卷積神經(jīng)網(wǎng)絡提取測試數(shù)據(jù)集y的深度學習特征Y;3) 使用SRC算法對Y用D稀疏表示,求解稀疏系數(shù)a;4) 計算最小殘差,進行殘差分類,最終輸出分類結果。

      圖1 本文算法框圖Figure 1 The proposed algorithm

      2.1 注意力推薦網(wǎng)絡(APN)

      基于區(qū)域注意的APN[18-19],計算思想是給定一個輸入圖像A,首先通過將圖像輸入預先訓練的卷積層來提取基于區(qū)域的深層特征,記為Wc*A,表示卷積、池化和激活的一組操作,Wc表示整體參數(shù)。將網(wǎng)絡在每個尺度上建模為具有兩個輸出的多任務公式。第一個任務被設計為在細粒度類別上生成概率分布p,

      p(A)=f(Wc*A),

      其中:f(·)表示全連接層,將卷積特征映射到可以與類別項匹配的特征向量,并包含softmax層,將特征向量進一步轉換為概率。第二個任務是為下一個更精細的尺度預測一個參與區(qū)域的一組框坐標。將參與區(qū)域近似為一個有三個參數(shù)的正方形,表示為

      [tx,ty,tl]=g(Wc*A),

      其中:tx、ty分別表示x軸和y軸下的正方形s中心坐標;tl表示正方形s邊長的一半;g(·)的具體形式可以表示為兩層堆疊的全連通層,有三種輸出,即參與區(qū)域的參數(shù)。

      為了保證該算法在訓練中得到優(yōu)化,采用一種二維boxcar函數(shù)的變體作為注意力掩膜來近似裁剪操作,該掩膜可以選擇傳播方向上最顯著的區(qū)域,將受關注區(qū)域的左上角(tl)和右下角(br)的點參數(shù)化,

      基于上述表示,裁剪操作可以通過粗尺度的原始圖像和注意掩膜之間的元素相乘來實現(xiàn)。

      Xatt=X*M(tx,ty,tl),

      其中:*表示元素間乘法;M(·)表示注意力掩膜;Xatt表示剪裁區(qū)域。

      2.2 卷積神經(jīng)網(wǎng)絡

      本文的卷積神經(jīng)網(wǎng)絡框架主要包括特征提取部分、視圖池化部分、特征融合部分和分類輸出部分。在本網(wǎng)絡模型中輸入層的數(shù)據(jù)是經(jīng)過歸一化預處理大小為224×224的圖像。本文卷積神經(jīng)網(wǎng)絡結構如圖2所示,圖2(a)為多視圖輸入的網(wǎng)絡大框架,圖2(b)為單一視圖CNN卷積內部的具體網(wǎng)絡圖。算法的具體流程是:在卷積層中,所有神經(jīng)元共享同一卷積核信息,第一個網(wǎng)絡五層卷積后的輸出作為APN模塊的輸入,APN模塊的輸出作為下一層的輸入,兩個相同卷積的輸出經(jīng)過特征融合層和全連接層處理后的特征圖被賦予不同的權值,將具有不同權值的特征兩兩連接,將經(jīng)過并行CNN網(wǎng)絡提取的多個視圖特征在視圖池化層聚集成一個緊湊的特征描述符,經(jīng)過最終的特征融合層、全連接層處理,用SRC分類器實現(xiàn)物體的識別。

      圖2 網(wǎng)絡框圖Figure 2 The network diagram

      特征提取部分使用一組并行的卷積神經(jīng)網(wǎng)絡,考慮算法在保持較高識別準確率的前提下也要有盡可能快的執(zhí)行速度,通過對不同規(guī)格的網(wǎng)絡結構實驗對比,使用VGG作為該部分的基網(wǎng)絡,并進行改進。圖3(a)為第一層卷積效果圖,(b)為第五層卷積后效果圖。

      圖3 基于VGG網(wǎng)絡模型卷積過后的特征圖Figure 3 Feature map after convolution based on VGG network model

      視圖池化部分均采用了最大池化和平均池化相結合的方式,通過池化操作可以降低特征圖尺寸、減少網(wǎng)絡運算復雜度和數(shù)據(jù)維度,加快網(wǎng)絡學習速度。最大池化具有平移不變性,可以提取物體圖像局部特征信息,之后再組合成全局信息,但是在某特征細節(jié)的處理上會丟失有用的特征信息。平均池化往往會對物體視圖的每個特征賦予相同的權重,這樣會使信息量少的視圖覆蓋信息量多的視圖,因此將最大池化和平均池化結合,既可以保留物體輪廓特征的完整性,又可以更精確地處理特征細節(jié),更加準確地提取物體特征信息。本文所采用的均值+最大池化的公式定義為

      其中:Vm表示輸入圖像所對應特征圖在池化窗口中的特征值;m為該特征點在池化窗口中的位置。池化就是把vm轉變?yōu)橄鄳慕y(tǒng)計數(shù)值。

      特征融合部分位于卷積池化層和全連接層之間,得到多張視圖的全局和局部特征后,通過特征融合層更好地融合兩部分信息。初步提取的物體特征經(jīng)過處理形成特征向量,通過線性激活函數(shù)(ReLU)對其賦予不同的權重,再由一個全連接層整合,最終送入分類器。具體的計算公式為

      f(x)=max(0,Relu(x))。

      2.3 SRC分類器

      分類識別部分采用SRC分類器[20-24]。SRC的工作過程是:設三維物體識別系統(tǒng)中有k類訓練數(shù)據(jù),每一類中有nk個數(shù)據(jù)樣本,每個訓練樣本特征d都使用m維的列向量表示,則第k類的訓練數(shù)據(jù)用矩陣形式表示為

      Dk=[dk,1,dk,2,…,dk,nk]∈Rm×nk,

      其中:dk,nk表示為第k類訓練數(shù)據(jù)中的第nk個樣本特征。屬于同一類的測試數(shù)據(jù)特征用同類訓練數(shù)據(jù)的特征線性組合,記為Y=[D1,D2,…,Dk]=[d1,1,d1,2,…,dk,1,…,dk,nk],即Y=Da,a為稀疏系數(shù)。求解最優(yōu)的稀疏系數(shù)

      對于第k類物體圖像樣本,定義相對應類別的稀疏系數(shù)δk(a),其中a只保留對應的第k類的系數(shù),其余類別系數(shù)全置為0,計算測試樣本與各類的訓練數(shù)據(jù)樣本線性加權差值ri(Y),找到使ri(Y)最小時對應的類i,從而得出測試樣本的類別識別結果,

      minri(Y)=‖Y-Dδk(a)‖2。

      3 實驗部分

      3.1 實驗平臺

      本文進行的實驗采用Windows10的64位操作系統(tǒng),使用Python3.6、MATLAB R2014a集成開發(fā)環(huán)境完成程序的開發(fā)與運行,并且配置Opencv2.4.13環(huán)境。實驗所用主機的內存為8.0 GB,CPU處理器為i5-3230雙核處理器,主頻為3.2 GHz,另外為更高效地處理物體視圖數(shù)據(jù),使用顯存為4 G的NVIDIA GTX1050的顯卡。深度學習框架使用Pytorch。

      3.2 實驗數(shù)據(jù)集

      本文實驗使用的是三維物體識別領域的ETH數(shù)據(jù)集和ModelNet10數(shù)據(jù)集,其中ETH數(shù)據(jù)集包含8類80個物體共計3 280個數(shù)據(jù)樣本,而ModelNet10數(shù)據(jù)集包含10類共計4 899個三維模型數(shù)據(jù)。實驗在兩個數(shù)據(jù)集內分別隨機取70%的數(shù)據(jù)作為訓練集,余下30%的數(shù)據(jù)作為測試集。

      3.3 實驗損失函數(shù)

      本文中使用的是PyTorch中常用的CrossEntropyLoss損失函數(shù),計算公式為

      其中:p和q為兩個概率分布。

      3.4 評價準則

      受試者工作特征曲線(receiver operating characteristic curve,ROC),是一種評價算法模型優(yōu)劣的評價準則,ROC曲線圖最靠近左上方的位置,識別分類效果最好。

      在ROC曲線圖中橫坐標表示負正類率(false postive rate,F(xiàn)PR),縱坐標表示真正類率(true postive rate,TPR),計算為:

      3.5 實驗結果與分析

      3.5.1注意力模塊有效性對比實驗 由混淆矩陣可知錯誤的分類主要是由于某些物體具有相似的空間特征結構,如在ETH數(shù)據(jù)集中的dog模型和horse模型在某些角度下的物體視圖存在一定的相似性,還有在ModelNet10中的desk和table也存在一定的相似性,這些情況的出現(xiàn)與人眼視覺表現(xiàn)出的錯誤分類情況類似。

      圖4和圖5分別展示了ETH圖像集和ModelNet10數(shù)據(jù)集整體識別結果,可以看出MVCNN網(wǎng)絡中加入注意力機制有效地增強了物體的關鍵特征信息,從而提高了物體識別的準確率。

      3.5.2兩個數(shù)據(jù)集的識別率實驗 在兩個數(shù)據(jù)集上,將本文算法與經(jīng)典的基于體素的3D ShapeNets算法、基于點云的PointNet算法、基于單一視圖的CNN算法和一系列基于多視圖MVCNN結構的其他五種算法比較。將這五種算法提取的特征,使用SRC分類器對數(shù)據(jù)集圖像識別分類,實驗結果如表1所示。

      由表2可知,由于3D ShapeNets和PointNet兩種算法是在三維體素和點云形式上的算法,而本文訓練使用的ETH數(shù)據(jù)集沒有三維體素和點云格式文件,所以在表2中的準確率一欄中用橫線代替。3D ShapeNets方法使用的三維網(wǎng)格形式特征在提取和表示時匹配準確率不高,而PointNet算法獲取物體的三維點云特征在提取和表示時效果不錯,但是三維數(shù)據(jù)占用內存大,網(wǎng)絡運行效率次于在多視圖形式下的運行效率。在ModelNet10數(shù)據(jù)集上的測試結果,基于多視圖形式的深度卷積神經(jīng)網(wǎng)絡的識別分類準確率要優(yōu)于基于體素和點云形式的深度卷積神經(jīng)網(wǎng)絡,其中加入注意力模塊的Att-MVCNN方法最優(yōu)。在ModelNet10數(shù)據(jù)集上識別率略低一些的原因可歸納為該數(shù)據(jù)集上存在兩種形狀較為相似的物體,如寫字桌和臺桌。

      圖4 ETH圖像集的識別準確率Figure 4 ETH imageset of recognition rate

      圖5 ModelNet10數(shù)據(jù)集的識別準確率Figure 5 ModelNet10 dataset of recognition rate

      表1 基于不同特征提取網(wǎng)絡的識別準確率比較Table 1 Comparison of recognition performance based on different feature extraction networks 單位:%

      實驗過程中把用于測試的樣本集中的不同視角的圖像組合成正樣本對(同類樣本)與負樣本對(非同類樣本)序列,采用上述不同算法計算樣本對之間的距離,通過固定負樣本對的FPR,選擇對應的距離閾值后用同樣的閾值檢測出正樣本對的接受率,擬合繪制ROC曲線圖。

      ROC曲線圖中越靠近ROC空間的左上角的點,其分類效果越好。由圖6可以看出,Att-MVCNN算法位于ROC曲線圖中最靠近左上方的位置,表示在FPR一定的情況下,該算法中TPR最高。在TPR一定的情況下,F(xiàn)PR的值最小。表明該方法是優(yōu)于其他方法的。

      圖6 9種不同物體識別算法的ROC圖Figure 6 ROC diagram of 9 different object recognition algorithms

      3.5.3性能指標 不同的學習率會影響權值調整,學習率過小會使算法收斂速度緩慢,學習率過大會使梯度在最小值周圍震蕩無法收斂,本實驗使用梯度下降法對權重調整。通過設定消融實驗,本階段設置學習率為0.000 05。圖7為本文算法在訓練和測試階段的損失函數(shù)趨勢圖。

      圖7 在本文算法中的損失值曲線圖Figure 7 The loss value curve in this algorithm

      圖7表明算法在迭代計算30次過程中損失函數(shù)值呈下降趨勢,符合預期設想。曲線值越接近0,算法在計算中產(chǎn)生的損失越少,相應階段識別精度越高。

      3.5.4不同分類器在三維物體圖像上的分類性能 為了衡量不同分類器對網(wǎng)絡提取特征的最終識別準確率的影響,使用KNN、SVM、softmax和SRC四種不同的分類器對最終得到的特征向量進行訓練和分類識別,各分類器的準確率分別為80.86%、86.37%、93.95%和94.11%。因此,當SRC為分類器時識別準確率最高。

      4 結論

      本文提出的基于改進多視圖卷積神經(jīng)網(wǎng)絡和稀疏表示分類器算法相結合的三維物體識別算法,利用深度學習訓練三維物體視圖的網(wǎng)絡模型,并且提取物體圖像特征信息,通過構建稀疏字典,最后使用稀疏表示分類算法計算的稀疏系數(shù)和殘差結果進行物體識別。該方法避免了傳統(tǒng)人工方法提取物體特征信息時的局限性,結合使用了深度卷積神經(jīng)網(wǎng)絡自動學習特征和SRC分類的優(yōu)勢,又在其中加入APN模塊,使網(wǎng)絡學習更關鍵區(qū)域的特征。在ETH和ModelNet10兩個數(shù)據(jù)集上進行驗證,結果表明本文所提出的算法具有較高的識別準確率。在今后的研究中,將進一步改進算法,以便應用于更多領域。

      猜你喜歡
      池化視圖分類器
      基于緊湊型雙線性網(wǎng)絡的野生茵識別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設計
      卷積神經(jīng)網(wǎng)絡中的自適應加權池化
      軟件導刊(2022年3期)2022-03-25 04:45:04
      基于卷積神經(jīng)網(wǎng)絡和池化算法的表情識別研究
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      5.3 視圖與投影
      視圖
      Y—20重型運輸機多視圖
      SA2型76毫米車載高炮多視圖
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      穆棱市| 城步| 申扎县| 苗栗市| 东乡县| 云浮市| 曲松县| 凌海市| 隆林| 峨山| 周至县| 黄陵县| 福贡县| 麻江县| 广河县| 边坝县| 南溪县| 云安县| 镇赉县| 基隆市| 南郑县| 集贤县| 芮城县| 深水埗区| 宁南县| 公安县| 洛阳市| 井冈山市| 遵化市| 广丰县| 洛扎县| 翼城县| 泸定县| 普陀区| 昭觉县| 涞水县| 金乡县| 阳泉市| 茂名市| 成都市| 遂宁市|