• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      引入關節(jié)點熱力圖的改進CenterNet 目標檢測算法

      2022-06-24 02:26:22鄔春明廉力影趙立權
      北京交通大學學報 2022年2期
      關鍵詞:熱圖關節(jié)點力圖

      鄔春明,廉力影,趙立權

      (東北電力大學a.現(xiàn)代電力系統(tǒng)仿真控制與綠色電能新技術教育部重點實驗室,b.電氣工程學院,吉林 吉林 132012)

      目標檢測技術迄今為止已經(jīng)發(fā)展幾十年,是圖像處理領域的研究熱點.無論是在工程領域還是醫(yī)療領域都有重要應用,為人工智能的實際應用提供了良好基礎.傳統(tǒng)且具有代表性的目標檢測方法如:Viola Jones 檢 測 器[1]、HOG 特 征 描 述[2]、DPM特征[3]等,對目標檢測技術的發(fā)展都起到了極大的推動作用,但由于這些方法都是根據(jù)特定情況設計,有一定的適用范圍局限性且缺乏可擴展性,所以難以達到較理想的準確率.后來出現(xiàn)的目標檢測系統(tǒng)為了克服這些問題,將不同的方法進行組合,如多尺度特征和邊界框回歸[4].

      隨著對目標檢測技術速度與精度需求不斷上漲,自2012 年起,基于深度學習的檢測算法迎來了井噴時期.Girshick 等[5]提出了區(qū)域卷積網(wǎng)絡目標檢測 框 架(Region with CNN features,R-CNN).R-CNN 是區(qū)域選擇與卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[6]結合的產(chǎn)物,通過生成大量候選區(qū)域,對區(qū)域進行特征提取和篩選,對特征進行分類與判別.但由于R-CNN 對目標分辨率要求較高,計算量較大,所以后來在R-CNN 的基礎上引入了SPPNet[7],從而誕生了Fast R-CNN[8].此方法相對于R-CNN 提高了檢測效率,但是在區(qū)域選擇方面仍然面臨問題.Faster R-CNN[9]的提出,解決了這個問題.隨著對基于深度學習的目標識別算法研究的深入,算法逐漸出現(xiàn)了兩分支:雙階段的目標檢測方法和單階段的目標檢測方法.

      雙階段檢測網(wǎng)絡利用第一階段進行備選框的提供,第二階段進行備選框的判斷.常見的雙階段目標檢測方法除R-CNN、Fast R-CNN、Faster R-CNN,還有Mask R-CNN[10]、Cascade R-CNN[11]等.單階段的檢測方法網(wǎng)絡框架結構比較簡單,檢測速度一般快于雙階段檢測.常見的單階段目標檢測網(wǎng)絡主要有:SSD[12]系列、YOLO[13]系列等.

      SSD 在不同分辨率的多個特征層上生成預測,檢測速度快且結構簡單,但檢測精度較低且對于小目標的檢測效率低.后來人們對它加以改進,衍生出了很多效率更高的算法.SSD 逐步發(fā)展的同時,基于一體化卷積網(wǎng)絡的目標檢測方法YOLO 在2015年被提出,完成了訓練和檢測均在一個網(wǎng)絡中實現(xiàn).YOLO與SSD 十分類似,但是它將空間劃分成了若干網(wǎng)格單元,檢測速度較SSD 略勝一籌.該算法也克服了Faster R-CNN 在識別速度方面的瓶頸,但當檢測目標比較密集時檢測效果仍會有所下降.

      隨著目標檢測方法的發(fā)展,算法又出現(xiàn)了兩個分支:有錨的方法和無錨的方法.前期的目標檢測方法大多為基于錨框的方法.這類方法生成錨框的數(shù)量過多,甚至遠遠超過了目標數(shù)量,十分容易引起正負樣本不均衡以及超參數(shù)問題.于是,Law 等[14]提出了一種免錨框方法,即CornerNet 算法,該算法通過特征向量將關鍵點匹配代替邊界框回歸,再對角點進行分組.使用CornerNet 的開發(fā)者能夠自由設計特征提取網(wǎng)絡,大大提高了模型使用的靈活性.但是該算法的短板在于,角點對的分類準確度對檢測結果的影響過大.之后,Duan 等[15]針對這一不足之處,提出了CenterNet 模型,CentetNet 通過回歸的中心點位置及偏移量信息進行物體判斷,不用對角點對進行分組,彌補了CornerNet 的缺陷.

      上述方法都為單純的目標檢測方法,廣泛適用于絕大多數(shù)檢測場景且模型具有很強的泛化能力,但是缺乏對特定場景的針對性也忽略了對場景的語義理解。因此,本文作者主要針對人和物有動作交互的特殊場景定制了一種新的檢測方法,該方法主 要 受 人- 物 交 互(Human-Object Interaction,HOI)[16]檢測的啟發(fā),通過在CenterNet 網(wǎng)絡的輸入端增加一個人體關節(jié)點熱力圖分支的方式來引入場景中人物動作的語義信息。利用該框架訓練已有的完備數(shù)據(jù)集,實驗結果表明:與SSD、YOLOv1、Faster R-CNN 以 及 改 進 前 的CenterNet 模型相比,新模型具有更好的檢測性能。

      1 CenterNet 理論基礎

      1.1 CenterNet 網(wǎng)絡結構

      CenterNet算法主要通過目標的中心點坐標及偏移量來確定目標信息,然后回歸目標的姿態(tài)信息、方向信息以及尺寸大小等,從而將目標檢測問題轉(zhuǎn)化為關鍵點估計問題.模型訓練使用標準的監(jiān)督學習,推理過程利用單個前向傳播網(wǎng)絡,摒棄了諸如NMS[17]之類的后處理.整個處理過程降低了網(wǎng)絡計算開銷并很好地保留了檢測目標的內(nèi)部信息.常用的Center-Net 特 征 提 取 骨 干 網(wǎng) 絡 主 要 有 三 種:ResNet-18[18](ResNet-101)、DLA-34[19]、Hourglass-104[20].以基于Hourglass-104 的CenterNet 網(wǎng) 絡 結 構 為 例,Center-Net網(wǎng)絡結構圖如圖1所示.

      由圖1 可知,整個網(wǎng)絡最終輸出有3 個分支.熱圖分支和中心點分支用于生成所有類別目標的位置圖,中心點偏移分支表征了目標真實位置與預測位置的偏移量.傳統(tǒng)目標檢測方法將圖片縮放16 倍,CenterNet 將分辨率縮放4 倍用于輸出特征圖,因此無需使用多個特征圖錨點且保留了更多特征信息.

      模型的具體檢測過程如下:

      設網(wǎng)絡的輸入圖像I∈RW×H×3,經(jīng)過預測網(wǎng)絡后輸出端熱圖分支生成的關鍵點熱圖為

      圖1 CenterNet 網(wǎng)絡結構示意圖Fig.1 Schematic diagram of CenterNet

      式中:H、W分別為圖像高度、寬度;R是輸出步長,R=4;C為輸出熱圖中關鍵點類別的數(shù)量.?=1時,代表對應位置是檢測目標的關鍵點,?=0 時,代表檢測背景.

      在 預 測 階 段,設(x1,x2,y1,y2)是 目 標 的 邊 界框,經(jīng)過計算可以得到其中心點為

      目標的其他信息是從關鍵點的圖像信息獲得,所有中心點都是通過Y?預測得到,然后通過回歸以獲得目標大小,回歸的位置坐標為

      1.2 CenterNet 損失函數(shù)

      CenterNet 的網(wǎng)絡輸出3 個分支,總損失函數(shù)主要由熱圖關鍵點損失函數(shù)(hm_loss)、目標尺寸損失函數(shù)(wh_loss)和檢測目標中心點損失函數(shù)(off_loss)三部分構成.熱圖關鍵點損失函數(shù)為

      式中:?xyc是使用Hourglass-104 網(wǎng)絡獲得的熱圖中的預測物體的中心;α和β是焦點損失的超參數(shù),默認值分別為2 和4.局部偏移的損失函數(shù)為

      式中:CenterNet 對圖像進行下采樣,將獲得的特征圖重塑為原始圖像會導致精度誤差.因此,對于每個中心點都使用了額外的局部偏移.Loff即L1 范數(shù)損失函數(shù)?是經(jīng)過計算的一個低分辨率的等效值.物體尺寸損失為

      式中:Lsize同樣是L1 范數(shù)損失函數(shù).總損失函數(shù)是三個部分的加權和,公式為

      式中:λsize,λoff=1.

      2 基于關節(jié)點熱力圖的檢測模型

      2.1 關節(jié)點標記與人體關節(jié)點熱力圖的生成

      熱力圖是描述目標物體的關鍵點在圖像中位置的圖像,它將離散點的信息經(jīng)過一定的數(shù)字變換最終映射圖像上.若定義熱力圖為一個三維矩陣,尺寸為(H,W,1).熱力圖中的所有像素點數(shù)值都分布在[0,1]之間,表示該位置存在目標物體的概率,如圖2(a)所示.

      圖片分辨率為512×512,人物出現(xiàn)在這張圖片中,其中心坐標為(350,309),則創(chuàng)建一張與該圖片大小一致的熱力圖(如圖2(b)所示),除了將坐標(350,309)處概率設為1 用來表示人的位置外,其余位置概率均為0.對于此圖片中的其他類別物體,如在(137,324)位置存在的狗,則建立一張新的熱力圖(如圖2(c)所示),該處概率值為1,其余處為零.由此可見,在輸出熱力圖過程中,一張熱力圖僅代表單一類別的物體,所以當熱力圖尺寸為(H,W,C)時,表示C個類別的物體中心的分布情況.人體關節(jié)點熱力圖遵循同樣原理,選取手、肘、膝等16 個人體重要關節(jié)點進行標記.

      人體關節(jié)點熱力圖的生成主要依托于關鍵點坐標預測,常用的預測方法有全連接層直接回歸和高斯核函數(shù)生成預測熱圖兩種.由于高斯熱圖輸出特征圖較大,空間泛化能力也比較強,回歸損失函數(shù)采用最小均方誤差MSE.本文采用輸出高斯熱圖的方法,一張圖片中每個人回歸16 個關節(jié)點.如圖3 所示為關節(jié)點熱力圖標記與生成過程.最終輸出的關節(jié)點熱力圖,作為模型關節(jié)點熱力圖分支的輸入圖像.

      圖2 不同類別物體熱力圖Fig.2 Heatmap of different objects

      圖3 人體關節(jié)點熱力圖生成過程Fig.3 Image of generation process for body joints heatmap

      生成人體關節(jié)點熱圖的具體過程如下:設第k個關節(jié)點的熱圖Hk上p位置點上的置信度Hk(p),表示為

      式中:(xk,yk)是第k個關節(jié)點的坐標,k∈[0,15];σ是標準差,代表熱圖能量集中度,當σ 較大時,則熱圖覆蓋區(qū)域較大,能量較為分散,當σ 較小時,覆蓋區(qū)域較小,能量相對集中.16 個關節(jié)點的熱圖組合在一起形成最終熱圖H∈Rw×h×k.其中,k代表關節(jié)點數(shù)目,文中取值為16,h×w是每個關節(jié)點的尺度.

      根據(jù)預測出來的熱圖?的置信度分布,可以獲得關節(jié)點位置的預測結果為

      式中:)為網(wǎng)絡模型預測出的第k個關節(jié)點的熱圖上p位置坐標點上的置信度,取置信度值最大的點所在位置坐標就是預測出的第k個關節(jié)點的位置

      2.2 加入注意力模塊的Hourglass-104 網(wǎng)絡

      注意力機制在圖像處理中應用廣泛,它能夠使網(wǎng)絡成功學習到與目標有關的信息.由于實驗使用的數(shù)據(jù)集較大,目標類別較多且尺寸大小不一.因此,為了更好地提取目標特征,將全局上下文模塊(Global Context Block,GC Block)[21]加入到了特征提取網(wǎng)絡Hourglass-104 中.插入的GC 模塊可應用于特征提取網(wǎng)絡每個層以捕獲網(wǎng)絡依賴性,有助于網(wǎng)絡提高對小目標的檢測能力.

      Hourglass-104 網(wǎng)絡深度較深,參數(shù)數(shù)量龐大.因此在加入注意力模塊的同時還要兼顧網(wǎng)絡的計算量.而GC 模塊采用的是輕量級網(wǎng)絡,增加的網(wǎng)絡計算成本可以忽略不計,減輕網(wǎng)絡訓練負擔.

      GC Block 的結構如圖4 所示,公式如下

      概括來說,GC Block 主要包含3 部分:1)通過全局注意力池獲取上下文信息;2)通過特征轉(zhuǎn)換獲得通道之間的依賴性;3)將轉(zhuǎn)換功能與原始功能融為一體.

      將GC 模塊應用于Hourglass-104 每個沙漏網(wǎng)絡內(nèi)以及Hourglass-104 網(wǎng)絡的兩個子結構之間,如圖5 所示.

      圖4 全局上下文模塊結構Fig.4 Module structure of Global Context Block

      2.3 網(wǎng)絡總體結構

      圖6 為模型總體結構,整個檢測網(wǎng)絡由加入GC Block 的Hourglass-104 及多個卷積層、池化層和全連接層組成.輸入熱圖與原圖像的分辨率均為512*512,通過檢測網(wǎng)絡后輸出3 個分支,每個分支的輸出大小都是128*128.經(jīng)過融合后,輸出檢測輸出圖像的大小為128*128.

      3 實驗及結果分析

      3.1 數(shù)據(jù)集預處理

      實驗所采用的樣本主要來源于HICO-DET 數(shù)據(jù)集.該數(shù)據(jù)集共有47 774 張圖像,涵蓋超過600 種人與對象互動的動名詞,80 個常見對象.鑒于算法應用場景的特殊性,在實驗前對該數(shù)據(jù)集進行了充分的人工篩選,只保留人和物有動作交互的圖片.篩選出來的圖片盡可能多地包括常見物體類別.最終使用的實驗數(shù)據(jù)集共9 800 張,根據(jù)8∶2 的比例將其中7 840 張作為訓練圖像,1 960 張作為測試圖像.9 800 張圖像生成的關節(jié)點熱力圖也作為構成本實驗數(shù)據(jù)集的一部分.采用COCO 數(shù)據(jù)集格式,對訓練集和測試集中每一張圖片里出現(xiàn)的物體都標記其外圍框,與生成的關節(jié)點熱力圖共同作為網(wǎng)絡的輸入.由于所用數(shù)據(jù)集原始圖像差異較大,分辨率也各不相同,圖像大小不一,無法直接輸入網(wǎng)絡進行實驗.因此輸入目標檢測圖像首先經(jīng)圖像預處理后調(diào)整其分辨率為512*512,再對圖像進行關節(jié)點標記和熱力圖輸出.數(shù)據(jù)集部分樣本圖像如圖7 所示.

      圖5 添加注意力機制的Hourglass-104 網(wǎng)絡Fig.5 Architecture of Hourglass-104 network with GC Block

      圖6 改進CenterNet 網(wǎng)絡總體結構示意圖Fig.6 Overall architecture of the improved CenterNet

      3.2 實驗平臺

      實驗硬件配置如下:實驗操作系統(tǒng)采用Windows 10 系統(tǒng),CPU 八核,主頻4.9 GHz,顯卡采用NVIDIA Tesla K 80,雙GPU 加速器,24 GB 顯存,32 GB 內(nèi)存,顯存位寬384 bit.采用Ubuntu 16.04操作系統(tǒng),Pytorch 深度學習框架實現(xiàn)算法編程.

      3.3 評價指標

      前后進行了4 次對比實驗,分別為不同特征提取主干網(wǎng)絡對比實驗、引入GC 模塊前后對比實驗、引入關節(jié)點熱力圖前后對比實驗和不同目標檢測方法對比實驗.實驗評價指標采用目標檢測實驗中常用的指標AP、mAP 以及檢測速度(FPS),其中AP 是由召回率R(Recall)和準確率P(Precision)共同決定.

      式 中:TP為 實際 是 真 正例;FP是 假 正 例;FN是假 負例.mAP 的表達式為

      式中:mAP 是模型針對多類目標的整體檢測平均精度均值,能夠直觀地表示模型在所有類別中的綜合檢測性能.所用數(shù)據(jù)集目標類別為15類,故N=15.

      3.4 實驗結果分析

      3.4.1 模型訓練

      新模型整體參數(shù)設置如下:學習率為0.000 125,訓練次數(shù)120 次左右時,損失趨于平穩(wěn).損失函數(shù)的變化趨勢見圖8,其中,紅色曲線為該算法總損失函數(shù),黃色、紫色、綠色曲線分別為目標中心點損失、目標尺寸損失和熱圖關鍵點損失,分別對應輸出分支中的O、S、Y 分支.可以看出,在長達120 次的訓練過程中,損失逐漸變小,模型逐漸收斂且未出現(xiàn)過擬合.

      圖8 損失函數(shù)變化曲線Fig.8 Variation curves of loss function

      3.4.2 算法有效性分析

      1) 不同特征提取網(wǎng)絡對比實驗.

      實 驗 將 ResNet-18、ResNet-101、DLA-34、Hourglass-104 四種特征提取網(wǎng)絡進行對比,將檢測精度和檢測速度作為評價指標,最終效果最好的網(wǎng)絡作為CenterNet 的特征提取網(wǎng)絡.為了提高工作效率縮短實驗周期,在處理好的9 800 張數(shù)據(jù)集中抽取了1 000 張圖片作為樣本進行實驗,共4 個目標類別.4 種網(wǎng)絡的提取性能對比見表1.可以看出,Hourglass-104 在檢測精度領先的情況下檢測速度盡管最慢但是滿足實時性要求.因此,最終選擇Hourglass-104 作為CenterNet 的特征提取網(wǎng)絡.

      表1 特征提取網(wǎng)絡檢測性能對比Tab.1 Comparison of detection results from different feature extraction network

      2) 引入注意力機制前后對比實驗.

      表2 為模型引入注意力機制前后準確率P、召回率R、mAP 以及檢測速度FPS 對比,分析表中數(shù)據(jù)可知鑒于GC 模塊輕量級這一特性,Hourglass-104 加入GC 塊之后計算量并沒有明顯增加,而且R以及mAP 都有所提高.這是因為模型中加入GC 模塊之后能在更少的迭代次數(shù)下收斂,GC 模塊的加入優(yōu)化了特征圖,提升了特征提取能力,對于目標的識別更加準確.

      3) 引入關節(jié)點熱力圖前后對比實驗.

      表3 為模型引入關節(jié)點熱力圖分支前后準確率P、召回率R、mAP 以及檢測速度FPS 對比,由表中數(shù)據(jù)可知,熱力圖分支的引入提高了模型的檢測精度,這是因為關節(jié)點熱力圖中蘊含的姿態(tài)信息在輸入到模型之后,網(wǎng)絡檢測得到了更多的特征信息,從而使檢測效果更加準確.

      表2 加入GC 模塊前后檢測性能對比Tab.2 Comparison of detection results before and after adding GC Block

      表3 加入關節(jié)點熱力圖分支前后檢測性能對比Tab.3 Comparison of detection results before and after adding body joints heatmap

      4)不同目標檢測方法前后對比實驗.

      實驗在改進CenterNet 模型基礎上對人與目標有動作交互的特定場景下的目標進行檢測.為了證明實驗的有效性,選取SSD、YOLOv1、Faster RCNN 3 個單純目標檢測方法以及改進前CenterNet方法在相同數(shù)據(jù)集上進行實驗對比.

      圖9 檢測結果示意圖Fig.9 Sample images of detection results

      實驗數(shù)據(jù)集共計15 類目標,最終的檢測效果圖見圖9,檢測結果歸納見表4.可以看出,與單階段檢測算法SSD、YOLOv1 相比,新算法檢測具有更高的檢測精度.與雙階段檢測方法Faster R-CNN 檢測精度相比,檢測精度基本持平,但是檢測速度約是Faster R-CNN 的98 倍.與改進前CenterNet 相比,不難看出在加入注意力機制以及關節(jié)點熱力圖分支之后,模型mAP 提高了6.02%,相對于大目標來說,體積較小目標的檢測準確率提升更多.

      表4 各模型檢測速度檢測精度對比Tab.4 Detection results and speeds of different detection models %

      4 結論

      將CenterNet 算法加以改進并引入關節(jié)點熱力圖分支,對人和目標有動作交互的特殊場景下的物體進行檢測,將人物動作蘊含的語義信息加以應用,獲得了比普通目標檢測方法更高的檢測精度,通過實驗得到了如下結論:

      1)針對人和目標有動作交互的場景提出了一個新的模型,充分利用了場景中人物姿態(tài)蘊含的語義信息提高了模型的檢測精度.

      2)該方法改進了CenterNet 的網(wǎng)絡結構,在輸入端增加一個分支實現(xiàn)了雙輸入,并在Hourglass-104 中引入GC Block,增強了整個網(wǎng)絡的特征抓取能力與融合性能.

      3)實驗結果證明:該方法與其他方法相比,在人與目標有動作交互時對目標的識別精度更高.下一步將對模型性能進行繼續(xù)改進:將網(wǎng)絡進行輕量化改進以解決參數(shù)量過大的問題.進一步提高網(wǎng)絡的融合性能,以解決在目標形狀不規(guī)則或目標較小時識別率變低的問題.

      猜你喜歡
      熱圖關節(jié)點力圖
      喬·拜登力圖在外交政策講話中向世界表明美國回來了
      英語文摘(2021年4期)2021-07-22 02:36:30
      基于深度學習和視覺檢測的地鐵違規(guī)行為預警系統(tǒng)研究與應用
      關節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡結合的雙人交互動作識別
      血栓彈力圖在惡性腫瘤相關靜脈血栓栓塞癥中的應用進展
      時空觀指導下的模塊整合教學——以《20世紀四五十年代力圖稱霸的美國》為例
      搞好新形勢下軍營美術活動需把握的關節(jié)點
      熱圖
      攝影之友(2016年12期)2017-02-27 14:13:20
      熱圖
      每月熱圖
      攝影之友(2016年8期)2016-05-14 11:30:04
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      永修县| 镇巴县| 崇仁县| 长治县| 太湖县| 龙里县| 闸北区| 桃园县| 台东市| 星子县| 苗栗县| 邻水| 嘉义市| 百色市| 富阳市| 彰化市| 宝应县| 新兴县| 泾源县| 洪洞县| 潍坊市| 和平县| 梓潼县| 马尔康县| 麟游县| 德令哈市| 温宿县| 民勤县| 富民县| 南雄市| 肥城市| 莱西市| 洪泽县| 朝阳县| 车致| 达孜县| 渝北区| 清远市| 德清县| 蒙城县| 沁源县|