溫劍鋒 覃一海
摘? 要:視覺目標定位是計算機視覺研究的重要方向之一,準確度高、穩(wěn)定性好、速度快是視覺目標定位算法追求的目標,針對當前基于卷積神經(jīng)網(wǎng)絡的視覺目標定位算法在訓練模型時需要持續(xù)訓練和更新,導致計算量非常大、定位精度低、成功率低等不足,提出基于雙卷積通道的卷積神經(jīng)網(wǎng)絡模型,通過與目前主流的定位算法進行比較,結果表明該算法具有較高的定位精度和成功率。
關鍵詞:卷積神經(jīng)網(wǎng)絡;目標定位;圖像檢測
中圖分類號:TP391.41;TP183 ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)22-0113-03
Research on Visual Target Location Based on Convolution Neural Network
WEN Jianfeng,QIN Yihai
(Department of Information Engineering,Guangxi Polytechnic of Construction,Nanning? 530007,China)
Abstract:Visual target localization is one of the important directions of computer vision research. High accuracy,good stability and high speed are the goals of visual target localization algorithm. In view of the shortcomings of the current visual target localization algorithm based on convolution neural network,which needs continuous training and updating in training model,resulting in large amount of calculation,low positioning accuracy and low success rate. In this paper,a convolution neural network model based on double convolution channels is proposed. Compared with the current mainstream positioning algorithms,the results show that the algorithm has higher positioning accuracy and success rate.
Keywords:convolution neural network;target location;image detection
0? 引? 言
當今信息技術已經(jīng)應用在生活的方方面面,人們對基于人工智能技術的智能設備有了更高的期待。而視覺目標作為機器獲取信息最直接的手段,已經(jīng)成為學者研究的焦點。視覺研究對象可分為圖像目標和視頻目標,通過技術手段從它們包含的信息中獲取重要的信息,更好地為人類服務。然而,想從圖像或視頻目標中提取所需信息,是一項非常復雜的工程。并行技術和深度學習技術的出現(xiàn),為視覺目標的識別與定位的研究與發(fā)展提供了可能。卷積神經(jīng)網(wǎng)絡是近年發(fā)展起來可用于研究視覺目標定位的模型,它在目標檢測、人臉識別等領域取得了豐富的成果[1]?;谏疃染矸e神經(jīng)網(wǎng)絡的目標識別、目標檢測算法準確率大幅提升,甚至超越了人工識別的準確率[2]。然而,由于可用于視覺目標定位的訓練數(shù)據(jù)集過少,導致模型難以訓練出端到端的卷積神經(jīng)網(wǎng)絡模型。有學者嘗試將大規(guī)模圖像識別的數(shù)據(jù)集訓練得到的卷積網(wǎng)絡模型遷移到視覺目標定位中,但是這種方法計算量巨大且減弱了卷積神經(jīng)網(wǎng)絡的表征能力。
筆者基于廣西高校中青年教師科研基礎能力提升項目,對視覺目標定位算法及并行技術展開深入研究。針對上述問題,筆者提出一種基于雙卷積通道的卷積神經(jīng)網(wǎng)絡的視覺目標定位算法。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡通過單卷積通道來獲取目標信息,對于復雜的目標經(jīng)常出現(xiàn)定位不準或者定位時間過長等不足。本文的卷積神經(jīng)網(wǎng)絡通過構造雙卷積通道的方式提高定位效率。根據(jù)提取目標不同,第一卷積通道專門用于獲取定位目標信息,第二卷積通道專門用于獲取檢索圖像的特征信息,再使用一個全連接層將前兩個卷積通道獲取的特征信息組合在一起,進而得到目標熱圖,最后實現(xiàn)目標定位。本文提出的算法有以下特點:
(1)算法可以使用離線模式實現(xiàn)目標定位。
(2)本文的卷積網(wǎng)絡模型只學習一次便可以在后續(xù)的目標定位中繼續(xù)使用。
本文的算法運行效率優(yōu)于其他定位算法,而且對目標的表征能力更加出色。
1? 雙卷積通道的卷積神經(jīng)網(wǎng)絡模型
根據(jù)目標圖像的特點,本文首先訓練一個分類器,通過判斷備選圖像與目標圖像的相似度來確定目標圖像的位置。通過該分類器判斷的不同目標不需要持續(xù)的在線更新,能大大減少反復在線更新與學習造成的計算壓力。接著,我們設計了一個改進的卷積神經(jīng)網(wǎng)模型,該模型只需兩種圖像塊作為輸入,一種圖像塊作為目標圖像塊,另一種圖像塊作為檢索圖像塊,模型的主要工作是計算這兩個圖像塊的相似度,通過相似度的值實現(xiàn)目標定位。在模型中,我們設計的雙卷積通道用于提取圖像特征信息,第一層卷積通道用于提取目標圖像信息,第二層卷積通道則用于提取檢索圖像信息,最后用全連接層連接前兩個卷積核的特征信息。整個模型的結構設計如圖1所示。
需要使用損失函數(shù)對上述模型進行訓練,在訓練中不斷降低損失函數(shù)的值,使訓練模型更加接近預測值。使用的函數(shù)為:
其中,M為模型的輸出響應圖,W為權重函數(shù),T為指截斷函數(shù),L為損失函數(shù)。通過損失函數(shù),可以減少計算樣本不均衡引發(fā)的缺陷,并提高算法的穩(wěn)定性。
2? 模型訓練
為了提高卷積神經(jīng)網(wǎng)絡對視覺目標的定位效率,需要訓練足夠多的模型。然而,在現(xiàn)有的視覺目標訓練領域,只有極少數(shù)可用于測試的圖像數(shù)據(jù),而且這些數(shù)據(jù)較為單一,不適合本文的模型訓練。因此,本文擬采用大規(guī)模圖像數(shù)據(jù)集來訓練本文提出的模型。大規(guī)模圖像數(shù)據(jù)集中有大量可用于訓練的高清圖像,并且這些圖像都已經(jīng)做好相應的標記。在大規(guī)模圖像數(shù)據(jù)集中,我們選擇單幅標注圖像來訓練本文的模型。訓練示意圖如圖2所示,圖2(a)表示可用于訓練的單幅標記原始圖。圖2(b)表示檢索到與目標相似的圖像,圖2(c)表示從檢索圖像中獲取到目標位置生成的標記圖。考慮到實際的圖像存在光照變化、遮擋、變形、快速運動、消失、背景混亂、低分辨率、尺度變化等現(xiàn)象,本文還采用了數(shù)據(jù)增廣技術,提高訓練模型的多樣性,進而提高模型的定位的精確性。通過上述訓練模型,即使目標圖像存在干擾,也不會影響模型的定位效果。
由于檢測的目標存在光照變化、遮擋、變形、快速運動、消失、背景混亂、低分辨率、尺度變化等現(xiàn)象,會給目標定位帶來更大的挑戰(zhàn)。因此,本模型每次輸入圖像塊時,都通過隨機選擇相似度較高的圖像作為輸入,而且這些圖片經(jīng)過了可信度預測并已經(jīng)做了特征標記。圖像的可信度預測越大,說明與目標相似度越大??赏ㄟ^式(2)、式(3)計算得到可信度預測值:
其中,Mk為最終目標預測圖,Y為輸出的二維預測圖,cai為預測可信度,oai為隨機選擇得到的目標圖像塊,sk為搜索圖像塊,N為圖像塊序號,ck為預測可信度,ai為圖像幀號,k為圖像幀號。
每一張檢索到的圖像都設定一個可信度閾值,如果可信度預測值小于閾值的圖像就會被丟棄,不再作為圖像輸入。
3? 實驗結果與分析
本文使用的實驗環(huán)境為Windows 10操作系統(tǒng)、Tesla k20顯卡、Intel Xeon E3 CPU,編程語言為Python,開發(fā)工具為TensorFlow。將上述的模型使用兩個數(shù)據(jù)集進行實驗測試,這兩個數(shù)據(jù)集分別是OTB2013[3]、OTB2015[3],這兩個數(shù)據(jù)集包含了大量的測試樣本,對本文的算法驗證有很強的說服力。
將本文的算法與目前3個主流的定位算法(ECO[4]、MCCT[5]、STRCF[6])進行對比,首先計算本文算法在OTB 2013、OTB2015數(shù)據(jù)集上的定位精度,結果如表1所示,從表可知,本文算法在兩個數(shù)據(jù)集上都取得較好的精度,在OTB2013數(shù)據(jù)集中僅與ECO算法相差0.2%,在OTB2015數(shù)據(jù)集中僅與MCCT相差0.9%。
接著計算本文算法在OTB2013、OTB2015數(shù)據(jù)集上的定位成功率,結果如表2所示,本文算法在兩個數(shù)據(jù)集上都取得較理想的成功率??傊?,本文的算法不管在定位精度,還是定位成功率方面,都能取得很不錯的效果。
接著用本文算法研究在不同干擾因素下的定位精度,表3、表4表示本文的算法與3個較新算法在不同數(shù)據(jù)集下的定位精度對比情況。表中的IV、OCC、DEF、FM、OV、BC、LR、SV分別光照變化、遮擋、變形、快速運動、消失、背景混亂、低分辨率、尺度變化。從實驗結果看,本文的算法能適應不同干擾因素的準確定位,且定位精度比當前某些主流算法還要好。
4? 算法分析
本文提出的卷積神經(jīng)網(wǎng)絡算法在進行目標定位時,不需要持續(xù)地訓練和更新,減少了程序在持續(xù)訓練時的運算時間,提高了算法的運行效率,而且保持了良好的穩(wěn)定性。之所以能比部分定位算法更優(yōu),主要是因為本文設計了雙卷積通道進行特征提取,并進行了明確的分工,避免了圖像的重復計算。但由于本文只選了三個主流定位算法作對比,故本文的模型說服力還不夠強。
5? 結? 論
本文提出一種雙卷積通道的卷積神經(jīng)網(wǎng)模型,分為目標圖像塊通道和檢測圖像塊通道,通過將目標圖像與備選圖像的相似度進行對比,從而實現(xiàn)目標定位。模型避免了定位過程中頻繁地訓練與更新,在減少算法的計算時間的同時,能獲得良好的穩(wěn)定性和精確度。雖然算法的計算速度與當前主流的一些卷積神經(jīng)網(wǎng)算法仍存在差距,但是本文的算法仍是很值得研究和探索的。
參考文獻:
[1] 張純純,馮創(chuàng)意,高統(tǒng)林.基于機器視覺的目標識別與抓取研究 [J].農(nóng)業(yè)裝備與車輛工程,2019,57(12):93-96.
[2] 陳凱.基于深度學習和回歸模型的視覺目標跟蹤算法研究 [D].武漢:華中科技大學,2018.
[3] 尹寬.復雜情況下目標跟蹤算法研究 [D].成都:四川師范大學,2020.
[4] DANELLJAN M,BHAT G,KHAN F S,et al. ECO:Efficient Convolution Operators for Tracking [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:6931-6939.
[5] WANG N,ZHOU W G,TIAN Q,et al. Multi-Cue Correlation Filters for Robust Visual Tracking [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City:IEEE,2018:4844-4853.
[6] LI F,TIAN C,ZUO W M,et al. Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City:IEEE,2018:4904-4913.
作者簡介:溫劍鋒(1979.12—),男,漢族,廣西貴港人,系
主任,副教授,碩士,研究方向:人工智能;覃一海(1986.10—),
男,漢族,廣西北流人,專任教師,講師,碩士,研究方向:人工智能。