趙梓杉,秦玉英,李 剛,衣明悅
(遼寧工業(yè)大學汽車與交通工程學院,遼寧 錦州 121001)
如今,計算機視覺已然成為了一個普遍的研究范疇,主要包含以下幾個方面:圖像數(shù)字化處理、圖像的標準轉(zhuǎn)換、圖像效果增強、恢復、分割、特征檢測等[1-2]。
目前,以卷積神經(jīng)網(wǎng)為基礎(chǔ)的目標檢測算法越來越受到學者們的重視,有許多結(jié)構(gòu)簡單、運行效率高的網(wǎng)絡(luò)模型,可以大規(guī)模應(yīng)用這些算法,但是面對目標檢測的難點,國內(nèi)外的學者們提出了很多處理方案并進行了大批實驗。比如,Itti等人為了提取圖像中的特征,構(gòu)建了選擇性注意機制[3];Viola和Jones等提出一種級聯(lián)檢測器框架并成功應(yīng)用于檢測人臉[4];Navneet等人則提出Hog和SVM聯(lián)合使用的思想,Hog被用來進行圖像特征提取,用線性SVM作分類器,進行行人檢測[5-6];Felzenszwalb等人提出基于組件的檢測方法DPM,對檢測對象的變形具備很強的魯棒性[7-9]。經(jīng)過多年的研究和發(fā)展,最先進的目標檢測系統(tǒng)已與多種技術(shù)相結(jié)合在了一起,例如多尺度檢測,邊界框回歸、上下文啟動等[7]。
本文介紹了常用的數(shù)據(jù)集特點以及關(guān)于目標檢測算法性能評價的關(guān)鍵參數(shù),對基于深度學習目前的主流的檢測算法進行了綜述,最后討論了目標檢測領(lǐng)域現(xiàn)存的問題,對該領(lǐng)域進行了展望,并分析了未來的可以繼續(xù)探究的方向。
(1)COCO:數(shù)據(jù)集在是于2015年發(fā)布的一種基于日常復雜場景的常見目標數(shù)據(jù)庫,其中包含小目標和多目標等特點,包含了30多萬張完全分割的照片,平均每張圖像含有7個目標實體,共標注出250萬個目標對象,包括91種類別[10]。
(2)TinyPerson:中國科學院提交的一種只包含人類數(shù)據(jù)集,其中訓練集與測試集各包含近800張左右的照片[11]。
(3)ImageNet:2010年首次推出,之后增加了目標的類別和數(shù)量,提高了目標檢測任務(wù)評價標準,可用于目標定位、場景分類、目標檢測、圖像分類和場景解釋等任務(wù)。目前,該數(shù)據(jù)集中的圖像數(shù)超過1 200萬張,類別增加了2.2萬個,約103萬張照片進行了目標物體的類別標注,對于目標檢測任務(wù),其包含200個類別。
(4)UCAS-AOD:是一種遠程目標檢測數(shù)據(jù)集,只包含車輛、飛機兩個類別。其中,共有飛機小目標樣本7 482個,汽車小目標樣本7 114個[12]。
(5)RSOD數(shù)據(jù)集:由武漢大學發(fā)布的航空遙感圖像, 包括飛機、操場、橋、油罐4個類別。橋類有176張,飛機類圖像有446張,操場類圖像有190張圖像,油罐類圖像有165張[13]。
(6)OICOD數(shù)據(jù)集:基于OpenImageV4的最大公用數(shù)據(jù)集,不同于ILSVRC和MSCOCO目標檢測數(shù)據(jù)集,它包括更多的類別、圖像、邊界框、實例分割分支和海量的注釋處理,OICOD為目標實例提供了可以手動驗證標簽。
(7)OpenImageV4:使用分類器標注圖像標簽,通過人工標注得到得分很高的標簽。
(8)URPC2018:水下物體數(shù)據(jù)集包括d大批的小目標該數(shù)據(jù)集共包含訓練圖像近2 900幅和測試圖像近800幅,類別包括海參、海星、海膽和貝類[14]。
1.2.1 IoU(交并比)
等于它們之間的交集和并集的比值,是指由目標檢測算法生成的候選框與實際的檢測框之間的重合程度,最理想的情況下IoU=1.0表示完全重合,通常而言IoU0.5認為定位合理。
1.2.2 mAP(meanAveragePrecession)
平均精確度均值,是最直觀的表達方式,mAP值越大,表示該模型的精度越高。
目標檢測可以分為兩類算法,一種是以R-CNN系列為代表的基于候選區(qū)兩階段算法,另一種是以是以YOLO、SSD為代表基于回歸的單階段算法。單階段算法則直接在特征圖上生成候選框。詳細算法性能介紹如表1所示。
表1 目標檢測算法對比
目標檢測一直是國內(nèi)外計算機視覺領(lǐng)域研究者們的探討熱點,雖然單級和二級的目標檢測算法都表現(xiàn)出令人滿意檢測效果,但是每個算法都有各自的優(yōu)點和缺點,因此單獨依靠一種算法很難滿足精度和速度的要求,算法之間可以取長補短,發(fā)揮各自優(yōu)勢,提高檢測速度和精度,但滿足某些具體場景實時性需要,如高速行駛中的智能車輛環(huán)境檢測,還需要較長時間才能夠?qū)崿F(xiàn)。
未來目標檢測研究和探索方向包括以下幾個方面:
(1)因果推理。因果推理是一種是機器擁有常識,通過常識進行判斷的一種小數(shù)據(jù)驅(qū)動大任務(wù)的技術(shù),可以應(yīng)用在圖像分類,視頻問答,場景圖生成,相比于通過大量數(shù)據(jù)訓練出來的模型來說,有了內(nèi)因加持的因果性,而不是基于數(shù)據(jù)擬合后的相關(guān)性,減少誤檢的情況,提高檢測的精度。期待在未來因果推理可以實現(xiàn)量化應(yīng)用到目標檢測技術(shù)上。
(2)弱監(jiān)督或無監(jiān)督目標檢測。由于目前想要得到良好效果的深度學習技術(shù)都離不開大量數(shù)據(jù)標注的堆砌,訓練后效果好壞與訓練時用的數(shù)據(jù)的好壞成正比,僅使用少量標注數(shù)據(jù)標注后或者自動標注技術(shù)的目標檢測技術(shù),可以減少人工標注的成本和繁瑣,弱監(jiān)督或無監(jiān)督目標檢測會成為將來的一個關(guān)鍵方向。
(3)模型可解釋。神經(jīng)網(wǎng)絡(luò)訓練數(shù)據(jù)時設(shè)置的參數(shù),如:學習率、衰減系數(shù)、卷積核大小。這些參數(shù)設(shè)置多少時模型可以得到最好的效果,目前并無法解釋,盲目調(diào)參且結(jié)果是未知的,若模型可以解釋,訓練數(shù)據(jù)時會節(jié)省很多時間成本而且會得到效果最好的訓練模型。
(4)通用多目標檢測器。針對區(qū)域的檢測器往往性能更好,在預定義的數(shù)據(jù)集上實現(xiàn)了較高的檢測精度。設(shè)計一種沒有任何先驗知識的通用的標檢測器檢測出多領(lǐng)域的目標是未來的基本研究方向。
加之目前計算機視覺領(lǐng)域的很多技術(shù)都處于定制化階段,并不能有很好的實用性,實際應(yīng)用時效果非常局限,基于以上種種,目標檢測這一基本任務(wù)仍然是一個很有挑戰(zhàn)性的課題,有足夠的探索和進步空間。