毛玉仁, 郭 松, 鄭陽(yáng)明, 林 華
(1.浙江大學(xué) 航空航天學(xué)院 微小衛(wèi)星研究中心,浙江 杭州 310027; 2.上海航天技術(shù)研究院, 上海 200235)
基于似物性判別的視覺(jué)目標(biāo)檢測(cè)方法*
毛玉仁1, 郭 松2, 鄭陽(yáng)明1, 林 華1
(1.浙江大學(xué)航空航天學(xué)院微小衛(wèi)星研究中心,浙江杭州310027;2.上海航天技術(shù)研究院,上海200235)
提出了一種基于似物性判定理論的單圖像視覺(jué)目標(biāo)檢測(cè)算法。在組合幾何學(xué)的引導(dǎo)下遴選候選圖像窗口;應(yīng)用創(chuàng)新提出的基于圖像分割的結(jié)構(gòu)化特征結(jié)合支持向量機(jī)對(duì)候選窗口的似物性進(jìn)行評(píng)分;根據(jù)評(píng)分對(duì)候選窗口進(jìn)行排序遴選。在PASCAL VOC2007數(shù)據(jù)集上進(jìn)行了定量驗(yàn)證,結(jié)果表明:當(dāng)候選集容量為1 000時(shí),算法可達(dá)到96.1 %的召回率。檢測(cè)性能優(yōu)于目標(biāo)識(shí)別領(lǐng)域的4種經(jīng)典算法。
目標(biāo)檢測(cè); 似物性判定; 基于圖像分割的結(jié)構(gòu)化特征
基于單張圖像的目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域最富挑戰(zhàn)的研究課題之一。目前,對(duì)于一些特定物體的目標(biāo)檢測(cè)技術(shù)已經(jīng)很成熟并廣泛應(yīng)用于各種圖像設(shè)備中,如人臉檢測(cè)[1]、行人檢測(cè)[2]等。但是,針對(duì)任意物體的目標(biāo)檢測(cè)仍是計(jì)算機(jī)視覺(jué)領(lǐng)域的難題。而該檢測(cè)技術(shù)恰恰是當(dāng)前人工智能設(shè)備中急需的技術(shù)。本文主要研究針對(duì)任意物體的目標(biāo)檢測(cè)技術(shù),即準(zhǔn)確定位出圖像中的前景物體,并指明該物體的存在范圍。
基于圖像窗口似物性(objectness)判別的目標(biāo)檢測(cè)方法是目前目標(biāo)檢測(cè)領(lǐng)域的研究熱點(diǎn),被廣泛認(rèn)為是解決任意物體檢測(cè)問(wèn)題的有效途徑。本文在似物性檢測(cè)(objectness estimation)的思想的基礎(chǔ)上,提出了一種基于似物性判別的目標(biāo)識(shí)別方法。該方法創(chuàng)新性地引入了組合幾何學(xué)的知識(shí),縮小了初始候選圖像窗口集的容量。采用特征工程的方法提出了一種基于圖像分割的特征,可以較好地表征圖像窗口的似物性。結(jié)合支持向量機(jī)(support vector machine,SVM),生成了一種對(duì)圖像候選窗口進(jìn)行評(píng)分的體系。應(yīng)用評(píng)分對(duì)初始候選集進(jìn)行排序,可遴選出最有可能包含目標(biāo)的候選圖像窗口。
算法在PASCAL VOC2007[3]的測(cè)試圖片上進(jìn)行測(cè)試。取得了較4種經(jīng)典方法[4~7]更好的檢測(cè)性能。
似物性定義了一個(gè)圖像窗口中包含一個(gè)目標(biāo)物體的可能性。基于似物性判定的目標(biāo)檢測(cè)方法旨在生成一個(gè)涵蓋圖像中所有前景物體(即目標(biāo))的圖像窗口候選集。所提出的候選集容量盡可能小,召回率盡可能高?;谒莆镄缘哪繕?biāo)檢測(cè)方法的整體框架如圖1所示。
圖1 基于似物性判定的目標(biāo)檢測(cè)方法的整體框架
目前,初始候選集的生成[8~10]旨在方法的源頭減小候選集的容量,縮小目標(biāo)檢測(cè)在圖像上的搜索范圍。評(píng)分模塊對(duì)候選集中的圖像窗口的似物性進(jìn)行打分,似物性越高評(píng)分越高,反之越低。評(píng)分之后對(duì)候選圖像窗口按其得分進(jìn)行逆序排序,遴選將排在前面的圖像窗口集合作為目標(biāo)檢測(cè)方法提出的最終候選集。
本文在基于似物性的目標(biāo)檢測(cè)框架的基礎(chǔ)上采用基于滑動(dòng)窗口的方法在組合幾何的指引下進(jìn)行初始候選集生成,并提出了基于圖像分割的結(jié)構(gòu)化特征對(duì)評(píng)分模塊進(jìn)行改進(jìn),取得了較經(jīng)典方法更好的檢測(cè)性能。本文方法的檢測(cè)效果如圖2所示,其中矩形框框定的區(qū)域?yàn)樗岢龊蜻x集中IoU(intersection of union) 最高的候選窗口。
圖2 本文方法在VOC2007數(shù)據(jù)集測(cè)試圖片上的檢測(cè)效果
2.1 初始候選集生成
對(duì)一張W×H的圖像,遍歷圖像中所有位置所有尺寸需要WH(W-1)(H-1)/4個(gè)圖像窗口。可見(jiàn),通過(guò)窮舉遍歷生成初始候選集在計(jì)算上是不可行的。初始候選集必須在更優(yōu)化的策略下生成,在容量盡可能小的情況下覆蓋圖像中所有潛在的目標(biāo)區(qū)域。
文獻(xiàn)[11]從組合幾何學(xué)的角度證明了在采用IoU-0.5準(zhǔn)則(IoU大于0.5,即認(rèn)為有效覆蓋了目標(biāo)) 的情況下,一張圖像中的所有潛在目標(biāo)可以被少于5 000個(gè)具有36種圖像窗口尺寸的圖像窗口完全覆蓋。本文結(jié)合文獻(xiàn)[4]和文獻(xiàn)[11]提出了一種初始候選集生成策略,如下:1)定義36種圖像伸縮尺寸{(W0,H0)},并將原圖像進(jìn)行伸縮變化到以上尺寸生成36種尺寸的圖像,其中,W0,H0∈{10,20,40,80,160,320}。2)用8×8的圖像窗口在每一種尺寸對(duì)應(yīng)的圖像上滑動(dòng)遍歷所有位置,并賦予每個(gè)圖像窗口以隨機(jī)評(píng)分。3)運(yùn)用極大值抑制將得分小的窗口去除。如果一種尺寸上的候選窗口數(shù)量大于150,則隨機(jī)選取150個(gè)候選窗口作為對(duì)應(yīng)尺寸圖像的候選集。4)獲得所有8×8候選窗口后,進(jìn)行相應(yīng)的反變換,映射到原圖像的對(duì)應(yīng)位置和對(duì)應(yīng)尺寸。
通過(guò)上述策略產(chǎn)生的初始候選集可以在容量小于3 000時(shí)覆蓋97 %以上的潛在目標(biāo)。
2.2 基于圖像分割的結(jié)構(gòu)化特征
如何在初始候選集的基礎(chǔ)上遴選出似物性高的候選圖像窗口是基于似物性的目標(biāo)檢測(cè)問(wèn)題的關(guān)鍵。本文提出了一種基于圖像分割的結(jié)構(gòu)化特征(segmentation-based structural feature,SSF),可以提升似物性判定的性能。
通過(guò)觀察圖像分割后的結(jié)果,發(fā)現(xiàn)含有潛在目標(biāo)的圖像窗口包含的分割圖塊的結(jié)構(gòu)與不包含的目標(biāo)的窗口具有很大區(qū)別。前者窗口中有著更多的完整的獨(dú)立圖塊,獨(dú)立于窗口外超像素,如圖3所示。窗口內(nèi)的圖塊的組合方式,本文稱為窗口基于圖像分割的結(jié)構(gòu),也可以作為區(qū)分窗口是否包含目標(biāo)的特征。
得益于圖像分割領(lǐng)域的研究進(jìn)展[12~14],圖像分割可以實(shí)現(xiàn)與邊緣檢測(cè)等底層視覺(jué)變換的快速和高效,保證了基于圖像分割的方法的運(yùn)算效率。本文采用文獻(xiàn)[12]提出的圖像分割方法。參數(shù)設(shè)定為δ=0.08,k=300。
本文圖像分割方法的結(jié)構(gòu)化特征(SSF)共13維,來(lái)源于窗口中的圖塊的3種屬性:存在范圍,完整性和獨(dú)立性。
圖3 基于圖像分割的結(jié)構(gòu)化特征效果展示
將圖塊的存在范圍劃歸于6個(gè)區(qū)間中((0.5,1],(0.25,0.5],(0.125,0.25],以此類推),并計(jì)算屬于每種區(qū)間的圖塊的完整性和獨(dú)立性。通過(guò)上述策略可以得到12維特征。另外,圖像窗口的橫、縱比可以作為判斷似物性的輔助特征。容易發(fā)現(xiàn),一個(gè)100×200的圖像窗口較一個(gè)5×200的圖像窗口更有可能包含有目標(biāo)。故將圖像窗口的橫、縱比作為SSF第13維特征。
SSF的前6維特征定義了圖像窗口中包含的圖塊的完整性,可以由式(1)計(jì)算
(1)
式中Ss,sk,T分別為圖像窗口中包含的所有圖塊的集合,集合中的第k個(gè)圖塊及決定一個(gè)圖塊是否完整的閾值,設(shè)置T=0.6;Psk為sk的存在范圍。
(2)
式中Wsk,Hsk分別為圖塊sk的外界矩形的寬度和高度;W,H分別為該圖像窗口的寬度和高度。
Isk為表征sk完整性的變量
(3)
六維特征用于表示屬于各存在范圍區(qū)間的圖塊的獨(dú)立性的統(tǒng)計(jì)信息計(jì)算如下
(4)
示例圖4中,以圖4(a)所示的圖像窗口為例解釋f1和f7的計(jì)算過(guò)程,由此可類推f2~f6和f8~f12的計(jì)算方法。該圖像窗口中的綠色圖塊和青色圖塊的外接矩形的面積大于了窗口1/2的面積(即1/2 第13維特征被定義為圖像窗口的橫縱比,其可由式(5)計(jì)算 (5) 上述13維特征具有旋轉(zhuǎn)不變和尺度不變形,可以作為衡量圖像窗口似物性的穩(wěn)定特征。從圖3中可看出,SSF具有較強(qiáng)的區(qū)分度。 圖4 f1和f7計(jì)算示例 2.3 生成評(píng)分模型進(jìn)行排序遴選 借鑒文獻(xiàn)[4]的評(píng)分策略在SSF的基礎(chǔ)上對(duì)圖像窗口的似物性進(jìn)行評(píng)分。 首先,計(jì)算初始候選圖像窗口的評(píng)分 si=〈w,φ(F)〉 (6) 式中w∈R13。Si為過(guò)濾得分(filtering score);i為圖像窗口所屬伸縮尺寸的標(biāo)記,i∈[1,2,…,36];F為圖像窗口的SSF;φ(·)為所選的核函數(shù)。 為了得到w,本文引入帶高斯核的支持向量機(jī)。在訓(xùn)練過(guò)程中,正例為在VOC2007的訓(xùn)練集中隨機(jī)遴選的IoU大于0.6的圖像窗口。負(fù)例為在VOC2007的訓(xùn)練集中隨機(jī)遴選的IoU小于0.4的圖像窗口。正、負(fù)例各2 000個(gè)。 在得到si后,對(duì)模型進(jìn)行調(diào)優(yōu)。對(duì)每一種尺寸的窗口的得分進(jìn)行加權(quán)加偏 (7) 式中vi,ti∈R分別為每一種窗口伸縮尺寸i的權(quán)重和偏置。其可以由36個(gè)線性支持向量機(jī)訓(xùn)練得到。訓(xùn)練集為VOC 2007的訓(xùn)練集中的樣本的初始候選集。應(yīng)用過(guò)濾得分si作為1維特征對(duì)線性支持向量機(jī)進(jìn)行訓(xùn)練。樣本則根據(jù)IoU-0.5準(zhǔn)則進(jìn)行標(biāo)注。IoU大于0.5的候選窗口標(biāo)注為正例,小于0.5被標(biāo)記為負(fù)例。 實(shí)驗(yàn)在包含20類4 952張圖片的PASCAL VOC 2007測(cè)試集上進(jìn)行。 首先,對(duì)SSF在似物性檢測(cè)上的區(qū)分度進(jìn)行了測(cè)試,然后測(cè)試了基于似物性判定的目標(biāo)檢測(cè)算法的檢測(cè)率(detection rate)隨候選窗口數(shù)量(#WIN)的變化情況。并在相同測(cè)試集上與4種其他方法進(jìn)行了對(duì)比。 3.1 特征區(qū)分度測(cè)試與對(duì)比 為了證明SSF的泛化性和區(qū)分度,構(gòu)建了評(píng)測(cè)系統(tǒng)用于評(píng)價(jià)其在判別一個(gè)圖像窗口中是否含有目標(biāo)的性能。即用應(yīng)用SSF作為二分類器的輸入特征,對(duì)圖像窗口是否包含物體進(jìn)行二分類。 訓(xùn)練集由在VOC2007訓(xùn)練集中的圖片上隨機(jī)選取的圖片窗口組成,其中正、負(fù)樣本各2 000個(gè)。測(cè)試集由在VOC2007測(cè)試集中的樣本上隨機(jī)選取的圖片窗口組成,其中,正、負(fù)樣本各500個(gè)。樣本的標(biāo)定按照IoU-0.5準(zhǔn)則進(jìn)行,即IoU大于0.5的圖像窗口被標(biāo)記為正例,小于0.5的被標(biāo)記為負(fù)例。在同樣采用線性支持向量機(jī)作為分類器的情況下。應(yīng)用SSF特征可以達(dá)到的分類準(zhǔn)確率高于經(jīng)典的BING[4]特征和卷積神經(jīng)網(wǎng)絡(luò)中間層特征(VggNet 第19層輸出向量)。識(shí)別準(zhǔn)確率如表1所示。 表1 分類準(zhǔn)確率對(duì)比 實(shí)驗(yàn)結(jié)果表明:本文SSF特征對(duì)圖像窗口的似物性具有表征能力。在維度較低的情況下,性能優(yōu)于經(jīng)典的似物性特征描述子。 3.2 檢測(cè)率測(cè)試與對(duì)比 應(yīng)用DR#win測(cè)量準(zhǔn)則在VOC 2007測(cè)試集上驗(yàn)證所提出的基于似物性判定的目標(biāo)檢測(cè)方法,并與方法BING[4],OBN[5],CSVM[6],SEL[7]進(jìn)行了對(duì)比。結(jié)果如圖5所示。定量實(shí)驗(yàn)結(jié)果表明:所提方法在候選集容量為1 000時(shí)可達(dá)到96.1 %的召回率。在候選樣本容量小于100時(shí)性能明顯優(yōu)于其他4種方法,即本文方法可以在小尺寸候選集上取得更高的召回率。圖中展示的其他4種經(jīng)典方法的結(jié)果均按照對(duì)應(yīng)文獻(xiàn)中提供的參數(shù)設(shè)定進(jìn)行仿真。 圖5 檢測(cè)率隨候選窗口數(shù)量變化情況對(duì)比 提出了一種基于圖像分割的結(jié)構(gòu)化特征,該特征對(duì)圖像窗口的似物性具有很強(qiáng)的表征能力。在該特征和組合幾何學(xué)的基礎(chǔ)上,提出了一種基于似物性判定的目標(biāo)識(shí)別方法,其可以在候選集容量較小的情況下,取得較高的召回率。方法適用于人工智能設(shè)備的視覺(jué)系統(tǒng),具有廣闊的應(yīng)用前景。 [1] Viola P,Jones M J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154. [2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Computer Vision and Pattern Recognition(CVPR),San Diego:IEEE,2005:886-893. [3] Everingham M,Winn J.The PASCAL visual object classes challenge 2007,VOC 2007,Development Kit[R].Leeds:University of Leeds,2007. [4] Cheng M M,Zhang Z,Lin W Y,et al.BING:Binarized normed gradients for objectness estimation at 300fps[C]∥Computer Vision and Pattern Recognition(CVPR),Columbus:IEEE,2014:3286-3293. [5] Alexe B,Deselaers T,Ferrari V.Measuring the objectness of image windows[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2189-2202. [6] Zhang Z,Warrell J,Torr P H S.Proposal generation for object detection using cascaded ranking SVMs[C]∥Computer Vision and Pattern Recognition(CVPR),Colorado:IEEE,2011:1497-1504. [7] Uijlings J R R,van de Sande K E A,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171. [8] Yan Q,Xu L,Shi J,et al.Hierarchical saliency detection[C]∥Computer Vision and Pattern Recognition(CVPR),Portland:IEEE,2013:1155-1162. [9] Alexe B,Deselaers T,Ferrari V.What is an object[C]∥Computer Vision and Pattern Recognition(CVPR),San Francisco:IEEE,2010:73-80. [10] Zitnick C L,Dollár P.Edge boxes:Locating object proposals from edges[C]∥European Conference on Computer Vision,Zurich:Springer International Publishing,2014:391-405. [11] Zhao Q,Liu Z,Yin B.Cracking bing and beyond[C]∥British Machine Vision Conference(BMVC),BMVA Press,2014. [12] Felzenszwalb P F,Huttenlocher D P.Efficient graph-based image segmentation[J].International Journal of Computer Vision,2004,59(2):167-181. [13] Arbelaez P,Maire M,Fowlkes C,et al.Contour detection and hierarchical image segmentation[J].IEEE Transactions on Pattern Analysis and Machine intelligence,2011,33(5):898-916. [14] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905. Visualobjectdetectionmethodbasedonobjectnessestimation* MAO Yu-ren1, GUO Song2, ZHENG Yang-ming1, LIN Hua1 (1.Micro-satelliteResearchCenter,SchoolofAeronauticsandAstronautics,ZhejiangUniversity,Hangzhou310027,China;2.ShanghaiAcademyofSpaceflightTechnology,Shanghai200235,China) An object detection method for single images based on objectness estimation theory is proposed.Original proposals are generated based on combinational geometry.The proposals are scored by segmentation-based structural feature and support vector machine.Proposals are sorted according to their score.Quantitative validation on PASCAL VOC 2007 dataset,when the number of the proposals is 1 000,the algorithm can achieve recall rate at 96.1 %.Its detection performnce outperforms four classic algorithms. object detection; objectness estimation; image segmentation-based structural feature 10.13873/J.1000—9787(2017)11—0147—04 TP 391.41 A 1000—9787(2017)11—0147—04 2016—10—31 國(guó)家“863”高技術(shù)研究發(fā)展計(jì)劃資助項(xiàng)目(GFJG—128205—E31401) 毛玉仁(1991-),男,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué),機(jī)器學(xué)習(xí)。 鄭陽(yáng)明(1978-),男,通訊作者,副教授,主要從事機(jī)器人整體,計(jì)算機(jī)視覺(jué),人工智能應(yīng)用等方面的研究工作。3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4 結(jié) 論