蔡 凡
(閩南理工學(xué)院, 工業(yè)自動化控制技術(shù)與信息處理福建省高校重點實驗室, 福建 泉州 362700)
行人檢測是指利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在行人,并對存在的行人進行精確定位。行人檢測結(jié)果得出的判斷是否準確、定位是否精確,這涉及多個方面的影響因素,其中對行人特征的提取和有關(guān)計算方法至關(guān)重要。一般是通過邊緣特征、形狀特征、統(tǒng)計特征或變換特征等圖像的各類靜態(tài)特征來描述行人[1];提取行人特征的方法主要有Haar小波特征法、HOG特征法、Edgelet特征法[2]等。本次研究,主要針對傳統(tǒng)的HOG+SVM行人檢測模型易受行人所處位置、影像大小和背景干擾等因素影響的問題,提出一種基于選擇性搜索和特征學(xué)習的級聯(lián)行人檢測算法。利用選擇性搜索算法在待檢測圖像上提取潛在的行人目標,將選擇性搜索與AlexNet網(wǎng)絡(luò)模型相結(jié)合,通過級聯(lián)的形式逐步排除干擾目標。運用此方法,可減少計算量,提高行人檢測的效率。
在檢測初期,選擇窗口常用滑動窗口,即通過不斷改變窗口尺寸,對待檢測圖片進行窮舉搜索[3]。這種窮舉搜索方法比較簡單,但存在兩個問題:一是由于會產(chǎn)生大量非行人窗口,從而增加誤檢率;二是由于滑動的次數(shù)過多,會增加檢測時間,影響檢測效率。為克服滑動窗口技術(shù)的不足,在此提出一種選擇性搜索方法,就是將密集搜索、分割搜索、隨機采樣搜索方法結(jié)合使用,找出可能出現(xiàn)的目標區(qū)域,然后進行識別。相比窮舉搜索法,選擇性搜索方法在對行人進行定位時,在效率和準確度上都有十分明顯的優(yōu)勢。
近年來,出現(xiàn)了許多獲取目標候選區(qū)域的方法,如密集搜索、分割搜索、隨機采樣搜索方法。這些方法主要可分為兩種類型:一類是碎片融合型,就是先將圖片碎片化,然后重新組合;另一類是窗口打分選擇型,就是先分割出大量小窗口,然后對各窗口與行人進行比對打分,按分數(shù)高低進行排序,剔除低分窗口。文獻[4]提出的選擇性搜索方法,集合了分割方法和密集搜索方法,其基本思想主要是:利用圖像分割算法將目標圖片切成許多小的分塊,記作R={r1,r2,…,rn};然后將這些小的分塊利用分層分組算法予以合并,最后將它們?nèi)诤铣梢粋€大的整體。但是,對小分塊進行合并時,由于自然圖片的顏色、紋理等特征具有多樣性,計算機對它們進行識別的方法也必然存在差異。因此,在計算圖像最終的相似度時,我們先將顏色、紋理、尺寸、相容性等4種特征的相似度進行組合。
s(ri,rj)=a1sc(ri,rj)+a2st(ri,rj)+
a3ss(ri,rj)+a4sfill(ri,rj)
(1)
式中:s(ri,rj)表示ri和rj這2個相鄰區(qū)域圖像的相似度;sc表示顏色相似度;st表示紋理相似度;ss表示尺寸的相似度;sf表示吻合(相容)相似度;權(quán)值αi∈{0,1}。
在實驗中,設(shè)定不同的特征權(quán)值組合,計算圖像最終的相似度。經(jīng)過大量實驗,獲得效果較好的候選區(qū)域,然后抽取具有代表性的幾組特征權(quán)值組合對應(yīng)的平均召回率(見表1)進行比較。平均召回率的大小與行人候選區(qū)域的好壞具有正相關(guān)性。結(jié)合實驗結(jié)果,最后將4種特征相似度的權(quán)值組合確定為sc+0.5st+0.5ss+0.4sf。
表1 相似度權(quán)值組合及其對應(yīng)的平均召回率
與滑動窗口比較,選擇性搜索的行人候選窗口,減少了大量非行人窗口,但仍然會產(chǎn)生一些非行人窗口。以圖1為例,采用選擇性搜索技術(shù)得到159個候選區(qū)域。在未設(shè)置行人圖像尺度時,非行人的區(qū)域占了大部分。將圖中行人區(qū)域的寬度和高度分別設(shè)置為1.3 m和3.5 m,結(jié)果淘汰了部分非行人的區(qū)域,最后只留下25個含行人的候選區(qū)域。
圖1 行人圖片
方向梯度直方圖(HOG)是計算機視覺、模式識別領(lǐng)域常用的一種描述圖像局部紋理的特征。它是通過計算圖片某一區(qū)域中不同方向上梯度的值,然后進行累積而得到的直方圖,可以代表這塊區(qū)域。
支持向量機(SVM)是一種常見的分類判別方法。在行人檢測中,可將SVM用作區(qū)分行人和非行人的分類器。如應(yīng)用基于網(wǎng)格法的SVM,就是先采集得到正樣本(行人)和負樣本(非行人,如汽車、樹木、路燈等),提取出樣本的HOG特征,再應(yīng)用SVM分類器對其進行訓(xùn)練,從而得到行人檢測模型。將HOG特征與SVM級聯(lián)結(jié)合起來,利用OpenCV中提供的計算HOG特征功能,采集HOG特征,供SVM分類使用,最終實現(xiàn)行人檢測。
采集HOG特征的主要思想是,通過對圖像進行局部區(qū)域化,然后對局部目標的表象和形狀的各像素點梯度或邊緣密度方向直方圖進行描述,最后即可根據(jù)直方圖信息描述圖片特征。本次研究的選擇性搜索的行人檢測系統(tǒng),即以“HOG+SVM”的方式,提取HOG特征,建立訓(xùn)練集。其檢測流程如圖2所示。
圖2 基于選擇性搜索的行人檢測流程示意
AlexNet網(wǎng)絡(luò)模型主要利用了卷積神經(jīng)網(wǎng)絡(luò)模型的概念。與傳統(tǒng)的機器學(xué)習分類算法比較,AlexNet網(wǎng)絡(luò)模型的準確率可達57.10%,已經(jīng)相當出色。在機器學(xué)習中,該網(wǎng)絡(luò)模型主要利用多參數(shù)層、多分類形成邏輯回歸,然后通過有限的訓(xùn)練樣本去逼近訓(xùn)練樣本的全局分布[5],實現(xiàn)訓(xùn)練樣本的正確率。在此,同樣采用基于選擇性搜索和AlexNet 網(wǎng)絡(luò)模型的級聯(lián)行人檢測。
基于機器學(xué)習的級聯(lián)行人檢測主要包括以下內(nèi)容:
(1) 利用HOG特征、分類器、行人數(shù)據(jù)庫及評估標準等現(xiàn)有數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),準備訓(xùn)練集。
(2) 用Caffe框架實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)AlexNet模型,建立訓(xùn)練集,實現(xiàn)行人模型參數(shù)的調(diào)節(jié)[5]。
(3) 采用選擇性搜索算法,在待檢測圖像上提取潛在的行人目標。
(4) 利用行人特有的長寬比信息,排除不合理的潛在行人目標,得到候選行人目標。
(5) 完成針對候選行人目標的區(qū)域完善。
(6) 將候選人目標輸入AlexNet行人檢測模型,得到行人目標,同時排除干擾目標。
(7) 利用測試數(shù)據(jù)集進行測試,計算檢測的準確率和誤檢率。
應(yīng)用以上檢測方法,可有效解決行人重疊和遮擋的問題,加快檢測速度,強化檢測實時性。
利用ETH行人數(shù)據(jù)集來檢驗算法的性能,將漏檢率和誤檢率作為檢測行人的性能參數(shù)。該數(shù)據(jù)集記錄了所有測試樣本在不同分類器下的漏檢率和誤檢率。
在ETH數(shù)據(jù)庫中,運用不同方法對同一目標進行檢測。結(jié)果顯示,漏檢率都是隨誤檢率的增加而減少。以HOG特征為例,對目標候選區(qū)域先進行選擇性搜索,再分別利用HOG和AlexNet進行級聯(lián)分類,結(jié)果所得檢測錯誤曲線如圖3所示。
圖3 2種級聯(lián)分類方法在ETH數(shù)據(jù)庫中的檢測錯誤曲線
在ETH數(shù)據(jù)庫中,3種分類器下目標檢測的誤檢率和漏檢率稍有差異。與傳統(tǒng)的HOG特征法相比,當誤檢率均為10%時,采用選擇性搜索的行人檢測方法的漏檢率均有所降低。其中,基于選擇性搜索和HOG的檢測結(jié)果,漏檢率約降低3.52個百分點;基于選擇性搜索和AlexNet模型的行人檢測結(jié)果,漏檢率約降低9.32個百分點(見表2)。采用選擇性搜索產(chǎn)生候選窗口的方法,相以滑動窗口的行人檢測系統(tǒng),檢測的時效性有所改善,漏檢率也有所下降。
利用 Caltech 行人數(shù)據(jù)集來檢驗算法的性能。獲得的可用于描述不同分類器性能的檢測錯誤曲線如圖4所示。所有測試樣本在3種分類器下的漏檢率和誤檢率,如表3所示。
表2 在ETH數(shù)據(jù)庫中不同方法的檢測結(jié)果
圖4 2種級聯(lián)分類方法在Caltech數(shù)據(jù)庫中的檢測錯誤曲線
表3 在Caltech數(shù)據(jù)庫中不同方法的檢測結(jié)果
利用 Caltech 行人數(shù)據(jù)集進行的算法實驗結(jié)果表明,在誤檢率均為10%時,采用選擇性搜索和ALexNet網(wǎng)絡(luò)模型算法,相比傳統(tǒng)的HOG特征法,漏檢率減少11.63個百分點;相比選擇性搜索和HOG算法,漏檢率減少6.22個百分點。同時也表明,利用選擇性搜索時,AlexNet的級聯(lián)行人檢測效果優(yōu)于SVM的級聯(lián)行人檢測效果。
與傳統(tǒng)的HOG特征算法比較,采用選擇性搜索與HOG或AlexNet的級聯(lián)行人檢測方法,改進了選擇性搜索產(chǎn)生的候選窗口,可以減少大量非行人窗口的數(shù)量。通過AlexNet行人模型相關(guān)參數(shù),對AlexNet神經(jīng)網(wǎng)絡(luò)進行迭代訓(xùn)練,建立訓(xùn)練集,最終構(gòu)造有效分類器。實驗表明,將HOG特征和AlexNet模型相結(jié)合,可有效提高行人檢測的效率,降低誤檢率和漏檢率。