劉 佳 譚龍雨 劉李漫
(中南民族大學生物醫(yī)學工程學院 武漢 430074)
近年來,基于圖像或者視頻的行人檢測[1]已經(jīng)被廣泛地應(yīng)用到自動駕駛、智能監(jiān)控、人體行為分析和機器人導航等領(lǐng)域,其應(yīng)用給人們的生活和出行帶來了諸多便利。目前行人檢測的方法主要有:基于運動特性的方法、基于模板匹配的方法、基于統(tǒng)計學習的方法。相比前兩種行人檢測方法,基于統(tǒng)計學習的方法具有檢測精度高、魯棒性好的優(yōu)點,是當今行人檢測研究的重點和熱點。
基于統(tǒng)計學習的方法通過離線學習獲得行人檢測分類器,用訓練好的分類器模型對輸入圖像進行檢測。早期基于統(tǒng)計學習的方法通過haar小波特征[2]或者 haar-like[3]特征對行人的外觀特征進行描述,然后通過SVM或者Adaboost等機器學習方法對提取的特征進行訓練,得到行人檢測分類器進行行人的檢測。由Dalal[4]提出的梯度直方圖特征(HOG),通過提取行人的邊緣梯度信息,利用梯度方向直方圖對行人進行描述,然后通過SVM對特征訓練,獲得行人檢測分類器。該方法具有較好的旋轉(zhuǎn)和尺度不變性,但其檢測速度慢,不適合視頻環(huán)境下的實時檢測。文獻[5]通過結(jié)合edgelet特征、HOG特征和協(xié)方差特征,利用級聯(lián)的方式對行人進行檢測,有較好的效果。文獻[6]在HOG特征的基礎(chǔ)上進行了改進,提出了判別訓練的多尺度可變形部分模型(DPM)??勺冃尾糠帜P吞崛〔煌瑢哟蔚奶荻忍卣?,將行人模型分為兩部分:一部分為根模型,采用尺度較大的梯度特征表示,一部分為部分模型,采用尺度較小的梯度特征表示。可變形部分模型取得了非常好的行人檢測結(jié)果。
上述的大多數(shù)方法都是針對單幅圖像進行檢測的。對于視頻來說,視頻中的運動信息以及前后幀之間同一目標的一致性等信息都為行人檢測提供了更多的線索,這些線索可以用來輔助行人檢
測。本文提出了一種基于匹配鏈的行人協(xié)同檢測方法,能夠融合視頻中的各種信息來輔助行人檢測。該方法利用目標的一致性特征,構(gòu)建視頻前后幀之間的行人匹配鏈。通過匹配鏈中的所有檢測結(jié)果,對當前幀檢測結(jié)果進行優(yōu)化,從而提高行人檢測的準確度,降低誤檢率和漏檢率。在實驗部分,將8種方法與提出的行人協(xié)同檢測框架相結(jié)合,并對比了每種方法在結(jié)合協(xié)同框架前后的檢測效果。實驗證明我們提出的行人協(xié)同檢測框架能夠有效地提高行人檢測的準確性,減少行人檢測的誤檢率和漏檢率。對于測試的8種行人檢測方法,包括 HOG[4],LatSvm-V2[6],Pls[7],F(xiàn)PDW[8],ChnFtrs[9],MultiFtr[10],MultiFtr+CSS 和 MultiFtr+Motion[11],我們的協(xié)同框架能夠有效地減少6%~13%的漏檢率。
考慮一個圖像序列I={Ii},其中i=-n,…,0,1,…,n,I0表示當前幀,Ii(i=-n,…,-1)表示當前幀的前n幀,Ii(i=1,…,n)表示當前幀的后n幀。分類器模型采用滑動窗口的方式對每一幀圖像中的所有候選框進行檢測,分類器模型與每一個滑動窗口卷積得到一個可信度得分,得分高表示該窗口包含行人的可能性越大。分類器采用一個設(shè)定的閾值對所有的滑動窗口進行過濾,得分大于閾值的窗口被認為是最終的行人檢測候選結(jié)果。為了減少分類器的漏檢,本文在進行行人檢測過程中,首先采用一個低于分類器設(shè)定閾值的閾值Tl來獲取每一幀的檢測候選結(jié)果。為了對候選檢測結(jié)果的可信度進行劃分,本文另外設(shè)定兩個閾值Tm和Th(Tl≤Tm≤Th)用于劃分結(jié)果的可信度。下文中,不同可信度的候選結(jié)果用不同的顏色標記。黑色矩形框表示檢測分數(shù)大于Th的候選窗口,淺灰色矩形框表示檢測分數(shù)介于Tm和Th之間的候選窗口,深灰色矩形框表示檢測分數(shù)介于Tl和Tm之間的候選窗口。DPM是近幾年最熱門的行人檢測算法,為了便于描述,這里選取DPM作為我們的基檢測器?;谄ヅ滏湹男腥藱z測及優(yōu)化框架如圖1所示。對DPM算法,分別選取Tl=-0.9,Tm=0.5以及Th=0.9。首先采用基本檢測器通過低閾值Tl得到較多的結(jié)果。然后對當前幀圖像I0中的每一個檢測結(jié)果找到其在相鄰幀的匹配,構(gòu)建匹配鏈。利用匹配鏈對當前幀的可信度進行更新,然后再利用閾值Tm去掉可信度較低的檢測,得到最終的檢測結(jié)果。
定義Pi={pij|-n≤i≤n,j=1,…,mi}為第i幀圖片Ii的候選行人窗口,其中mi表示圖片Ii的候選行人窗口數(shù)。定義f(pij)為窗口pij的某種特征。考慮視頻中連續(xù)兩幀Ii和Ii+1的兩個候選行人窗口piki(1≤ki≤mi)和p(i+1)ki+1(1≤ki+1≤mi+1),將它們之間的距離定義為diki,(i+1)ki+1=||f(piki)-表示 L1 范數(shù)。越小表示越相似。只有當piki與p(i+1)ki+1之間的距離滿足以下兩個條件時,才認為它們是一對有效匹配
如 果 對 所 有 的 i=-n,…,0,…,n-1 ,都存在,那么可以說0,…,n-1是圖像序列I的一條匹配鏈。
為了克服遮擋和光照的變化引起外觀的變化問題,本文采用稠密SIFT和顏色特征相結(jié)合的方法作為匹配方法[11],實驗證明這種方法對外觀變化具有很好的魯棒性。
圖2展示了匹配鏈的一個例子。當我們從圖像序列中找到匹配鏈之后,匹配鏈中的其他檢測結(jié)果便可用來改善匹配鏈中當前時刻的檢測結(jié)果。如圖2所示,匹配鏈由相鄰幀的最佳匹配組成。為了方便敘述,檢測結(jié)果用不同的顏色來標記,不同顏色代表的含義與圖1相同。從圖1中可以看到,一個得分為0.3636的正確檢測(右側(cè)第三行第三列)最初由灰色矩形框標記,由于它與得分為1.2835的黑色矩形框(右側(cè)第五行第三列)在同一匹配鏈中,因此它的得分被更新為0.9646;而一個得分為0.6416的錯誤檢測(右側(cè)第三行第五列)最初由白色矩形框標記,由于匹配鏈中的其它窗口的得分都較低,因此它的得分被更新為0.4125。實驗結(jié)果表明,協(xié)同行人檢測可以提高檢測準確率。
圖2 匹配鏈示例
圖1的匹配鏈部分展示了一些圖像序列中的匹配鏈的例子。為了便于描述,在第2節(jié)中我們設(shè)置了三個閾值(Tl、Tm和Th),還引入了三種顏色來標記候選行人窗口。在匹配鏈中,被標記為藍色的候選行人窗口可以用來加強當前候選行人窗口的檢測分數(shù),而被標記為紅色的候選行人窗口則會降低當前候選行人窗口的檢測分數(shù)。由于大部分行人都能被行人檢測算法檢測到,而且整體來說行人窗口的得分比背景窗口的得分更高。當前幀的行人得分較低時,可以通過匹配鏈利用鄰近幀的同一行人來加強當前幀的行人得分。為了衡量匹配對之間的相似度,這里采用高斯函數(shù)(Gaussian Function)將之前的距離轉(zhuǎn)化為相似度,即
其中d(x,y)是第2節(jié)中提到的L1范數(shù),σ是高斯函數(shù)帶寬,x和y表示候選行人窗口的特征。
匹配鏈中每個候選窗口的檢測得分和同一匹配鏈中候選框的相似度是最終檢測結(jié)果得分更新過程的關(guān)鍵。不失一般性,這里以連續(xù)五幀的匹配鏈為例來描述得分更新過程。在匹配鏈中,每一幀的檢測結(jié)果分別用Pi-2,Pi-1,Pi,Pi+1和Pi+2來表示。假定是一對有效匹配,它們的相似度用 s(piki,p(i+1)ki+1)來表示,有 s(piki,p(i+1)ki+1)=s(p(i+1)ki+1,piki)。 {Pi-2,Pi-1},{Pi-1,Pi} 和 {Pi+1,Pi+2}之間的相似度也可以用類似的方法表示。得分更新過程可以用以下公式表示:
其中sf是更新后的得分,α表示更新權(quán)重,這里選取 α=0.5。 N(i)={i-2,i-1,i+1,i+2}代表匹配鏈中的其它候選窗口。
本文采用ETH數(shù)據(jù)集[13]和TUD-Brussels數(shù)據(jù)集[15]作為我們的實驗數(shù)據(jù)集,這兩個數(shù)據(jù)集都是從視頻中提取出來的連續(xù)幀,與本文的需求十分吻合。另外,本文采用文獻[14]提出的評價標準來評價本文的實驗結(jié)果,該評價方法假設(shè)每個行人在每幅圖片中只出現(xiàn)一次,這符合常識,很容易理解。
ETH數(shù)據(jù)集[13]是通過安裝在機器人上的攝像機來拍攝的不同的場景,該數(shù)據(jù)集的主要挑戰(zhàn)是行人外觀的變化、光照變化、行人之間的相互遮擋和輕微的運動模糊。TUD-Brussels數(shù)據(jù)集[15]是通過安裝在運動汽車上的攝像機來拍攝的,該數(shù)據(jù)集主要挑戰(zhàn)是行人的角度的變化以及小尺度的行人。
本文將8種現(xiàn)有的檢測算法分別與基于匹配鏈的行人檢測優(yōu)化框架相結(jié)合,實驗證明該優(yōu)化框架對這8種檢測算法都有不錯的效果。這8種檢測算法分別是 HOG[4],LatSvm-V2[6],Pls[7],F(xiàn)PDW[8],ChnFtrs[9],MultiFtr[10],MultiFtr+CSS 和 MultiFtr+Mo?tion[11]。其中 LatSvm-V2 即為 DPM 方法。本文采用文獻[14]提出的評價標準來評價我們的方法,該評價標準使用誤檢率-漏檢率(false positive per im?age-miss rate)曲線來衡量檢測方法的性能。
圖3和圖4、表1和表2展示了8種現(xiàn)有的檢測算法與本文優(yōu)化框架的評價結(jié)果對比,其中圖3和表1展示了在ETH數(shù)據(jù)集[13]上的評價結(jié)果對比,圖4和表2展示了在TUD-Brussels數(shù)據(jù)集[8]上的評價結(jié)果對比。帶有“+Our”標記的是經(jīng)過本文的優(yōu)化框架優(yōu)化后的結(jié)果,例如,“HOG+Our”表示經(jīng)本文的優(yōu)化框架優(yōu)化后的HOG算法。經(jīng)本文算法優(yōu)化后,所測試行人檢測算法在ETH數(shù)據(jù)集[13]上的平均漏檢率降低了約9%,在TUD-Brussels數(shù)據(jù)集[14]上的平均漏檢率降低了約4%。從對比結(jié)果中可以看出,平均漏檢率在ETH數(shù)據(jù)集[13]上降低的幅度明顯大于其在TUD-Brussels數(shù)據(jù)集[15]上的下降幅度,主要是因為TUD-Brussels數(shù)據(jù)集[15]中的行人分辨率較小,對于匹配鏈中特征的匹配提出了更高的要求。另外,不同的分類器在不同的數(shù)據(jù)集上的檢測結(jié)果也存在較大的差異??傮w而言,從圖3和圖4、表1和表2的結(jié)果對比可以看出,在所測試的8種檢測算法上,經(jīng)過本文中提出的框架的優(yōu)化,在相同水平的誤檢率條件下,結(jié)合本文提出框架的行人檢測算法能夠有效地降低行人檢測的漏檢率。不失一般性,我們選取LatSvm-V2[6]作為例子,這里的LatSvm-V2即DPM算法。圖5和圖6分別展示了DPM算法在ETH數(shù)據(jù)集[13]和TUD-Brussels數(shù)據(jù)集[15]上的部分圖像的原始檢測結(jié)果和經(jīng)過優(yōu)化框架優(yōu)化后的檢測結(jié)果的對比。
表1 ETH數(shù)據(jù)集[13]上的評價結(jié)果對比
圖3 ETH數(shù)據(jù)集[11]上的評價結(jié)果對比
圖4 TUD-Brussels數(shù)據(jù)集[8]上的評價結(jié)果對比
圖5 ETH數(shù)據(jù)集[13]上的部分結(jié)果對比圖
圖6 TUD-Brussels數(shù)據(jù)集[15]上的部分結(jié)果對比圖
表2 TUD-Brussels數(shù)據(jù)集[15]上的評價結(jié)果對比
圖5和圖6中的第一行顯示的是使用原始DPM對當前幀進行檢測得到的檢測結(jié)果,采用閾值Tm=0進行過濾,用DPM(T0)來標記;第二行顯示的是使用本文的方法經(jīng)過優(yōu)化后的輸出結(jié)果,采用閾值Tm=0進行過濾,用Ours(T0)來標記。從圖中可以看出本文的優(yōu)化框架可以明顯地找到更多的正確檢測,這證明了本文的優(yōu)化框架可以減少漏檢率,從而提高檢測性能。
本文提出了一種基于視頻的行人檢測優(yōu)化框架,使用基檢測器對輸入圖片進行行人檢測,并采用一個較分類器預設(shè)閾值更低的閾值進行過濾,使得更多的正確檢測進入候選行人窗口;然后對當前幀的每個候選行人窗口提取稠密SIFT和顏色特征,并計算顯著性概率圖,再將其與相鄰幀的候選行人窗口進行匹配,計算基于顯著性的匹配得分,依據(jù)有效匹配條件,得到匹配鏈;最后,依據(jù)匹配鏈更新當前幀中每個候選行人窗口的得分。對于修正后的檢測結(jié)果,采用一個預設(shè)閾值進行過濾,得到最終結(jié)果并輸出。實驗表明,基于匹配鏈的行人檢測優(yōu)化框架可以大大提高現(xiàn)有的行人檢測方法的檢測性能,同時,該優(yōu)化框架可以很容易地與其他行人檢測算法相結(jié)合,具有良好的通用性。