陳 皓, 霍 星
(1.中國電子科技集團公司第三十八研究所,安徽 合肥 230031;2.合肥工業(yè)大學數(shù)學系,安徽 合肥 230009)
人臉識別是一項極具發(fā)展?jié)摿Φ纳锾卣髯R別技術(shù),研究人臉識別技術(shù)具有十分重要的理論和應用價值。最近幾年,人臉識別技術(shù)取得了前所未有的發(fā)展,人臉識別在視頻監(jiān)控、人機交互等方面具有良好的應用前景,已成為模式識別、圖像處理等領(lǐng)域的研究熱點[1]。但在實際應用中的識別精度仍然難以滿足人們的預期要求,特別是采集圖像中存在光照變化、方位變化以及其他干擾時識別精度會受到很大影響[2]。
在實際應用如視頻監(jiān)控中對識別的穩(wěn)定性要求較高,但環(huán)境因素變化很大,使用傳統(tǒng)的基于單幅圖像的人臉識別算法得到的結(jié)果常常發(fā)生跳變,如一個人經(jīng)過可能會被識別成多個人,這對監(jiān)控人員的判斷造成了嚴重的影響,所以需要一種有效的方法提高人臉識別的穩(wěn)定性。
目前,關(guān)于視頻中的人臉識別和檢索文獻主要有 Everingham等提出采用人臉聚類的方法[3];文獻[4]、文獻[ [5]就正面人臉提出視頻中人臉識別的方法。文獻[3]的方法使用膚色模型對正面臉進行處理,沒有考慮到視頻的連續(xù)特性。文獻[4]、文獻[5]提出去除背景信息、姿態(tài)調(diào)整和支持向量機檢測人臉,得到較好的結(jié)果。文獻[6]將常用于光照補償?shù)膱D像處理方法和基于模型的光照錐方法進行了對比實驗,用以解決人臉識別系統(tǒng)中的光照問題。文獻[7]利用圖像融合技術(shù)實現(xiàn)了基于可見光圖像和紅外熱圖像相結(jié)合的多模式人臉識別,研究了兩種圖像在像素級和特征級的融合方法。文獻[8]為了克服光照、表情變化等因素對人臉識別的影響,提出了一種基于Gabor小波和最佳鑒別分析LDA的人臉識別方法。但上述方法中基本上都沒有考慮到幀與幀之間的關(guān)系。實際上,視頻的序列特性恰好提供了更多的人臉相關(guān)性,可以利用這一特性增強人臉識別的精度。文獻[9]提出基于子空間增量學習的視頻中人臉圖像檢索,將視頻中的相關(guān)性應用于人臉圖像檢索中,實現(xiàn)了對電影視頻中特定演員的檢索功能。而在基于視頻的人臉跟蹤方面有較多的文獻,但大部分僅實現(xiàn)了人臉的跟蹤,并未在視頻相關(guān)性基礎(chǔ)上實現(xiàn)人臉識別的改進。
受到文獻[9]的啟發(fā),本文在將人臉識別算法應用于視頻監(jiān)控項目中時,針對識別結(jié)果不穩(wěn)定的現(xiàn)象,深入研究了視頻中人臉相關(guān)性對識別精度的影響,提出了視頻中相關(guān)人臉的識別,不再孤立地對單一圖像進行人臉識別,而是從一系列相關(guān)圖像中識別人臉的身份。試驗結(jié)果表明,引入相關(guān)性概念后的視頻監(jiān)控,對人臉識別結(jié)果的穩(wěn)定性大大提高。
視頻中的人臉跟蹤可以視作目標跟蹤的一種,從統(tǒng)計的角度來看,目標跟蹤是一種概率推斷問題,其目的是通過觀測值來估計系統(tǒng)的未知狀態(tài),即求解狀態(tài)變量的后驗概率分布。根據(jù)貝葉斯公式,后驗分布可以通過狀態(tài)的先驗分布和聯(lián)系狀態(tài)與觀測的似然函數(shù)來確定。在貝葉斯估計方法中,狀態(tài)的先驗分布可以通過專家知識、機器學習等方法得到,似然函數(shù)則由系統(tǒng)的觀測方程得出。貝葉斯估計將目標狀態(tài)的求解轉(zhuǎn)換為基于貝葉斯推理的后驗概率的求解。得到狀態(tài)的后驗概率分布后,根據(jù)某種準則如最小方差估計、最大后驗估計、極大似然等,得出狀態(tài)的估計。然而,求解貝葉斯估計需要積分運算,求解困難。
針對視頻監(jiān)控這類特定場合,人臉目標的運動可以近似簡化為線性運動,在圖像空間中可以通過前后幀的人臉檢測結(jié)果——人臉中心距離和人臉面積變化來實現(xiàn)人臉的快速跟蹤。
設(shè)視頻中第N幀的人臉位置可以用矩形Rect表示,同時為對人臉目標實現(xiàn)跟蹤,設(shè)置人臉的跟蹤狀態(tài)S,則第N幀的人臉檢測結(jié)果記做
由于可能同時跟蹤多個目標,另外設(shè)置一個目標列表TraceList,每個列表項表示一個正在跟蹤的人臉目標。
人臉跟蹤的算法描述如下:
(1)將跟蹤列表置為空,開始人臉跟蹤。
(2)對第N幀圖像進行人臉檢測,得到人臉區(qū)域R。
(3)對TraceList中的每一個跟蹤目標,與R進行相關(guān)性判斷,如果沒有與R相關(guān)的跟蹤目標,則在TraceList中新建一項,保存當前檢測得到的人臉區(qū)域R,并將S設(shè)置為0(初始跟蹤)。
(4)如果存在與 R相關(guān)的 TraceList項Face,則以R更新Face中的Rect,并更新Face中的N為當前幀號。如果Face S等于0,則將Face S設(shè)置為1(穩(wěn)定目標)。
(5)更新所有的TraceList項,如果該項中的 N小于當前幀號,根據(jù) S進行處理,若S=0或2,將該項刪除;若S=1,將S設(shè)置為2(衰減目標)。
(6)獲取下一幀圖像,轉(zhuǎn)到步驟(2)繼續(xù)跟蹤。
跟蹤目標與R的相關(guān)性判斷相對簡單,根據(jù)跟蹤目標的位置變化和面積變化的程度以及人臉圖像的匹配程度計算相關(guān)度,計算公式如下
其中 compareFeature為比較兩幅人臉圖像的相似度, f acenow、 f aceold為當前幀和前一幀的人臉圖像, r ectnow、 r ectold為當前幀和前一幀人臉在圖像中的位置。
在人臉跟蹤的基礎(chǔ)上,可以輔助進行人臉識別的優(yōu)化。假設(shè)人臉跟蹤正確,可以確定多幅圖像對應的是同一個身份,再根據(jù)每幅圖像的識別結(jié)果進行加權(quán)判斷,可以使得人臉識別結(jié)果穩(wěn)定程度、精確度大大提升。識別流程如下:
(1)對當前圖像進行人臉檢測,如果檢測到人臉,尋找該人臉對應的歷史識別結(jié)果,如果不存在對應的歷史識別結(jié)果,則建立一個空的歷史識別結(jié)果。
(2)假設(shè)找到某個人臉圖像對應的歷史識別結(jié)果為
表示對于該人臉,之前的若干幀的識別結(jié)果中有k個可能的匹配人,其中第i個結(jié)果
(3)對該人臉圖像進行經(jīng)典的人臉識別,假設(shè)當前幀的識別結(jié)果為
表示對應該人臉,當前幀的識別結(jié)果中有 j個可能的匹配人。
(4)對于每個可能的匹配人,將分數(shù)乘以人臉可分辨度權(quán)值加上歷史識別結(jié)果中相同的匹配人的分數(shù),將其存儲為最終的識別結(jié)果分數(shù),以此更新該人臉的歷史識別結(jié)果。
(5)如果歷史參考幀數(shù)達到閾值,則在最終的識別結(jié)果分數(shù)中尋找分數(shù)最高的可能匹配人,作為最終識別結(jié)果輸出。
本文在傳統(tǒng)經(jīng)典人臉識別算法的基礎(chǔ)上,利用本文算法的改進提升了視頻監(jiān)控的人臉識別穩(wěn)定程度及精確程度。
改進算法和傳統(tǒng)單幅圖像識別算法的結(jié)果對比如表1所示。其中靜態(tài)識別算法對每幀圖像進行識別,而本文的算法對連續(xù)的視頻圖像中的人臉區(qū)域進行跟蹤,并在獲取多幀圖像后給出一個綜合識別結(jié)果。本文的改進算法較為穩(wěn)定,準確率更高,更為符合工程應用的需求。
表1 算法結(jié)果對比
同時,由于增加了歷史結(jié)果的判斷,算法在時間上比每幀識別的靜態(tài)識別算法要慢很多,但因為視頻監(jiān)控的應用環(huán)境并不要求對每幀圖像給出識別結(jié)果,僅需要在有人經(jīng)過時給出輔助監(jiān)控人員判別的識別結(jié)果信息即可。所以本文算法雖然在時間上慢于每幀識別的方式,但對于視頻監(jiān)控的應用領(lǐng)域完全可以滿足應用的需求,具有在工程實際中的應用價值。
圖1是視頻監(jiān)控中截取的一系列人臉跟蹤圖像。
本文的算法在多幀后給出識別結(jié)果,對于歷史參考幀數(shù)的選擇是需要考慮的一個重要參數(shù),根據(jù)目前的試驗,歷史參考幀數(shù)可以選擇在10~30幀之間,這樣既不會因為過多的參考歷史識別結(jié)果而影響識別速度,同時也避免了參考幀數(shù)過少而達不到提高穩(wěn)定性的目的。
本文提出了一種以視頻相關(guān)性為依據(jù)的人臉識別方法,在對每幅圖像進行人臉識別的過程中考慮視頻的相關(guān)性影響,實現(xiàn)了視頻監(jiān)控中的人臉識別功能,提高了視頻監(jiān)控中人臉識別的穩(wěn)定性和識別精度。實驗表明,本文方法得到了理想的識別結(jié)果,基本滿足工程應用的需求。
本文所提出的算法是一種以時間和空間消耗來換取準確度、穩(wěn)定性的提高的做法,在這兩者之間的選擇平衡上仍需進一步以大量實驗逐步完善。
圖1 視頻監(jiān)控截圖
[1]張翠平, 蘇光大. 人臉識別技術(shù)綜述[J]. 中國圖象圖形學報, 2000, 5(11): 885-894.
[2]Zhao W, Chellappa R, Phillips P J, et al. Face recognition: a literature survey [J]. ACM Computing Surveys, 2003, 35(4): 399-458.
[3]Everingham Mark, Zisserman Andrew. Identifying individuals in video by combining ‘Generative’ and discriminative head models [C]//Proceedings of the 10th IEEE International Conference on Computer Vision, Beijing, 2005: 1103-1110.
[4]Arandjelovic Ognjen, Zisserman Andrew. Automatic face recognition for film character retrieval in feature-length films [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, San Diego, 2005: 860-867.
[5]Sivic Josef, Everingham Mark, Zisserman Andrew.Person spotting: video shot retrieval for face sets[C]//Proceedings of International Conference on Image and Video Retrieval, Singapore, 2005: 226-236.
[6]李粉蘭, 段海峰, 郝建國, 等. 人臉識別中光照補償問題的實驗研究[J]. 工程圖學學報, 2009, 30(3):113-120.
[7]劉 瑾, 徐可欣, 陳小紅. 采用圖像融合技術(shù)的多模式人臉識別[J]. 工程圖學學報, 2007, 28(6):72-78.
[8]魯廣英, 潘 靜, 龐彥偉. 一種新穎的基于Gabor-LDA的人臉識別方法[J]. 工程圖學學報,2006, 27(4): 120-124.
[9]陳立珍, 崔國勤, 李 卓. 基于子空間增量學習的視頻中人臉圖像檢索[J]. 計算機輔助設(shè)計與圖形學學報, 2007, 19(9): 1119-1125.