魯 琴, 武曉康, 羅武勝
(1.國防科學技術(shù)大學 機電工程與自動化學院,湖南 長沙 410073;2.海軍工程大學 電力電子技術(shù)研究所,湖北 武漢 430033)
?
基于人臉角度估計的多觀察視頻合并*
魯 琴1, 武曉康2, 羅武勝1
(1.國防科學技術(shù)大學 機電工程與自動化學院,湖南 長沙 410073;2.海軍工程大學 電力電子技術(shù)研究所,湖北 武漢 430033)
對特定人物進行觀察記錄時,由于被觀察對象處于運動狀態(tài),需要通過布置多個觀察源來充分采集其行為信息,這導致大量冗余信息的存儲,同時不利于后續(xù)對視頻的檢索和對被測對象行為的分析。為此,提出了一種基于人臉角度估計的多觀察視頻合并方法,通過對多個觀察視頻的拆分、人臉檢測、人臉角度估計和重組,獲得單一的包含被觀察對象正面行為的觀察視頻,然后進行存儲。通過實驗驗證了算法的可行性,同時討論了多觀察源采集視頻不同步帶來的影響。
視頻觀察; 人臉角度估計; 視頻合并
觀察是人們認識世界、獲取知識的一個重要途徑。與傳統(tǒng)基于觀察者人眼的方式相比,視頻觀察能夠讓被觀察對象的行為模式和順序“凍結(jié)”,這樣能夠反復觀看而不會丟失任何原始數(shù)據(jù)[1],但同時視頻觀察帶來一個新的嚴峻問題,即視頻觀察獲得的是包含大量冗余的數(shù)據(jù),如果不對其進行有效分析處理,僅僅是“囫圇吞棗”式的存儲,不僅難以從中得到觀察結(jié)果,也使后來的信息查閱者無從下手。為此,視頻分析處理技術(shù)是實現(xiàn)視頻觀察記錄的關(guān)鍵環(huán)節(jié)[2]。
由于被觀察對象處于運動狀態(tài),布置多個觀察源能始終保持該人物的正面表情和行為處于一個觀察源監(jiān)控之下。為了便于后續(xù)對視頻的檢索和對被測對象行為的分析,本文提出一種基于人臉角度估計的多觀察視頻合并方法,即通過對多個觀察視頻的拆分、人臉檢測、人臉角度估計和重組,獲得單一的包含被觀察對象正面行為的觀察視頻,然后進行存儲。本文主要研究多個觀察源下的人物觀察記錄應用。
美國加利福尼亞計算機科學學院的研究人員采用真實世界中雜亂圖片來進行人臉檢測、姿態(tài)估計,建立了基于帶有部分共享池的混合樹結(jié)構(gòu)的模型[3]?;诨旌辖Y(jié)構(gòu)樹的人臉角度估計算法的輸出結(jié)果有六個標識,包括眼睛中心、鼻尖、兩個嘴角、嘴的中心、偏航方向的離散角度(-90°~90°,以15°為間隔)[4]。該模型雖然只用了幾百張臉進行訓練,但是取得了很好的效果[5]。為了檢測算法在觀察記錄中的可行性,對視頻觀察數(shù)據(jù)中一幅幀圖像進行人臉檢測和角度估計的處理,如圖1所示。圖片尺寸大小為360 p×640 p。角度估計結(jié)果為偏轉(zhuǎn)60°,處理時間為9.3 s。
圖1 人臉角度估計實現(xiàn)
為了檢驗算法的通用性,本文對100張具有不同場景的圖片進行了處理。表1中給出了對不同尺寸圖片的處理效果,該算法檢測正確率達到90 %以上,且平均處理時間尚可接受。通過對表1中的處理結(jié)果分析可知,在圖片尺寸縮小后,圖片的處理時間也相應倍數(shù)地減少,但單位區(qū)域的處理時間相差不大,這是因為算法是采用全局匹配的方式估計姿態(tài);在原始圖像對應須采樣的2s.jpg,3s.jpg,5s.jpg,6s.jpg中人臉姿態(tài)估計的正確率明顯下降,說明在進行人臉姿態(tài)估計時,對圖像尺寸縮減來減少處理時間的方式要合理使用。
表1 人臉角度估計算法測試結(jié)果
Tab 1 Test results of face angle estimation algorithm
圖片名稱圖片尺寸(p)人臉數(shù)目估計到人臉角度的數(shù)目檢測耗時(s)單位耗時(s)1.jpg640×4262231.21.141s.jpg214×142224.91.612.jpg1024×6773377.91.122s.jpg342×2263110.51.363.jpg1600×120066214.71.123s.jpg534×4006323.21.094.jpg1034×6466667.31.014s.jpg620×9916677.11.255.jpg1205×90244133.11.235s.jpg402×3014319.41.606.jpg1711×76555158.01.216s.jpg856×3835341.91.28
當?shù)玫蕉喾揭曨l觀察數(shù)據(jù)后,希望對多方數(shù)據(jù)融合使用,但又不希望對每一個觀察源的數(shù)據(jù)都做處理,事實上也沒有必要對每一個視頻源數(shù)據(jù)進行處理。為此,設計了基于人臉角度估計的多方視頻重組記錄算法。算法的具體流程如下:
假設觀察記錄擁有m為觀察源數(shù)目、n個被觀察對象。使用n型人臉庫,建立n+1個分類集合即n個被觀察對象檢測結(jié)果{R1,R2,…,Rn}和一個未識別人員(unknow)集合Tn+1。
1)首先把m個視頻段{V1,V2,…,Vm} 分解為幀圖片到對應的集合{A1,A2,…,Am}中。
2)在保證視頻同時性的情況下,從{V1,V2,…,Vm}主選一段視頻Vmain作為關(guān)鍵觀察數(shù)據(jù)。在一般情況下,不同觀察源得到的觀察記錄數(shù)據(jù)不是均勻分布的。顯然,正對觀察對象的攝像機會記錄更多的信息。將其作為主要的分析視頻,可以減少角度檢測的次數(shù),從而可以減少數(shù)據(jù)處理時間。
3)對幀圖像集合{A1,A2,…,Am}分別對集合Ai中幀圖做背景減除和幀差除去冗余信息得到關(guān)鍵幀集合M={M1,M2,…,Mn}。
其中,Mi=Fx(Ai)={fkey1,fkey2,…}?Ai,選取其中一個集合為Mmain。
4)對Mmain中的幀圖fi按順序進行人臉檢測[6]和角度估計。
5)根據(jù)角度估計的結(jié)果和攝像機布置的拓撲結(jié)構(gòu),切換到對應的幀圖集合Mi。
6)對Mi和Mmain中相同序號的幀圖再做檢測,得到正面的人臉框圖。
7)對人臉框圖歸一化處理,提取人臉特征ν。
8)和觀察對象人臉庫進行人臉特征U={u1,u2,…,un}匹配,把該幀分到對應的結(jié)果集合Ri中。
9)循環(huán)上述步驟,直到幀圖片處理結(jié)束。
根據(jù)上節(jié)實驗中得到的人臉角度估計的時間,如果對視頻每幀都進行處理,會占用大量時間,為了提高實驗效率,檢驗算法可靠性,做了一定的精簡,每秒鐘先只選取一張關(guān)鍵幀。具體的算法流程如圖2所示。
圖2 多觀察視頻重組記錄算法流程
實驗中,使用了兩個觀察源為1 080 p的200萬像素攝像頭A,B。觀察源采用矩形布置的方式,兩者的視場相互垂直。場景中只有一個觀察對象。圖3和圖4展示兩個觀察源下同時刻的畫面。算法實現(xiàn)基于32位的Matlab 2010b平臺。由于Matlab的程序為解釋執(zhí)行,在處理速度方面和其他高級程序有一定差距。為此,在某些計算環(huán)節(jié)使用了C++作為混合編程[7]。
實驗模擬了對人室內(nèi)活動進行觀察記錄的情景,共進行了3次視頻觀察,觀察對象分別為Suliang,Sunbei,Tangshu。因為有2個觀察源,所以共有6段視頻。視頻尺寸均為1 080 p×1 920 p。表2中展示了3組實驗6段視頻的基本信息,包括每1段視頻的時長、幀圖像數(shù)目、關(guān)鍵幀數(shù)目、關(guān)鍵幀中估計到人臉的幀圖像數(shù)目、處理時間。從表2中看出同一實驗下的2段視頻的延時在2~3s,這表明兩個觀察源得到的視頻并沒有達到完全同步,這在物體移動速度較慢時候影響不大,但在速度移動較快時會造成一定影響。為了彌補視頻數(shù)據(jù)不同步帶來的誤差,只能對每個觀察源下的視頻數(shù)據(jù)進行人臉角度估計,表3給出了實驗中多觀察源均做處理的結(jié)果。表3中人臉角度數(shù)據(jù)的單位為(°),人臉角度數(shù)據(jù)中void表示沒有檢測到人臉。沒有檢測到人臉的原因可能是圖片中沒有人物出現(xiàn),也可能是人臉完全背對鏡頭。從檢測到人臉角度的數(shù)據(jù)上看,角度變化具有一定的連貫性,說明提取的關(guān)鍵幀能夠代表視頻整體信息,可以很好地表達人在時間軸上的行為變化。
表2 實驗視頻信息
Tab 2 Information of experimental videos
實驗名稱視頻名稱時長(s)總幀數(shù)關(guān)鍵幀數(shù)目檢測到人臉角度數(shù)目處理時間(s)實驗一Suliang1Suliang220.2419.04506476201820151612.51455.9實驗二Sunbei1Sunbei244.2041.2011051030444026373556.23239.3實驗三Tangshu1Tangshu230.3027.40758684302624242431.42876.0
表3 實驗結(jié)果
Tab 3 Experimental results
視頻名稱檢測到的人臉角度(°)Suliang1[-90,-60,-30,-30,0,45,75,90,90,75,15,-30,-30,-45,-60,-30,0,0,60,45]Suliang2[void,-90,-75,-45,-30,0,0,15,-30,-60,-90,-90,void,void,-60,-45,-30,0]Sunbei1[-30,-30,-15,-15,0,0,0,0,0,30,30,45,60,90,90,90,90,void,void,void,void,void,void,void,void,void,void,void,void,void,void,void,void,90,90,90,45,0,0,-30,0,90,void,void]Sunbei2[void,-90,-90,-90,-90,-60,-60,-60,-45,-45,-30,0,0,0,0,0,30,30,30,60,60,90,90,90,60,30,30,30,0,0,0,0,-30,-60,-75,void,void,-90,-30,90]Tangshu1[-30,0,0,-15,0,30,45,45,60,75,void,void,void,void,void,void,-30,90,30,30,30,0,0,0,0,15,60,60,90,90]Tangshu2[void,void,-90,-90,-90,-60,-30,0,0,0,0,30,30,-15,-45,-45,-45,-45,-60,-60,-60,-60,-45,-15,0,0]
圖3(a)檢測人臉為90°,圖3(b)是沒有檢測到人臉為void情況。圖4是對Sunbei1,Sunbei2兩個視頻處理后融合的效果。從處理結(jié)果看,圖4前11張小圖是在攝像機A下得到的正面信息,在圖4第12張小圖時,因觀察對象人臉角度偏轉(zhuǎn)超過一定區(qū)域范圍,被切換到另一個攝像機上?;诮嵌裙烙嫷囊曨l重組記錄算法能夠檢測出幀圖像中存在角度偏轉(zhuǎn)的人臉,通過分析觀察源之間的空間幾何關(guān)系,能夠使兩個觀察源下的視頻達到很好的融合效果。圖4中小圖的序號為001,026,051,076,101,126,151,176,201,226,251,251(2),276,301,326,351,376,401,426,451。重組記錄算法對數(shù)據(jù)處理的采樣間隔是25幀,圖4中的圖像序號表明算法對兩個觀察源的數(shù)據(jù)沒有漏檢。
圖3 人臉角度估計處理結(jié)果
本文描述了為了觀察記錄的全面性而存在的多源視頻數(shù)據(jù)處理的現(xiàn)實問題,分析了用戶對視頻重組記錄的需求,介紹了加利福尼亞大學研究人員的人臉角度估計算法,采用該成果,設計并完成了基于人臉角度估計的多視頻重組記錄算法,在實驗室現(xiàn)有的硬件條件下設計了實驗過程,展示并分析了算法的測試結(jié)果。
[1] 雷玉堂.安防&智能化—視頻監(jiān)控系統(tǒng)智能化實現(xiàn)方案[M].北京:電子工業(yè)出版社,2013.
[2] 謝劍斌,陳章永,劉 通,等.視覺感知與智能視頻監(jiān)控[M].長沙:國防科學技術(shù)大學出版社,2012.
[3] Zhu Xiangxin,Ramanan D.Face detection,pose estimation, and Landmark localization in the wild[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition,RI,USA,2012:2879-2886.
圖4 視頻合并處理結(jié)果
[4] Herbst E,Ren X,Fox D.Object discovery via multi-scene analy-sis[C]∥2011 IEEE International Conference on Intelligent Robots and Systems,2011:4850-4856.
[5] Yang Y,Ramanan D.Articulated pose estimation using flexible mixtures of parts[C]∥CVPR 2011,2011:1385-1392.
[6] Wu Xiaokang,Xie Chenggang,Lu Qin.Algorithm of video decomposition and video abstraction generation based on face detection and recognition[C]∥2014 International Conference on Machine Tool Technology and Mechatronics Engineering,2014:4620-4623.
[7] 趙小川.Matlab圖像處理:程序?qū)崿F(xiàn)與模塊化仿真[M].北京:北京航空航天大學出版社,2014.
Combination of multiple observation videos based on face angle estimation*
LU Qin1, WU Xiao-kang2, LUO Wu-sheng1
(1.College of Mechatronics Engineering and Automation,National University of Defense Technology,Changsha 410073,China; 2.Research Institute of Power Electronics Technology,Naval University of Engineering,Wuhan 430033,China)
While observing and recording specific people,multiple videos are needed for sufficient information gathering,which leads to storage of abundant useless data and results in difficulty for searching and analyzing of observation videos.A combination method of multiple observation videos based on face angle estimation is proposed to solve this problem.A single video which only contains facing scenes of moving people is obtained and stored by splitting multiple observation videos,detecting face and recombining based on the face angle estimation.Experiments verify the feasibility of this method and the influence of asynchronous videos is discussed.
video observation; face angle estimation; video combination
2015—06—13
國家自然科學基金資助項目(61171136)
10.13873/J.1000—9787(2015)09—0017—03
TP 391
A
1000—9787(2015)09—0017—03
魯 琴(1980-),女,湖北武漢人,博士,講師,主要研究方向為無線多媒體傳感器網(wǎng)絡、視頻感知與智能處理。