郝天然
(中國聯(lián)合網(wǎng)絡(luò)通信有限公司徐州市分公司,江蘇 徐州 221002)
視頻監(jiān)控系統(tǒng)是我國智慧公安系統(tǒng)的重要組成部分,傳統(tǒng)的監(jiān)測場景下需要辦公人員長時(shí)間目視監(jiān)控視頻,過程非常耗時(shí)且很大程度上存在漏檢;并且,隨著監(jiān)測攝像機(jī)的大范圍使用,監(jiān)測數(shù)據(jù)量也呈幾何倍率增加,人工監(jiān)測方法無法滿足在海量視頻數(shù)據(jù)中搜索某一線索的公安需求。人臉識(shí)別是通過計(jì)算機(jī)程序?qū)θ藛T進(jìn)行身份驗(yàn)證的方法,由于該技術(shù)的實(shí)時(shí)性和準(zhǔn)確性,在安全監(jiān)測領(lǐng)域得到了廣泛研究和應(yīng)用。人臉識(shí)別技術(shù)是基于人類面部生理特點(diǎn)進(jìn)行識(shí)別的一種手段,通過電腦或者計(jì)算機(jī)程序直接提取圖像中的人的面部特征,并根據(jù)這些特征對(duì)其進(jìn)行身份認(rèn)定,從而達(dá)到對(duì)相關(guān)人員進(jìn)行監(jiān)督、監(jiān)測以及控制的目的[1]。隨著深度學(xué)習(xí)方法的不斷進(jìn)步,基于深度學(xué)習(xí)的人臉識(shí)別技術(shù)得到了快速發(fā)展,嵌入人臉識(shí)別技術(shù)的視頻監(jiān)控系統(tǒng)已成為公安系統(tǒng)安防監(jiān)控的重要組成。
在深度學(xué)習(xí)得到廣泛應(yīng)用前,研究人員主要通過設(shè)計(jì)面部特征提取方法來識(shí)別人臉,如最早由Bledsoe[2]等提出利用面部 器官間距離、比率等參 數(shù)作為特征,構(gòu)建了一個(gè)半自動(dòng)人臉識(shí)別系統(tǒng);而后,麻省理工學(xué)院的Turk等提出了特征臉[3](Eigenface),該方法成為后來多數(shù)特征表征算法的基準(zhǔn);另外,還有基于子空間分析的人臉識(shí)別算法Fisherface[4],首先通過主成分分析PCA(Principal Component Analysis)降低臉部尺寸,然后使用線性判別分析LDA(Linear Discriminant Analysis)以期望獲得類間差異大而類內(nèi)差異小的線性子空間,但這種方法也因此無法對(duì)復(fù)雜的非線性模型進(jìn)行表征。
基于模型的方法如主動(dòng)外觀模型AAMs(Active Appearance Models)[5]通過統(tǒng)計(jì)方法描述人類面部圖像的形狀及紋理,然后利用PCA綜合兩類特征對(duì)面部進(jìn)行統(tǒng)計(jì)建模;另外,還包括SVD分解[6]、基于面部輪廓分析和匹配[7]以及隱馬爾可夫模型(Hidden Markov Model)[8]等方法。
近年來,深度學(xué)習(xí)在人臉識(shí)別領(lǐng)域的應(yīng)用越來越廣泛,卷積網(wǎng)絡(luò)已經(jīng)能夠提取更高級(jí)、更豐富、更易于識(shí)別的人臉特征,突破了傳統(tǒng)特征如顏色、灰度能表示的極限。2014年,F(xiàn)aceBook科研團(tuán)隊(duì)提出的DeepFace算法[9]和香港中文大學(xué)團(tuán)隊(duì)提出的DeepID算法[10]在LFW上分別實(shí)現(xiàn)了97.35%和97.45%的平均分類精度;隨后,牛津大學(xué)視覺組的VGGFace[11]將該精度提升到98.95%;但隨后Google團(tuán)隊(duì)的FaceNet[12]將這一精度提高到了驚人的99.63%,這也標(biāo)志著在LFW數(shù)據(jù)集上長達(dá)8年的性能競賽的終結(jié)。目前,研究人員將研究重點(diǎn)放在了如何將網(wǎng)絡(luò)訓(xùn)練得更好,因此損失函數(shù)優(yōu)化的重要性不斷提高,除了FaceNet提出的triplet loss,還提出了sphere loss[13]、cosine loss[14]和arc loss[15]等不同的損失函數(shù)。
人臉識(shí)別的主要途徑是從人物面部圖像中獲取豐富、易識(shí)別的特征,來表征不同的人臉。而傳統(tǒng)方法一般使用人工設(shè)計(jì)的特征,不能適應(yīng)如今的大數(shù)據(jù)環(huán)境,尤其是在各種復(fù)雜的環(huán)境以及多樣的人臉姿態(tài)條件下,用人工特征識(shí)別人臉的難度相當(dāng)高。但隨著深度學(xué)習(xí)算法的不斷突破,研究者開發(fā)出了各種功能不一的網(wǎng)絡(luò),將合適的網(wǎng)絡(luò)結(jié)合在一起,往往可以取得可觀的成效。但只是一味的疊加網(wǎng)絡(luò),使得網(wǎng)絡(luò)計(jì)算參數(shù)暴增,且容易出現(xiàn)難以收斂的情況,不僅使網(wǎng)絡(luò)變慢,還使得識(shí)別和驗(yàn)證準(zhǔn)確率下降,所以如何選擇合適的網(wǎng)絡(luò)融合是研究的重要方向。本文基于人臉識(shí)別技術(shù),針對(duì)公安環(huán)境及人員姿態(tài)影響條件,將人臉識(shí)別與跟蹤融合,實(shí)現(xiàn)對(duì)可疑人員的行蹤溯源。
本文通過計(jì)算機(jī)對(duì)視頻監(jiān)控序列進(jìn)行人臉檢測與跟蹤,選擇姿態(tài)最優(yōu)的人臉特征與特定人員臉部特征進(jìn)行識(shí)別,綜合多方位攝像機(jī)視頻信息,獲得人員的行蹤軌跡。如圖1所示。
圖1 多攝像機(jī)聯(lián)動(dòng)人臉識(shí)別跟蹤系統(tǒng)
針對(duì)公安局室內(nèi)復(fù)雜光照背景下算法易出現(xiàn)誤檢率較高的問題,本文利用人臉圖像的色彩和灰度信息,采用膚色分割預(yù)選人臉區(qū)域?qū)崿F(xiàn)人臉檢測的前端優(yōu)化。膚色是由生物特性決定的皮膚物理屬性的一種外在表現(xiàn),因此,膚色是人臉最為顯著的特征。通過膚色信息可將人臉與環(huán)境背景區(qū)分開來。研究表明,盡管不同種族、年齡、性別的人臉膚色不同,但這種不同主要集中在亮度上,不同人臉的膚色分布在色度空間中具有聚類性。
HSV膚色分割首先利用采集到的圖片數(shù)據(jù)庫在HSV彩色空間建立初始的前期皮膚和背景直方圖,求出各類的概率值,然后根據(jù)Bayes(貝葉斯)分類器對(duì)圖像中的每個(gè)像素進(jìn)行前景和背景判別,分割出人體膚色區(qū)域;然后通過形態(tài)學(xué)操作,對(duì)圖像數(shù)據(jù)進(jìn)行簡化,保持圖像數(shù)據(jù)的基本形狀特征,去除不相干結(jié)構(gòu)后利用圖像區(qū)域劃分方法的先驗(yàn)知識(shí)從分割區(qū)域中篩選出感興趣區(qū)域;最后利用AdaBoost方法對(duì)人臉進(jìn)行檢測。
人臉姿態(tài)優(yōu)選是指根據(jù)一幅二維圖像計(jì)算出此人在三維空間中的面部朝向。在計(jì)算機(jī)視覺中,物體姿態(tài)是指其相對(duì)于相機(jī)的取向和位置,一般用旋轉(zhuǎn)矩陣、旋轉(zhuǎn)向量、四元數(shù)或歐拉角表示。通常來說,歐拉角可讀性更好一些,所以常用歐拉角表示物體姿態(tài)。歐拉角包含3個(gè)角度:pitch、yaw、roll,這三個(gè)角度也稱為姿態(tài)角。通過對(duì)三個(gè)姿態(tài)角的計(jì)算可確定一張人臉姿態(tài)是否為正向面對(duì),以此選出同一人在一段時(shí)間內(nèi)的相對(duì)最佳姿態(tài)。
由于姿態(tài)評(píng)估非常復(fù)雜,一般會(huì)占用大量的計(jì)算資源,若系統(tǒng)采用嚴(yán)格姿態(tài)估計(jì)來推斷出人臉方向,則會(huì)影響系統(tǒng)整體運(yùn)行效率。因此,本文采用一種不嚴(yán)格姿態(tài)估計(jì)方法,通過簡單判斷人臉左右旋轉(zhuǎn)程度,對(duì)比人臉中心線與對(duì)稱線之間的距離而實(shí)現(xiàn),通過這種方法可有效簡化姿態(tài)評(píng)估過程,減少評(píng)估過程中資源占用問題。通過對(duì)人臉圖像姿態(tài)優(yōu)選,選出人臉的相對(duì)最佳姿態(tài)圖像,用于后續(xù)人臉識(shí)別,可以有效提升系統(tǒng)整體效率。
本文使用camshift算法對(duì)連續(xù)幀的中人臉位置進(jìn)行跟蹤,并針對(duì)公安局內(nèi)特有環(huán)境中的干擾(遮擋、光照)以及多種人臉狀 態(tài)條件等因素進(jìn)行優(yōu)化,通過設(shè)置連續(xù)幀中圖像的邊緣和背景產(chǎn)生的大面積改變作為對(duì)跟蹤者目標(biāo)條件的更新;利用一個(gè)目標(biāo)跟蹤框的表面積和大小等因素,來判斷一個(gè)跟蹤框在未來有無可能會(huì)出現(xiàn)發(fā)散作為其他一個(gè)可以更新跟蹤目標(biāo)的條件,當(dāng)符合某個(gè)特殊更新的條件即立刻開始對(duì)人臉進(jìn)行檢測,利用這個(gè)更新的結(jié)果對(duì)其進(jìn)行校正。
卷積神經(jīng)網(wǎng)絡(luò)不同的層次所關(guān)注的信息是不同的,Alex深度學(xué)習(xí)模型一共有96層卷積層(如圖2所示),其可視化的特征圖如圖3所示??梢钥闯觯矸e神經(jīng)網(wǎng)絡(luò)在前幾層提取的是圖像邊緣等低級(jí)信息,不能很好地綜合各層次信息,所以需要增強(qiáng)網(wǎng)絡(luò)感受野。而Gabor小波變換與人眼視覺皮層細(xì)胞的感受野類似,具有尺度選擇性、空間頻率及方向選擇性等,經(jīng)常用于紋理識(shí)別方面。Gabor濾波器可以在頻域中以不同尺度、不同方向提取相關(guān)的特征,將圖像從空域轉(zhuǎn)換到頻域可以捕捉到空域上不易提取的特征,并且可提供良好的方向選擇和尺度選擇特性,用于提取輸入圖像的點(diǎn)、線等簡單特征。因此,本文擬將Gabor濾波器引入卷積神經(jīng)網(wǎng)絡(luò)中以實(shí)現(xiàn)人臉識(shí)別。相比于其他網(wǎng)絡(luò),本文提出的網(wǎng)絡(luò)簡單清晰,同時(shí)不失準(zhǔn)確度,更適應(yīng)本公安系統(tǒng)對(duì)視頻監(jiān)控人臉識(shí)別實(shí)時(shí)性的要求。
圖2 Alex深度學(xué)習(xí)模型
圖3 Alex深度學(xué)習(xí)模型可視化的特征圖
本文研究內(nèi)容針對(duì)真實(shí)視頻中人臉圖像易受環(huán)境及姿態(tài)等因素影響的問題,研究面部圖像特征的提取、分類方法,完成公安系統(tǒng)中可疑人員的智能搜尋;利用多攝像機(jī)協(xié)同、聯(lián)動(dòng),按時(shí)間及方位追溯可疑人員的行蹤軌跡。通過對(duì)現(xiàn)場采集的公安系統(tǒng)視頻監(jiān)控錄像進(jìn)行人臉識(shí)別測試,本研究方法取得了較好的識(shí)別效果,并能夠確定所識(shí)別可疑人員的行蹤,對(duì)于智慧公安的安防監(jiān)控具有重要意義。