任梓涵,楊雙遠(yuǎn)
(廈門大學(xué)軟件學(xué)院,福建 廈門 361005)
隨著攝像機(jī)在監(jiān)控和移動(dòng)設(shè)備中的廣泛使用,大量的視頻不斷被捕獲,與靜態(tài)圖像相比,視頻往往包含更多信息,例如時(shí)間和不同視角信息等.公共場(chǎng)所的監(jiān)控視頻為社會(huì)的安全和執(zhí)法提供了有力的保障,因此,視頻監(jiān)控系統(tǒng)的智能化是計(jì)算機(jī)視覺領(lǐng)域具有重要意義的研究方向之一,尤其是人臉識(shí)別技術(shù)在監(jiān)控視頻中的使用.
人臉識(shí)別的步驟主要包含人臉檢測(cè)、人臉分割、人臉特征提取和人臉匹配4個(gè)部分[1].人臉識(shí)別算法發(fā)展到現(xiàn)在,目前主要分為以下幾種:基于特征的方法、基于模版匹配的方法、基于外觀的方法和基于深度學(xué)習(xí)的方法[2].基于特征的方法主要是使用手工提取特征來進(jìn)行人臉識(shí)別,例如方向梯度直方圖(HOG)、局部二值模式(LBP)、尺度不變特征變換(SIFT)、Gabor等方法[3-4].基于模版匹配的方法是建立一個(gè)標(biāo)準(zhǔn)的面部模型,將人臉定義為函數(shù)[2-5],輸入一張圖像,分別計(jì)算出人臉輪廓、眼睛、鼻子、嘴巴標(biāo)準(zhǔn)模式的相關(guān)值,根據(jù)這些相關(guān)值來判定人臉是否存在.基于外觀的方法主要是用整幅圖像的信息來識(shí)別人臉,較為典型的是主成分分析(PCA)算法[6]和線性鑒別分析(LDA)算法[7],它們使用降維統(tǒng)計(jì)的方法保留圖像的關(guān)鍵信息,避免了整幅圖像的大量計(jì)算[3].以上方法在姿態(tài)轉(zhuǎn)動(dòng)、光照變化、遮擋等復(fù)雜場(chǎng)景下識(shí)別具有很大的局限性.
近年來,基于深度學(xué)習(xí)的人臉識(shí)別方法變得流行.深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)[8]的非線性特征學(xué)習(xí)能力特別強(qiáng),所以在人臉識(shí)別等計(jì)算機(jī)視覺任務(wù)中具有很高的準(zhǔn)確率.戶外標(biāo)記人臉數(shù)據(jù)集(LFW)[9]是著名的靜態(tài)人臉識(shí)別數(shù)據(jù)集,許多基于深度學(xué)習(xí)的人臉識(shí)別方法在LFW上的準(zhǔn)確率一次次突破極限,最高已達(dá)到99.63%,但是在視頻人臉數(shù)據(jù)集YouTube faces(YTF)[10]上的準(zhǔn)確率卻不高,只有92.80%.與靜止拍攝的人臉圖像相比,視頻中的人臉成像更加復(fù)雜,而且容易受到設(shè)備的影響,識(shí)別起來比較困難.2014年,Hu等[11]提出了一種新的判別式深度度量學(xué)習(xí)(DDML)方法,該方法訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò),將人臉映射到一個(gè)特征空間,并使用馬氏距離度量來使類間差異最大化和類內(nèi)差異最小化,該方法在YTF上取得82.3%的最好準(zhǔn)確率.Tran等[12]提出了基于CNN的三維可變?nèi)四樐P?CNN-3DMM)方法,該方法將人臉靜態(tài)圖像輸入到訓(xùn)練好的一個(gè)CNN模型,得到三維的可變?nèi)四樐P?在YTF數(shù)據(jù)集上的準(zhǔn)確率為88.8%.Taigman等[13]提出了深度人臉識(shí)別(DeepFace)方法,是一種將人臉圖像對(duì)齊到一般的3D形狀模型的級(jí)聯(lián)方法,在YTF上的準(zhǔn)確率達(dá)到了91.4%.2015年,Wu等[14]提出了一個(gè)輕量級(jí)的CNN(a lightened CNN)方法,該方法用4個(gè)卷積層構(gòu)成一個(gè)淺CNN模型,并提出一個(gè)新的最大特征映射(MFM)激活函數(shù)來獲取緊湊的人臉特征信息,在YTF數(shù)據(jù)集上達(dá)到91.6%的準(zhǔn)確率.
近年來,監(jiān)控視頻中的目標(biāo)跟蹤是一個(gè)重要研究方向.在2010年之前,目標(biāo)跟蹤領(lǐng)域中最常用的方法是經(jīng)典跟蹤方法,如均值漂移(Meanshift)、粒子濾波、卡爾曼濾波和基于特征的光流算法等[15],由于這些方法不能夠適應(yīng)和處理視頻中復(fù)雜的運(yùn)動(dòng)變化,在基于相關(guān)濾波和深度學(xué)習(xí)的跟蹤方法出現(xiàn)后,經(jīng)典跟蹤方法已經(jīng)較少使用.2012年,Henriques等[16]提出了循環(huán)結(jié)構(gòu)的核跟蹤(CSK)方法,這是一個(gè)基于循環(huán)矩陣和核函數(shù)的跟蹤方法,使用循環(huán)矩陣完成密集采樣,并利用傅里葉變換實(shí)現(xiàn)快速檢測(cè),該方法在處理速度上能夠達(dá)到每秒320幀,為相關(guān)濾波系列方法在實(shí)時(shí)性應(yīng)用中打下了基石.Henriques等[17]又后續(xù)提出CSK的改進(jìn)算法核相關(guān)濾波/判別相關(guān)濾波(KCF/DCF),在保證高速處理的同時(shí)提高了跟蹤的準(zhǔn)確性.2013年Wang等[18]提出“深度學(xué)習(xí)跟蹤”方法,這是第一個(gè)將深度網(wǎng)絡(luò)運(yùn)用于單目標(biāo)跟蹤的跟蹤算法.Hyeonseob等[19]的多域網(wǎng)絡(luò)(MDNet)方法,利用多類跟蹤序列預(yù)訓(xùn)練網(wǎng)絡(luò),并在在線跟蹤時(shí)微調(diào)模型.基于深度學(xué)習(xí)的跟蹤算法不斷發(fā)展,目前性能上還是沒有辦法和相關(guān)濾波方法相比,但是其端到端輸出的特點(diǎn)使其具有光明的前景.
綜上所述,雖然基于CNN的人臉識(shí)別算法在圖像人臉識(shí)別任務(wù)中取得很好的結(jié)果,但是在基于視頻的人臉識(shí)別任務(wù)中的準(zhǔn)確性不高.另外,由于這些算法的網(wǎng)絡(luò)層次深,模型結(jié)構(gòu)復(fù)雜,時(shí)間復(fù)雜度和空間復(fù)雜度都比較高,無法滿足視頻中實(shí)時(shí)識(shí)別的要求.因此本研究提出了一種基于視覺跟蹤的實(shí)時(shí)視頻人臉識(shí)別(RFRV-VT)方法,為了簡(jiǎn)化模型,采用視頻分組的方法,對(duì)視頻序列以組為單位進(jìn)行識(shí)別;采用一種新的特征融合方法提高人臉識(shí)別準(zhǔn)確率;并將視覺跟蹤方法引入到人臉識(shí)別框架中來提高識(shí)別速度;最后在YTF數(shù)據(jù)集上對(duì)RFRV-VT進(jìn)行驗(yàn)證.
本研究提出的RFRV-VT方法總體框架圖如圖1所示,首先提出將視頻圖像序列進(jìn)行分組識(shí)別,每一組中包括人臉識(shí)別幀(圖1中用R表示)和人臉跟蹤幀(圖1中用T表示).在人臉識(shí)別幀中實(shí)現(xiàn)人臉檢測(cè)、人臉特征提取和人臉匹配過程,在人臉跟蹤幀中對(duì)之前檢測(cè)到的人臉進(jìn)行跟蹤.并將視頻圖像幀序列以N幀分為一組,每個(gè)組中第一幀為人臉識(shí)別幀,第2~N幀為人臉跟蹤幀,N的設(shè)置需進(jìn)行最優(yōu)選擇.相鄰兩個(gè)組之間,本研究提出一種雙重匹配方法實(shí)現(xiàn)連接.
圖1 RFRV-VT方法框架圖Fig.1 Framework of RFRV-VT
在人臉識(shí)別幀中,首先使用多任務(wù)級(jí)聯(lián)CNN(MTCNN)[20]來實(shí)現(xiàn)視頻圖像幀中的人臉檢測(cè);其次,對(duì)MTCNN檢測(cè)到的人臉按照人臉框分割,并使用lightened CNN提取分割出來的人臉圖像的特征;最后,對(duì)提取出的特征采用余弦距離進(jìn)行度量,從而實(shí)現(xiàn)人臉匹配.
1.1.1 人臉檢測(cè)
人臉檢測(cè)在圖像中檢測(cè)到人臉并返回人臉框坐標(biāo)的過程,往往容易受到圖像質(zhì)量、光照、人臉轉(zhuǎn)動(dòng)的等因素的影響.深度學(xué)習(xí)中,CNN可以在人臉檢測(cè)中獲取更高層次的語義信息,與傳統(tǒng)的基于手工特征的檢測(cè)方法相比,基于CNN的算法更具有魯棒性.人臉圖像經(jīng)過CNN中的卷積操作,可以產(chǎn)生大量的人臉候選窗口,將人臉候選框輸入到softmax分類器,能夠得到其是否為人臉的分類結(jié)果,從而實(shí)現(xiàn)人臉檢測(cè).
本文中使用的MTCNN人臉檢測(cè)方法由如下4步構(gòu)成.首先,對(duì)視頻幀中的圖像進(jìn)行不同尺度采樣,作為卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入;其次,使用包含3個(gè)卷積層的全卷積網(wǎng)絡(luò)粗略獲取一部分人臉窗口候選集,并使用非最大抑制方法來提高檢測(cè)結(jié)果的準(zhǔn)確性,如圖2(a)所示;然后將其送入一個(gè)4層的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)在第一個(gè)網(wǎng)絡(luò)的基礎(chǔ)上增加了一個(gè)全連接層,用來去掉更多非人臉的區(qū)域,如圖2(b)所示;最后將結(jié)果輸入到一個(gè)5層的卷積神經(jīng)網(wǎng)絡(luò)做精細(xì)的處理,并輸出人臉檢測(cè)框坐標(biāo)和人臉5個(gè)關(guān)鍵點(diǎn)的位置,如圖2(c)所示.MTCNN使用3個(gè)CNN級(jí)聯(lián)的方式,實(shí)現(xiàn)了由粗到細(xì)的算法結(jié)構(gòu),每個(gè)CNN網(wǎng)絡(luò)是一個(gè)分類器,能夠得到最有可能的人臉區(qū)域.該方法通過減少濾波器數(shù)量、設(shè)置小卷積核和增加網(wǎng)絡(luò)結(jié)構(gòu)的深度,實(shí)現(xiàn)了使用較少的運(yùn)行時(shí)間獲得更好的性能,在人臉轉(zhuǎn)動(dòng)、光照變化和部分遮擋等情況下能夠得到很好的人臉檢測(cè)結(jié)果.
圖3 lightened CNN結(jié)構(gòu)Fig.3 Structure of lightened CNN
圖2 MTCNN結(jié)構(gòu)Fig.2 Structure of MTCNN
1.1.2 人臉特征提取及其改進(jìn)
人臉特征提取目的是為了提取出人臉的深層抽象特征,這個(gè)抽象特征能夠具有區(qū)分兩個(gè)不同人臉的特性.本研究基于lightened CNN[14]來提取人臉的深層特征.如圖3所示,模型中包含4個(gè)卷積層、4個(gè)最大采樣層以及2個(gè)全連接層,全連接層輸出256維的特征向量.模型中使用MFM激活函數(shù),它在輸入的卷積層中選擇兩層,取相同位置的最大值作為輸出.假設(shè)有輸入卷積層C∈Rh×w×2n,MFM激活函數(shù)的數(shù)學(xué)表達(dá)式為
(1)
其中,輸入卷積層的通道數(shù)為2n,1≤i≤h,1≤j≤w,l∈Rh×w×n.
根據(jù)式(1),激活函數(shù)的梯度可以表示為
(2)
其中,k′為常數(shù),1≤k′≤2n,并且有
(3)
由式(2)可以看出,激活層有50%的梯度為0,MFM激活函數(shù)能夠得到稀疏的梯度.MFM選擇2個(gè)卷積特征圖候選節(jié)點(diǎn)之間的最大值,采用聚合統(tǒng)計(jì)的方法得到最緊湊的特征表示,而且實(shí)現(xiàn)了變量選擇,比常用Relu激活函數(shù)的高維稀疏梯度更具優(yōu)點(diǎn).Lightened CNN采用輕量的結(jié)構(gòu),在取得比較好的人臉識(shí)別效果的同時(shí),加快了識(shí)別速度,減小了存儲(chǔ)空間的占用,對(duì)于監(jiān)控視頻的實(shí)時(shí)人臉識(shí)別具有良好的效果.
為了進(jìn)一步加快人臉識(shí)別速度和提高人臉識(shí)別準(zhǔn)確度,本研究提出了一種特征融合的新方法.
首先,使用人臉識(shí)別圖像中人臉區(qū)域圖像和其水平旋轉(zhuǎn)180°的人臉鏡像圖像,分別輸入到lightened CNN中,得到兩個(gè)256維的向量.在一般圖像任務(wù)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中,將訓(xùn)練數(shù)據(jù)集中的圖像進(jìn)行鏡像、旋轉(zhuǎn)等,能夠產(chǎn)生更多的有效數(shù)據(jù),提高模型的推廣能力.受此啟發(fā),在本研究中,使用人臉原圖像和鏡像圖像提取特征,以期得到更豐富的人臉信息,有提高識(shí)別準(zhǔn)確率.
接著,使用特征融合函數(shù)將兩個(gè)特征向量每一維的最大值融合形成一個(gè)新的特征向量,具體的特征融合函數(shù)為
hx=max(ax,bx),x=1,2,…,m,
(4)
其中,x表示第x維,m是特征向量的維數(shù).
最后,在人臉特征提取中,提取的特征維數(shù)太多會(huì)導(dǎo)致特征匹配時(shí)過于復(fù)雜,消耗系統(tǒng)資源,為了降低運(yùn)算復(fù)雜度,本研究使用PCA算法將融合得到的256維特征向量進(jìn)行壓縮降維,最后得到128維的特征向量,在后續(xù)特征匹配中能夠大大加快計(jì)算速度,對(duì)本研究中要求的算法實(shí)時(shí)性具有重要意義.
1.1.3 人臉匹配
本研究使用余弦距離來度量人臉比對(duì)結(jié)果.兩個(gè)人臉分別提取出128維特征向量,計(jì)算兩個(gè)特征向量的余弦距離,代表兩個(gè)人臉的相似程度,如果余弦距離超過某個(gè)閾值則認(rèn)為是同一個(gè)人的人臉.當(dāng)一個(gè)人臉與多個(gè)人臉進(jìn)行比對(duì),如果超過閾值的有多張人臉,則取相似度最高的為最終結(jié)果.
人臉跟蹤過程是已知在某一幀中檢測(cè)到人臉,并標(biāo)記臉部區(qū)域,然后在后續(xù)視頻幀中繼續(xù)跟蹤標(biāo)記的臉部位置.在人臉跟蹤幀中,本研究使用基于核相關(guān)濾波的高速跟蹤方法(KCF)[15],將跟蹤問題當(dāng)作一個(gè)二分類問題,從而找到目標(biāo)與背景的邊界.
如圖4所示,KCF實(shí)現(xiàn)目標(biāo)跟蹤的步驟為:假設(shè)在視頻圖像序列i幀中有目標(biāo)對(duì)象,其位置坐標(biāo)為L(zhǎng)(i).首先,在L(i)附近采集負(fù)樣本,L(i)作為正樣本,訓(xùn)練一個(gè)目標(biāo)檢測(cè)器,將圖像樣本輸入檢測(cè)器,能夠得到該樣本的一個(gè)檢測(cè)響應(yīng)值;接著,在視頻圖像序列i+1幀中,在L(i)附近進(jìn)行采樣,并將樣本輸入目標(biāo)檢測(cè)模型中,得到每個(gè)樣本的檢測(cè)響應(yīng)值,即其是人臉區(qū)域的概率值;最后,取響應(yīng)值最大的樣本位置為i+1幀的目標(biāo)位置L(i+1).
在采集樣本的步驟中,KCF利用循環(huán)矩陣的性質(zhì),將圖像候選區(qū)域像素矩陣乘以一個(gè)循環(huán)矩陣,用來表示候選框上下左右移動(dòng)后新樣本的窗口,這樣可以快速制造大量新的樣本,更多的樣本數(shù)量能夠訓(xùn)練更好的檢測(cè)器.訓(xùn)練目標(biāo)檢測(cè)器時(shí),KCF使用脊回歸算法進(jìn)行訓(xùn)練,計(jì)算相鄰兩個(gè)視頻幀之間的相關(guān)性,算法過程中利用循環(huán)矩陣在傅里葉域可對(duì)角化的特點(diǎn),將時(shí)域上的卷積運(yùn)算轉(zhuǎn)換為頻域上向量的點(diǎn)乘,這樣能夠大大減少計(jì)算量,如果使用方向梯度直方圖(HOG)特征來跟蹤,KCF能夠達(dá)到172幀/s的跟蹤速度,并且有很高的準(zhǔn)確率.
圖4 跟蹤算法步驟Fig.4 Tracking algorithm steps
本研究中人臉識(shí)別以視頻組為單位獨(dú)立進(jìn)行,為了實(shí)現(xiàn)相鄰組間的信息連接,本研究提出一種雙重匹配方法.
通過上述的雙重判別方法,兩個(gè)視頻幀序列組gi和gi+1之間實(shí)現(xiàn)了連接,同時(shí),身份匹配能夠?qū)η耙淮蔚娜四樧R(shí)別結(jié)果進(jìn)行矯正,提高人臉識(shí)別的準(zhǔn)確率.
本研究實(shí)驗(yàn)平臺(tái)為6核,Intel(R) Core(TM) i7-5820K @3.30 GHz,內(nèi)存64 GB的CPU 和GeForce GTX TITAN X,顯存12 GB的GPU.
首先在公開視頻YTF[10]上進(jìn)行測(cè)試,然后再使用監(jiān)控?cái)z像頭在真實(shí)場(chǎng)景下進(jìn)行測(cè)試.YTF數(shù)據(jù)集共包含從YouTube 網(wǎng)站上收集的3 425個(gè)視頻,其中有1 595個(gè)不同的人.每個(gè)視頻的姿態(tài)、光照和表情有很大的變化,每個(gè)視頻剪輯的平均長(zhǎng)度為181.3幀.對(duì)于監(jiān)控?cái)z像頭真實(shí)場(chǎng)景下的測(cè)試,本實(shí)驗(yàn)使用??低旾P攝像頭在實(shí)驗(yàn)室進(jìn)行監(jiān)控視頻采集,數(shù)據(jù)包含20個(gè)不同人的50個(gè)視頻,每個(gè)人都有不同角度、表情,每個(gè)視頻剪輯的平均長(zhǎng)度為203幀.
本實(shí)驗(yàn)參數(shù)設(shè)置如表1所示.人臉特征提取的結(jié)果為128維的特征向量.視頻組間位置匹配時(shí)使用歐氏距離度量,如果相鄰兩幀兩個(gè)人臉的歐式距離小于20,則認(rèn)為是同一個(gè)人.人臉識(shí)別幀中,如果人臉比對(duì)的余弦距離大于0.75,則認(rèn)為是同一個(gè)人.
表1 實(shí)驗(yàn)參數(shù)
YTF數(shù)據(jù)集:根據(jù)YTF數(shù)據(jù)集標(biāo)準(zhǔn)的評(píng)估協(xié)議,實(shí)驗(yàn)中使用5 000個(gè)視頻對(duì),分為10個(gè)組,每個(gè)組包含250個(gè)正樣本對(duì)和250個(gè)負(fù)樣本對(duì).從每個(gè)視頻中隨機(jī)選取100個(gè)樣本并計(jì)算其平均相似度和處理速度.
攝像頭數(shù)據(jù)集:對(duì)50個(gè)視頻中的22個(gè)人采集不同角度人臉的照片并保存在數(shù)據(jù)庫(kù)中,實(shí)驗(yàn)中對(duì)監(jiān)控?cái)z像頭拍攝的視頻樣本與數(shù)據(jù)庫(kù)中人臉進(jìn)行比對(duì),每個(gè)視頻取100個(gè)樣本并計(jì)算其平均相似度和處理速度.
實(shí)驗(yàn)1:在本研究中,監(jiān)控視頻圖像幀序列中每組設(shè)為N幀,對(duì)于N的設(shè)置,則要通過實(shí)驗(yàn)來選擇.如表2所示,使用攝像頭數(shù)據(jù)來進(jìn)行測(cè)試,實(shí)驗(yàn)測(cè)試了當(dāng)N分別取3~8時(shí),算法的準(zhǔn)確性和處理速度.當(dāng)N取3的時(shí)候,識(shí)別準(zhǔn)確率最高,為99.73%,但是其處理速度為19幀/s,達(dá)不到實(shí)時(shí)處理的效果(通過測(cè)試,處理速度達(dá)到28幀/s以上,視頻才能夠流暢顯示).由于N的取值越大,越容易產(chǎn)生人臉漏檢的情況,所以人臉識(shí)別的準(zhǔn)確率會(huì)隨N的增大下降.但N的增加使人臉跟蹤幀的幀數(shù)增加,進(jìn)而使算法的處理速度大大提高.由表1可知,當(dāng)N取5,其處理速度為38幀/s,滿足視頻實(shí)時(shí)性的要求;此時(shí)人臉識(shí)別準(zhǔn)確率為99.60%,有較高的準(zhǔn)確率.綜合考慮,本研究中圖像幀序列以每組5幀處理,后續(xù)實(shí)驗(yàn)在這個(gè)最優(yōu)值下進(jìn)行.
表2 監(jiān)控視頻不同分組方式下的算法準(zhǔn)確率和處理速度
實(shí)驗(yàn)2:為了驗(yàn)證本研究提出的特征融合方法的有效性,比較了基于CNN的DeepFace、視覺幾何組(VGG)、lightened CNN、lightened CNN+特征融合方法以在兩個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率.結(jié)果如表3所示,可以看出,本研究提出的特征融合方法能夠提高人臉識(shí)別的準(zhǔn)確率,在YTF數(shù)據(jù)集上可以達(dá)到92.50%,有良好的識(shí)別效果.同時(shí),在實(shí)際監(jiān)控視頻中可以達(dá)到99.6%的識(shí)別準(zhǔn)確率.
表3 人臉識(shí)別準(zhǔn)確率對(duì)比
實(shí)驗(yàn)3:為了驗(yàn)證本研究中視覺跟蹤算法對(duì)提高人臉識(shí)別速度的有效性,在使用特征融合方法的基礎(chǔ)上,比較沒有視覺跟蹤算法和加入視覺跟蹤算法之后的平均處理速度,并與YTF數(shù)據(jù)集上準(zhǔn)確率較高的VGG方法相比.結(jié)果如表4所示,可以看出加入視覺跟蹤技術(shù)能夠極大地加快人臉識(shí)別處理速度,在實(shí)際的監(jiān)控?cái)z像頭中可以達(dá)到平均38幀/s的速度,完全滿足監(jiān)控?cái)z像頭中實(shí)時(shí)處理要求.
表4 視覺跟蹤方法處理速度對(duì)比
本研究提出了一個(gè)基于視覺跟蹤的視頻人臉識(shí)別方法,創(chuàng)新之處有:1) 提出了視頻幀分組的方法,以組為單位進(jìn)行識(shí)別.2) 將視覺跟蹤加入到人臉識(shí)別方法中,以提高識(shí)別速度.3) 提出了一種特征融合方法,以提高人臉識(shí)別的準(zhǔn)確度.使用該方法在YTF數(shù)據(jù)集和實(shí)際監(jiān)控視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果顯示本研究提出的人臉識(shí)別框架具有較好的識(shí)別準(zhǔn)確率,并且極大地提高了識(shí)別速度,滿足了監(jiān)控視頻中實(shí)時(shí)處理的要求.
本研究提出的算法框架是組件式框架,可以隨著行業(yè)的研究進(jìn)行算法替換,實(shí)驗(yàn)中對(duì)于視頻分組采取的是平均分組,后續(xù)考慮采取其他分組方式,用剪枝的方法,能夠進(jìn)一步提高識(shí)別速度,也將考慮結(jié)合數(shù)據(jù)庫(kù)中的大規(guī)模人臉檢索方法,在實(shí)際場(chǎng)景中達(dá)到更快的處理速度.
[1] 李武軍,王崇駿,張煒,等.人臉識(shí)別研究綜述[J].模式識(shí)別與人工智能,2006,19(1):58-66.
[2] JAFRI R,ARABNIA H R.A survey of face recognition techniques[J].Journal of Information Processing Systems,2009,5(2):41-68.
[3] ZHAO W,CHELLAPPA R,PHILLIPS P J.Face recognition:a literature survey[J].ACM Computing Surveys,2003,35(4):399-458.
[4] 嚴(yán)嚴(yán),章毓晉.基于視頻的人臉識(shí)別研究進(jìn)展[J].計(jì)算機(jī)學(xué)報(bào),2009,32(5):878-886.
[5] SOLANKI K,PITTALIA P.Review of face recognition techniques[J].International Journal of Computer Applications,2016,133(12):20-24.
[6] DASHORE G,RAJ V C.An efficient method for face recognition using principal component analysis(PCA)[J].International Journal of Advanced Technology and Engineering Research,2012,19(2):23-29.
[7] CHAN L H,SALLEH S H,TING C M.Face biometrics based on principal component analysis and linear discriminant analysis[J].Journal of Computer Science,2010,6(7):693-699.
[8] LéCUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[9] HUANG G B,MATTAR M,BERG T,et al.Labeled faces in the wild:a database for studying face recognition in unconstrained environments[R].Amherst:University of Massachusetts,2007.
[10] WOLF L,HASSNER T,MAOZ I.Face recognition in unconstrained videos with matched background similarity[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs:IEEE,2011:529-534.
[11] HU J L,LU J W,TAN Y P.Discriminative deep metric learning for face verification in the wild[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1875-1882.
[12] TRAN A T,HASSNER T,MASI I,et al.Regressing robust and discriminative 3D morphable models with a very deep neural network[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:1493-1502.
[13] TAIGMAN Y,YANG M,RANZATO M,et al.DeepFace:closing the gap to human-level performance in face verification[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1701-1708.
[14] WU X,HE R,SUN Z N.A lightened CNN for deep face representation[EB/OL].(2015-11-09) [2017-12-01].https:∥arxiv.org/abs/1511.02683v1.
[15] WU Y,LIM J,YANG M H.Online object tracking:a benchmark[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE,2013:2411-2418.
[16] HENRIQUES J F,RUI C,MARTINS P,et al.Exploiting the circulant structure of tracking-by-detection with kernels[J].European Conference on Computer Vision,2012,7575(1):702-715.
[17] HENRIQUES J F,RUI C,MARTINS P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,37(3):583.
[18] WANG N,YEUNG D Y.Learning a deep compact image representation for visual tracking[C]∥International Conference on Neural Information Processing Systems.Lake Tahoe:NIPS,2013:809-817.
[19] NAM H,HAN B.Learning multi-domain convolutional neural networks for visual tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:4293-4302.
[20] ZHANG K,ZHANG Z,LI Z,et al.Joint face detection and alignment using multi-task cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.