江鵬飛,王保棟,董子昊,李金屏
(濟南大學(xué) a. 信息科學(xué)與工程學(xué)院,b. 山東省網(wǎng)絡(luò)環(huán)境智能計算技術(shù)重點實驗室,c. 山東省“十三五”高校信息處理與認知計算重點實驗室,山東 濟南 250022)
隨著老年人隱私保護意識逐漸增強,安裝低分辨率遠紅外攝像頭對老年人進行無接觸的室內(nèi)養(yǎng)老監(jiān)護成為人們關(guān)注的熱點。同一房間一般由多位老年人共同居住,及時識別老人身份能夠大幅提高發(fā)生意外時的處理效率,但低分辨率遠紅外監(jiān)護視頻僅能反映熱源溫度信息,且視頻中人物圖像的分辨率只有40~50像素,人臉圖像的分辨率約為7像素,導(dǎo)致人物信息丟失嚴(yán)重,常規(guī)的基于計算機視覺的人物身份識別方法難以有效識別視頻中人物身份。
人物身份識別是學(xué)術(shù)研究的熱點領(lǐng)域之一,其根本原理就是利用人物固有的身份特征進行人物身份認定。利用計算機視覺進行人物身份識別時,先從需要識別的圖像或視頻中提取人物特征,然后與數(shù)據(jù)庫中的身份信息進行匹配,獲得人物身份,其中人臉識別、步態(tài)識別和行人重識別是對監(jiān)護視頻中的人物身份進行識別的主要方法。人臉識別通過提取人臉圖像的固有特征作為識別的依據(jù),是目前最有效的身份識別方法。大多數(shù)遠紅外人臉識別研究都是針對較大分辨率、特征明顯的遠紅外人臉圖像的,例如: 文獻[1]中通過提取原始圖像的分辨率為240像素×320像素的遠紅外人臉中的局部二值模式(local binary patterns,LBP)特征來識別人物身份; 文獻[2]中提出了稀疏表示分類,對分辨率僅為40像素×30像素的遠紅外人臉圖像進行識別,獲得了較好的識別效果。
通常,在低分辨率遠紅外監(jiān)護視頻中的人臉圖像分辨率太小,特征丟失,不能滿足傳統(tǒng)方法的要求,識別效果不佳。步態(tài)識別通過在一段視頻或圖像序列中提取人物正常行走的步態(tài)特征作為人物的身份特征進行識別。由于遠紅外視頻中步態(tài)受到時間、地形、視角、服飾和老人的身體狀態(tài)等因素的影響,因此步態(tài)特征波動較大。同時在實際場景下不可避免地存在步態(tài)不一致和遮擋問題,因此在實際使用中步態(tài)識別不能算是一種有效的人物身份識別方法。在監(jiān)護視頻中,由于相機分辨率較低,安裝位置較遠,難以得到高質(zhì)量的人臉圖像,甚至始終無法獲得人臉圖像,因此行人重識別成為重要的代替方法。行人重識別主要有兩大方向,即特征表示與度量學(xué)習(xí)。基于特征表示的方法通過提取人物的全局或局部外貌特征,利用歐氏距離等標(biāo)準(zhǔn)距離進行相似性度量。度量學(xué)習(xí)則通過學(xué)習(xí)得到一個新的距離度量空間,使同一人物特征之間的距離較小,不同人物特征之間的距離較大。目前行人重識別對于實際場景中的遮擋問題還沒有完全解決,并且不能適應(yīng)遠紅外視頻中季節(jié)、服裝以及生理因素等引起的人物特征不規(guī)律變化,因此需要進一步研究。
為了識別低分辨率遠紅外監(jiān)護視頻中的人物身份,針對低分辨率遠紅外圖像信息丟失嚴(yán)重和人物特征不規(guī)律的問題,本文中提出一種基于多攝像頭接力跟蹤的遠紅外人物身份識別方法(簡稱本文方法),利用時空信息,將室外可見光視頻與室內(nèi)低分辨率遠紅外監(jiān)護視頻中的人物身份相結(jié)合,在有效保護老人隱私的前提下,實現(xiàn)低分辨率遠紅外監(jiān)護視頻中的人物身份識別。
當(dāng)在某一時刻識別到某人物身份,其他時刻通過認定待識別人物是此已知身份的人物時,即可實現(xiàn)在任意時刻的人物身份識別。基于這種思路,本文方法將基于多攝像頭接力跟蹤的遠紅外人物身份識別方法分為可見光視頻中人物身份識別和通過人物軌跡檢測與跨模態(tài)多攝像頭接力跟蹤實現(xiàn)人物身份一致性認定兩大步驟,具體流程如圖1所示。
圖1 遠紅外人物身份識別算法流程圖
在房間門口外安裝可見光攝像頭,能夠在不侵犯個人隱私的前提下獲得高質(zhì)量的人臉圖像,因此可以使用人臉識別算法識別將要進入房間的人物身份。視頻中的人臉識別方法主要包含人臉檢測、預(yù)處理、特征提取和特征匹配4個部分,其中人臉檢測和特征提取是關(guān)鍵。為了滿足監(jiān)護視頻中實時性和準(zhǔn)確性的要求,本文中使用You Only Look Once(YOLO)v3算法完成人臉檢測,然后配合卷積神經(jīng)網(wǎng)絡(luò)ResNet50實現(xiàn)提取人臉特征,完成人臉識別。
1.1.1 基于YOLOv3算法的人臉檢測
YOLO是一種成熟的目標(biāo)檢測算法,具有檢測速度快、精度高的特點,且使用端對端的訓(xùn)練方式與預(yù)測手段,具備較高的靈活性。YOLOv3算法采用Darknet-53網(wǎng)絡(luò)結(jié)構(gòu),在網(wǎng)絡(luò)層間引用殘差模塊,在保證檢測實時性的同時增加網(wǎng)絡(luò)結(jié)構(gòu)(見圖2),進一步提高了檢測精度。由圖可見,輸入圖像經(jīng)過Darknet-53網(wǎng)絡(luò),提取輸入圖像的特征;對得到的特征圖分別進行2次上采樣與張量拼接,得到3個不同尺度的特征,然后在3個尺度對不同大小的人臉進行檢測。
類型卷積核通道個數(shù)卷積核尺寸(行數(shù)×列數(shù))特征圖尺寸(行數(shù)×列數(shù))卷積層323×3416×416卷積層643×3/2208×2081×卷積層321×1卷積層643×3殘差塊208×208卷積層128 3×3/2104×1042×卷積層641×1卷積層128 3×3殘差塊104×104卷積層256 3×3/252×528×卷積層128 1×1卷積層256 3×3殘差塊52×52卷積層512 3×3/226×268×卷積層256 1×1卷積層512 3×3殘差塊26×26卷積層1 024 3×3/213×134×卷積層512 1×1卷積層1 024 3×3殘差塊13×13均值池化 全連接 1 000 歸一化指數(shù)函數(shù)圖2 Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)
在前向傳播過程中輸入圖像被劃分成×個網(wǎng)格,最終每個網(wǎng)格都預(yù)測出個檢測框,得到的檢測框都包含檢測框的中心坐標(biāo)、檢測框的寬度和高度,以及這個檢測框所屬類別的置信度。每個檢測框的損失函數(shù)包括4個部分,定義為
=++,
(1)
式中:為檢測框的中心坐標(biāo)、寬度和高度損失;為賦予的權(quán)重;為檢測框的置信度損失;為檢測框的分類損失。
當(dāng)?shù)趥€網(wǎng)格的第個檢測框負責(zé)某真實目標(biāo)時,該檢測框所產(chǎn)生的邊界框與真實目標(biāo)的邊界框進行比較,計算得到中心坐標(biāo)、寬度和高度損失,定義為
(2)
檢測框的置信度損失定義為
(3)
只有當(dāng)?shù)趥€網(wǎng)格的第個檢測框負責(zé)某個真實目標(biāo)時,該檢測框所產(chǎn)生的邊界框才會計算分類損失函數(shù),即分類損失定義為
(4)
1.1.2 基于ResNet50網(wǎng)絡(luò)的人臉識別
神經(jīng)網(wǎng)絡(luò)層數(shù)越多,所能夠提取的特征越豐富,但簡單的堆疊網(wǎng)絡(luò)也會帶來嚴(yán)重的梯度消失問題。針對該情況,深度殘差網(wǎng)絡(luò)(deep residual network, ResNet)引入殘差學(xué)習(xí)解決深度網(wǎng)絡(luò)難以優(yōu)化的問題,即用()表示最優(yōu)映射,用堆疊的非線性層擬合另一映射()=()-,基中為網(wǎng)絡(luò)輸入,此時最優(yōu)映射可以表示為()=()+。殘差映射在前饋網(wǎng)絡(luò)中增加捷徑連接,執(zhí)行簡單的恒等映射,這樣不會增加額外參數(shù)和計算復(fù)雜度,比原有映射更易優(yōu)化。殘差網(wǎng)絡(luò)示意圖如圖3所示。
圖3 殘差網(wǎng)絡(luò)示意圖
ResNet50網(wǎng)絡(luò)是性能優(yōu)良的殘差神經(jīng)網(wǎng)絡(luò)模型,本文中以該網(wǎng)絡(luò)為人臉識別模型的基本框架并使用歸一化指數(shù)函數(shù)Softmax損失進行監(jiān)督訓(xùn)練。
通過ResNet50網(wǎng)絡(luò)從提交的人臉模板圖像中提取特征向量作為人物身份特征模板存入數(shù)據(jù)庫中。在人臉識別過程中,首先使用此網(wǎng)絡(luò)提取待識別人臉圖像的特征向量,然后計算此特征向量和數(shù)據(jù)庫中的人物身份特征模板的歐氏距離,從而識別待識別人臉圖像所屬的人物的身份。歐氏距離的計算公式為
(5)
式中:為待識別人臉特征向量;為數(shù)據(jù)庫中人物的身份特征向量;(,)為與之間的歐氏距離;為特征向量維度;、d分別為人臉特征向量和身份特征向量第維特征值。當(dāng)歐氏距離最小時對應(yīng)的數(shù)據(jù)庫中的人物身份即為待識別的人物身份。
人物身份一致性認定利用目標(biāo)跟蹤算法獲得人物的連續(xù)時空信息,認定視頻中不同時刻的人物是同一身份。本文中在單一攝像頭下使用人物運動軌跡檢測方法,在可見光與遠紅外攝像頭之間使用跨模態(tài)多攝像頭接力跟蹤方法實現(xiàn)人物身份一致性認定。
1.2.1 人物運動軌跡檢測
運動軌跡是指人物從出現(xiàn)到離開的時間段內(nèi)每一時刻在視頻中的位置。在同一攝像頭拍攝的連續(xù)視頻中,通過目標(biāo)跟蹤算法對視頻中的人物進行連續(xù)跟蹤,檢測人物的運動軌跡,即可判斷前、后2幅圖像中的人物是否為同一身份。本文中人物運動軌跡檢測共包括2個部分,分別是通過YOLOv3算法進行人物檢測和使用核相關(guān)濾波跟蹤(kernel correlation filter, KCF)算法跟蹤目標(biāo)人物。KCF算法基于樣本的梯度方向直方圖(histogram of oriented gradients, HOG)特征跟蹤目標(biāo),具有不需要訓(xùn)練樣本的優(yōu)勢,同時利用循環(huán)矩陣可以離散傅里葉對角化的性質(zhì),加快了跟蹤速度。
由于人物活動總會使HOG特征產(chǎn)生變化,目標(biāo)跟蹤效果劣化,使得目標(biāo)跟蹤框與人物真實位置出現(xiàn)偏差,因此需要計算人物檢測框和目標(biāo)跟蹤框的重合度,用于校正跟蹤框的偏差。人物檢測框和目標(biāo)跟蹤框的重合度的計算公式為
(6)
式中:為人物檢測框的面積;為目標(biāo)跟蹤框的面積;為人物檢測框和目標(biāo)跟蹤框重合部分的面積。若目標(biāo)跟蹤框過大或小于設(shè)定閾值,即認定跟蹤結(jié)果出現(xiàn)較大偏差,需要根據(jù)人物檢測結(jié)果重新更新跟蹤目標(biāo)。
122 跨模態(tài)多攝像頭接力跟蹤
對于人物從室外可見光攝像頭視野域進入室內(nèi)遠紅外攝像頭視野域的情況,需要使用跨模態(tài)多攝像頭接力跟蹤方法來實現(xiàn)跨攝像頭身份一致性認定。由于可見光攝像頭和遠紅外攝像頭分別拍攝室外與室內(nèi)2個不同區(qū)域,因此2個攝像頭視野域之間無重疊區(qū)域。無重疊區(qū)域的接力跟蹤方法一般采用基于目標(biāo)特征匹配的方法,即從不同視頻中提取目標(biāo)的特征進行匹配來判斷不同視頻中的目標(biāo)是否相同。由于可見光攝像頭和遠紅外攝像頭成像原理各異、攝像頭拍攝角度不同、遠紅外攝像頭分辨率過低等導(dǎo)致同一目標(biāo)在2個攝像頭間的特征難以匹配,無法使用基于目標(biāo)特征匹配的方法實現(xiàn)跨模態(tài)多攝像頭接力跟蹤,因此本文中采用了基于時空信息的接力跟蹤方法建立跨模態(tài)多攝像頭接力跟蹤模型。基于時空信息的接力跟蹤方法通過建立多攝像頭之間的時空拓撲結(jié)構(gòu),即不同攝像機視野域的空間轉(zhuǎn)移和轉(zhuǎn)移時間概率模型,根據(jù)時空信息判斷前、后2個目標(biāo)是否為同一目標(biāo)。
由于在低分辨率遠紅外監(jiān)護視頻中的人物身份識別過程只需要實現(xiàn)從室外可見光攝像頭視野域到室內(nèi)遠紅外攝像頭視野域的接力跟蹤,因此多攝像頭空間鄰接關(guān)系如圖4所示。
確定攝像頭視野域進、出口是為了確定目標(biāo)進行一次轉(zhuǎn)移的起點和終點,因為在此接力跟蹤過程中,僅有可見光攝像頭視野域中的一個出口和與其對應(yīng)的遠紅外攝像頭視野域中的一個進口,所以人物轉(zhuǎn)移方式示意圖如圖5所示。2個視野域之間存在一個由房門阻隔形成的空間較小的封閉盲區(qū),即無法從盲區(qū)進入其他區(qū)域,也不可能從其他區(qū)域進入盲區(qū),因此目標(biāo)只可能從可見光攝像頭視野域經(jīng)盲區(qū)進入遠紅外攝像頭視野域,或目標(biāo)進入盲區(qū)后折返。當(dāng)多人同時轉(zhuǎn)移時,由于盲區(qū)空間較小行人無法并行,因此轉(zhuǎn)移次序不會改變。多攝像頭空間鄰接關(guān)系和人物轉(zhuǎn)移方式共同組成空間轉(zhuǎn)移模型,因此在該場景下無須特別建立多攝像頭空間轉(zhuǎn)移模型。
圖4 多攝像頭空間鄰接關(guān)系示意圖
圖5 接力跟蹤實驗人物轉(zhuǎn)移方式示意圖
本文中將轉(zhuǎn)移過程分為慢速、正常和高速運動3種情況,采用混合高斯分布進行轉(zhuǎn)移時間概率建模,對應(yīng)的高斯權(quán)重模型()為
(7)
其中
(8)
為了提高轉(zhuǎn)移時間概率模型的準(zhǔn)確性,根據(jù)實際情況,實時更新混合高斯分布參數(shù),
(9)
(10)
當(dāng)人物從可見光攝像頭視野域轉(zhuǎn)移至遠紅外攝像頭視野域時,若同時滿足空間轉(zhuǎn)移和轉(zhuǎn)移時間概率模型,即可認為2個視頻中的人物為同一人物。
2.1.1 實驗平臺
本實驗中硬件配置為Inter I5-9600KF型中央處理器搭配GTX-1660Super型圖形處理器,軟件采用圖像處理庫Opencv和深度學(xué)習(xí)框架Pytorch。
為了驗證本文方法的有效性,使用分辨率為1 280像素×720像素的可見光攝像頭和分辨率為320像素×240像素的遠紅外攝像頭構(gòu)建無重疊視野域的實驗平臺,2個攝像頭保持同步,攝像頭視野域之間的盲區(qū)為封閉區(qū)域,實際場景如圖6所示。
(a)可見光攝像頭視野域
(b)遠紅外攝像頭視野域圖6 無重疊視野域?qū)嶒炂脚_
2.1.2 評估指標(biāo)
驗證本文方法的有效性主要從可見光人臉識別、遠紅外視頻中人物軌跡檢測以及跨模態(tài)多攝像頭接力跟蹤3個方面進行分析。由于低分辨率遠紅外監(jiān)護視頻中人物步態(tài)和外貌特征受到衣著、季節(jié)等因素的影響,難以作為身份識別的依據(jù),因此選擇基于遠紅外人臉識別的人物身份識別方法與本文方法進行對比。本文中選用準(zhǔn)確率作為可見光人臉識別、人物運動軌跡檢測和跨模態(tài)多攝像頭接力跟蹤方法的評估指標(biāo)。由于可見光人臉識別算法計算量較大,因此采用平均計算速度衡量可見光人臉識別算法的實時性。定義準(zhǔn)確率為
(11)
式中:為正確識別身份并且跟蹤正確結(jié)果總數(shù);為識別和跟蹤結(jié)果總數(shù)。
2.1.3 實驗數(shù)據(jù)
考慮到老年人行動不便,在實驗平臺中通過10位年輕志愿者模擬老年人生活的真實場景,拍攝40段人物運動視頻,另外標(biāo)注1 000幅可見光人臉圖像用于可見光人臉識別模型的訓(xùn)練,如圖7(a)所示;標(biāo)注1 000幅遠紅外視頻中的人物圖像用于人物軌跡檢測模型的訓(xùn)練,如圖7(b)所示。為了與遠紅外人臉識別方法進行對比,標(biāo)注1 000幅遠紅外視頻中的人臉圖像用于遠紅外人臉識別模型的訓(xùn)練,人臉圖像分辨率僅為6~7像素,部分人臉圖像如圖7(c)所示。
2.2.1 可見光人臉識別
分別訓(xùn)練可見光人臉檢測與識別模型,可見光人臉識別實驗結(jié)果如表1所示。由表可以看出,將人臉識別網(wǎng)絡(luò)嵌入YOLOv3算法后,模型在人臉測試樣本個數(shù)為200時識別準(zhǔn)確率達到98.21%,并且模型整體運行較快,處理一幅圖像的平均時間僅為0.006 3 s,能夠滿足視頻中實時身份識別需要。
(a)可見光人物圖像
(b)遠紅外人物圖像
(c)低分辨率遠紅外人臉圖像圖7 遠紅外人物身份識別實驗數(shù)據(jù)
表1 可見光人臉識別實驗結(jié)果
2.2.2 人物運動軌跡檢測
圖8所示為不同重疊度閾值時人物運動軌跡檢測準(zhǔn)確率。由圖可知,即使在較大的重疊度閾值時也能取得較好的準(zhǔn)確率。最終本文中選擇的重疊度閾值為0.6,此時人物運動軌跡檢測準(zhǔn)確率為91.1%。
圖8 不同重疊度閾值下的人物運動軌跡檢測準(zhǔn)確率
2.2.3 跨模態(tài)多攝像頭接力跟蹤
在跨模態(tài)多攝像頭接力跟蹤實驗中,對80段接力跟蹤視頻中穿過2個攝像頭視野域中間盲區(qū)所用時間進行混合高斯建模,得到慢速、正常和高速狀態(tài)下穿過中間盲區(qū)所用的轉(zhuǎn)移時間概率模型,結(jié)果如圖9所示。圖10所示為跨模態(tài)多攝像頭接力跟蹤實例。
圖9 跨模態(tài)多攝像頭接力跟蹤轉(zhuǎn)移時間概率模型
(a)可見光視頻第200幀(b)可見光視頻第260幀(c)遠紅外視頻第320幀(d)遠紅外視頻第380幀圖10 跨模態(tài)多攝像頭接力跟蹤實例
從可見光人臉識別、人物運動軌跡檢測、跨模態(tài)多攝像頭接力跟蹤實驗結(jié)果可以看出,本文方法在可見光人臉識別、人物運動軌跡檢測和跨模態(tài)多攝像頭接力跟蹤3個方面的準(zhǔn)確率都較高,驗證了本文方法的準(zhǔn)確性。
2.2.4 遠紅外人物身份識別
采用基于梯度方向直方圖特征、局部二值模式特征和ResNet50網(wǎng)絡(luò)的遠紅外人臉識別方法與本文方法進行對比,實驗結(jié)果如表2所示。從表中可以看出,本文方法利用時空信息將遠紅外視頻與可見光視頻中的人物身份進行了統(tǒng)一,因此具有較高的準(zhǔn)確率。基于遠紅外人臉識別的人物身份識別方法準(zhǔn)確率普遍較低,這是由低分辨率遠紅外監(jiān)護視頻中遠紅外人臉圖像難以有效提取特征導(dǎo)致的。
表2 基于不同算法的遠紅外人物身份識別方法的實驗結(jié)果
采用低分辨率遠紅外攝像頭在室內(nèi)對老年人養(yǎng)老監(jiān)護,能有效保護老年人隱私,但也給低分辨率遠紅外監(jiān)護視頻中的人物身份識別帶來了困難。本文中提出了一種基于多攝像頭接力跟蹤的遠紅外人物身份識別方法,實驗結(jié)果證明該方法能夠有效識別低分辨率遠紅外監(jiān)護視頻中的人物身份,可以為處理監(jiān)護過程中的突發(fā)性事件提供幫助。該方法需要另外在室外安裝可見光攝像頭,雖然不侵犯老年人隱私,但是增加了監(jiān)護成本,需要進一步改進。