曹建榮,武欣瑩,呂俊杰,王亞萌,楊紅娟,張 旭
1(山東建筑大學(xué) 信息與電氣工程學(xué)院,濟(jì)南 250101)
2(山東省智能建筑技術(shù)重點(diǎn)實(shí)驗(yàn)室,濟(jì)南 250101)
隨著監(jiān)控場(chǎng)景復(fù)雜度的增加和視頻監(jiān)控系統(tǒng)規(guī)模的不斷擴(kuò)大,基于智能視頻分析的多攝像機(jī)下的運(yùn)動(dòng)目標(biāo)交接技術(shù)逐漸成為計(jì)算機(jī)視覺領(lǐng)域熱門的研究方向之一.運(yùn)動(dòng)目標(biāo)交接的目的是分別在相鄰的攝像機(jī)下確認(rèn)運(yùn)動(dòng)目標(biāo)的身份等各項(xiàng)參數(shù)指標(biāo),由此利用毗鄰的多臺(tái)攝像機(jī)實(shí)現(xiàn)對(duì)該運(yùn)動(dòng)中目標(biāo)對(duì)象的不間斷追蹤.
以目標(biāo)的特征融合為基礎(chǔ)的目標(biāo)交接一般應(yīng)用于無(wú)重疊視域的多攝像機(jī)連續(xù)跟蹤.在進(jìn)行目標(biāo)的特征提取時(shí),陸興華等[1]通過(guò)統(tǒng)計(jì)灰度直方圖的信息可以提取到目標(biāo)的特征,但目標(biāo)和背景的顏色差異有可能帶來(lái)特征匹配誤差;Liang 等提出使用LOMO (LOcal Maximal Occurrence)算法[2]將手工特征和深度特征兩種特征交融在同一個(gè)深度網(wǎng)絡(luò)中完成目標(biāo)的交接,但網(wǎng)絡(luò)訓(xùn)練速度較慢.而常用的特征相似度度量有余弦相似度、歐式相似度、MLAPG 相似度[3]和NLML 相似度[4].
以空間模型為基礎(chǔ)的運(yùn)動(dòng)目標(biāo)交接一般應(yīng)用于有重疊視域的多攝像機(jī)連續(xù)跟蹤.張正本等[5]提出了一種采用卡爾曼一致濾波對(duì)空間內(nèi)多個(gè)目標(biāo)狀態(tài)進(jìn)行一致性估計(jì)的方法解決分布式多運(yùn)動(dòng)目標(biāo)交接問(wèn)題,但該方法對(duì)測(cè)量模型要求高,實(shí)用性不高.陽(yáng)小燕等[6]提出了一種改進(jìn)的基于視野分界線的多攝像機(jī)運(yùn)動(dòng)目標(biāo)跟蹤算法,但當(dāng)視野分界線被遮擋時(shí)會(huì)影響目標(biāo)交接的準(zhǔn)確性.Ur-Rehman 等[7]為了解決多個(gè)運(yùn)動(dòng)目標(biāo)在交接時(shí)所產(chǎn)生的遮擋問(wèn)題,采用聚類模型理論作為指導(dǎo)方法進(jìn)行研究,但該模型的收斂速度較慢,受限于樣本容量大小.
以上兩種傳統(tǒng)的目標(biāo)交接方法可以根據(jù)目標(biāo)的特征和空間模型特征完成重疊或非重疊視域的多攝像機(jī)連續(xù)跟蹤,但以上模型較為復(fù)雜且無(wú)法兼顧目標(biāo)交接的實(shí)時(shí)性和準(zhǔn)確性.近年來(lái),深度學(xué)習(xí)算法在運(yùn)動(dòng)目標(biāo)交接和跟蹤中展現(xiàn)出強(qiáng)大的速度優(yōu)勢(shì),因此本文以人臉為研究對(duì)象并利用深度學(xué)習(xí)的方法完成運(yùn)動(dòng)目標(biāo)交接,在保持算法原有的速度優(yōu)勢(shì)的同時(shí),還可以緩解由目標(biāo)相互遮擋引起的目標(biāo)不連續(xù)和不確定問(wèn)題,提高交接的精度.
本文通過(guò)對(duì)不同攝像機(jī)下獲取的人臉圖像進(jìn)行匹配實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)在不同攝像機(jī)中的目標(biāo)交接匹配,實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)的連續(xù)跟蹤.首先利用深度學(xué)習(xí)方法檢測(cè)行人運(yùn)動(dòng)目標(biāo),并提取行人的人臉特征;然后通過(guò)合適的相似度度量方法對(duì)不同攝像機(jī)中的人臉進(jìn)行特征相似度匹配,找到最匹配的人臉,有效地實(shí)現(xiàn)毗鄰攝像機(jī)對(duì)運(yùn)動(dòng)目標(biāo)的交接算法.
本文整體算法流程圖如圖1所示,算法的主要結(jié)構(gòu)如下.
圖1 整體算法流程圖
(1)首先,運(yùn)動(dòng)目標(biāo)作為非剛體易發(fā)生相互遮擋且其他生物特征在匹配時(shí)容易產(chǎn)生匹配誤差,因此本文選擇人臉作為研究對(duì)象,利用深度學(xué)習(xí)提取人臉的特征;
(2)然后,開始網(wǎng)絡(luò)模型的訓(xùn)練,訓(xùn)練流程如圖1(a)所示.分別建立MTCNN 人臉檢測(cè)模型和ResNet-v4特征提取模型,選取經(jīng)典人臉庫(kù)和自行采集的視頻人臉庫(kù)組成訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行訓(xùn)練.根據(jù)本文訓(xùn)練數(shù)據(jù)的特點(diǎn)對(duì)模型進(jìn)行調(diào)整和改進(jìn),確定網(wǎng)絡(luò)的權(quán)值和閾值,提高模型的自適應(yīng)性和訓(xùn)練速度;
(3)最后,將攝像機(jī)A、相鄰攝像機(jī)B 獲取的視頻幀輸入訓(xùn)練達(dá)標(biāo)的模型中實(shí)現(xiàn)目標(biāo)交接.交接流程如圖1(b)所示.根據(jù)人臉檢測(cè)模型檢測(cè)到人臉的位置,根據(jù)特征提取模型提取檢測(cè)到的人臉特征,利用相似度度量將人臉特征在相鄰攝像頭下進(jìn)行人臉特征匹配,并循壞獲取攝像機(jī)A、B 視頻幀不斷進(jìn)行檢測(cè)和匹配過(guò)程,最終實(shí)現(xiàn)所有目標(biāo)的交接.
人臉檢測(cè)旨在有行人運(yùn)動(dòng)目標(biāo)的視頻監(jiān)控序列中判斷是否存在人臉,并同時(shí)給出人臉的數(shù)量、位置等參數(shù),是運(yùn)動(dòng)目標(biāo)交接的首要環(huán)節(jié).本文利用MTCNN(Multi-Task Convolutional Neural Network)網(wǎng)絡(luò)進(jìn)行人臉檢測(cè).該網(wǎng)絡(luò)由圖像金字塔及三階段級(jí)聯(lián)CNN 組成,將人臉檢測(cè)、人臉位置標(biāo)定和人臉特征點(diǎn)檢測(cè)同時(shí)進(jìn)行[8].級(jí)聯(lián)網(wǎng)絡(luò)包括P-Net (Proposal Network)網(wǎng)絡(luò)、R-Net (Refine Network) 網(wǎng)絡(luò)及O-Net (Output Network)網(wǎng)絡(luò),MTCNN 3 個(gè)CNN 子網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 MTCNN 3 個(gè)子網(wǎng)絡(luò)結(jié)構(gòu)圖
該算法的主要流程如下:
1)首先將圖片按照不同比例縮放成大小不同的圖片,建立圖像金字塔,最后得到的最小的圖像最短邊要大于等于12;
2)然后將12×12 的圖片輸入P-Net 網(wǎng)絡(luò),通過(guò)計(jì)算生成大量的人臉候選框和邊框回歸向量,利用邊框回歸的方法來(lái)矯正生成的人臉框,利用非極大值抑制合并重疊的候選框;
3)其次將P-Net 網(wǎng)絡(luò)輸出的圖像縮放至24×24,輸入至R-Net 網(wǎng)絡(luò)中,進(jìn)一步篩掉大量非人臉框,繼續(xù)使用邊框回歸和非極大值抑制的方法合并候選框,達(dá)到高精度過(guò)濾和人臉區(qū)域優(yōu)化的效果;
4)最后將R-Net 網(wǎng)絡(luò)輸出的圖像縮放至48×48,輸入至O-Net 網(wǎng)絡(luò)中,最終輸出回歸框分類、回歸框位置及人臉特征點(diǎn)的位置.
由上可知,MTCNN 網(wǎng)絡(luò)為了兼顧性能及準(zhǔn)確率,避免滑動(dòng)窗口加分類器等傳統(tǒng)方法帶來(lái)的性能消耗,先使用簡(jiǎn)單網(wǎng)絡(luò)生成有一定可能性的人臉區(qū)域候選框,然后再使用更復(fù)雜的網(wǎng)絡(luò)進(jìn)行細(xì)分類和更高精度的人臉框回歸,并讓這一步遞歸執(zhí)行來(lái)構(gòu)成三層網(wǎng)絡(luò),完成快速高效的人臉檢測(cè).
人臉特征提取是多攝像機(jī)運(yùn)動(dòng)目標(biāo)交接方法中的關(guān)鍵部分,主要分為基于傳統(tǒng)和深度學(xué)習(xí)的特征提取方法.傳統(tǒng)方法側(cè)重于通過(guò)人的膚色、紋理和幾何特征等方面提取特征.例如,HOG 特征提取算法通過(guò)計(jì)算圖像局部區(qū)域的梯度方向直方圖來(lái)獲取圖像特征[9];LBP 算法通過(guò)區(qū)域塊匹配的方法提取人臉圖像的紋理特征[10].Haar-like 特征算法利用人臉器官間的幾何關(guān)系來(lái)提取人臉特征[11].
基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型主要有Deep-Face[12]、DeepID[13]、FaceNet[14]模型等,其算法的精準(zhǔn)度已經(jīng)優(yōu)于人眼觀測(cè)的效果.最新研究成果表明,深度卷積神經(jīng)網(wǎng)絡(luò)通過(guò)不斷的訓(xùn)練提取圖片中的特征,具有較強(qiáng)的客觀性和選擇性,因此本文選擇深度學(xué)習(xí)的方法搭建人臉特征提取模型.
本文運(yùn)用深度學(xué)習(xí)方法對(duì)人臉特征進(jìn)行提取時(shí)需要對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,主要參考VGGNet[15]與GoogleLeNet[16]的結(jié)構(gòu)模型,使用ResNet-v4[17]的模型提取人臉的特征,該模型可以避免訓(xùn)練集的準(zhǔn)確率隨網(wǎng)絡(luò)層數(shù)的加深而下降的風(fēng)險(xiǎn).最后依據(jù)本文訓(xùn)練數(shù)據(jù)的特點(diǎn),進(jìn)一步對(duì)模型進(jìn)行完善,完善之后的訓(xùn)練主網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示.
圖3 訓(xùn)練主網(wǎng)絡(luò)結(jié)構(gòu)圖
圖3展示了由1 個(gè)輸入層、13 個(gè)卷積組、1 個(gè)全局平均池化層、1 個(gè)Dropout 層及1 個(gè)輸出層組成的改進(jìn)的網(wǎng)絡(luò)模型.開始先向模型中輸入3 張160×160尺寸的訓(xùn)練圖片,經(jīng)過(guò)Stem 卷積組后生成18×18 的特征圖共384 個(gè);其次通過(guò)卷積組Inception-A 共4 個(gè),得到18×18 的特征圖形共384 個(gè);之后通過(guò)卷積組Reduction-A 1 個(gè),得到9×9 的特征圖形共1024 個(gè);再通過(guò)卷積組Inception-B 共7 個(gè),得到9×9 的特征圖形共1024 個(gè);最后經(jīng)過(guò)平均池化層,得到1×1 的特征圖形共1024 個(gè).
該殘差網(wǎng)絡(luò)相對(duì)于之前的深度學(xué)習(xí)網(wǎng)絡(luò)具有很多改進(jìn)和優(yōu)點(diǎn).在參數(shù)數(shù)量方面,用2 個(gè)小的卷積核串聯(lián)代替較大的卷積核可以降低計(jì)算量的同時(shí)增加神經(jīng)網(wǎng)絡(luò)的表征能力.例如,在該網(wǎng)絡(luò)中將2 個(gè)3×3 小卷積核串聯(lián)代替1 個(gè)5×5 的大卷積核,訓(xùn)練參數(shù)由25 個(gè)變?yōu)?8 個(gè);在網(wǎng)絡(luò)寬度方面,為了提高網(wǎng)絡(luò)模型對(duì)尺寸的自適應(yīng)能力,將卷積組中1×1、3×3 的卷積核和3×3 的池化層堆疊在一起來(lái)增加網(wǎng)絡(luò)結(jié)構(gòu)的寬度;在卷積降維方面,卷積網(wǎng)絡(luò)的增寬會(huì)急速地增加卷積通道的數(shù)量,為了避免其對(duì)神經(jīng)網(wǎng)絡(luò)模型的運(yùn)算速率產(chǎn)生影響,將Inception-B 卷積組與1×1 的卷積核進(jìn)行卷積計(jì)算,這樣能夠大大降低大卷積核的通道數(shù).
在網(wǎng)絡(luò)的框架構(gòu)建完成之后,還要處理和分析用于人臉特征匹配的數(shù)據(jù)集.當(dāng)今網(wǎng)絡(luò)化時(shí)代有大量用于人臉識(shí)別的開源數(shù)據(jù)集.例如,CelebaA (Celeb Faces Attributes Dataset)數(shù)據(jù)集[18]是由香港中文大學(xué)湯曉鷗教授實(shí)驗(yàn)室公布的大型人臉屬性數(shù)據(jù)集,該數(shù)據(jù)集包含了200000 張人臉圖片,人臉屬性有40 多種;為了探究人臉識(shí)別在非限制環(huán)境中產(chǎn)生的問(wèn)題,LFW 數(shù)據(jù)集[19]應(yīng)運(yùn)而生,這一數(shù)據(jù)集共包含人臉圖像13000 多張,涉及人數(shù)為5749 人,每張人臉均被標(biāo)注上了對(duì)應(yīng)的人名,通過(guò)定義無(wú)監(jiān)督、限制與非限制3 個(gè)標(biāo)準(zhǔn)協(xié)議來(lái)評(píng)估人臉匹配的性能,是標(biāo)準(zhǔn)的人臉匹配測(cè)試數(shù)據(jù)集.
本文采用LFW 標(biāo)準(zhǔn)人臉匹配數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集是根據(jù)目標(biāo)交接要求,通過(guò)網(wǎng)絡(luò)收集到8400 張大小為160×160 的人臉圖片,并將其分為400 組不同的類別,完成人臉特征提取數(shù)據(jù)集的制作.
本文的損失函數(shù)借鑒文獻(xiàn)[20],采用一種Softmax損失與中心損失相結(jié)合的方法.這種方法能夠降低同類內(nèi)部的差異,同時(shí)能夠提高類別之間的差異,以此來(lái)增強(qiáng)特征提取時(shí)模型的辨別與泛化能力.
Softmax 的損失函數(shù)主要用來(lái)處理多分類問(wèn)題,它的公式如下所示:
其中,LSoftmax表示Softmax 的損失函數(shù);i為圖片數(shù)量;表示Softmax 的輸出向量的y第i個(gè)值,輸出的是預(yù)測(cè)結(jié)果;yi表示個(gè)體的真實(shí)類別,取值為0 或1,即真實(shí)標(biāo)簽對(duì)應(yīng)位置的那個(gè)值為1,其他都為0.
中心損失函數(shù)為一種經(jīng)典的聚類算法,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)具備多個(gè)特征時(shí),每一批次都能夠通過(guò)計(jì)算得到多個(gè)特征中心,同時(shí)也能夠都得到對(duì)應(yīng)的的損失函數(shù).式(2)為中心損失函數(shù)的表達(dá)形式:
其中,LCentre表示中心損失函數(shù);xi為第i張圖片的特征值;Cyi為第i張圖片所處類別的中心,即yi所屬類別的特征值的中間點(diǎn).
分類的特征中心Cyi隨著深度特征的變化而變化,初次訓(xùn)練時(shí)需要隨機(jī)設(shè)定Cyi的值,單次訓(xùn)練時(shí)需要利用式(3)對(duì)Cyi進(jìn)行更新:
其中,ΔCj表示分類中心的變化量;yi代表類別個(gè)體的實(shí)際所屬,當(dāng)它與Cj表 現(xiàn)出一樣的類別時(shí),對(duì)Cj進(jìn)行迭代更新;當(dāng)它與Cj表現(xiàn)出不一樣的類別的時(shí)候,不進(jìn)行迭代更新.
通過(guò)中心損失與Softmax 損失這兩種函數(shù)的合作監(jiān)督,構(gòu)建總損失函數(shù).總損失函數(shù)計(jì)算公式如式(4):
式中,L表示總損失函數(shù);λ的值由人為設(shè)置,它是一個(gè)使兩種損失相互平衡的超參,選擇合適的 λ可以增強(qiáng)網(wǎng)絡(luò)特征的識(shí)別能力.當(dāng) λ=0時(shí),可以將式(4)的函數(shù)認(rèn)為是僅有Softmax 損失的情況.λ取值越大種類之間越分散,反之越集中.本文對(duì)文獻(xiàn)[19]進(jìn)行分析,取λ=0.9.
通過(guò)以上Softmax loss 和Center loss 聯(lián)合監(jiān)督的方法可以解決三重?fù)p失中采樣復(fù)雜的問(wèn)題,也可以解決對(duì)比損失中無(wú)法采集合適樣本對(duì)的問(wèn)題,可使模型的泛化能力大大提升.
構(gòu)建好人臉特征提取框架后,還需要通過(guò)相似度度量方法對(duì)人臉的相似度進(jìn)行計(jì)算,完成人臉匹配.最常用的相似度測(cè)量方法是余弦距離相似度,最常用的距離度量是歐氏距離,很多相似度的度量和距離度量的方法都是在這兩種方法的基礎(chǔ)上的變化和推演而來(lái)的.文中將余弦距離與歐氏距離進(jìn)行對(duì)比分析,對(duì)最佳的度量算法進(jìn)行選用.
(1)歐氏距離(Euclidean Distance)
歐氏距離對(duì)個(gè)體差異的分析通常取決于維度數(shù)值的大小,主要通過(guò)數(shù)值表現(xiàn)的差異來(lái)判斷個(gè)體間的類別.
例如空間是N維的,那么N維向量x(a1,a2,a3,···,an),y(b1,b2,b3,···,bn) 之 間的歐式距離為dN.其計(jì)算公式如下所示:
(2)余弦距離(Cosine Distance)
在N維空間中,還可以通過(guò)余弦距離來(lái)得到兩個(gè)向量組成角度的余弦值,余弦距離大多數(shù)情況是從向量的方向上來(lái)分辨差別,依據(jù)向量在方向上的差異來(lái)判斷兩者是否為同一類別[8].
假設(shè)在N維空間中,計(jì)算N維向量x(a1,a2,a3,···,an),y(b1,b2,b3,···,bn)之間的夾角余弦公式.其計(jì)算公式如下所示:
已知向量之間的夾角的余弦值位于[-1,1]這一范圍內(nèi),兩個(gè)不同向量在N維空間的方向相同時(shí)為正向,1 為最大值;而方向相異時(shí)為負(fù)向,-1 為最小值.夾角余弦越大表示兩個(gè)向量的夾角越小,說(shuō)明人臉圖像的差異越小.反之表示兩向量的夾角越大,說(shuō)明人臉圖像的差異越大.深度神經(jīng)網(wǎng)絡(luò)的最后往往連接不同的分類函數(shù),用來(lái)輸出區(qū)別人臉類別的預(yù)估概率可能性.往往要篩除掉全連接一層,同時(shí)把最后一層卷積層當(dāng)作人臉的“向量表示”,用來(lái)表示人臉的“特征”.假設(shè)兩張人臉圖像的“向量表示”表示為x(a1,a2,a3,···,an),y(b1,b,b3,···,bn)將其帶入式(5)或式(6)可以計(jì)算出不同人臉圖片的相似程度.
多攝像機(jī)間的監(jiān)控區(qū)域主要根據(jù)人臉面部清晰度和監(jiān)控視覺特性這兩個(gè)方面來(lái)劃分,圖4所展示的是攝像機(jī)監(jiān)控下的視域范圍.
圖4 攝像機(jī)監(jiān)控下的視域范圍圖
如圖4可知,假如運(yùn)動(dòng)目標(biāo)的監(jiān)控視域隨著監(jiān)控角度的變化可以等分為A—E 這4 個(gè)監(jiān)控區(qū)域,由于攝像機(jī)具有景深的特點(diǎn),在以上4 個(gè)監(jiān)控區(qū)域中,監(jiān)控區(qū)域B—D 這一視域范圍內(nèi)是捕捉人臉圖片的最優(yōu)范圍.所以,本文以D 線作為視線邊界并由此開始捕捉運(yùn)動(dòng)目標(biāo)的人臉圖片,將人臉捕捉間隔設(shè)置為5 幀,并對(duì)同一目標(biāo)捕獲3 張圖片加以保存.
相鄰兩攝像機(jī)在非重疊視域下的運(yùn)動(dòng)目標(biāo)交接步驟如下:
1)當(dāng)運(yùn)動(dòng)目標(biāo)通過(guò)第一個(gè)監(jiān)控?cái)z像機(jī)的監(jiān)控區(qū)域時(shí),對(duì)所有目標(biāo)人臉進(jìn)行檢測(cè)并標(biāo)注不同的ID,相同目標(biāo)人臉圖像抓取3 張并保存;
2)若目標(biāo)行人運(yùn)動(dòng)到鄰近的攝像機(jī)的視域范圍內(nèi),該攝像機(jī)隨即對(duì)人臉圖片進(jìn)行捕獲;
3)分別對(duì)兩臺(tái)相鄰攝像機(jī)檢測(cè)到的人臉進(jìn)行人臉對(duì)齊和特征提?。?/p>
4)最后,將第二臺(tái)攝像機(jī)采集到的人臉與前一臺(tái)攝像機(jī)的目標(biāo)人臉圖片進(jìn)行對(duì)比分析,根據(jù)分析結(jié)果對(duì)不同ID 的人臉特征相似度進(jìn)行平均值計(jì)算;
5)假設(shè)特征相似度計(jì)算選用余弦距離:已知設(shè)定閾值a大于設(shè)定閾值b,對(duì)后一臺(tái)攝像機(jī)與前一臺(tái)攝像機(jī)分別采集到的人臉圖片進(jìn)行對(duì)比分析計(jì)算,若對(duì)比結(jié)果相似度的值比預(yù)定的閾值a大,那么可認(rèn)為二者是相同的對(duì)象,完成目標(biāo)交接;
6)若計(jì)算結(jié)果的相似度比預(yù)定的閾值a小,則選出計(jì)算結(jié)果里最大的一個(gè)值,若該值比預(yù)定的閾值b大,那么可認(rèn)為二者是相同的對(duì)象,若比閾值b小,那么可認(rèn)為二者是不相同的對(duì)象,并對(duì)這個(gè)新的目標(biāo)做一次標(biāo)記.
人臉特征提取模型以3.1 節(jié)中所搭建的深度學(xué)習(xí)框架為依據(jù),搭建所需要的實(shí)驗(yàn)分析平臺(tái).訓(xùn)練共進(jìn)行30 輪,設(shè)置批次大小為60.其中每經(jīng)過(guò)10 輪訓(xùn)練,將學(xué)習(xí)率更改為上一階段的10%,從第10 輪開始分別設(shè)定成0.005、0.0005、0.00005,神經(jīng)元的保留率在Dropout 層上被設(shè)定為0.8.最終得到如圖5所示的訓(xùn)練結(jié)果.
圖5 網(wǎng)絡(luò)訓(xùn)練結(jié)果圖
由圖5中的網(wǎng)絡(luò)訓(xùn)練結(jié)果圖分析得到,總損失值會(huì)因?yàn)橛?xùn)練的不斷進(jìn)行而慢慢變小,而測(cè)試集的精準(zhǔn)度因此有所升高.但是由于實(shí)驗(yàn)采集到的人臉模型訓(xùn)練數(shù)據(jù)量不夠大,最終訓(xùn)練的精確度達(dá)到80%以上.實(shí)驗(yàn)證明,該網(wǎng)絡(luò)模型的性能和自適應(yīng)能力可以滿足數(shù)據(jù)集訓(xùn)練的要求,從正確率趨勢(shì)可以看到,準(zhǔn)確率會(huì)隨著訓(xùn)練的輪數(shù)和數(shù)據(jù)量的增加而得到進(jìn)一步的提升.
根據(jù)6.1 節(jié)訓(xùn)練完成人臉的特征提取模型性能之后,還要確定人臉匹配的判定閾值以及適用的相似度的度量方法.本節(jié)隨機(jī)選取臉部狀態(tài)不同情況下的5 張相同人臉和5 張不同人臉,分別采用歐式距離與余弦距離這兩種度量方法,他們得到的人臉的特征“距離”結(jié)果分別如表1與表2所示.
表1 歐式距離相同/不同人臉的相似度度量
表2 余弦距離相同/不同人臉的相似度度量
通過(guò)表1能夠得到如下結(jié)論:在歐式距離算法得到的結(jié)果中,相同的目標(biāo)人臉特征之間的“距離”大多都比1 小,相異的目標(biāo)人臉特征之間的“距離”大多都比0.8 大.而通過(guò)表2能夠得到如下結(jié)論:在余弦距離算法得到的結(jié)果中,相同人臉特征之間的“距離”大多都比0.45 小,相異人臉特征之間的 “距離”大多都比0.55 小.通過(guò)對(duì)兩種距離算法的比較可以得出,余弦距離的計(jì)算模型比歐式距離得到的重合度數(shù)值更小,并且前者衡量的是空間向量的夾角,更側(cè)重于從方向上區(qū)分差異.綜合衡量以上內(nèi)容,挑選余弦距離算法來(lái)計(jì)算人臉特征的相似程度.
在確定完相似度的計(jì)算算法之后,還需要確定人臉匹配的判定閾值.本文根據(jù)在不同的情況下的相同人臉和不同人臉的圖像各400 張來(lái)計(jì)算出人臉匹配的閾值.開始對(duì)相同的人臉對(duì)象特征進(jìn)行相似度的計(jì)算,得出的數(shù)據(jù)結(jié)果中,針對(duì)小于0.45 的那部分?jǐn)?shù)值再取平均,得到其平均值是0.439;接著對(duì)不同的人臉對(duì)象特征進(jìn)行相似度的計(jì)算,在得出的數(shù)值結(jié)果中,針對(duì)大于0.55 的那部分?jǐn)?shù)值再取平均,得到其平均值是0.561.綜上所述,本文確定人臉匹配的閾值a=0.561,閾值b=0.439.
本文中選擇的兩個(gè)相鄰的攝像機(jī)分別為視域邊界不重合的“走廊東”與“走廊中”的攝像機(jī),通過(guò)完成對(duì)運(yùn)動(dòng)目標(biāo)的人臉檢測(cè)和特征提取的過(guò)程,來(lái)實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)交接算法的驗(yàn)證.實(shí)驗(yàn)結(jié)果如圖6至圖9.
如圖6,展示的是“走廊中”的攝像機(jī)的監(jiān)控范圍.由圖6(a)可知視頻中出現(xiàn)了5 個(gè)不同的行人,在目標(biāo)進(jìn)入監(jiān)控區(qū)域后獲取視頻中行人的人臉圖像,同時(shí)記錄下運(yùn)動(dòng)目標(biāo)的ID,保留5 個(gè)不同ID 行人的人臉圖片,人臉I(yè)D 標(biāo)記為1、2、3、4、5.由1.2 節(jié)的目標(biāo)交接原理可知,每張相同的ID 保留3 張,因此總共需要保留15 張人臉圖像.
圖6 “走廊中”人臉區(qū)域圖像提取圖
如圖7,展示的是監(jiān)控?cái)z像機(jī)位于“走廊東”的監(jiān)控視域.由圖可知當(dāng)運(yùn)動(dòng)目標(biāo)在走進(jìn)該攝像機(jī)的監(jiān)視范圍之前,對(duì)目標(biāo)運(yùn)動(dòng)對(duì)象展開檢測(cè)和再次追蹤,圖中目標(biāo)對(duì)象在交接之前被設(shè)置的ID 分別為1、2.
如圖8,展示的是目標(biāo)進(jìn)入“走廊東”攝像機(jī)監(jiān)控的視域范圍內(nèi).由圖可知,目標(biāo)對(duì)象進(jìn)入到監(jiān)視范圍后,攝像機(jī)隨即對(duì)人臉進(jìn)行檢測(cè)和特征提取,然后與圖6(b)的對(duì)應(yīng)的人臉特征進(jìn)行對(duì)比匹配.若對(duì)比前后二者的結(jié)果顯示匹配不成功,則對(duì)這一目標(biāo)對(duì)象進(jìn)行連續(xù)的追蹤;若對(duì)比前后二者的結(jié)果顯示匹配成功,則對(duì)運(yùn)動(dòng)目標(biāo)身份展開再一次的分析確認(rèn),然后替換掉該目標(biāo)人臉的ID,如圖中展示,人臉的ID 分別從1、2 變換成為4、5.
圖7 目標(biāo)再次跟蹤圖
圖8 運(yùn)動(dòng)目標(biāo)交接圖
最終再把兩臺(tái)攝像機(jī),即“走廊東”與“走廊中”的攝像機(jī)分別采集到的人臉特征進(jìn)行相似度的分析對(duì)比.其相似程度的比較結(jié)果如圖9所示.由圖中結(jié)果可知,對(duì)于同一個(gè)運(yùn)動(dòng)目標(biāo)來(lái)說(shuō),兩者之間的余弦距離相對(duì)更大,差異更?。划?dāng)兩場(chǎng)景的人臉圖像是不同目標(biāo)時(shí)余弦距離相對(duì)更小,差異更大.因此可以由余弦相似度對(duì)比值完成人臉匹配的過(guò)程,進(jìn)而實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)在不同攝像機(jī)下的交接.
圖9 人臉圖像相似度對(duì)比圖
最后,為進(jìn)一步體現(xiàn)本文算法的優(yōu)越性,參考文獻(xiàn)[21]的實(shí)驗(yàn)方法選擇搭建好的雙攝像機(jī)系統(tǒng)環(huán)境,對(duì)不同交接算法的同一時(shí)間的視頻幀進(jìn)行了兩組統(tǒng)計(jì)驗(yàn)證,對(duì)比結(jié)果如表3所示.
從表3中可以看出,在相同實(shí)驗(yàn)環(huán)境下本文的交接算法的準(zhǔn)確率高于其他兩種算法,有更好的目標(biāo)交接準(zhǔn)確性.主要由于本文的目標(biāo)交接算法中的深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)波動(dòng)較為敏感,網(wǎng)絡(luò)模型會(huì)根據(jù)本文數(shù)據(jù)特點(diǎn)及時(shí)調(diào)整,從而保證交接的速度和準(zhǔn)確率,但深度學(xué)習(xí)的目標(biāo)交接實(shí)現(xiàn)必須要建立在大量訓(xùn)練樣本的基礎(chǔ)上.另外本文可以解決由目標(biāo)遮擋或光照干擾引起的目標(biāo)不連續(xù)和不確定問(wèn)題,使得整體的實(shí)驗(yàn)效果較為理想.
表3 不同算法目標(biāo)交接結(jié)果對(duì)比
本文重點(diǎn)研究了在相鄰攝像機(jī)間視域邊界不重疊情況下的運(yùn)動(dòng)目標(biāo)交接技術(shù).首先利用深度學(xué)習(xí)檢測(cè)運(yùn)動(dòng)行人的人臉,搭建以人臉為研究對(duì)象的特征提取模型;之后比較兩種相似度度量方法,選取最優(yōu)的度量方法對(duì)人臉特征進(jìn)行相似度匹配;同時(shí)計(jì)算了大量不同情況下的相同與不同的人臉特征“距離”,通過(guò)數(shù)據(jù)擬合確定了本文人臉匹配的最優(yōu)判定閾值;最后通過(guò)對(duì)不同攝像機(jī)下人臉進(jìn)行特征匹配找到最匹配的人臉,實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的交接.從仿真結(jié)果可以發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)模型可以精確地提取運(yùn)動(dòng)目標(biāo)的人臉特征,余弦距離的相似度計(jì)算模型更符合本文的實(shí)驗(yàn)要求,該算法有效地完成了多攝像機(jī)下運(yùn)動(dòng)目標(biāo)的交接跟蹤任務(wù).從實(shí)際應(yīng)用中,本文使用的方法相比較于傳統(tǒng)的運(yùn)動(dòng)目標(biāo)交接的方法減少了算法的復(fù)雜度和計(jì)算量,大大提高了運(yùn)動(dòng)目標(biāo)特征提取的精確度,可以實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)的確定性和連續(xù)性跟蹤,適用于復(fù)雜多變環(huán)境下的視頻監(jiān)控系統(tǒng).