魏軍福
(福建星網(wǎng)物聯(lián)信息系統(tǒng)有限公司 福建省福州市 350108)
隨著科技的進(jìn)步和社會(huì)的發(fā)展,人臉識(shí)別技術(shù)被越來(lái)越多的應(yīng)用于企業(yè)和學(xué)校的考勤中。人臉識(shí)別考勤相對(duì)傳統(tǒng)的刷卡簽到考勤有著明顯的優(yōu)勢(shì):首先,刷臉考勤更加方便快捷;其次,需要比對(duì)現(xiàn)場(chǎng)實(shí)時(shí)人臉,避免了代人打卡的考勤作弊問(wèn)題。
但是,目前絕大多數(shù)的人臉考勤設(shè)備在進(jìn)行人臉考勤過(guò)程中,還存在一定的問(wèn)題:首先,需要被考勤人員在終端前進(jìn)行人臉識(shí)別,在人數(shù)較多時(shí),容易造成擁堵。其次,基于人臉圖像比對(duì)的考勤設(shè)備,容易通過(guò)在攝像頭前展示打印照片、屏幕圖片、視頻等材料進(jìn)行攻擊,無(wú)法完全防止考勤作弊現(xiàn)象。
此外,對(duì)于大多數(shù)的考勤場(chǎng)景,一般位于辦公室、會(huì)議室、教室等場(chǎng)所;管理者對(duì)此除了需要了解具體考勤情況,還需要掌握該場(chǎng)景的實(shí)時(shí)和歷史人數(shù)統(tǒng)計(jì)情況。而以考勤為主的設(shè)備,雖然具備一定的AI 計(jì)算能力,卻無(wú)法滿足非考勤時(shí)段的人數(shù)感知需求。
針對(duì)特定場(chǎng)景的人員無(wú)感考勤和人數(shù)統(tǒng)計(jì)問(wèn)題,本文研究一種基于視頻智能分析和AI 感知算法的無(wú)感考勤系統(tǒng)及設(shè)備,實(shí)現(xiàn)對(duì)人員進(jìn)行快速精準(zhǔn)的無(wú)感考勤、流量統(tǒng)計(jì)功能。
本文采用深度學(xué)習(xí)技術(shù),收集整理海量人臉數(shù)據(jù),設(shè)計(jì)定制模型,訓(xùn)練出快速精準(zhǔn)的人臉檢測(cè)、人臉識(shí)別、活體檢測(cè)算法,將算法植入高性能邊緣設(shè)備,實(shí)現(xiàn)多人員無(wú)感快速識(shí)別考勤功能。無(wú)感考勤算法具體流程:首先,讀取設(shè)備高清攝像頭的實(shí)時(shí)視頻幀,通過(guò)人臉檢測(cè)算法檢出圖像內(nèi)的所有人臉。檢出人臉后,依次對(duì)人臉進(jìn)行活體判斷,僅對(duì)活體識(shí)別判斷通過(guò)的人臉進(jìn)行識(shí)別比對(duì)??紤]到在應(yīng)用中,人臉識(shí)別比對(duì)算法已經(jīng)很成熟,本文主要在活體識(shí)別的算法并在嵌入式設(shè)備部署的優(yōu)化方面進(jìn)行研究。
2.1.1 人臉檢測(cè)算法
人臉檢測(cè)需要在復(fù)雜多樣的環(huán)境里,對(duì)影像中的人臉進(jìn)行快速定位。當(dāng)前業(yè)內(nèi)主流的人臉檢測(cè)算法通常采用一個(gè)端到端、并且融合了多尺度信息的深度學(xué)習(xí)模型,對(duì)人臉邊框進(jìn)行回歸定位。這個(gè)方案有著目前行業(yè)較高水準(zhǔn)的識(shí)別精確度。然而在實(shí)際的邊緣設(shè)備應(yīng)用中,深度學(xué)習(xí)模型通常需要做浮點(diǎn)轉(zhuǎn)整數(shù)的量化處理,這一步會(huì)導(dǎo)致在一定程度上不同于訓(xùn)練樣本外的圖像數(shù)據(jù),在模型內(nèi)部產(chǎn)生數(shù)值溢出,從而嚴(yán)重影響到模型的識(shí)別精確度。同時(shí),由于邊緣設(shè)備不同的擺設(shè)角度、不同的場(chǎng)景光照、不同的成像質(zhì)量等等因素,使得真實(shí)場(chǎng)景的影像在量化模型內(nèi)部造成數(shù)值溢出的概率大大增加。由此,當(dāng)前的深度學(xué)習(xí)模型,雖然在平均準(zhǔn)確率上達(dá)到先進(jìn)水準(zhǔn),但在某些特定場(chǎng)景依然偶爾存在誤檢現(xiàn)象。
表1:活體檢測(cè)模型驗(yàn)證結(jié)果
表2:頭部檢測(cè)算法比對(duì)結(jié)果
圖1:小人頭檢測(cè)比對(duì)(右圖為本文算法結(jié)果)
本文采用自主研發(fā)的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),對(duì)當(dāng)前已有的人臉檢測(cè)模型進(jìn)行對(duì)應(yīng)修改,使得修改后的模型從判別式變成決定式。在判別式中,模型學(xué)習(xí)的是人臉和非相關(guān)圖像的區(qū)別、分界線,不是人臉即是背景,不是背景即是人臉。這個(gè)判斷方式無(wú)法對(duì)異常值作出響應(yīng)。然而在決定式中,模型既學(xué)習(xí)人臉和非人臉,也學(xué)習(xí)背景和非背景,在人臉和背景都被否定的情況下,即是異常。因此可以在樣本外的場(chǎng)景中,有效減少模型做出低級(jí)失誤的情況,同時(shí)也減少模型返廠和優(yōu)化的次數(shù)。
2.1.2 活體檢測(cè)算法
活體檢測(cè)是目前人臉考勤系統(tǒng)中防造假攻擊的主要環(huán)節(jié)。常見的造假方式有紙張打印、視頻播放、3D 面具等。目前,一個(gè)嚴(yán)謹(jǐn)完備且基于深度學(xué)習(xí)的靜默式活體檢測(cè)算法通常需要實(shí)時(shí)分析三種影像數(shù)據(jù):RGB 圖像、紅外圖像和景深圖像。這樣一套設(shè)備往往體積龐大、成本高昂,由此不利于大范圍的商業(yè)推廣和低成本部署。
本文采用輕量級(jí)層級(jí)式深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),其能夠?qū)螐圧GB 的人臉圖像進(jìn)行從微觀到宏觀、依次遞進(jìn)進(jìn)行真假圖像的特征學(xué)習(xí)。這個(gè)模型能夠確保模型學(xué)習(xí)到真臉和假臉的特征,而不是對(duì)某個(gè)特定的人臉和樣本進(jìn)行記憶。
首先通過(guò)特征工程,將RGB 圖像變換到HSV 和YCrCb 空間[1]。這兩個(gè)空間內(nèi),圖像的紋理結(jié)構(gòu)能夠被有效地暴露出來(lái)。隨后通過(guò)深度學(xué)習(xí),來(lái)學(xué)習(xí)攻擊圖像和活體圖像上的紋理結(jié)構(gòu)差異,從而達(dá)到活體檢測(cè)的目的。
本文采用超廣角、高清攝像頭抓取全場(chǎng)景圖像,并采用深度學(xué)習(xí)技術(shù)訓(xùn)練人員頭部檢測(cè)模型。實(shí)現(xiàn)遠(yuǎn)距離全場(chǎng)景的人數(shù)感知功能。根據(jù)實(shí)際部署應(yīng)用需要,頭部檢測(cè)算法需要對(duì)通用場(chǎng)景內(nèi)的人員進(jìn)行精準(zhǔn)的定位和識(shí)別。由于在全景圖像中人物的大小呈現(xiàn)近大遠(yuǎn)小的特點(diǎn),因此人的大小差距極大,而現(xiàn)有算法由于檢測(cè)的尺度有限,無(wú)法檢測(cè)高分辨率下的小人頭;并且由于光照強(qiáng)度隨著時(shí)間的變化而變化,檢測(cè)場(chǎng)景往往包含弱光線場(chǎng)景,而弱光線下攝像頭采集的圖像人物往往不清晰,且噪聲干擾嚴(yán)重,因此人數(shù)的統(tǒng)計(jì)往往不夠準(zhǔn)確。
為解決物體分辨率過(guò)小無(wú)法檢測(cè)的問(wèn)題,本文采用了多尺度人員頭部檢測(cè)算法lsc-cnn[2],進(jìn)行模型的學(xué)習(xí)訓(xùn)練。該模型不僅學(xué)習(xí)了圖像中離攝像頭近處的人,也學(xué)習(xí)了圖像中離攝像頭遠(yuǎn)處的人,因此能夠檢測(cè)到圖像中不同大小的人,減少了因?yàn)槿宋锍上襁^(guò)小而導(dǎo)致的漏檢問(wèn)題。同時(shí),為解決弱光線檢測(cè)不準(zhǔn)確問(wèn)題,本文采用了模擬噪點(diǎn)的圖像增強(qiáng)算法,使得算法模型能夠?qū)W習(xí)到模擬的弱光線場(chǎng)景,獲得更佳的檢測(cè)能力。
為了使算法模型能夠適用于真實(shí)使用場(chǎng)景,滿足無(wú)感考勤和靜默無(wú)配合活體驗(yàn)證需要,本文采用自動(dòng)對(duì)焦高清攝像頭,采集不同光照條件和不同距離下的人臉原始真人數(shù)據(jù);通過(guò)在攝像頭前播放人員視頻、手機(jī)照片,展示紙質(zhì)打印人像的方式采集非活體攻擊樣本,其中真人圖片樣本數(shù)205812 個(gè),攻擊樣本數(shù)163935 個(gè)。訓(xùn)練后模型在不同場(chǎng)景測(cè)試集上的結(jié)果如表1所示。模型在驗(yàn)各驗(yàn)證集上的準(zhǔn)確率在89%以上,平均準(zhǔn)確率在95%以上。基本滿足無(wú)感考勤和防作弊攻擊的低成本部署應(yīng)用需要。
為了訓(xùn)練和測(cè)試頭部檢測(cè)算法,我們收集并標(biāo)注了辦公室、教室、會(huì)議室、培訓(xùn)室等106個(gè)場(chǎng)景的4982張全景圖片,用于模型訓(xùn)練。并選擇了11 個(gè)場(chǎng)景的517 張分辨率為1920×1080 的全景圖片作為測(cè)試圖片。測(cè)試過(guò)程在rk3399-pro 設(shè)備上運(yùn)行。本文訓(xùn)練的模型測(cè)試結(jié)果和基于rk3399-pro 自帶的ROCK-X 算法比對(duì)如表2所示。
數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示本文訓(xùn)練的算法無(wú)論是在速度還是誤檢率和檢出率等性能指標(biāo)上對(duì)比rk3399-pro 設(shè)備自帶的算法都有較大的優(yōu)化。根據(jù)圖1所示比對(duì)結(jié)果,本文算法在檢測(cè)小人頭方面比ROCK-X 算法有較大改進(jìn)。
本文研究了一種無(wú)感考勤和人數(shù)感知系統(tǒng)和設(shè)備,通過(guò)優(yōu)化人臉檢測(cè)算法,減小了邊緣設(shè)備上人臉誤檢測(cè);通過(guò)設(shè)計(jì)基于深度學(xué)習(xí)技術(shù)的活體識(shí)別模型,結(jié)合特定設(shè)備和場(chǎng)景采集活體和各類攻擊樣本,完成了基于RGB 圖像的靜默活體識(shí)別模型的訓(xùn)練,取得了較高的精度,達(dá)到低成本應(yīng)用部署要求;但該模型仍存在受訓(xùn)練數(shù)據(jù)樣本影響大,不同場(chǎng)景準(zhǔn)確率不夠穩(wěn)定等問(wèn)題,有待后續(xù)進(jìn)行更加深入的研究。同時(shí)本文基于lsc-cnn 訓(xùn)練了人員頭部檢測(cè)算法,并通過(guò)對(duì)不同光照條件的模擬增強(qiáng),降低了整體人數(shù)感知的誤檢率和漏檢率。