楊迪 耿超娟
摘 要:本文對人臉識別技術(shù)的概念與理論基礎進行分析,在深度學習的基礎上對識別技術(shù)的應用方法加以闡述,主要包括特征提取、聚合與分類、并行網(wǎng)絡結(jié)構(gòu)、數(shù)據(jù)集、實驗結(jié)果等內(nèi)容,最后通過案例分析的方式,對電視節(jié)目中人臉識別技術(shù)的應用進行研究,旨在該技術(shù)在更多的領(lǐng)域得到廣泛應用.
關(guān)鍵詞:深度學習;人臉識別;技術(shù)應用
中圖分類號:TP391.41? 文獻標識碼:A? 文章編號:1673-260X(2019)11-0065-03
在深度學習和數(shù)據(jù)集不斷發(fā)展之下,關(guān)于人臉識別技術(shù)的研究逐漸增加,但在實際應用中卻面臨諸多挑戰(zhàn),主要體現(xiàn)在背景、光線、表情變化等多個方面,加上人臉信息具有較強的復雜性,對特征識別算法的要求較高,在技術(shù)層面很難實現(xiàn).對此,本文在深度學習基礎上,對人臉識別技術(shù)進行分析,并對其實際應用加以闡述.
1 關(guān)鍵概念與理論基礎
1.1 深度學習
在人工智能領(lǐng)域中,深度學習屬于重要的內(nèi)容,其涵蓋內(nèi)容眾多,具有跨領(lǐng)域、跨學科等特征,涉及數(shù)學、信息學、哲學、通信原理等多方面研究.深度學習可看成是利用計算機模擬人類學習的過程,從激勵響應、函數(shù)結(jié)果中對函數(shù)模型進行優(yōu)化,在提供新變量數(shù)據(jù)的同時,按照模型對即將產(chǎn)生的激勵結(jié)果進行判斷.近年來,在互聯(lián)網(wǎng)和計算機技術(shù)飛速發(fā)展之下,深度學習也得到飛速發(fā)展,在語音識別、輔助判定等方面成果豐厚,同時在語音識別、視頻識別領(lǐng)域也獲得可喜成績.
1.2 人臉識別技術(shù)
該技術(shù)屬于生物識別技術(shù)的一種,以人臉特征信息為依據(jù),通過獲取靜態(tài)或動態(tài)的臉部信息,與事先預留的信息進行對比,由此得出識別者的信息,達到身份認證、人臉辨識的目標.
1.3 人工神經(jīng)網(wǎng)絡
該技術(shù)主要借助計算機、網(wǎng)絡等技術(shù)對生物神經(jīng)網(wǎng)絡進行模仿和研究,具有以下特征:一是非線性,在自然界之中大多數(shù)系統(tǒng)均具備該特征,神經(jīng)網(wǎng)絡中的神經(jīng)元具有開關(guān)兩種狀態(tài),因此可對非線性系統(tǒng)進行模擬;二是非穩(wěn)定性狀態(tài),神經(jīng)網(wǎng)絡的性能判定是利用數(shù)據(jù)迭代來完成,性能并非固定不變,而是不斷發(fā)展和完善;三是非平衡狀態(tài),在性能優(yōu)化過程中,對系統(tǒng)單元均衡性產(chǎn)生影響,在特定狀態(tài)下,性能提升與特定函數(shù)提升之間存在決定性關(guān)系.通過大量實驗表明,最佳的算法為反向傳播算法,在該原理的指導下通過系統(tǒng)響應修正、輸入激勵等方式進行優(yōu)化,使系統(tǒng)的判斷力得到顯著提升,主要分為兩個階段,一是激勵正向輸入,二是不斷逼近測試結(jié)果的調(diào)整.目前,在網(wǎng)絡技術(shù)飛速發(fā)展之下,計算機性能不斷提升,對大數(shù)據(jù)、云計算技術(shù)發(fā)展起到極大助力,在反向傳播算法的引導下深度神經(jīng)網(wǎng)絡獲得了更大的應用價值[1].
2 基于深度學習的人臉識別技術(shù)
2.1 特征提取
在人臉識別技術(shù)研究中,主要障礙在于圖像噪聲干擾,主要體現(xiàn)在背景、光線與表情變化等方面,如若未對干擾信息進行有效處理,很可能對識別準確率產(chǎn)生不良影響.在本文的研究中,首先對干擾因素進行排除,然后提取圖像特征,具體內(nèi)容如下.在干擾處理方面,高斯濾波器作為一種先進的信息技術(shù),主要應用于圖像處理之中,針對圖像噪聲與失真問題進行處理,該設備主要操作原理為:采用模板對圖像中的全部要素進行掃描,明確領(lǐng)域內(nèi)部像素的加權(quán)平均灰度值,用其替代模板中心像素點.可將圖像看成二維矩陣,利用以下公式進行轉(zhuǎn)化:
采用LBP算法對圖像中的特征進行提取,主要應用到紋理之中,首先將圖像劃分為多個小面積區(qū)域,針對各個區(qū)域中特定像素,將其與四周8個相鄰像素進行對比,如若像素與周圍任意像素要量,則在空字節(jié)字符串的后方加上“0”,反之加“1”,由此循環(huán),得到一個8位的二進制數(shù),對該區(qū)域內(nèi)的直方圖進行計算,每個直方圖均為特征向量.當整個區(qū)域全部計算完畢后,可采集到整個圖像中的特征向量,直方圖可用公式表示為:
2.2 聚合與分類
在圖像主要特征提取滯后,需要采用特征聚合器,通過視覺詞匯對圖像特征進行表達,在此過程中任意特征均可在表中體現(xiàn)出來,最終圖像特征將轉(zhuǎn)變?yōu)樘囟ǖ脑~匯集,以此方式構(gòu)建詞匯頻率直方圖.完成上述操作之后,任意機器學習分類均可實現(xiàn),首先,采用分類器進行集訓,然后利用測試集進行驗證.在本文研究中,采用多層感知器使分類問題得以解決,該設備屬于前向結(jié)構(gòu)人工神經(jīng)網(wǎng)絡,采用梯度下降算法,緩解以往無法對線性數(shù)據(jù)進行識別的弊端.此外,該設備還可在反向傳播算法的指導下,明確架構(gòu)中的神經(jīng)元損失情況,使模型得到進一步的改進與優(yōu)化,在該方式實施過程中,誤差函數(shù)為:
2.3 并行網(wǎng)絡結(jié)構(gòu)
深層神經(jīng)網(wǎng)絡的表達能力相對更強,可使待識別圖像充分體現(xiàn)出來,但是在訓練方面樣本眾多,存在梯度擴散問題,訓練難度較大.現(xiàn)階段,最為行之有效的方式便是采用大量無標簽數(shù)據(jù)進行逐層訓練,首先對首層網(wǎng)絡進行訓練,將訓練結(jié)果最為第二層的訓練樣本,最終加入少量帶標簽的數(shù)據(jù)進行細微調(diào)整.在本文的研究中,提出一種新型的網(wǎng)絡結(jié)構(gòu),可使人臉表情得到有效識別.首先采用無監(jiān)督學習方式,利用大量樣本訓練出尺度不一的卷積核,將其作為底層濾波器,對特征進行提取,針對帶標簽的數(shù)據(jù)首先采用無監(jiān)督的方式訓練3層SAE網(wǎng)絡,再將多個子網(wǎng)絡并聯(lián)起來,輸出One-hot編碼,找出網(wǎng)絡最大的輸出值,即與輸入表情圖片相對應.在訓練網(wǎng)絡的過程中,在單獨訓練時,7個網(wǎng)絡可劃分為7類表情,例如,將全部高興的表情樣本構(gòu)建一個高興網(wǎng)絡,采用SAE算法,分別對7個網(wǎng)絡進行逐層訓練,構(gòu)建三層網(wǎng)絡,完成上述操作后再疊加一層,最終對整體損失函數(shù)進行微調(diào).
2.4 數(shù)據(jù)集
在本文開展的實驗中,數(shù)據(jù)集主要選擇Faces 96與Grimace兩種,之所以選擇這兩種,一方面由于二者的難度較高,另一方面可更為全面的測試本文提出的方法.Faces96中主要包括147個人,約2840張圖片,每張圖像的面部表情、臉部運動較為相似,但是在背景、頭部比例、光線等方面存在較大不同;Grimace中主要包括18個人,約3600張圖片,每張圖片的背景、頭部比例、光線相近,但部表情、臉部運動不盡相同.
2.5 實驗結(jié)果
根據(jù)數(shù)據(jù)集測量得出以下結(jié)果,利用Faces96數(shù)據(jù)集進行測量,精確度為0.94,召回率為0.93,準確度為0.928;利用Grimace數(shù)據(jù)集進行測量,精確度為0.97,召回率為0.97,準確度為0.967.由上述結(jié)果可知,在前者進行測試時,準確度為92.8%,后者測試的準確度為96.7%.此外,當圖像出現(xiàn)明顯的光線改變時,此種方式將展示出較低的準確度.在后續(xù)研究中,應對圖像特征提取算法進行優(yōu)化和完善,使其在多種特殊狀態(tài)下也可達到理想的識別效果[4].
3 基于深度學習的人臉識別系統(tǒng)與應用
在電視節(jié)目中,除了人臉之外還存在諸多無關(guān)內(nèi)容,這些內(nèi)容會對識別系統(tǒng)造成干擾,影響識別效率.此外,還可能導致迭代結(jié)果受到影響,無法實現(xiàn)優(yōu)化目標.對此,當識別技術(shù)在電視節(jié)目中應用時,首先要將畫面中的無關(guān)信息進行篩除.
3.1 系統(tǒng)設計
根據(jù)人臉識別的特定需求,與深度學習特征相結(jié)合,構(gòu)建人臉自動識別系統(tǒng)架構(gòu),該系統(tǒng)應具備可拓展性、7×24h穩(wěn)定運行等特征,該系統(tǒng)主要內(nèi)容如下:
(1)編目模塊.該模塊主要作用在于節(jié)目下載、編目與存儲,在各監(jiān)測系統(tǒng)中對待檢驗節(jié)目進行下載,并存儲.對于下載完畢的節(jié)目進行初步識別、標記與切段,在該模塊中還應對識別人物的特征參數(shù)進行存儲;
(2)處理模塊.在人臉自動識別系統(tǒng)中,處理單元屬于核心內(nèi)容,主要作用在于視頻圖像信息中是否包含人臉信息,將無關(guān)信息進行剔除后,將人臉位置進行校正.將規(guī)范化的人臉信息輸入到深度學習系統(tǒng)之中,將最終的判定結(jié)論輸出.該模塊還應對訓練學習目標進行完成,通過多次反復數(shù)據(jù)迭代等形式,使系統(tǒng)功能得以優(yōu)化;
(3)業(yè)務模塊.主要分為系統(tǒng)管理、數(shù)據(jù)維護、參數(shù)設置等內(nèi)容,在任務管理方面包括任務確立、實時下載等.在該模塊中,最為關(guān)鍵的便是人工審核,按照系統(tǒng)規(guī)劃,實現(xiàn)自動識別,將結(jié)果進行對比后復核;
(4)業(yè)務流程.不同監(jiān)測系統(tǒng)均按照實際需求對待檢測節(jié)目錄像進行下載,對節(jié)目影像進行預處理,主要包括節(jié)目格式、人臉信息等,將處理完畢的人臉輸入到檢測系統(tǒng)之中.系統(tǒng)將待檢測的數(shù)據(jù)放入特征庫中進行對比,將檢測結(jié)果上報人工,由人工完成數(shù)據(jù)的復核工作,確保數(shù)據(jù)的真實有效.
3.2 系統(tǒng)應用
3.2.1 人臉偵測
電視節(jié)目是由多個幀畫面構(gòu)成,在每幀畫面之中檢測是否存在人臉,并將人臉之外的無關(guān)信息進行過濾.在以往人臉偵測過程中,主要采用模板對比的方式,通過色澤、對比度等信息進行核實,但此種方式的耗時較長、識別率較低,采用P網(wǎng)絡進行偵測設計可有效彌補上述缺陷.Multi-task算法在人臉偵測中較為常用,該算法的第一層為p-net,可準確界定人臉邊緣區(qū)域,并對相同人物的畫面進行分類;第二層為r-net可明確人臉位置區(qū)域,將首層確認的非人臉區(qū)域進行過濾;第三層可在前兩層的基礎上進行深化,使人臉區(qū)域的界定更加精準.在電視節(jié)目中,人臉各種各樣,且顏色、方向、大小不盡相同,如若未采用分類訓練的方式,很可能增加后續(xù)判斷的難度與正確率.對此,應對多種類別、形態(tài)的人臉進行規(guī)范處理,設置統(tǒng)一的人臉預處理樣本,針對電視圖像中的人臉進行平移和縮放,使其處于畫面中心位置[5].
3.2.2 特征提取
在預處理之后,對人臉圖像中的特征與模型相對比,獲取規(guī)范的人臉特征參數(shù)與特征向量;采用卷積神經(jīng)網(wǎng)絡對特征向量與節(jié)點相互對應,為特征分類提供便利.由于特征類型多種多樣,在預處理過程中獲取的向量維度也不盡相同.因此,可通過將高緯度降低的方式,在不改變信息熵的同時,使系統(tǒng)設計與訓練的難度降低,由此獲得良好的合成向量.此類向量中很可能存在諸多冗余信息,此類信息的存在使識別負擔增加,影響判定效率,因此可在設計中通過稀疏特征向量的方式,使這一問題得到有效解決[6].
3.2.3 構(gòu)建樣本數(shù)據(jù)庫
深度學習技術(shù)是借助海量數(shù)據(jù)資源與云計算技術(shù)來實現(xiàn),在海量數(shù)據(jù)中,勢必包含諸多對系統(tǒng)迭代優(yōu)化產(chǎn)生阻礙的數(shù)據(jù),此類數(shù)據(jù)為無效數(shù)據(jù).在當前的研究機構(gòu)中擁有的人臉樣本數(shù)據(jù)大多不夠規(guī)范,對此,部分研究機構(gòu)開始構(gòu)建自己的人臉數(shù)據(jù)庫,例如,VGGface數(shù)據(jù)庫中包括260萬張人臉樣本,屬于當前國內(nèi)最大的人臉數(shù)據(jù)庫,此外還有CASIA等,均為人臉數(shù)據(jù)資源的主要存儲地.目前,部分網(wǎng)絡爬蟲技術(shù)通過網(wǎng)絡渠道尋找更多的人臉樣本,充實人臉數(shù)據(jù)庫,力求使此類資源規(guī)范后得到廣泛應用.
4 結(jié)論
綜上所述,現(xiàn)階段,深度學習已經(jīng)在圖像識別、視頻識別、語音識別等多個領(lǐng)域中得到廣泛應用,使以往受背景、光線等影響的弊端得到有效克服,提高人臉識別的精準度.在未來的發(fā)展中,應加強對該項技術(shù)的研究,使其在多種復雜條件下也可獲得理想的識別效果.
參考文獻:
〔1〕付學桐.基于深度學習的人臉識別技術(shù)研究[J].通訊世界,2019(02):305-306.
〔2〕劉施樂.基于深度學習的人臉識別技術(shù)研究[J].電子制作,2018(24):52-53+98.
〔3〕夏洋洋.基于深度學習的非限定條件下人臉識別研究[D].西南交通大學,2017.
〔4〕趙夢潔.基于深度學習的人臉識別關(guān)鍵技術(shù)研究與實現(xiàn)[D].西安電子科技大學,2018.
〔5〕陳超.基于深度學習的人臉識別系統(tǒng)的設計與實現(xiàn)[D].南京郵電大學,2017.
〔6〕王立凱.基于卷積神經(jīng)網(wǎng)絡的人臉識別研究與設計[J].通信電源技術(shù),2019(07):117-118.