王從澳, 黃潤才, 孫延標, 楊 彬, 孫劉成
(上海工程技術大學 電子電氣工程學院, 上海201600)
面部情感識別是計算機視覺領域的一個重要研究方向。 近年來,由于其在醫(yī)療保健、視頻監(jiān)控、輔助駕駛以及人機交互等方面的廣泛應用,引起了越來越多的關注。 在識別過程中,根據(jù)不同的特征表示向量,人臉情感識別可以分為兩大類:靜態(tài)圖像的人臉情感識別(facial expression recognition,FER)和動態(tài)序列的人臉情感識別。 在靜態(tài)FER 中,特征表示使用單個圖像的空間信息進行編碼,而動態(tài)的方法則是考慮輸入面部表情序列中連續(xù)幀之間的時間關系[1]。 除了這兩種傳統(tǒng)的基于視覺的方法,還有其他基于音頻、生理信號等多模態(tài)信息的方法進行面部表情的輔助識別。
多數(shù)傳統(tǒng)的表情識別使用手工提取特征或淺層機器學習的方法,如:局部二進制模式(local binary pattern,LBP),三個正交平面的LBP(LBP-TOP),非負矩陣分解和稀疏學習等。 有人使用主成分分析(principal compon- ents analysic,PCA)和獨立成分分析(independent component analysic,ICA)識別不對稱面部單元的情感表達;M.Lyons 等人使用gabor濾波器實現(xiàn)多分辨率和多方位的面部表情識別;還有人通過級聯(lián)4 個支持向量機,使用主動外觀模型(active shape model,AAM)對4 種基本表情進行分類。
在人臉表情識別中,顯著區(qū)域的幾何特征變化和局部的細粒度紋理特征都是面部表情的重要標識,基于LBP(局部二值模式)特征提取存在的光照敏感和噪聲不穩(wěn)健,幾何特征選取復雜,信息冗余等問題。 本文提出融合CLBP 與幾何顯著特征的人臉表情特征提取方式,通過串聯(lián)融合其特征向量直方圖,構(gòu)建完整的表情特征向量,利用隨機森林分類器對人臉面部表情進行分類。
本文提出的融合CLBP 與幾何顯著特征的人臉情感識別算法實現(xiàn)過程如圖1 所示。 首先,對輸入人臉面部表情圖像進行數(shù)據(jù)預處理,包括圖像旋轉(zhuǎn)、裁剪以及尺寸歸一化與灰度歸一化等操作,根據(jù)面部穩(wěn)定點間距作為縮放比例系數(shù),進行尺寸歸一化標定,同時利用直方圖均衡化增強面部區(qū)域的對比度,進一步消除光照強度的不利影響。
圖1 識別算法過程圖Fig. 1 Recognition algorithm flowchart
預處理完成后,對表情圖像進行特征向量的提取。 (1)幾何特征:使用Dlib 庫對人臉的68 個特征點進行標記,根據(jù)其幾何顯著特征點“中立”與“巔峰”時刻的歐幾里得距離,提取幾何特征的特征直方圖。 (2)紋理特征:采用CLBP 對面部紋理特征進行提取,分別得出CLBP_C,CLBP_S,CLBP_M 三部分特征直方圖,通過并聯(lián)的形式構(gòu)建面部完整紋理特征向量,即聯(lián)合直方圖。 (3)使用串聯(lián)融合的方式對面部幾何特征與紋理特征提取的直方圖向量進行融合,生成完整面部表情特征向量。 (4)使用隨機森林分類器對表情圖像分類,得出最終分類結(jié)果。
表情圖像經(jīng)預處理完成后,利用Dlib 庫標記出人臉眉毛,眼睛,鼻子,嘴唇和臉部輪廓上的68 個特征點坐標,為提取臉部情感特征做準備。 人臉面部68 個坐標點標記如圖2 所示。
圖2 人臉68 個特征點Fig. 2 68 feature points on the face
相關實驗研究表明,人在經(jīng)歷不同的情緒變化時,眉毛的變化幅度、嘴的大小寬高比例以及眼睛的變化幅度能夠較準確的體現(xiàn)情感特征。 因此本文利用左右兩邊的眉毛、眼睛和嘴部輪廓變化作為主要特征提取部位,選取左右內(nèi)眼角到眉毛4 個坐標點的距離之和、左右眼部輪廓開合距離、鼻子到左右嘴角輪廓、嘴部高度、寬度等作為8 個主要特征向量,分別計算其“中立” 與“巔峰” 時刻特征值的歐幾里得距離(記為d1,d2,d3…d8)。
本文幾何特征構(gòu)造是通過選取幾何不變特征點來構(gòu)造尺寸,旋轉(zhuǎn)和位移不變性的比例特征向量,因此選取左眼角到眉頭的距離L1,右眼角到眉頭的距離L2,鼻尖到上嘴唇的距離L3,作為特征基準距離,分別計算8 個主要特征向量的比例特征向量,將其作為模型訓練輸入,構(gòu)造的8 個特征比例向量如表1 所示。
表1 構(gòu)造的8 個特征向量Tab. 1 Constructed 8 feature vectors
最終用8 個特征向量T=(T1,T2,T3…T8) 表示不同人臉部位顯著特征區(qū)域的特征比例向量,對特征向量進行向量歸一化處理,消除數(shù)量級差異,用以構(gòu)建幾何特征直方圖。
對于人臉的紋理特征提取,主要有主成分分析法(PCA)、線性鑒別分析法(LDA)和局部二值模式(LBP)等。 LBP 作為一種經(jīng)典的面部紋理特征提取算法,通過比較中心像素點與領域像素點的差值來描述圖像的局部結(jié)構(gòu),但通常在提取特征時會出現(xiàn)非一致性光照和隨機噪聲不穩(wěn)健等問題。 因此,本文提出使用完整局部二值模式(CLBP)進行面部紋理特征提取,該算子由兩部分組成:(1)中心像素LBP 算子(CLBP_C);(2)局部差分符號數(shù)值變換算子(LDSMT): ①符號LBP 算子(CLBP_S); ②梯度LBP 算子(CLBP_M)。
完整局部二值模式(CLBP)算子的各模塊如圖3 所示,(a)圖表示3*3 采樣塊圖像,(b)圖是局部差分符號數(shù)值變換算子(LDSMT),(c)圖表示差分算子的符號向量(CLBP_S),(d)圖表示差分算子的梯度向量(CLBP_M)。
圖3 CLBP 算子Fig. 3 CLBP operator
(1)中心像素的LBP 算子(CLBP_C)
其中,gc表示中心像素灰度值, ci表示采樣塊圖像的中心領域灰度值。
其中,x 表示各鄰域像素值,c 表示采樣塊中心像素,比較中心像素與周圍鄰域像素的數(shù)值,大于中心像素的灰度置1,小于中心像素的置0,然后進行二進制編碼。
(2)局部差分符號數(shù)值變換算子(LDSMT)
其中,IP- IC表示差分變換算子,SP表示符號向量,MP表示梯度向量,因差分變換算子不能直接作為特征描述子,故使用SP和MP兩部分表示。
CLBP_S 與CLBP_C 計算類似,比較中心像素與周圍鄰域像素的大小,大于中心像素的灰度值置1,小于中心像素的置-1。
其中,c 表示設定閾值,該算法中閾值使用3*3采樣塊圖像的平均灰度值。
最終得到三個特征描述符CLBP_C,CLBP_S,CLBP_M,通過級聯(lián)的形式將其融合,得到紋理特征直方圖。
在幾何特征提取中,首先計算幾何顯著特征點間的距離,然后計算其不同部位的比例特征向量,最后對特征向量進行轉(zhuǎn)換和編碼。 為了最大程度讓提取的特征值能夠體現(xiàn)某一特定情緒的特點,算法通過計算人臉“中立”與“巔峰”時刻兩組特征點的歐幾里得距離作為變量,表示采樣點的特征信息。 變量轉(zhuǎn)換如(8)式:
對轉(zhuǎn)換變量按照CLBP 模式進行編碼:
其中, e 表示幾何顯著特征點轉(zhuǎn)換變量β 的平均值,最后計算所有特征比例向量的特征直方圖。
特征直方圖的融合通常包含串聯(lián)和并聯(lián)兩種形式。 經(jīng)實驗驗證,在該算法中,串聯(lián)直方圖形式具有更高的準確率和魯棒特性。 因此,本文采用串聯(lián)直方圖的形式將幾何特征直方圖與CLBP 提取的紋理特征直方圖進行串聯(lián)融合,將融合后的特征描述符作為分類模型進行訓練[2]。
本文使用隨機森林分類器對融合后的特征描述符進行分類。 隨機森林作為一種典型的集成學習方法,通過構(gòu)建多棵決策樹投票以獲得更準確和穩(wěn)定的預測或分類。 使用引導重采樣,從原始樣本中抽取決策樹,并使用特征的隨機子集對決策樹進行訓練。 隨機森林中回歸樹生成過程如下:
假設有D= {( x1,y1) , ( x2,y2) …(xn,yn)} 數(shù)據(jù)集,目的是找到對應函數(shù)f:X →Y,其中X 表示輸入,Y 表示輸出。
(1)隨機森林從D 中隨機選擇n 個觀測值進行替換以形成重采樣引導樣本。
(2)每棵樹根據(jù)M 個特征中m 個特征子集進行生長,這里將特征子集設置為M = 3,然后在每個節(jié)點上隨機選擇m 個特征,并根據(jù)基尼純度選擇m 個特征中性能最好的進行分割。
(3) 決策樹不需要剪枝即可生長到最大深度。
通過加權(quán)各決策樹的投票結(jié)果進行總體預測,與其他基于決策樹的集成學習方法不同,隨著決策樹的數(shù)目遞增,隨機森林不易發(fā)生過擬合,且特征的隨機選擇能夠最大化降低決策樹之間的相關性,提升預測結(jié)果準確率。
本實驗程序的電腦運行配置為Windows10 專業(yè)版操作系統(tǒng),采用2.7GHz. Inter 酷睿CPU 處理器,16GB 內(nèi)存。
實驗將CK+數(shù)據(jù)庫中70%的表情圖像作為訓練集,其余30%作為測試集,將預處理后的表情圖像作為特征提取的輸入圖像,分別提取其CLBP 紋理特征和幾何顯著特征,融合其特征向量直方圖后送入隨機森林分類器進行訓練。
實驗對比了幾何特征,CLBP 紋理特征和融合特征提取等方法在CK+數(shù)據(jù)庫上的識別準確率,分類結(jié)果分別如表2,表3,表4 所示,其中粗體字表示正確的分類結(jié)果。
表2 幾何顯著特征提取的混淆矩陣Tab. 2 Confusion matrix for geometric salient feature extraction
表3 CLBP 紋理特征提取的混淆矩陣Tab. 3 CLBP texture feature extraction confusion matrix
表4 融合特征提取的混淆矩陣Tab. 4 Confusion matrix for feature extraction
為了將本文提出的人臉表情識別算法與最新方法進行比較,采取了留一法交叉驗證的設計方案,同樣也可以在隨機森林內(nèi)部對誤差的無偏估計進行計算,從而達到相同的實驗對比效果。
由實驗數(shù)據(jù)可以看出,幾何顯著特征與CLBP紋理特征融合后的表情圖像分類比單一幾何特征或紋理特征進行識別的準確率高。 除了驚訝表情外,融合特征對失望,恐懼,中立的識別準確率均明顯高于幾何顯著特征和紋理特征,且各表情平均識別準確率高出幾何特征8.3%,高出紋理特征5.8%。 本文算法的綜合識別準確率高達92.8%,結(jié)果高于其他類似表情識別算法。 表5 是本文算法與其他算法的性能對比。
表5 不同算法在CK+上的性能對比Tab. 5 Performance comparison of different algorithms on CK +
本文提出了融合CLBP 與幾何顯著特征的特征提取方法。 利用Dlib 庫對人臉68 個關鍵點進行標注,根據(jù)人臉表情變化顯著區(qū)域構(gòu)建特征比例向量,融合幾何顯著特征和CLBP 提取的細粒度紋理特征作為輸入特征向量進行表情分類。 實驗證明,該算法在CK+數(shù)據(jù)庫上具有較高的識別準確率和魯棒特性,優(yōu)于傳統(tǒng)的單一特征提取人臉表情識別算法。
下一步的研究計劃將在本文算法基礎上,進一步完善特征提取方式,融入深度特征描述符,將深度卷積神經(jīng)網(wǎng)絡提取的面部深度特征與人工提取特征相融合,更完整的提取出人臉表情變化的顯著特征信息,從而提升表情識別的準確率。 再利用不同場景下多個標準人臉表情數(shù)據(jù)庫進行試驗驗證和測試,使模型具有更好的泛化能力和魯棒特性。