鄭少陽 林曉斌
摘 ?要: 目前面部表情識(shí)別的研究和應(yīng)用大多基于二維圖像。文章提出一種基于Kinect設(shè)備的二維三維混合面部表情識(shí)別方法。通過結(jié)合Kinect設(shè)備捕捉到的面部特征點(diǎn)位置及動(dòng)畫單元的特征,來確定由面部表情產(chǎn)生的三維網(wǎng)格的形變。應(yīng)用基于支持向量機(jī)的分類方法及基于表情分析和最大置信度的融合算法對(duì)表情進(jìn)行識(shí)別。實(shí)驗(yàn)表明,該方法比基于二維圖像的識(shí)別方法性能更好。
關(guān)鍵詞: Kinect; 面部表情識(shí)別; 二維三維混合; 融合算法; 支持向量機(jī)
中圖分類號(hào):TP391.4 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1006-8228(2019)11-70-04
Abstract: Most of the research and application on facial expression recognition are based on 2D images. This paper presents a 2D and 3D hybrid facial expression recognition method using Kinect, which determines the deformation of facial expression 3D mesh according to the feature point positions and features of the animation units captured by Kinect. The facial expression classification is then realized by using support vector machine (SVM) and fusion algorithm based on maximum confidence and emotional profiles. The experimental results indicate that this method has better performance than those recognition methods purely based on 2D images.
Key words: Kinect; facial expression recognition; 2D and 3D hybrid; fusion algorithm; support vector machine (SVM)
0 引言
隨著人工智能和模式識(shí)別技術(shù)的快速發(fā)展,人類面部表情的識(shí)別引起了人們的研究興趣,其研究成果在醫(yī)學(xué)、安全、人機(jī)交互等領(lǐng)域都有廣泛的應(yīng)用。人類面部表情包含了人類的大部分情感信息,并且構(gòu)成了傳達(dá)情緒的主要通道。因此,針對(duì)面部表情識(shí)別的研究對(duì)經(jīng)濟(jì)和社會(huì)發(fā)展具有重要意義。
傳統(tǒng)的面部表情識(shí)別技術(shù)主要通過基于處理分析普通RGB傳感器采集的二維圖像來實(shí)現(xiàn)。由于人類顏面屬于三維物體,僅依賴于二維圖像的識(shí)別必然失去關(guān)鍵的幾何特征,從而很大程度上影響識(shí)別的精度。
本文提出一種基于Kinect的二維三維混合面部表情識(shí)別方法。其中,二維信息來自于動(dòng)畫單元,而三維信息則取自于特征點(diǎn)位置。采用30幀連續(xù)畫面為研究對(duì)象,并將表情分為7類:憤怒、厭惡、恐懼、快樂、悲傷、驚訝和平靜。在對(duì)每一幀畫面提取特征后,使用支持向量機(jī)分別根據(jù)動(dòng)畫單元及特征點(diǎn)位置進(jìn)行表情分類。用基于改進(jìn)型情緒分析的融合算法對(duì)30個(gè)連續(xù)幀的識(shí)別結(jié)果進(jìn)行融合, 用基于最大置信度的融合算法將不同特征的分類結(jié)果進(jìn)行融合。
1 相關(guān)研究
由于在人機(jī)交互方面的優(yōu)勢(shì),面部表情識(shí)別一直受到計(jì)算機(jī)視覺研究人員的廣泛關(guān)注。對(duì)比其他的人機(jī)交互方式如動(dòng)作或姿勢(shì)識(shí)別、語言識(shí)別等,其具備更好的表現(xiàn)力和更廣泛的應(yīng)用空間[1]。
早期的研究將人類面部基本表情分為6類:憤怒、厭惡、恐懼、快樂、悲傷、驚訝[2]。后來又加入了平靜這一表情子類,形成了面部表情7大類。初期的表情識(shí)別研究?jī)H局限于對(duì)典型或故意展示出的表情進(jìn)行的分類[3-5],且極大受限于攝像的角度及照明條件等外部因素的影響。隨著三維測(cè)量技術(shù)的發(fā)展,這一問題得到了很好的解決。對(duì)比二維圖像,三維測(cè)量能夠捕捉到更多的幾何數(shù)據(jù),而且可以不受角度、光照等變化的影響,能夠很好地補(bǔ)充幾何形狀信息并修正由角度等條件變化引起的誤差。而二維圖像傳感器可以在速度、分辨率及成本等方面具備優(yōu)勢(shì)。因此以二維三維結(jié)合的方式進(jìn)行面部表情識(shí)別是十分必要的。
Kinect是一種同時(shí)具備二維彩色圖像拍攝和三維掃描能力的高速傳感器。其面部識(shí)別系統(tǒng)結(jié)合彩色二維圖像及深度數(shù)據(jù)來定位三維空間中的特征點(diǎn)。比較起其他的三維測(cè)量設(shè)備,其具備掃描速度快、價(jià)格低廉、尺寸小巧等優(yōu)點(diǎn)。Kinect設(shè)備雖然也存在掃描精度低和噪點(diǎn)較多的問題,但由于其在價(jià)格方面的優(yōu)勢(shì),常被應(yīng)用于各種研究,如Huynh[6]等人將Kinect用于性別的識(shí)別;Kadambi[7]等人將偏振光成像技術(shù)結(jié)合Kinect的深度圖以提高三維測(cè)量的精度;Silverstein[8]等人則將Kinect用于放療中對(duì)患者的識(shí)別和登記。
2 二維三維混合面部表情識(shí)別
本研究以Kinect捕捉到的視頻序列作為輸入,對(duì)連續(xù)捕捉的30幀畫面中的每幀畫面進(jìn)行面部檢測(cè)及特征提取。動(dòng)畫單元及特征點(diǎn)位置分別作為提取面部表情二維及三維特征的兩個(gè)通道,利用美國微軟公司提供的面部追蹤SDK引擎進(jìn)行提取,這些提取出的二維和三維特征隨后用于模型訓(xùn)練及識(shí)別測(cè)試。由動(dòng)畫單元及特征點(diǎn)位置通道所獲得的表情特征首先由支持向量機(jī)分類器分別分類后,再進(jìn)行融合計(jì)算并得出表情識(shí)別的最終結(jié)果。
2.1 動(dòng)畫單元
面部追蹤SDK的結(jié)果可以以6個(gè)動(dòng)畫單元的權(quán)重組合來表示。這些動(dòng)畫單元是平靜面部表情的二維變化量,用以調(diào)節(jié)虛擬人物的面部表情以模擬捕捉到的用戶的表情。
2.2 特征點(diǎn)位置
2.3 面部表情特征分類
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)的廣義線性分類器,其通過確定最小間隔的樣本點(diǎn)來擬合出一個(gè)到這些樣本點(diǎn)距離和最大的線段或平面[9]。本研究采用了Chang和Lin[10]提出的基于徑向基函數(shù)核的帶有懲罰因子C的支持向量機(jī)(C-SVM)。它使用了交叉驗(yàn)證技術(shù)來估計(jì)在指定范圍內(nèi)每種參數(shù)組合的準(zhǔn)確性,以此來幫助決策在本研究中應(yīng)采用的參數(shù)。通過在選擇的訓(xùn)練集中使用5折交叉驗(yàn)證后,我們獲得了支持向量機(jī)每個(gè)子分類器訓(xùn)練模型的最優(yōu)c和g參數(shù)。
2.4 面部表情特征融合
根據(jù)每個(gè)通道中采用的30幀畫面所得到的表情識(shí)別結(jié)果,通過表情分析的置信度進(jìn)行融合。表情分析用于確定對(duì)7種表情分類的置信度,其中每個(gè)子分類器以該表情特定的特征集進(jìn)行訓(xùn)練。
3 實(shí)驗(yàn)及結(jié)果
本研究用Kinect設(shè)備采集了12位參與人員以-20[°]、-10[°]、0[°]、10[°]、20[°]等5種角度展示的7種面部表情,并使用一臺(tái)配置為Intel i7-4770K 3.5GHz CPU 、8GB內(nèi)存的計(jì)算機(jī)作為實(shí)驗(yàn)運(yùn)算平臺(tái)。由以上實(shí)驗(yàn)重復(fù)5次所得到的2100組面部表情中,有2091組表情得到了正確分類,準(zhǔn)確率高達(dá)99.6%,平均每組表情的識(shí)別時(shí)間為0.052s。
4 結(jié)語
本文所提出的二維三維混合面部表情識(shí)別方法,其核心是基于表情分析的分類和基于置信度的二維三維特征通道分類結(jié)果的融合。在使用價(jià)格低廉的Kinect作為傳感設(shè)備的情況下,能夠快速并且準(zhǔn)確地實(shí)現(xiàn)對(duì)面部表情的識(shí)別,具有良好的性能表現(xiàn),可應(yīng)用在預(yù)算較低并且對(duì)識(shí)別實(shí)時(shí)性要求高的應(yīng)用環(huán)境中。但由于時(shí)間所限,實(shí)驗(yàn)中采用了自行采集的表情數(shù)據(jù)作為訓(xùn)練集,其結(jié)果具有一定的局限性。下一步,計(jì)劃采用標(biāo)準(zhǔn)面部表情庫作為訓(xùn)練集,以進(jìn)一步測(cè)試本方法的識(shí)別準(zhǔn)確率。同時(shí)開發(fā)獨(dú)立的面部跟蹤引擎,以減少對(duì)微軟面部跟蹤SDK的依賴性。
參考文獻(xiàn)(References):
[1] Keltner D, Tracy J, Sauter D A, et al. Expression of emotion[J]. Handbook of emotions,2016:467-482
[2] Ekman P. Facial expression and emotion[J]. American psychologist,1993.48(4):384.
[3] Zeng Z,Pantic M,Roisman G I,et al. A survey of affect recognition methods: Audio,visual, and spontaneous expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2009.31(1):39-58
[4] Nicolaou M A,Gunes H,Pantic M. Continuous prediction of spontaneous affect from multiple cues and modalities in valence-arousal space[J]. IEEE Transactions on Affective Computing,2011.2(2):92-105
[5] Vinciarelli A,Pantic M,Heylen D,et al.Bridging the gap between social animal and unsocial machine: A survey of social signal processing[J]. IEEE Transactions on Affective Computing,2012.3(1):69-87
[6] Huynh T,Min R,Dugelay J L.An efficient LBP-based descriptor for facial depth images applied to gender recognition using RGB-D face data[C]//Asian Conference on Computer Vision.Springer,Berlin,Heidelberg,2012:133-145
[7] Kadambi A,Taamazyan V,Shi B,et al. Polarized 3d: High-quality depth sensing with polarization cues[C]//Proceedings of the IEEE International Conference on Computer Vision.2015:3370-3378
[8] Silverstein E,Snyder M.Implementation of facial recognition with Microsoft Kinect v2 sensor for patient verification[J]. Medical physics,2017.44(6):2391-2399
[9] Vapnik V N.An overview of statistical learning theory[J].IEEE transactions on neural networks,1999.10(5): 988-999
[10] Chang C C,Lin C J.LIBSVM:A library for support vector machines[J]. ACM transactions on intelligent systems and technology (TIST),2011.2(3):27