韋妍
廣東女子職業(yè)技術學院 廣東 511450
人臉表情是人們之間非語言交流時的最豐富的資源和最容易表達人們感情的一種有效方式,在人們的交流中起著非常重要的作用。表情含有豐富的人體行為信息,是情感的主載體,通過臉部表情能夠表達人的微妙的情緒反應以及人類對應的心理狀態(tài),由此可見表情信息在人與人之間交流中的重要性。人臉表情識別技術隨著人們對表情信息的日益重視而受到關注,成為目前一個研究的熱點。所謂人臉表情識別,就是利用計算機進行人臉表情圖像獲取、表情圖像預處理、表情特征提取和表情分類的過程,它通過計算機分析人的表情信息,從而推斷人的心理狀態(tài),最后達到實現(xiàn)人機之間的智能交互。表情識別技術是情感計算機研究的內(nèi)容之一,是心理學、生理學、計算機視覺、生物特征識別、情感計算、人工心理理論等多學科交叉的一個極富挑戰(zhàn)性的課題,它的研究對于自然和諧的人機交互、遠程教育、安全駕駛等都有重要的作用和意義。
國際上對人臉表情的分析與識別的研究工作可分為基于心理學和計算機兩類。早在 1872年,生物學家達爾文所做的心理實驗就表明,面部表情的含義不會隨著國家、種族、性別的不同而不同。1978年美國心理學家Ekman和Friesen開發(fā)了面部動作編碼系統(tǒng)(Facial Action coding system,F(xiàn)ACS),以此來檢測面部表情的細微變化。在這個系統(tǒng)中,他將表情分為六個基本類別:悲傷、高興、恐懼、厭惡、憤怒和驚奇,說明了與無表情人臉特征相比,這六種表情的人臉特征具有相對獨特的肌肉運動規(guī)律。后來大多數(shù)學者的研究都是建立在FACS系統(tǒng)的基礎上的,所以說這一系統(tǒng)的提出具有里程碑的意義。
計算機方面,最初對表情識別做了嘗試的是 Suwa和Sugie等人。1978年,他們對選定的連續(xù)圖像序列中臉部固定的20個點進行跟蹤識別,并與原型模式((Prototype patterns)進行比較以實現(xiàn)識別。同年,Terzopoulous和Waters運用了簡化的 Ekman-Friesen模型,用計算機產(chǎn)生人臉動畫,同時也做了人臉視頻序列的表情分析。直到1981年才有學者從肌肉角度的觀點出發(fā),用仿生學方法為面部表情建立模型。
到目前為止,人臉表情識別已經(jīng)經(jīng)過了四十多年的發(fā)展。尤其是近些年來,隨著計算機軟件技術的發(fā)展和硬件性能的提高,它更成為一個熱門的研究課題。英國、美國、日本等經(jīng)濟發(fā)達國家和發(fā)展中國家如印度、新加坡都有專門的研究組進行這方面的研究。其中美國的麻省理工學院(MIT)的多媒體實驗室的感知計算組、斯坦福大學、卡耐基梅隆大學(CMU)機器人研究所、東京大學、大阪大學的貢獻尤為突出。
到目前為止,國外的人臉表情識別的方法大致可以分為五類:
(1) 基于幾何特征提取的方法
基于幾何特征的表情識別是指對嘴、眉毛、鼻子、眼睛等這些人臉表情的顯著特征的形狀和位置變化進行定位和測量,確定它的形狀、大小、距離及相互比例,進行表情識別的方法。Bourel等人定義了面部特征點之間的九個距離并通過它們構建了表情特征向量進行表情分析。Chibelushi等人也采用了面部幾何特征點并采用 Kanade-Tucas-Tomasi特征點跟蹤算法實現(xiàn)特征點跟蹤,然后通過計算得到九個特征系數(shù),而這九個系數(shù)構成了特征流,描述了由于表情的發(fā)生而引起的面部特征點的幾何關系的變化。Pantic等人進行面部特征檢測并確定面部幾何關系,然后他們通過規(guī)則推理系統(tǒng)將這種面部幾何關系轉(zhuǎn)化為面部動作單元的活動,最終通過專家系統(tǒng)實現(xiàn)表情識別。Ying-li Tian等人采用幾何特征提取與神經(jīng)網(wǎng)絡相結合的方法對正面或接近正面的面部圖像進行表情識別,其中提取幾何特征主要包括對于關鍵部位的定位特征和表情區(qū)的形狀特征。
(2) 基于統(tǒng)計特征提取的方法
與提取圖像的幾何特征相比,這種統(tǒng)計特征是基于圖像的整體灰度特征,它強調(diào)盡可能多的保留原始人臉表情圖像中的信息,通過對整幅人臉表情圖像或其中特別的區(qū)域進行變換,以此獲取人臉各種表情的特征來進行識別。這方面比較有代表的方法是主成分分析法(PCA),它曾經(jīng)是人臉識別中最常用的方法。1999年,Ginalucal等人在以前人臉識別算法的基礎上,將PCA算法應用到人臉表情識別上,實驗結果表明,當取前 30個主分量并使用歐氏距離時,達到了最好的79.3%的識別率。2001年,Andrew J.Calder等人分別從社會科學和識別理論兩個方面說明了主成分分析的有效性和可行性。PCA現(xiàn)在己經(jīng)成功地應用于人臉識別和表情識別,但是由于在PCA中,只有圖像數(shù)據(jù)當中的二階統(tǒng)計信息被考慮到了,而高階統(tǒng)計信息并沒有利用到,在1998年Bartlett提出了基于獨立分量分析ICA的算法。ICA把n幅原始圖像看成是m幅特征圖像的線性組合,對這m幅特征圖像進行獨立分量,然后就可以得到特征圖像。C.Havran等也是采用了相似的方法,首先對圖像進行PCA特征提取,然后進行獨立分量分析,試驗表明,與單獨使用主分量分析的表情提取方法相比,這種表情提取方法更加有效,而且對主分量的特征空間維數(shù)的選擇具有更低的敏感度。Buciu等利用ICA進行了表情識別,該方法將ICA與支持向量機(SVM)聯(lián)合使用,達到了分類的目的并取得了很好的效果。
(3) 基于頻率域特征提取的方法
近來,越來越多的人關注Gabor小波并進行深入研究,把它應用于面部表情識別,也取得了不錯的識別結果。Gabor小波核函數(shù)具有與人類大腦皮層簡單細胞的二維反射區(qū)相同的特性,它相當于一組窄帶帶通濾波器,其方向、基頻帶寬及中心頻率均可以調(diào)節(jié),具有明顯的方向選擇和頻率選擇特性。TianYing-li 等人將人臉分成上下兩個部分,再標成一個個的運動單元,運用Gabor小波對臉部運動單元進行識別,最后結合幾何特征進行表情的識別,達到了92.7%的識別率。Wen在一系列手工標定的局部小區(qū)域提取平均Gabor小波系數(shù)作為紋理特征,同時引入了一種在人臉合成中使用的基于比例圖的方法來對紋理提取區(qū)域進行預處理,以降低不同人臉差異和光照變化引起的人臉光照度不均的影響。Littlewort等采用Boosting方法選取Gabor特征,采用SVM進行分類,識別率達93.3%。Kyperountas M等人以Gabor小波等多種特征提取算法為手段,結合新的分類器對靜態(tài)圖像進行試驗,取得了較好的識別率。
(4) 基于運動和形變特征提取的方法
基于運動和形變的特征提取方法關注由面部表情引起的面部變化。它們以中性臉作為參考面,首先分析各個面部特征區(qū)域內(nèi)的形變或運動信息,然后通過這些信息構建特征向量進行表情識別?;谔荻鹊墓饬鲌鲇嬎惴ㄗ钤缡怯蒆orn和schunk提出來的,隨后Mase首次利用光流來進行人臉運動跟蹤,在FACS系統(tǒng)中的44個運動單元中,他利用光流檢測到了其中的12個。Essa和Pentland擴展了這種方法,使用光流來估計面部解剖學和物理學模型中的面部運動。Tian等人把顴骨、眉毛、眼睛和嘴唇等作為特征點進行跟蹤,通過隱藏的面部特征的變形獲得模型的輪廓,提出了一種不同的元素模型。Anderson使用光流法計算人臉的多渠道灰度模型,完成對人臉區(qū)域的跟蹤,最后用 SVM算法實現(xiàn)了表情分類。Irene Kotsia等人主要利用網(wǎng)格跟蹤算法跟蹤由于表情發(fā)生而產(chǎn)生變化的網(wǎng)格,并構建變形系統(tǒng)進行識別。實驗結果表明,識別六種表情的識別率達到了99.7%,而AU的識別率則達到95.1%。
(5) 基于模型的方法
基于模型的方法以圖像中人臉對象的形狀和紋理結構為基礎建立二維或三維模型,以此模型的參數(shù)化變形來適配人臉圖像中的人臉部分,這些模型的參數(shù)就是所提取的特征。Huang等人提出了一種點分布模型PDM,模型由面部的90個特征點構成,通過它能夠獲得10個運動參數(shù),最后根據(jù)這些動參數(shù)來實現(xiàn)表情識別?;顒油庥^模型AAM也是一種模型的方法,是由Cootes等人在1998年提出的。它以目標對象變化的程度作為參數(shù)描述,是一種圖像特征定位方法。CriStinacce等人結合 AAM 和特征響應成對增強算法(PRFR),用來檢測面部邊緣的一些特征以及嘴角、眼眶、鼻尖等局部區(qū)域的特征點。Jaewon Sung等人于2007年提出了一種新的結合兩種模型的匹配方法,這種方法將 ASM轉(zhuǎn)變?yōu)轭愃朴贏AM的以梯度為基礎的搜索算法,并將AAM和ASM 的誤差項結合在一個以梯度為基礎的最優(yōu)模型中。Cheon和Kim提出了Differential-AAM和流形學習相結合的人臉表情識別算法,實驗證明該算法比AAM算法的識別率提高了20%。
國內(nèi)對人臉表情識別的研究比較晚,但發(fā)展卻是非??焖?。清華大學、哈爾濱工業(yè)大學、中科院自動化所、中科院計算所、聯(lián)合實驗室、浙江大學等多所著名大學和研究機構都投入相當?shù)娜肆臀锪M行人臉表情識別的研究。
哈爾濱工業(yè)大學高文教授領導的團隊是我國最早進行計算機表情分析、編碼與識別研究的團隊。高文和金輝等通過對若干類面部表情圖像的分析,建立了基于部件分解組合的人臉圖像模型,在他們的另一篇文獻中,在對動態(tài)表情圖像序列的時序分析的基礎上,提出了對混合表情的識別系統(tǒng)。中國科技大學的尹星云等用隱馬爾科夫模型(HMM)的基本理論和方法設計了人臉表情識別系統(tǒng)。余棉水等提出了一種基于光流的方法,利用光流技術跟蹤人臉表情圖像序列中的特征點,然后提取特征向量,最后利用神經(jīng)網(wǎng)絡對六種基本表情進行分類識別。鄧洪波和金連文提出了一個基于Gabor特征的人臉表情識別系統(tǒng)。該系統(tǒng)首先對表情圖像進行預處理,并提取Gabor特征,然后用PCA+LDA方法進行特征選擇,最后采用K近鄰分類方法識別人臉表情。趙浩和吳小俊在聯(lián)合主動表觀模型和主動形狀模型的基礎上,充分挖掘標定點之間的聯(lián)系,提出一種局部紋理模型構建方法。通過改進匹配算法提高特征點的定位精度和匹配速度,結果表明其識別率較高。周書仁和梁昔明提出了融合獨立分量分析(ICA)與支持向量聚類(SVC)的人臉表情識別方法。
人臉表情識別是一個具有重要意義而又富有挑戰(zhàn)性的課題,目前還處于研究階段,各種算法還在探索和驗證中,還不十分成熟。歸總來看,目前人臉表情識別的主要難點是:(1)對各種表情的體驗。人的情緒是細微多變的,隨之的表情變化也顯得非常復雜,如有輕松的和緊張的、緩和的和激動的、細微的和強烈的等諸多形式,而現(xiàn)在的識別方法對比較夸張和明顯的表情能夠有較好的識別率,但是對變化不太明顯的表情識別率是較低的。(2)受不同年齡、種族、性別、頭發(fā)、飾物等的影響較大。(3)光照和人臉姿態(tài)對識別結果影響較大。(4)建立一個理想的人臉表情模型并不容易。因為人臉不是一個剛體,而是一個柔性體,很難用模型來準確描述。
總之,人臉表情識別技術作為一種高端生物特征識別技術,有著極其廣闊的應用前景,將會涉及到人們?nèi)粘I畹脑S多方面,對改善和提高人們的生活質(zhì)量以及生活方式都有極其重要的作用和意義。
[1]張翠平,蘇光大.人臉識別技術綜述.中國圖象圖形學報.2000.
[2]高文,金輝.面部表情圖像的分析與識別.計算機學報.2005.
[3]尹星云,王洵,董蘭芳,萬壽紅.用隱馬爾可夫模型設計人臉表情識別系統(tǒng).電子科技大學學報.2003.
[4]余棉水,黎紹發(fā).基于光流的動態(tài)人臉表情識別[J].微電子學與計算機.2005.
[5]鄧洪波,金連文.一種基于局部 Gabor濾波器組及 PCA+LDA的人臉表情識別方法[J].中國圖象圖形學報.2007.
[6]趙浩,吳小俊.基于改進聯(lián)合模型的人臉表情識別.計算機工程.2010.
[7]周書仁,梁昔明.融合獨立分量分析與支持向量聚類的人臉表情識別方法.計算機應用.2011.