[摘? ? ? ? ? ?要]? 針對在線學習表情檢測數(shù)據(jù)量大、冗余數(shù)據(jù)多等問題,基于面部動作編碼系統(tǒng)提出了精簡后的在線學習表情對應的面部活動單元組合及其特征,然后基于RealSense實感技術捕獲的人臉特征點提取在線學習表情的歐式距離和角度特征。通過OpenCV視覺庫的實驗驗證,基于歐式距離和角度特征向量的在線學習表情檢測能夠有效減少冗余數(shù)據(jù),對高興、困惑、厭惡等在線學習表情具有良好的檢測效果。
[關? ? 鍵? ?詞]? 在線學習表情檢測;歐式距離;角度特征
[中圖分類號]? G712? ? ? ? ? ? ? ? ? ? [文獻標志碼]? A? ? ? ? ? ? ? ? ? [文章編號]? 2096-0603(2022)21-0091-03
人臉表情是人類表達情感的重要方式之一,表現(xiàn)為一種動態(tài)的變化過程,包括開始、峰值、結束三種狀態(tài)。在線學習表情檢測是指從在線學習視頻中篩選出表情的起始幀、峰值幀和結束幀,截取出表情強度較大的幀序列[1]。
在線學習環(huán)境下,如果逐幀存儲學習過程,會造成存儲空間的浪費,并增大表情識別算法的計算量。如時長5分鐘的在線學習過程,以640*360的分辨率,30fps的幀速率錄制RGB視頻流,并按24位無壓縮存儲,大約會占用5.79G存儲空間。而真正可用于表情識別的圖片序列,可能只有幾秒的時間,在實際應用中只需對這少部分的有效表情圖片序列進行存儲和識別即可。因此,通過在線學習表情檢測將有效的表情數(shù)據(jù)從大量的數(shù)據(jù)中提取出來,可以極大降低存儲空間的占用,并減少無關數(shù)據(jù)的處理,從而提高后續(xù)表情識別算法的效率。
一、在線學習表情對應的面部活動單元
(一)面部動作編碼系統(tǒng)
面部特征點是表情測量中最常用的一種面部特征信息,而選取人臉特征點的重要理論基礎是美國心理學家Paul Ekman提出的面部動作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)[2]。FACS根據(jù)面部肌肉分布,將一塊肌肉或多塊肌肉的組合定義為一個運動單元(Action Unit,AU),由此,將人的面部分為44個運動單元,而不同的運動單元進行組合又會形成不同的面部表情。人類的六種基本表情:高興、悲傷、驚訝、恐懼、生氣和厭惡,都可以通過上述運動單元的組合進行描述[3]。
(二)在線學習表情
學習情境的多樣性和學習個體的差異性等因素會使學生產生豐富多樣的復雜學習情感,進而導致學習表情的多樣化、復雜化。因此,Ekman提出的六種基本表情無法直接應用于學習領域。鑒于此,國內外研究者對學習表情的分類架構進行了深入的研究探索。如D’Mello等人基于復雜學習情感動態(tài)變化模型,將學習表情分為投入、困惑、驚訝、高興、挫折及厭惡[4];薛耀鋒等人將在線學習表情定義為中性、高興、困惑、生氣、疲勞和驚奇六種類型[5]。
學者們的研究結果雖不相同,但基本上都包含了學習過程中的三種關鍵情感表情,即高興、困惑和厭惡。當學生處于認知平衡的學習狀態(tài)時會呈現(xiàn)中性情感表情;如果學習者遇到困難無法理解學習內容,會打破認知平衡的學習狀態(tài),產生困惑情感表情;如果學生遇到的困難一直不能解決,最終會導致學生脫離學習狀態(tài),產生厭惡情感表情;如果及時解決了困難,學生就會感到快樂從而進入積極學習狀態(tài),表現(xiàn)出高興情感表情,然后情緒平復再次進入認知平衡狀態(tài)并表現(xiàn)出中性情感表情。因此,本文將困惑、高興和厭惡表情作為在線學習表情檢測的主要研究對象。
(三)在線學習表情的面部活動單元
北京師范大學的孫波等人基于面部動作編碼系統(tǒng),對高興、困惑、厭惡等學習表情對應的面部活動特征進行了研究,并構建了學習表情數(shù)據(jù)庫BNU-LVSED[6]。此外,表情分析專家姜振宇也對相關的微表情進行了分析描述[7]。其中,高興、困惑、厭惡表情對應的面部運動單元如表1所示。
表1清晰描述了相應表情變化時相關面部運動單元呈現(xiàn)的關鍵特征,有助于區(qū)分不同的學習表情,但是沒有具體到對應的特征點,所以還需進一步確定人臉特征點,以便提取對應表情的幾何特征。
二、在線學習表情的特征向量選取
幾何特征具有精度高、數(shù)據(jù)少、計算簡單等優(yōu)點,通過幾何特征能夠有效提高在線學習表情檢測的效率,而定位面部特征點又是計算幾何特征的基礎。Intel公司的RealSense實感技術能夠精確捕獲面部78個特征點的平面坐標和以攝像頭為中心點的世界坐標[8],如圖1所示。
(一)距離幾何特征提取
在線學習表情主要是通過表1中相關AU單元的變化來呈現(xiàn),通過定位表1中相關AU單元的特征點,并計算特征點之間的距離,就可以將人臉的距離幾何特征提取出來,并用于表情檢測。歐式距離是常用的圖像距離度量方法,因算法簡單、高效被普遍應用于圖像識別算法中[9]。由此,本文的距離特征采用歐式距離。
為進一步減少數(shù)據(jù)量,按照幅度變化明顯的原則,對圖1中位于在線學習表情相關AU上的特征點進行篩選,形成歐式距離特征向量表,如表2所示。
(二)角度特征提取
在實際的在線學習過程中,學生不可能總是正襟危坐地直面攝像頭,其面部由于坐姿等因素會產生一定的變化。此外,人的面部差異等也會使歐式距離產生一定的誤差。而角度特征具有尺度不變特性,利用角度特征可以增強表情檢測對圖像旋轉、姿態(tài)變化等的魯棒性[10]。為提高計算效率,本文按照幅度變化明顯、前后一致的原則,進一步對圖1中位于在線學習表情相關AU上的特征點進行精簡,形成角度特征向量表,如表3所示。
三、在線學習表情檢測實驗
為驗證表2和表3特征向量的有效性,對Real-Sense實感攝像頭錄制的數(shù)據(jù)進行檢測實驗,從提取的正確率和提取前后總幀數(shù)對比的角度分析實驗結果。
(一)實驗流程
在線學習表情檢測實驗由兩個部分組成,首先,對RealSense實感攝像頭錄制的數(shù)據(jù)進行格式化處理,從錄制的視頻流中逐幀提取彩色圖像并將其轉換為Mat類型進行保存。其次,對格式化處理后的圖像數(shù)據(jù)逐幀檢測,通過投票分類確定表情的起始幀和結束幀。其主要過程如下:
1.創(chuàng)建PXCSenseManager實例獲取RealSense視頻流,并通過EnableStream方法設置視頻流的格式(如彩色、深度或紅外視頻流及視頻的寬度和高度等)。
2.使用Init()方法按照第二步中EnableStream函數(shù)設置的視頻流格式對PXCSenseManager實例進行初始化,即初始化對應管道流,以便下一步使用對應的管道流的視頻流數(shù)據(jù)。
3.循環(huán)使用AcquireFrame方法鎖定并獲取視頻流中的每一幀數(shù)據(jù)。如果AcquireFrame(true)同步等待所有的I/O請求都完成并且所有的處理模塊都完成的返回結果小于PXC_STATUS_NO_ERROR,就退出循環(huán);反之,則使用QuerySample()方法創(chuàng)建Sample結構的實例用于存放獲取的圖像幀。
4.由于Sample結構維護了一個從多個視頻流里面獲取的圖像數(shù)組(如彩色圖像、深度圖像、紅外圖像等),所以我們要使用Sample實例的color方法,指明我們實驗所需要訪問的是彩色流圖像實例,即說明要使用的是彩色圖像(如果需要訪問的圖像是深度圖像或紅外圖像,其方法分別是depth、ir),并進一步通過Acquire-Access方法鎖定對應的彩色圖像幀。
5.對第4步獲取到的PXCImage彩色圖像幀進行Mat轉換,并將生成的Mat類型的圖像信息保存到新建的ImageData(ImageData描述了圖像存儲的細節(jié),如存儲格式、存儲緩存及步長等)。
6.使用imwrite方法保存轉換后的圖像數(shù)據(jù)。
7.對圖像數(shù)據(jù)逐幀檢測,基于投票分類理念[11]對特征幅度變化較大的圖像進行篩選,根據(jù)投票結果確定起始幀和結束幀。
(二)實驗結果
按上述實驗規(guī)程,實驗在VS 2019平臺上進行,實驗數(shù)據(jù)是人工誘導生成的6個學習表情視頻片段,利用OpenCV視覺庫、RealSense SDK圖像接口實現(xiàn)表情檢測,測試結果如表4所示。
從表4可以看出,在線學習表情檢測的正確率達到100%,這說明了表2和表3中特征向量的有效性。
此外,通過原始視頻幀數(shù)和截取幀數(shù)的對比分析,還可以看出,利用表2和表3中的特征向量進行表情檢測后大幅度減少了冗余數(shù)據(jù),有效節(jié)省了存儲空間,其檢測前后的數(shù)據(jù)量對比如圖2所示。
參考文獻:
[1]賀冰華.基于RealSense的在線教育表情識別研究及應用[D].武漢:華中師范大學,2018.
[2]Ekman P,F(xiàn)riesen WV.Facial Action Coding Sy-stem (FACS):a Technique for the Measurement of Facial Actions[J].Rivista Di Psichiatria,1978,47(2):126-138.
[3]張敏.基于面部特征的性別和表情識別算法研究[D].沈陽:東北大學,2015.
[4]D’Mello S,Graesser A.Dynamics of Affective States During Complex Learning[J].Learning & Instruction,2012,
22(2):145-157.
[5]薛耀鋒,楊金朋,郭威,等.面向在線學習的多模態(tài)情感計算研究[J].中國電化教育,2018(2):46-50.
[6]孫波,劉永娜,陳玖冰,等.智慧學習環(huán)境中基于面部表情的情感分析[J].現(xiàn)代遠程教育研究,2015(2):96-103.
[7]姜振宇.微表情[M].南京:鳳凰出版社,2011.
[8]張釗.基于RealSense的動態(tài)表情識別方法研究[D].武漢:華中師范大學,2018.
[9]沈宇超.變形QR碼的多結構校正識別研究[D].北京:華北電力大學,2016.
[10]林嬌嬌.基于卷積神經網絡的多角度人臉特征點檢測技術研究[D].上海:上海交通大學,2019.
[11]任江濤,丘正元,紀慶革.一種基于投票機制的代表點選擇算法[J].計算機應用,2007(1):77-79.
◎編輯 栗國花
①基金項目:重慶市教學科學規(guī)劃項目(2020-GX-398)。
作者簡介:范凌云(1981—),男,漢族,山東海陽人,碩士,副教授,研究方向:計算機視覺及網絡安全。