• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時(shí)序圖像的面部表情識(shí)別算法研究*

      2021-01-19 11:00:42李佳希蔡思堃趙長(zhǎng)寬
      關(guān)鍵詞:臉部神經(jīng)網(wǎng)絡(luò)特征

      李佳希 蔡思堃 趙長(zhǎng)寬 張 昱 陳 默 于 戈

      (東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 沈陽 110169)

      1 引言

      自2012年大規(guī)模在線開放課程誕生以來,經(jīng)過數(shù)年的發(fā)展,已經(jīng)對(duì)教育教學(xué)改革產(chǎn)生重大影響。政府、高校正在圍繞實(shí)現(xiàn)“確保包容、公平和有質(zhì)量的教育,促進(jìn)全民享有終身學(xué)習(xí)機(jī)會(huì)”目標(biāo),積極推動(dòng)利用“人工智能、大數(shù)據(jù)發(fā)展、信息通信技術(shù)等信息化手段推動(dòng)教育可持續(xù)發(fā)展”[1]。隨著大規(guī)模在線開放課程的快速發(fā)展,開展線上和線下相結(jié)合的混合式教學(xué)改革正在成為課堂教學(xué)的重要方向。

      相對(duì)傳統(tǒng)的e-learning系統(tǒng),大規(guī)模在線開放課程力求滿足來自不同國家、不同年齡層次的、數(shù)以萬計(jì)的學(xué)習(xí)者共同的學(xué)習(xí)一門課程的需求,并嘗試通過海量數(shù)據(jù)實(shí)現(xiàn)個(gè)性教學(xué)目標(biāo)。在當(dāng)前的大規(guī)模在線開放課程教學(xué)中,教學(xué)錄像依然是教學(xué)資源主體。但是基于教學(xué)錄像的教學(xué)交互,這是一種單向的傳播行為。師生和生生互動(dòng),更多需要借助在線練習(xí)、測(cè)試、互評(píng)作業(yè)和論壇等異步方式開展。在傳統(tǒng)的課堂教學(xué)中,可以開展包括對(duì)話、手勢(shì)、表情等形式多樣的交互形式。另外,師生可以視教學(xué)交互成果,靈活調(diào)整教學(xué)交互內(nèi)容。線下教學(xué)具備的自然、親切、富有人文情感的交互形式是大規(guī)模在線課程所欠缺的。

      情感對(duì)人類活動(dòng)的影響是顯而易見的,情感對(duì)認(rèn)知、注意力、記憶和推理的影響已經(jīng)獲得心理學(xué)、教育學(xué)和神經(jīng)生物學(xué)等領(lǐng)域的關(guān)注[2]。隨著語音、視頻、傳感器、無線網(wǎng)絡(luò)、增強(qiáng)現(xiàn)實(shí)技術(shù)發(fā)展[3],基于情感計(jì)算深入洞察教學(xué)交互主體的情感互動(dòng)與交流,將有助于提升大規(guī)模在線開放課程和混合式課程的教學(xué)質(zhì)量和水平。

      依據(jù)面部表情照片,計(jì)算其蘊(yùn)含的情感,并將其歸入Paul Ekman提出的六種基本情感(包括生氣、害怕、厭惡、開心、傷心和驚訝)之一[5],是情感計(jì)算的核心任務(wù)之一。直接辨別與基于面部動(dòng)作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)的符號(hào)判別是主流的研究方法[6],已經(jīng)取得很多成果。但是,此類研究所用數(shù)據(jù)大多數(shù)來自于實(shí)驗(yàn)室采集而非現(xiàn)實(shí)場(chǎng)景,例如FERPlus、AffectNet、Emotio-Net、MMI和SFEW/AFEW等[4],其特點(diǎn)是以專門采集的正面的、清晰的面部照片為主體,如圖1所示。

      但是現(xiàn)實(shí)場(chǎng)景中,由于拍攝視角問題,很難獲得正面照片,很多都是側(cè)面的、扭曲或有遮擋的劣質(zhì)圖像。例如,圖2展示幾張影視作品中的表情照片,受制于電影場(chǎng)景設(shè)計(jì)和鏡頭限制,很難獲得正面照片。針對(duì)現(xiàn)實(shí)場(chǎng)景中的情感計(jì)算,僅僅依賴單張的面部表情照片,需要在計(jì)算模型和算法方面取得較大的突破,難度較大。目前已經(jīng)初步建立了相關(guān)數(shù)據(jù)集,例如Aff-Wild和EMOTIC[7],相關(guān)的研究工作開始啟動(dòng)。

      一個(gè)表情動(dòng)作的發(fā)生,是在一個(gè)時(shí)間段內(nèi)完成的,基于視頻錄像中的連續(xù)圖像序列,利用表情動(dòng)作的時(shí)間連續(xù)性[8~9],臨近時(shí)間段的圖像信息可以彌補(bǔ)劣質(zhì)圖像帶來的問題,是解決表情識(shí)別一條重要的技術(shù)路線。本文嘗試將表情圖像序列中多張圖像對(duì)齊后,疊加合成復(fù)合圖像,作為神經(jīng)網(wǎng)絡(luò)模型的輸入,實(shí)現(xiàn)表情識(shí)別,主要貢獻(xiàn)如下:

      圖2 現(xiàn)實(shí)場(chǎng)景下面部表情照片示例

      1)使用表情公開數(shù)據(jù)集The MUG Facial Expression Database,經(jīng)過數(shù)據(jù)清洗后,提取表情強(qiáng)度較大的高質(zhì)量時(shí)序幀圖像,對(duì)每張圖像進(jìn)行仿射變換,并將圖像進(jìn)行疊加,得到臨近時(shí)刻的復(fù)合圖像。

      2)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型,對(duì)復(fù)合圖像分類,實(shí)現(xiàn)表情識(shí)別,并且通過實(shí)驗(yàn)驗(yàn)證算法的有效性。

      2 相關(guān)工作

      基于面部動(dòng)作單元(Action Unit,AU)的情感計(jì)算思想是將與表情緊密相關(guān)的面部肌肉動(dòng)作命名為動(dòng)作單元,并發(fā)現(xiàn)動(dòng)作單元組合與情感之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)情感識(shí)別。FACS從面部圖像中抽取重要的27個(gè)面部AU和20個(gè)眼部和頭部位置作為情感計(jì)算基礎(chǔ),并制定了分類規(guī)則庫,從1978開始,Paul Eckman不定期發(fā)布FACS使用手冊(cè)[11],其最新版本為2020年由牛津大學(xué)出版社發(fā)行的《What the Face Reveals》。

      由于面部動(dòng)作本身是在三維空間中完成,從計(jì)算機(jī)視覺的角度,從二維圖像自動(dòng)識(shí)別動(dòng)作單元依然存在很多的困難[12]。為了解決此問題,形成如下三條技術(shù)路線。

      1)基于面部的AU計(jì)算。以表情動(dòng)作時(shí)間連續(xù)性為前提,利用時(shí)序圖像,識(shí)別AU。其研究方法細(xì)分為基于AU特征點(diǎn)的方法[12~13]、基于面部圖像的方法[14~15]和基于動(dòng)態(tài)紋理[10,16]的方法。

      2)基于多模態(tài)數(shù)據(jù)的識(shí)別方法:基于語音[17~18]、肢體[19]、心跳[20],以及對(duì)話[21~23]的關(guān)聯(lián)信息,或者多模態(tài)數(shù)據(jù)融合的方法。

      3)重構(gòu)三維圖像的方法,通過多角度照片重構(gòu)面部三維圖像[24]。

      在表情分類研究方面,前期主要采用方法包括SVM[25]和HMM[13],近期開始嘗試使用深度卷積神經(jīng)網(wǎng)絡(luò)模型,例如CNN[26]和LSTM[27]等等。

      基于圖像序列的識(shí)別方法包括多幀圖像融合[28~29]、學(xué)習(xí)不同強(qiáng)度表情、深度時(shí)空網(wǎng)絡(luò)等,Zhao[30]等提出一種基于峰值引導(dǎo)的神經(jīng)網(wǎng)絡(luò)PPDN,通過建立峰值與非峰值表情之間的映射關(guān)系來解決微小表情難以識(shí)別的問題。在此基礎(chǔ)上,Yu[31]等提出深度級(jí)聯(lián)峰值引導(dǎo)網(wǎng)絡(luò)DCPN,采用更深的網(wǎng)絡(luò)來提取特征。深度時(shí)空網(wǎng)絡(luò)適合具有空間關(guān)系和時(shí)間規(guī)律的數(shù)據(jù),例如RNN、LSTM等。Kahou[32]等利用CNN提取視頻序列中每幀圖像的高層語義特征,然后使用RNN提取這些特征的時(shí)序依賴關(guān)系,進(jìn)而實(shí)現(xiàn)動(dòng)態(tài)人臉表情識(shí)別。

      3 模型與算法設(shè)計(jì)

      3.1 問題定義

      本文中,使用YP=F(ZP,W)來表示表情計(jì)算問題,其中ZP是表情序列中的第P個(gè)表情,W表示訓(xùn)練模型中的相關(guān)參數(shù),輸入的表情序列在參數(shù)W的模型計(jì)算后,得到表情的預(yù)測(cè)標(biāo)簽YP。

      3.2 圖像預(yù)處理

      face_recognition是一個(gè)基于C++開源庫dlib中的深度學(xué)習(xí)模型以及python開發(fā)的人臉識(shí)別庫。使用face_recognition的標(biāo)定臉部特征點(diǎn)模塊標(biāo)定表情序列圖像首張表情圖像的臉部特征點(diǎn),從視頻(圖像序列)中檢測(cè)出人臉,并標(biāo)定68個(gè)臉部特征點(diǎn),對(duì)特征點(diǎn)進(jìn)行旋轉(zhuǎn)平移的仿射變換。人臉特征點(diǎn)對(duì)應(yīng)的臉部器官如表1所示。將特征點(diǎn)移動(dòng)到圖像中央,利用線性插值算法連接相鄰的臉部特征點(diǎn)生成臉部輪廓特征圖,如式(1)所示。以首張表情圖像的臉部輪廓特征圖為基準(zhǔn),對(duì)后續(xù)所有臉部特征點(diǎn)進(jìn)行歸一化操作后連接生成臉部輪廓特征圖。最后將整個(gè)表情序列圖像的臉部輪廓特征圖疊加在一張空白的同尺寸圖像中,生成表情特征圖。

      表1 人臉特征點(diǎn)對(duì)應(yīng)表(face_recognition庫提供)

      算法1 生成表情特征圖算法

      ALGORITHM1:Generate expression feature graph

      Input:expression_file_path

      Output:feature_picture

      feature_picture=image.new

      For每種表情素材

      For每個(gè)表情序列

      For每張圖像

      提取每張圖像的特征點(diǎn)且歸一化處理。

      將圖像平移到圖像中央。

      將特征點(diǎn)連成線畫在空白圖像上并疊加。

      End

      feature.save(path)

      End

      End

      這是整個(gè)算法的核心,也是本文創(chuàng)新點(diǎn),特征提取過程使用了一個(gè)合理高效的方式生成了對(duì)于機(jī)器來說可識(shí)別的表情符號(hào),如圖3所示。

      圖3 生成表情特征圖

      仿射變換是整個(gè)特征提取過程中最關(guān)鍵的一步。表情計(jì)算依賴于人臉檢測(cè)功能的穩(wěn)定性和標(biāo)定臉部特征點(diǎn)的準(zhǔn)確性。基于圖像序列的表情計(jì)算需要處理大批量的臉部圖像。本文使用的數(shù)據(jù)集約有972*80=77760張圖像,隨著識(shí)別圖像數(shù)量的提升,標(biāo)定臉部特征點(diǎn)功能產(chǎn)生的錯(cuò)誤也越來越多。并且志愿者們的頭部也會(huì)有些微的偏轉(zhuǎn)與變化,因此使用仿射變換來降低這兩個(gè)因素帶來的影響,在可接受范圍內(nèi)校準(zhǔn)了表情序列圖像的臉部特征點(diǎn),舍棄了超出可接受范圍內(nèi)異常的臉部特征點(diǎn)。

      算法2 仿射變換算法

      ALGORITHM2:Affine transformation

      Input:face_landmarks,cordinate_origin,rotate_radian

      Output:new_face_landmarks

      For每個(gè)特征點(diǎn)

      減去鼻梁底部的橫坐標(biāo)與縱坐標(biāo)得到新坐標(biāo)

      (x,y)=each.(x,y)-cordinate_origin.(x,y)

      計(jì)算旋轉(zhuǎn)角

      radian=math.atan(distance.x/y)

      distance=math.sqrt(x*x,y*y)

      new_y=distance*math.cos(radian-rotate_radian)

      new_x=distance*math.sin(radian-rotate_radian)

      連接變換后的特征點(diǎn)并平移到圖像中心

      new_face_landmarks.appen(each)End

      設(shè)首張臉部圖像鼻梁上下距離為L(zhǎng),后續(xù)臉部圖像的鼻梁上下距離為L(zhǎng)',計(jì)算縮放比k=L/L'。因?yàn)槿祟惖谋橇翰粫?huì)隨著表情的變化而變化,所以以鼻梁底部為坐標(biāo)原點(diǎn)建立新坐標(biāo)系。第一步在原有的坐標(biāo)系下將所有特征點(diǎn)減去鼻梁底部的橫坐標(biāo)與縱坐標(biāo)再乘以縮放比k,得到新坐標(biāo)系下的特征點(diǎn)坐標(biāo)。第二步是計(jì)算旋轉(zhuǎn)角,按照表1提供的特征點(diǎn)位置,取鼻梁頂點(diǎn)(x27),y27與坐標(biāo)原點(diǎn)(x31),y31。以順時(shí)針為正,逆時(shí)針為負(fù),計(jì)算旋轉(zhuǎn)角q。坐標(biāo)示意圖如圖4所示。

      第三步利用平面距離公式計(jì)算每個(gè)特征坐標(biāo)原點(diǎn)的距離rj。

      第四步計(jì)算每個(gè)特征點(diǎn)與x軸正向的夾角b。

      第五步根據(jù)旋轉(zhuǎn)角q、距離rj和夾角b計(jì)算仿射變換后的特征點(diǎn)坐標(biāo)M',j為特征點(diǎn)序號(hào)。再連接變換后的臉部特征點(diǎn),平移到圖像中心生成臉部輪廓特征圖,如圖5所示。

      圖4 特征點(diǎn)坐標(biāo)示意圖

      圖5 特征點(diǎn)仿射變換示意圖

      使用上述方法處理臉部表情序列圖像,生成規(guī)范的臉部輪廓特征圖,最終將一個(gè)表情序列的臉部輪廓特征圖疊加后得到表情特征圖。

      3.3 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      本文構(gòu)建了專門識(shí)別臉部特征圖的卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)主要分為兩個(gè)部分,前端特征提取由卷積層和池化層組成,后端分類器進(jìn)行預(yù)測(cè)。整體架構(gòu)圖如圖6所示。

      圖6 ConvNet整體架構(gòu)圖

      輸入層使用單色表情特征圖作為輸入數(shù)據(jù)。然后使用兩個(gè)3×3的卷積層和兩個(gè)最大池化層,之后扁平化池化層的輸出。最后使用Softmax回歸分類器進(jìn)行分類。在特征提取器和輸出層之間,添加一個(gè)dropout層來防止過擬合。該問題是一個(gè)多分類問題,需要一個(gè)具有7個(gè)節(jié)點(diǎn)(對(duì)應(yīng)七種表情)的輸出層來預(yù)測(cè)屬于這7個(gè)類中每個(gè)類的圖像的概率分布。所有層都使用he權(quán)重初始化方案。

      損失函數(shù)使用交叉熵作為損失指標(biāo),如式(6)所示,其中概率分布p為期望輸出,概率分布q為實(shí)際輸出,H(p,q)為交叉熵。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)環(huán)境

      本實(shí)驗(yàn)的硬件環(huán)境如下:Windows10操作系統(tǒng),16GB DDR3內(nèi)存,i7-10750H CPU,NVIDIA Ge-Force RTX 2060M 6GB的GPU硬件環(huán)境。軟件環(huán)境為Python3.6,TensorFlow 2.0.0版本,編譯器為JetBrains PyCharm Community Edition 2020。

      4.2 實(shí)驗(yàn)數(shù)據(jù)

      本文使用face_recognition工具開發(fā)了識(shí)別模塊,該模塊能檢測(cè)出視頻中的臉部圖像區(qū)域并進(jìn)行人臉識(shí)別將圖像區(qū)域保存到對(duì)應(yīng)文件夾中。

      由于表情強(qiáng)度較弱的低質(zhì)量圖像對(duì)于表情識(shí)別的貢獻(xiàn)較少,清洗掉這些圖像對(duì)結(jié)果不會(huì)有太大影響,同時(shí)使用實(shí)驗(yàn)室采集的標(biāo)準(zhǔn)圖像也可以對(duì)模型進(jìn)行驗(yàn)證,因此本文采用公開的表情圖像數(shù)據(jù)集The MUG Facial Expression Database作為訓(xùn)練數(shù)據(jù)并對(duì)其進(jìn)行數(shù)據(jù)清洗。該數(shù)據(jù)集由希臘亞里士多德大學(xué)的Multimedia Understanding Group創(chuàng)建,克服了其他數(shù)據(jù)庫分辨率低,照明不均勻主題不明確等問題。數(shù)據(jù)集由20~35歲的35名女性,51名男性,共86名志愿者的面部表情圖像序列組成。每個(gè)圖像以jpg格式保存,896×896,大小范圍為240KB~340KB。每個(gè)志愿者根據(jù)FACS手冊(cè)定義的六種情緒原型,自愿選擇做出相對(duì)應(yīng)的情緒表達(dá)[34]。表4為通過不同方式公開發(fā)表的各個(gè)表情的數(shù)量。

      表4 MUG Facial Expression Database中每種表情的數(shù)量

      一個(gè)志愿者的七種表情數(shù)據(jù)壓縮在一個(gè)文件夾中,文件夾根據(jù)志愿者拍攝順序編號(hào)命名。需要以Ekman提出的六種基本表情再加上平靜表情為標(biāo)簽對(duì)原始數(shù)據(jù)進(jìn)行分類,重新進(jìn)行人工標(biāo)注。經(jīng)過手動(dòng)分類,最終獲得憤怒、厭惡、害怕、開心、傷心、驚訝、平靜共七類,954組素材。

      雖然算法在特征提取步驟應(yīng)用仿射變換降低了錯(cuò)誤的表情特征圖的數(shù)量,但是仍有部分表情特征圖具有嚴(yán)重的偏差,例如有雙下巴的男性,算法有時(shí)會(huì)錯(cuò)誤地把雙下巴區(qū)域當(dāng)成臉部區(qū)域,原本的下巴區(qū)域則被當(dāng)成了嘴部區(qū)域,從而生成一張部分正確,部分錯(cuò)誤的表情特征圖。

      4.3 實(shí)驗(yàn)結(jié)果與錯(cuò)誤分析

      4.3.1 預(yù)處理與特征提取

      經(jīng)過預(yù)處理特征提取工作后,最終的表情特征如圖7所示,可以看出不同的表情呈現(xiàn)出較大差異,證明預(yù)處理的工作有助于后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的分類。

      圖7 六種基本表情特征圖

      4.3.2 神經(jīng)網(wǎng)絡(luò)

      使用tensorflow框架構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行100輪epoch的訓(xùn)練,訓(xùn)練過程如表3和圖8所示。

      表3 總體模型評(píng)價(jià)

      圖8 模型訓(xùn)練過程直方圖

      最終在測(cè)試集上的準(zhǔn)確率為0.881,實(shí)驗(yàn)過程中的混淆矩陣如圖9所示,可以看出在fear、neutral和sadness上的效果較差,誤分類主要出現(xiàn)在anger和surprise上,分析其原因,這三個(gè)表情的特征差異不如其他四種表情顯著,有一定的相似性,需要進(jìn)一步改進(jìn)模型來提高識(shí)別率。

      圖9 混淆矩陣

      本文使用單張未疊加的特征圖以及未進(jìn)行仿射變換的特征圖進(jìn)行對(duì)比,前者混淆矩陣如圖10所示,后者混淆矩陣如圖11所示,準(zhǔn)確率對(duì)比如表4所示。通過對(duì)比可以看出,使用經(jīng)過仿射變換并疊加的特征圖作為表情計(jì)算輸入的效果明顯更優(yōu),這表明仿射變換和時(shí)序圖像疊加是有助于表情識(shí)別的。

      表4 三種方法對(duì)比

      圖10 未疊加特征圖的混淆矩陣

      圖11 未進(jìn)行仿射變換征圖的混淆矩陣

      5 結(jié)語

      本文針對(duì)7種基本表情,使用人臉特征點(diǎn)定位算法,捕捉表情序列視頻中的每一幀人臉圖像的特征點(diǎn),經(jīng)過仿射變換和簡(jiǎn)單疊加后得到表情特征圖。結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別,得到最終表情結(jié)果。實(shí)驗(yàn)結(jié)果表明時(shí)序圖像包含了豐富的表情信息,有利于提高表情計(jì)算的準(zhǔn)確率。

      本文所使用的訓(xùn)練集源于實(shí)驗(yàn)室。實(shí)驗(yàn)者在拍攝基本表情視頻時(shí)事先經(jīng)過培訓(xùn),拍攝環(huán)境有著嚴(yán)格的光照控制。而在真實(shí)的課堂環(huán)境下,很難完整且清晰地捕捉到每位學(xué)習(xí)者的臉部表情變化。因此下一步的工作需要在教室環(huán)境下,利用有限的攝像頭資源捕捉到足夠清晰且是正臉的表情素材,以應(yīng)用于更復(fù)雜的真實(shí)課堂環(huán)境中。

      猜你喜歡
      臉部神經(jīng)網(wǎng)絡(luò)特征
      如何表達(dá)“特征”
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      不忠誠的四個(gè)特征
      抓住特征巧觀察
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      3D打印技術(shù)助英男子重獲完整臉部
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      “臉部塑形”的彩妝魔術(shù)
      禹州市| 武宁县| 尤溪县| 任丘市| 西藏| 兰州市| 兴安县| 宾川县| 宁城县| 汝城县| 高陵县| 石城县| 瓮安县| 聂拉木县| 宁都县| 吕梁市| 南郑县| 沾益县| 临澧县| 沂水县| 铁力市| 长海县| 永安市| 楚雄市| 商南县| 罗山县| 富裕县| 集安市| 辽阳县| 磐石市| 积石山| 穆棱市| 天峨县| 阜阳市| 灯塔市| 上虞市| 盘山县| 吉水县| 安国市| 永宁县| 竹溪县|