田元 周曉蕾 周冪 陳迪
摘? ?要:文章從學(xué)習(xí)情感數(shù)據(jù)庫、單模態(tài)學(xué)習(xí)情感分析方法和多模態(tài)學(xué)習(xí)情感分析方法三個(gè)方面進(jìn)行綜述,以期讓廣大研究者對學(xué)習(xí)情感分析有一個(gè)較為清晰全面的了解和認(rèn)識,進(jìn)一步推動學(xué)習(xí)情感分析研究的發(fā)展。研究結(jié)果表明:現(xiàn)有的情感數(shù)據(jù)庫中的情感標(biāo)簽不完全符合學(xué)習(xí)過程中的情感狀態(tài),而專門針對學(xué)習(xí)情感分析的數(shù)據(jù)庫資源相比之下較為匱乏;雖然多模態(tài)數(shù)據(jù)在情感識別中更可靠,但存在大規(guī)模數(shù)據(jù)的維數(shù)災(zāi)難、不同模態(tài)間的不同步、算法的實(shí)時(shí)性等亟待解決的問題;目前關(guān)于學(xué)習(xí)情感分析的系統(tǒng)及其理論研究相對比較匱乏。
關(guān)鍵詞:學(xué)習(xí)情感數(shù)據(jù)庫;單模態(tài)學(xué)習(xí)情感分析;多模態(tài)學(xué)習(xí)情感分析
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-8454(2021)22-0001-06
一、引言
隨著互聯(lián)網(wǎng)技術(shù)和移動計(jì)算技術(shù)的快速發(fā)展,以多媒體學(xué)習(xí)資源、網(wǎng)絡(luò)技術(shù)平臺以及網(wǎng)上學(xué)習(xí)社區(qū)所形成的在線學(xué)習(xí)、移動學(xué)習(xí)等,成為未來不可缺少的學(xué)習(xí)方式。這些方式相較于傳統(tǒng)面對面的課堂教學(xué),雖不再受時(shí)間、地點(diǎn)、空間的限制,卻阻礙了師生直接的情感交流,教師無法實(shí)時(shí)感知學(xué)生的學(xué)習(xí)情感狀態(tài),及時(shí)給予反饋,同時(shí)在人機(jī)交互中難以自適應(yīng)地對學(xué)習(xí)活動進(jìn)行調(diào)整和優(yōu)化。學(xué)習(xí)過程中情感的缺失會影響學(xué)習(xí)效果和教學(xué)質(zhì)量,并且不利于學(xué)習(xí)者的心理健康以及健全人格的形成。學(xué)習(xí)情感的計(jì)算和識別是解決以上問題的關(guān)鍵,也是提供智能的學(xué)習(xí)支持服務(wù),從而構(gòu)建個(gè)性化、自動化、過程化的智慧學(xué)習(xí)環(huán)境的重要一環(huán)。
近年來,研究者結(jié)合情感理論、學(xué)習(xí)理論及情感計(jì)算研究,對情感、學(xué)習(xí)及技術(shù)三個(gè)領(lǐng)域的前沿內(nèi)容進(jìn)行了整合研究,其最新的論述中強(qiáng)調(diào)將情感、認(rèn)知和動機(jī)應(yīng)用到教育和學(xué)習(xí)環(huán)境中,建立對情感敏感的智能教學(xué)系統(tǒng)是以上領(lǐng)域融合的研究焦點(diǎn)。實(shí)現(xiàn)學(xué)習(xí)情感的精準(zhǔn)描述將進(jìn)一步優(yōu)化數(shù)字化教育功能,加速學(xué)習(xí)方式的變革和發(fā)展。同時(shí),研究者對網(wǎng)絡(luò)遠(yuǎn)程教育、現(xiàn)代信息化課堂、移動學(xué)習(xí)等數(shù)字化學(xué)習(xí)環(huán)境下學(xué)習(xí)者所呈現(xiàn)的情感、興趣及行為給予了越來越多的關(guān)注和研究。
學(xué)習(xí)情感分析領(lǐng)域涉及的方法手段多樣,相關(guān)研究包括:面部表情識別、語音情感識別、文本情感分析、生理信號分析等。鑒于目前國內(nèi)外對學(xué)習(xí)情感分析的綜述性文獻(xiàn)較少,本文在大量相關(guān)文獻(xiàn)研究的基礎(chǔ)上,對支撐學(xué)習(xí)情感研究的主要技術(shù)方法及具體算法進(jìn)行了分類和討論,對學(xué)習(xí)情感分析領(lǐng)域工作的進(jìn)展與難題進(jìn)行了總結(jié),以期讓廣大研究者對該領(lǐng)域有一個(gè)較為清晰全面的了解和認(rèn)識,進(jìn)一步推動學(xué)習(xí)情感分析研究的進(jìn)展。
二、學(xué)習(xí)情感數(shù)據(jù)庫
著名的國際心理學(xué)家Ekman提出,人的基本情感可以分為喜悅、悲傷、害怕、憤怒、驚訝和厭惡這六種,以此為基礎(chǔ)可混合衍生出豐富多樣的情感類型,并根據(jù)臉部肌肉運(yùn)動單元與不同表情的對應(yīng)關(guān)系,創(chuàng)建了面部動作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)來實(shí)現(xiàn)自動面部圖像分析及人類表情的分類,以上六種情感類型的劃分奠定了離散型情感表示模型的基礎(chǔ)。
隨著情感分類理論和情感狀態(tài)表示模型以及情感計(jì)算方法的不斷成熟,不同需求和規(guī)模的情感數(shù)據(jù)庫相繼被建成或完善。學(xué)習(xí)情感是在特定場所下發(fā)生,與一般情感存在一定差異且以面部表情體現(xiàn)為主。學(xué)習(xí)者在學(xué)習(xí)過程中較難產(chǎn)生憤怒、恐懼、悲傷等情感,除非觀看補(bǔ)充學(xué)習(xí)的相關(guān)視頻材料,而感興趣、困惑等情感在學(xué)習(xí)過程中十分常見。因此部分學(xué)者針對學(xué)習(xí)的特殊性,建立了學(xué)習(xí)情感數(shù)據(jù)庫。
北京師范大學(xué)建立的學(xué)習(xí)情感數(shù)據(jù)庫(Beijing Normal University Learning Affect Database,BNU LAD)[1],其中包括了144位被試學(xué)習(xí)者的數(shù)據(jù),實(shí)現(xiàn)了包括愉快、好奇、困惑、厭煩、專注、走神及疲憊這七種主要學(xué)習(xí)情感的多標(biāo)簽、多強(qiáng)度標(biāo)注。
Ramón等[2]采集了25名實(shí)驗(yàn)對象的人臉圖像和腦電信號數(shù)據(jù),實(shí)驗(yàn)對象包括年齡在18—47歲區(qū)間的18名男性,7名女性,均為大學(xué)生。實(shí)驗(yàn)將學(xué)生分為AB兩組。A組由18名學(xué)生組成,他們執(zhí)行與Java語言編程相關(guān)的活動,目的是誘導(dǎo)學(xué)生表現(xiàn)出不同的以學(xué)習(xí)為中心的情緒,如興趣、參與、興奮和專注。B組由7名學(xué)生組成,觀看不同主題的視頻(如野生動物、自然、短片),引導(dǎo)學(xué)生表現(xiàn)無聊、放松等情感。
中國海洋大學(xué)創(chuàng)建的在線自發(fā)學(xué)習(xí)情感數(shù)據(jù)庫(Online Learning Spontaneous Facial Expression Database,OL-SFED)[3],被采集對象為82名年齡在17到26歲的學(xué)生,通過觀看不同類型的視頻,觸發(fā)被采集對象愉悅、困惑、疲勞、分心以及中性這五種有意義的學(xué)習(xí)情感并加以標(biāo)記收集。
山東師范大學(xué)的孔璽自主建設(shè)的學(xué)習(xí)者人臉表情數(shù)據(jù)庫[4],通過大量文獻(xiàn)閱讀,將學(xué)習(xí)表情分為常態(tài)、高興、憤怒、悲傷、恐懼、專注、走神這七種,并以山東某高校數(shù)字媒體專業(yè)70人作為實(shí)驗(yàn)對象,讓實(shí)驗(yàn)對象觀看不同類型的數(shù)字學(xué)習(xí)畫面,完成在智慧學(xué)習(xí)環(huán)境下基于面部表情的人為學(xué)習(xí)情感數(shù)據(jù)的構(gòu)建。
學(xué)習(xí)情感是學(xué)習(xí)者在學(xué)習(xí)活動過程中所產(chǎn)生的與學(xué)業(yè)相關(guān)的特定情感的集合, 目前數(shù)據(jù)量較為充分的學(xué)習(xí)情感庫較少,情感數(shù)據(jù)庫的建設(shè)需要遵循真實(shí)性、交互性、連續(xù)性、豐富性四個(gè)原則。
三、單模態(tài)學(xué)習(xí)情感分析方法
在學(xué)習(xí)活動中,學(xué)習(xí)者的情感發(fā)生變化時(shí)很大程度上會通過外部行為(如面部表情、聲音、肢體動作以及文本信息)和生理信號(如腦電波、皮膚電導(dǎo))等表現(xiàn)出來,這些主觀的反應(yīng)更加能感知學(xué)習(xí)者真實(shí)的情感變化。根據(jù)情感表達(dá)形式的不同以及數(shù)據(jù)采集和處理方式的不同,本文將單模態(tài)的學(xué)習(xí)情感分析方法歸納為以下四種:基于面部表情識別的方法、基于語音情感識別的方法、基于文本情感識別的方法和基于生理信號分析的方法。
1.基于面部表情識別的學(xué)習(xí)情感分析方法
大量心理學(xué)文獻(xiàn)和著作都表明,面部能夠傳達(dá)豐富的情感信息,是最有效的表情器官,并將面部表情作為情感計(jì)算領(lǐng)域中最重要也是最客觀的指標(biāo)之一。面部表情識別的一般步驟包括:面部檢測與定位、圖像預(yù)處理、表情特征提取和表情分類識別。本文根據(jù)面部表情圖像狀態(tài)的不同,將面部表情的識別研究分為:基于靜態(tài)圖像的面部表情識別方法和基于動態(tài)圖像序列的面部表情識別方法。
基于靜態(tài)圖像的分析方法在面部表情識別研究中有著至關(guān)重要的作用。早期的研究都是針對靜態(tài)圖像進(jìn)行特征提取和分類識別,其呈現(xiàn)的是單幅圖像時(shí)刻的表情狀態(tài),能夠簡單直觀、快速地提取特征且具有很好的識別率,目前關(guān)于靜態(tài)圖像基本表情的識別技術(shù)已經(jīng)比較成熟并取得了廣泛的應(yīng)用。按照特征提取的方法進(jìn)行分類,主要有主成分分析法[5]、局部二值模式法[6]、Gabor小波法[7]。
隨著深度學(xué)習(xí)在圖像分類領(lǐng)域的發(fā)展,其在面部表情識別領(lǐng)域也越加成熟,其中以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)最具有代表性。高宇豆[8]在基本情感分析方法的基礎(chǔ)上,采用微調(diào)深度CNN的方法進(jìn)行基于圖像的學(xué)習(xí)情感分析,并進(jìn)一步分析基于視頻的學(xué)習(xí)情感。除此之外,還使用中文簡化版PAD(Pleasure-displeasure,Arousal-nonarousal,Dominance-submissiveness)情緒量表量化學(xué)習(xí)情感,建立學(xué)習(xí)情感與學(xué)習(xí)狀態(tài)相關(guān)性模型,從而更好地借助學(xué)習(xí)情感分析學(xué)習(xí)者的學(xué)習(xí)狀態(tài)。張璟[9]提出一種特征金字塔的多尺度特征融合的卷積神經(jīng)網(wǎng)絡(luò)人臉檢測算法,以解決后排學(xué)生人臉微小難以檢測的問題。鄧豪[10]搭建了基于表情識別的學(xué)習(xí)興趣檢測系統(tǒng),該系統(tǒng)能夠?qū)崿F(xiàn)圖像獲取、人臉檢測、學(xué)習(xí)表情識別分類、學(xué)習(xí)情感識別結(jié)果等功能,并采用小尺寸卷積核連續(xù)卷積層的方式以及在每個(gè)卷積層后添加批規(guī)范化層,以提高表情識別準(zhǔn)確率。
面部表情牽扯肌肉的運(yùn)動,產(chǎn)生了一個(gè)動態(tài)變化過程,動態(tài)序列中連續(xù)變更的圖像能夠更好地反應(yīng)表情變化的實(shí)質(zhì),其同時(shí)包含空間維度上和時(shí)間維度上的信息,具有很高的研究意義和廣泛的實(shí)用價(jià)值。近年來,基于動態(tài)序列圖像的動態(tài)面部表情識別成為新的研究熱點(diǎn),主要有光流法[11]、特征點(diǎn)跟蹤法[12]、模型法[13]、差分法[14]和深度學(xué)習(xí)法,其中深度學(xué)習(xí)方法是近年來比較流行的方法。
針對動態(tài)圖像序列的面部表情識別,需要提取單幀圖像的空域特征以及各圖像幀之間的時(shí)域特征。對于提取序列時(shí)域特征的代表性算法則是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。Zhang等[15]從表情圖像序列中選擇具有代表性幀圖像,融合利用CNN提取代表幀的空域特征,以及RNN提取所有表情序列幀的面部特征點(diǎn)的時(shí)域特征進(jìn)行面部表情識別。長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)因其具有保證在計(jì)算成本較低的前提下處理可變長的序列數(shù)據(jù),而被研究者廣泛使用。Donahue等[16]人提出了一個(gè)深度時(shí)空模型,該模型將CNN的輸出作為LSTM的輸入,LSTM的輸出作為最終網(wǎng)絡(luò)的輸出,從而完成一系列涉及時(shí)變輸入和輸出的視覺任務(wù)。
2.基于語音識別的學(xué)習(xí)情感分析方法
語音是語言的一種聲學(xué)表現(xiàn)形式,作為人類交流、傳遞信息的基礎(chǔ)媒介,其聲學(xué)特征包含了大量的說話人情感信息。在學(xué)習(xí)情感分析領(lǐng)域,學(xué)生說話時(shí)間少,因此語音情感識別通常作為一種輔助手段。
語音情感識別的一般步驟包括:信號預(yù)處理、情感特征提取、特征降維和情感分類。其中,信號預(yù)處理將采集的原始語音片段通過預(yù)加重、分幀加窗、降噪等操作轉(zhuǎn)化為計(jì)算機(jī)可識別的語音數(shù)據(jù);情感特征提取就是從語音數(shù)據(jù)中提取出呈現(xiàn)情感狀態(tài)和變化的聲學(xué)特征;然后對提取的特征降維,選擇出適用的特征,消除無關(guān)或冗余信息,減輕對分類器性能的要求;最后根據(jù)特征的表示設(shè)計(jì)分類器,給不同情感類型賦予類別標(biāo)記。情感特征提取是語音情感識別最為關(guān)鍵的一步,聲學(xué)特征的類型參數(shù)豐富多樣,如表1所示,大致可以分為韻律特征、基于譜的特征和聲音質(zhì)量特征三類作為分類器的輸入層。
聲音質(zhì)量特征:聲音質(zhì)量描述的是聲門激勵(lì)的性質(zhì),其聲學(xué)表現(xiàn)為“嘆息聲”“嘶啞聲”“顫抖哽咽”等。聲門脈沖的形狀決定了說話人的聲音質(zhì)量,人的情緒會影響音質(zhì),通過對音質(zhì)的評估,可以分析出說話人的相關(guān)的情感特征。體現(xiàn)聲音質(zhì)量的特征主要有共振峰頻率、幅度及帶寬、諧波噪聲比、聲門參數(shù)、短時(shí)抖動等。Gharsellaoui等[17]選取音質(zhì)和韻律參數(shù)與MFCC進(jìn)行優(yōu)化組合,基于此提出了一種新的聲學(xué)特征框架,情感識別準(zhǔn)確率高達(dá)94%。
與傳統(tǒng)特征相比,深度學(xué)習(xí)特征具有更多內(nèi)在信息,基于深度學(xué)習(xí)的語音情感識別具有更強(qiáng)泛化能力。Rajak等[18]討論了情感的不同維度,通過將特定的情感放在各自的象限,即二維的效價(jià)軸和喚醒軸中,使用兩種不同的CNN架構(gòu)來進(jìn)行象限的預(yù)測。該方法在RAVDESS語音情感數(shù)據(jù)庫上的準(zhǔn)確率達(dá)到76.2%,而使用普通的離散模型,其準(zhǔn)確率僅在50%~55%。Mekruksavanich等[19]使用四個(gè)開放的語音情感數(shù)據(jù)庫識別一種深度學(xué)習(xí)分類器,研究了人類語音數(shù)據(jù)中涉及負(fù)面情感分析的復(fù)雜任務(wù),利用泰國語語音數(shù)據(jù)庫對性能最好的分類器進(jìn)行了測試。實(shí)驗(yàn)表明,一維卷積神經(jīng)網(wǎng)絡(luò)在泰語負(fù)面情感識別分析任務(wù)中表現(xiàn)最為突出,準(zhǔn)確率達(dá)到96.60%。
3.基于文本信息分析的學(xué)習(xí)情感分析方法
自然語言是人類表達(dá)信息的主要途徑之一,隨著在線學(xué)習(xí)平臺的日漸興起,以自然語言表述的文本信息存在于教學(xué)活動的各個(gè)環(huán)節(jié)之中。目前,文本情感分析方法大致分為基于情感詞典與規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法。
基于情感詞典的方法首先利用情感詞典獲取文本中情感詞的情感值,再通過加權(quán)計(jì)算確定文本的情感傾向。該方法不考慮詞語間的聯(lián)系,因此也不會受到上下文的影響并且能夠在沒有訓(xùn)練數(shù)據(jù)的情況下進(jìn)行情感分析[20]。情感詞典是情感分析的基礎(chǔ)知識庫,為了提高分類準(zhǔn)確率,需要根據(jù)特定領(lǐng)域建立相應(yīng)的情感詞典。
與情感詞典的方法相比,機(jī)器學(xué)習(xí)方法相對來說更簡單,在特定場景下對情感分析更為精準(zhǔn)、擴(kuò)展性與可重復(fù)性更好,但機(jī)器學(xué)習(xí)的分類精確度依賴于高質(zhì)量的標(biāo)注訓(xùn)練集,而訓(xùn)練數(shù)據(jù)通過人為主觀標(biāo)注,會在一定程度上影響分類效果。
Moreno-Marcos等[21]針對MOOC平臺中某一課程論壇評論,對比了情感詞典方法和機(jī)器學(xué)習(xí)方法的學(xué)習(xí)情感分析效果。本研究中選取了兩種基礎(chǔ)詞典,分別是WordNet和SentiWordNet,均與表情符號和否定詞結(jié)合使用。兩種情感詞典方法盡管都是通過循環(huán)迭代文本信息中單詞的正負(fù)性計(jì)算與消息的極性相關(guān)的變量,且SentiWordNet算法更為復(fù)雜、適用范圍更廣,但在學(xué)習(xí)情感分析上效果更差。接著,Moreno-Marcos分析了邏輯回歸、SVM、決策樹、隨機(jī)森林和樸素貝葉斯等五種機(jī)器學(xué)習(xí)方法,并與情感詞典方法對比發(fā)現(xiàn),隨機(jī)森林和WordNet算法最為推薦。李慧[22]所構(gòu)建的情感詞典以“中文情感詞匯本體庫”為基礎(chǔ),由“HowNet詞典”“清華大學(xué)李軍中文褒貶義詞典”和“BosonNLP詞典”融合而成,然后從情感詞特征和句子構(gòu)成特征等多個(gè)維度進(jìn)行特征選擇,并使用SVM算法對學(xué)習(xí)情感進(jìn)行分類。
深度學(xué)習(xí)方法有著比情感詞典和機(jī)器學(xué)習(xí)更強(qiáng)的表達(dá)能力和模型泛化能力,但除了存在依賴大量數(shù)據(jù)的問題外,梯度消失與爆炸、參數(shù)的設(shè)置以及模型復(fù)雜度等問題同樣亟需解決。
Li等[23]對BERT模型進(jìn)行了改進(jìn),由于淺層的BERT可以提取更一般的信息,因此嘗試將淺層BERT詞向量與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,并在卷積操作后、池化操作前引入自注意力模塊,以此作為MOOC平臺的評論分類器。實(shí)驗(yàn)發(fā)現(xiàn):淺層BERT-CNN模型能夠在降低模型規(guī)模和減少性能損耗的基礎(chǔ)上,達(dá)到與基礎(chǔ)BERT 模型相同的分類效果。
4.基于生理信號的學(xué)習(xí)情感分析方法
人的情感主要受神經(jīng)系統(tǒng)控制,在以上三種情感分析方法中,被測試者可以通過個(gè)人主觀的意識支配大腦去掩飾或隱藏真實(shí)的情感,導(dǎo)致計(jì)算出的情感信息不夠準(zhǔn)確,而生理信號是由自主神經(jīng)和內(nèi)分泌系統(tǒng)所控制的,不受個(gè)體主觀控制,能夠較為客觀地反映被試者的情感,獲得的情感信息真實(shí)性更高且細(xì)微的情感變化也能表現(xiàn)出來。
用于情感識別的生理信號多樣,主要有腦電信號(EEG)、心電信號(ECG)、皮電信號(SC)、容量搏動(BVP)、肌電信號(EMG)、皮膚溫度(SKT)、光電脈搏(PPG)、呼吸信號(RSP)、血壓、心率等,常用的特征包含時(shí)域、頻域、時(shí)頻域和能量域。
Wang等[24]使用HeartMath研發(fā)的一款情緒狀態(tài)壓力檢測儀emWave系統(tǒng)評估各類多媒體課程對情緒學(xué)習(xí)和表現(xiàn)的影響,此系統(tǒng)主要用于檢測人類的神經(jīng)狀態(tài),它能夠感應(yīng)HRV(心率變異性)和情緒識別算法分析神經(jīng)狀態(tài)下的情緒狀態(tài),通過測量和記錄人類情緒變化,得出不同類型的多媒體材料對學(xué)生的學(xué)習(xí)表現(xiàn)和學(xué)習(xí)情緒有顯著影響,但學(xué)習(xí)情緒與學(xué)習(xí)績效之間的相關(guān)性較低的結(jié)論。Kuo等[25]使用皮電反應(yīng)(Galvanic skin response,GSR)和四象限螺旋學(xué)習(xí)模型對學(xué)習(xí)者在學(xué)習(xí)英語過程中產(chǎn)生的情感進(jìn)行識別,并設(shè)計(jì)一款學(xué)習(xí)系統(tǒng),該系統(tǒng)能夠根據(jù)學(xué)習(xí)者的情緒調(diào)整學(xué)習(xí)水平并給予適當(dāng)?shù)膸椭箤W(xué)習(xí)者有更好的學(xué)習(xí)表現(xiàn)。張樂凱[26]通過研究生理信號與用戶情感之間的內(nèi)在聯(lián)系,采集皮膚電、皮膚溫度、脈搏、呼吸、瞳孔直徑等生理信號進(jìn)行特征提取、選擇、降維,通過多種機(jī)器學(xué)習(xí)算法對建立的最優(yōu)特征集進(jìn)行識別,并成功應(yīng)用到產(chǎn)品設(shè)計(jì)和用戶體驗(yàn)中。
四、多模態(tài)學(xué)習(xí)情感分析方法
情感的產(chǎn)生或變化,往往同時(shí)伴隨著多個(gè)模態(tài)的反應(yīng),如高興時(shí)會面露笑容、音調(diào)高、語速快,還可能手舞足蹈、心率起伏較大?;趩文B(tài)的情感識別信息量不夠充分,且一旦受到外界的影響,如通過面部表情進(jìn)行情感識別時(shí)受到大面積的遮擋,其影響將可能是徹底的。而不同模態(tài)之間的情感信息相互支持補(bǔ)充,能夠有效提高情感識別率和魯棒性,進(jìn)一步擴(kuò)展應(yīng)用環(huán)境。D'mello等[27]對90個(gè)多模態(tài)情感識別系統(tǒng)進(jìn)行了定量評估和元分析,其分析結(jié)果顯示,多模態(tài)情感識別系統(tǒng)比對應(yīng)的單模態(tài)情感識別系統(tǒng)更為準(zhǔn)確,平均改進(jìn)率達(dá)9.83%,這更加肯定了多模態(tài)信息融合的有效性及其對于情感識別的重要現(xiàn)實(shí)意義。當(dāng)前研究熱點(diǎn)也正在從單模態(tài)轉(zhuǎn)向多模態(tài)。
前文提到的常用的單模態(tài)特征提取方法都可以作為多模態(tài)情感識別過程中提取特征的參考,而對于多模態(tài)情感識別,其關(guān)鍵在于多種信息的融合。當(dāng)前常見的融合方法可大致分為特征層融合、決策層融合和模型層融合三類。
D'mello的元數(shù)據(jù)分析中對這三類融合方法進(jìn)行了分類統(tǒng)計(jì),指出目前特征層融合和決策層融合的方法應(yīng)用更多。Yang等[28]通過攝像頭/視頻設(shè)備采集身體運(yùn)動的數(shù)據(jù)信息,通過錄音設(shè)備采集聲音信息,通過文本跟蹤采集文字信息,通過眼動儀采集眼動信息,通過可穿戴設(shè)備采集生理信號信息,對在線協(xié)同學(xué)習(xí)中情感交互進(jìn)行分析,提出了一種結(jié)合邏輯功能的多模態(tài)情感計(jì)算模型,并驗(yàn)證了原型系統(tǒng)的可行性和有效性。
薛耀鋒等[29]在已有情感交互研究的基礎(chǔ)上,提出了在線學(xué)習(xí)的多模態(tài)情感計(jì)算模型,該模型包括:在線學(xué)習(xí)者數(shù)據(jù)采集模塊、情感識別模塊、情感數(shù)據(jù)可視化模塊和輔助學(xué)習(xí)反饋/干預(yù)模塊。情感識別模塊中采用了多模態(tài)的情感分析方法,基于文本、語音及人臉表情情感識別結(jié)果,分析學(xué)習(xí)者學(xué)習(xí)情感。該模型能夠準(zhǔn)確有效地識別學(xué)習(xí)者情感,為學(xué)習(xí)者提供個(gè)性化學(xué)習(xí)服務(wù)。鄭茜元[30]針對傳統(tǒng)方法無法檢測到學(xué)習(xí)者正視屏幕且視線落點(diǎn)也在屏幕上時(shí)出現(xiàn)分心狀態(tài)的問題,提出了一種基于眼動分析的注意力檢測方法,結(jié)合面部表情識別,提高學(xué)習(xí)者學(xué)習(xí)狀態(tài)檢測準(zhǔn)確率。吳慧婷[31]利用人臉關(guān)鍵點(diǎn)定位、表情識別、人眼狀態(tài)識別和臉部姿態(tài)估計(jì)等算法,對采集的學(xué)生表情、眼睛睜閉合狀態(tài)、臉部朝向屏幕偏角進(jìn)行處理,并加入課后答題數(shù)據(jù)綜合分析,進(jìn)行學(xué)生在線學(xué)習(xí)投入度研究,幫助教師更有針對性地進(jìn)行網(wǎng)絡(luò)教學(xué)。目前,多模態(tài)學(xué)習(xí)情感分析方法文獻(xiàn)與單模態(tài)相比較為匱乏,以面部表情識別與語音情感分析的結(jié)合運(yùn)用最為常見。
五、存在的問題與展望
本文介紹了近年來國內(nèi)外學(xué)者在學(xué)習(xí)情感分析領(lǐng)域取得的研究成果及支撐情感識別的幾類技術(shù)手段,并具體分析了這些技術(shù)的研究進(jìn)展。盡管學(xué)習(xí)情感分析已得到一定程度的發(fā)展與應(yīng)用,但從研究現(xiàn)狀來看,還存在如下一些問題:
1.學(xué)習(xí)情感數(shù)據(jù)庫較匱乏
學(xué)習(xí)情感數(shù)據(jù)庫與一般的情感數(shù)據(jù)庫相比相對匱乏,雖然一般情感數(shù)據(jù)庫支撐著情感識別技術(shù)的研究,但與學(xué)習(xí)情感的研究不完全匹配,其中包含的情感標(biāo)簽不完全符合學(xué)習(xí)過程中的情感狀態(tài),如學(xué)習(xí)者常出現(xiàn)的困惑、感興趣等。學(xué)習(xí)情感數(shù)據(jù)庫的相對稀缺,導(dǎo)致學(xué)習(xí)情感識別的進(jìn)度受到一定影響,因此建立高質(zhì)量的學(xué)習(xí)情感數(shù)據(jù)庫刻不容緩。
在建設(shè)學(xué)習(xí)情感數(shù)據(jù)庫時(shí),需充分明確情感的類型及其特征描述、恰當(dāng)定義情感標(biāo)簽,從而跟一般的情感庫進(jìn)行區(qū)分。此外,模態(tài)的選取、數(shù)據(jù)采集場景的搭建、情感信息的采集及處理方式、情感誘導(dǎo)素材的設(shè)計(jì)以及被試對象的選擇,都是構(gòu)建符合學(xué)習(xí)者情感特點(diǎn)的數(shù)據(jù)庫的關(guān)鍵,也是學(xué)習(xí)情感識別系統(tǒng)的重要保證。
2.學(xué)習(xí)情感分析方法需改進(jìn)
單模態(tài)學(xué)習(xí)情感識別存在信息不夠全面、容易受噪聲、遮擋、異常信息干擾等問題,這導(dǎo)致了單模態(tài)的情感識別系統(tǒng)對于實(shí)際應(yīng)用的環(huán)境及場景要求很苛刻,難以保證情感識別的穩(wěn)定性。多模態(tài)學(xué)習(xí)情感識別利用多個(gè)信息源相互印證補(bǔ)充,有效保證了系統(tǒng)的魯棒性和精確性,但多模態(tài)情感識別也面臨著許多其它的挑戰(zhàn),如多個(gè)模態(tài)信息融合使得不同特征之間的相關(guān)性變得復(fù)雜,大規(guī)模數(shù)據(jù)可能引起維數(shù)災(zāi)難,以及不同模態(tài)之間時(shí)間不同步,融合算法的實(shí)時(shí)性受損等都是多模態(tài)情感識別亟待解決的問題。此外,不論是單模態(tài)識別還是多模態(tài)識別,在應(yīng)用到學(xué)習(xí)活動中時(shí),都需要結(jié)合實(shí)際的學(xué)習(xí)方式和場景,選擇適合的數(shù)據(jù)源和識別方法,以準(zhǔn)確、高效、穩(wěn)定地捕捉學(xué)習(xí)者的情感狀態(tài)和變化。
3.學(xué)習(xí)情感分析相關(guān)研究亟待完善
目前關(guān)于學(xué)習(xí)情感分析的系統(tǒng)及其理論研究相對比較匱乏,主要集中于以面部表情識別為主的單模態(tài)學(xué)習(xí)情感研究。在數(shù)字化教育迅速發(fā)展的時(shí)代,對于學(xué)習(xí)情感自動檢測和分析的研究是非常有意義的,設(shè)計(jì)符合學(xué)生心理和認(rèn)知的情感教學(xué)策略模型,通過學(xué)習(xí)情感的檢測識別,對學(xué)習(xí)者的學(xué)習(xí)情況進(jìn)行分析,進(jìn)一步給予學(xué)習(xí)反饋和干預(yù),實(shí)現(xiàn)個(gè)性化、智能化、全方位的學(xué)習(xí)服務(wù)是未來教育的新趨勢。
參考文獻(xiàn):
[1]劉永娜,孫波,陳玖冰,等. BNU學(xué)習(xí)情感數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代教育技術(shù),2015,25(10):99-105.
[2]Ramón Z C,Lucia B E M,Daniel L H,et al.Creation of a Facial Expression Corpus from EEG Signals for Learning Centered Emotions[C]∥2017 IEEE 17th International Conference on Advanced Learning Technologies (ICALT).Los Angeles:IEEE Computer Society,2017:387-390.
[3]Bian C L,Zhang Y,Yang F,et al.A Spontaneous Facial Expression Database for Academic Emotion Inference in Online Learning[J].IET Computer Vision,2018,13(3):329-337.
[4]孔璽.智慧學(xué)習(xí)環(huán)境下數(shù)字學(xué)習(xí)畫面的情感研究[D].濟(jì)南:山東師范大學(xué),2020.
[5]Jia J,Xu Y,Zhang S,et al.The facial expression recognition method of random forest based on improved PCA extracting feature[C]∥2016 IEEE International Conference on Signal Processing, Communications and Computing(ICSPCC).Los Angeles: IEEE Computer Society,2016:12-16.
[6]周宇旋,吳秦,梁久禎,等.判別性完全局部二值模式人臉表情識別[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(4): 163-169+194.
[7]Xu X,Quan C,Ren F.Facial expression recognition based on Gabor Wavelet transform and Histogram of Oriented Gradients[C]∥2015 IEEE International Conference on Mechatronics and Automation(ICMA).Los Angeles: IEEE Computer Society,2015:2117-2122.
[8]高宇豆.自然場景下的學(xué)習(xí)者表情識別與情感分析[D].北京:華北電力大學(xué),2019.
[9]張璟.基于表情識別的課堂專注度分析的研究[D].太原:山西大學(xué),2020.
[10]鄧豪.基于人臉表情的學(xué)習(xí)興趣評測方法研究[D].北京:北方工業(yè)大學(xué),2019.
[11]Liu M,Shan S,Wang R,et al.Learning expressionlets on spatio-temporal manifold for dynamic facial expression recognition[C]∥Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles: IEEE Computer Society,2014:1749-1756.
[12]Yao S,He N,Zhang H,et al.Micro-expression recognition by feature points tracking[C]∥Proceedings of the 10th International Conference on Communications.Los Angeles: IEEE Computer Society,2014:1-4.
[13]許良鳳,王家勇,崔婧楠,等.基于動態(tài)時(shí)間規(guī)整和主動外觀模型的動態(tài)表情識別[J].電子與信息學(xué)報(bào), 2018,40(2):338-345.
[14]黃秀,符冉迪,金煒,等.基于圖像差分與卷積深度置信網(wǎng)絡(luò)的表情識別[J].光電子·激光,2018,29(11):1228-1236.
[15]Zhang K,Huang Y,Du Y,et al.Facial Expression Recognition Based on Deep Evolutional Spatial -Temporal Networks[J].IEEE Transactions on Image Processing,2017,26(9):4193-4203.
[16]Donahue J,Hendricks L A,Guadarrama S,et al.Long-Term Recurrent Convolutional Networks for Visual Recognition and Description[J].IEEE transactions on pattern analysis and machine intelligence,2017,39(4):677-691.
[17]Gharsellaoui S,Selouani S A,Dahmane A O.Automatic emotion recognition using auditory and prosodic indicative features[C]∥Proceedings of the 28th Canadian conference on electrical and computer engineering.Los Angeles: IEEE Computer Society,2015:1265-1270.
[18]Rajak R,Mall R.Emotion recognition from audio, dimensional and discrete categorization using CNNs[C]∥TENCON 2019-2019 IEEE Region 10 Conference (TENCON).Los Angeles: IEEE Computer Society, 2019:301-305.
[19]Mekruksavanich S,Jitpattanakul A,Hnoohom N.Negative Emotion Recognition using Deep Learning for Thai Language[C]∥2020 Joint International Conference on Digital Arts, Media and Technology with ECTI Northern Section Conference on Electrical, Electronics, Computer and Telecommunications Engineering(ECTI DAMT & NCON).Los Angeles: IEEE Computer Society,2020:71-74.
[20]鐘佳娃,劉巍,王思麗,等.文本情感分析方法及應(yīng)用綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(6): 1-13.
[21]Moreno-Marcos P M,Alario-Hoyos C,Munoz-Merino P J,et al.Sentiment analysis in MOOCs: A case study[C]∥2018 IEEE Global Engineering Education Conference (EDUCON).Los Angeles:IEEE Computer Society,2018:1489-1496.
[22]李慧.面向?qū)W習(xí)體驗(yàn)文本的學(xué)習(xí)者情感分析模型研究[J].遠(yuǎn)程教育雜志,2021,39(1):94-103.
[23]Li X,Zhang H,Ouyang Y,et al.A Shallow BERT-CNN Model for Sentiment Analysis on MOOCs Comments[C]∥2019 IEEE International Conference on Engineering,Technology and Education(TALE).Los Angeles: IEEE Computer Society,2019:1-6.
[24]Wang H P, Chen C M.Assessing the effects of various multimedia curriculums to learning emotion and performance based on emotion recognition technology[C]∥2010 International Symposium on Computer, Communication, Control and Automation (3CA). Los Angeles: IEEE Computer Society,2010:365-368.
[25]Kuo Y C,Tseng C C.Recognizing the emotion of learners by physiological sensors to improve english learning performance[C]∥2011 4th International Conference on Biomedical Engineering and Informatics(BMEI). Los Angeles: IEEE Computer Society,2011:2152-2156.
[26]張樂凱.基于生理信號數(shù)據(jù)的產(chǎn)品設(shè)計(jì)與用戶體驗(yàn)研究[D].杭州:浙江大學(xué),2018.
[27]D'mello S K,Kory J.A review and meta-analysis of multimodal affect detection systems[J].ACM Computing Surveys, 2015,47(3):1-36.
[28]Yang J,Xue Y,Zeng Z,et al.Research on multimodal affective computing oriented to online collaborative learning[C]∥2019 IEEE 19th International Conference on Advanced Learning Technologies(ICALT).Los Angeles: IEEE Computer Society,2011:137-139.
[29]薛耀鋒,楊金朋,郭威,等.面向在線學(xué)習(xí)的多模態(tài)情感計(jì)算研究[J].中國電化教育,2018(2):46-50+83.
[30]鄭茜元.基于面部特征的學(xué)習(xí)狀態(tài)研究[D].長春:長春工業(yè)大學(xué),2020.
[31]吳慧婷.基于多維度信息融合的學(xué)生在線學(xué)習(xí)投入度研究[D].武漢:華中師范大學(xué),2020.
(編輯:李曉萍)