基于音視頻信息的深度多模態(tài)抑郁癥識(shí)別綜述

2023-07-21 08:05:22張石清張星楠趙小明

計(jì)算機(jī)技術(shù)與發(fā)展 2023年7期

張石清,張星楠,趙小明

(1.浙江理工大學(xué) 信息學(xué)院,浙江杭州 310023;2.臺(tái)州學(xué)院智能信息處理研究所,浙江臺(tái)州 318000)

0 引言

近年來(lái),抑郁癥對(duì)社會(huì)和個(gè)人的影響越來(lái)越深,它存在于各個(gè)年齡段。抑郁癥患者通常情緒低下并且寡言少語(yǔ),與人溝通較少,難以專(zhuān)注于工作,而這種行為對(duì)于醫(yī)生診斷抑郁癥也造成了一定的難度[1]。抑郁癥已經(jīng)在世界范圍內(nèi)被公認(rèn)為一種嚴(yán)重疾病,對(duì)醫(yī)療系統(tǒng)造成了很大的負(fù)擔(dān)[2]。雖然藥物治療和精神治療對(duì)于情緒改善具有一定的作用,但抑郁癥的診斷對(duì)治療至關(guān)重要。目前,抑郁癥的診斷方法主要依賴患者自我報(bào)告的診斷和癥狀嚴(yán)重程度的臨床判斷等主觀行為[3],受環(huán)境影響非常大。

面部非語(yǔ)言行為的動(dòng)態(tài)激活對(duì)于測(cè)量抑郁的嚴(yán)重程度至關(guān)重要[4-5]。針對(duì)面部活動(dòng)和表情[6-7]、頭部姿勢(shì)和運(yùn)動(dòng)[8-9],以及注視和眼睛活動(dòng)[10],研究者已經(jīng)提出了一些客觀性的自動(dòng)抑郁估計(jì)(Automatic Depression Estimation,ADE)技術(shù),用來(lái)對(duì)抑郁癥進(jìn)行估計(jì)和分類(lèi)。研究表明,抑郁癥患者在行為、語(yǔ)音、面部動(dòng)作等方面和正常人有所不同[11-12]。例如,Giannakakis等[13]研究了從眼睛活動(dòng)、口腔活動(dòng)和頭部運(yùn)動(dòng)中獲取面部信息,用來(lái)識(shí)別和分析患者的壓力和焦慮狀態(tài)?，F(xiàn)階段抑郁癥的診斷主要依靠經(jīng)過(guò)長(zhǎng)期訓(xùn)練的專(zhuān)業(yè)心理醫(yī)生,成本高且效率低,而且結(jié)果往往帶有主觀性。因此,迫切需要一個(gè)客觀的自動(dòng)抑郁檢測(cè)系統(tǒng),作為一個(gè)輔助手段來(lái)幫助醫(yī)生診斷抑郁癥。目前,面向機(jī)器學(xué)習(xí)的自動(dòng)抑郁檢測(cè)技術(shù)逐漸興起,備受關(guān)注。

早期面向機(jī)器學(xué)習(xí)的抑郁癥自動(dòng)檢測(cè)技術(shù)大多采用手工設(shè)計(jì)的音頻和視頻特征參數(shù)和經(jīng)典的機(jī)器學(xué)習(xí)方法。然而這些手工設(shè)計(jì)的特征參數(shù)可靠性不夠,導(dǎo)致抑郁癥自動(dòng)識(shí)別效果不是很理想,有待進(jìn)一步提高。近年來(lái),新發(fā)展起來(lái)的深度學(xué)習(xí)方法[14-16]為解決該問(wèn)題提供了線索。深度學(xué)習(xí)方法的本質(zhì)是通過(guò)多層的網(wǎng)絡(luò)結(jié)構(gòu)從輸入數(shù)據(jù)中自動(dòng)學(xué)習(xí)高層次的特征表示。鑒于所具有的強(qiáng)大特征學(xué)習(xí)能力,目前深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺(jué)[17-18]、語(yǔ)音信號(hào)處理[19-20]、自然語(yǔ)言處理[21]等領(lǐng)域取得了巨大的成功。

近年來(lái),深度學(xué)習(xí)方法也開(kāi)始被應(yīng)用于抑郁癥自動(dòng)識(shí)別領(lǐng)域,并取得了一些成果。為了總結(jié)近年來(lái)深度學(xué)習(xí)方法在抑郁癥自動(dòng)識(shí)別領(lǐng)域的研究現(xiàn)狀和進(jìn)展,擬在總結(jié)現(xiàn)有多模態(tài)抑郁識(shí)別數(shù)據(jù)集的基礎(chǔ)上,對(duì)面向音視頻信息的深度多模態(tài)抑郁癥識(shí)別研究進(jìn)展進(jìn)行系統(tǒng)性分析和歸納,并指出該領(lǐng)域未來(lái)的研究機(jī)遇與挑戰(zhàn)。

1 多模態(tài)抑郁識(shí)別數(shù)據(jù)集

目前,大多數(shù)抑郁癥識(shí)別最常用的公開(kāi)數(shù)據(jù)集是來(lái)源于Audio/Visual Emotion Challenge (AVEC)挑戰(zhàn)系列數(shù)據(jù)集。表1列出了一些常見(jiàn)的多模態(tài)抑郁識(shí)別數(shù)據(jù)集。目前,擁有完整面部元圖像的數(shù)據(jù)集主要有AVEC2013[22]和AVEC2014[23]。包含音頻的數(shù)據(jù)集主要有AVEC2013[22]、AVEC2014[23]、DAIC-WOZ[24]、DementiaBack[25]和FORBOW[26]。包含視頻圖像的數(shù)據(jù)集主要有AVEC2013[22]、AVEC2014[23]、DAIC-WOZ[24]、DementiaBack[25]和BlackDog[27]。包含文本的數(shù)據(jù)集主要有AVEC2016[28]、ACEV2017[29]、AVEC2019[30]、Crisis Text Line[31]和ReachOut Trigage Shared Task[32]。

表1 抑郁檢測(cè)數(shù)據(jù)集總結(jié)

AVEC2013[22]和AVEC2014[23]都采用了視聽(tīng)抑郁語(yǔ)言語(yǔ)料庫(kù)的子集。AVEC2013數(shù)據(jù)集包含了3個(gè)部分,分別是train、dev和test。其中每個(gè)部分包含了50個(gè)視頻,共150個(gè)視頻。AVEC2014子集中的錄音只包括原始錄音中14項(xiàng)任務(wù)中的兩項(xiàng)任務(wù):Northwind和Freeform。其中,Northwind表示參與者大聲朗讀德語(yǔ)寓言《風(fēng)與太陽(yáng)》的節(jié)選,而Freeform表示參與者使用德語(yǔ)回答了一些問(wèn)題,比如:“你最喜歡的菜是什么?”“你最好的禮物是什么,為什么呢?”等。AVEC2014數(shù)據(jù)集也包含了3個(gè)部分:train、dev和test,其中每個(gè)部分又包含了Northwind和Freeform兩個(gè)部分,共包含了300個(gè)視頻。

AVEC2016[28]、AVEC2017[29]和AVEC2019[30]包含了抑郁預(yù)測(cè)挑戰(zhàn),它們都采用了DAIC-WOZ(Distress Analysis Interview Corpus - Wizard of Oz)[24]的子集。與AVEC2013、AVEC2014不同的是,AVEC2016、AVEC2017和AVEC2019都沒(méi)有提供原始視頻,只提供了原始的音頻信號(hào)和提取的視頻特征。DAIC-WOZ數(shù)據(jù)集包含臨床訪談。該訪談?dòng)梢粋€(gè)叫Ellie的動(dòng)畫(huà)虛擬采訪者進(jìn)行,由另一個(gè)房間的采訪者控制。該訪談被設(shè)計(jì)用來(lái)支持診斷諸如焦慮、抑郁、創(chuàng)傷后精神識(shí)別等心理疾病狀態(tài)。DAIC-WOZ包括記錄了大量問(wèn)答的音頻和視頻數(shù)據(jù)。DAIC-WOZ標(biāo)簽則使用標(biāo)準(zhǔn)化的自我評(píng)估主觀抑郁問(wèn)卷PHQ-8進(jìn)行診斷,每個(gè)記錄都會(huì)被標(biāo)記一個(gè)單獨(dú)的值。

2 深度學(xué)習(xí)及抑郁檢測(cè)中的應(yīng)用

深度學(xué)習(xí)是一種純粹自動(dòng)從數(shù)據(jù)中學(xué)習(xí)特征的方法[34]。它以分層的層次網(wǎng)絡(luò)結(jié)構(gòu)直接從原始數(shù)據(jù)中學(xué)習(xí)出高層次的特征表示[35-39],現(xiàn)已在各種任務(wù)中表現(xiàn)出了優(yōu)越的性能。在多模態(tài)抑郁識(shí)別中,深度學(xué)習(xí)模型可以提取多模態(tài)抑郁數(shù)據(jù)集中的深度特征,經(jīng)過(guò)融合后預(yù)測(cè)抑郁水平。下面先介紹深度學(xué)習(xí)中經(jīng)典的模型結(jié)構(gòu)。

2.1 卷積神經(jīng)網(wǎng)絡(luò) (CNN)

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)啟發(fā)于動(dòng)物的視覺(jué)系統(tǒng)[40],最早由Fukushima[41]提出。CNN主要包括三部分:卷積層、池化層和全連接層。給定一個(gè)輸入圖片,經(jīng)過(guò)多層卷積,每一層都經(jīng)由一個(gè)激活函數(shù),由卷積核提取出圖片的高級(jí)特征。然后,經(jīng)過(guò)全連接層,將提取的高級(jí)特征映射到一個(gè)一維向量。目前,CNN在眾多領(lǐng)域都取得了良好的特征學(xué)習(xí)性能,如人臉識(shí)別[42-43]、計(jì)算機(jī)視覺(jué)[44]、語(yǔ)音信號(hào)處理[45]、自然語(yǔ)言處理[46]等。

CNN在圖像領(lǐng)域有著得天獨(dú)厚的優(yōu)勢(shì),由于擁有共享卷積核,可以處理高維數(shù)據(jù),自動(dòng)提取特征。但是CNN也存在諸多的缺陷,比如當(dāng)網(wǎng)絡(luò)層次太深時(shí),采用反向傳播修改參數(shù)會(huì)使靠近輸入層的參數(shù)變化較慢;采用梯度下降算法很容易使訓(xùn)練結(jié)果收斂于局部最小值而非全局最小值;池化層會(huì)丟失大量有價(jià)值信息,忽略局部與整體之間的關(guān)聯(lián)性;由于特征提取的封裝,為改進(jìn)性能增加了不確定性。

為了克服CNN當(dāng)前的不足和缺陷,許多新的CNN結(jié)構(gòu)被提出來(lái)。Szegedy等[47]提出了一種叫GoogleNet的CNN模型,提升了網(wǎng)絡(luò)深度,同時(shí)使用了稀疏連接的卷積,使得大量參數(shù)同時(shí)避免了過(guò)擬合。Krizhevsky等[48]提出了一種叫AlexNet的CNN模型。該網(wǎng)絡(luò)擁有大量的參數(shù)和神經(jīng)元,使用了非飽和神經(jīng)元和GPU運(yùn)算的卷積操作,并開(kāi)發(fā)了一種“Dropout”的正則方法用于降低過(guò)擬合。He等[49]提出了一個(gè)深度的殘差學(xué)習(xí)框架,名為深度殘差網(wǎng)絡(luò)(Residual Net,Resnet)。除此以外,其它代表性的CNN模型包括VGGNet[50]、DenseNet[51]、ShuffleNet[52]、MobileNet[53]、3D ResNet[54]、C3D[55]等。

2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)是一種具有前向傳播的定向循環(huán)網(wǎng)絡(luò)。每個(gè)輸出不僅和現(xiàn)在的輸入有關(guān),還和之前所有的輸入相關(guān)。雖然RNN可以有效處理時(shí)間序列數(shù)據(jù),并應(yīng)用于語(yǔ)音識(shí)別或者手寫(xiě)字識(shí)別任務(wù)[56],但是RNN也存在許多缺陷,比如在反向傳播的過(guò)程中,存在梯度消失的問(wèn)題[57]。此外,RNN訓(xùn)練比較困難,所以RNN只能處理短時(shí)的時(shí)間序列問(wèn)題。

為了解決傳統(tǒng)RNN存在的問(wèn)題,近年來(lái)研究者提出了更為先進(jìn)的結(jié)構(gòu),以便可以處理更長(zhǎng)的時(shí)間序列。Hochreiter等[16]提出了一種名為長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的模型。LSTM避免了RNN中存在的梯度消失問(wèn)題。Chao等[58]提出了門(mén)循環(huán)單元(Gated Recurrent Unit,GRU)。Zhang等[59]提出了雙向長(zhǎng)短期記憶(Bi-direction Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)。近年來(lái),LSTM改進(jìn)的模型還有Tree-LSTM[60]、Graph LSTM[61]、SENTENCE LSTM[62]、LSTM-CNN等。

2.3 基于深度學(xué)習(xí)的自動(dòng)抑郁檢測(cè)

目前,深度學(xué)習(xí)方法被大量應(yīng)用于抑郁癥識(shí)別領(lǐng)域。其中,CNN模型常用于視頻信號(hào)的抑郁檢測(cè),而RNN/LSTM等模型則用于音頻信號(hào)的抑郁檢測(cè)。Melo等[63]提出了一種基于最大差分(Maximization-Differentiation)的深度神經(jīng)網(wǎng)絡(luò)模型,用于視頻抑郁癥識(shí)別。Zhou等[64]提出了一種采用深度聯(lián)合標(biāo)簽分布(Deep Joint Label Distribution)與度量學(xué)習(xí)(Metric Learning)的面部抑郁識(shí)別方法。李金鳴等[65]提出一種基于深度學(xué)習(xí)的音頻抑郁癥識(shí)別方法。趙張等[66]提出一種融合注意力機(jī)制和雙向LSTM的音頻抑郁識(shí)別方法。

3 音視頻抑郁特征提取

3.1 手工音頻特征提取

早期面向音頻信號(hào)的抑郁癥識(shí)別采用的手工特征主要有響度、音高、共振峰、音質(zhì)特征、頻譜特征(Spectral Features)[67],以及Mel頻率倒譜系數(shù)(MFCC)等。

Otero等[68]提出一種基于音頻手工特征的抑郁預(yù)測(cè)模型。該方法提取音頻的手工特征,包括MFCC、頻譜變換-感知線性預(yù)測(cè)(RASTA-PLP)、能量(Energy)和譜特征。然后,將每個(gè)特征集的段向量進(jìn)行拼接,輸入到支持向量回歸(SVR)獲得抑郁預(yù)測(cè)結(jié)果。Cummins等[69]采用高斯混合模型(Gaussian Mixture Model,GMM)提取語(yǔ)音抑郁特征,然后使用支持向量機(jī)(SVM)進(jìn)行抑郁預(yù)測(cè)。Yalamanchili等[70]利用提取的低層次(Low-level Descriptor,LLD)聲學(xué)特征,如韻律特征、音質(zhì)特征、譜特征等,訓(xùn)練一個(gè)抑郁分類(lèi)模型,以便實(shí)現(xiàn)抑郁和非抑郁的二分類(lèi)任務(wù)。Simantiraki等[71]提取了聲源(Glottal Source)相關(guān)的相位失真方差(Phase Distortion Deviation,PDD)特征用于抑郁檢測(cè)。該特征通過(guò)相位成分估計(jì)聲源特征,而聲源特征和抑郁具有相關(guān)性。

手工音頻特征提取方法比較簡(jiǎn)單,而且也取得了較好的抑郁識(shí)別性能。但是手工提取的音頻特征是屬于低層次的,可靠性不夠,與高層次的抑郁音頻特征存在“語(yǔ)義鴻溝”問(wèn)題。

3.2 深度音頻特征提取

目前,各種代表性的深度學(xué)習(xí)方法,如DBN、CNN、RNN/LSTM等,被應(yīng)用于抑郁癥識(shí)別中的音頻特征提取任務(wù),即從原始的音頻信號(hào)中學(xué)習(xí)出高層次的音頻特征用于后續(xù)的抑郁癥識(shí)別。

Dong等[72]提出一種基于聲音和情緒線索的抑郁檢測(cè)層次模型。該模型利用預(yù)訓(xùn)練好的深度殘差網(wǎng)絡(luò)(Resnet)模型從原始音頻信號(hào)中提取說(shuō)話人識(shí)別特征,并從頻譜圖中提取語(yǔ)音情感識(shí)別特征。然后,為了充分利用說(shuō)話人的聲音和情感差異之間的互補(bǔ)信息,將這兩種深度語(yǔ)音特征結(jié)合起來(lái),輸入到一個(gè)由全連接層和模糊分類(lèi)器構(gòu)成的抑郁癥檢測(cè)層次化模型實(shí)現(xiàn)抑郁癥嚴(yán)重程度的預(yù)測(cè)。He等[73]提出一種基于CNN的面向音頻信號(hào)的抑郁識(shí)別方法。該方法首先采用CNN從原始音頻信號(hào)和低級(jí)描述符(Low-level Descriptors,LLD)特征中提取高層次特征;然后從音頻信號(hào)頻譜中提取一種魯棒性的中位值擴(kuò)展的局部二元模式特征(Median Robust Extended Local Binary Patterns,MRELBP);最后,將所有深度特征拼接后經(jīng)過(guò)全連接層得到抑郁預(yù)測(cè)結(jié)果。Ma等[74]提出一種名為DepAudioNet的音頻抑郁分類(lèi)方法。該方法將CNN和LSTM結(jié)合來(lái)編碼聲音通道中的抑郁特征用于抑郁識(shí)別。輸入的音頻信號(hào)經(jīng)過(guò)3個(gè)一維卷積運(yùn)算之后,采用LSTM進(jìn)一步提取128維的深度特征,然后經(jīng)過(guò)全連接層獲得最后的抑郁預(yù)測(cè)結(jié)果。Zhao等[75]提出一種層次化注意力轉(zhuǎn)移網(wǎng)絡(luò)用于音頻抑郁識(shí)別。該方法由四個(gè)部分組成:(1)一個(gè)由編碼解碼器構(gòu)成的教師(teacher)網(wǎng)絡(luò),用于訓(xùn)練語(yǔ)音識(shí)別以獲得最初的注意力圖(Attention Map);(2)一個(gè)較淺的學(xué)生(Student)網(wǎng)絡(luò)作為模型的主體結(jié)構(gòu),用于訓(xùn)練抑郁識(shí)別,模擬教師網(wǎng)絡(luò);(3)一個(gè)層次化注意力自動(dòng)編碼器,用于獲得豐富的特征表示,在此基礎(chǔ)上可以進(jìn)行監(jiān)督訓(xùn)練;(4)主體學(xué)生抑郁模型加上一個(gè)層次化注意力網(wǎng)絡(luò),獲得最終的抑郁識(shí)別結(jié)果。

綜上,相比于手工音頻特征提取方法(見(jiàn)表2),深度音頻特征提取方法可以通過(guò)搭建深度的神經(jīng)網(wǎng)絡(luò)模型來(lái)學(xué)習(xí)更高層次的抽象特征表示用于抑郁癥識(shí)別,但是由于深度神經(jīng)網(wǎng)絡(luò)模型采用黑盒子(Black-box)的特征提取操作,導(dǎo)致它們往往無(wú)法給出其解釋意義。

表2 音視頻抑郁特征提取方法的比較

3.3 手工視頻特征提取

一般的手工視頻特征提取方法有特征動(dòng)態(tài)歷史直方圖(Feature Dynamic History Histogram,FDHH)、運(yùn)動(dòng)歷史直方圖(Motion History Histogram,MHH)、三個(gè)正交平面的局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP-TOP)[85]、局部相位量化(Local Phase Quantization,LPQ)、時(shí)空興趣點(diǎn)(Space-Time Interest Points,STIP)[86]、局部二值模式(Local Binary Pattern,LBP)、局部三元模式(Local Ternary Pattern,LTP)[87]等。

Dhall等[78]提出一種用于抑郁分析的時(shí)間分段Fisher向量方法。該方法使用LBP-TOP方法提取視頻時(shí)空特征,然后計(jì)算出Fisher向量,輸入到支持向量回歸(SVR)獲得抑郁識(shí)別結(jié)果。該方法對(duì)統(tǒng)計(jì)聚合技術(shù)進(jìn)行了分析和比較,以便選取具有判別性的視頻特征表示。Jan等[76]從相應(yīng)的視頻和音頻信號(hào)中提取表示抑郁狀態(tài)下的面部和聲音特征。然后,基于運(yùn)動(dòng)歷史直方圖提出了動(dòng)態(tài)特征生成方法,用于提取視頻中的動(dòng)態(tài)特征。最后,利用偏最小二乘法(Partial Least Square,PLS)和回歸法進(jìn)行抑郁預(yù)測(cè),并采用決策融合獲得最終的抑郁檢測(cè)結(jié)果。Wen等[79]采用LBP-TOP方法提取面部區(qū)域子集中的時(shí)間信息及動(dòng)態(tài)特征描述符,然后利用稀疏編碼方法實(shí)現(xiàn)抑郁癥的預(yù)測(cè)。Kachele等[77]采用局部相位量化(Local Phase Quantization,LPQ)提取和抑郁相關(guān)的面部表達(dá)特征,然后結(jié)合支持向量機(jī)和多層感知器實(shí)現(xiàn)最終的抑郁癥預(yù)測(cè)。

綜上所述,手工視頻特征提取方法,可以提取低層次的視頻特征信息用于抑郁癥識(shí)別,操作比較簡(jiǎn)單。但是和手工音頻特征提取方法類(lèi)似,該方法可靠性不夠,提取的視頻特征參數(shù)同樣與高層次的抑郁視頻特征存在“語(yǔ)義鴻溝”問(wèn)題。

3.4 深度視頻特征提取

目前,一些典型的深度學(xué)習(xí)方法,如CNN、 C3D、LSTM等,被廣泛用于提取視頻圖像的深度特征,用于抑郁識(shí)別。

Zhu等[80]提出了一種基于雙流(two-stream)CNN的視頻抑郁預(yù)測(cè)方法。該方法使用一個(gè)帶有兩個(gè)全連接層的雙流CNN架構(gòu)來(lái)聯(lián)合學(xué)習(xí)視頻中面部外觀和動(dòng)態(tài)的抑郁特征,并設(shè)置了一個(gè)集成外觀和動(dòng)態(tài)信息的聯(lián)合調(diào)優(yōu)層。He等[82]提出了一種深度局部全局注意力卷積神經(jīng)網(wǎng)絡(luò)(Deep Local Global Attention Convolutional Neural Network,DLGA-CNN)的視頻抑郁識(shí)別方法。該方法采用基于局部注意力的CNN(Local Attention Based CNN,LA-CNN)關(guān)注局部面部抑郁特征,而使用基于全局注意力的CNN (Global Attention Based CNN,GA-CNN)從整個(gè)面部區(qū)域?qū)W習(xí)全局抑郁模式。Jazaery等[83]提出基于視頻的深度時(shí)空特征編碼的抑郁水平分析方法。該方法使用三維卷積神經(jīng)網(wǎng)絡(luò)(3D-CNN)學(xué)習(xí)兩個(gè)不同尺度的時(shí)空特征,然后利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)一步學(xué)習(xí)視頻的時(shí)空特征。Melo等[81]提出一種結(jié)合全局和局部的面部三維卷積抑郁檢測(cè)方法。該方法將三維全局平均池化集成到3DCNN中,分別處理全臉區(qū)域和眼睛區(qū)域的視頻片段,用于關(guān)注與分析抑郁高度相關(guān)的局部面部區(qū)域。周炫余等[84]提出了一種基于多模態(tài)數(shù)據(jù)融合計(jì)算的大學(xué)生心理健康自動(dòng)評(píng)估方法。該方法采用的多模態(tài)數(shù)據(jù)包含文本數(shù)據(jù)、圖像數(shù)據(jù)和學(xué)生特定時(shí)間段的網(wǎng)絡(luò)數(shù)據(jù)。其中,使用VGG16提取圖像數(shù)據(jù)的特征。

該方法在自構(gòu)建的多模態(tài)心理評(píng)估數(shù)據(jù)集(JA-IPAD)上的測(cè)試表明,該模型能夠精準(zhǔn)評(píng)估大學(xué)生的心理健康狀態(tài)。

綜上所述,相比于手工視頻特征提取方法(見(jiàn)表2),深度視頻特征提取方法不依賴于專(zhuān)業(yè)知識(shí)和繁瑣的步驟,具有自動(dòng)學(xué)習(xí)高層次的視頻特征能力,受到外界影響(如光照、姿態(tài)等等)小。利用深度學(xué)習(xí)網(wǎng)絡(luò),可以在具有一定時(shí)間長(zhǎng)度的視頻中,提取靜態(tài)和動(dòng)態(tài)特征,或者提取全局特征和局部特征,也可以利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同尺度的時(shí)空特征,往往取得比手工視頻特征更好的抑郁識(shí)別性能。

4 多模態(tài)信息融合策略

多模態(tài)信息融合方法一般可以分為三種:特征層融合(Feature-level Fusion)、決策層融合(Decision-level Fusion)和模型層融合(Model-level Fusion)。這些融合方法各有優(yōu)勢(shì)和各自的應(yīng)用場(chǎng)景。

4.1 特征層融合

特征層融合也叫早期融合(Early Fusion,EF)。在特征層融合中,將輸入的多個(gè)特征數(shù)據(jù)直接級(jí)聯(lián)得到一個(gè)總的特征向量,用于后續(xù)的分類(lèi)或回歸任務(wù)。在特征層融合中,用來(lái)融合的特征包括視覺(jué)特征、文本特征、音頻特征和運(yùn)動(dòng)特征等。但是,特征層融合容易導(dǎo)致級(jí)聯(lián)后的特征向量維度過(guò)高。

He等[88]提出一種視聽(tīng)多模態(tài)抑郁識(shí)別方法。對(duì)于音頻數(shù)據(jù),提取說(shuō)話速率以及低水平描述符(LLD)特征;對(duì)于視頻數(shù)據(jù),提取LGBP-TOP、頭部姿勢(shì)、STIP以及Divergence-Curl-Shear (DCS)描述符特征。在特征層融合中,對(duì)于每個(gè)視頻序列,通過(guò)主成分分析(PCA)處理后的音頻和視覺(jué)特征被連接到一個(gè)高維特征向量中,輸入到SVR進(jìn)行抑郁預(yù)測(cè)。Joshi等[89]提出一種包括視聽(tīng)融合的多模態(tài)抑郁癥診斷方法。該方法使用BoA(Bag Of Audio)框架獲得音頻特征;視頻特征則使用BoV(Bag Of Video)框架,計(jì)算LBP-TOP和STIP。在特征融合方法中,為了避免拼接特征導(dǎo)致的數(shù)據(jù)過(guò)大,對(duì)組合特征進(jìn)行主成分分析(PCA),然后使用SVM進(jìn)行分類(lèi)。Cummins等[90]提出一種融合聽(tīng)視覺(jué)的多模態(tài)抑郁識(shí)別方法。該方法將GMM-UBM范式和包含一階二階的MFCC結(jié)合起來(lái),用于提取音頻特征;采用時(shí)空趣點(diǎn)(Space-Temporal Interesting Point,STIP)和定向梯度的金字塔直方圖(Pyramid Histogram of Oriented Gradients,PHOG)來(lái)提取視頻特征。該方法分別測(cè)試了單音頻、單視頻和音視頻融合的抑郁評(píng)估結(jié)果。在多模態(tài)信息融合中,采用特征融合方法實(shí)現(xiàn)?？紤]各特征間時(shí)間維度的不相關(guān)性,對(duì)上述特征進(jìn)行長(zhǎng)度方向的拼接融合,最后使用SVR進(jìn)行抑郁評(píng)估。

4.2 決策層融合

決策層也叫晚期融合(Late Fusion,LF)。在每個(gè)模態(tài)獲得各自的決策結(jié)果之后,再將這些決策結(jié)果按照某種代數(shù)運(yùn)算規(guī)則,比如最小值、最大值、平均值等,進(jìn)行組合,得到最終的結(jié)果。但是,這種基于規(guī)則的決策層融合方法將不同模態(tài)獨(dú)立開(kāi)來(lái),因而可能無(wú)法揭示不同模態(tài)之間的關(guān)系。

Meng等[91]提出一種融合音頻和視頻的抑郁識(shí)別方法。對(duì)于視頻數(shù)據(jù),該方法先采用運(yùn)動(dòng)歷史直方圖提取動(dòng)態(tài)特征,然后提取LBP和邊緣定向直方圖(Edge Orientation Histogram,EOH)特征,并將LBP和EOH特征在特征層上直接拼接輸入到偏最小二乘(Partial Least Square,PLS)進(jìn)行抑郁預(yù)測(cè),得到視頻抑郁檢測(cè)結(jié)果;對(duì)于音頻數(shù)據(jù),先提取低水平描述符(LLD),然后使用MHH提取音頻動(dòng)態(tài)特征,并采用PLS得到音頻預(yù)測(cè)結(jié)果。最后,使用線性聯(lián)合先驗(yàn)(Linear Opinion Pool,LOP)方法對(duì)結(jié)果做決策融合,并得到最終的抑郁檢測(cè)結(jié)果。Yang等[92]提出一種集成深度和淺層模型混合架構(gòu)的多模態(tài)抑郁分析方法。對(duì)于音視頻數(shù)據(jù),該方法首先采用CNN模型分別對(duì)音頻和視頻進(jìn)行訓(xùn)練,之后凍結(jié)CNN的權(quán)重值并丟棄其最后一個(gè)全連接層參數(shù),同時(shí)接入一個(gè)新的六層DNN,獲得音視頻的抑郁預(yù)測(cè)結(jié)果。對(duì)于文本數(shù)據(jù),提取5個(gè)段落矢量(Paragraph Vector,PV)描述符輸入到SVM獲得文本的抑郁識(shí)別結(jié)果。最后,建立一個(gè)抑郁分類(lèi)的隨機(jī)森林(Random Forest,RF)模型,對(duì)上述獲得的音視頻結(jié)果和文本結(jié)果做決策融合獲得最終的抑郁檢測(cè)結(jié)果。Yang等[93]提出一種基于決策樹(shù)的融合音視頻和語(yǔ)言信息的抑郁分類(lèi)方法。該決策樹(shù)將語(yǔ)言信息與低層次音視頻特征取得的結(jié)果進(jìn)行決策融合。音頻特征采用了共振峰、韻律和音質(zhì)特征;視頻特征使用了HOG、眼睛注視特征和頭部姿態(tài)特征的直方圖。該方法針對(duì)男女性別分開(kāi)訓(xùn)練,使用SVR及LLR進(jìn)行測(cè)試,獲得PHQ值。

4.3 模型層融合

模型層融合方法是對(duì)每個(gè)模態(tài)分別進(jìn)行建模,并同時(shí)考慮模態(tài)之間的相互關(guān)聯(lián)性。目前,采用神經(jīng)網(wǎng)絡(luò)的模型層融合方法被廣泛應(yīng)用于抑郁癥識(shí)別。

Lin等[95]提出一種基于BiLSTM和CNN的自動(dòng)抑郁檢測(cè)方法。該方法由三個(gè)部分組成:第一部分為帶注意力層的BiLSTM用來(lái)學(xué)習(xí)訪談序列的語(yǔ)言特征;第二部分為一維CNN學(xué)習(xí)語(yǔ)音信號(hào)Mel頻譜特征;第三部分由一個(gè)全連接層將前兩個(gè)模型的輸出進(jìn)行融合,獲得最終的抑郁檢測(cè)結(jié)果。Ray等[94]提出了一種基于多層次注意力的融合文本、音頻和視頻的多模態(tài)抑郁癥預(yù)測(cè)方法。該方法對(duì)輸入特征采用一種多層次注意力操作,以便讓更有影響力的特征獲得更大的權(quán)重。對(duì)于視頻數(shù)據(jù),該方法提取姿勢(shì)、凝視和面部動(dòng)作單元 (Facial Action Unit,FAU)特征,輸入到BiLSTM進(jìn)行時(shí)間動(dòng)態(tài)建模獲得視頻特征;對(duì)于音頻數(shù)據(jù),提取包含MFCC的LLD特征輸入到BiLSTM進(jìn)行時(shí)間動(dòng)態(tài)建模獲得音頻特征;對(duì)于文本數(shù)據(jù),采用預(yù)訓(xùn)練好的通用句子編碼器(Universal Sentence Encoder)[97]提取文本特征,輸入到BiLSTM進(jìn)行上下文建模獲得文本特征。最后,將上述得到的視頻、音頻和文本特征通過(guò)多層注意力網(wǎng)絡(luò)進(jìn)行融合獲得最終的抑郁預(yù)測(cè)結(jié)果。Zhang等[96]提出一種基于多模態(tài)深度去噪自編碼器(Multimodal Deep Denoising Autoencoder,MultiDDAE)的抑郁癥識(shí)別方法。該方法采用多模態(tài)深度去噪自動(dòng)編碼器提取視聽(tīng)特征,然后使用Fisher向量編碼產(chǎn)生會(huì)話級(jí)(Session-level)特征表示。對(duì)于文本數(shù)據(jù),使用段落矢量(Paragraph Vector,PV)方法提取文本特征。最后,將視聽(tīng)特征與文本特征進(jìn)行串聯(lián),然后輸入到一個(gè)多任務(wù)的深度神經(jīng)網(wǎng)絡(luò)上進(jìn)行融合,輸出最終的抑郁癥識(shí)別結(jié)果。

綜上所述,現(xiàn)有的多模態(tài)信息融合方法主要包括特征層融合、決策層融合和模型層融合(見(jiàn)表3)。其中,特征層融合方法最簡(jiǎn)單,但是容易導(dǎo)致級(jí)聯(lián)后的特征向量維度過(guò)高而出現(xiàn)“維度災(zāi)難”問(wèn)題。決策層融合方法采用某種代數(shù)運(yùn)算規(guī)則對(duì)不同模態(tài)取得的結(jié)果進(jìn)行組合,從而獲得最終的結(jié)果。然而,這種基于代數(shù)運(yùn)算規(guī)則的決策層融合方法是將不同模態(tài)相互獨(dú)立出來(lái),沒(méi)有考慮不同模態(tài)之間的相互關(guān)聯(lián)性。模型層融合方法是一種同時(shí)考慮模態(tài)之間的相互關(guān)聯(lián)性的方法,通常能夠獲取比特征層融合方法、決策層融合方法更好的性能。目前,采用注意力機(jī)制[94,97]在模型層上實(shí)現(xiàn)多模態(tài)信息的交互融合,已經(jīng)成為當(dāng)前一種主流的模型層融合方法。但是,模型層融合方法的計(jì)算復(fù)雜度一般比較高。因此,如何設(shè)計(jì)計(jì)算復(fù)雜度低而性能又好的模型層融合方法,是未來(lái)一個(gè)重要研究方向。

表3 多模態(tài)抑郁癥識(shí)別中的融合方法比較

5 挑戰(zhàn)和機(jī)遇

5.1 數(shù)據(jù)集問(wèn)題

第一,醫(yī)院需要保護(hù)患者診斷數(shù)據(jù)的隱私,使得不同的醫(yī)療機(jī)構(gòu)無(wú)法收集和共享數(shù)據(jù),這極大地影響了模型的準(zhǔn)確性[98]。由于單一醫(yī)療機(jī)構(gòu)無(wú)法收集到足夠的高質(zhì)量數(shù)據(jù),該模型的預(yù)測(cè)能力無(wú)法達(dá)到臨床輔助的作用。其次,雖然有許多隱私保護(hù)機(jī)器學(xué)習(xí)算法,但很難獲得良好的訓(xùn)練效果。

第二,由于各醫(yī)療機(jī)構(gòu)之間的巨大差距,它們所擁有的患者數(shù)據(jù)差異很大。為了處理各種情況,算法和模型需要具有較高的泛化能力,而在沒(méi)有數(shù)據(jù)交換情況下,模型很難獲得足夠的準(zhǔn)確性和特異性。

第三,缺乏足夠的標(biāo)簽數(shù)據(jù)已經(jīng)嚴(yán)重阻礙深度學(xué)習(xí)等技術(shù)在自動(dòng)抑郁識(shí)別中的應(yīng)用。雖然,深度學(xué)習(xí)在算法和模型上有了很大的進(jìn)步,但在自動(dòng)抑郁識(shí)別上還是受限于標(biāo)簽數(shù)據(jù)的缺乏。如果擁有更大的標(biāo)簽數(shù)據(jù)集,并且數(shù)據(jù)分布平衡,會(huì)對(duì)基于深度學(xué)習(xí)的自動(dòng)抑郁識(shí)別領(lǐng)域產(chǎn)生積極的影響[12]。

第四,現(xiàn)有數(shù)據(jù)集的模態(tài)選擇還不夠豐富,缺乏諸如和抑郁癥相關(guān)的腦電圖[99-100]、人格特性和情緒的數(shù)據(jù)信息,這些特征可能和抑郁癥有直接的關(guān)聯(lián),并且可以作為多模態(tài)抑郁檢測(cè)模型的輸入,提高模型的準(zhǔn)確性。

5.2 集成更多模態(tài)問(wèn)題

第一,目前,多模態(tài)抑郁癥識(shí)別主流的方法是采用音視頻信息為主,而忽視了將音視頻信息與其它模態(tài)信息,如網(wǎng)絡(luò)社交信息文本、腦電信號(hào)等相融合,以便進(jìn)一步改善多模態(tài)抑郁癥識(shí)別性能。采用網(wǎng)絡(luò)社交的文本信息進(jìn)行抑郁分析,近年來(lái)獲得越來(lái)越多的關(guān)注。該數(shù)據(jù)可以從網(wǎng)絡(luò)大量獲得,并且從社交文本中可提取和抑郁癥相關(guān)的顯著特征。腦電信息則是和抑郁癥高度相關(guān)的特征,抑郁癥的腦電信息是一種非常有效的用于抑郁檢測(cè)的生理特征。因此,在采用的音視頻信息基礎(chǔ)上,集成網(wǎng)絡(luò)社交信息文本、腦電信號(hào)等其它模態(tài)信息用于多模態(tài)抑郁癥識(shí)別將是一個(gè)非常有意義的研究課題。

第二,現(xiàn)有文獻(xiàn)大多只關(guān)注音頻和視頻的副語(yǔ)言信息,如說(shuō)話率、面部動(dòng)作單位(AUs),而不是關(guān)注口語(yǔ)內(nèi)容中的語(yǔ)言信息[92]。然而,后者可以直接反映個(gè)人的睡眠狀態(tài)、情緒狀態(tài)、感覺(jué)和其他精神分析癥狀。

5.3 深度學(xué)習(xí)技術(shù)自身缺陷問(wèn)題

第一,傳統(tǒng)的RNN結(jié)構(gòu),包括LSTM、BiLSTM和GRU,可以有效處理短期時(shí)間序列。然而,它們并不能有效地處理長(zhǎng)期序列。隨著序列長(zhǎng)度的增加,由于這些RNN結(jié)構(gòu)模型自身存在的遺忘問(wèn)題,導(dǎo)致它們的性能會(huì)迅速下降。由于抑郁癥的復(fù)雜性,抑郁癥的檢測(cè)過(guò)程往往需要進(jìn)行更長(zhǎng)時(shí)間的診斷才有效。因此,對(duì)于抑郁癥的檢測(cè),如何更加有效地處理長(zhǎng)序列的視聽(tīng)數(shù)據(jù),將是一個(gè)極具挑戰(zhàn)的問(wèn)題。

第二,抑郁癥的癥狀與情感、個(gè)性等其他心理學(xué)因素密切相關(guān)。因此,采用多任務(wù)學(xué)習(xí)(Multi-task Learning)方法,結(jié)合情感、個(gè)性等因素開(kāi)展自動(dòng)抑郁檢測(cè)是一個(gè)非常有意義的研究課題。此外,當(dāng)前的數(shù)據(jù)集數(shù)據(jù)量很少,多任務(wù)學(xué)習(xí)也可以在數(shù)據(jù)稀疏時(shí)防止過(guò)擬合。由于有不同的任務(wù)參與訓(xùn)練,可以增強(qiáng)模型的泛化性。

第三,目前,大部分抑郁癥識(shí)別采用的是監(jiān)督學(xué)習(xí)方法,而對(duì)于自監(jiān)督方法的報(bào)道甚少。自監(jiān)督學(xué)習(xí)可以通過(guò)數(shù)據(jù)本身創(chuàng)建一個(gè)類(lèi)似于標(biāo)簽的向量,使得大量的無(wú)標(biāo)簽數(shù)據(jù)可以利用。對(duì)于擁有較少標(biāo)簽數(shù)據(jù)量的自動(dòng)抑郁識(shí)別來(lái)說(shuō),自監(jiān)督學(xué)習(xí)的探索是一個(gè)很好的方向。

6 結(jié)束語(yǔ)

該文系統(tǒng)性總結(jié)了深度學(xué)習(xí)在面向音視頻信息的多模態(tài)抑郁癥識(shí)別中的應(yīng)用現(xiàn)狀及研究進(jìn)展。首先,回顧了深度學(xué)習(xí)技術(shù)的發(fā)展歷史,并介紹了基本的深度學(xué)習(xí)模型原理。在音視頻特征提取的部分,總結(jié)和歸納了手工音頻特征、深度音頻特征、手工視頻特征和深度視頻特征的提取方法,并對(duì)各種特征提取技術(shù)進(jìn)行了比較。對(duì)于面向音視頻信息的多模態(tài)信息融合方法,重點(diǎn)分析了特征層融合、決策層融合和模型層融合等方法的應(yīng)用。最后,指出了當(dāng)前的自動(dòng)抑郁檢測(cè)中存在的問(wèn)題和未來(lái)的發(fā)展方向。