杜銘浩,劉 爽,劉瀟雅,張文荃,明 東,2
1(天津大學(xué) 醫(yī)學(xué)工程與轉(zhuǎn)化醫(yī)學(xué)研究院,天津 300072) 2(天津大學(xué) 精密儀器與光電子工程學(xué)院生物醫(yī)學(xué)工程與科學(xué)儀器系,天津 300072)
抑郁癥是最常見的精神心境障礙,屬神經(jīng)官能病癥之一.根據(jù)國(guó)際疾病分類(ICD-10)[1],抑郁癥患者多表現(xiàn)出精神不濟(jì)、情緒低落、興趣和愉悅感減退、進(jìn)而產(chǎn)生自殺觀念與行為等極端癥狀.目前,抑郁癥已是全球疾病負(fù)擔(dān)的重大因素之一.據(jù)世界衛(wèi)生組織統(tǒng)計(jì)[2],截至2017年全球抑郁癥患者已多達(dá)3.22億人,占世界人口的4.4%;預(yù)計(jì)到2030年,抑郁癥將超過(guò)心血管疾病而上升為第一致殘誘因.同時(shí),據(jù)中國(guó)精神衛(wèi)生調(diào)查顯示[3],我國(guó)抑郁癥患者數(shù)量已超過(guò)9500萬(wàn),其終身患病率達(dá)6.9%.顯見,抑郁癥已經(jīng)造成了嚴(yán)重的社會(huì)健康問(wèn)題.然而在高患病、高增長(zhǎng)率背景下,我國(guó)的抑郁癥診斷能力并不樂(lè)觀.一方面,目前我國(guó)精神科醫(yī)師僅4萬(wàn)余人,醫(yī)生病患比例不足已成為精神衛(wèi)生健康工作面臨的一大難題.另一方面,抑郁癥病因尚未明確、缺乏客觀診斷生理指標(biāo),目前臨床應(yīng)用中對(duì)抑郁癥的診斷多以主觀量表為主,其測(cè)試結(jié)果的準(zhǔn)確性依賴于醫(yī)生的熟練性以及患者的配合度,故其誤診率目前居高不下[4,5].因此需要尋找客觀的參數(shù)指標(biāo),以幫助提升抑郁癥診斷的準(zhǔn)確率.
近些年來(lái)已有大量研究嘗試?yán)蒙硇盘?hào)、面部視覺特征、生化指標(biāo)等尋求抑郁癥的客觀診斷指標(biāo).其中,生理信號(hào)主要有心率[6,7]、腦電[8,9]、腦磁[10]等,具有客觀、不易偽裝的優(yōu)點(diǎn);但心率和腦電等測(cè)量設(shè)備穿戴過(guò)程頗為復(fù)雜,信息采集過(guò)程還需被試高度配合,增加了臨床檢測(cè)實(shí)施難度.隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,基于面部視覺特征的抑郁癥診斷方法逐漸興起.該方法通過(guò)分析患者面部展現(xiàn)的抑郁相關(guān)信息對(duì)其抑郁程度進(jìn)行客觀評(píng)估,并可以進(jìn)一步總結(jié)抑郁癥患者的行為特點(diǎn)以指導(dǎo)醫(yī)生的臨床診斷.而且該方法的采集設(shè)備僅需要攝像頭,成本較低便于普及推廣;尤其信息采集過(guò)程中被試無(wú)需接觸設(shè)備,可使之始終保持無(wú)需防范的自然心態(tài),易于展現(xiàn)真實(shí)的精神心境數(shù)據(jù),這對(duì)于興趣或愉悅感減退的患者十分友好,具有較高研究?jī)r(jià)值和發(fā)展空間.
早在20世紀(jì)中期,Ekman[11]發(fā)現(xiàn)不同地區(qū)居民的面部表情具有共性情感特點(diǎn),指出了表情在情感表達(dá)中的通用性.1997年,麻省理工學(xué)院媒體實(shí)驗(yàn)室首次提出情感計(jì)算概念,從靜態(tài)或動(dòng)態(tài)的表情自動(dòng)識(shí)別情緒變化[12].2013年,視聽情感挑戰(zhàn)賽(Audio/Visual Emotion Challenge,AVEC)將情感計(jì)算與精神疾病的診斷結(jié)合,推出了抑郁識(shí)別亞挑戰(zhàn)賽,主要內(nèi)容是通過(guò)被試訪談時(shí)的面部表情和音頻數(shù)據(jù)自動(dòng)診斷抑郁癥,吸引了世界各地多支隊(duì)伍參加,極大推動(dòng)了該領(lǐng)域的快速發(fā)展.近些年來(lái),基于面部視覺特征的抑郁癥診斷技術(shù)憑借其便捷的優(yōu)勢(shì)受到廣泛關(guān)注,同時(shí)特征提取和模式識(shí)別技術(shù)的不斷發(fā)展也使其具有巨大的發(fā)展?jié)摿?本文將從抑郁癥患者的面部行為特點(diǎn)入手,綜述常用的情緒誘發(fā)實(shí)驗(yàn)范式、面部視覺特征公開數(shù)據(jù)庫(kù)及基于面部視覺特征的抑郁癥診斷的最新研究成果,最后討論其存在問(wèn)題與發(fā)展動(dòng)向.
抑郁癥患者有廣泛的潛在特征,包括情緒低落、認(rèn)知能力障礙以及強(qiáng)烈的負(fù)性認(rèn)知.針對(duì)其面部特征而言,早期已有文獻(xiàn)證明,抑郁癥患者的表情變化與其精神狀態(tài)有一定關(guān)聯(lián),并且患者的面部有陰沉、凄涼、木訥和郁悶,眼神躲閃的特點(diǎn)[13].由此,相關(guān)研究通過(guò)肌電、特征點(diǎn)、神經(jīng)網(wǎng)絡(luò)和眼動(dòng)等技術(shù)探究抑郁癥患者異于常人的面部特點(diǎn).
早在1976年,Schwartz等[14]從肌電的角度分析了抑郁癥患者和健康人在想象任務(wù)時(shí)的面部肌肉強(qiáng)度變化,結(jié)果表明,抑郁癥患者的皺眉肌、眼輪匝肌、額肌、下唇降肌的強(qiáng)度存在顯著性差異,從這些肌肉的位置(如圖1所示)可以看出,差異集中于眼睛和嘴部區(qū)域.但是肌電采集過(guò)程或?qū)Ρ辉囋斐筛蓴_,Wei等[15]和Scherer等[16]通過(guò)分析患者和正常人的訪談視頻從而避免了接觸干擾,其通過(guò)提取面部特征點(diǎn)之間距離的變化以表示表情變化的幅度,結(jié)果發(fā)現(xiàn)抑郁癥患者嘴角、臉頰和眼睛特征點(diǎn)間的變化幅度與持續(xù)時(shí)間顯著降低,說(shuō)明患者表情相比于正常人變化遲緩,且持續(xù)時(shí)間短.由于提取面部特征點(diǎn)的過(guò)程會(huì)丟棄其他位置信息,Zhou等[17]從面部整體的角度進(jìn)行分析,利用神經(jīng)網(wǎng)絡(luò)中全局平均池化層保留空間信息的優(yōu)勢(shì),提出了DepressNet架構(gòu)并在186名被試訪談視頻上進(jìn)行自適應(yīng)訓(xùn)練,將結(jié)果可視化后發(fā)現(xiàn)眼睛區(qū)域?qū)︻A(yù)測(cè)結(jié)果的影響較大,進(jìn)而得出眼睛區(qū)域包含著大量與抑郁相關(guān)信息的結(jié)論,這與之前研究的結(jié)論相一致.
圖1 呈現(xiàn)特殊行為表現(xiàn)的抑郁癥患者面部肌肉Fig.1 Facial muscles of depression patients with special behavior
目前研究認(rèn)為抑郁癥患者會(huì)呈現(xiàn)出特殊的面部行為特點(diǎn),并且眼睛區(qū)域的差異性較為突出.針對(duì)于患者眼睛區(qū)域,Stolicyn等[18]和Shen等[19]指出眼部的微妙變化可直觀反映個(gè)人情緒狀態(tài),可作為診斷疾病或檢測(cè)治療效果的生理學(xué)指標(biāo).抑郁癥患者思維遲緩以及具有負(fù)性認(rèn)知偏向的特點(diǎn)在瞳孔反應(yīng)和眼瞼活動(dòng)中同樣有所體現(xiàn).Siegle等[20]對(duì)比了24名抑郁癥患者和24名健康人在情緒處理任務(wù)時(shí)的瞳孔反應(yīng),發(fā)現(xiàn)抑郁癥患者瞳孔擴(kuò)張更滯后并且持續(xù)時(shí)間更持久.Stolicyn等[18]和Li等[21]分別對(duì)比了抑郁癥患者和健康人在觀看情感圖片以及情感詞匯時(shí)的眼球運(yùn)動(dòng)數(shù)據(jù),發(fā)現(xiàn)抑郁癥患者面對(duì)負(fù)性刺激時(shí)雙眼注視次數(shù)和注視時(shí)間都有增加,而正性刺激時(shí)并沒有顯著變化.另外,眨眼頻率與抑郁程度也有潛在關(guān)聯(lián).Mackintosh等[22]對(duì)23名在治療過(guò)程中的抑郁癥患者做了縱向追蹤實(shí)驗(yàn),發(fā)現(xiàn)抑郁癥患者的眨眼頻率相比于正常人較高,且在病情好轉(zhuǎn)過(guò)程中逐漸恢復(fù)正常.
由此可見,抑郁癥患者情緒低落、思維遲緩的特點(diǎn)在面部的肌肉運(yùn)動(dòng)和眼球運(yùn)動(dòng)方面有所體現(xiàn),表現(xiàn)出較健康人負(fù)性反映強(qiáng)烈、變化遲緩等特點(diǎn),這論證了基于面部視覺特征的抑郁癥診斷方法的可行性.
抑郁癥患者面部數(shù)據(jù)的質(zhì)量直接決定了由其訓(xùn)練得到的診斷模型性能的好壞.但文獻(xiàn)[23]指出,抑郁癥患者在自然狀態(tài)下與正常人的面部差異并不顯著,且采集過(guò)程中的情緒波動(dòng)會(huì)增加面部特征的辨識(shí)難度,從而影響數(shù)據(jù)質(zhì)量.針對(duì)這一問(wèn)題,目前研究通過(guò)情緒誘導(dǎo)實(shí)驗(yàn)范式將患者和正常人誘發(fā)至特定的情緒狀態(tài),采集相同情緒狀態(tài)下二者的面部表情數(shù)據(jù),以此建立抑郁癥面部特征數(shù)據(jù)庫(kù).
根據(jù)刺激方式不同,常用的誘發(fā)范式可分為誘導(dǎo)和訪談兩種.
誘導(dǎo)法:通過(guò)圖片、短文、單詞等方式誘發(fā)被試的情緒.已有研究指出,抑郁癥患者具有負(fù)性情緒反饋增強(qiáng)、正性情緒反饋減弱的典型癥狀[15,24].因而患者在面對(duì)不同情緒刺激時(shí),容易呈現(xiàn)出與健康人不同的表情特征.由此,胡斌[25]設(shè)計(jì)了圖片誘導(dǎo)方式,從中國(guó)面孔表情系統(tǒng)中選擇3種帶有正、負(fù)和中性的圖片讓被試在限定時(shí)間內(nèi)進(jìn)行描述,同時(shí)記錄被試的面部變化.圖片誘導(dǎo)與心理學(xué)中的主題統(tǒng)覺測(cè)驗(yàn)過(guò)程相似,而后者更具有規(guī)范性和系統(tǒng)性,Valstar等[26]選取了主題統(tǒng)覺測(cè)驗(yàn)中的部分環(huán)節(jié)作為誘導(dǎo)材料,激發(fā)效果明顯.此外,短文和單詞也常作為誘導(dǎo)材料以朗讀的方式激發(fā)被試的情緒[26-28].常用于朗讀的材料來(lái)源有寓言《北風(fēng)和太陽(yáng)》、情感本體語(yǔ)料庫(kù)和漢語(yǔ)情感詞極值表等.Simantiraki等[29]認(rèn)為被試在朗讀過(guò)程中可以更好理解短文或詞語(yǔ)的含義,從而提高誘發(fā)水平.同時(shí),劉振宇[30]認(rèn)為朗讀固定的文本可以減少其他混淆因素,進(jìn)而提高分析結(jié)果的可信度.此外,認(rèn)知測(cè)試[18]、發(fā)元音[26,31]、排序[32]、計(jì)數(shù)[26,33]、問(wèn)題解決任務(wù)[34]等多種誘導(dǎo)方式也被用于誘發(fā)患者情緒.抑郁癥患者在這些任務(wù)中會(huì)反應(yīng)出特殊的認(rèn)知能力和心理活動(dòng),進(jìn)而產(chǎn)生差異性特征.需要注意的是,誘導(dǎo)法具有流程簡(jiǎn)單、耗時(shí)短的優(yōu)勢(shì),但只能反應(yīng)短時(shí)間內(nèi)被試的情緒變化,而患者的抑郁癥狀通常是動(dòng)態(tài)、持續(xù)性變化的,從文獻(xiàn)[15]和文獻(xiàn)[35]的比較結(jié)果可以看出,當(dāng)誘導(dǎo)材料之間的關(guān)聯(lián)性較小或任務(wù)量少時(shí),誘導(dǎo)效果并不明顯.并且刺激過(guò)程會(huì)增加患者的壓力和焦慮,應(yīng)慎重選擇刺激材料.
訪談法:通過(guò)模仿臨床交談的過(guò)程以檢測(cè)被試的社交能力和認(rèn)知水平.Girard等[36]指出,抑郁癥患者普遍存在社交功能障礙,在交談過(guò)程中會(huì)呈現(xiàn)出眼神回避、焦慮不適等特征,由此可以捕獲患者特殊的面部行為模式.通常交談話題由普通平穩(wěn)過(guò)渡到更為私密的內(nèi)容,由精神科醫(yī)師、虛擬人物或者幻燈片來(lái)呈現(xiàn).Pampouchidou等[37]通過(guò)與專業(yè)醫(yī)師視頻連線的方式對(duì)被試進(jìn)行訪談(如圖2(a)所示),醫(yī)師會(huì)根據(jù)被試的反應(yīng)對(duì)問(wèn)題做出調(diào)整,并引導(dǎo)被試在話題間放松從而避免情緒干擾.Dibeklioglu等[38]采用面對(duì)面交談的形式對(duì)被試進(jìn)行了漢密頓抑郁量表評(píng)測(cè).漢密頓量表是臨床上評(píng)定抑郁狀態(tài)時(shí)最常用的量表,包括是否存在有罪感、自殺想法、體重減輕等心理和生理指標(biāo),患者的回答以及行為表現(xiàn)可以有效反應(yīng)其抑郁嚴(yán)重程度.王剛[39]直接記錄了門診醫(yī)生的問(wèn)診過(guò)程,交談內(nèi)容包括最近身體狀況是否良好、讓患者述說(shuō)自己最近碰到的比較煩心事情等.通過(guò)精神科醫(yī)師進(jìn)行訪談的形式可以根據(jù)被試的回答或行為表現(xiàn)及時(shí)做出反饋,增強(qiáng)被試的互動(dòng)感從而更好誘發(fā)情緒,但訪談的內(nèi)容和時(shí)長(zhǎng)會(huì)因人而異,增加了后續(xù)數(shù)據(jù)分析的難度.相比之下,通過(guò)虛擬人物或幻燈片按照固定次序呈現(xiàn)問(wèn)題的方式更具有標(biāo)準(zhǔn)性.Scherer等[40]和Ringeval等[41]都設(shè)計(jì)了虛擬人物對(duì)被試進(jìn)行訪談,訪談場(chǎng)景如圖2(b)所示,虛擬人物Ellie用提前錄制好的問(wèn)題音頻與被試交談,并對(duì)被試的回答做出點(diǎn)頭、拍手等肢體回應(yīng).Cai等[27]利用幻燈片將問(wèn)題呈現(xiàn)給被試,并要求被試在規(guī)定時(shí)間內(nèi)做答.目前,訪談過(guò)程是否需要專業(yè)醫(yī)師的引導(dǎo)仍存有爭(zhēng)議.Fridlund等[42]研究發(fā)現(xiàn)觀眾在場(chǎng)時(shí),抑郁癥患者的非言語(yǔ)信號(hào)會(huì)增強(qiáng).而Scherer等[43]認(rèn)為虛擬人物可減少監(jiān)視帶來(lái)的恐懼和壓力,降低被試的心理負(fù)擔(dān),從而增強(qiáng)被試的交流意愿.因此訪談法的問(wèn)題呈現(xiàn)方式還有待進(jìn)一步討論.
圖2 訪談形式 Fig.2 Forms of interview
誘導(dǎo)法具有快速誘發(fā)、效果直接的優(yōu)勢(shì),訪談法具有由淺入深、結(jié)構(gòu)性強(qiáng)的特點(diǎn).由于抑郁癥患者的生活經(jīng)歷存在差異,刺激效果不盡相同,因此采集過(guò)程可以將兩種方法相互結(jié)合,優(yōu)勢(shì)互補(bǔ).
表1展示了目前國(guó)內(nèi)外相關(guān)研究常使用的抑郁癥視覺特征數(shù)據(jù)庫(kù),并對(duì)其招募的被試人數(shù)、采集到的樣本數(shù)量、誘發(fā)范式、展現(xiàn)方式、量化標(biāo)準(zhǔn)及其可用性做了說(shuō)明.其中AVEC2013[26]、AVEC2014[44]、DAIC-WOZ[40]、E-DAIC[41]數(shù)據(jù)庫(kù)分別是第3屆、第4屆、第6屆、第9屆視聽情感挑戰(zhàn)賽提供的數(shù)據(jù)庫(kù).Pittsburgh數(shù)據(jù)庫(kù)[38]是匹茲堡大學(xué)記錄了57名確診抑郁癥患者在治療期間進(jìn)行漢密頓量表測(cè)評(píng)過(guò)程的訪談視頻.MODMA數(shù)據(jù)庫(kù)[27]是蘭州大學(xué)記錄了23名門診患者和29名健康人在完成特定任務(wù)時(shí)的視頻和音頻.鑒于被試的個(gè)人隱私,AVEC2013和AVEC2014是目前唯一提供原始視頻文件的數(shù)據(jù)庫(kù).DAIC-WOZ和E-DAIC提供原始音頻文件及其視頻處理后的特征文件.MODMA數(shù)據(jù)庫(kù)僅提供原始音頻文件.獲取以上數(shù)據(jù)庫(kù)都需要簽署最終用戶許可協(xié)議(EULA).
表1 抑郁癥視覺特征數(shù)據(jù)庫(kù)Table 1 Visual characteristics database of depression
提取并量化抑郁相關(guān)的面部視覺特征是建立模型的關(guān)鍵,目前研究運(yùn)用計(jì)算機(jī)圖像處理、機(jī)器學(xué)習(xí)等技術(shù)手段分析面部數(shù)據(jù),提出了適用于不同區(qū)域的特征量化和建模方法.以下分別從目前關(guān)注度最高以及識(shí)別效果最好的眼睛區(qū)域和面部整體區(qū)域,評(píng)述抑郁癥自動(dòng)診斷研究的現(xiàn)狀和取得成果.
正如前文所說(shuō),抑郁癥患者面對(duì)刺激時(shí)會(huì)呈現(xiàn)出異常的注視方向、眼瞼活動(dòng).由此,一些研究提出多種方法提取注視角度、眨眼頻率,瞳孔運(yùn)動(dòng)等眼動(dòng)特征,并建立分類或回歸模型進(jìn)行抑郁癥的自動(dòng)診斷.
眼部區(qū)域常用的特征提取方法是利用主動(dòng)外觀模型(Active Appearance Model,AAM)、ZFace工具包、MultiSense集成系統(tǒng)等工具分析視頻數(shù)據(jù),或是通過(guò)眼動(dòng)儀設(shè)備直接進(jìn)行采集.其中,AAM可以通過(guò)訓(xùn)練自動(dòng)獲取感興趣的眼睛區(qū)域特征點(diǎn)的位置信息,并通過(guò)分析特征點(diǎn)坐標(biāo)的變化提取出眨眼頻率、注視角度等行為信息,以此進(jìn)行抑郁診斷.AAM因其保留了運(yùn)動(dòng)的細(xì)節(jié)信息,可以反映出被試面部細(xì)微的變化,在抑郁識(shí)別上取得良好效果,受到廣泛關(guān)注.Alghowinem等[19]利用AAM對(duì)60名被試(抑郁癥患者和健康人各30名)的訪談視頻進(jìn)行分析,提取眼睛、眉毛和虹膜中心在內(nèi)74個(gè)特征點(diǎn)的坐標(biāo),分布如圖3所示,再計(jì)算坐標(biāo)點(diǎn)之間的位移變化從而提取睜閉眼時(shí)間、注視方向和眨眼頻率特征,并通過(guò)高斯混合模型和支持向量機(jī)分類器進(jìn)行二分類,達(dá)到了70%的抑郁識(shí)別率.Wang等[35]同樣利用AAM提取到訪談中眼睛區(qū)域特征點(diǎn)的時(shí)間序列,并根據(jù)坐標(biāo)點(diǎn)之間的位移變化提取到瞳孔、眼角和眉毛運(yùn)動(dòng)的特征用于抑郁識(shí)別,結(jié)合其他模態(tài)識(shí)別率達(dá)到78%.AAM模型在訓(xùn)練前需要進(jìn)行標(biāo)注,而標(biāo)注的質(zhì)量會(huì)影響到識(shí)別精度,Al-Gawwam等[45]使用ZFace工具無(wú)需訓(xùn)練、直接獲取特征點(diǎn)的位置坐標(biāo),其通過(guò)計(jì)算眼瞼之間的位移變化提取眨眼頻率特征并進(jìn)行二分類,在AVEC數(shù)據(jù)集上的識(shí)別率達(dá)到88%.此外,有研究利用集成系統(tǒng)直接獲取眼動(dòng)特征.Lucas等[46]利用MultiSense系統(tǒng)從訪談視頻數(shù)據(jù)中提取患者的注視方向,并以此得到眼睛交流次數(shù)的特征,通過(guò)分析其與抑郁程度之間的相關(guān)性得出眼睛交流次數(shù)是抑郁癥診斷的潛在指標(biāo).Pan等[47]利用眼動(dòng)儀提取被試在圖片刺激下的注視次數(shù)、持續(xù)時(shí)間和掃描路徑等特征,并通過(guò)支持向量機(jī)分類達(dá)到86%的識(shí)別率.
圖3 眼睛區(qū)域特征點(diǎn)Fig.3 Eye region feature points
從目前研究結(jié)果可以看出,眼睛區(qū)域憑借其范圍較小、可借助鼻梁、額頭等參照物快速定位以及不宜偽裝的優(yōu)勢(shì),在抑郁癥自動(dòng)診斷中展現(xiàn)出較高的精確度.但受樣本量的限制,各診斷模型的泛化能力以及其性能還有待進(jìn)一步優(yōu)化.
抑郁癥的特征并不局限于眼睛區(qū)域,一些研究利用人臉識(shí)別、目標(biāo)檢測(cè)和追蹤的技術(shù)手段分析臉部區(qū)域,同樣取得優(yōu)異識(shí)別效果.所用的特征提取方法大致可以分為動(dòng)作單元法、特征點(diǎn)標(biāo)記法和面部整體法.
動(dòng)作單元法是使用心理學(xué)家Ekman[48]提出的面部行為編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)對(duì)46個(gè)獨(dú)立的面部動(dòng)作單元(Action Unit,AU)在強(qiáng)度和持續(xù)時(shí)間上量化,將面部表情編碼成特定單元的組合.Stratou等[49]和Girard等[50]分析了被試的訪談視頻,找到了抑郁癥患者獨(dú)特的AU特征,并發(fā)現(xiàn)AU特征的強(qiáng)度與被試的抑郁嚴(yán)重程度呈正相關(guān),證實(shí)了動(dòng)作單元法在抑郁癥檢測(cè)方面的意義.由此,徐璐[51]分析了患者與正常人在訪談過(guò)程中AU的出現(xiàn)頻次、變化速率、強(qiáng)度等特征,發(fā)現(xiàn)二者存在明顯差異,并以此通過(guò)支持向量機(jī)進(jìn)行分類,抑郁識(shí)別率男性達(dá)到73.48%、女性達(dá)到68.43%.同樣,Nasser等[52]提取了訪談視頻中的18個(gè)面部AUs,通過(guò)分析發(fā)現(xiàn)只有6個(gè)特征(AU 4,5,6,7,10,12)與抑郁相關(guān),在此基礎(chǔ)上利用KNN和LDA分類器進(jìn)行分類,識(shí)別率達(dá)到85%.AU特征不僅可以建立二分類模型,Williamson等[53]利用AU特征建立了抑郁程度評(píng)估的回歸模型,其在AVEC數(shù)據(jù)庫(kù)上提取視頻中AU的時(shí)間序列,并通過(guò)高斯混合模型和極限學(xué)習(xí)機(jī)分類器識(shí)別,最終其均方根誤差為8.12、平均絕對(duì)誤差為6.31(標(biāo)簽為0-63的貝克抑郁量表評(píng)分).動(dòng)作單元法憑借其可解釋性在抑郁診斷或者程度評(píng)估上應(yīng)用廣泛,但需要注意的是,動(dòng)作單元本質(zhì)上是由面部肌肉運(yùn)動(dòng)產(chǎn)生,因而一些不與情緒相關(guān)的肌肉運(yùn)動(dòng)(如咀嚼、擠眼睛等)會(huì)對(duì)模型帶來(lái)不必要的干擾.
圖4 面部區(qū)域特征點(diǎn)Fig.4 Facial feature points
特征點(diǎn)標(biāo)記法是通過(guò)提取面部固定位置點(diǎn)的坐標(biāo),從而得到包含距離和面積特征的面部拓?fù)浣Y(jié)構(gòu).圖4展示了特征點(diǎn)分布以及常用的劃分方式,可以看出,距離特征包含了張嘴和閉嘴、睜眼和閉眼、提眉等信息,面積特征包含了面部區(qū)域的幾何變化.抑郁癥患者特殊的面部行為模式在距離和面積特征上會(huì)有所體現(xiàn).Dibeklioglu等[38]提取了Pittsburgh訪談數(shù)據(jù)庫(kù)中被試68個(gè)面部特征點(diǎn)的時(shí)間變化序列,并通過(guò)堆疊3層降噪自動(dòng)編碼器構(gòu)建了輕、中和重度抑郁癥程度的三分類模型,識(shí)別率達(dá)到72.59%.此外,在特征點(diǎn)時(shí)間變化序列基礎(chǔ)上,通過(guò)求導(dǎo)數(shù)以及求二次導(dǎo)數(shù)可以獲得速度和加速度等高級(jí)特征,而抑郁癥患者表情變化遲緩的癥狀可以在這些特征上展現(xiàn).魏巍[15]通過(guò)獲取特征點(diǎn)變化的速度和加速度特征來(lái)分析被試嘴角幅度、眨眼次數(shù)、眼睛面積、臉頰膨脹的情況,并建立機(jī)器學(xué)習(xí)模型達(dá)到了男性81.4%和女性80.0%的抑郁識(shí)別率.抑郁特征是在動(dòng)態(tài)變化中體現(xiàn)出來(lái)的,而循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶功能,可以有效處理抑郁的動(dòng)態(tài)特征.Wang等[54]利用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)提取特征點(diǎn)的時(shí)間序列中與抑郁相關(guān)的動(dòng)態(tài)特征并進(jìn)行二分類,在DAIC數(shù)據(jù)集上測(cè)試達(dá)到81.8%的識(shí)別率.Haque等[55]通過(guò)比較發(fā)現(xiàn)時(shí)序卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)比LSTM在處理時(shí)間信息上效果更好,更適合抑郁識(shí)別模型的構(gòu)建.相比于動(dòng)作單元法,面部特征點(diǎn)法可以獲取到面部拓?fù)浣Y(jié)構(gòu)的變化,提取到的信息量更大,更有助于后續(xù)搭建診斷模型.
面部整體法是直接從整張臉中提取面部特征,避免了在提取AU和特征點(diǎn)的過(guò)程中丟失其他部位信息,是目前最流行的方法.該方法可以提取到面部的幾何特征和紋理特征(如邊、角、方向等)進(jìn)行分析,其中包含了與抑郁相關(guān)的細(xì)節(jié)特征.Dhall等[56]利用局部二值模式(Local Binary Pattern,LBP)處理視頻數(shù)據(jù)并使用Fisher向量進(jìn)行編碼,有效捕捉了面部細(xì)微的幾何特征,其在AVEC2014數(shù)據(jù)集上建立回歸模型,均方根誤差為8.91優(yōu)于基線水平9.98.為進(jìn)一步提取面部動(dòng)態(tài)信息,Pampouchidou等[37]先根據(jù)訪談視頻生成運(yùn)動(dòng)歷史圖像(Motion History Image,MHI),再利用LBP提取其紋理特征,并根據(jù)運(yùn)動(dòng)的梯度方向生成方向梯度直方圖(Histogram of Oriented Gradients,HOG)作為高級(jí)特征,提取過(guò)程如圖5所示.該方法在AVEC2014數(shù)據(jù)集上測(cè)試平均絕對(duì)誤差為7.83優(yōu)于基線水平8.86.此外,卷積神經(jīng)網(wǎng)絡(luò)可以自適應(yīng)提取圖片中的信息,在處理面部整體抑郁特征上具有潛在優(yōu)勢(shì).He等[57]提出了LGA-CNN架構(gòu)提取視頻幀圖像中的全局和局部信息,其在AVEC2013和AVEC2014數(shù)據(jù)集上測(cè)試均方根誤差分別為8.39和8.30,展現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)在提取抑郁信息上的優(yōu)勢(shì)以及泛化能力.Zhou等[17]在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上加入殘差結(jié)構(gòu)搭建了DepressNet結(jié)構(gòu),該結(jié)構(gòu)有效解決了網(wǎng)絡(luò)退化的問(wèn)題可進(jìn)一步提升模型性能,其在AVEC2013上測(cè)試取得了均方根誤差8.28的優(yōu)異結(jié)果.
圖5 面部整體特征提取結(jié)果Fig.5 Results of full-face feature extraction
目前,多數(shù)基于面部視覺特征的抑郁癥診斷研究是利用不同的特征提取方法對(duì)抑郁癥眼神呆滯、視覺回避、少笑等面部行為進(jìn)行提取和量化,也有研究利用神經(jīng)網(wǎng)絡(luò)直接提取高維度特征.由于面部表情復(fù)雜多樣,單一的提取方法無(wú)法準(zhǔn)確全面地提取抑郁信息,從文獻(xiàn)[18]和文獻(xiàn)[58]的結(jié)果來(lái)看,融合多個(gè)特征之間有效利用特征間的互補(bǔ)信息,從而提升抑郁癥診斷水平.
基于面部視覺特征的抑郁癥診斷技術(shù)提供了一套無(wú)接觸式、普及性強(qiáng)、客觀、便捷的抑郁癥檢測(cè)方式.該技術(shù)有望緩解臨床診斷面臨的醫(yī)生患者比例偏低以及誤診率偏高的壓力,有廣闊的應(yīng)用場(chǎng)景.但目前由于抑郁癥患者情況復(fù)雜多樣,該技術(shù)走向臨床仍有較遠(yuǎn)距離.結(jié)合目前研究進(jìn)展和臨床應(yīng)用場(chǎng)景,考慮基于面部視覺特征的抑郁癥診斷研究可有以下幾方面的發(fā)展方向:
1)實(shí)驗(yàn)范式的改進(jìn)推廣.能有效誘發(fā)抑郁癥患者產(chǎn)生面部特征是設(shè)計(jì)有效實(shí)驗(yàn)范式的首要前提.但目前所采用的誘發(fā)題材和展現(xiàn)方式仍存有不少爭(zhēng)議,需要從誘發(fā)方式、設(shè)備選擇以及量表評(píng)定等角度研究出一套完整標(biāo)準(zhǔn)、適用臨床場(chǎng)景并便于推廣應(yīng)用的實(shí)驗(yàn)范式.
2)數(shù)據(jù)集的完善.近年來(lái),AVEC數(shù)據(jù)庫(kù)因其樣本量大、支持多模態(tài)的優(yōu)勢(shì)備受青睞,但其抑郁與健康樣本數(shù)量不平衡的問(wèn)題會(huì)對(duì)識(shí)別模型造成偏差,雖然已有研究提出了隨機(jī)抽樣[59]、數(shù)據(jù)增強(qiáng)[60]和生成對(duì)抗[61]等數(shù)據(jù)平衡方式,但仍沒有解決根本問(wèn)題.此外,被試的性別、年齡、受教育經(jīng)歷等因素同樣會(huì)對(duì)模型帶來(lái)偏差,但因樣本數(shù)量較少,這些因素并沒有得到重視.因此,構(gòu)建各因素平衡的完善的數(shù)據(jù)集是今后研究的方向之一.
3)診斷模型的優(yōu)化.當(dāng)前研究大多利用了人臉識(shí)別技術(shù)中面部特征的提取方法,而抑郁檢測(cè)并不同于個(gè)體身份的識(shí)別,因而這樣方法可能會(huì)忽視對(duì)身份鑒別幫助不大但與抑郁相關(guān)的信息.因此,結(jié)合抑郁癥的面部特點(diǎn),構(gòu)建出受個(gè)體差異影響小且包含抑郁信息量大的特征提取以及識(shí)別模型是未來(lái)發(fā)展方向.此外,利用大數(shù)據(jù)量的優(yōu)勢(shì),構(gòu)建端到端的識(shí)別模型自適應(yīng)學(xué)習(xí)的方法同樣值得探索.同時(shí),如何對(duì)抑郁診斷模型做出解釋,幫助臨床醫(yī)生進(jìn)一步理解抑郁癥同樣有研究?jī)r(jià)值.
4)多模態(tài)融合實(shí)施診斷.已有研究表明,抑郁癥患者的聲音及其語(yǔ)義特征與正常人存在顯著差異[62,63].實(shí)驗(yàn)采集視覺特征的同時(shí)可以采集到語(yǔ)音信號(hào),融合視頻、音頻和文本信息進(jìn)行多方位、多模態(tài)的診斷是值得今后深入探究的發(fā)展方向.
本文從抑郁癥患者的面部行為特點(diǎn)入手,綜合介紹了目前常用的誘發(fā)實(shí)驗(yàn)范式、現(xiàn)有面部視覺特征公開數(shù)據(jù)庫(kù)及基于面部視覺特征的抑郁癥診斷的最新研究成果,最后簡(jiǎn)要討論了存在問(wèn)題與發(fā)展動(dòng)向.相信隨著生物醫(yī)學(xué)以及計(jì)算機(jī)視覺技術(shù)的不斷發(fā)展,具有高效識(shí)別能力、低廉成本特色的基于面部視覺特征快速檢測(cè)抑郁癥診斷新方法能夠及早面世,給醫(yī)生和患者雙方帶來(lái)快捷方便.