趙 健,周莉蕓,武孟青,王雪珠,孟憲佳
(西北大學 信息科學與技術學院,陜西 西安 710127)
抑郁癥是一種伴有思維和行為異常的精神心理障礙疾病,有著高復發(fā)率、高致殘率、高自殺率。據(jù)世界衛(wèi)生組織報告數(shù)據(jù)顯示,全球有超過3.5億人患有抑郁癥[1],并且近十年患者的增速約18%,預計到2030年,抑郁癥將上升為第一致殘誘因。然而,在抑郁癥患病高增長率的背景下,臨床中對抑郁癥的診斷主要是量表篩查和精神科醫(yī)生問診,常用的抑郁量表有很多,如漢密爾頓抑郁量表(HAMD)[2]、貝克自評抑郁量表(BDI)[3]等,但這種方式的診斷結(jié)果依賴醫(yī)生的經(jīng)驗以及患者的配合度,其誤診率也高居不下,根據(jù)《中國抑郁障礙防治指南》,重度抑郁癥誤診率高達65.9%。因此,迫切需要客觀、高效、準確率高的輔助診斷方法。
隨著人工智能(artificial intelligence,AI)的發(fā)展,已有大量研究將人工智能應用到抑郁癥的輔助診斷預測中。知識驅(qū)動的第一代抑郁癥診斷主要依靠機器學習,通過特征提取算法對語音信號、面部表情、腦電等信號提取表征抑郁的特征,結(jié)合機器學習算法,包括隨機森林(random forest,RF)、樸素貝葉斯(naive Bayes,NB)、高斯混合模型(Gaussian mixed model,GMM)、支持向量機模型(support vector machine,SVM)等構(gòu)建抑郁識別模型進行預測[4]。數(shù)據(jù)驅(qū)動的第二代抑郁癥診斷主要使用深度學習網(wǎng)絡,將抑郁癥數(shù)據(jù)送入深度網(wǎng)絡,例如卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、長短時記憶神經(jīng)網(wǎng)絡(long short term memory,LSTM)、深度卷積神經(jīng)網(wǎng)絡(deep convolutional neural network,DCNN)、深度殘差回歸卷積神經(jīng)網(wǎng)絡(deep residual regression convolutional neural networks,DRR-CNN)等[5]進行訓練,從而對抑郁癥進行預測。
目前,已有的抑郁癥輔助診斷研究能得到較高的準確率,但在基于機器學習的抑郁癥診斷系統(tǒng)中,手工提取特征需要大量先驗知識并且存在信息丟失的問題。而深度學習網(wǎng)絡具有不可解釋性,出于對醫(yī)療行業(yè)安全性考慮,對AI的心理檢測結(jié)果接受度不高[6],僅依靠深度網(wǎng)絡得出的診斷結(jié)果無法應用到臨床。本文系統(tǒng)性分析了第一代和第二代抑郁癥診斷研究,總結(jié)了已有的抑郁癥輔助診斷方法,思考并討論抑郁癥診斷的發(fā)展方向——第三代抑郁癥輔助診斷系統(tǒng)。
第一代人工智能的本質(zhì)是基于知識與經(jīng)驗的推理模型,用來模擬人類的理性智能,利用知識、算法和算力3要素構(gòu)造AI,是知識驅(qū)動的AI,以機器學習為主[7]。通過機器學習算法構(gòu)建的抑郁癥診斷模型,我們稱為第一代抑郁癥輔助診斷方法。
越來越多研究者從心理學角度發(fā)現(xiàn),與正常群體比較,抑郁癥患者存在著強烈的負性傾向認知和潛在的生理障礙,在語音聲學特征方面存在音調(diào)較低、語速較慢、語調(diào)單一等特點。針對抑郁語音發(fā)聲特點,提取出不同特征(如韻律、聲源、共振峰和頻譜)作為抑郁癥的有效預測因子[8]。Cummins等人利用梅爾頻率倒譜系數(shù)(MFCC)和共振峰特征,結(jié)合 GMM、SVM 模型,在47個抑郁患者構(gòu)建的庫上進行評估,識別正確率可達到80%,證實了語音特征可以作為抑郁癥輔助診斷的有效檢測指標[9]。Shin等人提取了聲門、速度頻譜、共振峰等21個語音特征,在評估抑郁癥發(fā)病嚴重程度上靈敏度為65.6%,特異性為66.2%[10]。Dogrucu等人提出了Moodable框架,并開發(fā)了應用程序,利用程序收集了簡短的語音樣本,將K-nearest neighbors (KNN)、SVM、RF部署到Moodable應用程序,并對335名志愿者進行測試,獲得0.766的F1分數(shù),0.75的敏感度和0.792的特異性[11]。Jiang等人提出一個集成邏輯回歸模型,比較了SVM、GMM和邏輯回歸(LR)的分類效果,分析了MFCC、韻律、頻譜和聲門語音特征對于男性和女性在抑郁癥識別的分類性能,發(fā)現(xiàn)女性使用頻譜、韻律和MFCC特征,男性使用韻律和頻譜特征的分類效果好,該模型在女性和男性數(shù)據(jù)集上分別達到了75.00%和81.82%的準確率[12]。使用相同的方法,利用不同的特征,得出的結(jié)果大不相同,說明了抑郁癥診斷的研究過程中特征的選取尤為重要。
人臉面部表情是傳遞情感最直接的方式,研究發(fā)現(xiàn),抑郁癥患者在情緒失控或者陷入自我負性循環(huán)時,其面部表情具有垂目、皺眉、嘴角下拉等特點,表1整理了抑郁癥常用面部特征[13]。
表1 抑郁癥檢測常用面部特征Tab.1 Common facial features for depression detection
徐路分析了患者與正常人在訪談過程中動作單元(AU)的出現(xiàn)頻次、變化速率、強度等特征,發(fā)現(xiàn)二者存在明顯差異,并以此通過SVM進行分類,男性的抑郁識別率達到73.48%、女性達到68.43%[14]。Li等人提取了位置特征、區(qū)域特征、動作單元等面部特征,分別針對女性和男性建立模型,采用樸素貝葉斯、支持向量機和隨機森林進行分類,得到的準確率女性為86.8%,男性為79.4%,再次證實了從面部指標檢測抑郁癥是可行的,并且發(fā)現(xiàn)眉毛和嘴巴的貢獻比面部其他部位多[15]。Wang等人則是在定位面部特征的基礎上,通過SVM根據(jù)眼睛、眉毛和嘴角的運動變化對抑郁癥進行分類,特征檢測準確率為78.85%,召回率為80.77%[16]。Tadalagi等人考慮到光照變化的影響,利用光照不變的局部二值模式(LBP)描述符對每一幀圖像進行特征提取,用于人臉檢測,SVM與LBP共同用于構(gòu)建抑郁水平檢測的完整模型[17]。
近年來,電生理數(shù)據(jù)輔助抑郁癥的診斷也得到大量研究。相關電生理信號主要包括腦電、心電、體溫等[18],其中,腦電信號使用頻率最高,包括腦電圖(Electroencephalogram,EEG)、腦磁圖、眼動信號等[19]。Akbari等人提出了一種基于腦電信號重建相空間和幾何特征的抑郁檢測方法,采用粒子群優(yōu)化算法和SVM分類器進行特征選擇與分類,實現(xiàn)了99.3%的平均分類準確率[20]。Stolicyn等人通過眼動信號中的瞳孔大小、注視位置、注視時間等特征,與機器學習算法相結(jié)合,建立抑郁癥患者預測模型,準確率較高,且數(shù)據(jù)獲取相對成本更低[21]。Jiang等人提出一種有效的基于腦電圖的空間信息抑郁癥分類檢測方法,向30名參與者(包括16名抑郁癥患者和14名健康對照者)呈現(xiàn)相同的正面和負面情緒面部表情刺激,利用差分熵和遺傳算法進行特征提取和選擇,利用SVM進行分類,對積極刺激和消極刺激分別獲得了81.7%和83.2%的分類結(jié)果[22]。
由于抑郁癥的復雜性,僅使用單模態(tài)數(shù)據(jù)的模型可能會忽略個體差異對判決結(jié)果的影響。因此,在人工智能技術的抑郁癥輔助診斷研究中,除了使用單一模態(tài)數(shù)據(jù)輔助抑郁癥診斷,也有很多使用多模態(tài)數(shù)據(jù)進行診斷研究。多模態(tài)數(shù)據(jù)的抑郁癥輔助診斷框圖如圖1。
圖1 第一代人工智能抑郁癥診斷框圖Fig.1 The first generation of artificial intelligence depression diagnosis diagram
Alghowinem等人從說話行為、眼睛活動和頭部姿勢提取特征,支持向量機用于多特征選擇的分類,在30名抑郁癥患者和30名健康對照受試者的數(shù)據(jù)集上,個體單模態(tài)分類準確率分別為語音83%、眼睛73%、頭部63%,特征融合后的平均準確率達到88%,與單模態(tài)系統(tǒng)相比,融合后的準確率顯著提高,證明了模態(tài)的互補性[23]。
Zhang等人提出了一種采用多智能體策略的多模態(tài)抑郁癥檢測方法,從生理和行為兩個角度同時進行探索,融合了腦電圖和聲音信號[24],如圖2所示。對受試者分別收集腦電圖采集實驗和面對面訪談數(shù)據(jù),去除不相關的噪聲信號,并從每個模態(tài)中提取適當?shù)奶卣鳌⒂行卣髟诿總€模態(tài)上訓練6個表征分類器,每個分類器獲得自己的決策,使用多智能體策略相互交換決策信息。最后,將不同分類器的決策聚合為最終的檢測結(jié)果。對170名受試者(81名抑郁患者和89名正常對照組)的實驗結(jié)果表明,所提出的多模態(tài)抑郁檢測策略在準確性、F1評分和敏感性方面均優(yōu)于單模態(tài)分類器。
圖2 多智能體策略的多模態(tài)普遍抑郁檢測[24]Fig.2 Multi-modal pervasive depression detection method with multi-agent strategy[24]
我們的研究團隊提出了一種基于語音信號和面部圖像序列的多模態(tài)融合算法進行抑郁癥診斷[25]。引入頻譜減法增強抑郁語音信號,采用頻譜法提取變異率大的音高頻率特征和差異顯著的共振峰特征,從時域和頻域分析了不同情緒語音的短時間能量和頻譜系數(shù)特征參數(shù),建立了訓練和識別模型。同時,實現(xiàn)了正交匹配追蹤算法,獲得了人臉測試樣本的稀疏線性組合,以及基于聲音和面部情緒比例的級聯(lián)。基于融合語音和面部情緒抑郁檢測算法的識別率已達到81.14%,與僅使用語音模式相比提高了6.76%,實驗結(jié)果表明該方法是一種有效的抑郁癥檢測方法。
知識驅(qū)動的第一代人工智能抑郁癥診斷方法和人類一樣基于知識進行推理,具有可解釋性。但從原始數(shù)據(jù) (包括圖像、語音、視頻和文本) 中獲取知識主要靠人工,效率不高,并且機器學習的特征選擇直接關系到情感識別結(jié)果的好壞,必須提取到足夠多的與抑郁相關的特征才能有效地提高識別效果,而我們對抑郁癥的認知不夠充分,可能會導致數(shù)據(jù)的部分呈現(xiàn),在一定程度上模型分類的效果會受到制約。隨著對抑郁癥發(fā)病機制的深入研究,對于抑郁指標的選取能夠更加精準,與其他學科的合作對于抑郁癥診斷系統(tǒng)的研究至關重要。今后仍需要開展大量臨床研究來驗證和完善這些客觀指標,最終為抑郁癥患者提供一個安全準確的診斷方法。
隨著在神經(jīng)網(wǎng)絡模型和學習算法上取得重大進步,開啟了以深度學習為基礎的第二代人工智能的新紀元[26]。第二代AI利用數(shù)據(jù)、算法與算力 3要素構(gòu)造,是數(shù)據(jù)驅(qū)動的AI,以深度學習為主[7]。通過深度學習網(wǎng)絡構(gòu)建的抑郁癥診斷模型,我們稱為第二代抑郁癥輔助診斷方法。近年來,自動抑郁檢測已經(jīng)獲得越來越多的關注,具有良好的性能,為抑郁診斷系統(tǒng)的臨床應用奠定了基礎。本文對現(xiàn)有診斷方法進行全面總結(jié),根據(jù)所采用的數(shù)據(jù)類型,大致分為基于音頻、視頻和多模態(tài)數(shù)據(jù)的抑郁癥輔助診斷方法。
Ma等人提出了一個深度聽覺網(wǎng)絡模型——DepAudioNet,從聲音線索中挖掘抑郁表征,采用LSTM和DCNN編碼抑郁識別的鑒別音頻表征[27]。DCNN可以從原始波形中建模空間特征表示,而LSTM可以從摩爾尺度濾波器組中學習短期和長期的特征表示。此外,在訓練階段引入隨機抽樣策略,減少樣本分布不均勻所造成的偏差,平衡樣本。在DAIC-WOZ數(shù)據(jù)集進行了評估,證明了該方法的有效性[27]。Niu等人提出了一個新的框架,該框架集成了擠壓和激勵(SE)組件,以及時頻通道注意(TFCA)塊,以代表有區(qū)別的時間戳、頻帶,此外,考慮到數(shù)據(jù)的時頻屬性,提出了一個時頻通道向量化(TFCV)塊來形成張量[28]。在AVEC2013和AVEC2014上進行驗證,RMSE分別是8.32和9.25,解決了語音頻譜的不同頻帶對抑郁檢測貢獻不均等問題[28]。Dong等人提出一個深層的ADE架構(gòu),使用預訓練模型提取深度語音特征,并結(jié)合深度說話人識別(SR)和語音情感識別(SER)特征,利用可變長度語音的FVCM算法,計算兩個深度語音特征矩陣中分層多通道變化的協(xié)方差系數(shù)Cij,k和相關系數(shù)Rij,k,獲得協(xié)調(diào)特征FVCMk(式中簡記為FFVCM)。針對訓練樣本有限且模型復雜度高容易過擬合的問題,采用層次化抑郁檢測模型、深度語音協(xié)調(diào)特征及其模糊向量作為輸入,回歸區(qū)間作為約束條件,對抑郁癥嚴重程度進行預測。該方法在AVEC2013和AVEC2014基準測試數(shù)據(jù)集得到了82%的準確率[29]。
Cij,k=Cov(Xij,k)
(1)
Rij,k=r(Xij,k)
(2)
FFVCM=[eig(Rij,k),log(tr(Cij,k)),Entropy(Cij,k)]
(3)
式中:Cov(·)表示協(xié)方差運算;r(·)表示關聯(lián)操作;Xij,k為時滯多通道二進制矩陣;eig(Rij,k)為特征值集合;tr(·)表示矩陣的軌跡;log(tr(Cij,k))為總功率;Entropy(Cij,k)為熵。
對于抑郁癥的識別,空間部分帶有關于人臉的外觀和靜態(tài)表情的面部信息,時間部分捕獲了幀之間的運動,包含面部動態(tài)信息。對此,Zhu等人提出了一種基于深度卷積神經(jīng)網(wǎng)絡的人臉外觀和動態(tài)建模方法用于抑郁癥的檢測[30],結(jié)構(gòu)見圖3。
圖3 深度學習網(wǎng)絡識別抑郁癥結(jié)構(gòu)圖[30]Fig.3 Deep neural network architectures for depression recognition[30]
將面部外觀表示通過深度卷積神經(jīng)網(wǎng)絡(DCNN)建模,面部動態(tài)由另一個深度神經(jīng)網(wǎng)絡建模,通過計算視頻連續(xù)幀之間的光流位移,并將其轉(zhuǎn)換成“流圖像”作為網(wǎng)絡的輸入,從而捕捉面部運動。同時,將微調(diào)網(wǎng)絡的損失函數(shù)改為歐式損失[式(4)],在訓練過程中,分別對兩個DCNN進行訓練,最后,通過聯(lián)合調(diào)整層將兩個深度網(wǎng)絡集成到一個深度網(wǎng)絡中,以實現(xiàn)最終的抑郁癥識別。該模型在AVEC2013數(shù)據(jù)庫的MAE為7.74,RMSE為9.91,在AVEC2014數(shù)據(jù)庫融合模型后的MAE 7.53,RMSE 9.73。
(4)
文獻[31]提出了一個雙流DCNN框架,從RGB圖像和視頻剪輯中捕獲和編碼時空動態(tài)信息,將面部表情的動態(tài)編碼為圖像映射,圖像序列為時間流,其作為ResNet-50架構(gòu)的輸入,采用均方誤差函數(shù)解決回歸問題,平均池化用于融合外觀和動態(tài)信息,進行輸出融合。Zhou等人在CNN的基礎上加入殘差結(jié)構(gòu),搭建了一個多區(qū)域的DepressNet結(jié)構(gòu),通過該網(wǎng)絡聯(lián)合學習不同人臉區(qū)域的多個局部深度回歸模型,在AVEC2013上測試取得了均方根誤差為8.28的結(jié)果,有效解決了網(wǎng)絡退化的問題[32]。
He等人提出了深度局部全局注意卷積神經(jīng)網(wǎng)絡架構(gòu)(DLGA-CNN),提取視頻幀圖像中的全局和局部信息,進行抑郁癥識別[33]。采用CNN獲取局部表示,采用具有注意力機制的CNN和加權(quán)空間金字塔池(WSPP)獲取全局表示,全局與局部信息的結(jié)合提高了模型的泛化能力,其在AVEC2013和AVEC2014數(shù)據(jù)集上測試均方根誤差分別為8.39和8.30。
除了單模態(tài)音頻和視頻外,多模態(tài)融合方法可以提高抑郁癥預測的性能,融合的主要思路見圖4。
圖4 第二代人工智能抑郁癥診斷框圖Fig.4 The second generation AI depression diagnosis block diagram
Bin等人提出了一種深度學習雙向長短期記憶(bi-directional long short-term memory,Bi-LSTM)的方法,融合了腦電圖數(shù)據(jù)和人臉面部特征來檢測抑郁癥[34]。Malhotra等人提出了一個實時的深度學習系統(tǒng),融合來自用戶的社交媒體信息源(文本、圖像和視頻)中的多種模式的單個向量表示,獲得聯(lián)合表示[35]。這些聯(lián)合表示用于獲得加權(quán)平均分數(shù),該分數(shù)使用Softmax層進行最終抑郁分類,可以根據(jù)日常帖子持續(xù)分析用戶的心理狀態(tài),是第一項實時檢測抑郁癥的研究[35]。Madhu等人提出了一種基于深度神經(jīng)網(wǎng)絡和漢密爾頓抑郁量表的多模態(tài)數(shù)據(jù)的抑郁癥嚴重程度檢測技術,使用深度神經(jīng)網(wǎng)絡(DNN)檢測視頻、語音和文本的各個模態(tài),并將所有模態(tài)與相應的權(quán)重相融合,以計算漢密爾頓抑郁評定量表中的總分,根據(jù)計算的分數(shù)預測抑郁程度[36]。Fang等人設計了一種具有多級注意機制的多模態(tài)模型(MFM-Att),利用兩個LSTM和一個具有注意力機制的Bi-LSTM分別學習多視圖音頻特征、視覺特征和文本特征,再將3種模態(tài)的輸出特征送入注意力融合網(wǎng)絡(AttFN),獲取有效的抑郁信息,利用抑郁癥檢測方式之間的多樣性和互補性,減少冗余信息并提高模型整體性能[37]。
Wu等人提出一種從情緒識別到抑郁檢測的新型方法,利用從情緒識別模型中提取的預訓練特征進行抑郁檢測,進一步將情緒模態(tài)與音頻和文本融合,形成多模態(tài)抑郁檢測[38],結(jié)構(gòu)如圖5所示。他們采用具有10 ms幀移、25 ms幀長以及一階導數(shù)系數(shù)的40維Log Mel濾波器組特征(FBKs)作為音頻特征。將語音中捕捉的語義與上下文作為文本分支的輸入,使用共享的全連接層減少每個輸入句子的嵌入維數(shù),由五頭自注意層進行整合,通過雙向門循環(huán)單元(Bi-GRU)訓練音頻,并通過Bi-LSTM模型訓練文本。將BERTs模型作為情緒特征提取器,在融合層獲得情感特征,采用Bi-LSTM模型匯集段級特征,并產(chǎn)生抑郁癥診斷的會話級決策,將情感融合音頻、文本后的F1為0.87。
圖5 融合3種模式的多模態(tài)抑郁檢測[38]Fig.5 Fusion of three models more modal testing for depression[38]
深度學習網(wǎng)絡的訓練需要大量數(shù)據(jù)推動,但抑郁癥的病理表現(xiàn)涉及病人隱私特殊性,樣本數(shù)據(jù)需要征得參與者同意后從醫(yī)院或者心理診所獲取,多數(shù)已有數(shù)據(jù)集尚未得到授權(quán)公開用于抑郁癥分析研究,只有少數(shù)數(shù)據(jù)庫公開發(fā)布[39]。表2列舉了一些開源數(shù)據(jù)庫。
表2 開源抑郁數(shù)據(jù)庫簡介Tab.2 Introduction to open source depression database
如表2所示,數(shù)據(jù)集的有限大小限制了抑郁癥診斷的研究,為了解決這個瓶頸,需要有效的方法來增加有限數(shù)量的注釋數(shù)據(jù)。并且深度學習作為黑盒模型難以解構(gòu),預測機制難以解釋,即使能夠獲得很高的準確率,卻沒辦法給出更多可靠信息[40]。為了建立一個全面反映人類智能的AI,把第一代的知識驅(qū)動和第二代的數(shù)據(jù)驅(qū)動結(jié)合起來,通過同時利用知識、數(shù)據(jù)、算法和算力等4要素,構(gòu)造更強大的第三代AI[7]。基于第三代AI的思想,第三代抑郁癥診斷系統(tǒng)結(jié)合前兩代抑郁癥分析系統(tǒng)各自的優(yōu)勢,更加全面、準確地對抑郁癥進行診斷。
信息融合通過結(jié)合不同來源的異構(gòu)信息確保處理信息的高質(zhì)量,使得決策更加全面可靠[41]。手工提取的特征結(jié)合深度模型可以更好地挖掘到抑郁特征信息,將第一代知識驅(qū)動和第二代數(shù)據(jù)驅(qū)動的抑郁癥診斷系統(tǒng)進行特征融合(見圖6)與決策融合(見圖7)。
圖6 特征融合的第三代人工智能抑郁癥診斷Fig.6 The third generation of artificial intelligence depression diagnosis feature fusion
圖7 決策融合的第三代人工智能抑郁癥診斷Fig.7 The third generation of artificial intelligence depression diagnosis decision fusion
手動提取的特征與深度學習模型特征具有不同屬性,將手工特征與深度特征結(jié)合起來,既可以利用醫(yī)生的經(jīng)驗,又可以挖掘原始數(shù)據(jù)中的隱藏信息,在高性能的基礎上獲得更可靠的結(jié)果。
Huang等人提出名為混合加框架(HPF)的特征融合框架用于抑郁癥檢測[42]。其包含F(xiàn)ET模塊和增強DNN,FET模塊提取手工制作的特征并將其轉(zhuǎn)換為稀疏分類特征,增強DNN直接從原始數(shù)據(jù)中提取深層特征,并利用嵌入層將稀疏的高維分類特征轉(zhuǎn)化為低維的神經(jīng)嵌入特征。將FET模塊和DNN的輸出通過全連接層進行抑郁分類。Omeroglu等人對語音信號和電聲門(EGG)信號分別提取手工特征和深度特征,并連接這些特征獲得特征集,最后,使用SVM分類器進行分類檢測,該方法在SVD語音數(shù)據(jù)庫上獲得的準確率高達 90.10%,此外,分別獲得了 92.9%、84.6% 和 92.57% 的敏感性、特異性和F1分數(shù)結(jié)果[43]。Huang等人提出多視角特征融合模型[44],結(jié)構(gòu)如圖8所示。從抑郁癥數(shù)據(jù)集中提取手工視圖特征,從深度學習模型中獲得深度視圖特征。手工特征包括心電信號的形態(tài)特征以及時間特性,深度特征提取采用CNN-LSTM結(jié)構(gòu),提取不同尺度的特征以及動態(tài)時間特征。全連接層融合兩種不同視角的特征并發(fā)送到分類器,用隨機森林分類器代替Softmax分類器進行分類,采用RF分類算法進行融合特征分類,貝葉斯優(yōu)化被用于分類器的超參數(shù)調(diào)整。實驗的平均準確率為98.93%,證明了多視角特征融合模型的有效性和優(yōu)越性。
圖8 多視圖特征融合模型結(jié)構(gòu)[44]Fig.8 Structure of the multiview feature fusion model[44]
決策融合是融合不同分類器獲得的信息的過程,能夠利用它們各自的優(yōu)勢,具有很強的容錯性。Zhang等人提出一種基于決策級多模態(tài)融合的計算機輔助識別框架,多組對照試驗結(jié)果表明,與獨立分類器相比,決策級多模態(tài)融合方法對抑郁癥的識別能力更強,最高準確率為92.13%[45]。Soni等人在提出的Node2vec算法框架上對腦電信號進行了決策融合,在公開數(shù)據(jù)集上測試的峰值準確率達到0.933[46]。Yan等人提出一種新的融合思想(見圖9),根據(jù)每種信號模態(tài)的分類精度、不同信號模態(tài)之間的相關性以及信號模態(tài)的穩(wěn)定性,設計不同加權(quán)方法的自適應多模式?jīng)Q策融合[47]。
第三代人工智能抑郁癥分析系統(tǒng)基于第三代AI的思想,結(jié)合前兩代抑郁癥分析系統(tǒng)各自的優(yōu)勢。目前存在的研究結(jié)果表明信息融合后的模型在較高的準確率上增加了結(jié)果的可靠度,更加全面地對抑郁癥數(shù)據(jù)進行分析,為抑郁傾向識別提供了良好的理論支撐。
圖9 自適應多模式?jīng)Q策融合[46]Fig.9 Adaptive multiple mode decision fusion[46]
利用人工智能技術進行特定數(shù)據(jù)分析,在一定程度可節(jié)約醫(yī)療資源、提高工作效率,加快對疾病的介入治療,同時,規(guī)模化抑郁癥診斷系統(tǒng),有可能實現(xiàn)民眾普及自檢自測,具有重要的研究意義。本文按照人工智能的發(fā)展階段將抑郁癥診斷方法劃分為機器學習的第一代診斷方法、深度學習的第二代診斷方法以及融合后更全面的第三代診斷方法。本文系統(tǒng)地分析了近年來人工智能抑郁癥診斷方法,總結(jié)現(xiàn)有診斷方法的研究成果,指出了未來抑郁癥診斷方法的發(fā)展方向。目前關于第一代和第二代抑郁癥診斷的研究方法較為全面、成果顯著,但第三代抑郁癥診斷方法的研究還處于初期階段,相關的研究成果較少。
為推動抑郁癥研究進入臨床應用,要在保證高準確率的基礎上增強系統(tǒng)的可解釋性,建立一套醫(yī)患互信的新醫(yī)療系統(tǒng)。我們的研究團隊在前期已有成果的基礎上,將繼續(xù)推動第三代抑郁癥診斷方法的研究,未來,我們將開展以下研究。
1)抑郁癥的診斷依賴于包括臨床心理學、情感計算和計算機科學在內(nèi)的多個領域的協(xié)同努力。為了實現(xiàn)抑郁癥診斷系統(tǒng)的臨床使用,我們將與跨學科領域的研究人員合作,獲得更多的抑郁癥醫(yī)學指標,便于多維度的診斷。
2)現(xiàn)階段抑郁癥數(shù)據(jù)量較少,還需要開展更多的工作來收集額外的數(shù)據(jù)。我們將嘗試收集包括音頻、視頻、文本、生理信號的多模態(tài)數(shù)據(jù)庫。
3)我們將深入研究手工特征和深度學習特征之間的互補模式,以提高系統(tǒng)辨別特征的能力及系統(tǒng)的健壯性。
4)對于多模態(tài)數(shù)據(jù),我們將借鑒不同領域研究人員的經(jīng)驗,考慮不同模態(tài)之間的互補模式,通過研究不同的融合方法,提高數(shù)據(jù)間互補信息的能力。