• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合注意力機制與雙向長短時記憶網(wǎng)絡的基于語音分析的抑郁識別方法

      2022-01-18 02:00:36汪靜瑩耿馨佚朱廷劭王守巖
      復旦學報(自然科學版) 2021年6期
      關鍵詞:特征選擇語音神經(jīng)網(wǎng)絡

      趙 張,汪靜瑩,耿馨佚,朱廷劭,王守巖

      (1. 復旦大學 類腦智能科學與技術研究院,上海 200433; 2. 復旦大學 計算神經(jīng)科學與類腦智能教育部重點實驗室,上海 200433; 3. 復旦大學 上海智能機器人工程技術研究中心,上海 200433; 4. 復旦大學 智能機器人教育部工程研究中心,上海 200433; 5. 中國科學院 心理研究所,北京 100101)

      抑郁癥是一種在世界范圍內常見的精神疾病,全球患者人數(shù)超過2.64億[1].抑郁癥不同于通常的情緒波動,當情況比較嚴重并且持續(xù)時間長時會造成嚴重的健康問題,讓患者在工作生活中承受巨大痛苦甚至無法工作,在最壞的情況下會導致患者自殺.

      目前,抑郁癥的評估方法主要依賴于患者的主觀報告和醫(yī)生的臨床評分.這些方法需要患者準確地描述疾病,并且要求醫(yī)生具有豐富的臨床經(jīng)驗.為了幫助臨床醫(yī)生更準確地判斷患者的病情,研究人員試圖找尋一種客觀有效的評估方法.語音是除表情之外情緒的另一種重要的外部表現(xiàn),加之其方便獲取,因此使其成為一種備受期待的評估手段[2].

      過去基于語音識別抑郁的研究還有若干值得改進的地方.

      首先,特征的特異性.隨著人們對語音和抑郁之間關系研究的深入,越來越多的特征如韻律特征、頻域特征等皆被用于建模識別抑郁.但這些特征并非專門針對抑郁設計的,不能完全反映聲音中與抑郁相關的信息,建模識別效果有限,因此如何從語音中提取能夠有效反映抑郁的特征尤為關鍵.近年來,深度學習在語音識別領域取得了突破性的進展[3],其中長短時記憶(Long Short-Term Memory, LSTM)網(wǎng)絡通過“門”的概念建立了基于時間序列的長期聯(lián)合記憶機制,避免了產(chǎn)生梯度消失現(xiàn)象,具備長時記憶的能力[4],神經(jīng)網(wǎng)絡的瓶頸層向量可用于表征抑郁相關的高維信息.

      其次,權重系數(shù).過去的研究對一段語音每個部分都給予相同的權重,但在實際中部分語音片段能集中地反應抑郁相關的信息.注意力機制[5]是一系列權重參數(shù),對于一段語音并不是從頭到尾每個部分都保持同樣的關注度,而是通過自動學習的方式重點觀察語音的某一些片段.最后,訓練樣本與測試樣本的數(shù)據(jù)分布存在差異.不同語音之間的特征差異受到被試本人發(fā)聲特點的影響,遷移學習[6]的方法則可以減小訓練樣本和測試樣本之間數(shù)據(jù)分布差異對模型造成的影響.

      據(jù)此,本文提出一種融合注意力機制與雙向長短時記憶網(wǎng)絡的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)來提取深度學習特征,通過高維度的特征定義與選擇結合遷移學習的方法來提升該算法基于語音分析的抑郁狀態(tài)辨識的能力,并在抑郁癥患者和健康被試者數(shù)據(jù)集上驗證了該方法的效果.

      1 語音分析抑郁識別方法介紹

      基于語音分析的抑郁狀態(tài)分類辨識算法的流程如圖1所示,主要包括預處理、特征提取、特征選擇、遷移學習、分類5個關鍵步驟.

      圖1 基于語音分析的抑郁識別方法的流程圖Fig.1 Flow chart of depression recognition method based on acoustical signal processing

      1.1 數(shù)據(jù)預處理

      為避免低頻噪音的干擾,采用截止頻率為137.8 Hz的2階巴特沃斯濾波器進行高通濾波.另外語音信號原始采樣頻率為44 100 Hz,為控制文件大小以方便未來對語音的流程化處理,采用librosa[7]將信號降采樣到最常用的16 000 Hz.最后通過Pyaudioanalysis[8]對每份語音去除長時間的靜音段(非語音片段),提取有聲片段后合并成一個數(shù)據(jù)段.

      1.2 特征提取

      本文提取的特征包括6類: 聲學特征、頻域特征、停頓特征、Mel頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient, MFCC)[9]特征、色度特征和深度學習特征.其中,前5類特征是常用的語音信號不同方面性質的特征,深度學習特征則是本文自主提出的針對語音分析的新特征.

      1.2.1 常用語音特征的提取

      聲學特征包括基頻、能量和過零率相關特征,共6個,其中能量特征包括聲強和聲強包絡,過零率相關特征包括過零率、過零幅度(即兩個過零點間信號的最大幅值)和過零間隔(即兩個過零點間的時間間隔);頻域特征包括頻譜中心、頻譜延展度、頻譜通量、譜熵和頻譜滾降點,共5個;MFCC特征將人耳的聽覺感知特性和語音信號產(chǎn)生機制有效結合,共13個;色度[10]特征代表一段時間內12個音級中的能量,不同八度的同一音級能量累加,共12個;將原始語音中開頭和結尾以外的靜音段視作停頓片段,停頓相關的特征在數(shù)據(jù)預處理時提取,包括停頓次數(shù)、停頓比(停頓片段總時長/語音片段總時長)和平均停頓比(停頓片段平均時長/語音片段總時長)3個.

      對于聲學特征、頻域特征、Mel頻率倒譜系數(shù)特征和色度特征,采用提取特征統(tǒng)計量的方法來獲取能夠反映語音整體變化的特征信息.

      選擇不同的窗長和滑動步長會對特征提取的結果造成影響,為了獲取能夠反映語音整體變化的長時特征,采用提取特征統(tǒng)計量的方法來獲取整體而非局部的特征信息.使用的12個統(tǒng)計量分別是: 最大值、最小值、極差、均值、中位數(shù)、線性回歸的截距(時間作為自變量)、線性回歸的系數(shù)(時間作為自變量)、線性回歸的R2(時間作為自變量)、標準偏差、偏度、峰度和變異系數(shù).

      因此,本文提取的常用語音特征共有12×{6(聲學)+5(頻域)+12(色度)+13(MFCC)}+3(停頓相關)=435個.

      1.2.2 深度學習特征的提取

      深度學習技術在語音信號處理領域取得了良好的成果,它可以學習生成高級語音信息,豐富手工設計特征.本文設計的抑郁檢測語音網(wǎng)絡(Depression Detection Audio Net, DD-AudioNet)由卷積神經(jīng)網(wǎng)絡融合注意力機制與雙向長短時記憶神經(jīng)網(wǎng)絡(Attention-Bi-LSTM)組成.如圖2所示,DD-AudioNet將語音信號通過短時傅里葉變換映射到時頻圖作為神經(jīng)網(wǎng)絡的輸入,水平軸代表時間,垂直軸代表頻率,以語音對應的被試是否抑郁(0或1)作為標簽訓練神經(jīng)網(wǎng)絡,提取神經(jīng)網(wǎng)絡的瓶頸層特征作為深度學習的特征.

      圖2 抑郁檢測語音網(wǎng)絡Fig.2 Depression detection audionet

      單向LSTM只利用到前向信息,而雙向LSTM可以融合前向和后向語義信息.在卷積神經(jīng)網(wǎng)絡模式識別中,輸入圖像和卷積核都是2維的,而語音信號是1維的.為充分利用卷積的優(yōu)勢,采用短時傅里葉變換將語音映射到時頻域.神經(jīng)網(wǎng)絡的輸入維度必須一致否則無法訓練,然而收集到的語音在時間上無法保證一致等長.因此將一段語音切分為以2 s為一個小段的多段,每2 s的小段經(jīng)過短時傅里葉變換得到時頻矩陣,放入網(wǎng)絡中進行訓練,對應的標簽即表示所屬被試是否抑郁.若語音時長不是2 s的整數(shù)倍,則去掉語音開頭多余的時間,如一段5.4 s的語音去掉開頭的1.4 s,剩余4 s以2 s為一個單位劃分為兩段,然后將這兩段語音放入神經(jīng)網(wǎng)絡中進行訓練.每個2 s的單位片段都會輸出一個瓶頸層特征,所以每段語音可以得到若干個神經(jīng)網(wǎng)絡提取的瓶頸層特征.因此,語音無論被分為幾個小片段都在瓶頸層維度上求平均值,由此保證不等長的語音片段得到的深度學習特征維度的一致性.本文所用的DD-AudioNet的損失函數(shù)設置為交叉熵,使用Adam優(yōu)化器訓練網(wǎng)絡.LSTM的單元維度設置為64,雙向LSTM的輸出層是128維的向量.因此,本文提取的深度學習特征共有128個.

      注意力機制結構如圖3所示.將Bi-LSTM的輸出通過一層的多層感知機得到ut,作為ht的隱式表達,之后用ut與整個語音段的矢量uω的相似性來衡量每一片段的重要性.然后通過一個Softmax函數(shù)得到標準化后的權重系數(shù)αt,最后語音矢量s經(jīng)過ht加權求和得到.語音矢量s可以被視為一段語音的高維特征表示,類似于自然語音處理任務中對一段query經(jīng)過循環(huán)神經(jīng)網(wǎng)絡提取到的特征.uω是通過訓練學習得到的最終參數(shù),初始時是隨機的矢量.且

      圖3 注意力機制結構的示意圖Fig.3 Schematic diagram of the structure of attention mechanism

      其中:Wω,bω是隨機初始化的可訓練參數(shù),會隨著訓練不斷更新.

      1.3 特征選擇

      Lasso[11]是一種基于一范式的特征選擇方法,通過對系數(shù)的壓縮舍棄系數(shù)低于閾值的變量,然后保留剩下的變量作為有效特征.本文的目標是分類任務,所以采用特征選擇模型的本質是Lasso-Logistic回歸[12],在Logistic回歸模型參數(shù)固定的基礎上比較不同的Lasso參數(shù),根據(jù)最優(yōu)的準確率確定參數(shù)[13].在本文所有實驗中,模型懲罰系數(shù)λ設置為0.005,Lasso不僅能夠準確地選擇出與類標簽強相關的變量,同時還具有特征選擇的穩(wěn)定性.

      1.4 遷移學習

      在分類算法中,為保證模型的準確性和魯棒性,都假設訓練樣本與測試樣本滿足獨立同分布的條件,但實際中這個條件往往無法滿足.遷移學習的目的是通過遷移已有的知識來解決訓練樣本與測試樣本分布不一致的問題[14].采用無監(jiān)督的源適應遷移方法CORAL(Correlation Alignment)[15],通過對齊訓練集特征和測試集特征之間的2階協(xié)方差矩陣信息,拉近訓練樣本與測試樣本的數(shù)據(jù)分布.CORAL算法的具體描述如下:

      輸入: 訓練集特征DS為Ns×Nfeature的矩陣;測試集特征DT為NT×Nfeature的矩陣;訓練集樣本數(shù)Ns;測試集樣本數(shù)NT;特征維度Nfeature

      CS=cov(DS)+eye(size(DS,2))size(DS,2)為Nfeature矩陣的列數(shù);eye(n)為n×n的單位矩陣;cov為協(xié)方差矩陣;CS為中間變量

      CT=cov(DT)+eye(size(DT,2))CT為中間變量

      1.5 分類模型

      1.5.1 分類器

      本文使用的分類模型包括邏輯回歸、隨機森林和XgBoost 3種.邏輯回歸是一種廣義線性模型,假設因變量y服從伯努利分布,是一種解決二分類問題常見的機器學習算法.高翔[29]的研究表明集成學習模型可以提升其分類效果,因此本文也采用隨機森林、XgBoost這兩種以二叉樹為基分類器的集成學習算法.隨機森林屬于聚集類方法,通過加入屬性擾動降低方差來提高性能,而XgBoost屬于提升類方法,通過降低偏差來提升性能.

      1.5.2 模型評價指標

      模型所得分類結果的混淆矩陣如表1所示.用kTP表示事實為抑郁被試的語音被正確識別的數(shù)量;用kFP表示事實為正常被試的語音被錯誤識別為抑郁被試的數(shù)量;用kTN表示事實為正常被試的語音被正確識別的數(shù)量;用kFN表示事實為抑郁被試的語音被錯誤識別為正常被試的數(shù)量.

      表1 分類結果的混淆矩陣Tab.1 The confusion matrix of classification result

      本文采用的評價指標包括準確率λACC、F1分數(shù)F1和AUC(Area under curve)值SAUC.定義

      2 抑郁語音識別實驗

      2.1 實驗過程

      語音數(shù)據(jù)采集自112名抑郁患者和69名健康被試,抑郁組和健康組之間的年齡和性別均無統(tǒng)計學意義上的差異.所有被試排除物質濫用、物質依賴、人格障礙等其他精神疾病,無嚴重的軀體疾病或自殺行為.本研究的語音任務“模擬訪談”,包括正、中、負3種誘發(fā)情緒.任務中,被試需要對不同的問題進行回答,從而獲得語音數(shù)據(jù).每名被試對每個問題的回答都會單獨生成一段語音數(shù)據(jù).模擬訪談任務的3種情緒條件下各有3道相同情緒效價的問題,因此每個被試產(chǎn)生9條語音片段,本研究一共采集181×9=1 629條語音片段.

      從抑郁被試和健康被試中各隨機抽取25人,共50人的語音片段作為測試集,其他131名被試的語音片段作為訓練集.對于時長不足2 s的語音片段由于其信息量不足而不予采用,最終得到400個語音片段作為測試集,1 060個語音片段作為訓練集,其中訓練集和測試集中的語音片段來自于不同的被試.

      2.2 實驗結果

      表2展示的是根據(jù)不同特征集分別建模的結果.無論哪種分類方法,深度學習特征的結果普遍優(yōu)于其他類特征,其最高的準確率、F1分數(shù)、AUC分別為0.833、0.808、0.881.其他特征中表現(xiàn)較好的Mel頻率倒譜系數(shù)和聲學特征的準確率可以達到0.7以上.上述結果說明利用DD-AudioNet提取的深度學習特征相比其他特征有更好的效果.

      表2 不同方法對6類特征的分類結果Tab.2 Classification results of six types of features by different methods

      在比較6類特征分別建模的效果之外,將6類特征進行不同組合以比較不同組合的分布結果.特征組合包括3種: 1) 全特征組,通過Lasso對6類共563個特征進行特征選擇后得到26個特征;2) 非深組,通過Lasso對深度學習特征以外的5類共435個特征進行特征選擇后得到17個特征;3) 獨立特征組,對6類特征分別進行特征選擇,選擇各類特征數(shù)目,如表2所示,再合并共得到77個特征.圖4(見第738頁)展示了3種特征組合的特征分布情況,深度學習特征在全特征組中的占比達到了84.6%,遠高于其他各類特征之和.表3(見第738頁)為3種特征組合的分類結果,發(fā)現(xiàn)當特征組合中有深度學習特征時準確率就能超過0.8,而特征組合中沒有深度學習特征時準確率不及0.7.全特征組表現(xiàn)最佳,其最高的準確率、F1分數(shù)和AUC值分別為0.840、0.815和0.885.

      圖4 特征組合特征的分布圖Fig.4 Distribution of combined feature sets

      表3 不同方法對特征組的分類結果

      3 結 語

      本文設計了一種用于抑郁識別的融合注意力機制與雙向長短時記憶網(wǎng)絡的算法.該算法的特點在于從網(wǎng)絡結構中提取瓶頸層向量作為深度學習特征,并引入遷移學習來降低訓練集和測試集數(shù)據(jù)分布差異帶來的影響.經(jīng)實驗驗證該算法在中文數(shù)據(jù)集上取得了較以往算法更好的預測效果.通過比較深度學習特征和常用的5類語音特征的預測效果,發(fā)現(xiàn)深度學習特征的識別效果最佳.特征組合的結果發(fā)現(xiàn),特征選擇后的特征集中保留的深度學習特征所占比例顯著高于其他特征,說明其可能包涵更多抑郁的信息.進一步的分類結果也顯示包含更多深度學習特征的特征組合的識別結果更佳.通過非侵入、易采集的信息去識別抑郁是實現(xiàn)抑郁快速篩查的基礎,未來可嘗試將本研究的算法應用于臨床,實踐其在真實就診環(huán)境中的檢測效果.

      猜你喜歡
      特征選擇語音神經(jīng)網(wǎng)絡
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      Kmeans 應用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      聯(lián)合互信息水下目標特征選擇算法
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內LBS應用
      基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
      延长县| 濮阳市| 永寿县| 延长县| 山西省| 博野县| 甘洛县| 黄浦区| 调兵山市| 仪陇县| 盘锦市| 台山市| 哈密市| 达孜县| 兴和县| 咸丰县| 兴义市| 平陆县| 禹城市| 吴川市| 巨鹿县| 祁门县| 宁远县| 若羌县| 肃宁县| 耒阳市| 沅江市| 醴陵市| 兴安县| 田东县| 九龙县| 南溪县| 海口市| 留坝县| 凭祥市| 英山县| 景德镇市| 荃湾区| 崇明县| 靖远县| 潞西市|