• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    心音識(shí)別的機(jī)遇與挑戰(zhàn): 深圳心音數(shù)據(jù)庫簡(jiǎn)介

    2020-06-28 13:01:14董逢泉戴振宇博雅恩
    關(guān)鍵詞:心音音頻數(shù)據(jù)庫

    錢 昆,董逢泉,任 昭,戴振宇,董 博,博雅恩,5

    (1. 東京大學(xué) 身體教育學(xué)實(shí)驗(yàn)室,日本 東京 113-0033; 2. 深圳大學(xué)總醫(yī)院 心血管內(nèi)科,廣東 深圳 518055;3. 奧格斯堡大學(xué) 嵌入式智能保健醫(yī)療與社會(huì)福祉實(shí)驗(yàn)室,德國 奧格斯堡 86159;4. 溫州醫(yī)科大學(xué)附屬第一醫(yī)院 心內(nèi)科,浙江 溫州 325035;5. 帝國理工大學(xué) 語言音頻與音樂課題組,英國 倫敦 SW72AZ)

    心血管疾病(Cardiovascular Disease, CVD)是人類致死率最高的疾病之一.根據(jù)歐洲心臟網(wǎng)絡(luò)(European Heart Network, EHN)最新公布的調(diào)查報(bào)告顯示: 由心血管疾病導(dǎo)致的死亡人數(shù)占到年病死人數(shù)的45%[1].另外,結(jié)構(gòu)性心臟病的診斷和治療經(jīng)歷了漫長(zhǎng)的探索過程,隨著介入治療領(lǐng)域許多新的手段與方法的不斷涌現(xiàn),結(jié)構(gòu)性心臟病的治療取得了突飛猛進(jìn)的發(fā)展.結(jié)構(gòu)性心臟病是指解剖異常引起心臟結(jié)構(gòu)的改變所造成心臟的病理生理變化.它包括: 1) 先天性心臟病異常,如室間隔缺損(Ventricular Septal Defect, VSD)、房間隔缺損(Atrial Septal Defect, ASD)、動(dòng)脈導(dǎo)管未閉(Patent Ductus Arteriosus, PDA)等.2) 心臟瓣膜病(二尖瓣、主動(dòng)脈瓣等).3) 心肌病(肥厚性心肌病、擴(kuò)張型心肌病、致心律失常型右室心肌病等).4) 心肌梗死后室間隔穿孔、室壁瘤等.聽診器聽音是心內(nèi)科醫(yī)生檢查心臟狀態(tài)最常見的手段之一,其便捷、快速、廉價(jià)的優(yōu)勢(shì)在臨床診斷上得到充分體現(xiàn).然而,研究表明: 大約只有不到20%的內(nèi)科實(shí)習(xí)醫(yī)生可以熟練使用聽診器去篩查心血管疾病[2].此外,培養(yǎng)1個(gè)可以熟練使用聽診器的內(nèi)科醫(yī)生需要大量的訓(xùn)練和臨床經(jīng)驗(yàn)的積累[3].隨著心電圖、心臟彩超等檢查手段的普及,心臟聽診技能在醫(yī)生中有進(jìn)一步顯著退化的趨勢(shì),在一些缺乏檢查手段的農(nóng)村,基層社區(qū)等地方,心臟聽診的缺失意味著病人冒著很高的心血管疾病和結(jié)構(gòu)性心臟病的漏診風(fēng)險(xiǎn).近20年來,隨著機(jī)器學(xué)習(xí)和信號(hào)處理技術(shù)的發(fā)展,開發(fā)基于機(jī)器聽覺的自動(dòng)聽診系統(tǒng)受到廣泛關(guān)注[4].Ismail等[4]對(duì)基于機(jī)器聽覺的心音識(shí)別工作進(jìn)行了系統(tǒng)性的調(diào)研.前述工作中對(duì)于心音的識(shí)別主要集中在心音切割和心音識(shí)別兩個(gè)方面.前者關(guān)注將整段的心音數(shù)據(jù)切割成若干組成部分: S1(由二尖瓣和三尖瓣關(guān)閉引起)、S2(由主動(dòng)脈和肺動(dòng)脈關(guān)閉引起)、雜音等.后者關(guān)注從心音數(shù)據(jù)的分析中判斷受試者是否有心血管疾病.

    相關(guān)工作取得了一定的成果,但心音識(shí)別領(lǐng)域依然處于亟待發(fā)展階段.相關(guān)的研究存在以下4點(diǎn)不足.1) 標(biāo)準(zhǔn)化的數(shù)據(jù)庫極度缺乏.表1對(duì)公開的心音數(shù)據(jù)庫[5-6]與本文所介紹的深圳心音數(shù)據(jù)庫(Heart Sounds Shenzhen, HSS)[7]進(jìn)行了對(duì)比.可以看到,當(dāng)前最大的公開心音數(shù)據(jù)庫為PhysioNet心音數(shù)據(jù)庫[5].然而,此數(shù)據(jù)庫包含多個(gè)醫(yī)學(xué)中心采集的數(shù)據(jù),采集設(shè)備的配置、數(shù)據(jù)標(biāo)記的方法、數(shù)據(jù)的預(yù)處理等方面都不一致.HSS是迄今為止公開的單一醫(yī)學(xué)中心收集和標(biāo)注的最大的心音數(shù)據(jù)庫.2) 實(shí)驗(yàn)范式不統(tǒng)一.前述工作中,受試者獨(dú)立性(subject independency)被很多學(xué)者忽略,這樣極易造成結(jié)果的過分樂觀.同時(shí),多數(shù)工作采用交叉驗(yàn)證法(cross validation),這樣不利于實(shí)驗(yàn)的可復(fù)現(xiàn)性.3) 模型的評(píng)價(jià)指標(biāo)不一致.識(shí)別率、召回率、精確度被廣泛使用,但是對(duì)于心音數(shù)據(jù)這類非均衡數(shù)據(jù),這些指標(biāo)的使用往往有局限性.4) 相關(guān)工作之間缺乏可比較性.由于數(shù)據(jù)庫的標(biāo)準(zhǔn)化欠缺以及所用的模型評(píng)價(jià)指標(biāo)不一致,不同學(xué)者之間的工作缺乏可直接比較性.這樣也限制了心音識(shí)別領(lǐng)域的發(fā)展.

    表1 HSS 與其他公開的心音數(shù)據(jù)庫的比較Tab.1 Comparison between HSS and other released heart sound databases

    為了解決上述問題,深圳大學(xué)總醫(yī)院于2018年聯(lián)合德國Schuller教授團(tuán)隊(duì)在INTERSPEECH ComParE挑戰(zhàn)賽上公開了HSS數(shù)據(jù)庫.本文向國內(nèi)學(xué)者重點(diǎn)介紹此數(shù)據(jù)庫以及Schuller團(tuán)隊(duì)提出的國際前沿的音頻處理與識(shí)別技術(shù),通過對(duì)方法的介紹和討論,吸引國內(nèi)同行的關(guān)注和展開后續(xù)的工作.

    1 深圳心音數(shù)據(jù)庫

    由深圳大學(xué)總醫(yī)院錄制的全新心音數(shù)據(jù)庫(HSS)在2018年的INTERSPEECH ComParE挑戰(zhàn)賽上首次公布[7].作為標(biāo)準(zhǔn)化數(shù)據(jù)庫,HSS從數(shù)據(jù)采集、標(biāo)注,到后期歸一化處理和劃分都嚴(yán)格按照INTERSPEECH ComParE挑戰(zhàn)賽的規(guī)定進(jìn)行.心音數(shù)據(jù)采集工作得到了深圳大學(xué)總醫(yī)院倫理委員會(huì)的批準(zhǔn),共采集到合計(jì)845個(gè)音頻文件(總時(shí)長(zhǎng)約423min,單個(gè)時(shí)長(zhǎng)約30s),來自170位志愿者的心音數(shù)據(jù)(女性55人;男性115人,平均年齡為65.4歲,年齡標(biāo)準(zhǔn)差為±13.2歲,年齡范圍在21~88歲).數(shù)據(jù)采集裝置采用高品質(zhì)電子聽診器(美國Eko CORE),配置藍(lán)牙4.0無線傳輸數(shù)據(jù)功能,采樣頻率為4.0kHz.心音主要通過4個(gè)區(qū)域采集: 二尖瓣、三尖瓣、動(dòng)脈瓣和肺動(dòng)脈瓣.數(shù)據(jù)采集后,經(jīng)心內(nèi)科醫(yī)師結(jié)合心臟彩超對(duì)數(shù)據(jù)進(jìn)行標(biāo)記,劃分為3類,即正常、輕度和中/重度.

    表2 HSS的數(shù)據(jù)集劃分Tab.2 The data distribution of HSS

    綜合考慮性別、人數(shù)、數(shù)據(jù)類別,HSS將數(shù)據(jù)整體劃分為訓(xùn)練集(train)、開發(fā)集(development)和測(cè)試集(test).相較于之前心音識(shí)別研究中多數(shù)工作未考慮受試者獨(dú)立性,HSS嚴(yán)格確保單個(gè)志愿者提供的心音數(shù)據(jù)只出現(xiàn)在1個(gè)數(shù)據(jù)集中.在訓(xùn)練模型時(shí),訓(xùn)練集和開發(fā)集的數(shù)據(jù)可以用來對(duì)模型的參數(shù)進(jìn)行調(diào)整和優(yōu)化,而測(cè)試集的數(shù)據(jù)只能用來最后進(jìn)行1次測(cè)試,從而衡量系統(tǒng)的性能.HSS數(shù)據(jù)集的劃分見表2.

    2 標(biāo)準(zhǔn)化方法

    為了符合成功舉辦了10屆的INTERSPEECH ComParE挑戰(zhàn)賽提倡的科學(xué)研究的廣泛參與度和可復(fù)現(xiàn)性的要求,Schuller團(tuán)隊(duì)除了公開提供數(shù)據(jù)庫以外,還會(huì)提供包含信號(hào)處理、機(jī)器學(xué)習(xí)前沿算法的公開工具包,為參賽者提供參考依據(jù)和作為改進(jìn)其算法的基礎(chǔ).本節(jié)將為讀者分別介紹針對(duì)HSS心音數(shù)據(jù)提供的幾種算法框架.

    2.1 openSMILE提取特征

    openSMILE工具包[8-9]提供傳統(tǒng)聲學(xué)信號(hào)處理方法常用的特征,包括梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient, MFCC)、心理聲學(xué)特征、頻譜能量特征等.通過首先對(duì)音頻信號(hào)提取低層次特征(Low-Level Descriptor, LLD),然后通過功能函數(shù)(functional)對(duì)基于幀的低層次特征進(jìn)行統(tǒng)計(jì)學(xué)特征再提取,從而實(shí)現(xiàn)對(duì)1段時(shí)間的音頻信號(hào)樣本進(jìn)行統(tǒng)計(jì)信息提取,并且擺脫樣本時(shí)間長(zhǎng)度不一致對(duì)靜態(tài)機(jī)器學(xué)習(xí)模型(如支持向量機(jī)(Support Vector Machine, SVM))的限制.2018年的INTERSPEECH ComParE挑戰(zhàn)賽選用了ComParE特征集,該特征集作為廣泛使用的特征集,具有特征聲學(xué)意義明確、魯棒性強(qiáng)、性能穩(wěn)定等特點(diǎn),被廣泛應(yīng)用于除了語音和音樂外的其他聲學(xué)識(shí)別領(lǐng)域,如鳥聲識(shí)別[10]、鼾聲識(shí)別[11]、聲音場(chǎng)景識(shí)別[12]等.ComParE特征集包含了65個(gè)聲學(xué)低層次特征[13],另還有相關(guān)功能函數(shù)被應(yīng)用于再提取統(tǒng)計(jì)特征[13],共計(jì)提取6373維度特征.

    2.2 openXBOW提取特征

    openXBOW工具包[14]提供基于詞包法(Bag-of-Words, BoW)的特征提取途徑.詞包法最早應(yīng)用于自然語言處理(Natural Language Processing, NLP)[15].而“詞包”的概念最早可以追溯到20世紀(jì)50年代[16],其基本思想可以簡(jiǎn)單概括為通過構(gòu)建字典(codebook),從而統(tǒng)計(jì)1段信息中相應(yīng)單詞(words)出現(xiàn)的頻率,從而得到可以描述信息的統(tǒng)計(jì)特征.對(duì)音頻識(shí)別領(lǐng)域,首先,基于幀的低層次特征可以從音頻信號(hào)中通過信號(hào)處理算法提取出來.然后,通過無監(jiān)督的聚類方法(openXBOW默認(rèn)采用K-means++算法[17])生成字典.最后,通過統(tǒng)計(jì)單詞在樣本出現(xiàn)的頻率,即詞頻(Term Frequency, TF),得到可以用來構(gòu)建分類器進(jìn)行模式識(shí)別的特征.詞包法的詳細(xì)原理和openXBOW的工作原理可以參考文獻(xiàn)[14].相比于傳統(tǒng)的基于功能函數(shù)的特征提取方法,詞包法的優(yōu)勢(shì)在于可以從訓(xùn)練數(shù)據(jù)全局出發(fā),提取出更有統(tǒng)計(jì)信息的特征來描述數(shù)據(jù)樣本.

    2.3 auDeep提取特征

    auDeep工具包[18]提供基于“序列到序列”(sequence to sequence learning)方法,從音頻信號(hào)中自動(dòng)提取具有時(shí)序信息的特征.首先,音頻信號(hào)被轉(zhuǎn)換成圖像(語譜圖).然后,通過基于自動(dòng)編碼器(autoencoders)和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)結(jié)合,在“序列到序列”的方法下進(jìn)行高層次特征提取.最后,所提取的特征可以通過分類器,如支持向量機(jī)、多層感知器(Multilayer Perceptron, MLP)、隨機(jī)森林(Random Forest, RF)等模型完成分類任務(wù).此方法在特征學(xué)習(xí)階段是完全無監(jiān)督模式,同時(shí)通過遞歸神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到信號(hào)的動(dòng)態(tài)時(shí)序信息.

    2.4 End2You端到端框架

    End2You工具包[19]提供基于“端到端框架”的模型,擺脫了傳統(tǒng)學(xué)習(xí)中需要耗費(fèi)大量時(shí)間和專業(yè)知識(shí)的人手動(dòng)設(shè)計(jì)特征[20]的環(huán)節(jié).原始的音頻信號(hào)通過由卷積神網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和遞歸神經(jīng)網(wǎng)絡(luò)組成的深度學(xué)習(xí)(Deep Learning, DL)模型自動(dòng)學(xué)習(xí)到特征,從而完成分類任務(wù).在整個(gè)“端到端框架”中,不涉及任何需要人類專家知識(shí)去設(shè)計(jì)聲學(xué)特征,而是通過深度學(xué)習(xí)技術(shù)[21]自動(dòng)學(xué)習(xí)到信號(hào)的特征.

    2.5 模型評(píng)價(jià)指標(biāo)

    如同很多醫(yī)學(xué)信號(hào),HSS在數(shù)據(jù)樣本分布上體現(xiàn)了極度明顯的非均衡特征(imbalanced characteristic).因此,采用傳統(tǒng)的評(píng)價(jià)指標(biāo),如識(shí)別率(accuracy),將會(huì)導(dǎo)致對(duì)樣本數(shù)量多的那類數(shù)據(jù)過于樂觀和對(duì)樣本數(shù)量少的那類數(shù)據(jù)過于悲觀的情況出現(xiàn).INTERSPEECH ComParE挑戰(zhàn)賽沿用了之前使用的無加權(quán)平均召回率(Unweighted Average Recall, UAR)作為對(duì)模型的評(píng)價(jià)指標(biāo),其定義為每類數(shù)據(jù)樣本召回率(recall)的平均值.

    3 討 論

    圖1 官方公布的測(cè)試集上的最好結(jié)果[7]Fig.1 The best results achieved on the test set by released official baseline[7]

    圖1所示為官方公布的不同方法在測(cè)試集上的最好性能的對(duì)比.最好的結(jié)果是由兩個(gè)獨(dú)立訓(xùn)練的模型經(jīng)過投票選擇的融合后取得的(UAR: 56.2%)[7].端到端框架模型在這組心音數(shù)據(jù)的表現(xiàn)上沒有展現(xiàn)出很好的性能(UAR: 37.7%).其原因可能是由于數(shù)據(jù)規(guī)模有限,很難利用深度學(xué)習(xí)模型學(xué)習(xí)到魯棒性強(qiáng)的心音高層特征.對(duì)于單個(gè)模型而言,詞包法表現(xiàn)性能最為優(yōu)越(UAR: 52.3%).在官方給出的基準(zhǔn)實(shí)驗(yàn)中,基于openSMILE和基于openXBOW的特征都是通過對(duì)ComParE特征集中的低層次特征再提取得到,兩者分別應(yīng)用了功能函數(shù)和詞頻統(tǒng)計(jì)方法.官方的實(shí)驗(yàn)結(jié)果與Qian等[11]在鼾聲識(shí)別中的研究有一致性,即相較于功能函數(shù),詞包法提取的特征更具有全局的統(tǒng)計(jì)意義,從而表現(xiàn)出比功能函數(shù)特征更好的性能.值得注意的是,基于auDeep提取的特征表現(xiàn)性能良好(UAR: 47.9%).該方法在特征提取階段采用無監(jiān)督方法訓(xùn)練,能有效學(xué)習(xí)心音信號(hào)的時(shí)間序列信息,由于直接從語譜圖中提取特征,因此也擺脫了需要手工設(shè)計(jì)特征的環(huán)節(jié),大量減少了人類專家的工作量.并且,結(jié)合了auDeep提取特征訓(xùn)練和openXBOW提取特征訓(xùn)練的模型可以提升系統(tǒng)的性能,因此,多特征、多模型融合技術(shù)是未來值得關(guān)注的方向.

    需要指出的是,3個(gè)表現(xiàn)性能最優(yōu)的單個(gè)模型,即openSMILE、openXBOW和auDeep提取特征訓(xùn)練的模型,都是通過傳統(tǒng)的短時(shí)傅里葉變換(Short-Time Fourier Transformation, STFT)[22]取得的.盡管此方法成功應(yīng)用于語音、音樂和其他音頻領(lǐng)域,魯棒性也較強(qiáng),但依然無法克服短時(shí)傅里葉變換由于類似海森堡不確定性原理所帶來的無法在時(shí)域和頻域都取得優(yōu)良分辨率的缺陷[23].心音信號(hào)既屬于音頻信號(hào),也屬于生理醫(yī)學(xué)信號(hào),對(duì)于生理醫(yī)學(xué)信號(hào),小波變換(Wavelet Transformation, WT)[24-25]提供了不同于傅里葉變換的另一種分析方法.小波變換的多分辨率的特性已經(jīng)在鼾聲識(shí)別[11,26-27]和聲音場(chǎng)景識(shí)別[12,28-29]領(lǐng)域取得了一系列成功,因此,未來可以探索基于小波變換的心音特征的提取方法.同時(shí),結(jié)合深度學(xué)習(xí)技術(shù)來提升模型的整體性能.

    4 結(jié) 語

    本文介紹了最新公布的標(biāo)準(zhǔn)化心音數(shù)據(jù)庫(HSS)以及隨INTERPEECH ComParE挑戰(zhàn)賽提供的前沿的聲音識(shí)別算法.當(dāng)前官方基準(zhǔn)實(shí)驗(yàn)取得了最高56.2%的UAR,傳統(tǒng)的聲學(xué)特征提取方法和前沿的方法都分別取得了良好性能.然而,現(xiàn)階段心音識(shí)別的研究局限性仍然存在,如公開數(shù)據(jù)庫較少、算法可復(fù)現(xiàn)性差、評(píng)價(jià)指標(biāo)不統(tǒng)一、實(shí)驗(yàn)方法缺少標(biāo)準(zhǔn)化等.作為多學(xué)科交叉領(lǐng)域,心音識(shí)別方面的工作需要國內(nèi)外同行的共同努力.

    猜你喜歡
    心音音頻數(shù)據(jù)庫
    必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    基于雙閾值的心音快速分段算法及其應(yīng)用研究
    雙聲道心音能量熵比的提取與識(shí)別研究
    基于香農(nóng)熵的心音信號(hào)檢測(cè)方法研究
    音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
    電子制作(2017年9期)2017-04-17 03:00:46
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    清水河县| 日喀则市| 泽州县| 汨罗市| 繁昌县| 三门峡市| 广水市| 承德县| 长武县| 手机| 天镇县| 遵义市| 汤阴县| 乾安县| 遵化市| 二连浩特市| 象州县| 浮梁县| 和平县| 广水市| 太和县| 红安县| 镇平县| 白沙| 九江市| 云南省| 武义县| 阆中市| 巴南区| 五指山市| 鄯善县| 锡林郭勒盟| 苏尼特右旗| 博客| 九台市| 高青县| 喀什市| 齐齐哈尔市| 新乡县| 原平市| 高雄县|