摘 要:重音是語言交流中不可或缺的部分,在語言交流中扮演著非常重要的角色。本文基于ASCCD朗讀語篇語料庫,提取每個(gè)語音段基于子段拼接的短時(shí)譜信息,分別構(gòu)建基于MFCC算法的短時(shí)譜特征集和基于RASTA-PLP算法的短時(shí)譜特征集;并選用NaiveBayes分類器對這兩類基于子段拼接的特征集進(jìn)行建模,這種分類方法充分利用了當(dāng)前語音段的相關(guān)語音特性;基于子段拼接的MFCC短時(shí)譜特征組和基于子段拼接的RASTA-PLP短時(shí)譜特征組在ASCCD上能夠分別得到82.1%和80.8%的漢語重音檢測正確率。實(shí)驗(yàn)結(jié)果證明,基于子段拼接特征規(guī)整方法可以用于漢語重音檢測研究中。
關(guān)鍵詞:重音;重音檢測;子段拼接;短時(shí)譜特征
中圖分類號:TP319
漢語重音檢測是指通過對語音信號的分析處理,提取相應(yīng)的語音特征或建立相應(yīng)的語音模型,用來確定某個(gè)音節(jié)是否是重音。本文主要研究了基于MFCC算法和RASTA-PLP算法的漢語重音檢測技術(shù),構(gòu)建了基于子段拼接特征規(guī)整方法的短時(shí)譜特征集。
1 研究狀況
現(xiàn)有的重音檢測方法一般都采用基于整個(gè)音節(jié)提取音節(jié)級的聲學(xué)特征及其統(tǒng)計(jì)特征[1-8]。本文提出了一種針對NaiveBayes輸入特征規(guī)整的改進(jìn)方案,即基于子段拼接方法的短時(shí)譜特征(語音幀級特征),子段拼接的短時(shí)譜特征是以每個(gè)音節(jié)的語音段為單位,把每個(gè)漢字的所有語音幀平均分為多段,相當(dāng)于把時(shí)長、強(qiáng)度、聲母和韻母進(jìn)行了細(xì)分。由此看來,基于子段拼接的短時(shí)譜特征包含更多的信息,可以更細(xì)致地刻畫語音的細(xì)節(jié),對漢語重音檢測更有力。
2 子段拼接特征規(guī)整
與HMM可以處理時(shí)序變量不同,NaiveBayes只能處理固定長度的輸入向量,因此利用NaiveBayes進(jìn)行重音檢測必須將長度(幀數(shù))不等的語音段轉(zhuǎn)換為維數(shù)統(tǒng)一的特征。常見的維數(shù)處理方法主要有重采樣、基于幀平均、基于狀態(tài)拼接等。圖1給出了文獻(xiàn)[9]中使用線性重采樣的特征規(guī)整方式的原理圖(以“我”字為例),此做法實(shí)際上只利用了部分語音幀信息。圖2給出了文獻(xiàn)[10]中使用基于幀平均的(Frame-averaged)特征規(guī)整方式的原理圖,即直接將每一幀的特征作為NaiveBayes的輸入向量,然后對各幀的NaiveBayes輸出結(jié)果進(jìn)行平均。圖3給出了基于狀態(tài)拼接的(State-concatenated)特征規(guī)整的原理圖,即利用HMM進(jìn)一步確定語音段的狀態(tài)序列,將各個(gè)狀態(tài)對應(yīng)的平均特征向量進(jìn)行拼接,形成一個(gè)維數(shù)固定的復(fù)合特征向量。為了充分利用語音段的特征信息,本文針對NaiveBayes對輸入特征的要求及結(jié)合語音信號的特點(diǎn),引入了一種基于子段拼接的特征處理方案,即以每個(gè)音節(jié)的語音幀為單位,把每個(gè)漢字的所有語音幀平均分為多段,把這種細(xì)分化的語音特征稱為短時(shí)譜特征,如圖4所示。
語音的時(shí)序性決定了在對語音進(jìn)行聲學(xué)建模的時(shí)候必須考慮頻域特征的時(shí)間變化,線性重采樣方案雖然在一定程度上實(shí)現(xiàn)了特征的時(shí)序描述,但對音素段的各特征幀的變化規(guī)律沒有進(jìn)行深入挖掘,采樣得到的特征幀不能充分描述整個(gè)音素段的特性(采樣幀數(shù)太少則信息丟失嚴(yán)重,而采樣幀數(shù)太多則顯著增加了特征維數(shù))。而幀平均的方案由于直接對各個(gè)孤立的語音幀進(jìn)行操作,沒有體現(xiàn)出對特征時(shí)序變化的描述?;跔顟B(tài)拼接的方案和基于子段拼接的方法實(shí)質(zhì)上都是對語音的音素段進(jìn)行整體建模(Segmental modeling),加強(qiáng)了時(shí)序描述的力度。但基于狀態(tài)拼接在各狀態(tài)的平均特征進(jìn)行拼接的過程中,需要事先通過HMM解碼出對應(yīng)的狀態(tài)序列,因此運(yùn)算量有所增加。與之比較,基于子段拼接的方法且計(jì)算量小、速度快;還充分反映了音節(jié)內(nèi)部語音變化的過程。
3 ASCCD朗讀語篇語料庫
ASCCD朗讀語篇語料庫(Annotated Speech Corpus of Chinese Discourse)由語篇語料、語音數(shù)據(jù)和語音學(xué)標(biāo)注信息組成,適用于語言語音研究、語音工程開發(fā)和基礎(chǔ)漢語普通話教學(xué)等領(lǐng)域。語料文本是18篇敘事體、議論體語篇,每篇3-5個(gè)自然段,每個(gè)自然段500-600個(gè)音節(jié),總計(jì)9000個(gè)音節(jié),共10個(gè)發(fā)音人,5男5女,分別記為M001、M002、M003、M004、M005、F001、F002、F003、F004、F005,使用標(biāo)準(zhǔn)普通話,以自然的方式,標(biāo)準(zhǔn)的語速,流暢地朗讀語篇。所有語音都經(jīng)過標(biāo)注,音段采用SAMPA-C標(biāo)準(zhǔn)標(biāo)注[11],韻律采用C-ToBI韻律標(biāo)注系統(tǒng)標(biāo)注,其標(biāo)注了音節(jié)拼音、聲韻母、聲調(diào)、韻律邊界等級以及語句重音信息[12],標(biāo)記了每個(gè)韻律單位的重音,共分0、1、2、3級。漢語的重音也是與韻律結(jié)構(gòu)對應(yīng)的層級結(jié)構(gòu)。韻律詞中最重音節(jié)重音標(biāo)為1,次要韻律短語中最重音節(jié)重音標(biāo)為2,主要韻律短語中最重音節(jié)重音標(biāo)為3,0則表示不重讀,即正常讀音。在本研究中,我們將音節(jié)分為正常讀音和重音,不細(xì)分它們之間的差別,將韻律詞重音和次要韻律短語(MIP)重音看做正常讀音,只把主要韻律短語(MAP)重音看作是重讀。ASCCD語料庫中重音的分布如表1所示。
4 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果分析
4.1 實(shí)驗(yàn)配置
在漢語語料庫ASCCD上,選擇F001、F002、F003和F005四個(gè)人作為訓(xùn)練集,選擇F004一個(gè)人作為測試集,在句子層次上訓(xùn)練集與測試集的大小是4:1,在音節(jié)層次上訓(xùn)練集共包含了35060個(gè)音節(jié),測試集上共包含了8761個(gè)音節(jié),其中重音音節(jié)有964個(gè)。本文采用機(jī)器學(xué)習(xí)的分類方法,該方法是從已有的訓(xùn)練集中提取相關(guān)特征,如基于子段拼接的MFCC短時(shí)譜特和基于子段拼接的RASTA-PLP短時(shí)譜特征,以這些特征作為輸入,進(jìn)行訓(xùn)練模型,使用訓(xùn)練好的最終模型來生成韻律。對于機(jī)器學(xué)習(xí)方法,我們選擇WEKA的NaiveBayes分類器,NaiveBayes分類器的分類原理是通過某對象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對象所屬的類,并且使用WEKA的默認(rèn)設(shè)置訓(xùn)練得到。
4.2 基于MFCC特征的方法
在基于子段拼接的MFCC短時(shí)譜特征中,不同子段數(shù)的重音檢測識別率如下圖8所示。
圖5 不同分段數(shù)下基于MFCC特征的識別率
由上圖可知,從5個(gè)子段拼接的短時(shí)譜特征到20個(gè)子段拼接的短時(shí)譜特征,不同子段拼接的短時(shí)譜特征識別率變化不是很大,都保持在80%左右;當(dāng)把一個(gè)漢字語音段分為18個(gè)子段時(shí),短時(shí)譜特征識別率達(dá)到最高是82.1%。本文采用18個(gè)子段拼接的短時(shí)譜特征,在每個(gè)子段中提取MFCC參數(shù)每一維(共13維)的最大值、最小值和平均值,構(gòu)建了基于子段拼接的MFCC短時(shí)譜特征集,即共提取13*18*3=702個(gè)特征。
4.3 基于RASTA-PLP特征的方法
在基于子段拼接的RASTA-PLP短時(shí)譜特征中,不同子段數(shù)的重音檢測識別率如下圖所示。
圖6 不同分段數(shù)下基于RASTA-PLP特征的識別率
由上圖9可知,從5個(gè)子段拼接的短時(shí)譜特征到13個(gè)子段拼接的短時(shí)譜特征,不同子段拼接的短時(shí)譜特征識別率變化不是很大,都保持在73%左右;在分為14個(gè)子段的地方出現(xiàn)了一個(gè)大幅度的下降;從15個(gè)子段拼接的短時(shí)譜特征到18個(gè)子段拼接的短時(shí)譜又逐漸上升,在18個(gè)子段拼接的地方識別率達(dá)到最高80.8%。本文采用18個(gè)子段拼接的短時(shí)譜特征,在每個(gè)子段中提取RASTA-PLP參數(shù)每一維(共9維)的最大值、最小值和平均值,構(gòu)建了基于子段拼接的RASTA-PLP短時(shí)譜特征集,即共提取9*18*3=486個(gè)特征。
5 總結(jié)與展望
本文詳細(xì)闡述了基于子段拼接的MFCC短時(shí)譜特征集和基于子段拼接的RASTA-PLP短時(shí)譜特征集。然后,采用NaiveBayes分類算法在ASCCD朗讀語篇語料庫上對當(dāng)前音節(jié)基于子段拼接的短時(shí)譜特征進(jìn)行建模,NaiveBayes是選擇具有最大后驗(yàn)概率的類作為該對象所屬的類,這種分類方法充分利用了當(dāng)前語音段的相關(guān)語音特性。實(shí)驗(yàn)結(jié)果表明基于子段拼接的MFCC短時(shí)譜特征和基于子段拼接的RASTA-PLP短時(shí)譜特征都具有很高的識別率。將來,我們要對所用的特征進(jìn)行簡化,或改進(jìn)MFCC和RASTA-PLP算法,旨在提取最少的特征得到更高的識別率。
參考文獻(xiàn):
[1]邵艷秋,韓紀(jì)慶,劉挺.自然風(fēng)格言語的漢語句重音自動判別研究[J].聲學(xué)學(xué)報(bào),2006(03):203-210.
[2]胡偉湘,董宏輝,陶建華.漢語朗讀話語重音自動分類研究[J].中文信息學(xué)報(bào),2005(06):80-85.
[3]陳楠,賀前華,王偉凝.基音同步幀長特征在英語詞重音檢測中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2008(06):1533-1536.
[4]陳楠,賀前華.非線性加權(quán)能量特征在英語詞重音檢測中的應(yīng)用[J].聲學(xué)學(xué)報(bào)(中文版),2008(06):520-525.
[5]陳楠,賀前華,李韜.基于聽覺模型的特征在英語重音檢測中的應(yīng)用[J].計(jì)算機(jī)工程,2009(08):26-27+30.
[6]李坤,劉加.基于聽感知特征的英語句子重音檢測[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(04):613-617.
[7]倪崇嘉,張愛英,劉文舉.基于聲學(xué)相關(guān)特征與詞典語法相關(guān)特征的漢語重音檢測[J].計(jì)算機(jī)學(xué)報(bào),2011(09):1638-1649.
[8]倪崇嘉,劉文舉,徐波.基于互補(bǔ)模型的漢語重音檢測[J].計(jì)算機(jī)工程,2011(23):20-23.
[9]董濱,趙慶衛(wèi),顏永紅.基于共振峰模式的漢語普通話中韻母發(fā)音水平客觀測試方法的研究[J].聲學(xué)學(xué)報(bào),2007(02):122-128.
[10]李宏言,黃申,王士進(jìn).基于GMM-UBM和GLDS-SVM的英文發(fā)音錯誤檢測方法[J].自動化學(xué)報(bào),2010(02):332-336.
[11] Chen Xiaoxia,Li Aijun,Sun Guohua,Wu Hua,Yin Zhigang.An application of SAMPA-C for standard Chinese//Proceedings of the International Conference on Spoken Language Processing. Beijing,China,2000:652-655.
[12]Li Ai jun.Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 200.Aix-en-Provence,F(xiàn)rance,2002:39-46.
作者簡介:趙云雪(1986-),女,山東聊城人,學(xué)生,碩士在讀,研究方向:計(jì)算機(jī)輔助語言學(xué)習(xí);通訊作者:張瓏,副教授。
作者單位:哈爾濱師范大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,哈爾濱 150025;哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001
基金項(xiàng)目:黑龍江省自然科學(xué)基金(項(xiàng)目編號:F201321);黑龍江省哲學(xué)社會科學(xué)外語聯(lián)合研究項(xiàng)目(項(xiàng)目編號:12H007)。