周籮魚, 蔡昌新, 孫祥娥
(長江大學(xué)a.電子信息學(xué)院;b.電工電子國家級實驗教學(xué)示范中心,湖北 荊州 434023)
當前正處于信息化和智能化的時代,無論是信息化還是智能化,其基礎(chǔ)都是“數(shù)字化”。數(shù)字語音處理課程是數(shù)字化系列中的一門重要課程。該課程是在多門學(xué)科基礎(chǔ)上發(fā)展起來的綜合性的學(xué)科高度交叉融合的課程,其目的是讓學(xué)生在掌握語音處理的基礎(chǔ)、原理、方法和應(yīng)用的同時,了解該學(xué)科領(lǐng)域近年來取得的一些新成果、新進展、新技術(shù),并訓(xùn)練學(xué)生針對語音技術(shù)的工程問題,提出相應(yīng)的解決方案[1-2]。
然而,數(shù)字語音處理課程的實驗多以驗證性實驗內(nèi)容為主,無法體現(xiàn)工程中實際問題的解決[3-5]。這樣一方面造成學(xué)生對實驗項目的興趣不高;另一方面學(xué)生的實踐能力得不到真正鍛煉,其解決工程問題的能力沒有得到提高。
研究性實驗教學(xué)能夠激發(fā)學(xué)生的自主學(xué)習(xí)意愿、培養(yǎng)學(xué)生的創(chuàng)新思維能力[6]。在此過程中,可以鞏固學(xué)生對基礎(chǔ)知識的掌握程度,而且可以提高其實踐能力[7]。此外,研究性實驗教學(xué),它能夠為教學(xué)與科研架起橋梁,方便科研內(nèi)容轉(zhuǎn)化為教學(xué)案例。
基于此,我校課程組以提高學(xué)生解決實際工程問題為目標,針對數(shù)字語音處理課程,設(shè)計了基于項目式的研究性實驗教學(xué),以數(shù)字語音處理中的一個重要知識點——聲紋識別來展開研究性的實驗案例設(shè)計,并給出了詳細方案。該案例已在我校電信學(xué)院相關(guān)專業(yè)中實施,取得了較好的效果。
研究性實驗可以取自在研的科研項目,也可以取自前沿的技術(shù)。本文所設(shè)計的研究性實驗案例取自于企業(yè)項目。項目中需要利用數(shù)字語音中的理論知識探索聲紋的特性,并開發(fā)聲紋識別系統(tǒng),以此達到聽音識人的目的。因此,以該項目提煉相關(guān)元素,精簡項目內(nèi)容,簡化開發(fā)過程,由此實現(xiàn)完整的實驗案例。而與項目相關(guān)的課程內(nèi)容主要有兩個方面:聲紋特征分析和聲紋特征識別。
人類的語音是由人體發(fā)音器官在大腦控制下的生理運動產(chǎn)生的。發(fā)音器官包括肺、氣管、喉(包括聲帶)、咽、鼻和口,其中聲帶是對發(fā)音影響很大。聲帶振動的頻率即基音頻率決定了聲音頻率的高低,頻率快則音調(diào)高,頻率慢則音調(diào)低。其基音頻率主要與聲帶(發(fā)聲體)的長短、松緊、厚薄有關(guān),而聲帶因人而異,不同人聲帶的具有不同的特點,因此基音頻率經(jīng)常作為說話人識別的特征之一[8]。
數(shù)字語音處理領(lǐng)域中,梅爾頻率倒譜是基于聲音頻率的非線性梅爾刻度對數(shù)能量頻譜的線性變換。因此,梅爾頻率倒譜系數(shù)就是組成梅爾頻率倒譜的系數(shù)。它衍生自語音片段的倒譜。倒譜和梅爾頻率倒譜的主要區(qū)別在于,梅爾頻率倒譜的頻帶劃分是在梅爾刻度上等距劃分的,它比用于正常的對數(shù)倒頻譜中的線性間隔的頻帶更近似人類的聽覺系統(tǒng)[9]。因此,使用梅爾倒譜系數(shù)來作為說話人識別的特征,更有利于提高識別效果。
基于以上分析,案例將從基音頻率和梅爾頻率倒譜兩個特征進行設(shè)計。
聲紋識別是一種通過聲音判別說話人身份的技術(shù)。從直覺上來說,聲紋雖然不像人臉、指紋的個體差異那樣直觀可見,但由于每個人的聲道、口腔和鼻腔也具有個體的差異性,因此反映到聲音上也具有差異性。如果將口腔看作聲音的發(fā)射器,那作為接收器的人耳生來也具備辨別聲音的能力[10-11]。
最直觀的是打電話給家里的時候,通過一聲“喂”就能準確地分辨出接電話的是爸媽或是兄弟姐妹,這種語音中承載的說話人身份信息的唯一性使得聲紋也可以像人臉、指紋那樣作為生物信息識別技術(shù)的生力軍,輔助甚至替代傳統(tǒng)的數(shù)字符號密碼,在安防和個人信息加密的領(lǐng)域發(fā)揮重要的作用。因此通過聲紋識別系統(tǒng)的開發(fā),能大大地激發(fā)學(xué)生的興趣,提升學(xué)習(xí)的效果。
為提高學(xué)生解決實際工程問題的能力,研究性實驗案例的設(shè)計既要具備基礎(chǔ)性和層次性,又要具備高階性和創(chuàng)新性。為了達到基礎(chǔ)性和層次性的要求,實驗內(nèi)容將從數(shù)字語音課程的基本知識點出發(fā),從基音頻率到梅爾頻率倒譜的提取,從特征匹配模型到深度學(xué)習(xí)模型,既注重基礎(chǔ),又逐步加大實驗的難度。同時,為了達到高階性和創(chuàng)新性的要求,將從基音頻率和梅爾頻率倒譜的統(tǒng)計分析,模板搜索算法的優(yōu)化,特征提取網(wǎng)絡(luò)的選擇等方面對學(xué)生進行引導(dǎo)。學(xué)生將以小組的形式(2 或3 人為1 組)搜集資料,提出問題,探討方案,解決問題,從而對聲紋識別系統(tǒng)進行改進。
總之,所設(shè)計的研究性實驗案例的主要目的是讓學(xué)生更好地理解數(shù)字語音信號特征表達及識別的基本方法,同時結(jié)合工程實際問題,將數(shù)字語音課程的知識點串聯(lián)起來,培養(yǎng)學(xué)生理論聯(lián)系實際的素質(zhì),提高學(xué)生的工程實踐能力和創(chuàng)新能力。
(1)基礎(chǔ)實驗內(nèi)容。通過掌握基音頻率和梅爾頻率倒譜提取的方法,熟練掌握數(shù)字語音的時域分析、倒譜分析等特征分析方法。
要求每個學(xué)生錄制自己的聲音,獲取各自的音頻文件。選擇合適的特征分析方法獲取自己的基音頻率和梅爾頻率倒譜。如圖1 所示,通過提取音頻信號中的濁音信號,由自相關(guān)分析、倒譜分析等方法可以獲取基音頻率。如圖2 所示,通過短時傅里葉變換,可以獲得音頻信號的語譜信息,再通過梅爾濾波,倒譜分析等步驟,獲得梅爾頻率倒譜。最后要求學(xué)生分析所提取的基音頻率和梅爾頻率倒譜,描述個人的聲音特性[12-13]。
圖1 音頻信號及對應(yīng)的濁音信號(濁音信號中可提取基音頻率)
圖2 梅爾倒譜系數(shù)提取過程
(2)高階實驗內(nèi)容。綜合所有學(xué)生的音頻文件,構(gòu)建音頻數(shù)據(jù)集,引導(dǎo)學(xué)生通過機器學(xué)習(xí)等方法,分析男女各自基音頻率和梅爾頻率倒譜的特征,據(jù)此構(gòu)建基于語音特征的性別判別模型。
(1)基礎(chǔ)實驗內(nèi)容。以基音頻率和梅爾頻率倒譜作為特征,按照教材內(nèi)容,構(gòu)建基于模板匹配的聲紋識別系統(tǒng)。如圖3 所示,其過程首先將待識別的語音進行預(yù)處理,提取基音頻率和梅爾頻率倒譜,然后和模板庫中的模板進行比較匹配,作出判決[12-13]。
(2)高階實驗內(nèi)容。引導(dǎo)學(xué)生查閱深度學(xué)習(xí)相關(guān)資料,構(gòu)建基于深度學(xué)習(xí)的聲紋識別系統(tǒng)。如圖4 所示,其過程首先將待識別的語音進行預(yù)處理,獲取梅爾頻率倒譜圖,然后將其輸入已訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò),進行識別決策。
圖3 基于模板匹配的聲紋識別系統(tǒng)
該部分重在提高學(xué)生自主學(xué)習(xí)的能力,引導(dǎo)其創(chuàng)新性。如對于特征提取網(wǎng)絡(luò)的選擇,深度學(xué)習(xí)特征提取網(wǎng)絡(luò)主要有AlexNet、VGGNet、ResNet 等網(wǎng)絡(luò)[14-16],
這些網(wǎng)絡(luò)具有不同的性能,并且每種網(wǎng)絡(luò)又包含不同的網(wǎng)絡(luò)結(jié)構(gòu),比如VGGNet 中比較經(jīng)典的網(wǎng)絡(luò)就有VGG16 和VGG19。引導(dǎo)學(xué)生分析不同網(wǎng)絡(luò)的性能并通過數(shù)據(jù)集驗證其效果,以此使學(xué)生理解特征提取網(wǎng)絡(luò)對于聲紋識別的影響。此外,還可以引導(dǎo)學(xué)生對神經(jīng)元結(jié)構(gòu),激活函數(shù),損失函數(shù)等進行修改,嘗試模型的優(yōu)化,提高識別效果。
圖4 基于深度學(xué)習(xí)的聲紋識別系統(tǒng)
實驗過程分為以5 個部分:
(1)任務(wù)發(fā)布。由教師發(fā)布實驗任務(wù)并講解任務(wù)的具體要求。
(2)小組協(xié)作。學(xué)生自由分組,通過搜集資料,提出問題,探討方案,解決問題等方式,實現(xiàn)系統(tǒng)的開發(fā)。
(3)現(xiàn)場引導(dǎo)。幫助學(xué)生解決實驗中的難題,同時引導(dǎo)學(xué)生進行創(chuàng)新。
(4)系統(tǒng)驗收。每一小組現(xiàn)場演示所開發(fā)的系統(tǒng)的識別效果,老師對各項指標進行打分。
(5)PPT答辯。每一小組進行答辯,主要闡述系統(tǒng)的原理,解決方案和創(chuàng)新點,并且小組成員將逐一回答老師提出的問題。
整個評價將分為3 部分,如表1 所示。
表1 評價內(nèi)容
本文以聲紋系統(tǒng)的開發(fā)為例,探索了數(shù)字語音處理課程中的研究性實驗教學(xué)案例設(shè)計,實驗內(nèi)容重在保證實驗教學(xué)的基礎(chǔ)性和層次性,又能具備一定的高階性和創(chuàng)新性。案例的實施有助于提高學(xué)生的學(xué)習(xí)興趣,培養(yǎng)其探索精神,引導(dǎo)其創(chuàng)新意識,提升其解決實際工程問題的能力。