張瀟丹 包永強(qiáng) 奚 吉 趙 力 鄒采榮
(1東南大學(xué)水聲信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,南京210096)
(2南京工程學(xué)院通信工程學(xué)院,南京211167)
在禁止大聲喧嘩的部分場(chǎng)所中,耳語(yǔ)音是人們進(jìn)行語(yǔ)言交流的主要方式之一.耳語(yǔ)音的早期研究主要停留在語(yǔ)音基礎(chǔ)研究和醫(yī)學(xué)工作需要上.隨著科學(xué)技術(shù)的快速發(fā)展,關(guān)于耳語(yǔ)音的研究開(kāi)始轉(zhuǎn)向其他方面,如耳語(yǔ)音的語(yǔ)音增強(qiáng)研究[1]、耳語(yǔ)音的語(yǔ)音識(shí)別研究[2-3]等.傳統(tǒng)的耳語(yǔ)音信號(hào)識(shí)別僅限于語(yǔ)義信息的識(shí)別而忽略了情感信息的識(shí)別.耳語(yǔ)音情感識(shí)別的研究是對(duì)語(yǔ)音情感識(shí)別的有效補(bǔ)充,具有廣泛的應(yīng)用前景.目前,世界上關(guān)于耳語(yǔ)音情感識(shí)別方面的研究還很欠缺,可以借鑒已有的語(yǔ)音情感識(shí)別的研究成果來(lái)進(jìn)行耳語(yǔ)音情感識(shí)別研究;但是由于發(fā)音特點(diǎn)的獨(dú)特性,其識(shí)別方法與語(yǔ)音情感識(shí)別還是有所區(qū)別的.
BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的魯棒性和自學(xué)習(xí)自適應(yīng)性,適用于處理復(fù)雜的、具有非線(xiàn)性和不確定性的對(duì)象.近年來(lái),利用群智能優(yōu)化算法來(lái)優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)的方法備受關(guān)注.文獻(xiàn)[4]利用混合蛙跳算法(SFLA)來(lái)優(yōu)化BP神經(jīng)網(wǎng)絡(luò),進(jìn)行語(yǔ)音情感識(shí)別,并證實(shí)其識(shí)別結(jié)果優(yōu)于BP神經(jīng)網(wǎng)絡(luò).但是SFLA算法[5-7]在進(jìn)化后期搜索速度慢且出現(xiàn)早熟收斂現(xiàn)象,對(duì)于多峰值函數(shù)尋優(yōu)這種較復(fù)雜的問(wèn)題,很難搜索到最優(yōu)解.針對(duì)SFLA算法存在的缺點(diǎn),本文提出了一種基于分子動(dòng)力學(xué)模擬與云模型理論的改進(jìn)混合蛙跳算法(MD-CM-SFLA);然后將其與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,設(shè)計(jì)出一種MD-CMSFLA神經(jīng)網(wǎng)絡(luò),并將其應(yīng)用到耳語(yǔ)音情感識(shí)別中.實(shí)驗(yàn)結(jié)果表明,MD-CM-SFLA神經(jīng)網(wǎng)絡(luò)能夠明顯提升耳語(yǔ)音情感識(shí)別率.
根據(jù)SFLA算法的更新策略可知,最差個(gè)體可在局部最優(yōu)個(gè)體或者全局最優(yōu)個(gè)體的吸引下,不斷朝著更優(yōu)的方向進(jìn)化;其余個(gè)體并不對(duì)最差個(gè)體的進(jìn)化產(chǎn)生任何影響.因此,在分子動(dòng)力學(xué)模型中僅需要考慮最差個(gè)體和最優(yōu)個(gè)體之間的吸引力;它們之間的距離越大,吸引力就越強(qiáng).將種群中的青蛙個(gè)體等效成分子,僅考慮當(dāng)前迭代中子群體的最差個(gè)體Xw與全局最優(yōu)個(gè)體Xg之間的吸引力,該吸引力隨距離的增加而增強(qiáng).兩分子間的作用力可表示為
式中,λ為比例系數(shù);r為Xw和Xg之間的位移矢量則表示分子間距離.假設(shè)各分子的質(zhì)量m相等且為1,則最差個(gè)體的加速度矢量為
選擇Swope等[8]提出的Velocity-Verlet算法來(lái)求解更新后最差個(gè)體的位置、速度和加速度,可得
式中,r(K),v(K)和a(K)分別表示當(dāng)前時(shí)刻最差個(gè)體的位置、速度和加速度;r(K+1),v(K+1)和a(K+1)表示更新后最差個(gè)體的位置、速度和加速度;rg表示全局最優(yōu)個(gè)體位置.
云模型是一種自然語(yǔ)言值表示的定性概念及其定量數(shù)據(jù)之間的不確定性轉(zhuǎn)換模型,主要反映了客觀(guān)世界事物或人類(lèi)知識(shí)中概念的模糊性和隨機(jī)性[9].正態(tài)云模型是一個(gè)遵循正態(tài)分布規(guī)律、具有穩(wěn)定傾向的隨機(jī)數(shù)集.云模型的數(shù)字特征可用期望Ex、熵En、超熵H三個(gè)數(shù)值來(lái)表征,它們反映了定性概念的定量特性.生成云滴的算法稱(chēng)為云發(fā)生器.基本云發(fā)生器的算法步驟如下:①生成一個(gè)以En為期望值、H為標(biāo)準(zhǔn)差的正態(tài)隨機(jī)數(shù)E'n;②生成一個(gè)以Ex為期望值、E'n為標(biāo)準(zhǔn)差的正態(tài)隨機(jī)數(shù)x;③ 計(jì)算y=exp(-(x-Ex)2/(2(E'n)2)).(x,y)完整地反映了這一次定性定量轉(zhuǎn)換的全部?jī)?nèi)容.
本文將Velocity-Verlet算法引入到SFLA算法中,采用式(3)~(6)作為局部深度搜索的更新策略.同時(shí),引入具有隨機(jī)性和穩(wěn)定傾向性的云模型理論,利用基本云發(fā)生器來(lái)代替原更新策略中的隨機(jī)更新操作,提出MD-CM-SFLA算法.其具體步驟如下:
①隨機(jī)初始化青蛙種群和青蛙個(gè)體的速度變量,設(shè)置MD-CM-SFLA算法參數(shù).
②計(jì)算每只青蛙個(gè)體的適應(yīng)度值.
③將當(dāng)前所有青蛙個(gè)體按照適應(yīng)度值從優(yōu)到劣進(jìn)行排序,并劃分子群體.
④對(duì)當(dāng)前子種群的最差個(gè)體Xw按照式(3)~(6)進(jìn)行更新.如果更新后的個(gè)體適應(yīng)度值優(yōu)于更新前,則用更新后的個(gè)體取代更新前個(gè)體Xw;反之,則利用正態(tài)云發(fā)生器生成新個(gè)體.其中,Ex=Xw;En=Ω/c1,Ω表示變量搜索范圍;He=En/c2,c1,c2均為常數(shù).
⑤當(dāng)所有子種群完成以上的更新操作后,若滿(mǎn)足全局混合迭代次數(shù),進(jìn)化過(guò)程結(jié)束,輸出全局最優(yōu)值;否則,將全部的青蛙個(gè)體重新混合,轉(zhuǎn)至步驟③.
對(duì)于c1和c2的取值范圍,文獻(xiàn)[9]進(jìn)行了分析.借鑒其分析結(jié)果,取c1為種群大小,c2=10.
定理1MD-CM-SFLA算法的種群序列{tk,k≥0}是有限齊次馬爾可夫鏈,其中k表示迭代次數(shù).
證明本文中初始化種群是有限的,且算法中的更新策略均與迭代次數(shù)無(wú)關(guān),因此tk+1僅與tk有關(guān),即{tk,k≥0}是有限齊次馬爾可夫鏈.證畢.
定理2MD-CM-SFLA算法的馬爾可夫鏈序列的種群最優(yōu)值序列是單調(diào)不減的.
證明在MD-CM-SFLA算法中,只有最優(yōu)個(gè)體的適應(yīng)度值超過(guò)原最優(yōu)個(gè)體時(shí),原最優(yōu)個(gè)體才會(huì)被取代,這樣保證了每代擁有的最優(yōu)個(gè)體都不差于前一代.證畢.
定理3MD-CM-SFLA算法以概率1收斂.
證明設(shè)種群為狀態(tài)空間S中的某個(gè)點(diǎn),sj∈S為S中的第j個(gè)狀態(tài),f為S上的適應(yīng)度函數(shù),f∧為全局最優(yōu)值為最優(yōu)解集.MD-CM-SFLA算法的狀態(tài)轉(zhuǎn)移由馬爾可夫鏈來(lái)描述表示處于狀態(tài) sj的第k代種群 tk,隨機(jī)過(guò)程{tk}的轉(zhuǎn)移概率設(shè) I=,由定理2 可得
設(shè)pj(k)為種群tk處于狀態(tài)sj的概率,由馬爾可夫鏈的性質(zhì)可得
為了驗(yàn)證MD-CM-SFLA算法的優(yōu)化性能,采用國(guó)際上常用的4種標(biāo)準(zhǔn)測(cè)試函數(shù)Sphere函數(shù)、Griewank函數(shù)、Ackley函數(shù)和Rastrigin函數(shù)對(duì)其進(jìn)行性能分析,函數(shù)的具體表達(dá)式參見(jiàn)文獻(xiàn)[10].然后,對(duì)比了MD-CM-SFLA算法、SFLA算法和文獻(xiàn)[10]中MMT-PSO算法的優(yōu)化性能.其中,MDCM-SFLA算法的參數(shù)設(shè)置如下:種群規(guī)模為200,子群體規(guī)模為20,子群體數(shù)為10,局部深度搜索迭代次數(shù)為20,全局混合迭代次數(shù)為150,比例系數(shù)為4.SFLA算法中優(yōu)化Ackley函數(shù)時(shí)全局混合迭代次數(shù)為200,優(yōu)化其他3種函數(shù)時(shí)為1 000,其余參數(shù)同MD-CM-SFLA算法.為了驗(yàn)證參數(shù)變化對(duì)算法性能的影響,分別將維數(shù)取為10,20,30,對(duì)每個(gè)函數(shù)獨(dú)立運(yùn)行50次.3種算法的尋優(yōu)結(jié)果比較見(jiàn)表1.表中的平均值表示50次獨(dú)立實(shí)驗(yàn)所得解的平均適應(yīng)度值;標(biāo)準(zhǔn)差反映了算法的穩(wěn)定性.圖1為MD-CM-SFLA算法和SFLA算法的函數(shù)尋優(yōu)對(duì)比圖,圖中A表示平均最優(yōu)適應(yīng)度值.
表1 3種算法尋優(yōu)結(jié)果比較
圖1 2種算法的函數(shù)收斂曲線(xiàn)對(duì)比圖
圖1反映了算法的收斂過(guò)程.由表1可知,在相同的求解維數(shù)下,MD-CM-SFLA算法的求解精度和穩(wěn)定性明顯優(yōu)于其他2種算法.結(jié)合表1和圖1可知,隨著維數(shù)的增加,算法的優(yōu)化性能逐漸變差,這是因?yàn)榍蠼饩S數(shù)的增加導(dǎo)致搜索空間變大,算法更易陷入局部最優(yōu).對(duì)于MD-CM-SFLA算法而言,求解維數(shù)的變化對(duì)其優(yōu)化性能的影響不大,表明算法對(duì)于參數(shù)不敏感,易于使用.由圖1可知,MD-CM-SFLA算法的收斂速度和求解精度明顯優(yōu)于SFLA算法.在圖1(b)和(d)中,MD-CM-SFLA算法的收斂曲線(xiàn)出現(xiàn)截?cái)?,表示已搜索到全局最?yōu)解,而SFLA算法則出現(xiàn)早熟現(xiàn)象.由此可知,MDCM-SFLA算法的各項(xiàng)改進(jìn)機(jī)制使算法具有高效的搜索性和跳出局部極值的能力;與SFLA算法相比,MD-CM-SFLA算法具有更強(qiáng)的全局搜索能力、更高的搜索精度、更快的收斂速度和更好的魯棒性.
BP神經(jīng)網(wǎng)絡(luò)常用的學(xué)習(xí)算法是BP算法.該算法是基于梯度信息來(lái)調(diào)整連接權(quán)值的,因而極易陷入局部極值點(diǎn),而且在高維輸入時(shí),易出現(xiàn)“維數(shù)災(zāi)”問(wèn)題,影響收斂速度.本文提出的MD-CMSFLA算法是一種群體智能優(yōu)化算法,其全局優(yōu)化性保證了算法可以有效地對(duì)解空間進(jìn)行搜索,不易陷入局部最優(yōu),能夠快速收斂,尋優(yōu)精度高,而且算法具有較強(qiáng)的通用性,對(duì)問(wèn)題的具體形式和領(lǐng)域知識(shí)依賴(lài)性不強(qiáng),其固有的并行性保證了算法能夠較快地尋找到最優(yōu)解或滿(mǎn)意解.因此,在進(jìn)行BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),本文使用MD-CM-SFLA算法對(duì)網(wǎng)絡(luò)的隨機(jī)初始參數(shù)、輸入層與隱含層的連接權(quán)值、隱含層與輸出層的連接權(quán)值以及各閾值進(jìn)行優(yōu)化,從而提高了神經(jīng)網(wǎng)絡(luò)的收斂速度和學(xué)習(xí)能力.具體的訓(xùn)練步驟如下:
①隨機(jī)初始化青蛙種群.每個(gè)青蛙個(gè)體中的維數(shù)信息依次表示輸入層與隱含層的連接權(quán)值、隱含層與輸出層的連接權(quán)值以及各閾值.
②計(jì)算個(gè)體的適應(yīng)度值.適應(yīng)度函數(shù)定義為
式中,J(k,i)為第i個(gè)個(gè)體第k次迭代后的適應(yīng)度值;M為訓(xùn)練集的樣本數(shù);ym,i為第i個(gè)個(gè)體中第m個(gè)樣本輸入時(shí)的網(wǎng)絡(luò)目標(biāo)輸出值為第 i個(gè)個(gè)體第k次迭代后第m個(gè)樣本輸入時(shí)的網(wǎng)絡(luò)實(shí)際輸出值;N為最大迭代次數(shù).
③采用MD-CM-SFLA算法的迭代尋優(yōu)步驟對(duì)青蛙個(gè)體進(jìn)行更新.當(dāng)進(jìn)化過(guò)程結(jié)束時(shí),返回全局最優(yōu)解,訓(xùn)練結(jié)束.
目前,對(duì)耳語(yǔ)音情感識(shí)別的研究還處于初級(jí)階段.參照國(guó)際著名語(yǔ)料庫(kù)建立的規(guī)范,以表演的方式獲取耳語(yǔ)音情感數(shù)據(jù),創(chuàng)建一個(gè)包括高興、生氣、悲傷和平靜的耳語(yǔ)音情感數(shù)據(jù)庫(kù).錄音選擇在安靜的實(shí)驗(yàn)室內(nèi)進(jìn)行,采樣頻率為16 kHz.共10名大學(xué)生參與錄制,其中5名為男性,5名為女性.錄音語(yǔ)料分為單詞、短句和段落3種類(lèi)型.其中,單詞包括名詞和動(dòng)詞各10個(gè);短句包括陳述句19句,疑問(wèn)句、感嘆句和祈使句各2句;段落6個(gè).語(yǔ)料都具有比較高的情感自由度,每位表演者用耳語(yǔ)音對(duì)所有語(yǔ)料分別重復(fù)3遍,再用正常音朗讀1遍(用于后期對(duì)比).通過(guò)聽(tīng)辨實(shí)驗(yàn),保留1 250條語(yǔ)句作為訓(xùn)練和測(cè)試所用的數(shù)據(jù)庫(kù).
耳語(yǔ)音和正常音的發(fā)音方式有所不同.耳語(yǔ)音中塞音、塞擦音和清擦音的聲母部分與正常音的發(fā)音方式基本類(lèi)似;但元音和濁輔音在發(fā)音時(shí),不產(chǎn)生聲帶振動(dòng)、沒(méi)有基頻,這與正常音的發(fā)音方式不同.因此,適用于正常音情感識(shí)別的一些特征參數(shù)并不適合進(jìn)行耳語(yǔ)音情感識(shí)別.目前,關(guān)于耳語(yǔ)音聲學(xué)特征參數(shù)的分析主要集中于音高、能量、聲調(diào)、共振峰、音長(zhǎng)、Mel域參數(shù)、語(yǔ)速等方面.本文主要提取的用于耳語(yǔ)音情感識(shí)別的特征參數(shù)包括音長(zhǎng)、語(yǔ)速、基于TEO變換后的4種改進(jìn)的12階MFCC、第1,2,3共振峰的均值、最大值、最小值、中值和標(biāo)準(zhǔn)差.
本實(shí)驗(yàn)從數(shù)據(jù)庫(kù)中總共選取了1 000條語(yǔ)句(高興、生氣、悲傷和平靜4種情感各250條),其中訓(xùn)練語(yǔ)句200條(4種情感各50條),識(shí)別語(yǔ)句800條(4種情感各200條).采用OCON方法組織神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每種待識(shí)別的情感對(duì)應(yīng)一個(gè)子神經(jīng)網(wǎng)絡(luò)模型,將所有子神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果通過(guò)判決策略,產(chǎn)生最終的識(shí)別結(jié)果.令每個(gè)子神經(jīng)網(wǎng)絡(luò)的輸出為vz,分別采用每種情感對(duì)應(yīng)的情感語(yǔ)料對(duì)子神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出值為每種情感的似然函數(shù),最終的輸出結(jié)果可判決為z*=argmax(vz),其中z*為語(yǔ)音情感類(lèi)別.基于BP神經(jīng)網(wǎng)絡(luò)和MDCM-SFLA神經(jīng)網(wǎng)絡(luò)的耳語(yǔ)音情感識(shí)別結(jié)果分別見(jiàn)表2和表3.
表2 基于MD-CM-SFLA神經(jīng)網(wǎng)絡(luò)的耳語(yǔ)情感識(shí)別率 %
表3 基于BP神經(jīng)網(wǎng)絡(luò)的耳語(yǔ)情感識(shí)別率 %
由表2和表3可知,MD-CM-SFLA神經(jīng)網(wǎng)絡(luò)的平均識(shí)別率為77.5%,而B(niǎo)P神經(jīng)網(wǎng)絡(luò)的平均識(shí)別率為72.3%,表明MD-CM-SFLA神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò).在所考慮的4種情感中,耳語(yǔ)音對(duì)高興、悲傷、平靜情感的識(shí)別率相對(duì)較好.悲傷、生氣情感容易出現(xiàn)相互誤判,且識(shí)別率不理想,而這2種情感和高興情感出現(xiàn)誤判的情況相對(duì)較少.高興、生氣這2種情感在激活維上坐標(biāo)接近,在效價(jià)維上則距離較遠(yuǎn),說(shuō)明識(shí)別這2種情感時(shí)只要將對(duì)應(yīng)于效價(jià)維的特征參數(shù)選擇恰當(dāng),便可獲得高的識(shí)別率.反觀(guān)生氣、悲傷2種情感,它們?cè)谛r(jià)維上坐標(biāo)接近,在激活維上則距離較遠(yuǎn),因此識(shí)別這2類(lèi)情感時(shí)需要有合適的激活維參數(shù).本文在識(shí)別中所采用的特征參數(shù)主要是效價(jià)維參數(shù).由于耳語(yǔ)音發(fā)音方式的特殊性,不存在基音這一重要的激活維參數(shù),因此在識(shí)別生氣、悲傷這2種情感時(shí)效果不理想.
本文針對(duì)SFLA算法在進(jìn)化后期存在早熟收斂的缺陷,通過(guò)分子動(dòng)力學(xué)模擬種群的進(jìn)化策略,結(jié)合正態(tài)云模型云滴的隨機(jī)性和穩(wěn)定傾向性特點(diǎn),提出了一種MD-CM-SFLA算法,并從數(shù)學(xué)上證明了該算法的全局收斂性.將該算法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,設(shè)計(jì)出一種MD-CM-SFLA神經(jīng)網(wǎng)絡(luò),并將其應(yīng)用于耳語(yǔ)音情感識(shí)別中.實(shí)驗(yàn)結(jié)果表明,MD-CM-SFLA神經(jīng)網(wǎng)絡(luò)相對(duì)于BP神經(jīng)網(wǎng)絡(luò)具有明顯的優(yōu)勢(shì),在相同的測(cè)試條件下,其平均識(shí)別率較BP神經(jīng)網(wǎng)絡(luò)提高5.2%.由此表明,利用MDCM-SFLA算法優(yōu)化神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的權(quán)值和閾值,可以快速地實(shí)現(xiàn)網(wǎng)絡(luò)的收斂,獲得較好的學(xué)習(xí)能力.
References)
[1]Tao Zhi,Zhao Heming,Wu Di,et al.Speech enhance-ment based on modified mel masking model and speech absence probability in whispers [J].Acta Acustica,2009,34(4):370-377.
[2]王敏,趙鶴鳴,張慶芳.基于瞬時(shí)頻率估計(jì)和特征映射的漢語(yǔ)耳語(yǔ)音話(huà)者識(shí)別[J].數(shù)據(jù)采集與處理,2011,26(6):686-690 Wang Min,Zhao Heming,Zhang Qingfang.Speaker identification with Chinese whispered speech based on instantaneous frequency estimation and feature mapping[J].Journal of Data Acquisition &Processing,2011,26(6):686-690.
[3]Wang Min,Zhao Heming.Whispered speaker identification based on multiband demodulation analysis and instantaneous frequency estimation [J].Acta Acustica,2010,35(4):471-476.
[4]余華,黃程韋,張瀟丹,等.混合蛙跳算法神經(jīng)網(wǎng)絡(luò)及其在語(yǔ)音情感識(shí)別中的應(yīng)用[J].南京理工大學(xué)學(xué)報(bào),2011,35(5):659-663.Yu Hua,Huang Chengwei,Zhang Xiaodan,et al.Shuffled frog-leaping algorithm based neural network and its application in speech emotion recognition[J].Journal of Nanjing University of Science and Technology,2011,35(5):659-663.(in Chinese)
[5]Alireza R V,Ali H M.Solving a bi-criteria permutation flow-shop problem using shuffled frog-leaping algorithm[J].Soft Computing,2008,12(5):435-452.
[6]Eusuff M M,Lansey K E.Shuffled frog-leaping algorithm:a mimetic meta-heuristic for discrete optimization[J].Engineering Optimization,2006,38(2):129-154.
[7]Alireza R V,Ali H M.A hybrid multi-objective shuffled frog-leaping algorithm for a mixed-model assembly line sequencing problem [J].Computers& Industrial Engineering,2007,53(4):642-666.
[8]Swope W C,Andersen H C,Berens P H,et al.A computer simulation method for the calculation of equilibrium constants for the formation of physical clusters of molecules:application to small water clusters[J].Journal of Chemical Physics,1982,76(1):637-649.
[9]戴朝華,朱云芳,陳維榮,等.云遺傳算法及其應(yīng)用[J].電子學(xué)報(bào),2007,35(7):1419-1424.Dai Chaohua,Zhu Yunfang,Chen Weirong,et al.Cloud model based genetic algorithm and its application[J].Acta Electronica Sinica,2007,35(7):1419-1424.(in Chinese)
[10]徐星,李元香,姜大志,等.一種基于分子動(dòng)理論的改進(jìn)粒子群優(yōu)化算法[J].系統(tǒng)仿真學(xué)報(bào),2009,21(7):1904-1907.Xu Xing,Li Yuanxiang,Jiang Dazhi,et al.Improved particle swarm optimization algorithm based on theory of molecular motion[J].Journal of System Simulation,2009,21(7):1904-1907.(in Chinese)