滕 宇
(上海交通大學(xué) 電子工程系, 上?!?00240)
?
改進(jìn)的蓋爾圓數(shù)目估計方法在智能家居語音識別場景中的應(yīng)用
滕宇
(上海交通大學(xué) 電子工程系, 上海200240)
介紹了蓋爾圓法則,提出了一種應(yīng)用在智能家居語音識別場景中的改進(jìn)的蓋爾圓數(shù)目估計方法?;谏w爾圓圓心信息對蓋爾圓半徑的獨(dú)立壓縮,利用協(xié)方差在矩陣應(yīng)用中的特性,壓縮蓋爾圓半徑,分離噪聲功率干擾,提高信號源數(shù)目估計的可靠性。試驗結(jié)果表明,改進(jìn)的蓋爾圓數(shù)目估計方法能更好地識別智能家居聲控設(shè)備的語音控制指令,提高了語音識別率。
智能家居; 語音識別場景; 改進(jìn)的蓋爾圓評估方法; 數(shù)目估計; 噪聲信號濾波
作為智能家居用戶體驗的核心構(gòu)件,語音控制技術(shù)的重要性在實(shí)際應(yīng)用中日益凸顯,其語音識別技術(shù)對于智能家居設(shè)備的控制準(zhǔn)確性和用戶體驗越來越重要。語音識別是一個復(fù)雜過程,如何在噪雜的環(huán)境中快速獲得有用的聲源信號,對于智能家居產(chǎn)品控制系統(tǒng)至關(guān)重要。
現(xiàn)實(shí)中的聲源環(huán)境多種多樣,為了保持采樣噪聲的一致性,通常會采用白噪聲作為背景噪聲。然而即使是白噪聲也并不完全理想,因為其中也包括了陣元間相關(guān)的、不同方向功率不等的復(fù)雜色噪聲,而對于噪聲源多、色噪聲不同的復(fù)雜環(huán)境,如一般家居產(chǎn)品的語音識別場景,通常會帶來更多的困擾。常規(guī)的做法是在主控制器上加裝麥克風(fēng)識別裝置,但即使目前最佳的雙通道輸入采集方法仍存在一定局限性,也無法做到快速有效的識別。
一般,家居室內(nèi)環(huán)境的背景聲場十分復(fù)雜。因此要快速獲得有用的聲源信號,必須設(shè)計一種有效的去干擾特征信號提取算法,提高對聲源數(shù)目的識別速度和精準(zhǔn)度,有效降低對聲源信號數(shù)據(jù)后期處理的復(fù)雜度,創(chuàng)造良好的用戶體驗。
本文提出一種改進(jìn)的蓋爾圓估計方法,完善設(shè)備在復(fù)雜色噪聲環(huán)境下的語音控制信號,提高識別效率,較常規(guī)的單麥克風(fēng)語音識別系統(tǒng),在-8~0 dB范圍內(nèi)提高80%以上的識別率。
蓋爾圓法則是一種利用觀測信號的協(xié)方差矩陣信號與蓋爾圓半徑具有不同大小的特點(diǎn)實(shí)現(xiàn)的源數(shù)目估計方法[1-3]。通常協(xié)方差矩陣信號的蓋爾圓和噪聲的蓋爾圓并沒有明顯的區(qū)分度[4],但通過協(xié)方差矩陣的轉(zhuǎn)化,新協(xié)方差矩陣信號蓋爾圓半徑會顯著高于噪聲蓋爾圓半徑,進(jìn)一步壓縮后可以實(shí)現(xiàn)噪聲的隔離區(qū)分。在此基礎(chǔ)上,依據(jù)蓋爾圓半徑實(shí)現(xiàn)對源信號數(shù)目的估計,其信號識別可靠性將進(jìn)一步提升。
1.1蓋爾圓準(zhǔn)則
設(shè)矩陣A為一個實(shí)或復(fù)矩陣,其第i(i=1,2,…,N)行第j(j≠i)列元素定義為元素aij,定義:
(1)
若以O(shè)i表示復(fù)平面上以aij為圓心、ri為半徑的圓,則該圓被稱為蓋爾圓。矩陣A的所有特征值位于其所有值所構(gòu)成的蓋爾圓并集內(nèi),且如果有k個蓋爾圓與其他蓋爾圓相互隔離,則A有k個特征值位于蓋爾圓的并集之中。
1.2基本蓋爾圓盤法
蓋爾圓盤法則[1]并不利用自相關(guān)矩陣的特征值,而是利用蓋爾圓半徑來進(jìn)行信號源數(shù)目的估計。其方法是將自相關(guān)矩陣進(jìn)行酉變換。變換后的噪聲蓋爾圓會遠(yuǎn)離信息量蓋爾圓,并使噪聲蓋爾圓半徑進(jìn)一步縮小。
對A的自相關(guān)矩陣H作變換,得:
H2=CTHC
(2)
式中:UN-1——HN-1特征向量構(gòu)成的酉矩陣;
HN-1——H去除末行末列后構(gòu)成的子矩陣。
經(jīng)過變換之后,可得:
(3)
常規(guī)定義的蓋爾圓半徑估計信源數(shù)目的準(zhǔn)則:
(4)其中,k為1~N-1,D(M)為與樣本數(shù)M有關(guān)的調(diào)整因子,在有限次取樣的情況下,D(M)值應(yīng)為0~1。
一般蓋爾圓盤法不是利用自相關(guān)矩陣的特征值,而是利用蓋爾圓半徑來進(jìn)行信號源數(shù)目的估計,因此存在進(jìn)一步改進(jìn)的空間。本文提出一種改進(jìn)的蓋爾圓盤法,將對現(xiàn)有蓋爾圓盤法的協(xié)方差矩陣進(jìn)一步作酉變換,以加速其分離速度,并對不同功率信號互相的干擾有一定抑制作用。
2.1酉變換加速分離
先對式(3)進(jìn)行酉變換,使變換后的噪聲蓋爾圓更加遠(yuǎn)離信號蓋爾圓,同時噪聲蓋爾圓的半徑更加縮小,即:
R′=G-1RTG
(5)
式中:G——N×N維對角陣。
(6)
由式(6)可知,變換后的分離法解決了半徑分離問題,可以在給予經(jīng)驗調(diào)整因子的情況下,針對不同功率信號源進(jìn)行更好的估計,有效防止最長半徑對其他半徑的影響。再將變換后的R′代入式(4),取適配的經(jīng)驗值D(T)即可實(shí)施。
為了檢驗改進(jìn)的蓋爾圓源數(shù)目估計算法性能,智能家居設(shè)備在高斯白噪聲背景下使用改進(jìn)的蓋爾圓算法與常規(guī)信息論準(zhǔn)則(Akaike Informaction Criterion,AIC)、信號相干性準(zhǔn)則(Minimum Description Length,MDL)算法進(jìn)行了對比分析。
基本仿真條件:接收麥克風(fēng)整列為8個元的均勻線陣列(模擬智能家居環(huán)境中插座類產(chǎn)品單間內(nèi)的普遍安裝數(shù)目),陣元之間間距為在窄帶信號中心頻率的半波長;1~3個遠(yuǎn)場隨機(jī)獨(dú)立點(diǎn)陣源的MIMO模型[5];
y=hx+n
(7)
式中:x——發(fā)送信號;
y——接收信號;
h——信道沖激響應(yīng);
n——高斯白噪聲。
采樣頻率f=10 kHz,信噪比為-20~20 dB,調(diào)整后的蓋爾圓準(zhǔn)則調(diào)整因子取0.6。
以MIMO模型在文獻(xiàn)[6]類似的設(shè)備放置結(jié)構(gòu)下執(zhí)行測試:8個采集元呈均勻線陣列,2個信號源隨機(jī)放置。高斯白噪聲背景干擾下的2個隨機(jī)信號源識別情況如圖1所示。
圖1 高斯白噪聲背景干擾下的2個隨機(jī)信號源識別情況
由圖1可知,蓋爾圓分離情況(識別數(shù)目為2),隨機(jī)信噪比大都能準(zhǔn)確識別數(shù)目。
后端識別技術(shù)運(yùn)用與文獻(xiàn)[6]提到的盲源分析法進(jìn)行后端訓(xùn)練識別。被控室內(nèi)設(shè)備安裝方式如圖2所示。6個帶麥克風(fēng)插座與觸控屏位置按均勻圓陣列放置,保持與常規(guī)家居市場的設(shè)備安裝場景基本一致。在前端仍使用改進(jìn)后的蓋爾圓方法對采集信號進(jìn)行源數(shù)據(jù)分離,找出更有價值的信號源(非噪聲源),為后端的盲源分析提供可靠的信號支持。最后,采用盲源分析法測試后端信號識別率,如圖3所示。
圖2 被控室內(nèi)設(shè)備實(shí)裝方式
圖3 后端信號識別率
由圖3可知,改進(jìn)的蓋爾圓方法可以顯著提高語音識別率,在同類信號白噪聲的背景噪聲下,其低信噪比區(qū)(-4~0 dB)識別率介于AIC信號分離方法與MDL信號分離方法之間。理論上MDL和AIC無法在色噪聲環(huán)境下使用,而改進(jìn)的蓋爾圓方法則沒有限制。在智能家居的復(fù)雜場景中(包括色噪聲環(huán)境),改進(jìn)的蓋爾圓方法適用性更廣泛。故采用該算法設(shè)計的智能家居聲控設(shè)備語音識別系統(tǒng),可以大大提升產(chǎn)品在語音識別方面的穩(wěn)定性。
另外,改進(jìn)的蓋爾圓數(shù)目評估方法可用于智能家居聲控設(shè)備的語音識別系統(tǒng),以提高前端識別分離度。如某智能家居,常規(guī)安裝6~8個內(nèi)嵌麥克風(fēng)(采集元)的控制開關(guān)(包括一個單麥克風(fēng)主控制器),直接采集麥克風(fēng)的語音信息(一般方案由2~3人作為信號源)。采用改進(jìn)的蓋爾圓方法配合盲源分析方法,可以準(zhǔn)確分辨語音是否屬于系統(tǒng)認(rèn)可的關(guān)鍵字,并及時作出正確的操作信號響應(yīng)。
本文提出了改進(jìn)的蓋爾圓數(shù)目估計方法。試驗結(jié)果表明,在模擬的智能家居應(yīng)用場景中,改進(jìn)的蓋爾圓數(shù)目評估方法在低信噪比的情況下更好地識別語音控制指令,較單個麥克風(fēng)采樣能明顯提升識別率,較常規(guī)信號源分離方案也有顯著提高。
[1]WAX M,KAILATH T.Detection of signals by information theoretic criteria[J].IEEE Trans.on ASSP,1985,33(2):387-392.
[2]貢彥飛.基于蓋爾圓準(zhǔn)則的信源個數(shù)估計算法比較[J].無線電通信,2012,38(4):57-59.
[3]董姝敏,梁國龍.改進(jìn)的蓋爾圓源數(shù)目估計方法[J].哈爾濱工程大學(xué)學(xué)報 2013,34(4):440-444.
[4]王永良,陳輝,彭應(yīng)宇,等.空間譜估計理論與算法[M].北京:清華大學(xué)出版社,2004.
[5]CASPARY O,NUS P,CECCHIN T.The source number estimation based on Gerschgorin radii[C]//Acoustics,Speech and Signal Processing,Proceedings of the 1998 IEEE International Conference on,1998,4:1993-1996.
[6]ZHONG Z M,CHEN J,ZHONG P,et al.Application of the blind source separation method to feature extraction of machine sound signals[J].Int.J.Adv.Manuf.Technoly,2006,28:855-862.
Application of Gerschgorin Disk Estimation in SpeechRecognition Scene of Smart Home Environment
TENG Yu
(Department of Electronic Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
This paper introduced the Gerschgorin rule,and put forward a modified Gerschgorin disk estimation which was used in the speech recogniton scene of smart home.Based on the center information of Gerschgorin disks minimized the radii of Gerschgorin disks,by using of the property of the covariance matrix,the Gerschgorin disk radii were compressed,the noise disturbing was separated,which improved the reliability of source number estimation.The results show that the modified Gerschgorin disk estimation can better identify the speech control commands,which imroves the speech recognition rate.
smart home; speech recogniton scene; modified Gerschgorin disk estimation; number estimation; noise signal filtering
滕宇(1988—),男,碩士研究生,研究方向為通信聲學(xué)處理。
TU 855
A
1674-8417(2016)06-0015-04
10.16618/j.cnki.1674-8417.2016.06.004
2016-05-16