劉尚旺,王培哲,張翰林,涂婉宇
(1.河南師范大學(xué)計算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453002;2.河南師范大學(xué)軟件學(xué)院,河南 新鄉(xiāng) 453002)
人機(jī)交互技術(shù)作為社會最有效的交流方式之一,語音在人機(jī)交互領(lǐng)域中具有重要地位。語音在日常生活和工作中包含了說話人的大部分信息,屬于一種較為復(fù)雜的信號,大多數(shù)語音信息識別方法在現(xiàn)階段只能識別單一的信息,無法識別說話人感情、性別、內(nèi)容和年齡等多維信息,導(dǎo)致人機(jī)交互系統(tǒng)忽略了人類的表達(dá)能力和情感的理解,智能化水平較低,因此需要對語音信息識別方法進(jìn)行分析和研究[1-2]。
王瑋蔚等人[3]提出基于變分模態(tài)分解的語音信息識別方法,該方法利用變分模態(tài)分解方法在系統(tǒng)中獲取語音信息,并對固有模態(tài)函數(shù)進(jìn)行計算,結(jié)合希爾伯特邊際譜和梅爾倒譜系數(shù),實(shí)現(xiàn)語音信息的識別,該方法沒有對多維語音信息進(jìn)行預(yù)加重處理,存在識別率低的問題。姜芃旭等人[4]提出基于卷積神經(jīng)網(wǎng)絡(luò)特征表征的語音信息識別方法,該方法在Lenet-5模型中引入池化層和卷基層,用一維卷積核代替二維卷積核,并對一維特征進(jìn)行處理,在模型中輸入一維特征,對特征進(jìn)行變換表征,在SoftMax分類中輸入特征,實(shí)現(xiàn)語音信息的識別,該方法在識別之前沒有對多維語音信息進(jìn)行分幀加窗處理,導(dǎo)致識別結(jié)果與實(shí)際不符,存在識別準(zhǔn)確率低的問題??娫G嗟热薣5]提出基于參數(shù)遷移的語音信息識別方法,將參數(shù)遷移引入神經(jīng)網(wǎng)絡(luò)中,建立多維語音信號識別模型,并將語圖譜輸入識別模型中,在語音識別模型中引入AlexNet網(wǎng)絡(luò)模型,在LSTM網(wǎng)絡(luò)中訓(xùn)練特征圖,實(shí)現(xiàn)語音信息的識別,該方法沒有對多維語音信號進(jìn)行分幀加窗處理,存在識別效率低的問題。
為了解決上述方法中存在的問題,提出人機(jī)交互系統(tǒng)多維語音信息識別方法。
人機(jī)交互系統(tǒng)多維語音信息識別方法為了避免多維語音信號識別過程中受到外界因素的影響,需要對人機(jī)交互系統(tǒng)多維語音信息進(jìn)行預(yù)處理,對人機(jī)交互系統(tǒng)多維語音信息分別進(jìn)行預(yù)加重預(yù)處理、分幀加窗預(yù)處理和端點(diǎn)檢測預(yù)處理。
1)預(yù)加重
語音信號由于口鼻輻射等因素會導(dǎo)致功率過高,隨著頻率的增加信號越弱,為了增強(qiáng)語音多維語音信號中存在的高頻部分,將預(yù)加重處理作為數(shù)字濾波器對多維語音信號進(jìn)行處理[5]。
通過下述公式描述濾波器對應(yīng)的傳遞函數(shù)
H(z)=1-αz-1
(1)
式中,α代表的是預(yù)加重系數(shù)。
設(shè)y(n)代表的是n時刻利用預(yù)加重高通濾波器處理后獲得的語音信號,可通過下式進(jìn)行描述
y(n)=x(n)-αx(n-1)
(2)
式中,x(n)代表的是n時刻的語音信號。
2)音信號的短時平穩(wěn)性進(jìn)行考慮,將語音信號劃分成多個短時幀進(jìn)行處理[6]。人機(jī)交互系統(tǒng)多維語音信息識別方法采用交疊分幀法對語音信息進(jìn)行分幀處理。為了增強(qiáng)樣本點(diǎn)附近存在的語音波形,減弱剩余的波形,需要對分幀處理后的語音信號進(jìn)行加窗處理[7]。
設(shè)sw(n)代表的是經(jīng)過窗函數(shù)處理后的語音片段
sw(n)=s(n)*w(n)
(3)
式中,s(n)代表的是一幀語音片段,w(n)代表的是矩形窗。
3)端點(diǎn)檢測
在噪聲條件下獲取多維語音信號中的起始和終止點(diǎn)是語音處理環(huán)境中端點(diǎn)檢測的主要目的,去除語音信號中存在的靜音成分,獲得有效語音信號[8]。第n幀語音信號用xn(m)進(jìn)行描述,設(shè)En代表的是一幀語音信號對應(yīng)的短時能量,可通過下式進(jìn)行計算
(4)
每個語音信號中都存在很多幀,每個幀對應(yīng)的短時能量都不相同,非噪聲幀段和噪聲幀段之間的短時能量存在差異,濁音幀段與清音幀段對應(yīng)的短時能量都是不一樣的[9]。人機(jī)交互系統(tǒng)多維語音信息識別方法為了在多維語音信號中獲得語音終止點(diǎn)和語音起始點(diǎn),在處理過程中設(shè)置兩個不同的短時能量門限,通過短時過零率實(shí)現(xiàn)上述過程,設(shè)Zn代表的是語音信號xn(m)對應(yīng)的短時過零率,可通過下式計算得到
(5)
式中,N代表的是幀長。人機(jī)交互系統(tǒng)多維語音信息識別方法具體流程如圖1所示。
圖1 識別流程圖
人機(jī)交互系統(tǒng)多維語音信息識別方法提取語音信號的i-vector作為特征參數(shù)。
通過下式分解語句特征的高維均值超矢量M
M=Tω+m
(6)
式中,ω表示全差異因子;矩陣T表示全差異空間;m表示超矢量。人機(jī)交互系統(tǒng)多維語音信息識別方法提取語音信息特征向量的過程如下
(7)
式中,Ck代表的是第k個混合高斯系數(shù);N(y;mk,Rk)描述的是高斯分布,其角協(xié)方差矩陣為Rk、均值為mk。
設(shè)Ω={ck,mk,Rk}代表的是GMM-UBM參數(shù),通過(D·K)維隨機(jī)超矢量M(i)對給定語音數(shù)據(jù)Yi中說話人之間的差異進(jìn)行描述
M(i)=M0+Tw(i)
(8)
式中,矩陣T可以對總體變化進(jìn)行描述,是(D·K)×F維的;w(i)代表的是符合標(biāo)準(zhǔn)正態(tài)分布的低維隨機(jī)矢量。通過上述過程獲得的i-vector、Ω和Yi求解下述問題
(9)
對上式進(jìn)行求解,提出多維語音的特征參數(shù)i-vector,并整理,獲得下述特征參數(shù)
(10)
式中,Γy(i)代表的是低維超矢量;Γ(i)代表的是(D·K)×(D·K)維度的塊對角陣。
人機(jī)交互系統(tǒng)多維語音信息識別方法通過融合多維語音信息特征參數(shù),獲得人機(jī)交互系統(tǒng)多維語音信息特征,利用神經(jīng)網(wǎng)絡(luò)分類識別方法根據(jù)提取的多維語音信息特征完成人機(jī)交互系統(tǒng)多維語音信息的識別[10]。
人機(jī)交互系統(tǒng)多維語音信息識別方法在關(guān)聯(lián)規(guī)則重組的基礎(chǔ)上融合多維語音信息特征,用P=|STFT(t,q)|2描述上述過程獲得的語音信息特征參數(shù),其中STFT(t,q)代表的是短時傅里葉變換函數(shù),對數(shù)據(jù)塊進(jìn)行劃分,獲得若干個基函數(shù),通過多種相位因子分析方法融合特征參數(shù),在人機(jī)交互系統(tǒng)多維語音特征參數(shù)融合的基礎(chǔ)上獲得線性疊加輸出Y
(11)
式中,α代表的是統(tǒng)計調(diào)制參數(shù),通常情況下為大于零的常數(shù);x(t)代表的是特征參數(shù);β代表的是相位因子搜索函數(shù);c代表的是雙層優(yōu)化的調(diào)頻參數(shù)。
采用多維尺度分析方法對人機(jī)交互系統(tǒng)多維語音信號的背景噪聲強(qiáng)度進(jìn)行分解時[11],分量是固定的,分解結(jié)果可通過下式進(jìn)行描述
(12)
式中,a(t)代表的是多維語音信號對應(yīng)的檢測幅值;u(t)代表的是多維語音信號對應(yīng)的相位旋轉(zhuǎn)約束量;φ(t)代表的是語音信息中數(shù)據(jù)塊對應(yīng)的相位分布信息。
對第1個陣元對應(yīng)的載波頻率進(jìn)行計算,獲得多維語音信號對應(yīng)的頻率增量r(t)
r(t)=a(t)exp{[fe1tln(t-t0)-fe2tlnφ(t)]}
(13)
式中,fe1、fe2代表的是多維語音信號對應(yīng)的初始頻率和截止頻率。
設(shè)G代表的是多維語音信號中存在的低頻成分,其表達(dá)式如下
G=Wr(t)+W(a,b)
(14)
式中,W代表的是語音信號對應(yīng)的頻譜特征量;b代表的是沖激響應(yīng)函數(shù)。
在多維語音信息頻譜特征的分離結(jié)果的基礎(chǔ)上計算干擾方差h
(15)
式中,τ′代表的是時延參數(shù);t0代表的是每段信號對應(yīng)的峰值。
在尺度控制下,根據(jù)時間尺度分解結(jié)果獲得多維語音信號的濾波輸出ψ
(16)
通過信息融合跟蹤檢測方法獲得完整的多維語音信號對應(yīng)的多維特征量。
每個數(shù)據(jù)塊在人機(jī)交互系統(tǒng)中的采樣平衡點(diǎn)是等間隔的,設(shè)∏代表的是采樣干擾信號對應(yīng)的幅度,其表達(dá)式如下
(17)
式中,q代表的是調(diào)制信號對應(yīng)的模。
構(gòu)建信號分類器E
(18)
式中,F(xiàn)(η)代表的是特征分類函數(shù),對特征分類函數(shù)進(jìn)行加權(quán)求和,獲得多維語音信號。
針對人機(jī)交互系統(tǒng)中存在多維語音信號通過改進(jìn)神經(jīng)網(wǎng)絡(luò)法進(jìn)行特征分類,對分類狀態(tài)檢測度U進(jìn)行計算
(19)
針對人機(jī)交互系統(tǒng)多維語音信息特征,在模糊分類約束條件下對神經(jīng)網(wǎng)絡(luò)分類參數(shù)進(jìn)行分析[12],采用改進(jìn)神經(jīng)網(wǎng)絡(luò)構(gòu)建多維語音信息識別模型
(20)
式中,g(t)代表的是多維語音信號對應(yīng)的部分傳輸序列;S代表的是信息融合輸出;M代表的是語音映射符號的數(shù)量;θ(t)代表的是模糊控制函數(shù)。
為了驗(yàn)證人機(jī)交互系統(tǒng)多維語音信息識別方法的整體有效性,需要對驗(yàn)證人機(jī)交互系統(tǒng)多維語音信息識別方法進(jìn)行測試,本次測試在Visual C++開發(fā)的平臺中進(jìn)行,操作系統(tǒng)為Windows。分別采用人機(jī)交互系統(tǒng)多維語音信息識別方法(方法1)、基于變分模態(tài)分解的語音信息識別方法(方法2)和基于卷積神經(jīng)網(wǎng)絡(luò)特征表征的語音信息識別方法(方法3)進(jìn)行測試,對比不同方法的語音識別率,測試結(jié)果如圖2所示。
圖2 語音識別率測試結(jié)果
分析圖2中的數(shù)據(jù)可知,方法1對多維語音信息進(jìn)行識別時獲得的識別率均在90%以上,遠(yuǎn)遠(yuǎn)高于方法2和方法3對多維語音信息進(jìn)行識別時獲得的識別率,因?yàn)榉椒?對多維語音信息進(jìn)行了預(yù)加重處理,提高了語音信號的高頻部分,進(jìn)而提高了方法1的語音識別率。
分別采用方法1、方法2和方法3對人機(jī)交互多維語音信息進(jìn)行識別,對比不同方法識別多維語音信息所用的時間,測試結(jié)果可通過圖3進(jìn)行描述。
圖3 語音識別時間測試結(jié)果
對圖3中的數(shù)據(jù)進(jìn)行分析可知,隨著多維語音信息數(shù)量的增加,方法1、方法2和方法3所用的識別時間都不斷增加,但在相同語音信息數(shù)量下,方法1所用的識別時間低于方法2和方法3所用的識別時間,因?yàn)榉椒?對多維語音信號進(jìn)行了端點(diǎn)檢測,在背景噪聲中尋找語音的終止點(diǎn)和開始點(diǎn),去除語音信號中存在的靜音成分,獲得有效語音信號,縮短了多維語音信息識別所用的時間,提高了方法1的識別效率。
將識別準(zhǔn)確率作為測試指標(biāo),對方法1、方法2和方法3進(jìn)行測試,測試結(jié)果如圖4所示。
圖4 識別準(zhǔn)確率測試結(jié)果
據(jù)圖4可知,方法1、方法2和方法3的識別準(zhǔn)確率隨著語音信息數(shù)量的增加有所下降,但方法1在測試過程中的識別準(zhǔn)確率保持在90%以上,因?yàn)榉椒?對語音信號的短時平穩(wěn)性進(jìn)行考慮,將語音信號劃分成多個短時幀進(jìn)行處理,采用神經(jīng)網(wǎng)絡(luò)分類識別方法對預(yù)處理后的多維語音信息進(jìn)行識別,提高了識別結(jié)果的準(zhǔn)確率。
語音客服的應(yīng)用場景較為廣泛,多維語音信息在人機(jī)交互系統(tǒng)中屬于混合信號。目前大部分多維語音識別方法無法同時識別說話的背景聲、所講內(nèi)容、情感狀態(tài)、身份、性別和年齡等多維信息,無法達(dá)到實(shí)用化和商品化的要求,在此背景下需要對多維語音信息識別方法進(jìn)行研究。提出人機(jī)交互系統(tǒng)多維語音信息識別方法,首先對多維語音信息進(jìn)行預(yù)處理,融合多維特征,通過神經(jīng)網(wǎng)絡(luò)分類識別方法完成多維語音信息的識別,有效的提高了識別率、識別效率和識別準(zhǔn)確率,解決了目前方法中存在的問題,為人機(jī)交互系統(tǒng)的運(yùn)行和發(fā)展提供了保障。