李正友,李天偉,黃 謙
(1.大連艦艇學(xué)院 航海系,遼寧大連116018; 2.中國(guó)人民解放軍69029 部隊(duì),新疆 烏魯木齊830011)
船舶航行數(shù)據(jù)記錄儀(voyage data recorder,VDR)是現(xiàn)代船舶的必備設(shè)備。安裝VDR 的目的是“為了以一種安全和可恢復(fù)的方式,保存有關(guān)船舶發(fā)生事故前后一段時(shí)間的船舶位置、動(dòng)態(tài)、物理狀況、命令和操縱的信息”[1],在船舶事故原因調(diào)查中能夠發(fā)揮重要作用。由于存儲(chǔ)容量限制,VDR 采用由新數(shù)據(jù)覆蓋舊數(shù)據(jù)的循環(huán)存儲(chǔ)方式[2]。這要求VDR 主機(jī)必須能在第一時(shí)間準(zhǔn)確判斷事故是否已經(jīng)發(fā)生并及時(shí)關(guān)閉,以保留事故發(fā)生前后存儲(chǔ)的寶貴數(shù)據(jù)。檢測(cè)20 min 內(nèi)有無人聲是目前最常用的VDR 主機(jī)停機(jī)條件之一。由于駕駛室環(huán)境是各種人聲(不同的說話人、說話內(nèi)容、語言類型等)和各種非人聲(如海浪聲、風(fēng)聲等)的混合聲音,因此VDR 人聲檢測(cè)的目的在于判斷一段聲音是否是語音,或者判斷其中是否含有語音。
目前,國(guó)內(nèi)外在聲音識(shí)別領(lǐng)域的研究包括識(shí)別不同說話人特征的說話人識(shí)別及識(shí)別不同語義特征的語音識(shí)別、識(shí)別不同情感狀態(tài)特征的情感識(shí)別等。它們的共性是在已知該聲音是語音的前提下,研究語音的某一方面特征,而VDR 人聲檢測(cè)則是需要判斷一段聲音是否是語音或者判斷其中是否含有語音。由于語音和環(huán)境的多變性,說話人識(shí)別、語音識(shí)別或情感識(shí)別中應(yīng)用廣泛的特征參數(shù)(如MFCC、LPCC 等),在人聲檢測(cè)中應(yīng)用效果并不理想。本文從語音的產(chǎn)生機(jī)理出發(fā),結(jié)合駕駛室環(huán)境下各種聲音的特點(diǎn),提出采用共振峰諧波特征(formant-consonance characteristic,F(xiàn)CC)來進(jìn)行人聲檢測(cè)。在分類方法方面選擇了泛化能力較強(qiáng)的支持向量機(jī)(support vector machines,SVM)分類方法。
語音的產(chǎn)生主要是聲門激勵(lì)和聲道調(diào)制的結(jié)果,這是語音區(qū)別于其他任何聲音的本質(zhì)特征。聲道可以看成是1 個(gè)具有某種諧振特性的腔體,其一組諧振點(diǎn)稱為共振峰,共振峰的位置及各個(gè)峰的寬度決定了聲道的頻譜特性[3]。由于聲門激勵(lì)不同,產(chǎn)生了濁音、清音、爆破音等不同類型的語音,其中濁音占據(jù)了大部分語音能量和時(shí)長(zhǎng)。濁音的聲門激勵(lì)是準(zhǔn)周期的脈沖序列,它有豐富的諧波成分[3],反映了聲門激勵(lì)特征。因此共振峰和諧波特征可以有效區(qū)分駕駛室環(huán)境下人聲和非人聲。
共振峰信息包含在頻譜包絡(luò)之中,頻譜包絡(luò)的極大值就是共振峰[4]。圖1(a)和圖1(c)實(shí)線所示為人聲和海浪聲的頻譜,虛線所示為各自的譜包絡(luò);圖1(b)和圖1(d)所示分別為去除共振峰信息后剩余信號(hào)的頻譜。從圖1(a)實(shí)線所示語音信號(hào)頻譜圖中可以明顯地看出共振峰和諧波,計(jì)算圖1(a)虛線所示的頻譜包絡(luò)后,共振峰更加明顯,語音信號(hào)去除共振峰信息后剩余的信號(hào)頻譜如圖1(b)所示,諧波特征非常明顯,而且其諧波頻率與原始語音頻譜的諧波頻率相等;圖1(c)和圖1(d)所示的海浪聲頻譜則不具備語音信號(hào)的上述特征。
共振峰提取方法已經(jīng)提出了多種,目前主要有2 類:倒譜法和線性預(yù)測(cè)分析(linear prediction analysis,LPA)法[4-6]。倒譜法是對(duì)原始語音信號(hào)進(jìn)行傅立葉變換的對(duì)數(shù)幅度譜進(jìn)行逼近,然后進(jìn)行反傅立葉變換得到時(shí)域的倒譜系數(shù)。倒譜系數(shù)的低時(shí)部分?jǐn)y帶了聲道的信息,可以通過倒譜系數(shù)表示的頻譜包絡(luò)來估計(jì)共振峰頻率,但是存在倒譜系數(shù)的長(zhǎng)度不確定的問題,并且在頻域中處理計(jì)算的復(fù)雜度較高[5]。線性預(yù)測(cè)法是共振峰檢測(cè)領(lǐng)域的主流算法,它首先求出線性預(yù)測(cè)系數(shù),然后用線性預(yù)測(cè)系數(shù)估計(jì)聲道的譜包絡(luò),再用峰值檢出法算出共振峰頻率[6]。本文采用線性預(yù)測(cè)法檢測(cè)共振峰,用線性預(yù)測(cè)殘差信號(hào)檢測(cè)諧波。圖2所示為采用線性預(yù)測(cè)法分別對(duì)語音和非語音信號(hào)進(jìn)行檢測(cè)的結(jié)果。
圖1 語音信號(hào)和關(guān)門聲信號(hào)頻譜對(duì)比Fig.1 Spectrum comparison of speech signal and the sound of closing door
從大量語音信號(hào)和非語音信號(hào)的檢測(cè)結(jié)果來看,濁音語音信號(hào)的共振峰頻率和帶寬與音素及說話人有關(guān)。同一說話人發(fā)同一個(gè)濁音,其共振峰頻率和帶寬基本不變;不同說話人發(fā)同一個(gè)濁音,其共振峰頻率和帶寬相差不大;同時(shí)語音濁音音素的個(gè)數(shù)有限,其共振峰頻率和帶寬在一定范圍內(nèi)變化;而非語音信號(hào)頻譜包絡(luò)的峰值頻率和帶寬十分不穩(wěn)定。對(duì)語音信號(hào)進(jìn)行線性預(yù)測(cè)殘差分析后,都能得到相對(duì)穩(wěn)定的諧波,其殘差頻譜峰值較少,峰值之間的間隔相差不大。因此本文采用聲音信號(hào)LPA 譜前3個(gè)峰的頻率F1~F3、LPA 殘差信號(hào)譜的0 ~2 000 Hz 范圍內(nèi)波峰的個(gè)數(shù)Nr和相鄰波峰頻率間隔的方差Sr等參數(shù)作為VDR 人聲檢測(cè)的主要特征參數(shù)。
圖2 語音信號(hào)和非語音信號(hào)共振峰諧波對(duì)比Fig.2 Formants and resonances comparison of speech and non-speech signals
支持向量機(jī)(support vector machine,SVM)以統(tǒng)計(jì)學(xué)習(xí)理論作為堅(jiān)實(shí)的理論依據(jù),具有簡(jiǎn)潔的數(shù)學(xué)形式、直觀的幾何解釋和良好的泛化能力,避免了局部最優(yōu),有效克服了“維數(shù)災(zāi)難”,能夠較好地解決線性不可分問題。近年來,它在實(shí)踐方面取得了比傳統(tǒng)分類器更優(yōu)的分類性能[7]?;赟VM 的VDR 人聲檢測(cè)實(shí)際上是提取信號(hào)的某些聲學(xué)特征、利用SVM 解決語音和非語音的2 類分類問題。
在SVM 的訓(xùn)練階段,給定訓(xùn)練樣本集{xi,ti},i=1,2,…,N,xi為n 維特征向量,ti∈{-1,+1}(ti=1 表示語音,ti=-1 表示非語音),求解高維映射空間內(nèi)分類間隔最大的最優(yōu)超平分類面(w,b)。約束條件為
求解下列函數(shù):
式中:φ(·)為非線性映射函數(shù);ξi為松弛變量;C為用于平衡錯(cuò)分樣本比例與算法復(fù)雜度的常量。
在SVM 測(cè)試階段,其最優(yōu)分類函數(shù)為
式中:η 為判決門限;sgn(·)為符號(hào)函數(shù);f(x)=1 表示觀測(cè)量x 是語音,反之為非語音。
語音與非語音的范圍非常廣泛,但VDR 人聲檢測(cè)僅僅需要區(qū)分駕駛室環(huán)境下少數(shù)人的語音和環(huán)境噪聲即可。以在海上實(shí)際采集的海浪聲、風(fēng)聲、海鳥叫聲、船笛聲、船舶主機(jī)工作聲、駕駛室內(nèi)部分設(shè)備工作聲等非語音以及典型10 名話者語音構(gòu)成語料庫。
在獲得訓(xùn)練樣本時(shí),對(duì)于語音信號(hào),需要先進(jìn)行語音能量檢測(cè)及清濁判別,每個(gè)語音信號(hào)可以得到多個(gè)濁音段。對(duì)每個(gè)濁音段分幀,再采用LPC 方法對(duì)每一幀數(shù)據(jù)提取共振峰諧波特征參數(shù)。對(duì)于非語音信號(hào),經(jīng)過能量檢測(cè)后,直接分幀,對(duì)每幀信號(hào)提取特征參數(shù)。將語音和非語音信號(hào)提取的特征參數(shù)組合到一起,構(gòu)成SVM 的訓(xùn)練樣本,其中部分訓(xùn)練樣本如表1所示。在進(jìn)行人聲識(shí)別測(cè)試時(shí),無論是語音還是非語音信號(hào),都經(jīng)過能量檢測(cè)后直接分幀,再提取特征參數(shù),輸入SVM 進(jìn)行分類。如果一個(gè)聲音信號(hào)有連續(xù)多幀被SVM 判別為語音,則該聲音為語音信號(hào)。
表1 部分訓(xùn)練樣本Tab.1 Part of training samples
表2 人聲檢測(cè)正確率(%)比較Tab.2 Comparison of speech detection accuracy rate (%)
本文開展了2 個(gè)實(shí)驗(yàn)。實(shí)驗(yàn)1 從不同說話人對(duì)同一濁音音素的發(fā)音中提取特征參數(shù);實(shí)驗(yàn)2 從不同說話人對(duì)不同濁音音素的發(fā)音中提取特征參數(shù),再加上從各種非語音中提取的特征參數(shù),構(gòu)成訓(xùn)練樣本和測(cè)試樣本。實(shí)驗(yàn)結(jié)果如表2所示,從檢測(cè)正確率上可以看出,如果僅考慮對(duì)不同說話人的同一個(gè)濁音音素進(jìn)行檢測(cè),采用MFCC 參數(shù)和FCC 參數(shù)都獲得了較高的正確率;但如果考慮對(duì)不同說話人的不同濁音音素進(jìn)行檢測(cè),則采用MFCC 參數(shù)和SVM 的人聲檢測(cè)正確率下降到67.4%,而采用FRC參數(shù)和SVM 的人聲檢測(cè)正確率雖然有所下降,但仍高達(dá)92.6%。
VDR 人聲檢測(cè)需要對(duì)語音和其他聲音進(jìn)行區(qū)分,它并不像一般的語音識(shí)別研究那樣在已知該聲音是語音的前提下研究語音的某一方面特征,而是要研究語音區(qū)別于其他聲音的特征。語音有規(guī)律的諧波成分和共振峰是人類發(fā)音的一個(gè)顯著特點(diǎn)。本文從語音的共振峰和諧波中提取特征參數(shù),并利用SVM 分類器進(jìn)行二元分類判別,獲得了較好的檢測(cè)效果。
[1]GDXXX-2001 船載航行數(shù)據(jù)記錄儀檢驗(yàn)指南[S].中國(guó)船級(jí)社,2001.
GDXXXX-2011 Testing guide for shipborne voyage data recorder[S].Chinese Maritime Office,2001.
[2]IEC61996:2000 (E).Shipborne voyage data recorder(VDR)-performance requirements-methods of testing and required test results[S].IEC,2000.
[3]鮑長(zhǎng)春.數(shù)字語音編碼原理[M].西安:西安電子科技大學(xué)出版社,2007.13-16.
BAO Chang-chun.Principles of digital speech coding[M].Xi′an:Xi′an Electronic Technology University Press,2007.13-16.
[4]趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2005.76-80.
ZHAO Li.Processing of speech signals[M].Beijing:Mechanism Industry Press,2005.76-80.
[5]王曉亞.倒譜在語音的基音和共振峰提取中的應(yīng)用[J].無線電工程,2004,34(1):57-59.
WANG Xiao-ya.Cepstrum usage for pitch and formant detection[J].Radio Engineering of China,2004,34(1):57-59.
[6]成新民.情感語音信息中共振峰參數(shù)的提取方法[J].湖州師范學(xué)院學(xué)報(bào),2003,25(6):76-80.
CHENG Xin-min.The method analysis of formant parameters picked-up in sensibility speech communication[J].Journal of Huzhou Techers Colloge,2003,25(6):76-80.
[7]張曉雷.基于支持向量機(jī)與多觀測(cè)復(fù)合特征矢量的語音端點(diǎn)檢測(cè)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,51(9):1209-1214.
ZHANG Xiao-lei.Support vector machine based VAD using the multiple observation compound feature[J].Journal of Tsinghua University(Science and Techonology),2011,51(9):1209-1214.