張翠玲 丁 盼
(1 西南政法大學(xué)刑事偵查學(xué)院 重慶 401120;2 重慶高校刑事科學(xué)技術(shù)重點實驗室 重慶 401120)
近年來,隨著科學(xué)技術(shù)的不斷發(fā)展,法庭對科學(xué)證據(jù)的準(zhǔn)確性、可靠性的要求不斷提高,法庭證據(jù)評估方法體系也在不斷發(fā)展完善,基于似然比框架的參數(shù)性能測試和證據(jù)價值評估逐漸得到認(rèn)可和重視[1-3]。在司法語音領(lǐng)域,基于似然比方法的法庭說話人識別不僅更符合法庭邏輯推理,而且可以量化評估證據(jù)價值、量化評估方法系統(tǒng)的準(zhǔn)確性和可靠性,加之程序更加客觀、透明,因此已經(jīng)成為當(dāng)前研究的熱點和未來的發(fā)展方向。
在法庭說話人識別實踐中,不管是基于聽覺——聲學(xué)語音學(xué)方法,還是基于半自動和全自動方法,都需要對提取的語音特征進(jìn)行量化分析和比較鑒別。特征的選取和特征價值的高低直接影響說話人識別的效果,因此尋找個體區(qū)分效果較好的語音特征參數(shù),比較評估參數(shù)特征的價值一直是法庭說話人識別領(lǐng)域關(guān)注的重點問題?;诼犛X——聲學(xué)語音學(xué)方法的研究側(cè)重的參數(shù)特征往往是元音和濁輔音的共振峰頻率,基于半自動和全自動方法的研究側(cè)重參數(shù)特征一般是梅爾頻率倒譜系數(shù)(MFCC)[4-5]。對于線性預(yù)測倒譜特征(LPCC)則較少在法庭語音比對中應(yīng)用。
國內(nèi)外學(xué)者基于似然比方法對語音的LPC倒譜特征進(jìn)行了初步研究。Rose基于297名男性的日語語音數(shù)據(jù)庫對5個元音的LPC倒譜特征進(jìn)行了研究,特征融合后取得了較好的效果[6];王華朋基于45名男性漢語普通話語音數(shù)據(jù)庫,對單元音/a/的LPC倒譜特征進(jìn)行了測試,發(fā)現(xiàn)自動提取特征比人工提取的共振峰特征更具優(yōu)勢[7]。對于濁輔音的研究,主要集中在鼻音上,因為鼻音作為一種聲源特征具有較好的個體特異性[8]。而Alex等對日語和粵語的研究表明,利用鼻音LPC特征進(jìn)行說話人識別時,兩種語言間差異不大,而且鼻音并不比其他種類音段具有明顯的優(yōu)勢[9]。相對而言,對于清輔音的LPC倒譜特征研究相對較少。Rose對舌面清擦音的研究表明,清輔音的LPC倒譜具有潛在的話者區(qū)分價值[10]。
相較于元音和濁輔音,清輔音的時長較短,聲學(xué)特征也略為復(fù)雜,不易提取。為了探究漢語清輔音的個體特性及其應(yīng)用價值,本文以時長相對較長的擦音/s/為代表,分析提取其LPC倒譜特征,并采用似然比框架量化評價其在法庭說話人識別中的作用和表現(xiàn)。
似然比框架是一種基于貝葉斯統(tǒng)計推理的量化評估證據(jù)強(qiáng)度的邏輯體系[11]。似然比是兩種競爭假設(shè)條件下觀察到的證據(jù)特征的概率之比。在法庭說話人識別領(lǐng)域,似然比方法通常用于推測未知語音檢材與已知語音樣本的同源性,通過計算檢材語音與樣本語音同源假設(shè)條件下觀察到的檢材語音聲學(xué)特征,與檢材語音和樣本語音同源假設(shè)條件下觀察到的檢材語音聲學(xué)特征的概率比值,來量化評估證據(jù)對兩種假設(shè)的支持力度。似然比LR的表達(dá)式為:
式中,HSS代表同源假設(shè),即假設(shè)檢材與樣本同源;HDS代表不同源假設(shè),即檢材與樣本不同源;P代表概率,E代表證據(jù),即檢材的聲學(xué)特征。LR值大于1,表明證據(jù)支持同源假設(shè);LR值小于1,表明證據(jù)支持非同源假設(shè);LR的值與1的相對距離越遠(yuǎn),證據(jù)的強(qiáng)度就越大,證據(jù)所包含的信息就越有效[12]。
本文使用的是來自90位成年男性電話語音數(shù)據(jù)庫。該數(shù)據(jù)庫包含兩次非同期錄音,第一次與第二次的錄音時間相隔在兩周以上。錄音時,兩位發(fā)音人分別位于不同的錄音室,各自佩戴一領(lǐng)夾式麥克(森海塞爾Sennheiser MKE 2 P-C),然后通過固定電話進(jìn)行通話。兩個麥克分別與外置聲卡(Roland UA-25EX)和計算機(jī)相連,通過軟件Cooledit Pro 2.1錄音。錄音被儲存為16位的PCM格式,采樣頻率為44.1kHz。發(fā)音人為東北地區(qū)大學(xué)生,年齡在18~23歲之間,普通話較好。兩次錄音均為漢語普通話,交流內(nèi)容是核對產(chǎn)品報價單的信息。兩份傳真件內(nèi)容相同,只是部分內(nèi)容模糊,兩位發(fā)音人的任務(wù)就是通過電話交流對產(chǎn)品報價單的模糊部分進(jìn)行信息核對。關(guān)于數(shù)據(jù)庫采集的細(xì)節(jié),參見文獻(xiàn)[13]。
數(shù)據(jù)庫共包含90人的180段錄音,第一次和錄音中每個人的純語音長度平均約為230s,第二次錄音中每個人的純語音長度平均約為150s。使用軟件Praat語音軟件(version 6.0.18)對每段錄音中的擦音/s/進(jìn)行人工手動標(biāo)注。圖1為0~8kHz頻帶范圍內(nèi)擦音/s/的寬帶語音圖譜。
圖1 普通話發(fā)音/si/的寬帶語音圖譜
標(biāo)注的/s/大多來自“si”“san”“se”“su”等音節(jié)。作為舌尖前音,/s/在發(fā)音時極易受到后面音節(jié)的影響,因此我們僅選擇其穩(wěn)定段進(jìn)行標(biāo)注。180段語音中共標(biāo)注出3975個/s/音段,其中第一次發(fā)音標(biāo)注語音段2160個,每人平均24個;第二次發(fā)音標(biāo)注語音段1815個,每人平均20個。
將標(biāo)注的全部擦音/s/進(jìn)行切分后,提取其LPC倒譜特征。線性預(yù)測的思想是語音中的每個采樣值可以通過幾個過去時間采樣值的線性組合來逼近。因此,通過利用語音信號中相鄰的采樣值之間存在相關(guān)性的特點,使實際語音抽樣與線性預(yù)測抽樣值之間的誤差在某個準(zhǔn)則下達(dá)到最小值,可以得到反映語音信號特征的預(yù)測系數(shù)[14]。線性預(yù)測的計算公式如下:
式中,p是預(yù)測器的階數(shù),u(n)是激勵序列,G是u(n)的增益。線性預(yù)測分析用來確定預(yù)測系數(shù){a(k)|k=1,…,p},經(jīng)過自相關(guān)及LPC分析后,使用Levinson-Durbin遞推算法解出LPC系數(shù)。一般來講,使用8~12階的LPC預(yù)測器就能較好地捕捉語音特征,參考Rose案件報告中的參數(shù)選擇[15],本實驗中我們選取的是8階。
LPC倒譜特征是線性預(yù)測系數(shù)在倒譜域的表示,在線性預(yù)測系數(shù)基礎(chǔ)上求倒譜,就得到LPC倒譜系數(shù)。它能較徹底地去除語音信號產(chǎn)生過程的激勵信息,并反映聲道的模型特征,只需十幾個倒譜系數(shù)就可以較好地描述語音的共振峰特性[16]。此外,LPC倒譜特征的模型參數(shù)相對簡單,計算量小,具有較好優(yōu)勢。
首先將同一人前后兩次錄音中擦音/s/的LPC倒譜特征參數(shù)進(jìn)行比較,這樣就產(chǎn)生了90個同一話者自身的比較對。其次,就不同說話人之間,將每一位說話人的擦音/s/的LPC倒譜特征參數(shù)與其他所有人依次進(jìn)行兩兩比較,即全交叉驗證比較,這樣就產(chǎn)生了90*(90-1)/2=4005個不同話者之間的比較對。
似然比計算采用的是多變量核密度似然比(MVLR)計算公式[17-18]。得到每次比較的LR值及其概率累計分布后,識別測試的結(jié)果通過Tippett圖(見圖2)、等誤率(EER)、對數(shù)似然比代價函數(shù)(Cllr)進(jìn)行評價。在Tippett圖中,橫軸是以10為底的對數(shù)似然比(log10LR),縱軸是同一話者和不同話者比較所占的比例,即概率累計分布。向右的曲線代表同一話者的比較,向左的曲線代表不同話者的比較。兩線交叉點對應(yīng)的概率代表等誤率。兩條曲線分得越開,交叉點越低,識別的效果越好。
對數(shù)似然比代價函數(shù)Cllr(Log likelihood ratio cost)[19]作為準(zhǔn)確性評估參數(shù),是進(jìn)行似然比框架下法庭說話人識別的標(biāo)準(zhǔn)評價指標(biāo)。其表達(dá)式見公式(3):
式中,Ns和Nd分別是同一話者和不同話者測試對的數(shù)量,LRs和LRd分別是同一話者和不同話者測試對比較的似然比。左側(cè)的值代表同一話者自身比較的識別性能,可用SS Cllr表示;右側(cè)的值代表不同話者之間的識別性能,可用DS Cllr表示。Cllr值是系統(tǒng)的整體表現(xiàn)。Cllr值小于1,說明系統(tǒng)是有效的。Cllr值越小,系統(tǒng)的準(zhǔn)確性越好。
為了研究不同語音信號頻率范圍對系統(tǒng)識別性能的影響,我們首先將全部90人的語音樣本的采樣率從44.1kHz分別降為8kHz和16kHz,分別提取0~4kHz、0~8kHz和2k~7kHz頻帶范圍內(nèi)的LPC倒譜特征進(jìn)行說話人識別測試,結(jié)果見表1。
表1 3種頻帶范圍內(nèi)LPC倒譜特征的說話人識別結(jié)果(校準(zhǔn)后)
表1中,Cllr值反映的是系統(tǒng)識別的整體性能,SS Cllr值反映的是同一說話人自身比較的識別性能,DS Cllr值反映的是不同說話人之間的識別性能。該統(tǒng)計結(jié)果表明,總體上擦音/s/的LPC倒譜特征具有一定的話者區(qū)分價值,但是性能并不很高,整體的Cllr值在0.6~0.7之間,差異不大。這說明,作為單一識別參數(shù),利用擦音/s/的LPC倒譜特征進(jìn)行說話人識別的效果有限。但是,不同頻帶對于系統(tǒng)識別的影響還是存在的,這與預(yù)期一致。比較而言,2k~7kHz頻率范圍時的識別效果較好,與0~4kHz的頻帶情況相比,系統(tǒng)的Cllr值從0.734下降到0.63,系統(tǒng)性能提升了14.2%。這說明2k~7kHz的頻率范圍能夠更好反映擦音/s/的個體信息,2kHz以下的低頻部分可能存在冗余信息,因此邊界限制[20]有助于識別性能提升。該結(jié)果與文獻(xiàn)[15]的測試結(jié)果一致。
兩種條件下識別的具體情況,詳見圖2~4。圖中,向右上開的曲線表示同一話者比較,向右下降的曲線表示不同話者比較。虛線和實線分別代表同一系統(tǒng)校準(zhǔn)前和校準(zhǔn)后的結(jié)果。在法庭說話人識別中,校準(zhǔn)是一個標(biāo)準(zhǔn)步驟,特別是對于檢材語音與樣本語音條件失配情況下,系統(tǒng)經(jīng)校準(zhǔn)后性能會更佳。
圖2 0~4kHz頻帶范圍內(nèi)利用LPCC進(jìn)行說話人識別的Tippett圖
圖3 0~8kHz頻帶范圍內(nèi)利用LPCC進(jìn)行說話人識別的Tippett圖
圖4 2k~7kHz頻帶范圍內(nèi)利用LPCC進(jìn)行說話人識別的Tippett圖
選擇多大規(guī)模的參考人群數(shù)據(jù)庫對于法庭說話人識別也很重要。為了探究數(shù)據(jù)庫大小對擦音/s/的LPC倒譜特征識別性能的影響,我們采用同樣方法,分3組對30人、60人和90人的數(shù)據(jù)庫規(guī)模進(jìn)行了說話人識別性測試,結(jié)果見表2。
表2 不同規(guī)模數(shù)據(jù)庫在3種信號頻帶范圍內(nèi)的LPC倒譜特征識別的Cllr值
測試的結(jié)果表明,數(shù)據(jù)庫的大小對識別的性能有影響。各個頻率范圍內(nèi)的趨勢基本相同,即隨著數(shù)據(jù)庫人數(shù)的增加,系統(tǒng)識別的難度增加,因此識別性能也隨之下降。總體上,30人的數(shù)據(jù)庫識別效果最好,特別是頻帶范圍為0~8kHz時,Cllr值為0.536,是所有測試中最低的。但是,系統(tǒng)表現(xiàn)并不穩(wěn)定,主要表現(xiàn)在0~4kHz頻帶條件下30人的數(shù)據(jù)庫識別效果最差,Cllr值為0.827。理論上,語音數(shù)據(jù)庫越大,越具代表性,統(tǒng)計建模越精準(zhǔn)。而司法檢驗實踐中,基于數(shù)據(jù)庫成本和時效問題的綜合考慮,選擇相對合理的數(shù)據(jù)庫規(guī)模是重要的現(xiàn)實問題。
3種頻帶范圍的測試結(jié)果,詳見圖5~7。
圖5 語音信號頻率范圍設(shè)置為0~4kHz時不同大小數(shù)據(jù)庫的Tippett圖
圖6 語音信號頻率范圍設(shè)置為0~8kHz時不同大小數(shù)據(jù)庫的Tippett圖
圖7 語音信號頻率范圍設(shè)置為2k~7kHz時不同大小數(shù)據(jù)庫的Tippett圖
本文使用基于似然比證據(jù)強(qiáng)度評估方法和90位男性的非同時語音樣本數(shù)據(jù)庫,對漢語普通話擦音/s/的LPC倒譜特征在不同語音信號頻率范圍內(nèi)、不同數(shù)據(jù)庫規(guī)模條件下的說話人識別特性進(jìn)行測試比較和效果評價。研究結(jié)果表明,擦音/s/的LPC倒譜特征具有一定的話者區(qū)分價值,但是性能并不很高,如果僅作為單一參數(shù)進(jìn)行說話人識別,其性能效果有限,需要與其他參數(shù)特征結(jié)合使用。此外,不同頻帶對系統(tǒng)識別效果有一定影響,而邊界限制有助于提升識別性能。數(shù)據(jù)庫大小對識別性能也有影響,系統(tǒng)識別難度隨數(shù)據(jù)庫人數(shù)增加而下降,但是系統(tǒng)表現(xiàn)并不穩(wěn)定。究竟多大數(shù)據(jù)庫規(guī)模最為合理還需進(jìn)一步研究。