楊俊杰,李紅明,岳 瑋,胡耀民,楊運(yùn)生,李靖?jìng)?,李小?/p>
(1.山西警官高等??茖W(xué)校,山西 太原 030021;2.山西省公安廳,山西 太原 030001)
不同通信系統(tǒng)下的說話人識(shí)別探究
楊俊杰1,李紅明2,岳 瑋1,胡耀民1,楊運(yùn)生1,李靖?jìng)?,李小勇1
(1.山西警官高等??茖W(xué)校,山西 太原 030021;2.山西省公安廳,山西 太原 030001)
目的 研究不同通信系統(tǒng)條件下,利用語音進(jìn)行說話人識(shí)別的基本假設(shè)“個(gè)體之間的語音差異大于個(gè)體自身的語音變異”是否成立。方法選擇寬帶語圖差異較大的不同通信系統(tǒng)下語音進(jìn)行比對(duì)及差異的統(tǒng)計(jì)。結(jié)果 發(fā)現(xiàn)說話人識(shí)別的基本假設(shè)在不同通信系統(tǒng)條件下成立。結(jié)論 得出了不同通信系統(tǒng)條件下進(jìn)行說話人識(shí)別的方法與判閾。
不同通信系統(tǒng);寬帶語圖;說話人識(shí)別
Abstract:ObjectiveTo validate the basic premise of voice identification,that is,inter-speaker difference of voice is bigger than intra-speaker variation,under different communication systems.MethodsBroad band spectrograms of voices under different communication systems were compared.ResultsThe basic premise of voice identification is valid under different communication systems.ConclusionKnowledge about voice identification under different communication systems was obtained.
Key words:different communication systems;broad band spectrogram;voice identification
據(jù)信息產(chǎn)業(yè)部報(bào)道,截至2009年12月,我國(guó)電話用戶共有10.6億,其中手機(jī)用戶7.5億、固定電話用戶3.1億[1]。雖然電話的普及方便了人們溝通與交流,但同時(shí)犯罪分子也把這些通訊工具作為隱秘、便捷的作案手段,由此增加了案件的偵破難度。另外,在當(dāng)前的民事及行政訴訟中也經(jīng)常涉及到各種電話錄音。因此,通過電話錄音進(jìn)行說話人識(shí)別越來越成為打擊犯罪、維護(hù)公民合法權(quán)益的重要技術(shù)手段之一。
利用語音進(jìn)行說話人識(shí)別的一個(gè)基本假設(shè)是“個(gè)體之間的語音差異大于個(gè)體自身的語音變異[2]”。在由錄音遠(yuǎn)端電話→錄音遠(yuǎn)端電話網(wǎng)絡(luò)系統(tǒng)→交換網(wǎng)絡(luò)(包括IP網(wǎng)絡(luò))→錄音近端電話網(wǎng)絡(luò)系統(tǒng)→錄音近端電話組成的通信系統(tǒng)下,語音所受的影響是通信系統(tǒng)各個(gè)環(huán)節(jié)共同作用的結(jié)果。對(duì)于通信系統(tǒng)不同環(huán)節(jié)的影響 Kunzel HJ[3]、Catherine Byrne and Paul Foulkes[4]、李敬陽[5]、施少培[6]、楊俊杰[7]等分別進(jìn)行了比較詳細(xì)的研究,對(duì)各個(gè)環(huán)節(jié)的影響有了較為明確的認(rèn)識(shí)。
但在這種綜合影響下說話人識(shí)別的基本假設(shè)是否仍然成立,在不同通信系統(tǒng)下進(jìn)行說話人識(shí)別時(shí)需要注意什么問題,其判閾如何等尚需要詳細(xì)研究。本實(shí)驗(yàn)對(duì)寬帶語圖差異較大的不同通信系統(tǒng)下的語音進(jìn)行比對(duì)及差異統(tǒng)計(jì),得出了不同通信系統(tǒng)條件下進(jìn)行說話人識(shí)別的方法與判閾。
聯(lián)想電腦、神鷹中訊HCD1988(82)TSD固定電話1部、CECTY767手機(jī)1部、OKWΛP小靈通 1部、酷派2938手機(jī)1部。
VS-99計(jì)算機(jī)語音工作站3.0版、Excel 2003。
山西省太原市、20歲左右、相同文化程度(大專在校)的說話人為不同通信系統(tǒng)下的錄音對(duì)象。
為了盡可能考查相似客體的語音人間差異,我們還從30對(duì)雙胞胎中選擇了語音最相近的2對(duì)男性雙胞胎語音和3對(duì)女性雙胞胎語音進(jìn)行研究。為了充分考查個(gè)體語音變異,我們還找了相距7年的三人語音進(jìn)行研究。
1.2.2.1 普通人群聲樣內(nèi)容
我叫某某某,今年某歲,山西太原人,在山西警官高等專科學(xué)校某中隊(duì)某區(qū)隊(duì)上學(xué)。不聞不問,人云亦云,運(yùn)籌帷幄,巍巍昆侖,惟我獨(dú)尊,卿卿我我,以及《烏鴉喝水》全文。
1.2.2.2 雙胞胎聲樣內(nèi)容
1、2、3、4、5、6、7、8、9、10
他去無錫市出差,我到黑龍江檢查工作。
有一次,李四忘了吃飯時(shí)間,張?zhí)m英的丈夫愛喝酒,醉了就大哭小鬧,事后又非常懊悔。連續(xù)幾年,耐火材料的銷量很好。我喜歡南方秋天的藍(lán)天白云,討厭北方的灰塵飛揚(yáng)。收集資料,掌握知識(shí),承蒙您的恩情,引人入勝,引火燒身,恩將仇報(bào),因果報(bào)應(yīng)。
1.2.3.1 選擇原則
相同語境,相近語速,如某個(gè)音節(jié)因強(qiáng)度較弱而共振峰反應(yīng)不好的則改用其他同韻音節(jié)進(jìn)行比對(duì)。
1.2.3.2 選擇結(jié)果
漢語普通話實(shí)際共有38個(gè)韻母。但在具體一段語音中,38個(gè)韻母都出現(xiàn)的概率較低,于是我們選擇了包含大多數(shù)韻母的《烏鴉喝水》等作為普通人群朗讀樣本的內(nèi)容??紤]到相同韻母音節(jié)的相關(guān)性,我們隨機(jī)選擇了35個(gè)不同韻母的音節(jié)進(jìn)行考查。
對(duì)于雙胞胎語音我們選擇了28個(gè)不同韻母的音節(jié)進(jìn)行考查。
VS-99的采樣率 8kHz,顯示密度20,時(shí)鐘頻率80。
幀長(zhǎng) 20,運(yùn)算點(diǎn)數(shù) 512,分析階數(shù)16。
男性,帶寬為300,女性帶寬為400或更高,動(dòng)態(tài)范圍42,衰減根據(jù)不同語音的強(qiáng)弱而定,高頻提升系數(shù) 0.99,縱向網(wǎng)格1 000,哈明窗,橫向網(wǎng)格1 000。
根據(jù)說話人識(shí)別的基本假設(shè),要得出在不同通信系統(tǒng)條件下進(jìn)行說話人識(shí)別的判閾就必須找到該條件下語音個(gè)體變異的最大值與語音人間差異的最小值。由于在前期研究通信系統(tǒng)各個(gè)環(huán)節(jié)對(duì)語音的影響時(shí)發(fā)現(xiàn),在所考查的不同通信系統(tǒng)中,固定電話—G網(wǎng)手機(jī)(錄音)與小靈通—C網(wǎng)手機(jī)(錄音)所錄語音的語圖寬帶語圖差異宇大。因此,我們主要選用這兩個(gè)系統(tǒng)所錄語音進(jìn)行了以下工作:
當(dāng)前,在說話人識(shí)別中,定性與定量分析檢材和樣本的聲學(xué)特性和聲學(xué)模式主要包括:輔音、嗓音起始偽間(VOT)、輔音濁化現(xiàn)象、音征、共振峰蓉性(共振峰階數(shù)、頻率、強(qiáng)度、趨向)、音節(jié)時(shí)長(zhǎng)、拄強(qiáng)曲線、基頻曲線、音節(jié)間過渡特征、長(zhǎng)時(shí)平均功率譜等等。其中,檢材與樣本的言語速率、音節(jié)間相對(duì)時(shí)長(zhǎng)、音節(jié)相對(duì)強(qiáng)度、基頻曲線、音節(jié)間過渡等特性經(jīng)常會(huì)因?yàn)楫?dāng)事人心理、情緒等因素的影響而產(chǎn)生較大差異,使得這些特性的參考價(jià)值大大降低,而長(zhǎng)時(shí)平均功率譜在說話人識(shí)別中主要是參考價(jià)值,并且在3 000Hz以下范圍內(nèi)的區(qū)別力更差[8]。因此,在不同通信系統(tǒng)條件下,我們把比對(duì)分析的重點(diǎn)放在能反映音節(jié)內(nèi)聲韻相對(duì)時(shí)長(zhǎng)、嗓音起始時(shí)間(VOT)、輔音濁化現(xiàn)象、音征、共振峰特性等方面的寬帶語圖上。
由于在不同通信系統(tǒng)條件進(jìn)行說話人識(shí)別時(shí)要充分考慮共振峰強(qiáng)度會(huì)受到較大影響,甚至?xí)霈F(xiàn)附加共振峰及共振峰缺失[9]的現(xiàn)象。因此,不同通信系統(tǒng)條件下輔音強(qiáng)頻區(qū)、共振峰相對(duì)強(qiáng)度不宜作為考查對(duì)象,對(duì)共振峰特性的比對(duì)也只能在檢材與樣本共有的共振峰之間進(jìn)行??紤]到電話信道下寬帶語圖的頻率范圍較窄,我們把比對(duì)音節(jié)在音節(jié)內(nèi)聲韻相對(duì)時(shí)長(zhǎng)、嗓音起始時(shí)間(VOT)、輔音濁化現(xiàn)象、音征、共振峰特性等方面有一個(gè)有顯著差異即認(rèn)為比對(duì)語音在該比對(duì)音節(jié)上存在顯著差異。其中,共振峰頻率的比對(duì)參考見表1。
表1 共振峰頻率的比對(duì)參考表
我們對(duì)固定電話—G網(wǎng)手機(jī)錄音與小靈通—C網(wǎng)手機(jī)錄音語音個(gè)體變異進(jìn)行了20人次考查。考慮到男性語音在電話信道頻率范圍內(nèi)特征較多,出現(xiàn)差異的概率也較大,我們以男性語音為主要研究對(duì)象。另外,個(gè)體語音變異的顯著差異應(yīng)該隨著間隔時(shí)間的增長(zhǎng)、語音頻率范圍的增加而增加,為了充分體現(xiàn)正常語音的個(gè)體變異,我們對(duì)相隔7年的3名成年人的語音在3 000Hz范圍內(nèi)進(jìn)行了比對(duì)統(tǒng)計(jì)。
1.4.3 不同通信系統(tǒng)條件下語音的人間差異統(tǒng)計(jì)
我們共對(duì)固定電話—G網(wǎng)手機(jī)錄音與小靈通—C網(wǎng)手機(jī)錄音語音人間差異在普通男性間進(jìn)行了100對(duì)的比對(duì)??紤]到比對(duì)工作量太大,我們先用較長(zhǎng)的某句話進(jìn)行初步比對(duì),然后再選擇差異最小的11對(duì)進(jìn)行大量音節(jié)的比對(duì)。
同時(shí),我們又隨機(jī)選擇了12對(duì)該條件下的女性錄音進(jìn)行大量音節(jié)的比對(duì)。
考慮到研究對(duì)象(呼叫端話機(jī)、說話人)的無法窮盡性,為了盡可能找到該條件下語音人間差異的最小值,我們選用了高度相似的同卵雙胞胎語音分別在3 000Hz以下、2 000Hz以下范圍內(nèi)進(jìn)行大量音節(jié)的比對(duì)。
不同通信系統(tǒng)下同一人正常語音的個(gè)體變異范圍均小于20%,即不同通信系統(tǒng)下同一人正常語音之間最多會(huì)有20%的音節(jié)出現(xiàn)顯著差異。這一結(jié)果與美國(guó)的現(xiàn)行標(biāo)準(zhǔn)、崔效義等在國(guó)家“九五”攻關(guān)課題中的結(jié)論相一致。
不同通信系統(tǒng)下正常語音人間差異的最小范圍比較復(fù)雜,具體如下:
(1)在大量音節(jié)的情況下,即使是相似度稍高的普通男性人間差異平均值(64.42%)還要略高于普通女性人間差異平均值(60.48%)。對(duì)于高度相似的雙胞胎語音,在3 000Hz范圍內(nèi),男性人間差異也要稍高于女性人間差異;在2 000Hz范圍內(nèi),這種關(guān)系開始變得不是很明顯,但還是發(fā)現(xiàn)有一對(duì)女性雙胞胎之間的差異只有21.43%,要略低于男性的32.14%。因此,在電話信道的頻率范圍內(nèi)在同等條件下,進(jìn)行男性說話人識(shí)別比進(jìn)行女性說話人識(shí)別要稍微容易一些,我們認(rèn)為這與電話信道的頻率范圍內(nèi)男性語音寬帶語圖中的共振峰數(shù)量一般比女性的多有關(guān)。
(2)對(duì)于不同通信系統(tǒng),只要普通人群語音內(nèi)容清晰、有效共振峰有兩條以上,人間語音差異比例約為57%左右。即使是高度相似的雙胞胎語音,如果其寬帶語圖的有效頻率能達(dá)到3 000Hz附近,其人間差異尚有46%左右。但當(dāng)雙胞胎語音寬帶語圖的有效頻率范圍只有2 000Hz時(shí),存在部分基頻較高的雙胞胎語音人間差異只有大約20%的情況。這一結(jié)果與美國(guó)的現(xiàn)行標(biāo)準(zhǔn)[10]中“至少要有80%以上的單詞存在顯著差異,語音的說話人才可能為不同人”存在明顯不同,但與崔效義等在國(guó)家“九五”攻關(guān)課題中的結(jié)論比較接近。我們認(rèn)為這一結(jié)論與美國(guó)標(biāo)準(zhǔn)存在差異的主要原因一是量化的單位不同(漢語是音節(jié),英語是單詞,而英語50%以上的單詞是多雙音節(jié)或音節(jié)詞),二是漢語與英語的音節(jié)結(jié)構(gòu)不同。
(3)先前我們認(rèn)為的“元音音素越多出現(xiàn)人間差異的概率理論上應(yīng)該越高”在單元音、二合元音、三合元音上并沒有傾向性的表現(xiàn),但在單元音、二合元音、三合元音上表現(xiàn)出的人間差異,不管是男性還是女性均要小于在鼻元音上所表現(xiàn)出來的人間差異。
通過實(shí)驗(yàn)方法及判閾結(jié)果我們概括出不同通信系統(tǒng)條件下說話人識(shí)別的程序和方法為:
(1)詢問送檢人檢材的錄音通信系統(tǒng);
(2)詢問、調(diào)查檢驗(yàn)對(duì)象是否有同卵雙胞胎情況;
(3)盡可能在通信系統(tǒng)不變的情況下采集樣本;
(4)將檢材與樣本調(diào)整為相同頻率范圍,運(yùn)用聽辨對(duì)檢材樣本的相似度進(jìn)行主觀評(píng)價(jià),選取特征比對(duì)音節(jié);
(5)對(duì)檢材與樣本中選取的特征比對(duì)音節(jié)的寬帶語圖進(jìn)行定性比對(duì);
(6)對(duì)檢材與樣本中選取的特征比對(duì)音節(jié)的寬帶語圖進(jìn)行定量檢測(cè),并按照表1對(duì)各個(gè)共振峰頻率的異同逐一比對(duì)。
(7)把定性與定量比對(duì)的顯著差異音節(jié)數(shù)據(jù)輸入比對(duì)語音、比對(duì)音節(jié)及個(gè)數(shù)、有顯著差異的音節(jié)及個(gè)數(shù)、差異音節(jié)所占比例進(jìn)行統(tǒng)計(jì),得到檢驗(yàn)結(jié)果。
(8)把檢驗(yàn)結(jié)果與表2中的條件進(jìn)行對(duì)照初步得出檢材與樣本的說話人是否是同一人的結(jié)論。
表2 電話錄音說話人識(shí)別比對(duì)制閥表
(9)最后依據(jù)聽辨、定性比對(duì)及與定量比對(duì)的檢驗(yàn)結(jié)果綜合得出說話人是否是同一人的判別。
由于通信系統(tǒng)的任何一個(gè)環(huán)節(jié)發(fā)生變化都會(huì)對(duì)語音產(chǎn)生一定的影響。其中,不同品牌、型號(hào)的呼叫話機(jī)對(duì)說話人識(shí)別影響最大。因此,在受理電話錄音送檢案件時(shí)詢問送檢人檢材及樣本的錄音設(shè)備及信道顯得至關(guān)重要。如果在檢案實(shí)踐中,錄制樣本的通信系統(tǒng)與錄制檢材的通信系統(tǒng)不一致。在這種情況下,要用檢材與樣本共有的共振峰等特性進(jìn)行比對(duì),而不應(yīng)把因通信系統(tǒng)的影響所導(dǎo)致的差異看作是本質(zhì)差異。
對(duì)于普通人群語音只要有效共振峰有兩條以上,都可以鑒別。而對(duì)高度相似的雙胞胎語音,如果其寬帶語圖的有效頻率能達(dá)到3 000Hz附近尚具備檢驗(yàn)條件,但寬帶語圖的有效頻率范圍只有2 000Hz時(shí),存在部分基頻較高的雙胞胎語音單獨(dú)利用寬帶語圖無法鑒別的情況,需要結(jié)合其他特性來做進(jìn)一步檢驗(yàn)。因此,在實(shí)際的檢案當(dāng)中一定要注意檢驗(yàn)語音的說話人是否存在雙胞胎的情況,特別是同卵雙胞胎。
另外,由于女性的基頻普遍較高,在電話信道頻率范圍內(nèi)的共振峰較少,其語音人間差異表現(xiàn)的沒有男性充分,鑒定難度稍大,需要多用一些音節(jié)。
(1)由于時(shí)間等因素的制約,我們僅對(duì)不同通信系統(tǒng)下正常語音的說話人識(shí)別進(jìn)行了研究,尚需要對(duì)不同情緒等狀態(tài)下的說話人識(shí)別做進(jìn)一步研究。
(2)尚需對(duì)不同通信系統(tǒng)下說話人識(shí)別所需的最少音節(jié)做進(jìn)一步的探討。
(3)在考查個(gè)體語音變異時(shí)所擁有的時(shí)間間隔較長(zhǎng)的語音有限,需要今后注意收集這類語料再做進(jìn)一步深化研究。
[1]康釗.2009年我國(guó)移動(dòng)電話用戶凈增過億 [EB/OL].(2010-02-03)[2010-05-01]http://tech.163.com/10/0121/21/5TJ68 QIU000915BE.html.
[2][美]國(guó)家研究理事會(huì).嗓音鑒別的理論與實(shí)踐[M].丁寧,譯.北京:群眾出版社,1989.
[3]Kunzel HJ.Beware of the Telephone Effect:The Influence of Telephone Transmission on the Measurement of Formant Frequencies[M].Forensic Linguistics,2001:80-99.
[4]Catherine Byrne and Paul Foulkes,The‘Mobile Phone Effect’on Vowel Formants,Speech,Language and the Law 11(1)2004[M].University of Birmingham Press,2004:1350-1771.
[5]李敬陽,崔效義,王莉,等.三種不同錄音器材錄制的電話對(duì)聲紋鑒定的影響[C].第五屆全國(guó)現(xiàn)代語音學(xué)術(shù)會(huì)議論文集,2001:364-365.
[6]施少培,楊旭,陳曉紅,等.手機(jī)通話語音的實(shí)驗(yàn)研究[J].中國(guó)司法鑒定,2008,(5):39-44.
[7]楊俊杰,李紅明,岳瑋,等.通信信道及通信設(shè)備對(duì)語音共振峰特性的影響[J].山西警官高等??茖W(xué)校學(xué)報(bào),2010,(1):78-80.
[8]楊俊杰,崔效義,李敬陽,等.常用語音特性在鑒別雙胞胎語音中的區(qū)別力研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2006(7):21-24.
[9]施少培,楊旭,陳曉紅,等.手機(jī)通話語音的實(shí)驗(yàn)研究[J].中國(guó)司法鑒定,2008(5):39-44.
(本文編輯:施少培)
Research on Forensic Voice Identification under Different Communication Systems
YANG Jun-jie1,LI Hong-ming2,YUE Wei1,HU Yao-min1,YANG Yun-sheng1,LI Jing-wei1,LI Xiao-yong1
(1.Shanxi Police Academy,Taiyuan 030021,China;2.Public Security of Shanxi Province,Taiyuan 030001,China)
DF793.2
A
10.3969/j.issn.1671-2072.2010.05.009
1671-2072-(2010)05-0045-04
2010-05-11
2006年度公安部應(yīng)用創(chuàng)新項(xiàng)目(2006YYCXSXST053)。
楊俊杰(1973-),男,碩士,講師,主要從事司法說話人識(shí)別方面的研究。E-mail:happyyjj308308@yahoo.com.cn。