摘 要:司法語音同一鑒定是用聲紋技術(shù)把案件現(xiàn)場獲取的涉案人的語音檢材和犯罪嫌疑人的語音樣本進行分析對比。鑒定過程中常用到頻譜圖和寬帶語圖、窄帶語圖,測量基頻、音長、音強、共振峰的頻率、斜率等參數(shù),進行對比,如果參數(shù)變化超過允許的范圍則認為出現(xiàn)差異,根據(jù)出現(xiàn)差異的參數(shù)個數(shù)確定音節(jié)的差異,根據(jù)音節(jié)差異的個數(shù)給出同一鑒定的意見。
關(guān)鍵詞:同一鑒定 語音 聲紋 語圖 共振峰
引言
語音等作為視聽資料的一種,已經(jīng)被寫入到刑法的八大證據(jù)中,因此越來越多地出現(xiàn)在現(xiàn)在司法案件中。司法語音鑒定結(jié)合聽覺分析和聲紋識別技術(shù)對檢材語音與樣本語音進行綜合對比,確定兩個語音中的說話人是否為同一人,司法領(lǐng)域稱之為語音同一鑒定,具有非常重要的司法實踐作用[1,2]。
一、司法語音同一鑒定的應用技術(shù)
1.聲紋識別技術(shù)的理論依據(jù)
在發(fā)音過程中,肺部相當于聲道的激勵源。咽腔、口腔、鼻腔等形成各種語音的聲道。發(fā)音過程中聲道變化非常復雜,發(fā)音時的方式不一樣,發(fā)音時各部位活動軌跡不一樣,就會形成不一樣的聲紋特征。任何兩個人在發(fā)相同音素時發(fā)音的方式與聲道形狀不一樣,所以形成的聲紋特征參數(shù)也有有本質(zhì)差異[3]。
2.聲紋識別技術(shù)的常用圖譜
(1)時間波形圖
時間波形圖也就是時域圖,X為時間軸(秒),Y為振幅軸(分貝,dB)。該圖反映了語音的能量隨著時間的變化趨勢。如圖1(左)是某語音的時域圖。
(2)頻譜圖
頻譜圖的X為頻率軸(秒),Y為振幅軸(分貝,dB),該圖反映了語音的能量隨著頻率的變化趨勢。如圖1(右)就是某語音的頻域圖。
(3)三維語圖
三維語圖包括寬帶語圖和窄帶語圖,它們的三個維度坐標都一樣,X為時間軸,Y為頻率軸,Z為能量軸,能量的強弱通過灰度深淺來表示的,顏色越深,表示能量越強[4]。顧名思義,用較寬的濾波器帶寬分析出來的語圖就是寬帶語圖,通常在8KHz的頻率范圍,常用300Hz帶寬濾波器來分析。相應地,窄帶語圖是用較窄的濾波器帶寬分析出來的,對8kHz頻率范圍常用45Hz帶寬濾波器分析[4]。
從寬帶語圖中能看到共振峰形態(tài),窄帶語圖可以顯示諧波構(gòu)成,反映基頻的變化。從整個語音的語圖中可以觀察到共振峰的大體分布走勢,如果需要測量某時間點的共振峰的頻率值,則可以基于寬帶語圖的某個時點做出來的片段頻譜圖,如下圖(左),從前面的四個尖峰處頻率值可以估算共振峰F1~F4的頻率值。另外,也可以根據(jù)窄帶語圖做某個時間點的頻譜圖,幫助我們估算該時間點的基頻值。如下圖(右),可以從第一個尖峰的頻率值可以知道該時間點的基頻值。
二、一種具體的鑒定方案
聲紋檢測法需要從檢材和樣本中選擇發(fā)音清晰的相同語句、語詞或音節(jié),如果說話聲音大小、速率和語調(diào)等方式相同,則只要有七八個音節(jié)的一句話就可以做出鑒定。盡量達到3~5個相同的語句或7個以上的語詞,當然越多越利于鑒定。當檢材和樣本聲學特征差異很大時,結(jié)合聽辨法、言語識別法的結(jié)果,可做出否定結(jié)論;反之,則需要進行主要聲學特征的定量檢測、比對,根據(jù)先期研究語音穩(wěn)定性和特殊性得到的判據(jù),做出是否同一的鑒定意見。聲學檢驗分為定性觀測檢驗和定量分析檢驗兩步,兩步都包括韻律特性和共振峰特性兩個主要部分。
1.定性檢測
(1)韻律特性
調(diào)出檢材和樣本中某一相同短語或句子的韻律譜圖,對比顯示為上下圖。在打印出的譜圖上標記聲調(diào)曲線、音強曲線、停頓等韻律特征異同點,進行必要的數(shù)據(jù)檢測。
(2)共振峰特性
將檢材或樣本的寬帶語圖做上下對比,在打印出的譜圖上標記各音節(jié)或詞、句的共振峰頻率及其走向形態(tài)等的特征異同點,進行必要的數(shù)據(jù)檢測。
經(jīng)過韻律和共振峰的觀測、比對,兩個語音的主要聲學特征如果有明顯差異則可以結(jié)合聽辨得出否定結(jié)論。反之,如果檢材和樣本的韻律和共振峰等主要聲學特征沒有明顯差異時則需進一步做定量分析。
2.定量檢測
(1)韻律特性
在韻律比對譜圖中分別測量所選取音節(jié)的聲調(diào)、音強和音長的數(shù)值,因為聲調(diào)和音強隨時間變化,所以測量音節(jié)穩(wěn)定時段的開始、中間、結(jié)束三個數(shù)值取其平均值代表各音節(jié)的相應參數(shù)值。需要注意的是,檢材和樣本的各測量點要對應。
同一人在不同情況下,兩次說同一短語或句子的韻律特性會有一定范圍的變異。正常情況下,音節(jié)聲調(diào)類型不變時,中調(diào)值的增減男性一般不超過40Hz,女性一般不超過60Hz,兩次說話的各音節(jié)之間聲調(diào)、音強、音長相對比率不超過14%。
(2)共振峰特性
在寬帶語圖對比圖中,用光標分別定量檢測這些音節(jié)的共振峰頻率,或語詞拐點處的共振峰頻率。寬帶語圖只能根據(jù)黑度估測,可以用寬帶語圖和LPC譜圖平鋪分布檢測各音節(jié)的共振峰頻率和強度。音節(jié)共振峰是隨時間在動態(tài)變化的,一般可以檢測檢材和樣本的對應穩(wěn)定時段共振峰數(shù)據(jù),時長20~60ms,代表該音節(jié)共振峰。
對音節(jié)或音節(jié)間共振峰斜度較大的動態(tài)共振峰特性,應檢測開始點頻率和時刻、終點頻率和時刻、計算共振峰斜度,以始點頻率、終點頻率和斜率三個參量共同表示其共振峰特性。根據(jù)公安部物證鑒定中心對普通話的正常說話狀態(tài)的成年人的統(tǒng)計研究結(jié)果表示,同一人兩次說話時,音節(jié)共振峰頻率和強度雖有一定的變異,但仍有較強的穩(wěn)定性。共振峰頻率的變異與其頻率值或階數(shù)相關(guān),對300~4000Hz的前四個共振峰,變異系數(shù)范圍為12%~6.5%,音節(jié)各階共振峰強度的相對比值的變異系數(shù)一般不超過14%。
司法語音同一鑒定的依據(jù)是話者自身的非本質(zhì)變異小于話者之間的本質(zhì)差異。對說普通話的部分成年人正常說話的定量研究,短語或句子的韻律特性和共振峰特性中上述參量具有相當好的穩(wěn)定性和特殊性,以下為標準判決:
音節(jié):以三個和三個以上參量超過判據(jù),判為有差異;
在所選取短語或句子的八個音節(jié)中,如果三個和三個以上音節(jié)有差異,則認為該短語或句子為兩人所說。
綜上,司法話者識別要將聽辨法和聲紋檢測法的結(jié)果進行綜合分析判斷,最后得出鑒定結(jié)論。在實際案件中,還要考慮以下因素的影響:檢材和樣本中相同語句的說話聲音大小、語氣、語調(diào)、情緒是否相同;檢材和樣本在錄制時錄音設(shè)備信道不同的影響等。
結(jié)語
在案件發(fā)生過程中,涉案人受到各種因素影響,情緒會波動甚至用各種方式偽裝語音,導致檢材語音會偏離涉案人正常心理狀態(tài)的發(fā)音,而犯罪嫌疑人在明確其樣本會影響最終判決時,錄制樣本的心態(tài)也會很復雜,所以案件語音常常存在偽裝和心理狀態(tài)變化引起的特殊變異。在實際司法鑒定工作中,要特別注意說話人故意偽裝、掩飾個人特征以及情緒波動導致的聲紋參數(shù)變異。
參考文獻
[1]謝春榮.聲紋識別技術(shù)在司法鑒定中的應用研究[D].廈門:廈門大學學位論文,2008,4-10
[2]王志飛.數(shù)字音頻司法鑒定技術(shù)研究[D].廈門:廈門大學學位論文,2014,6-15
[3]楊俊杰,李紅明等.不同通信系統(tǒng)下的說話人識別探究[J]. 中國司法鑒定,2010.5
[4]宋樂.說話人識別中改進特征提取算法的研究[J].計算機工程與設(shè)計,2014.5,15-25
作者簡介
王春蘭 講師1980.2,漢,女,碩士,研究方向:聲像資料檢驗endprint