楊俊杰 何 磊 陳建新 胡耀民 李劍鋒
(1山西警察學院刑事科學技術系 太原 030401)
(2蘇黎世大學計算語言學院 蘇黎世 CH-8050)
(3北京陽宸電子技術公司 北京 100029)
在司法話者識別領域,語音的個體特殊性一直是各位學者所追尋的。作為語音四要素的重要內容[1],音強與時長特性近年來更是受到國內外專家的高度關注。對于音強,其強弱與人說話時的開口度密切相關[2?3]。先前研究表明,普通人群音強曲線在曲率分布、拐點數與分布、極值數與分布、極值特征、音節(jié)間過渡特征等方面具有總體特殊性[4],在韻母音強隨時間的分布狀態(tài)[5]和音節(jié)間音強關系等方面也具有個體特殊性[6?7]。即使是發(fā)音器官高度相似的同卵雙胞胎語音,其音強特性也具有一定的個體特殊性[8?10]。對于時長,Ulrike等[11]指出“······即使話者自身變異較大,不同說話人元音、輔音、濁音或峰間的時長差異仍然非常明顯”。
楊俊杰等[10]曾對利用音節(jié)間相對音強與相對時長鑒別同卵雙胞胎語音進行了研究。結果發(fā)現,在30對同卵雙胞胎語音中,單獨利用音節(jié)間相對音強時,有19對無法區(qū)別開;單獨利用音節(jié)間相對時長時,有20對無法區(qū)別開;綜合利用二者進行檢驗,結果仍有13對無法區(qū)別開。
近年來,有學者把音強與時長二維參量聯合起來進行話者識別的研究[9,11]。其中,Ulrike等[11]的研究發(fā)現,單獨用音強或音強與時長聯合檢驗的區(qū)別力均強于單獨利用時長的區(qū)別力。尤其是Lei等[9]在研究了普通個體連續(xù)語音音強的動態(tài)特性后發(fā)現,音節(jié)音強的下降斜率比上升斜率更具有個體特殊性,音強曲線斜率特性可能對話者自動識別,特別是司法話者識別具有重要價值。這些結果啟發(fā)我們利用音強斜率的動態(tài)特性進行了同卵雙胞胎語音的話者識別研究。實驗研究中,針對13對同卵雙胞胎的由16個音節(jié)組成的聲樣,分別分析了每個音節(jié)音強的上升斜率和下降斜率。數據的統(tǒng)計分析結果表明:在90%的置信度下,實驗中的13對同卵雙胞胎語音都得到正確的區(qū)分,佐證并發(fā)展了Lei等[9]的研究結論,為識別同卵雙胞胎發(fā)音人提供了有效聲學參量。
為了保證實驗結果的可比性,該實驗使用楊俊杰等[10]曾經使用過的,利用音節(jié)間相對音強與相對時長仍無法識別的13對同卵雙胞胎語音進行研究(發(fā)音人16女10男,年齡范圍11~40歲,平均年齡21.3歲,年齡標準差為8.2,均無語言及聽覺障礙,每對雙胞胎從小到大一直在一起生活;每人朗讀聲樣5遍,語音為普通話或略帶口音的普通話;采樣率為16 kHz,單聲道),分析語句為包含ta qu wu xi shi chu chai,wo dao hei long jiang jian cha gong zuo(他去無錫市出差,我到黑龍江檢查工作)共16個音節(jié)的兩句話。
語音分析設備為北京陽宸電子技術公司生產的IV-12智能語音工作站(10.0版)。音強的計算步驟為
(1)分幀:幀移(步長)為10 ms,幀長20 ms。
(2)加窗:類型為漢明窗。
(3)音強計算:根據公式(1)對每幀能量進行計算,以得到音強級別(dB)。
其中,Ef為第f幀能量,N為每幀采樣點數,xn為幀內第n點的振幅值。
(4)平滑:應用5階中值濾波(式(2))與5階線性濾波(式(3))對音強曲線進行后平滑處理,進而得到音強曲線。
音節(jié)音強的峰值(IP)是音節(jié)區(qū)間內音強的最大值,音節(jié)音強的谷值(IT)是相鄰音強峰值間的音強最小值(圖1),可以通過IV-12智能語音工作站(10.0版)將對應區(qū)間音強數據輸出到Excel后,分別利用自動求最大值與最小值函數求得。
音強斜率的計算如圖1所示,在音強曲線上分別找出每個音節(jié)的峰值(IP)、谷值(IT)及其在時間軸上的對應點時間(tT、tP)。然后根據公式計算每個音節(jié)音強的正斜率(音節(jié)音強上升斜率),根據公式
圖1 音節(jié)音強正負斜率計算示意圖Fig.1 Calculation diagram of positive and negative slopes of syllable
計算每個音節(jié)音強的負斜率(音節(jié)音強下降斜率)。
1.4.1 統(tǒng)計原理
司法話者識別的基本前提是語音個體變異要小于其人間差異[12]。本文圍繞這一前提對同卵雙胞胎語音音節(jié)音強斜率的個體變異及人間差異分別進行統(tǒng)計分析。
根據統(tǒng)計學理論,首先需要確定斜率數據的分布類型。先前研究表明,同一人相同內容的多遍語音,其音節(jié)音強與時長分布整體符合正態(tài)分布[10]。根據兩個相互獨立正態(tài)分布的線性轉化仍為正態(tài)分布的原理可以推知,作為音強差與時長差之比的音強斜率也符合正態(tài)分布。而在司法實踐中,語音樣本數量一般為5次左右,屬小樣本范疇。根據數理統(tǒng)計規(guī)律,小樣本正態(tài)分布數據的分布范圍可以在一定置信度下由式(6)求得[13]
其中,μ是樣本均值,tα,f為一定置信度(1?α)100%與自由度f=n?1下的置信系數,可由t分布表中查出,S為標準差,n為樣本個數。式(6)的概率意義是它表明真值X落在置信區(qū)間的置信度概率為P=1?α。
根據實驗條件,實驗中f=5?1=4;在90%、95%、98%置信度下,α分別為0.10、0.05、0.02;查t分布表得tα,f分別為2.13、2.78、3.75。于是在90%、95%、98%置信度下,式(6)又可以分別表示為
這些等式確定的分布范圍,正是不同置信度下音節(jié)音強斜率的個體變異范圍。如果比較值落在這一區(qū)域內,則表明二者之間沒有明顯差異;如果比較值落在這一區(qū)域外,則表明二者之間存在明顯差異。
1.4.2 統(tǒng)計步驟及內容
(1)單個音節(jié)音強斜率比較
對于利用公式(4)、公式(5)分別計算出的每個音節(jié)音強的斜率,按表1分別統(tǒng)計每對雙胞胎個體音強斜率的兩類差異。表1中“RT”、“RJ”分別代表一對雙胞胎中的兩個同胎個體;“S+”、“S?”分別代表音節(jié)音強的正斜率與負斜率;“S+A類差異”、“S?A類差異”分別代表音節(jié)音強的正斜率、負斜率的個體變異(RT的每遍數據與其分布范圍相比較存在的差異。如“ta4”的“S+”值為299.14,其落在RJ“S+”的分布范圍251.10~298.85之外,存在顯著差異,標為“1”);“S+B類差異”、“S?B類差異”分別代表音節(jié)音強的正斜率、負斜率的人間差異(RJ的每遍數據與RT數據的分布范圍比較存在的差異。如RJ的“ta2”的“S+”值為305.86,其落在RT“S+”的分布范圍251.10~298.85之外,存在顯著差異,標為“1”);“0”表示目標值落在被比較的數據分布范圍之內,二者之間沒有顯著差異;“90%分布范圍”是指在90%置信度下,根據公式(7)計算出的S+、S?的分布區(qū)間。同理,可以計算出95%、98%置信度下各個音節(jié)正負斜率個體變異與人間差異。
(2)每對雙胞胎音節(jié)音強正負斜率個體變異與人間差異統(tǒng)計
在對每對雙胞胎每個音節(jié)音強正負斜率個體變異與人間差異統(tǒng)計的基礎上,再對每對雙胞胎語音16個音節(jié)音強正負斜率的個體變異與人間差異進行統(tǒng)計,90%置信度下的統(tǒng)計結果實例見表2。其中的阿拉伯數字是指5遍語音中每個音節(jié)對應差異特性存在顯著差異的遍數(例如,“ta”的“S±B類差異”“ta”行單元格內的“4”表示RJ“ta”的音強正負斜率與RT“ta”的音強正負斜率的分布范圍相比較時,各有4個斜率值不在RT的分布范圍內,存在顯著差異)。
表2 雙胞胎RT&RJ的不同音節(jié)的個體和人間顯著差異音節(jié)個數的統(tǒng)計結果Table 2 Statistical results of the number of syllables with significant differences within and between individuals of twins RT&RJ
在90%、95%、98%的置信度下,分別對13對同卵雙胞胎語音音節(jié)音強正負斜率的個體變異與人間差異進行統(tǒng)計,結果見表3。
表3中“置信度”下的“90%、95%、98%”的單元格分別表示置信度水平,“發(fā)音人”右側單元格表示各對同卵雙胞胎,“差異類別”右側行中的“B”是指B類差異,即雙胞胎兩個同胎個體的人間差異,“A”是指A類差異,即每個雙胞胎個體的自身差異,“最大值”指所有比對音節(jié)中S+或S?的最大差異遍數(例如,表3中“XG&CG”90%行S+A列單元格的紅色“3”表示16個比對音節(jié)中,發(fā)音人“XG”S+的最大個體自身顯著差異音節(jié)數是3個。
由表3可以發(fā)現,在各級別的置信度下,各對雙胞胎語音S+與S?的B類差異的最大值均大于A類差異的最大值,這說明在統(tǒng)計上有可能依據S+與S?將雙胞胎語音區(qū)別開。在90%置信度下,各對雙胞胎語音的S+與S?中,每遍語音的人間差異均大于其個體變異;但在95%、98%置信度下,每遍語音的人間差異與其個體變異會存在沒有顯著差異的情況。從檢驗的角度考慮,90%置信度下的置信區(qū)間更有利于檢驗工作的開展。
在確認90%置信度比較有利于區(qū)分雙胞胎語音之后,本文對13對同卵雙胞胎語音S+與S?的個體變異與人間差異分別進行了統(tǒng)計,結果見表4。其中,“全顯著差異音節(jié)數”是指在所比較的5遍語音(每遍16個音節(jié))中,分別在S+或S?上5遍均存在顯著差異的音節(jié)個數;“S+、S?之和”是指每一遍語音均存在B類差異或A類差異的音節(jié)數之和。例如,“WJ&WY”B類差異“S?”列“全顯著差異音節(jié)數”行的數值是“6”,表示WY 5遍語音各個音節(jié)音強的S?與WJ對應音節(jié)音強S?的分布范圍相比較時,每遍語音都有6個音節(jié)的S?存在顯著差異;“WJ&WY”B類差異的“S+、S?之和”為“11”,反映了說話人WY每遍語音的16個音節(jié)中有11個音節(jié)S+、S?的值與WJ對應音節(jié)S+、S?的分布范圍存在顯著差異。
從表4“S+、S?之和”一行的數據可以發(fā)現,13對雙胞胎中,同胎個體間S+與S?的B類差異之和均大于雙胞胎每個個體S+與S?的A類差異之和,這說明在90%置信度下,13對同卵雙胞胎同胎個體語音S+、S?的人間差異總數均大于其個體變異總數。因此,聯合利用S+與S?,可以將同卵雙胞胎的同胎個體區(qū)別開。
進一步對表4中雙胞胎同胎個體間S+、S?中“5個差異音節(jié)數”B類差異進行分析、統(tǒng)計發(fā)現,各對雙胞胎同胎個體間S+人間差異音節(jié)數(黑色)均小于S?人間差異音節(jié)數(紅色);S+的人間差異音節(jié)數為22個,占所有人間差異的22.03%,而S?的人間差異音節(jié)數為64個,占所有人間差異的77.97%(見圖2)。
圖2 S+與S?比例統(tǒng)計圖Fig.2 Proportional statistical chart of S+&S?
表3 不同置信度下,13對同卵雙胞胎語音音節(jié)音強正負斜率個體變異與人間顯著差異最大個數統(tǒng)計結果Table 3 Statistical results of the largest number of significant differences within and between individuals in the positive and negative intensity slopes of syllables of 13 pairs identical twins with different confidence levels
表4 90%置信度下13對同卵雙胞胎S+與S?的個體變異與人間差異統(tǒng)計表Table 4 Statistical table of individual Variation and interpersonal difference of S+and S?in 13 identical twins with 90%confidence level
表4“全顯著差異音節(jié)數”數據證明,在90%置信度下,所考查的13對同卵雙胞胎同胎個體語音S+、S?的人間差異總數均大于其個體變異總數。因此,聯合利用S+與S?,是可以將同卵雙胞胎的同胎個體區(qū)別開的。本實驗研究證明,漢語音節(jié)音強斜率在區(qū)分同卵雙胞胎語音的司法鑒定中的有效性。
此外,研究發(fā)現所有S?的人間差異比S+的人間差異更加明顯。圖2中,S+的人間差異僅占所有人間差異的22.03%,而S?的人間差異占所有人間差異的77.97%。這些結果與Lei等[9]的實驗結果相一致,即:S?的區(qū)別力比S+的區(qū)別力更強。至于具體原因,Lei等[9]認為,根據運動程序理論,說話時說話人會主動計劃和控制調音器官以達到發(fā)音目標。這樣的發(fā)音目標位于嘴巴打開階段的轉折點,與元音音強的最大值相對應。為了最大限度地提高相互理解能力,說同一語言的人應該表現得更為一致。一旦達到語音目標,發(fā)音人便可減少對發(fā)音器官的控制,從而產生更多體現個體嘴巴閉合運動特點的發(fā)音特性。也就是說,這兩個發(fā)音過程可能受兩個運動特性的影響:可控性和內在屬性。在嘴巴打開過程中可控性在發(fā)揮更大的作用,而在嘴巴閉合過程中,內在屬性發(fā)揮更大的作用[9]。
我們認為S?的人間差異比S+的人間差異更加明顯,可能還與音節(jié)開頭輔音較多有關。因為S+的計算中包含了更多的輔音音強,而輔音的個體穩(wěn)定性較差,進而導致其個體變異加大,降低了人間差異。
在實驗結果中,S?的人間差異所占比率(77.97%)比Lei等[9]的70.35%更高,這種差異可能與研究所用的語言有關。因為漢語(尤其是漢語普通話)音節(jié)結構比德語的音節(jié)結構簡單,輔音也相對較少[14]。尤其是在音節(jié)末尾的輔音上,漢語普通話只有[n]、[?]兩個并且還都是濁音,其音強的穩(wěn)定性要比擦音、塞擦音等輔音的穩(wěn)定性更強。本研究為Lei等的研究結果提供了更加有力的佐證。
對于同卵雙胞胎而言,盡管受遺傳因素的影響其發(fā)音器官高度一致,語音也高度相似,但反映其嘴巴打開與閉合習慣的音強斜率特性仍具有良好的區(qū)別能力,更進一步說明發(fā)音器官的調音運動具有個人特點[15],同卵雙胞胎語音的音強特性也具有個體特殊性。但S+中也包含一定個體信息,實踐中應聯合應用。
從實驗結果可以發(fā)現,本文使用的S+與S?兩個參量比利用音節(jié)間相對音強與相對時長在區(qū)別雙胞胎語音時更加有效。同時,本文的檢驗方法所需語句少,更適合于實際案件中的短時語音檢材。但是,在實際應用中尚有以下問題需要進一步研究:
(1)需要對非同期語音樣本間的個體變異作進一步研究。
(2)需要對不同語速、不同語氣、不同說話音量等條件下,漢語說話人S+、S?兩個參量的可比性進行研究。因為不同語言改變語速的方式可能不同[16]。對于漢語,語音受語速的影響不同,隨語速的加快音段/音節(jié)時長會縮短,音段時長縮短的幅度與音段屬性有關,輔音時長縮短的程度小于元音[12]。
(3)需要對自然語音與朗讀語音間音強斜率的一致性進行研究。因為在自然口語中,猶豫、錯誤發(fā)聲、填音等都會影響到發(fā)音器官的運動情況[9]。
此外,也需要對不同信道對音強斜率的影響進行相關研究,諸如對語音進行信道補償的電話語音等。