張翠玲
(1.西南政法大學(xué)刑事偵查學(xué)院, 重慶 401120; 2.重慶高校刑事科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 重慶 401120)
20世紀(jì)以來,國際上對法庭證據(jù)技術(shù)的科學(xué)性問題關(guān)注越來越多,對科學(xué)證據(jù)的檢驗(yàn)與采信也提出了一系列標(biāo)準(zhǔn)和要求[1-7]。在這一系列標(biāo)準(zhǔn)、報(bào)告和規(guī)范中都明確提出了提高法庭證據(jù)技術(shù)的“科學(xué)性”的核心要求,即要求檢驗(yàn)技術(shù)及程序方法具有準(zhǔn)確性、可靠性、客觀性、透明性、可重復(fù)性、可驗(yàn)證性等。Saks和Koehler在《科學(xué)》上發(fā)表評論[8]指出,“同一認(rèn)定”“獨(dú)特性”等法庭科學(xué)的核心假設(shè)理論正在受到挑戰(zhàn)和質(zhì)疑,法律和科學(xué)正合力推動(dòng)傳統(tǒng)的法庭鑒定科學(xué)走向新的科學(xué)范式,并將新范式描述為“以實(shí)證為基礎(chǔ)的科學(xué)”,像DNA分型一樣,“基于數(shù)據(jù)”進(jìn)行“概率評估”。他們還建議其他法庭科學(xué)分支也效仿DNA檢驗(yàn),“構(gòu)建樣本特征數(shù)據(jù)庫來支持概率方法”,同時(shí)通過錯(cuò)誤率估算表明其局限性。
這種新范式就是基于似然比框架的證據(jù)評估模式。國際上,法庭科學(xué)證據(jù)的檢驗(yàn)與評價(jià)正處于新舊范式的轉(zhuǎn)換進(jìn)程中[8]。2016年9月,為了促進(jìn)各國法庭科學(xué)實(shí)驗(yàn)室在統(tǒng)一框架下進(jìn)行法庭科學(xué)證據(jù)的檢驗(yàn)與評價(jià),以及對評價(jià)結(jié)果的含義及表述達(dá)成共識,歐洲法庭科學(xué)研究所聯(lián)盟(ENFSI)發(fā)布了法庭證據(jù)評價(jià)報(bào)告指南[9],推薦包括語音在內(nèi)的所有法庭科學(xué)分支都采用基于似然比框架體系的新的證據(jù)評價(jià)范式。
法庭說話人識別是法庭科學(xué)的重要分支之一。目前,在國內(nèi),法庭說話人識別還主要依賴于語音專家的主觀評斷,缺乏客觀的評判標(biāo)準(zhǔn)和足夠的量化數(shù)據(jù)支持。而國際上,法庭說話人識別已經(jīng)開始轉(zhuǎn)向以似然比框架為核心的法庭證據(jù)評價(jià)的新范式[10]。為促進(jìn)國內(nèi)同行的探討與交流,本文從國際上法庭采信證據(jù)的標(biāo)準(zhǔn)和要求出發(fā),分析法庭證據(jù)評價(jià)范式轉(zhuǎn)變的必要性,對法庭說話人識別技術(shù)的傳統(tǒng)范式及發(fā)展現(xiàn)狀進(jìn)行評述,進(jìn)而提出法庭語音證據(jù)評價(jià)的新范式,并對其基本內(nèi)涵和核心要素進(jìn)行解析,闡明其在法庭實(shí)踐中的科學(xué)性、適用性及發(fā)展前景。
法庭說話人識別是指利用語音進(jìn)行案件錄音中說話人的身份辨識,即通過對案件中檢材語音與樣本語音的比較辨識,判斷二者的同源性。其范式包括使用的技術(shù)方法和證據(jù)評價(jià)體系兩個(gè)方面。
國際上,傳統(tǒng)的法庭說話人識別的方法主要有以下前三種,后又逐漸發(fā)展形成了后兩種[11]:
(1)聽覺分析方法:該方法通過聽覺感知來鑒別比較檢材語音與樣本語音的相似性和差異性,最后判斷其同源性。
(2)圖譜或聽覺- 圖譜方法:即所謂的“聲紋”方法[12],該方法通過對檢材語音與樣本語音的聽覺比較和聲學(xué)圖譜特征的形態(tài)比較,分析其相似性和差異性,最后判斷其同源性。
(3)聽覺- 聲學(xué)- 語音學(xué)方法:該方法除了包括對檢材語音與樣本語音的聽覺分析以外,還包括對其音段特征和超音段特征的聲學(xué)- 語音學(xué)分析及其參數(shù)的定量測量,最后綜合判斷其同源性。
(4)聲學(xué)- 語音學(xué)統(tǒng)計(jì)方法:該方法是聽覺- 聲學(xué)- 語音學(xué)方法的拓展,不僅包括對檢材語音與樣本語音的聲學(xué)測量和比較,還包括對相關(guān)背景人群語音的測量、比較和統(tǒng)計(jì)分析[13]。該方法對檢材語音與樣本語音參數(shù)特征的相似性及其在相關(guān)背景人群中的典型性進(jìn)行概率估計(jì)、統(tǒng)計(jì)建模和似然比計(jì)算,最后以似然比形式評估語音證據(jù)的價(jià)值[14-15]。
(5)自動(dòng)識別方法:該方法采用計(jì)算機(jī)軟件系統(tǒng)進(jìn)行說話人的自動(dòng)識別,包括需要專家人工干預(yù)的半自動(dòng)識別和全自動(dòng)識別兩種。這兩種方法的相同之處在于語音聲學(xué)特征都是自動(dòng)測量和提取的,不同之處是專家人工干預(yù)的程度不同。
就這五種方法而言,前兩種主要基于專家的經(jīng)驗(yàn)和主觀判斷,缺乏客觀性、標(biāo)準(zhǔn)性和透明性,容易產(chǎn)生主觀偏誤。后三種主要基于聲學(xué)參數(shù)的定量測量和比較,程序方法相對客觀透明,并具有可重復(fù)性和可驗(yàn)證性。但是,聲學(xué)-語音學(xué)方法一般要求檢材語音與樣本語音語種、方言、言語內(nèi)容相關(guān),還要有一定數(shù)量的相同可比音節(jié),而自動(dòng)識別則對此要求較低。
國際上,傳統(tǒng)的法庭語音證據(jù)評價(jià)體系主要有下述前三種模式,后逐漸發(fā)展形成第四種模式:
(1)認(rèn)定/否定/無結(jié)論模式:即所謂的絕對“二分法”,鑒定意見表述為“非認(rèn)即否”,也就是說,檢材語音與樣本語音或者來源于同一人,或者來源于不同人。如果無法判定,即為無結(jié)論。
(2)后驗(yàn)概率模式:鑒定意見以概率形式來表述,即基于語音證據(jù)條件下,檢材語音與樣本語音來源于同一人的概率。這種概率可以用數(shù)字形式表達(dá),如80%、95%等;也可以用信心程度的文字分級形式來表達(dá),如很可能、非??赡艿?。
(3)英國模式:該模式目前僅在英國使用。該模式首先考慮檢材語音與樣本語音的特征一致性,然后考慮其特征的特殊性。如果對檢材語音與樣本語音的比較結(jié)果為不一致,就意味著二者來源于不同人。如果比較結(jié)果為一致,再考慮特殊性問題。特征的特殊性分為五個(gè)級別:不特殊、適中、特殊、很特殊、非常特殊。而特征一致并不代表檢材與樣本同源[16]。
(4)似然比模式:即基于起訴假設(shè)(也稱同源假設(shè),即假設(shè)檢材語音與樣本語音來源于同一人)和辯護(hù)假設(shè)(也稱不同源假設(shè),即檢材語音與樣本語音來源于不同人),給出這兩個(gè)競爭假設(shè)條件下獲得檢材語音特征(證據(jù))的相對概率,即概率之比。似然比的表達(dá)可以是數(shù)字形式,也可以是其文字分級表達(dá)形式[17]。
就這四種模式而言,前兩種模式只考慮了檢材語音與樣本語音特征的相似性,對其在相關(guān)背景人群中的典型性(或特殊性)考慮不足[18]。第三種評價(jià)模式雖然考慮了檢材語音與樣本語音特征的相似性,也考慮了其在相關(guān)背景人群中的典型性,但是對其特殊性的五個(gè)等級分類并沒有明確加以說明。目前,第四種模式被國際上認(rèn)為是最正確和最符合邏輯的法庭證據(jù)評價(jià)模式[19]。
在國內(nèi),按照司法部2010年發(fā)布的語音同一性鑒定技術(shù)規(guī)范,語音特征分析的主要方法有:聽覺檢驗(yàn)、聲譜檢驗(yàn)、實(shí)驗(yàn)分析、統(tǒng)計(jì)分析等。按照公安部2010年的語音同一認(rèn)定方法,語音同一認(rèn)定的主要方法有:聽辨分析、聲譜分析、聲譜分析與聽辨分析相結(jié)合、定量比對等。然而,從目前國內(nèi)各鑒定機(jī)構(gòu)的實(shí)踐來看,鑒定人員在具體的檢驗(yàn)方法、技術(shù)流程和操作規(guī)范上并不統(tǒng)一。
按照2.2中的證據(jù)評價(jià)模式分類,我國語音證據(jù)的評價(jià)模式應(yīng)該屬于第二種后驗(yàn)概率中信心程度的文字分級表達(dá)形式。目前,按照司法部規(guī)范和公安部方法,語音同一性的鑒定意見均分為五級模式。盡管兩者在用詞上略有差異,但其基本含義是一樣的,分為確定性結(jié)論(認(rèn)定或否定)、非確定性結(jié)論(傾向認(rèn)定、傾向否定)和無法判斷三種。只有達(dá)不到任何指向性意見時(shí),才做出“無法判定是否同一”的結(jié)論。
似然比體系是DNA檢驗(yàn)的標(biāo)準(zhǔn)框架體系。在該框架體系下,法庭語音專家的任務(wù)就是針對法庭提出的兩種競爭性主張(同一話者假設(shè)和不同話者假設(shè)),計(jì)算同一話者假設(shè)條件下獲得檢材語音特性的概率與不同話者假設(shè)條件下獲得檢材語音特性的概率之比—似然比LR值,為法庭提供證據(jù)支持假設(shè)的強(qiáng)度。例如,LR=100,其含義就是:“不管在引入該語音證據(jù)之前你的(先驗(yàn))信念是多少,現(xiàn)在你應(yīng)該100倍地相信檢材與樣本來源于同一人。
似然比LR的計(jì)算表達(dá)式如下:
式中,E代表證據(jù),即檢材語音的聲學(xué)特征;p(E|H)為假設(shè)條件下的證據(jù)概率;Hss為同一話者假設(shè),Hds為不同話者假設(shè)。LR的分子代表檢材與樣本特征的相似性,LR的分母代表檢材特征在相關(guān)背景人群數(shù)據(jù)中的典型性。檢材與樣本的語音特征越相似、越不典型(特殊),證據(jù)價(jià)值越大,即更大程度地支持同一話者假設(shè)。反之,檢材與樣本的語音特征越不相似、越典型(普遍),證據(jù)的價(jià)值越大。傳統(tǒng)的證據(jù)比較方法往往偏重比較特征的相似性,而忽略了特征在相關(guān)人群中的典型性。
LR值代表證據(jù)價(jià)值的大小以及證據(jù)支持起訴假設(shè)或辯護(hù)假設(shè)的程度。以1為分界,LR越大或越小于1,其證據(jù)價(jià)值越高。LR越接近于1,證據(jù)價(jià)值越低。然而,需要強(qiáng)調(diào)的是,法庭證據(jù)的價(jià)值不在于LR值究竟有多大,而在于它是否對事實(shí)裁定者的信念有更新作用。
2.2.1 相關(guān)數(shù)據(jù)
相關(guān)數(shù)據(jù)是指具有相關(guān)背景人群的語音特征的統(tǒng)計(jì)數(shù)據(jù)。語音證據(jù)評價(jià)的新范式不僅要求對語音特征進(jìn)行量化測量,還要對特征數(shù)據(jù)的相似性和典型性進(jìn)行概率評估和統(tǒng)計(jì)建模,以及對檢驗(yàn)系統(tǒng)的準(zhǔn)確性和可靠性評估,這些都必須建立在一個(gè)具有一定規(guī)模及代表性相關(guān)背景人群語音數(shù)據(jù)庫的基礎(chǔ)上[20]。這是新范式應(yīng)用的前提和基礎(chǔ)。
相關(guān)背景人群指的是檢材語音說話人的所屬人群,即符合檢材語音基本特征的言語人群。這些基本特征一般包括年齡、性別、語種及方言口音等。具有代表性則是指相關(guān)背景人群語音數(shù)據(jù)庫應(yīng)代表或反映被檢案件錄音的實(shí)際條件,包括檢材與樣本的錄音條件和講話人的言語風(fēng)格等。實(shí)際案件中,由于檢材語音與樣本語音往往來自不同信道、設(shè)備、環(huán)境和言語風(fēng)格等,因而在選擇相關(guān)人群語音數(shù)據(jù)庫時(shí),必須對檢材語音與樣本語音的不匹配條件給予充分考慮。
2.2.2 量化測量
在法庭說話人識別中,特征參數(shù)分為兩種:一種是聲學(xué)-語音學(xué)參數(shù),另一種是自動(dòng)識別參數(shù)。新范式不僅需要測量檢材語音和樣本語音的特征參數(shù),還要測量相關(guān)人群數(shù)據(jù)庫中所有語音的特征參數(shù)。相對參數(shù)的人工手動(dòng)測量來說,自動(dòng)測量的優(yōu)勢更為明顯。而先前的研究也表明,相對聲學(xué)語音學(xué)參數(shù)系統(tǒng)需要投入大量的人工測量成本來說,基于自動(dòng)識別參數(shù)的法庭說話人識別系統(tǒng)更有優(yōu)勢和潛力,特別是在案件現(xiàn)實(shí)條件下[21]。
2.2.3 統(tǒng)計(jì)模型
對于語音特征參數(shù)的測量數(shù)據(jù),需要計(jì)算這些數(shù)值的概率密度函數(shù)分布,即統(tǒng)計(jì)建模。利用嫌疑人的樣本語音數(shù)據(jù)構(gòu)建嫌疑人語音模型(嫌疑模型),利用相關(guān)背景人群的語音數(shù)據(jù)建立相關(guān)背景人群語音模型(背景模型)。常用的統(tǒng)計(jì)模型有兩種:一種是多變量核密度(MVKD)模型[22],另一種是高斯混合模型(GMMs)。前者一般用于聲學(xué)-語音學(xué)數(shù)據(jù),后者一般用于自動(dòng)識別數(shù)據(jù)。由于語音特征是多維的,因此參數(shù)數(shù)據(jù)的概率密度分布也不是固定不變的,這取決于參數(shù)本身的分布特點(diǎn)以及具體的案件錄音條件。因此,哪種統(tǒng)計(jì)模型最合適還需要進(jìn)行系統(tǒng)比較和實(shí)證檢驗(yàn)。
2.2.4 似然比計(jì)算
似然比的計(jì)算方法如圖1所示。其中,同源假設(shè)為檢材語音與樣本語音來自同一個(gè)人,非同源假設(shè)為檢材語音與樣本語音來自相關(guān)背景人群的不同人,使用的聲學(xué)特征為基頻F0。似然比就是檢材語音特征值所對應(yīng)的嫌疑模型的概率值與檢材語音特征值所對應(yīng)的背景模型的概率值之比。
圖1 案件語音的似然比計(jì)算
任何法庭科學(xué)技術(shù)方法都應(yīng)該表明其有效性(準(zhǔn)確性)和可靠性(精確性),并且其錯(cuò)誤率應(yīng)該在法庭接受范圍內(nèi)。因此,必須對系統(tǒng)(包括檢驗(yàn)程序和檢驗(yàn)方法的組合)進(jìn)行有效性和可靠性的實(shí)證測試[23]。
2.3.1 準(zhǔn)確度評測
在似然比框架下,語音證據(jù)檢驗(yàn)評價(jià)的任務(wù)不是給出檢材語音與樣本語音是否同源的二分性結(jié)論,而是要證明評價(jià)該語音證據(jù)是支持同源假設(shè)還是支持不同源假設(shè)以及支持的程度如何,即表明證據(jù)的強(qiáng)度。因此新范式下,系統(tǒng)的準(zhǔn)確度評測指標(biāo)為對數(shù)似然比代價(jià)函數(shù)(log-likelihood-ratio cost,Cllr)[24]。其計(jì)算公式如下:
式中,Ns和Nd分別是同一話者和不同話者測試對的數(shù)量,LRs和LRd分別是同一話者和不同話者測試對比較的似然比。log2(1+1/LRs)為同源懲罰值,log2(1+LRd)為不同源懲罰值。Cllr是連續(xù)值,計(jì)算Cllr必須首先計(jì)算對每個(gè)測試對的似然比結(jié)果的懲罰值。與事實(shí)不符的結(jié)果,偏離事實(shí)程度越大,懲罰的力度也就越大??偟恼f來,Cllr的值越小,表明系統(tǒng)的準(zhǔn)確性越好。
2.3.2 精確度評測
精確度是指對相同樣品進(jìn)行重復(fù)測定后所得結(jié)果的重現(xiàn)性。在法庭證據(jù)檢驗(yàn)中,結(jié)果的可重復(fù)性是系統(tǒng)評價(jià)的重要考量指標(biāo)。目前,精確度的評價(jià)方法主要有兩種,一種是頻率學(xué)派的表示方法,即提供似然比的最佳估計(jì)值和該值可能存在的區(qū)間范圍,例如LR的最佳估計(jì)值為900,95%概率在800~1 000之間。另一種方法是貝葉斯學(xué)派的表示方法,即僅報(bào)告最靠近似然比為1的邊界值,例如95%的概率LR至少為850。盡管兩種方法在表現(xiàn)形式上有一定差異,但無論采用哪種形式,在法庭上表明所用分析系統(tǒng)的精確度始終都是必要的。
2.3.3 代表具體案件條件
在實(shí)際案件中,每個(gè)案件的具體條件或多或少都會(huì)有所不同,因此不能一概而論,泛泛地說系統(tǒng)的準(zhǔn)確性有多高、可靠性有多好,而是應(yīng)該就被檢案件的具體條件進(jìn)行驗(yàn)證評估。即在最大限度接近實(shí)際檢材和樣本條件情況下進(jìn)行系統(tǒng)測試,因?yàn)橥幌到y(tǒng)在某一案件中的性能表現(xiàn)并不代表它在其他案件中也會(huì)有相同的性能表現(xiàn)。
法庭語音比較系統(tǒng)驗(yàn)證一般通過Tippett圖表示(見圖2)。其中,橫軸為以10為底的對數(shù)似然比,縱軸代表對數(shù)似然比的累積分布比例。向右上升的實(shí)線代表來自同一話者測試對的結(jié)果,縱軸上的值代表小于或等于橫軸上對數(shù)似然比的累積比例。向左上升的實(shí)線代表來自不同話者測試對的結(jié)果,縱軸上的值代表大于或等于橫軸上對數(shù)似然比的累積比例。虛線代表的是95%的貝葉斯置信區(qū)間(Credible interval,95%CI),表明系統(tǒng)的可靠性或精確度。
圖2 系統(tǒng)測試的Tippett圖
與傳統(tǒng)范式相比,法庭說話人識別及其法庭語音證據(jù)評價(jià)的新范式采用似然比框架作為評價(jià)體系,通過計(jì)算起訴假設(shè)和辯護(hù)假設(shè)這兩種競爭假設(shè)條件下獲得證據(jù)的相對概率- 似然比來量化評估法庭語音證據(jù)的價(jià)值及其對控、辯雙方主張的支持力度。這既是法庭科學(xué)領(lǐng)域的技術(shù)革新,也是法庭在事實(shí)裁定和證據(jù)采信方面的進(jìn)步,對于提高法庭證據(jù)技術(shù)的科學(xué)性和促進(jìn)司法公正具有重要意義。
法庭語音證據(jù)評價(jià)的新范式通過相關(guān)數(shù)據(jù)、定量測量和統(tǒng)計(jì)模型等程序方法,不僅可以量化評估語音特征的相似程度和典型程度,還可以保證檢驗(yàn)判斷的客觀性、程序方法的透明性、檢驗(yàn)結(jié)果的可重復(fù)性和可驗(yàn)證性,進(jìn)而最大限度地減少分析評判的主觀成分,降低或避免主觀認(rèn)知偏誤。
目前,國際上已經(jīng)將這種新的法庭語音證據(jù)評價(jià)范式應(yīng)用于法庭說話人識別的司法實(shí)踐[25-26]。2015年,歐洲法庭科學(xué)研究所聯(lián)盟(ENFSI)還專門頒布了基于新范式的法庭說話人識別的最佳實(shí)踐指南。在國內(nèi),關(guān)于新范式的理論研究和實(shí)驗(yàn)研究也已取得了較大進(jìn)展[13, 15, 18],目前實(shí)證研究也取得了初步的成果[27]。這些研究工作為其將來的實(shí)踐應(yīng)用奠定了前提和基礎(chǔ)。
當(dāng)然,新范式在推行過程中不可避免地會(huì)面臨一定的爭議、阻力。一方面,傳統(tǒng)的思維模式和慣式阻礙人們對新事物的認(rèn)識和接受,另一方面“復(fù)雜”的邏輯推理和概率統(tǒng)計(jì)也確實(shí)令人“望而生畏”。因此,我們不僅需要更為深入的理論研究,還需要廣泛的實(shí)證研究,特別是針對應(yīng)實(shí)踐中的具體細(xì)節(jié)問題,如基礎(chǔ)語音數(shù)據(jù)的采集、相關(guān)背景人群的選擇、語音特征的量化提取方法、參數(shù)統(tǒng)計(jì)模型的構(gòu)建以及具有可操作性的標(biāo)準(zhǔn)與規(guī)范的制訂等,都是需要研究解決的根本現(xiàn)實(shí)問題。
此外,在司法語音相關(guān)背景人群基礎(chǔ)語音數(shù)據(jù)的建設(shè)和法庭說話人識別專家輔助系統(tǒng)的研制等方面急需進(jìn)一步加強(qiáng)。由于傳統(tǒng)的、基于語音專家分析和手工測量的聲學(xué)- 語音學(xué)方法需要大量的人力投入,因此對于較大規(guī)模的相關(guān)背景人群語音特征的量化分析和手工測量幾乎不可能實(shí)現(xiàn)。因此,語音特征的分析及其參數(shù)測量提取必須朝自動(dòng)化方向發(fā)展,這樣才能最大程度地實(shí)現(xiàn)人工專家檢驗(yàn)與自動(dòng)識別技術(shù)的優(yōu)勢結(jié)合,最終使我國的司法語音檢驗(yàn)走向客觀化、標(biāo)準(zhǔn)化、自動(dòng)化和透明化。