胡曉光, 劉天宇, 楊昊易, 蔡能斌
(1.中國人民公安大學(xué)偵查學(xué)院, 北京 100038; 2.上海市現(xiàn)場物證重點實驗室, 上海 200083)
聲紋識別作為一項生物識別技術(shù),是利用計算機(jī)等信息識別技術(shù)將話語人的語音信號轉(zhuǎn)化為電信號,對話語人身份進(jìn)行識別的技術(shù),公安機(jī)關(guān)通過聲紋識別能夠為偵破案件尋找線索,查明真相。
隨著計算機(jī)技術(shù)的發(fā)展,語音偽裝對案件的偵破帶來了極大的阻撓??萍歼M(jìn)步帶動了電子偽裝語音技術(shù)的不斷發(fā)展,各類變音軟件相繼出現(xiàn)在人們的生活中,不法分子利用語音偽裝實施非接觸式的犯罪已經(jīng)成為當(dāng)前公安工作的一大難題。近年來,電信詐騙、敲詐勒索等案件數(shù)量不斷增加,而電子偽裝語音對案件偵破具有擾亂和誤導(dǎo)的不利影響,因此公安機(jī)關(guān)越來越重視對電子偽裝語音的研究。一般來講,聲紋識別運(yùn)用到的聲學(xué)特征主要有共振峰頻率、基頻和音強(qiáng),而當(dāng)前市面上存在的幾種常見的變音軟件的原理主要是通過改變這些物理性質(zhì)來對原聲進(jìn)行偽裝。常見的變音軟件種類繁多,變聲效果也大不相同,但其偽裝語音的原理存在一定的相似性。當(dāng)前對電子偽裝語音的研究現(xiàn)狀主要總結(jié)了其3種變音方法,即可以分為參數(shù)、非參數(shù)和混合方法[1],但缺乏更加細(xì)致的研究和證明。本文基于當(dāng)前電子偽裝語音的發(fā)展現(xiàn)狀,對4款市面上較為常見的變音軟件進(jìn)行實驗研究和數(shù)據(jù)分析,對變音規(guī)律進(jìn)行深入探索,并設(shè)計逆實驗來印證結(jié)果,找出幾款變音軟件原理的相似點和不同點,為偵破工作提供新思路。
語音分析軟件Praat是一款基本的多功能語音分析軟件,該軟件能夠采集基本的語音信號,經(jīng)過變換和處理,根據(jù)用戶的需要形成相應(yīng)的分析結(jié)果。Praat軟件具有功能強(qiáng)大、操作簡便、測量準(zhǔn)確和通用的優(yōu)點,本研究選用該軟件對音頻各數(shù)據(jù)進(jìn)行采集分析,利用其分析所選音段的共振峰頻率、音調(diào)和音強(qiáng)的數(shù)值,依據(jù)測定的數(shù)值大小和變化趨向進(jìn)行分析探究。
目前市面上常見的變聲軟件的變聲方法可以分為參數(shù)、非參數(shù)和混合方法。參數(shù)方法和混合方法是提取特征參數(shù)按照某一函數(shù)進(jìn)行轉(zhuǎn)換,其不同之處在于參數(shù)方法是對所有參數(shù)都進(jìn)行提取轉(zhuǎn)換,而混合方法則是提取部分參數(shù),對其他參數(shù)進(jìn)行整體控制。非參數(shù)方法是根據(jù)統(tǒng)計意義上的數(shù)據(jù)進(jìn)行變化,其方法多種多樣。
電子偽裝語音是通過電子變聲技術(shù)對說話人的語音特征進(jìn)行轉(zhuǎn)換,使其聲音得到個性化偽裝。電子偽裝語音器材可以對說話人的自然語音進(jìn)行個性化偽裝。致使一般的聽話人無法辨識發(fā)音人的身份、年齡甚至性別,也嚴(yán)重影響了一般聲紋特征識別技術(shù)產(chǎn)品的語音檢驗鑒定效果,給司法鑒定工作帶來很大的困難[2]。目前國內(nèi)對電子偽裝語音研究的方向主要是對變音器材和變音軟件的研究,而缺乏對變音過程的研究和證明,故電子偽裝語音的研究將對于一線的偵查辦案提供新的思路。
語音的聽覺特征是個人發(fā)音器官特性、發(fā)音習(xí)慣特性和講話習(xí)慣特性表現(xiàn)在口語中的各種征象[3]。聽覺特征主要表現(xiàn)在3個方面:嗓音音質(zhì)、口頭言語和口語缺陷。我們在進(jìn)行細(xì)致的語音同一認(rèn)定工作之前,要先在語音的聽覺特征方面對不同軟件變音前后的變聲語音進(jìn)行審聽,其主要包括分析變音前后的音色特征、變音前后的韻律特征、話語人的用語習(xí)慣以及其他例如口音和方言方面的特征。
個體發(fā)音器官的特性和發(fā)音的習(xí)慣特性在聲紋圖譜中表現(xiàn)出的各種用來描述語音性質(zhì)的參量稱為語音的頻譜特征,表現(xiàn)為頻譜的描述語音性質(zhì)的參量很多,但并不都能作為語音頻譜特征來使用。能夠作為頻譜特征使用的語音參量,同樣要具有個體而言的穩(wěn)定性和對群體而言的差異性這兩個方面的性質(zhì)。這里將對幾個聲學(xué)特征參數(shù)作詳細(xì)介紹。
1.4.1 共振峰頻率特征
共振峰是指在語音圖譜中能量相對集中的一些區(qū)域,而共振峰頻率指的是共振峰在帶寬頻譜圖上的位置,將共振峰的寬度化簡成取其中心線來作為共振峰的頻率,利用praat可以計算出共振峰頻率F1、F2、F3和F4的精確值。共振峰頻率特征的穩(wěn)定性和差異性均較強(qiáng),既可作為認(rèn)定同一的指標(biāo),也可作為否定同一的指標(biāo)。低頻區(qū)的共振峰,特別是F1和F2,不同人之間雖然存在差別,但對應(yīng)相同的概率也很高;而第三以上共振峰的頻率,不同人之間對應(yīng)相同的概率小得多,并且峰次越高,這種概率越低。故我們在進(jìn)行語音同一認(rèn)定或非同一認(rèn)定時,共振峰頻率都是重要的指向性參考指標(biāo)。
1.4.2 時長比例特征
如果將一段語流看成是一段音素序列,就會發(fā)現(xiàn)不同人講的同一段音素序列,各對應(yīng)音素的時長一般是不同的。但我們難以將語流中的所有對應(yīng)音素的時長一一進(jìn)行比對,并且同一人講相同的一段話,其各對應(yīng)音素的時長未必相等。這里只討論穩(wěn)定性相對較強(qiáng)的音節(jié)中聲母韻母時長比例、鼻韻母中主要元音與鼻韻尾時長比例、音節(jié)間時長比例等3個方面的特征。
1.4.3 基頻特征
基頻是語音重要的聲學(xué)參數(shù)之一。能夠引起基頻變化的屬于話者個體的因素有:性別、年齡、健康狀態(tài)等生理因素;情緒、心態(tài)等心理因素;談話環(huán)境、人際關(guān)系等廣義語境因素[4]。基頻是最容易被外部因素所影響的因素之一,基頻的改變往往也會引起共振峰頻率的改變,從而在聽覺效果上發(fā)生差異。在一線的偵查工作中,嫌疑人往往可以通過刻意偽裝甚至壓低嗓音等手段使得檢材提取人員無法得到其正常語調(diào)的基頻數(shù)值。因此,在制作音頻檢材時,應(yīng)充分考慮各方面的因素,如錄音器材是否有失真、現(xiàn)場環(huán)境是否嘈雜等。在獲取嫌疑人語音樣本時,并采取自由交談錄音和聽說兩種形式采樣。使用聽說錄音形式,需有意使對方說與樣本相同的語句。采取自由交談錄音形式時,需確保對方不知情,以確保對象發(fā)音自然[5]。
隨著科學(xué)技術(shù)的快速發(fā)展,信息化時代到來,傳統(tǒng)的偵查手段不足以適用于新型的犯罪,新時代的公安工作要通過創(chuàng)新來適應(yīng)新形勢。電子偽裝語音作為新興的技術(shù)常被犯罪分子用于身份的偽裝,其手段具有隱蔽化、專業(yè)化的特征,給偵查工作帶來極大的困難,這種新型的犯罪手段不容忽視,我們需要研究更新的技術(shù)手段,具備更新的知識儲備才能更好地偵破案件。分析電子偽裝語音能夠為偵破此類案件尋找一種新思路,為新時代公安工作提供智能化的技術(shù)指引。
語音分析軟件Praat V6.0.5.3、變聲器免費(fèi)版、安卓變聲器、Morphvox Pro中文版、專業(yè)變聲器語音聊天變聲軟件、“耳鼠變聲器”專業(yè)變聲軟件、華為P30手機(jī)兩部(音頻采樣率48 kHz)、華為P20(音頻采樣率48khz)手機(jī)一部、Adobe Audition CC 2019、風(fēng)云音頻處理大師1.0.60.126。
2.2.1 選擇軟件
在手機(jī)以及電腦的應(yīng)用商店中找到下載量以及知名度靠前的4款軟件,用于本次實驗。
2.2.2 語音錄制
參與錄制的志愿者在室內(nèi)安靜的環(huán)境,運(yùn)用手機(jī)和電腦的錄音功能,戴手機(jī)原裝線控耳機(jī),麥克風(fēng)距嘴部約10 cm,以正常語速和語調(diào)朗讀錄音材料,對錄音材料進(jìn)行錄制。之后再打開變聲軟件進(jìn)行同樣的錄制,保存對應(yīng)的音頻文件。
2.2.3 格式處理及分析
之后將所錄制樣本導(dǎo)入PC端,運(yùn)用軟件將音頻格式統(tǒng)一為WAV格式。運(yùn)用praat軟件對WAV格式的音頻文件進(jìn)行分析,得到錄音的語圖。測出所選取語句“變聲”前后的共振峰、基頻、音強(qiáng)等參數(shù),數(shù)據(jù)制表。分析比較不同軟件變聲規(guī)律及差異,并進(jìn)行歸納總結(jié)。
使用praat對“變聲”前后的WAV格式音頻文件進(jìn)行聲學(xué)參數(shù)(基頻、共振峰、音強(qiáng))的測定,并記錄數(shù)值。
在分別對甲、乙、丙3名實驗對象的樣本進(jìn)行測量后,發(fā)現(xiàn)同一個人經(jīng)A、B、C、D 4款軟件變化后的聲音聽覺效果不同。以對象甲為例,見圖1。
根據(jù)圖1,可以發(fā)現(xiàn)聲音改變前后,語圖的波形有了較明顯的變化,語圖的差異直接反映在聽覺的不同,說話人達(dá)到了對聲音實現(xiàn)偽裝的目的。
圖1 原聲及變聲的對比
利用praat軟件測量錄音音頻“變聲”前后的聲學(xué)參數(shù)(包含基頻、音強(qiáng)、4組共振峰頻率),發(fā)現(xiàn)4款變聲軟件錄制出的電子偽裝語音的聲學(xué)參數(shù)在數(shù)值和變化上均有較大不同。同一人在不同變聲軟件下的參數(shù)變化見圖2、圖3、圖4。
圖2 4款變聲軟件變男聲后共振峰數(shù)值對比柱形圖
圖3 4款變聲軟件變女聲后共振峰數(shù)值對比柱形圖
圖4 4款變聲軟件變聲后基頻數(shù)值對比柱形圖
根據(jù)同一人在4款不同的變聲軟件下4組共振峰(F1~F4)同原聲的共振峰對比柱形圖可以看出,在經(jīng)過不同軟件處理后,同一語句對應(yīng)的共振峰頻率同原聲相比有較大不同。反映在聽覺效果上,原聲同變化后的聲音有了較大變化。因此,共振峰頻率可作為一個關(guān)鍵的評判兩組聲音是否為同一人的參考要素。
根據(jù)柱形圖可得,同一人的聲音在不同的變聲軟件處理后,基頻數(shù)值有所差異。不同軟件處理,基頻的變化比例也不盡相同。當(dāng)由原聲變?yōu)榕晻r,基頻升高;反之,基頻降低。
根據(jù)表1可知,音強(qiáng)這一聲學(xué)參數(shù)在變化前后差異量較小,在誤差允許范圍內(nèi),可認(rèn)為基本無變化。音強(qiáng)這一參數(shù)在聽覺效果上的反映為聲音的大小以及宏亮程度,故下文在對變聲恢復(fù)過程將不對其重點討論。
表1 4款軟件變聲前后音強(qiáng)的數(shù)值對比
注:表中數(shù)據(jù)單位均為dB。
對上述聲學(xué)參數(shù)進(jìn)行測定與分析后,可以發(fā)現(xiàn)前后聲音的改變對應(yīng)基頻與共振峰頻率數(shù)值的改變。因此,探究電子偽裝語音的規(guī)律,可著重從基頻與共振峰頻率兩個參數(shù)的變化規(guī)律入手。
經(jīng)實驗1探究發(fā)現(xiàn),基頻與共振峰頻率數(shù)值的變化,會體現(xiàn)在說話人聲音的改變上。為探究二者究竟誰為主導(dǎo),運(yùn)用假說演繹法。假設(shè)基頻對于聲音改變的效果為主導(dǎo)因素,共振峰頻率改變聲音的效果次之。改變基頻至原來的數(shù)值,若恢復(fù)出的聲音在聽覺與聲學(xué)參數(shù)上均契合,則可驗證假說的合理性;反之,則否定。說話人甲的基頻數(shù)值表見表2。
表2 4款軟件基頻數(shù)值及比例
注:表中基頻單位為Hz。
之后在Adobe Audition CC 2019音頻編輯軟件中,利用“音高換擋器”對變聲進(jìn)行相對應(yīng)的升高或降低相應(yīng)的比例,得到初步的“逆變聲”語音。之后對聲音進(jìn)行微調(diào),得到較為純粹的恢復(fù)聲。之后將“恢復(fù)聲”同原聲進(jìn)行聽覺上的比對和聲學(xué)參數(shù)的比對。
得到恢復(fù)語音后,分別邀請其他5名不知情的人員審聽原聲與恢復(fù)聲,基本得到了較好的反饋,無失真現(xiàn)象,原聲與“恢復(fù)聲”的比較得到初步的契合。由于在真正的語音同一認(rèn)定的實驗過程中,僅僅靠聽覺效果的相似是不夠的,往往還需要進(jìn)行頻譜比對。以說話人甲為例,見圖5(a)(b)與聲學(xué)參數(shù)的對比分析。
圖5 說話人甲原聲與“恢復(fù)聲”的對比
經(jīng)過對聽覺效果和語圖的分析,可以發(fā)現(xiàn)恢復(fù)出的聲音同原聲相比雖仍有差異,但大致能做到相似,可以大致判斷出二者是否為同一人。在司法實踐中,做語音同一認(rèn)定時仍需要聲學(xué)參數(shù)的比對與測定,見圖6、圖7。
圖6 4款軟件原聲與“男恢復(fù)聲”的共振峰頻率對比圖
圖7 4款軟件原聲與“女恢復(fù)聲”的共振峰頻率對比圖
經(jīng)過原聲與“恢復(fù)聲”的比對,可以發(fā)現(xiàn)A、B、D 3款軟件恢復(fù)后,共振峰頻率同原聲相比有較好的契合程度,在誤差允許范圍內(nèi),有較高的特征符合率,故可以用作語音同一認(rèn)定的鑒定。 C軟件契合程度一般,不適宜直接用作同一認(rèn)定的鑒定。
假說演繹實驗的結(jié)果表明,目前市面上的變聲軟件按照變聲的基本方法來看可以分為兩種:一種是以基頻為主導(dǎo)通過調(diào)節(jié)基頻便可以改變與恢復(fù)聲音;另一種則是擁有更為復(fù)雜的算法,單單調(diào)節(jié)基頻無法得到“恢復(fù)”語音。我們可以根據(jù)不同軟件的“變聲”原理,找到可以處理電子偽裝語音的通解,推廣應(yīng)用到一線公安工作,為一線偵查工作處理類似案件提供新思路新戰(zhàn)法。
(1)綜合以上對變聲、恢復(fù)語音的審聽效果及其聲學(xué)特征變化數(shù)據(jù)統(tǒng)計可知,4款變聲軟件的變聲都使聲音的音色、音調(diào)發(fā)生了變化,在聽覺上與原聲在性別、年齡上有較大的差異。不同軟件提高或降低說話人音調(diào)的比例并不完全一致。聲學(xué)特征上,基頻、共振峰相應(yīng)地提高或降低,音長不變,音強(qiáng)基本不變。各音節(jié)音強(qiáng)降低的比率有微小差異。
(2)本次實驗的4款軟件中,有3款軟件其變聲規(guī)律是通過改變基頻同時引起共振峰頻率改變來變聲,通過“Adobe Audition CC 2019”軟件對音調(diào)提高或降低相應(yīng)的比例,可以得到與原聲契合較好的“恢復(fù)語音”,測出的“恢復(fù)聲”的聲學(xué)參數(shù)也與原聲較為接近,絕大多數(shù)聲學(xué)參數(shù)可用做語音同一認(rèn)定。
(1)目前市面上的變聲軟件多含有自定義選項,同一個方向的變聲方向(如女聲轉(zhuǎn)男聲)也有很多選項,選用不同的變聲選項基頻變化的比率也會不同。雖然沒有固定的變化頻率,但是在偵查工作中,可先對嫌疑人進(jìn)行原聲樣本的錄制,調(diào)節(jié)至相應(yīng)的變聲檢材樣本的基頻參數(shù)。若二者在聽覺上相近,則可初步縮小范圍。
(2)本文提出一種基于基頻來恢復(fù)電子偽裝語音的方法,利用Adobe Audition等音頻編輯軟件對變聲提高或降低相應(yīng)的比例,再對聲音進(jìn)行一些修補(bǔ),一般情況下可以得到與原聲契合程度較好的恢復(fù)聲。實驗中的4款軟件有3款變聲軟件的電子偽裝語音可以實現(xiàn)較好的復(fù)原,而本次實驗所選用的軟件是目前下載量和應(yīng)用量均較為廣泛的幾款軟件,說明此法可以對市面上絕大部分的變聲軟件形成的電子偽裝語音進(jìn)行處理與還原,具有很好的實踐意義。同時,加之操作的便捷性,將此法應(yīng)用到一線公安工作中,具有極大的可行性。
本文對幾款主流的變聲軟件的偽裝語音進(jìn)行比對與分析,探究了目前市面上常見的變聲軟件的變聲規(guī)律,同時提出了一種還原偽裝語音的方法,利用音頻編輯軟件對基頻進(jìn)行相應(yīng)比例的調(diào)整。實驗證明,此法對于所選取的4款軟件中的3款具有較好的恢復(fù)效果,尤其是在偽裝語音與原聲在聽覺效果上相差較大時依然可以得到較好的恢復(fù)效果,說明此法適用于市面上較多數(shù)的變聲軟件,這也為公安實戰(zhàn)中基于偽裝語音案件的解決提供了一種新的思路。