摘 要 錄音內容辨聽司法鑒定是聲像資料司法鑒定中常見的鑒定事項,但是由于其難度較大并且缺乏科學性保障,因此在司法鑒定的實務中并未給予足夠的重視。本文對錄音內容辨聽司法鑒定的有關內容進行介紹,并闡述了錄音內容辨聽的方法,同時針對錄音內容辨聽司法鑒定實務中存在的問題進行歸納,并對未來的發(fā)展方向進行展望。
關鍵詞 錄音內容 辨聽 司法鑒定 方法 發(fā)展
基金項目:本論文受公安部科技強警基礎工作專項項目《面向網(wǎng)絡語音的聲紋特征與識別關鍵技術研究》資助,項目編號:2017GABJC33。
作者簡介:張曉,公安部第三研究所,助理研究員,研究方向:信息網(wǎng)絡安全、電子數(shù)據(jù)司法鑒定。
中圖分類號:D918.9 文獻標識碼:A DOI:10.19387/j.cnki.1009-0592.2018.01.171
錄音內容辨聽司法鑒定是聲像資料司法鑒定的一種。錄音內容辨聽是指通過聽辨,必要時借助錄音處理等技術手段,書面整理錄音資料所反應的對話內容。公安機關在偵查網(wǎng)絡暴恐音頻的案件中,需要到對音頻中的內容進行辨聽以作為立案審查的證據(jù)。法院在審判階段,會對雙方當事人提交的對錄音內容有爭議的錄音證據(jù)委托鑒定機構進行司法鑒定。
一、錄音內容辨聽司法鑒定概述
聲像資料司法鑒定的鑒定事項一般包括聲音資料的同一性、完整性鑒定、錄音內容辨聽,以及圖像資料人像同一鑒定、真實性鑒定等。錄音內容辨聽司法鑒定是常見的鑒定事項。
(一)錄音內容辨聽司法鑒定
錄音內容辨聽是聲像資料司法鑒定中常見的鑒定事項,它是指聽辨錄音資料中談話者語音文字內容,整理相關人士在實踐中用語言表達的思想內容,以及從錄像資料的背景圖像中提取有關案件的線索信息。
現(xiàn)代語言學中的方言,通常指的是地區(qū)方言,也就是指地方話。它是一種全民語言的地域性變體,是一種語言分化的結果,在語音、詞匯、語法上具有不同于其他親屬語言的特征,他的內部發(fā)展規(guī)律服從于全民共同語。
現(xiàn)代漢語的全民共同語是普通話。方言與普通話不是對立的關系,而是個別與一般的關系。新中國成立以后,國家政治、經(jīng)濟高度集中、統(tǒng)一,文化、教育逐漸普及,交通和通信日益現(xiàn)代化,加之推廣普通話工作的不斷加強,漢語方言停止了平行發(fā)展,正在向民族共同語——普通話集中、靠攏。《中華人民共和國憲法》第19條規(guī)定:“國家推廣全國通用的普通話”。使用國家通用的語言文字,是每個公民應當履行的權利(非義務)。我國是一個多民族、多方言的國家,推廣普及普通話有利于增進我國各民族的交流與往來,增強中華民族的凝聚力。因此,錄音內容辨聽司法鑒定中一項很重要的內容就是把方言整理成為普通話,以解決司法實踐中存在的問題,同時為公安機關偵查提供便利。
(二)錄音內容辨聽司法鑒定的法律依據(jù)
聲像資料司法鑒定的產(chǎn)生和發(fā)展具有社會發(fā)展必然性,2005年通過的《全國人民代表大會常務委員會關于司法鑒定管理問題的決定》(以下簡稱《決定》)中規(guī)定了聲像資料鑒定這一鑒定類別。2010年發(fā)布的司法鑒定技術規(guī)范《聲像資料鑒定通用規(guī)范》中規(guī)定了錄音資料鑒定分為錄音資料真實性(完整性)鑒定、錄音內容辨聽和語音同一性鑒定。2010年發(fā)布的司法鑒定技術規(guī)范《錄音資料鑒定規(guī)范》中規(guī)定了錄音內容辨聽的步驟和方法。標準的發(fā)布使得這項鑒定工作有據(jù)可依有規(guī)可循,使得這項鑒定工作的開展更加規(guī)范。
(三)錄音內容辨聽司法鑒定的目的
委托機關委托鑒定機構做錄音內容辨聽司法鑒定一般是出于幾方面原因的考慮:一是由于某些地區(qū)將普通話考試作為司法工作人員的職業(yè)準入標準之一,所以這些地方的司法工作人員在工作過程中使用普通話交流,因此將方言翻譯成普通話既有利于司法工作,又減少了訴訟當事人交流的語言障礙;二是由于當事人提供的錄音證據(jù)背景噪音太大、語音內容不清楚難以辨識,致使當事人提交的這份錄音證據(jù)難以充分發(fā)揮其作用;三是由于雙發(fā)當事人對錄音資料的內容有爭議,需要提交司法鑒定對錄音有爭議的部分進行內容的辨聽。
因此,基于以上原因,偵查起訴和審判工作會要求將用方言表達或者模糊不清的說話錄音內容,具體地辨識出來。錄音的內容是語音證據(jù)的重要方面,可起到書證的作用,它關系到證據(jù)的價值。一份完整的語音內容整理證據(jù)可以為民事訴訟案件的審判、刑事訴訟案件的偵破提供很大的幫助。因此對模糊不清的錄音內容進行辨識成為聲像資料司法鑒定的一項任務和內容。
二、錄音內容辨聽的方法
錄音內容辨聽司法鑒定可以采用語音學、語用學以及專業(yè)分析軟件等多種方法綜合進行。案件鑒定過程中遇到的錄音大致分為模擬錄音和數(shù)字錄音。例如磁帶中的錄音就屬于模擬錄音,磁帶每播放一次,音質就會損耗一點,播放的次數(shù)久了音質就會明顯下降,因此鑒定時不適合對磁帶進行反復辨聽。而數(shù)字錄音則不存在損耗的問題,它的復制和傳播都是100%無失真、無品質下降的。因此在鑒定過程中,當遇到檢材為模擬錄音時,通常都會將其轉換為數(shù)字錄音再進行辨聽。
根據(jù)《錄音資料鑒定規(guī)范》中的第2部分,錄音內容辨聽規(guī)范,語音內容辨聽有以下幾種基本方法:
(一)在無外界干擾條件下,通過高質量的回放系統(tǒng),反復放音聽辨,對錄音內容進行書面整理
反復辨聽是一個很重要的步驟。根據(jù)原來所使用錄音機的性能,采用更高性能的錄音機或功放機放音,可改善語音的聽覺效果。辨聽過程中應采用頭戴式耳機進行辨聽,以排除外界干擾。同時在播放過程中選擇具有循環(huán)播放功能的播放軟件。
(二)對微弱的、受干擾的、不清晰的語音,通過錄音處理,改善聽覺效果
送檢的錄音文件經(jīng)常會出現(xiàn)聲音太小聽或者背景噪聲太大而導致聽不清語音內容的情況。此類錄音文件在進行內容的辨聽之前,先要對其進行處理以利于聽辨。例如使用VS99語音工作站、智能聲紋鑒定工作站、音頻處理軟件Cool Edit 、Gold Wave等工具對錄音進行處理以利于聽辨。endprint
對于微弱的語音,采用語音增益可以起到增強或衰減語音,并能起到濾波(高通、低通、帶通)效果。
對于含有背景噪音的錄音文件,可以采取自適應降噪或者人工降噪的方法。自適應降噪可設定噪聲抑制強度,處理后得到降噪后的文件,可以通過疊加操作并反復視聽以達到最終效果,并保存降噪的結果。人工降噪需要人工采集噪音樣本,并設定噪音范圍后,對整個或多個語音段參照噪音樣本進行降噪。
通常會綜合使用上述手段并同時使用多種軟件,進行反復處理并視聽,以求達到最佳辨聽效果。
(三)對語義不是十分明確的語音,對說話人的語音特點進行分析,了解與某種發(fā)音對應的語義
由于中國文化的博大精深和語言的復雜性,每個人由于生長環(huán)境、教育背景、性別、年齡、職業(yè)的不同而具有個人的語音人身特征。當在辨聽過程中遇到語義不是十分明確的語音時,需要對說話人的語音特點進行分析,了解當?shù)氐奈幕?,確定與某種發(fā)音對應的語義。
三、錄音內容辨聽司法鑒定存在的問題
由于錄音內容辨聽司法鑒定起步比較晚,況且當前并未對其引起足夠的重視,因此語音內容辨識司法鑒定存在一定的問題。這些問題應當及時解決,否則將會阻礙該類鑒定的進一步發(fā)展。本人認為當前錄音內容辨聽司法鑒定存在的問題可以歸納為以下幾點:
(一)認識不夠
實踐中對錄音內容辨聽司法鑒定并未給予足夠的重視,沒有認識到其重要性,認為語音內容辨識司法鑒定是很容易的甚至無關緊要。從上海某家鑒定機構2017年聲像資料司法鑒定案件的分類統(tǒng)計數(shù)據(jù)來看,該鑒定機構的錄音內容辨聽司法鑒定案件的數(shù)量占聲像資料司法鑒定案件總數(shù)的比例接近15%,根據(jù)這一顯示的數(shù)據(jù),說明錄音內容辨聽司法鑒定在聲像資料司法鑒定中起著至關重要的作用。因此應當充分的認識到錄音內容辨聽司法鑒定所起的重要作用。
(二)技術復雜
錄音內容辨聽司法鑒定的技術涉及語言學、計算機學、物理學、法學等多個學科,其所運用到的知識比較綜合,因此該鑒定技術具有復雜性。對于含有背景噪聲的錄音文件,需要根據(jù)噪聲的種類,采用相應的方法并綜合運用多種工具和手段進行降噪,以達到辨聽的最佳效果。
(三)輔助人員易失控
由于語音辨識的內容往往會涉及到方言,而我國的漢語方言十分復雜,目前通行的說法是分為7種:北方方言、吳方言、湘方言、贛方言、粵方言、客家方言、閩方言。所以方言的復雜性和多樣性給鑒定工作帶來很大的困難,因此常常需要聘請相關的方言專家來進行輔助鑒定。但是輔助人員畢竟不是司法鑒定人,目前對于輔助人員的責任范圍沒有明確的規(guī)定,對其能力的認定也沒有一定的標準,因此為確保鑒定結果的科學性,需要對輔助人員進行嚴格的控制和審查。
四、未來發(fā)展方向預測
錄音內容辨聽司法鑒定是一項技術復雜、內容繁瑣的鑒定工作,對鑒定人的計算機技能、方言水平、辨聽能力、耐心程度等多方面的能力都是巨大的考驗。目前行業(yè)內對此類司法鑒定案件的做法主要還是通過人工辨聽的方法,將錄音中的內容聽辨出來然后一句一句翻譯出來,整理成文字。對于時間較長的錄音文件,此項鑒定工作將會花費鑒定人巨大的時間和精力,對鑒定人的耐心是一種極大的考驗。
在高科技迅速發(fā)展的今天,依靠信息技術解決鑒定中的技術問題已然成為一種發(fā)展趨勢。市面上的語音轉文字類軟件按照應用環(huán)境大致可以分為語音喚醒、語音聽寫、語音轉寫等三種。語音喚醒多用于設備(手機、家電等)在休眠或鎖屏狀態(tài)下檢測到用戶的聲音(設定的語音指令,即喚醒詞),讓處于休眠狀態(tài)下的設備直接進入到等待指令狀態(tài),以開啟后續(xù)進程。語音聽寫一般支持短時間(一分鐘以內)的音頻,多適用于人機對話。語音轉寫可以支持較長時間的音頻,使用場景更自然地貼近日常交流。
科大訊飛于今年在開放平臺推出一項語音轉寫服務,該服務基于科大訊飛獨立研究的深度全序列卷積神經(jīng)網(wǎng)絡語音識別框架,針對語音的長時相關性進行語言建模,將音頻數(shù)據(jù)轉換成文本數(shù)據(jù),為后續(xù)的信息處理和數(shù)據(jù)挖掘提供基礎。具體表現(xiàn)形式為,將多種格式的長段音頻文件(5小時以內)轉換成包含時間戳、詞句置信度、詞屬性以及句子標志的文字信息。文字信息提供分詞形式以及整段文字形式。使用語音轉寫服務可以減輕錄音辨聽鑒定的工作量,由于是對于時間較長的錄音文件,可以先使用此項服務對錄音內容進行預辨識,識別率一般在80%以上,然后再根據(jù)預處理的結果做進一步的完善工作。
五、結語
在我國,有關聲像資料司法鑒定中的錄音內容辨聽司法鑒定的研究,不論是在理論和技術方面,還是在司法應用的實踐方面,都處于起始階段。錄音內容辨聽司法鑒定需要解決其在鑒定過程中存在的技術難題,在實踐中還需要不斷探索新的方法和研究領域,促進該類司法鑒定朝著更加合理化和規(guī)范化的方向發(fā)展。
參考文獻:
[1]霍憲丹主編.司法鑒定通論.法律出版社.2009.
[2]王永全.淺談撰寫計算機司法鑒定文書的一般原則//司法鑒定論叢I.北京大學出版社.2008.
[3]楊俊杰編著.司法話者識別.中國人民公安大學出版社.2009.
[4]公安部政治部編.言語識別與鑒定.中國人民公安大學出版社.2007.
[5]李利華.法醫(yī)鑒定文書制作應注意的問題//司法鑒定論叢I.北京大學出版社.2008.
[6]司法鑒定技術規(guī)范《錄音資料鑒定規(guī)范》SF/Z JD0301001-2010.中華人民共和國司法部司法鑒定管理局.2010.endprint