關(guān) 鑫
(肇慶學(xué)院, 廣東 肇慶 526061)
?
語篇信息分析視角的個人話語風(fēng)格潛在說話人鑒別力研究
關(guān) 鑫
(肇慶學(xué)院, 廣東 肇慶 526061)
目前,說話人司法鑒別所采用的鑒別參數(shù)都是語音聽覺和聲學(xué)特征,受司法實踐環(huán)境影響巨大,不可避免的語音變異現(xiàn)象大大削弱了語音資料證據(jù)的效度,已經(jīng)成為制約說話人司法鑒別技術(shù)發(fā)展的最主要原因。交叉印證法從理論上論證了通過語音分析與個人話語風(fēng)格分析交叉印證削弱語音變異影響的可行性。本文采用語篇信息分析法分析自然會話,提取了體現(xiàn)說話人個人話語風(fēng)格的說話人鑒別參數(shù),驗證了這些參數(shù)的潛在說話人鑒別力,同時也證明了交叉印證法的實踐可行性。
個人話語風(fēng)格;語篇信息;說話人鑒別
說話人司法鑒別交叉印證法建議以個人話語(Idiosyncratic Speech)整體為研究對象,個人語音比對分析與個人話語風(fēng)格比對分析相互印證,以克服語音變異現(xiàn)象對聲紋鑒定技術(shù)的負(fù)面影響,增強錄音資料證據(jù)的信度,并提出采用話語分析方法分析個人話語風(fēng)格[1],但并沒有提出具體的提取特征參數(shù)的分析方法。
鑒于此,本文首先闡釋了交叉印證法中的話語風(fēng)格與言語識別中的個人言語風(fēng)格的異同,明晰交叉印證法中提出的個人話語風(fēng)格的性質(zhì),進(jìn)而提出適合個人話語風(fēng)格分析的方法——語篇信息分析法,并通過實驗初步驗證個人話語風(fēng)格的潛在說話人鑒別力。
1.1 個人言語風(fēng)格與個人話語風(fēng)格的異同
說話人司法鑒別是對比分析說話人的語音和個人言語習(xí)慣,并鑒別涉案語音材料和懷疑對象的語音材料是否源于同一說話人的鑒定過程?,F(xiàn)有說話人鑒別方法主要通過比對體現(xiàn)說話人的生理解剖學(xué)特征的獨特的嗓音特點的語音學(xué)特征和體現(xiàn)說話人的社會屬性與自然屬性的后天習(xí)得的獨特的言語習(xí)慣特征進(jìn)行鑒別。很多學(xué)者把個人言語習(xí)慣的鑒別稱為個人言語風(fēng)格(Individual Language Style)司法鑒別[2-4],主要體現(xiàn)在用字、用詞、句法和修辭等個人言語特征方面。
依據(jù)Sapir E的定義,個人話語風(fēng)格(Individual Speaking Style)指個人遣詞造句和謀篇布局的方法、策略,是構(gòu)成話語行為的5個層面中的最高一層。其他4個層面依次是聲音、言語動態(tài)特征、發(fā)音和詞匯[5]。
不難看出,個人話語風(fēng)格與個人言語風(fēng)格既密切相關(guān),又有本質(zhì)上的區(qū)別。首先,就涉及的語式和應(yīng)用范圍而言,個人言語風(fēng)格司法鑒別對象涉及書面語言和口語錄音材料,多數(shù)情況下指書面語言作者同一認(rèn)定過程[2-4,6],這些特征在現(xiàn)有說話人鑒別方法中主要是作為輔助識別參數(shù)[1]。而說話人識別中的個人話語風(fēng)格則指連續(xù)性話語行為(Speech Act)的風(fēng)格,不涉及書面語言。
其次,僅就口語而言,個人言語風(fēng)格強調(diào)說話人的社會團(tuán)體屬性對說話人言語表現(xiàn)方式的影響;言語鑒別中個人言語風(fēng)格比對重點考察能反映說話人時代、地域、民族、性別、年齡、職業(yè)、文化程度、環(huán)境、言語社區(qū)等差異的語言特征差異[7]。而Sapir E定義的說話人個人話語風(fēng)格強調(diào)的是移除了社會影響因素后的使說話人區(qū)別于社會團(tuán)體中其他成員的說話人的個性話語風(fēng)格特征。
再者,個人言語風(fēng)格體現(xiàn)為反映說話人時代、地域、民族、性別、年齡、職業(yè)、文化程度、環(huán)境、言語社區(qū)等的用字、用詞、句式、修辭等特征。個人話語風(fēng)格體現(xiàn)為說話人謀篇布局的方式方法。換言之,個人言語風(fēng)格鑒別考察言語的表層局部特征,個人話語風(fēng)格考察話語的深層全局特征。
1.2 個人話語風(fēng)格的性質(zhì)
以上個人言語風(fēng)格和個人話語風(fēng)格的異同和關(guān)聯(lián)顯示,就口語而言,個人言語風(fēng)格更加強調(diào)社會因素和說話人個性因素相互作用下的體現(xiàn)說話人社會屬性的說話方式;而個人話語風(fēng)格則關(guān)注移除社會因素影響、只由說話人個性因素決定的說話方式。
說話人的話語直接反映了說話人的認(rèn)知水平和語言能力,并體現(xiàn)為個人的言語風(fēng)格,即表層言語特征,如用字特征、句式特征等。個人話語風(fēng)格則是說話人深層認(rèn)知水平的反映,進(jìn)而體現(xiàn)為說話人謀篇布局的策略。因此,個人話語風(fēng)格不但和個人言語風(fēng)格一樣具有特殊性、穩(wěn)定性和反映性[4],還具有一致性,即個人話語風(fēng)格在不同時間、空間環(huán)境中呈現(xiàn)一致性。相對于個人言語風(fēng)格而言,個人話語風(fēng)格穩(wěn)定性更強,更能反映說話人不同于同一社會團(tuán)體中其他社會成員的特殊性。
早在1927年,Sapir E就指出,移除社會因素影響因子、確定個人話語風(fēng)格是一個非常復(fù)雜的問題,但在理論上是可行的[5]??墒?,迄今為止,個人話語風(fēng)格分析研究尚未展開。其主要原因,一方面在于很難把人從社會中完全剝離開來,另一方面在于缺乏適合揭示說話人深層認(rèn)知水平的話語分析方法。
源于法律語篇樹狀信息結(jié)構(gòu)模式的語篇信息分析法不同于普通的語言分析法[8-10]。根據(jù)樹狀信息結(jié)構(gòu)模式,信息是能夠用于交際的最小完整意義單位的命題,處于語言表層和認(rèn)知底層之間。相對于語言表層,語篇信息結(jié)構(gòu)更加穩(wěn)定,更能反映說話人的認(rèn)知結(jié)構(gòu)。通過分析語篇信息的宏觀結(jié)構(gòu)和微觀結(jié)構(gòu),可以揭示隱藏于形式多變的言語表層之下的信息結(jié)構(gòu)范式,進(jìn)而反映說話人的認(rèn)知結(jié)構(gòu)。因此,采用語篇信息分析法分析說話人的個人話語,有望揭示說話人的個人話語風(fēng)格特征。
如果語篇信息分析法能夠抽取出反映個人話語風(fēng)格的特征參數(shù),就證明個人話語風(fēng)格分析的實踐可行性,進(jìn)而證明說話人司法識別交叉印證法的實踐可行性。
在個人話語風(fēng)格可分析的基礎(chǔ)上,要證明個人話語風(fēng)格的潛在鑒別力,就必須證明采用語篇信息分析法抽取的說話人識別特征參數(shù)話者之間的差異大于說話人自身語音變異性[11-12]。
依據(jù)個人話語風(fēng)格的性質(zhì)和說話人識別特征參數(shù)的衡量標(biāo)準(zhǔn),證明個人話語風(fēng)格的潛在說話人鑒別力必須證明以下假設(shè)為真:
假設(shè)1 語篇信息分析法能夠抽取出個人話語風(fēng)格特征參數(shù),即通過語篇信息分析法抽取的特征參數(shù)在同一說話人不同時間和空間條件下的會話中具有一致性;
假設(shè)2 所抽取的個人話語風(fēng)格特征參數(shù)能夠區(qū)分開不同的說話人,即所抽取的特征參數(shù)話者之間的差異大于說話人不同時間和空間條件下的會話間的差異。
3.1 實驗設(shè)計
從法律信息處理系統(tǒng)語料庫(CLIPS)中分別隨機選取5段說話人S1(女)和S2(女)不同時間、不同空間條件下的日常會話錄音材料驗證假設(shè)1。每位說話人的會話錄音中會話雙方和交際目的均不相同。如果假設(shè)1正確,則通過語篇信息分析法抽取的特征參數(shù)在每位說話人不同時間、不同空間的對話中具有一致性。
從CLIPS中另外分別隨機選取2段說話人S3(男)、S4(女)、S5(男)不同時間、不同空間的日常會話錄音材料,每位說話人的2段會話錄音中會話雙方和交際目的均不相同;將它們與S1、S2的兩段日常會話一起作為驗證假設(shè)2的實驗材料。如果假設(shè)2正確,則假設(shè)1中抽取的特征參數(shù)能區(qū)分開隨機抽取的5位說話人。
錄音材料的具體信息如表1所示。
3.2 實驗步驟與方法
CLIPS語料庫中的每份日常會話錄音材料都包括已標(biāo)注的會話音頻文件和會話錄音的逐字轉(zhuǎn)寫的文本文件。
由于說話人識別特征參數(shù)必須在語音材料中具有高出現(xiàn)率,因此首先需要確定要考察的語篇信息單位的值[13]。在確定語篇信息單位的值后,抽取個人話語風(fēng)格特征參數(shù),通過統(tǒng)計分析驗證假設(shè)1和假設(shè)2。
表1 實驗數(shù)據(jù)基本信息
注:S1.1代表第1位說話人的第1段會話;S1.2代表第1位說話人的第2段會話;其他類似。
所有5位說話人共16段會話中的15個信息點的值的分布統(tǒng)計情況如表2所示。R1表示含有每一類信息點的會話數(shù)量與會話總數(shù)量的比率。例如,含有WT信息點的會話數(shù)量與會話總數(shù)量的比例為100%,表明16段會話中都含有WT信息點;含有WB信息點的會話只占會話總數(shù)量的19%,表明16段會話中只有3段會話中含有WB信息點。R2表示全部16段會話中每一類信息點的數(shù)量與15類信息點數(shù)量總和的比率。例如,16段會話中WT信息點占所有信息點數(shù)量總和的41%;WB信息點占所有信息點數(shù)量總和的1.5%;WC和WG信息點在16段會話中沒有出現(xiàn)。
表2 會話錄音中信息點的值的分布情況 %
表2顯示,會話無論長短都含有WT信息點,而且所有信息點中WT的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高于其他14個信息點。因此,把WT確定為要考察的主要信息點。
通過考察WT信息點相關(guān)參數(shù),初步確定2個參數(shù)F1和F2。F1為位于WT信息點的信息單位的時長,單位為毫秒;F2為位于WT信息點的信息單位中的信息成分字?jǐn)?shù)與該信息單位總字?jǐn)?shù)的比率(語篇標(biāo)志語、連詞等不計為信息成分字?jǐn)?shù))。
利用統(tǒng)計軟件SPSS 19,以假設(shè)1和假設(shè)2中的F1、F2為因變量,分別作組間單因素方差分析和多因素方差分析,驗證假設(shè)1中參數(shù)F1和F2的值在S1和S2不同時間和不同空間的會話中是否保持一致,并能區(qū)分開假設(shè)2中的5位說話人。
3.3 結(jié)果與討論
根據(jù)說話人司法鑒別研究慣例,為了保證實驗數(shù)據(jù)正態(tài)分布,把抽取的參數(shù)值轉(zhuǎn)換為以10為底的對數(shù)[14],初步篩選后數(shù)據(jù)滿足正態(tài)分布要求。然后,進(jìn)行因素方差分析運算。假設(shè)1中4個單因素方差分析的結(jié)果如表3所示。統(tǒng)計結(jié)果顯示,相伴概率p高于0.05,說明參數(shù)F1和F2的組間差異小于組內(nèi)差異。也就是說,所抽取的特征參數(shù)F1、F2在說話人S1、S2的5段不同時間、不同空間條件下的日常會話中都具有一致性,假設(shè)1成立。
表3 假設(shè)1單因素方差分析結(jié)果
注:顯著水平為0.05。
假設(shè)2中,多因素方差分析的多變量檢驗結(jié)果(Box’s M test:p=0.000;Pillai’s trace=0.726,p=0.000)證明,以F1和F2為識別參數(shù),可以區(qū)分開5位說話人;主體間效應(yīng)的檢驗結(jié)果(p<0.01)如表4所示,表明參數(shù)F1、F2的組間差異大于組內(nèi)差異,也就是說,兩個特征參數(shù)的話者之間的差異大于說話人自身的語音變異。
表4 假設(shè)2主體間效應(yīng)的檢驗結(jié)果
注:顯著水平為0.05。
事后兩兩比較結(jié)果顯示,參數(shù)F1和F2不能區(qū)分S2與S5、S3與S4、S3與S5、S4與S5。在此基礎(chǔ)上,進(jìn)一步分析沒有區(qū)分開來的4組S2、S3、S4、S5的會話的語篇信息微觀結(jié)構(gòu)特征。分析結(jié)果顯示,這4個說話人的話語都有其獨特的個人話語風(fēng)格特征。如下示例為轉(zhuǎn)寫文本,每行為一個信息單位。首先,說話人S5的兩段日常會話中人稱代詞充當(dāng)?shù)摹罢f明”信息成分——轉(zhuǎn)寫文本中用下劃線標(biāo)出——都是形容詞性物主代詞,S1、S2、S3中含有的該信息成分都是名詞性物主代詞,S4中則兩種情況都有。
S5.1:我們的那個可選課程里面好像沒有啊
S5.2: 那你有他的手機嗎
S1:你來的時候你去我那個房間
S3:就是你們家那個舊的電動車
S4:你那個拜拜耳行啊
信息點開之后它底下有一個未關(guān)注的私信在那個里邊
還有就是哎你這兩天你關(guān)注一下你的那個私信里邊有一個就是未關(guān)注的未關(guān)注人的私信
該特征可以有效區(qū)分開說話人S2與S5、S3與S5的會話。
此外,如下示例顯示,就信息單位的結(jié)構(gòu)而言,與S5相比,說話人S2、S3、S4構(gòu)建的信息單位更加順暢,意義與結(jié)構(gòu)更加完整;同樣,與S4相比,S3的信息單位結(jié)構(gòu)更加齊整。信息單位的結(jié)構(gòu)主要表現(xiàn)為一個信息單位內(nèi)表達(dá)方式相同的信息成分重復(fù)出現(xiàn)的次數(shù)及信息單位命題意義對上下文的依賴程度。該示例中,首次出現(xiàn)的信息成分在轉(zhuǎn)寫文本中用下劃線方式標(biāo)出,與之重復(fù)的信息成分在轉(zhuǎn)寫文本中用斜體加下劃線標(biāo)出。
S2: 我是說你一會兒你不 不能給我打電話了嘛
我在 我在五棟
在 在哪個飯?zhí)?/p>
S3: 一點變數(shù)都沒有 一點變數(shù)都沒有
結(jié)果昨天晚上它前兩天老是充不滿 老是充不滿
今天上午最快只能騎20公里了 20公里的速度了
S4:因為我比較 我嫌麻煩
今天有兩 今天又有兩個然后這個就是給我私信
還有就是哎你這兩天你關(guān)注一下你的那個私信里邊有一個就是未關(guān)注的 未關(guān)注人的私信
S5:商英學(xué)院那兒沒 沒 什么都沒有
我當(dāng)我是前 前兩天 前兩天 我就是
跟上學(xué)期期末的時候 那時候是一樣的
那個是剛 因為他剛才用這個電話
該特征可以有效區(qū)分開說話人S2與S5、S3與S4、S3與S5、S4與S5的會話。
以上分析證明,綜合基于定量參數(shù)F1、F2的統(tǒng)計分析和基于語篇微觀信息結(jié)構(gòu)的定性分析,能夠比較有效地區(qū)分開隨機抽取的5位說話人,即假設(shè)2成立。
以上分析結(jié)果及討論表明,語篇信息分析法可以用來分析個人話語風(fēng)格,提取體現(xiàn)說話人個人話語風(fēng)格的特征參數(shù)。所抽取的特征參數(shù)及其他反映語篇信息微觀結(jié)構(gòu)的特征可以在很大程度上反映說話人的個人話語風(fēng)格,具有潛在的說話人鑒別能力。
更值得一提的是,該文中的實驗錄音材料是現(xiàn)實世界中的自然會話。也就是說,選取實驗錄音材料時并沒有考慮性別、年齡、實驗語音的錄制環(huán)境、內(nèi)容及傳輸信道等在嗓音分析中必須予以考慮的、并且需要人為控制的會導(dǎo)致語音變異的眾多因素。這說明個人話語風(fēng)格分析基本不受語音變異現(xiàn)象影響,可以和語音分析協(xié)同進(jìn)行,互為補充,分析結(jié)果相互印證。也就是說,交叉印證法不但具有理論可行性,借助語篇信息分析法還易于付諸于實踐。
當(dāng)然,本文所抽取的參數(shù)對說話人個人話語風(fēng)格的反映程度、作為說話人識別參數(shù)的效度還有待用大樣本實驗數(shù)據(jù)及說話人識別參數(shù)效度與信度驗證方法進(jìn)行進(jìn)一步驗證。
[1] 關(guān)鑫. 說話人司法識別交叉印證法研究[J]. 廣東外語外貿(mào)大學(xué)學(xué)報,2014(5):52-57.
[2] 楊旭. 個人言語風(fēng)格的司法鑒定[J].上海市政法管理干部學(xué)院學(xué)報,2000,15(6):58-61.
[3] 王少仿. 個人言語風(fēng)格識別應(yīng)用于案件偵查[J].中國司法鑒定,2010,49(2):53-56.
[4] 王少仿. 個人言語風(fēng)格識別研究[J].湖北警官學(xué)院學(xué)報,2010,114(3):104-107.
[5] Sapir E. Speech as a Personality Trait[J]. The American Journal of Sociology, 1927, 32 (6): 892-905.
[6] 賈碩果. 言語風(fēng)格與言語識別[J]. 中國人民公安大學(xué)學(xué)報(自然科學(xué)版),2011,70(4):17-20.
[7] 柯移順. 當(dāng)代大學(xué)生言語風(fēng)格初探[C]//個人言語特征及其司法應(yīng)用研究. 北京:知識產(chǎn)權(quán)出版社,2013:151-170.
[8] 杜金榜. 法律語篇樹狀信息結(jié)構(gòu)研究[J]. 現(xiàn)代外語,2007,30(1):40-50.
[9] 杜金榜. 語篇信息分析:法律語言學(xué)研究新視角[N]. 中國社會科學(xué)報,2011-05- 24(15).
[10] 杜金榜.語篇信息分析:多模態(tài)語篇分析難題的解決方法[J].中原工學(xué)院學(xué)報,2015,26(2):17-23.
[11] Nolan F. The Phonetic Bases of Speaker Recognition[M].Cambridge: Cambridge University Press, 1983:11.
[12] Rose P. Forensic Speaker Identification[M]. London & New York: Taylor & Francis, 2002:48.
[13] 杜金榜. 語篇分析教程[M]. 武漢:武漢大學(xué)出版社, 2013: 176-184.
[14] Aitken C G G, Lucy D. Evaluation of Trace Evidence in the Form of Multivariate Data[J]. Applied Statistics, 2004,53(1): 109-122.
(責(zé)任編輯:張同學(xué))Study on the Potential Speaker-discriminating Power of Individual Speaking Style——In the Perspective of Discourse Information Analysis
GUAN Xin
(Zhaoqing University, Zhaoqing 526061, China)
The current parameters used in the practice of forensic speaker recognition are phonetic auditory and acoustic features that are dramatically influenced by the forensically real conditions. The common and inevitable within-speaker variability in voice casts dramatic influence on the current forensic speaker recognition research and practice, which reduces the validity of voice evidence to a great extent and becomes the primary cause to restrict the development of forensic speaker recognition technology. The newly proposed Cross-Validation method argues that in theory the effect of within-speaker variability could be reduced through the mutual compensation and cross validation between voice and individual speaking style analyses. In this paper, discourse information analysis approach is adopted to extract speaker-discriminating features representing a speaker’s individual speaking style and then the potential speaker-discriminating power of the extracted features is tested, which at the same time presents the evidence of the practice feasibility of Cross-Validation method.
individual speaking style; discourse information; speaker recognition
2016—05—04
關(guān)鑫(1974—),女,遼寧遼陽人,講師,博士,主要研究方向為法律語言學(xué)。
1671-6906(2016)05-0014-05
D90-055
A
10.3969/j.issn.1671-6906.2016.05.003