王虹
(中國(guó)刑警學(xué)院 遼寧 沈陽(yáng) 100035)
書面言語(yǔ)特征及其量化選取與分析
王虹
(中國(guó)刑警學(xué)院遼寧沈陽(yáng)100035)
準(zhǔn)確地選取言語(yǔ)特征是書面言語(yǔ)鑒定的基礎(chǔ)和關(guān)鍵。目前,語(yǔ)音特征、文字特征、詞語(yǔ)特征、句法特征、語(yǔ)篇特征、修辭特征、標(biāo)點(diǎn)符號(hào)特征、信封特征、文字布局特征、輸入法特征是常用的十大類書面言語(yǔ)特征。我們研發(fā)的《案件書面言語(yǔ)量化輔助分析系統(tǒng)》實(shí)現(xiàn)了對(duì)方音別字、別字、繁體字、實(shí)詞的使用習(xí)慣、虛詞的使用習(xí)慣、詞匯套、成語(yǔ)、行話、術(shù)語(yǔ)、處置句、被動(dòng)結(jié)構(gòu)、直接引語(yǔ)、信封三款用語(yǔ)和標(biāo)點(diǎn)符號(hào)的選用等特征的半自動(dòng)量化選取與分析,對(duì)字頻、詞頻、詞性頻率、構(gòu)成詞的音節(jié)多寡、句長(zhǎng)、語(yǔ)序、主語(yǔ)的類型、標(biāo)點(diǎn)符號(hào)的使用頻率等特征的自動(dòng)量化選取與分析,為檢驗(yàn)人員帶來(lái)了便捷,為其出具鑒定意見提供了重要的依據(jù)。
書面言語(yǔ)特征量化選取分析
從20世紀(jì)90年代中國(guó)刑警學(xué)院開始研究并使用書面言語(yǔ)鑒定技術(shù)以來(lái),書面言語(yǔ)鑒定技術(shù)有了很大的發(fā)展,但卻一直存在定性的分析判斷多,定量的分析少,對(duì)鑒定人員經(jīng)驗(yàn)和主觀判斷依賴大等問(wèn)題。這在一定程度上影響到鑒定結(jié)論的準(zhǔn)確程度和科學(xué)性,也不利于書面言語(yǔ)鑒定技術(shù)的發(fā)展。
書面言語(yǔ)鑒定的基礎(chǔ)和關(guān)鍵之處就在于能否正確地認(rèn)識(shí)和準(zhǔn)確地選取言語(yǔ)特征。隨著語(yǔ)言學(xué)研究和計(jì)算機(jī)技術(shù)的發(fā)展,如何利用計(jì)算機(jī)的語(yǔ)言處理技術(shù),結(jié)合漢語(yǔ)的實(shí)際,實(shí)現(xiàn)書面言語(yǔ)特征的量化選取和分析,從而實(shí)現(xiàn)書面言語(yǔ)鑒定的定量檢驗(yàn)和自動(dòng)化、現(xiàn)代化,成為書面言語(yǔ)鑒定技術(shù)的發(fā)展方向。為此,我們?cè)谙到y(tǒng)梳理目前常用書面言語(yǔ)特征的基礎(chǔ)上,研發(fā)了《案件書面言語(yǔ)量化輔助分析系統(tǒng)》,實(shí)現(xiàn)了對(duì)多種書面言語(yǔ)特征的半自動(dòng)或自動(dòng)量化選取與分析。
1.1專家們對(duì)書面言語(yǔ)特征的闡述
季華權(quán)(1996)認(rèn)為言語(yǔ)特征體現(xiàn)于認(rèn)知水平、語(yǔ)文素養(yǎng)和言語(yǔ)風(fēng)格三個(gè)方面。鑒別認(rèn)識(shí)水平是看認(rèn)識(shí)特征,主要是看它表現(xiàn)的廣度、深度和檔次。廣度指所涉及的知識(shí)面;深度指對(duì)某方面知識(shí)的了解程度,是一般了解還是略知皮毛,還是精深嫻熟;檔次指所涉知識(shí)在整個(gè)知識(shí)體系中的層級(jí),是生活常識(shí),還是專業(yè)知識(shí),是一般經(jīng)驗(yàn),還是高深理論。語(yǔ)文素養(yǎng)主要包括文字水平、用詞水平、造句水平、表述水平。言語(yǔ)風(fēng)格包括基本風(fēng)格(時(shí)代風(fēng)格、地區(qū)風(fēng)格、角色風(fēng)格、表現(xiàn)風(fēng)格)和具體風(fēng)格(文字風(fēng)格、詞匯風(fēng)格、句子風(fēng)格、修辭風(fēng)格、篇章風(fēng)格、標(biāo)點(diǎn)風(fēng)格、附屬風(fēng)格)。
楊旭(2000)認(rèn)為個(gè)人之間不同的言語(yǔ)風(fēng)格、語(yǔ)言特征,主要表現(xiàn)在詞匯、句式、句法等語(yǔ)言材料和表達(dá)方式的各個(gè)要素,以及言語(yǔ)內(nèi)容與個(gè)人屬性和案件情況的關(guān)系等方面。
王志家(2001)認(rèn)為個(gè)人言語(yǔ)風(fēng)格是體現(xiàn)在言語(yǔ)作品中宏觀、抽象的某種氣氛或格調(diào)。對(duì)個(gè)人書面言語(yǔ)特征的司法鑒定主要是對(duì)“超語(yǔ)言剩余部分”的鑒定。王志家等(2002)認(rèn)為所謂書面言語(yǔ)特征是個(gè)人通過(guò)對(duì)語(yǔ)言因素、表達(dá)方式的選擇、調(diào)遣所呈現(xiàn)出來(lái)的特殊的、穩(wěn)定的言語(yǔ)態(tài)勢(shì)。言語(yǔ)特征的表現(xiàn)因素是構(gòu)成言語(yǔ)特征的物質(zhì)機(jī)制和形態(tài)標(biāo)志,它包括語(yǔ)言表現(xiàn)因素特征,如文字、詞匯、句式、語(yǔ)法、篇章、修辭等,以及非語(yǔ)言表現(xiàn)因素特征,如標(biāo)點(diǎn)符號(hào)等。
董陽(yáng)(2003)認(rèn)為言語(yǔ)特征主要是通過(guò)“超語(yǔ)言剩余部分”體現(xiàn)出來(lái)的,表現(xiàn)在文字、詞匯、句子、篇章等語(yǔ)言材料和表達(dá)方式的各種習(xí)慣上,以及言語(yǔ)內(nèi)容與個(gè)人屬性和案件情況關(guān)系等諸方面。在鑒定中還可以運(yùn)用語(yǔ)言學(xué)、修辭學(xué)、語(yǔ)體學(xué)、邏輯學(xué)、統(tǒng)計(jì)學(xué)等學(xué)科知識(shí)、原理和研究方法,從字、詞、句式、篇章等不同層次、各個(gè)方面來(lái)分析和研究。
袁瑛(2005)認(rèn)為“言語(yǔ)特征是每一個(gè)體在書面言語(yǔ)交際活動(dòng)中必然表現(xiàn)出的言語(yǔ)習(xí)慣,它因言語(yǔ)人的自然屬性和社會(huì)屬性的不同,呈現(xiàn)出差異性一般由集中要素構(gòu)成:言語(yǔ)風(fēng)格、言語(yǔ)交際中的字詞句篇章、修辭和標(biāo)點(diǎn)等運(yùn)用等?!贝送?,她還介紹了一些打印機(jī)具痕跡特征:打印方式特征、打印機(jī)使用的材料特征、打印機(jī)系統(tǒng)的軟件特征、打印機(jī)功能部件的缺損痕跡特征、噴墨打印機(jī)與激光打印機(jī)打印文件的種類識(shí)別特征等。
岳俊發(fā)(2007)認(rèn)為言語(yǔ)習(xí)慣的外在表現(xiàn)是運(yùn)用語(yǔ)言材料(要素)和語(yǔ)言手段形成的言語(yǔ)特點(diǎn),即言語(yǔ)材料中體現(xiàn)出的一系列具有規(guī)律性的言語(yǔ)特征。言語(yǔ)特征的表現(xiàn)是多方面的,各種語(yǔ)言要素或語(yǔ)言手段都可能成為言語(yǔ)特征,關(guān)鍵要看言語(yǔ)人所運(yùn)用的語(yǔ)言要素和語(yǔ)言手段是否具有反復(fù)出現(xiàn)的規(guī)律性。沒有什么固定不變的言語(yǔ)特征。言語(yǔ)特征只能說(shuō)容易從哪些方面表現(xiàn)出來(lái),而不能說(shuō)什么語(yǔ)言要素或語(yǔ)言手段是或不是言語(yǔ)特征。書中以成功鑒定的十余起實(shí)際案件為例,闡述了書面言語(yǔ)特征:文字特征、語(yǔ)音特征、詞語(yǔ)特征、語(yǔ)法特征、結(jié)構(gòu)特征、文字布局特征、標(biāo)點(diǎn)符合特征、修辭特征共八類。文字特征包括錯(cuò)別字、繁體字、異體字、舊形字、職業(yè)字、方言字、習(xí)俗字、生造字等;語(yǔ)音特征指方音別字;詞語(yǔ)特征包括連詞、介詞、副詞、語(yǔ)氣詞、口頭語(yǔ)、成語(yǔ)、文言詞語(yǔ)、簡(jiǎn)縮語(yǔ)、短語(yǔ)等;語(yǔ)法特征包括規(guī)范性的和不規(guī)范性的,尤其是句式;結(jié)構(gòu)特征包括總體結(jié)構(gòu),段落層次,開頭、結(jié)尾的方式等;文字布局特征包括各種行文格式、文字的間距和行距等;標(biāo)點(diǎn)符號(hào)特征包括各種標(biāo)點(diǎn)符號(hào)的使用特點(diǎn)和每個(gè)人使用標(biāo)點(diǎn)符號(hào)的頻率;修辭特征包括人們常用的各種修辭手段。
總之,目前已經(jīng)明確提出的書面言語(yǔ)特征大致可以歸納為形式和內(nèi)容兩大類。從形式上看,書面言語(yǔ)特征主要包括筆跡特征(書寫言語(yǔ)材料)、打印機(jī)具痕跡特征(打印言語(yǔ)材料)、文字特征、語(yǔ)音特征、布局特征和標(biāo)點(diǎn)符合特征;從內(nèi)容上看,書面言語(yǔ)特征主要包括詞語(yǔ)特征、語(yǔ)法特征、結(jié)構(gòu)特征、修辭特征和言語(yǔ)內(nèi)容特征等。
1.2目前常用書面言語(yǔ)特征的總結(jié)
1.2.1語(yǔ)音特征
方音別字;不規(guī)范的形聲簡(jiǎn)化字;不同聲調(diào)字系列相混。
1.2.2文字特征
字頻;別字;錯(cuò)字;二簡(jiǎn)字;繁體字;異體字舊字形;職業(yè)字;方言字;習(xí)俗字;生造字。
1.2.3詞語(yǔ)特征
指定詞,如方言詞、不同時(shí)代的詞、縮略語(yǔ)、文言詞語(yǔ)等有特點(diǎn)的詞;實(shí)詞的使用習(xí)慣、虛詞的使用習(xí)慣;詞性;詞的文體色彩(書面,口語(yǔ),俚語(yǔ));詞的音節(jié)多寡;構(gòu)詞方式;詞匯套(即習(xí)慣性搭配);成語(yǔ)、行話、術(shù)語(yǔ)。
1.2.4句法特征
句長(zhǎng);分句類型;語(yǔ)序;主語(yǔ)類型;處置句(包括處置詞和句子語(yǔ)序);被動(dòng)結(jié)構(gòu)(包括被動(dòng)詞和是否引進(jìn)施事);直接引語(yǔ)、間接引語(yǔ);排比句;病句。
1.2.5語(yǔ)篇特征
總體結(jié)構(gòu);段落之間的過(guò)渡、銜接、連貫;分析語(yǔ)篇的導(dǎo)言,正文和結(jié)束語(yǔ),邏輯聯(lián)系語(yǔ)和語(yǔ)篇其他紐帶的使用等;敘述的角度(第幾人稱敘述,意識(shí)流的敘述)。
1.2.6修辭特征
修辭方法(如比喻、借代、擬人、夸張、反語(yǔ)、引用、反復(fù)、排比、設(shè)問(wèn)、反問(wèn)、摹狀、頂針等)。
1.2.7標(biāo)點(diǎn)符號(hào)特征
標(biāo)點(diǎn)符號(hào)的選用;使用頻率(統(tǒng)計(jì)每類標(biāo)點(diǎn)符號(hào)的使用頻率,列表,供人工選擇是否列入比對(duì)表)。
1.2.8信封特征
信封三款用語(yǔ);信封三款格式(如收信人郵編和地址、收信人姓名、寄信人地址和郵編等的位置關(guān)系,包括書寫和直接在信封上打印兩種形式);郵票粘貼位置及方向;信封三款剪切方式、粘貼位置(此特征適用于信封三款為打印在紙上,然后剪切、粘貼到信封上的情況)。
1.2.9文字布局特征
手寫的言語(yǔ)材料。整體布局包括字行的方向和形態(tài)、行間間隔、字行與格線的關(guān)系、字行與頁(yè)邊的關(guān)系;字位包括字的大小、傾斜的方向和角度、字間的間隔、字間組合的大小比例和位置關(guān)系;分段格式包括是否分段、段首是否縮格、段首縮格字?jǐn)?shù)多少;程式語(yǔ)安排包括信函、報(bào)告、契據(jù)等文件中的稱呼、問(wèn)候、祝頌以及署名、日期等格式性詞語(yǔ)的安排形式及內(nèi)容之間的位置關(guān)系;頁(yè)碼包括是否編出頁(yè)碼、頁(yè)碼形式、頁(yè)碼位置;數(shù)字安排包括數(shù)字與格線的關(guān)系、無(wú)格線時(shí)數(shù)字與鄰近文字的大小比例和位置關(guān)系。
打印、電腦存儲(chǔ)介質(zhì)存儲(chǔ)或網(wǎng)絡(luò)傳輸?shù)难哉Z(yǔ)材料。頁(yè)面設(shè)置包括上下左右頁(yè)邊距、裝訂線位置、紙幅方向、頁(yè)碼范圍、紙張大小、紙張來(lái)源、節(jié)的起始位置、頁(yè)眉頁(yè)腳、頁(yè)面對(duì)齊方式、文字排列方向、分欄數(shù)、有無(wú)網(wǎng)格、每行字符數(shù)和跨度、每頁(yè)行數(shù)和跨度;段落設(shè)置包括段落對(duì)齊方式、大綱級(jí)別、段落縮進(jìn)、首行縮進(jìn)、懸掛縮進(jìn)、段前間距和段后間距、行距、是否設(shè)置了文檔網(wǎng)格、換行和分頁(yè)、中文版式;字體設(shè)置包括中文字體、英文字體、常規(guī)和加粗及傾斜等字形、字號(hào)、下劃線、著重號(hào)、上下標(biāo)、刪除線和雙刪除線及陰陽(yáng)文等效果、字符間距和位置、文字效果;分欄設(shè)置包括分欄數(shù)、分欄方式、分欄寬和間距;項(xiàng)目符號(hào)編號(hào)包括項(xiàng)目符號(hào)的有無(wú)及具體圖標(biāo)、編號(hào)的有無(wú)及具體形式、多級(jí)符號(hào)的有無(wú)及具體形式、列表的樣式。
1.2.10輸入法特征
各種拼音輸入法;五筆字型輸入法。
目前,書面言語(yǔ)特征的選取主要依靠人工判斷和手動(dòng)選取的方法,檢驗(yàn)人員的學(xué)識(shí)和經(jīng)驗(yàn)在鑒定中起著決定性的作用,特征的選擇存在較大的隨機(jī)性。對(duì)特征的認(rèn)識(shí)和分析也多為定性的判斷,缺少定量的特征選取及分析方法。
我們?cè)谙到y(tǒng)地梳理目前常用書面言語(yǔ)特征的基礎(chǔ)上,整理出了可以通過(guò)半自動(dòng)或自動(dòng)的方法進(jìn)行量化選取的特征,研發(fā)了《案件書面言語(yǔ)量化輔助分析系統(tǒng)》,實(shí)現(xiàn)了書面言語(yǔ)特征的半自動(dòng)和自動(dòng)量化選取與多文本的同步量化分析;并在此基礎(chǔ)上實(shí)現(xiàn)了書面言語(yǔ)特征比對(duì)表的自動(dòng)生成。
2.1可實(shí)現(xiàn)半自動(dòng)量化選取與分析的特征
半自動(dòng)量化選取與分析,是指由檢驗(yàn)人員在檢材中挑選出特征(只選首次出現(xiàn)的即可),利用《案件書面言語(yǔ)量化輔助分析系統(tǒng)》可以一次性完成對(duì)同一檢材、其他檢材和樣本的自動(dòng)檢測(cè),找出所有這些文本中出現(xiàn)的該特征,將含有該特征的句子自動(dòng)歸入言語(yǔ)特征比對(duì)表中的相應(yīng)位置,并對(duì)其出現(xiàn)頻次、所占百分比等進(jìn)行自動(dòng)量化分析,給出相應(yīng)的量化結(jié)果。
目前,我們能夠進(jìn)行半自動(dòng)量化選取與分析的特征主要包括:語(yǔ)音特征中的方音別字;文字特征中的別字、繁體字;詞語(yǔ)特征中的實(shí)詞的使用習(xí)慣、虛詞的使用習(xí)慣、詞匯套(即習(xí)慣性搭配)、成語(yǔ)和行話及術(shù)語(yǔ);句法特征中的處置句、被動(dòng)結(jié)構(gòu)、直接引語(yǔ);信封特征中的信封三款用語(yǔ);以及標(biāo)點(diǎn)符號(hào)特征中的標(biāo)點(diǎn)符號(hào)的選用。
2.2可實(shí)現(xiàn)自動(dòng)量化選取與分析的特征
自動(dòng)量化選取與分析,是指檢驗(yàn)人員點(diǎn)選要分析的所有檢材和樣本(可多選),然后點(diǎn)擊要進(jìn)行量化分析的特征按鈕,在《案件書面言語(yǔ)量化輔助分析系統(tǒng)》的幫助下,可以一次性完成對(duì)所選檢材和樣本中相應(yīng)言語(yǔ)特征的自動(dòng)檢測(cè),系統(tǒng)將以列表形式列出所有的量化結(jié)果,供檢驗(yàn)人員選擇需要放入比對(duì)表中的部分,然后自動(dòng)歸入言語(yǔ)特征比對(duì)表中的相應(yīng)位置。以字頻特征的自動(dòng)量化選取與分析為例,系統(tǒng)給出的結(jié)果是所有選定的檢材和樣本中出現(xiàn)的所有字、每個(gè)字的出現(xiàn)頻次(以降序排列)、該字出現(xiàn)次數(shù)占總字?jǐn)?shù)的百分比。
目前,我們能夠進(jìn)行半自動(dòng)量化選取與分析的特征主要包括:字頻特征;詞頻特征;詞性頻率特征;構(gòu)成詞的音節(jié)多寡特征;句長(zhǎng)特征;語(yǔ)序特征;主語(yǔ)的類型特征;標(biāo)點(diǎn)符號(hào)的使用頻率特征。
雖然,我們目前能夠進(jìn)行量化選取和分析的書面言語(yǔ)特征有限,但是,《案件書面言語(yǔ)量化輔助分析》系統(tǒng)將為檢驗(yàn)人員帶來(lái)便捷和效率;特征量化選取及分析結(jié)果,將為檢驗(yàn)人員得出鑒定意見提供重要的依據(jù)。
[1]季華權(quán).論言語(yǔ)特征的表現(xiàn)范疇[J].江蘇公安??茖W(xué)校學(xué)報(bào),1996,(5).
[2]楊旭.個(gè)人言語(yǔ)風(fēng)格的司法鑒定[J].上海市政法管理干部學(xué)院學(xué)報(bào),2000,(6).
[3]王志家.書面言語(yǔ)中“超言語(yǔ)剩余部分”的個(gè)人識(shí)別[J].江蘇公安??茖W(xué)校學(xué)報(bào),2001,(5).
[4]董楊.根據(jù)電子打印文件確定言語(yǔ)人[J].公安大學(xué)學(xué)報(bào),2003,(2).
[5]袁瑛.案件言語(yǔ)分析與鑒定[M].北京:中國(guó)人民公安大學(xué)出版社,2005.
[6]岳俊發(fā).言語(yǔ)識(shí)別與鑒定[M].北京:中國(guó)人民公安大學(xué)出版社,2007.
(責(zé)任編輯:于萍)
DF794.2
A
2095-7939(2015)01-0067-03
2014-10-16
公安部科技強(qiáng)警基礎(chǔ)專項(xiàng)項(xiàng)目(編號(hào):2011HABJC026);文件檢驗(yàn)鑒定公安部重點(diǎn)實(shí)驗(yàn)室(中國(guó)刑警學(xué)院)開放基金資助課題(編號(hào):11KFKT09)。
王虹(1977-),女,吉林九臺(tái)人,中國(guó)刑警學(xué)院文件檢驗(yàn)技術(shù)系副教授,碩士,主要從事言語(yǔ)識(shí)別、書面言語(yǔ)鑒定、聲紋鑒定研究。