宋婧婧
(廈門(mén)理工學(xué)院外語(yǔ)系,福建廈門(mén)361024)
近30年來(lái)基于漢語(yǔ)語(yǔ)料庫(kù)的詞匯研究日趨增多,但仍有可拓展之處:其一是漢語(yǔ)學(xué)界在將語(yǔ)料庫(kù)、詞匯與語(yǔ)體進(jìn)行比較研究方面存在不足,而英語(yǔ)界這一研究卻已成趨勢(shì);其二是對(duì)語(yǔ)體間的差異性、比較性研究不足,構(gòu)成語(yǔ)體的變量較多,找到具有可比性的語(yǔ)料不易。此外基于漢語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的詞匯研究相對(duì)較少。
國(guó)外相關(guān)研究中,Ure[1]、Poulisse 和 Bongaert[2]等的研究表明,書(shū)面語(yǔ)篇與口語(yǔ)語(yǔ)篇在詞匯變化性與詞匯密度上存在較大的差異。此外,Biber[3]、胡顯耀[4]、桂詩(shī)春[5]也曾利用更多因子來(lái)進(jìn)行語(yǔ)體研究。籍此建立語(yǔ)體區(qū)分指標(biāo),在封閉領(lǐng)域的不同語(yǔ)料中通過(guò)計(jì)量手段探討指標(biāo)與語(yǔ)體的關(guān)系,是一種較新的嘗試。
本研究選取有聲媒體電視訪(fǎng)談節(jié)目、平面媒體語(yǔ)料作為比照對(duì)象,并輔之以新聞播報(bào)語(yǔ)料作為參照系,其原因在于:(1)電視訪(fǎng)談節(jié)目代表著傳媒語(yǔ)場(chǎng)中最為口語(yǔ)化的一極;(2)平面媒體中的報(bào)紙為傳媒語(yǔ)料中書(shū)面語(yǔ)一極,尤其是以嚴(yán)謹(jǐn)正式著稱(chēng)的《人民日?qǐng)?bào)》語(yǔ)料;(3)參照系為新聞播報(bào)語(yǔ)料,其與訪(fǎng)談節(jié)目同樣以聲音為傳播媒介,但播報(bào)前的文字準(zhǔn)備又賦予其嚴(yán)謹(jǐn)、正式的特征,正式程度甚至高于一般的書(shū)面表達(dá),同時(shí)新聞聯(lián)播沒(méi)有交互性。此外,從產(chǎn)生途徑看,平面媒體作為有聲媒體的報(bào)道“母體”,是原型語(yǔ)用體式,這種關(guān)系使本研究更具有比照意義。
本研究選取了電視訪(fǎng)談節(jié)目語(yǔ)料(《魯豫有約》、《實(shí)話(huà)實(shí)說(shuō)》、《7日7頻道》以及《面對(duì)面》四個(gè)欄目的轉(zhuǎn)寫(xiě)語(yǔ)料)、平面媒體語(yǔ)料(選自《人民日?qǐng)?bào)》等報(bào)紙)、新聞播報(bào)語(yǔ)料(選自中央電視臺(tái)《新聞聯(lián)播》節(jié)目)。三類(lèi)語(yǔ)料均為200萬(wàn)字左右,總量約為615萬(wàn)字,平面媒體語(yǔ)料已是熟語(yǔ)料,電視訪(fǎng)談與新聞播報(bào)語(yǔ)料均經(jīng)過(guò)機(jī)器分詞。其中電視訪(fǎng)談?wù)Z料來(lái)自于“國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體語(yǔ)言分中心”?!度嗣袢?qǐng)?bào)》語(yǔ)料來(lái)自人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)。
圖1 語(yǔ)料庫(kù)形式圖
人工干預(yù)重點(diǎn)排除機(jī)器分詞與詞性標(biāo)注錯(cuò)誤,主要具有但不限于如下四類(lèi):(1)音頻轉(zhuǎn)寫(xiě)文本產(chǎn)生的錯(cuò)誤(如錯(cuò)別字);(2)語(yǔ)素組合多樣性引發(fā)的機(jī)器分詞錯(cuò)誤;(3)自動(dòng)分詞未識(shí)別專(zhuān)名(人名為主);(4)不合本語(yǔ)料處理的規(guī)則:如“愿不愿意”的原形應(yīng)是“愿意不愿意”,處理方法為在“愿”后補(bǔ)上語(yǔ)素“意”,計(jì)為“愿意”一詞。人工干預(yù)可能無(wú)法排除所有的錯(cuò)誤,但細(xì)微的差異不影響總體統(tǒng)計(jì)結(jié)果。
語(yǔ)料分析工具為access數(shù)據(jù)庫(kù)軟件,在其查詢(xún)功能無(wú)法完成的復(fù)雜計(jì)算時(shí),以u(píng)ltra edit的正則表達(dá)式作為補(bǔ)充。除去標(biāo)點(diǎn)后的語(yǔ)料庫(kù)形式如圖1所示。
本研究指標(biāo)的擬定綜合了詞匯學(xué)、語(yǔ)體學(xué)以及語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究成果,以及我們的先期研究。有些指標(biāo)主要立足于英語(yǔ)或翻譯語(yǔ)料,未必適用于漢語(yǔ)原創(chuàng)語(yǔ)料;有些指標(biāo)之間具有重復(fù)性,有些被證明與語(yǔ)體無(wú)顯著聯(lián)系,因此最終設(shè)計(jì)基本特征指標(biāo)2個(gè),語(yǔ)體區(qū)分指標(biāo)5個(gè),包括:
1.基本特征指標(biāo):即總詞量(形符)與詞種(類(lèi)符),這是定量分析的基礎(chǔ)。
2.語(yǔ)體區(qū)分指標(biāo):此類(lèi)指標(biāo)與語(yǔ)體之間具有可能聯(lián)系。一般而言,口語(yǔ)使用詞匯通俗、非正式、隨意、變化少,書(shū)面語(yǔ)詞匯使用典雅、正式、嚴(yán)謹(jǐn)、豐富(由于語(yǔ)義精確)。合偶雙音詞覆蓋率指標(biāo)為研究中的新嘗試,如表1所示:
表1 語(yǔ)體區(qū)分指標(biāo)對(duì)應(yīng)的語(yǔ)體特征表
經(jīng)統(tǒng)計(jì)各類(lèi)語(yǔ)料的總詞量均在110-130萬(wàn)之間,而詞種(即語(yǔ)料中出現(xiàn)的不同詞語(yǔ))則差異較大,尤其是電視訪(fǎng)談與平面媒體的詞種相差將近一倍。由表2可見(jiàn),語(yǔ)料的類(lèi)符數(shù)為平面媒體>新聞播報(bào)>電視訪(fǎng)談,而形符數(shù)則是電視訪(fǎng)談>平面媒體>新聞播報(bào)。類(lèi)符數(shù)量并不隨著形符增加而增加,兩者并不呈現(xiàn)正相關(guān)關(guān)系。
表2 三類(lèi)語(yǔ)料的基本指標(biāo)分析表
1.詞語(yǔ)變化性(type/token ration)
詞匯變化性(TTR)指語(yǔ)料的類(lèi)符形符比,其公式為:
詞匯變化性(TTR)=類(lèi)符(type)/形符(token ratio)×100%
在形符容量相當(dāng)?shù)那闆r下,使用越多的類(lèi)符說(shuō)明用詞豐富度越高。但由于形符數(shù)總是隨著語(yǔ)料總量的增加而擴(kuò)大,而任何語(yǔ)言的詞種數(shù)量卻有限,語(yǔ)料達(dá)到一定容量時(shí),類(lèi)符的增長(zhǎng)將逐漸減緩。由此STTR即標(biāo)準(zhǔn)TTR應(yīng)運(yùn)而生,它被用來(lái)先統(tǒng)計(jì)每千個(gè)詞語(yǔ)的TTR再計(jì)算均值。此外,一些語(yǔ)言(如英語(yǔ))具有屈折形式,如 talk,talks,talked,talking實(shí)為同一詞位talk,還應(yīng)進(jìn)行削尾處理。但本研究所用語(yǔ)料中外語(yǔ)詞數(shù)量極少,且多為縮略語(yǔ)(如PVC,SARS等),無(wú)須做此處理。經(jīng)統(tǒng)計(jì),語(yǔ)料TTR與STTR結(jié)果如表3所示:
表3 詞匯變化性表
表3中TTR與STTR的趨勢(shì)完全一致,均為平面媒體最高、電視訪(fǎng)談最低,新聞播報(bào)與平面媒體語(yǔ)料相當(dāng)接近。換言之,偏口語(yǔ)的語(yǔ)料詞語(yǔ)的重現(xiàn)率較高,用詞豐富度較低,而偏書(shū)面語(yǔ)的語(yǔ)料則相反,新聞播報(bào)介于兩者之間??傮w看來(lái),詞匯變化性提示了用詞的豐富度,可作為區(qū)分口語(yǔ)與書(shū)面語(yǔ)料的指標(biāo)之一。
2.詞匯密度(lexical density)
詞匯密度指語(yǔ)篇中詞項(xiàng)與篇章單詞總數(shù)的比值。具體公式如下:
詞匯密度=詞項(xiàng)/篇章單詞總數(shù)×100%
詞項(xiàng)指實(shí)詞項(xiàng),詞匯密度體現(xiàn)出篇章傳遞信息量的大小。Poulisse和Bongaert認(rèn)為實(shí)義詞比虛詞傳遞的信息要多,因此篇章中的實(shí)詞越多,詞匯密度越大,傳遞的信息也越多。
對(duì)漢語(yǔ)實(shí)詞項(xiàng)認(rèn)定的焦點(diǎn)在于副詞、代詞與語(yǔ)匯成分。王力[6]認(rèn)為,“詞可分為兩大類(lèi):凡本身能表示一種概念者,叫做實(shí)詞;凡本身不能表示一種概念,但為語(yǔ)言結(jié)構(gòu)的工具者,叫做虛詞?!睆恼Z(yǔ)法功能上看,實(shí)詞大多可單獨(dú)成句,可擔(dān)任主語(yǔ)、賓語(yǔ)或謂語(yǔ),而虛詞則不然。故而我們將副詞列為虛詞,代詞和語(yǔ)匯列為實(shí)詞項(xiàng)統(tǒng)計(jì)。最終實(shí)詞包括名詞、動(dòng)詞、形容詞、數(shù)量詞、區(qū)別詞、代詞以及語(yǔ)匯成分。各類(lèi)語(yǔ)料中的詞匯密度如表4所示:
表4 詞匯密度表
詞匯密度結(jié)果顯示,在語(yǔ)料等量的情況下新聞播報(bào)傳輸?shù)男畔⑷萘孔畲螅矫婷襟w次之,電視訪(fǎng)談最少。本研究的結(jié)果顯示:(1)口語(yǔ)語(yǔ)料(電視訪(fǎng)談節(jié)目)的詞匯密度小于書(shū)面語(yǔ)料(平面媒體),這與Ure等人的研究結(jié)果基本相符。(2)新聞播報(bào)語(yǔ)料的詞匯密度之高說(shuō)明了口語(yǔ)傳播渠道與口語(yǔ)體不能完全對(duì)等,真正的口語(yǔ)體還與準(zhǔn)備性、交際場(chǎng)合的正式程度、交際目的有較大聯(lián)系。
胡顯耀[7]統(tǒng)計(jì)的漢語(yǔ)翻譯語(yǔ)料詞匯密度一般在50%-70%之間,低于本研究統(tǒng)計(jì)的結(jié)果。這可能與兩個(gè)原因有關(guān):(1)傳媒語(yǔ)言講究簡(jiǎn)明扼要,力求在限定的時(shí)間與空間(版面)中提供盡可能多的信息,可能使其具有相對(duì)較高的詞匯密度。(2)胡顯耀未將代詞歸入實(shí)詞,對(duì)漢語(yǔ)實(shí)詞判定標(biāo)準(zhǔn)的差異也在一定程度上影響了詞匯密度的高低。
3.合偶雙音詞
音節(jié)分析是一種具有漢語(yǔ)特色的指標(biāo),類(lèi)似于英語(yǔ)中的詞長(zhǎng),卻又不完全等同,因?yàn)殡p音化是漢語(yǔ)詞匯發(fā)展的結(jié)果,音節(jié)發(fā)展又與語(yǔ)體的豐富存在著錯(cuò)綜復(fù)雜的關(guān)系。如馮勝利[8]將合偶雙音詞看作現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)的衍生物。合偶雙音詞即一般強(qiáng)制地與另一個(gè)雙音詞配對(duì)的雙音詞,例如“承認(rèn)”可搭配雙音詞為“承認(rèn)錯(cuò)誤”,卻不能與單音詞“錯(cuò)”搭配為“承認(rèn)錯(cuò)”,根據(jù)其建立的440個(gè)合偶雙音詞表可進(jìn)行語(yǔ)篇正式度的分析。我們?cè)O(shè)計(jì)的合偶雙音詞覆蓋率公式如下:
合偶雙音詞覆蓋率=合偶雙音詞總頻次/形符總數(shù)×100%
各類(lèi)語(yǔ)料的統(tǒng)計(jì)結(jié)果具有較為顯著的差異。如表5所示,平面媒體的合偶雙音詞數(shù)量最多,約為電視訪(fǎng)談?wù)Z料的2倍,而新聞播報(bào)與之較為接近,可見(jiàn)合偶雙音詞是現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)的特征之一,體現(xiàn)了語(yǔ)料的正式程度。
表5 合偶雙音詞覆蓋率表
4.高頻詞與低頻詞覆蓋率
各語(yǔ)料庫(kù)的前10位高頻詞重復(fù)率高,且均為書(shū)口通用語(yǔ)詞,如“的”、“了”、“是”、“一”4個(gè)單音詞在各類(lèi)語(yǔ)料中均為高頻詞。我們把覆蓋率公式設(shè)計(jì)為:高頻詞覆蓋率=Sum每個(gè)高頻詞頻次/形符總數(shù)×100%??傮w而言,高頻詞覆蓋率越高說(shuō)明語(yǔ)料更通俗易懂,而覆蓋率低則可能相反,這一指標(biāo)揭示了語(yǔ)料的通俗度。其中電視訪(fǎng)談?wù)Z料該值最高,10個(gè)高頻詞在語(yǔ)料中就有20%以上的覆蓋率。
低頻詞指的是在語(yǔ)料中僅出現(xiàn)一次的詞語(yǔ),一次性詞的增加將促進(jìn)類(lèi)符的增加,并最終提升語(yǔ)料的復(fù)雜度,即理解語(yǔ)篇需要更多詞匯量。其覆蓋率計(jì)算公式為:Sum每個(gè)高頻詞頻次/形符總數(shù)×100%。如表6所示,該指標(biāo)同樣為平面媒體最高,電視訪(fǎng)談?wù)Z料最低。
表6 高低頻詞覆蓋率表
5.綜述
五類(lèi)指標(biāo)的排序如圖2所示,除指標(biāo)4高頻詞覆蓋率之外,其余指標(biāo)(1.詞匯變化性;2.詞匯密度;3.合偶雙音詞覆蓋率;5.低頻詞覆蓋率)均與書(shū)面語(yǔ)化程度正相關(guān),與口語(yǔ)化程度負(fù)相關(guān),均為平面媒體或新聞播報(bào)語(yǔ)料最高,電視訪(fǎng)談?lì)愓Z(yǔ)料最低。此外,除了詞匯密度外,1、3、5指標(biāo)均為平面媒體值最高,新聞播報(bào)次之,且兩者的數(shù)值均較為接近,可見(jiàn)在同一語(yǔ)域中,書(shū)面語(yǔ)比口語(yǔ)具有較強(qiáng)的豐富度、正式度與復(fù)雜性。此外,新聞播報(bào)語(yǔ)料傳遞了更大的信息容量,因此詞匯密度略高于平面媒體語(yǔ)料。
圖2 語(yǔ)體指標(biāo)綜合排序圖
通過(guò)對(duì)語(yǔ)體相關(guān)指標(biāo)進(jìn)行定量研究,我們可以減少研究者的感性偏誤,利用特征的疊加效應(yīng)獲得由定量到定性的結(jié)論。主要結(jié)論可概括如下:
1.語(yǔ)體區(qū)分不僅可依據(jù)傳統(tǒng)的主觀(guān)語(yǔ)感,也反映在客觀(guān)的定量統(tǒng)計(jì)上:詞匯變化性、詞匯密度、合偶雙音詞與低頻詞覆蓋率均與語(yǔ)篇的書(shū)面語(yǔ)程度呈正相關(guān)關(guān)系,而高頻詞覆蓋率則反之,可考慮將此類(lèi)指標(biāo)看作語(yǔ)體區(qū)分的部分特征。
2.所選語(yǔ)料同屬傳媒語(yǔ)場(chǎng),使之具有可比性,但又因語(yǔ)旨、語(yǔ)式的差異存在著顯著差異:總體而言,偏書(shū)面語(yǔ)的平面媒體比偏口語(yǔ)的電視訪(fǎng)談體現(xiàn)了更為顯著的豐富度、信息量、正式度與復(fù)雜度,而電視訪(fǎng)談則更具通俗性。
3.作為參考的新聞播報(bào)語(yǔ)料雖為口頭傳播,卻在各項(xiàng)指標(biāo)上體現(xiàn)了與平面媒體類(lèi)似的特征,這與其準(zhǔn)備程度高、場(chǎng)合正式以及缺乏交互性等原因息息相關(guān),符合我們的預(yù)設(shè)。這一結(jié)果也證實(shí)了書(shū)面語(yǔ)與口語(yǔ)的區(qū)分不應(yīng)單純依賴(lài)于傳播媒介,而是與準(zhǔn)備性、交際場(chǎng)合、交互性等具有較強(qiáng)的聯(lián)系。
4.需要進(jìn)一步關(guān)注具有漢語(yǔ)特色的指標(biāo)。如音節(jié)在英語(yǔ)相關(guān)研究中主要體現(xiàn)為詞長(zhǎng),然而,在漢語(yǔ)語(yǔ)料中這一指標(biāo)更具價(jià)值。音節(jié)發(fā)展與語(yǔ)體的豐富存在著錯(cuò)綜復(fù)雜的關(guān)系,例如本研究中合偶雙音詞的使用比例就提示了語(yǔ)料的正式度,與語(yǔ)料書(shū)面語(yǔ)程度關(guān)系密切。
本研究還有可拓展之處,如:第一,可進(jìn)一步增加指標(biāo),例如詞類(lèi)中的嘆詞、語(yǔ)氣詞、話(huà)語(yǔ)標(biāo)記與語(yǔ)體具有一定聯(lián)系;第二,可借助統(tǒng)計(jì)學(xué)方法,利用SPSS因子分析判斷指標(biāo)與語(yǔ)體的相關(guān)性??傮w而言,計(jì)量統(tǒng)計(jì)、多維度的語(yǔ)體分析方法應(yīng)當(dāng)更多地運(yùn)用到研究中,結(jié)合語(yǔ)料中反復(fù)出現(xiàn)的現(xiàn)象來(lái)確定特征,并將特征與某一語(yǔ)體進(jìn)行相關(guān)分析,以達(dá)到客觀(guān)描述語(yǔ)言現(xiàn)象的目的。
[1]Ure,J.Lexical density and register differentiation[A].Applications of linguistics:Selected papers of the second international congress of applied linguistics[C].Cambridge:CUP,1971.
[2]Poulisse N,Bongaert T.First language use in second language production[J].Applied Linguistics,1994,(15).
[3]Biber D.Variation across speech and writing[M].Cambridge:CUP,1988.
[4][7]胡顯耀.基于語(yǔ)料庫(kù)的漢語(yǔ)翻譯語(yǔ)體特征多維分析[J].外語(yǔ)教學(xué)與研究,2010,(6).
[5]桂詩(shī)春.基于語(yǔ)料庫(kù)的英語(yǔ)語(yǔ)言學(xué)語(yǔ)體分析[M].北京:外語(yǔ)教學(xué)與研究出版社,2009.
[6]王力.王力文集(卷1)[M].濟(jì)南:山東教育出版社,1984.
[8]馮勝利.漢語(yǔ)書(shū)面語(yǔ)初編[M].北京:北京語(yǔ)言大學(xué)出版社,2006.
長(zhǎng)沙大學(xué)學(xué)報(bào)2015年6期