宋旭雯
(常州大學圖書館,江蘇常州 213164)
春秋戰(zhàn)國是中國歷史上的一大段分裂時期。這一時期思想自由,文化繁榮,形成了“百家爭鳴”的學術(shù)盛況?!蹲髠鳌泛汀稇?zhàn)國策》分別記錄了春秋和戰(zhàn)國的歷史,是研究這兩個時期的重要典籍。這兩部典籍不僅具有史學價值,還具有較高的文學價值。
前人就《左傳》和《戰(zhàn)國策》進行的研究包括家庭敘事[1]、人物形象[2-3]、策士辭令[4]、稱謂演變[5]、文化價值觀[6]等方面,多是從特定角度出發(fā)以定性分析為主的對比研究,也有一些對語言本身作定性分析的研究。本文嘗試采用定性和定量相結(jié)合的計量風格學方法,在構(gòu)建跨語言典籍平行語料庫的基礎(chǔ)上,首先利用規(guī)范語料訓練出最佳分詞、詞性標注模型處理典籍語料;其次,從詞匯、語法、語句三個層面入手,選擇對應(yīng)的語言特征進行統(tǒng)計,利用相關(guān)公式計算語體風格度量指標,根據(jù)計算結(jié)果來確定文本屬性;最后,結(jié)合典籍原文,通過歸納、對比分析得到語體風格的規(guī)律及規(guī)律背后的成因,從而比較客觀地對比《左傳》和《戰(zhàn)國策》在古文、白話文、英文三種語言上的語體風格。
本文采用語料庫和計量風格學的方法對《左傳》《戰(zhàn)國策》的語體風格展開研究。
語料庫的方法是一種經(jīng)驗主義方法,以真實的語言來呈現(xiàn)語言知識,是研究自然語言的有效工具和手段。語料庫常應(yīng)用于語言教學、建立領(lǐng)域詞表和詞典、信息檢索和信息抽取、語言對比和翻譯研究中[7]。其中,跨語言的相關(guān)研究通常依賴互譯語句對齊的平行語料庫。張繼東、朱亞菲基于胡塞尼小說英漢平行語料庫,比較了大陸譯者李繼宏和臺灣譯者李靜宜的翻譯風格差異[8]。于紅基于平行語料庫,比較了《世說新語》原文和英譯本,并探究了英譯本的人名翻譯方法和策略[9]。
計量風格學的方法是借助計算機技術(shù)處理文本,獲得與語言特征相關(guān)的比較精確的統(tǒng)計數(shù)據(jù),從而客觀地反映文本風格。肖天久,劉穎從詞和N 元文法等角度考察金庸和古龍作品的語言風格差異[10]。金想琴采用AntConc 軟件分別從詞、句方面統(tǒng)計分析了《往事如煙》和《活著》,總結(jié)出余華前后期代表作在語言風格上的變化[11]。馬創(chuàng)新等通過比較某個詞型在特定文獻與其他多個文獻中的等級差異,計算出該詞型在特定文獻中的特征系數(shù),確定代表文獻語體風格的高頻特征詞,衡量先秦諸家學派間的語體風格相似度[12]。
本文結(jié)合上述兩種方法,對《左傳》《戰(zhàn)國策》在三種語言上的語體風格展開研究。
本文《左傳》和《戰(zhàn)國策》的古文、英文語料均來自 “中國哲學書電子化計劃”線上開放電子圖書館,白話文語料則來自古詩文網(wǎng)。獲取語料后,按照“?!薄?!”“?”與“;”劃分句子,同時保證句子對齊,構(gòu)建《左傳》《戰(zhàn)國策》跨語言平行語料庫(如表1 所示)。
表1 跨語言平行語料庫樣例
再分別訓練出最佳模型對平行語料進行分詞和詞性標注。首先,將已有的規(guī)范語料加入機器學習或深度學習的模型中進行十折交叉訓練,以調(diào)和平均值(f 值)為評價標準,得到最佳自動分詞和詞性標注模型。其次,利用最佳模型對《左傳》和《戰(zhàn)國策》的平行語料進行分詞和詞性標注。最后,人工修正機器標注的錯漏之處,并將語料調(diào)整為后續(xù)實驗所需格式。古文采用較為規(guī)范的24 份先秦典籍語料和《史記》語料作為訓練語料,訓練出f 值達到84.33%的分詞、詞性標注一體化模型;白話文采用清華漢語樹庫中的詞語及詞性作為訓練語料,訓練出f 值達到91.99% 的BiLSTM-CRF 分詞模型和f 值達到89.41%的BiLSTM 詞性標注模型;英文無需分詞,采用賓州英文樹庫中的詞語及詞性作為訓練語料,訓練出f 值達到95.22%的BiLSTM 詞性標注模型。
《左傳》《戰(zhàn)國策》語料處理結(jié)果如表2 所示。本文使用的古文、白話文、英文的詞性標簽,分別如表3、4、5 所示。
表2 分詞、詞性標注樣例
表3 古文詞性標簽
表4 白話文詞性標簽
表5 英文詞性標簽
單現(xiàn)詞是指文本中詞頻為1 的詞語,而低頻詞往往能展現(xiàn)作者在用詞上的匠心獨運和文本的特別之處。型例比是指不同的詞語占文本詞語總量的比值,可以反映文本的詞匯多樣性,型例比比值越高,詞匯面越廣。因此,本節(jié)從單現(xiàn)詞占比和型例比兩個指標比較《左傳》和《戰(zhàn)國策》的詞匯豐富度。
詞匯獨特性是指單現(xiàn)詞占文本詞型數(shù)的比例,計算公式如下:
但是,詞匯獨特性受文本長度的影響比較大,本文采用取對數(shù)的平滑方法減少文本長度帶來的誤差,使得最終結(jié)果貼近實際情況,具體如下:
《左傳》《戰(zhàn)國策》詞匯獨特性計算結(jié)果如表6 所示。從縱向來看,古文的詞匯獨特性最高,都在90.00%以上,白話文次之,英文最低,說明古文詞匯比白話文詞匯更豐富,中文詞匯比英文詞匯更豐富。出現(xiàn)上述現(xiàn)象的原因是,將古文翻譯成白話文和英文時,詞語間并非一一對應(yīng),而是 “一對多”或 “多對一”的模式。通過統(tǒng)計,《左傳》和《戰(zhàn)國策》的單現(xiàn)詞都以名詞為主,《左傳》的名詞單現(xiàn)詞占單現(xiàn)詞總數(shù)的55.9%,《戰(zhàn)國策》的名詞單現(xiàn)詞占單現(xiàn)詞總數(shù)的47.4%,其中,人名的多樣性尤其明顯。例如,《左傳》《鄭伯克段于鄢》中“共叔段”“大叔段”“鄭共叔”都是指鄭莊公的弟弟共叔段,譯成英文是“Gong Shu Duan”;《戰(zhàn)國策》《楚懷王拘張儀》中“張儀”“張子”“儀”都是指秦相張儀,譯成英文是“Zhang Yi”。
表6 《左傳》《戰(zhàn)國策》詞匯獨特性計算結(jié)果
從橫向來看,《戰(zhàn)國策》在三種語言上的詞匯獨特性都優(yōu)于《左傳》,說明《戰(zhàn)國策》的詞匯豐富度更高。除上述名詞單現(xiàn)詞的差別外,這兩部典籍在動詞單現(xiàn)詞上也有顯著差異?!蹲髠鳌穭釉~單現(xiàn)詞占比為9.80%,而在《戰(zhàn)國策》中,這一比值達到了34.60%。這表明《戰(zhàn)國策》在動詞的使用上極為考究?!段翰呷簩⑴c秦攻韓》,文末“韓必德魏、愛魏、重魏、畏魏,韓必不敢反魏?!币痪渲?,出現(xiàn)了5 個動詞“德”“愛”“重”“畏”“不敢反”,邏輯上層層遞進,不僅生動形象,還具有強烈的說服力。再如,同樣表達 “索要”“獲取”的含義,《戰(zhàn)國策》中就出現(xiàn)了以下9 個動詞:求、索、取、乞、征、責、收、予、謁。“乞”在表達索要的意思時有低聲下氣的謙卑態(tài)度,和 “乞”使用情況類似的還有“謁”?!罢鳌痹诒磉_獲得的意思時有恃強凌弱或強制的態(tài)度,和 “征”使用情況類似的還有 “責”“予”和“取”。而使用“收”來表示獲得時的態(tài)度和以上兩類又不盡相同,有高傲自滿或理所當然的態(tài)度。綜上,從動詞單現(xiàn)詞可以感受到《戰(zhàn)國策》用詞的豐富獨特、生動準確和語言的理性美。
型例比是衡量作者所使用詞匯的范圍和多樣性的指標,或者在給定的語料庫中,它是一篇文章或一組文本中不同單詞與總單詞數(shù)的比率。20 世紀40年代,Johnson 最先提出型例比(TTR)的計算公式,具體如下:
和詞匯獨特性類似,型例比也容易受到文本長度的影響。有研究表明文本型例比的曲線走向與對數(shù)曲線類似,因此可以在原始公式的基礎(chǔ)上加入對數(shù)計算,使結(jié)果更加可靠,具體如下:
《左傳》《戰(zhàn)國策》型例比計算結(jié)果如表7 所示。從縱向來看,型例比的計算結(jié)果與上一節(jié)中詞匯獨特性的計算結(jié)果高度一致,古文的型例比值最高,白話文次之,英文最低,再次證明了古文詞匯比白話文詞匯更豐富,中文詞匯比英文詞匯更豐富。從橫向來看,《戰(zhàn)國策》在三種語言上的型例比都高于《左傳》,說明《戰(zhàn)國策》的詞匯多樣性更強,語言更豐富。
表7 《左傳》《戰(zhàn)國策》型例比計算結(jié)果
詞性主要是以語法特征為標準對詞語的分類,是詞語在語法結(jié)構(gòu)中表現(xiàn)出來的類別屬性。不同詞性的詞語在構(gòu)成、語義、功能和用法等方面都存在顯著差異。因此,統(tǒng)計文本每一類詞性的占比情況也能在一定程度上反映文本的語體風格。
實詞是指有實際意義的詞,詞匯密度是指文本中的實詞數(shù)量與所有詞匯數(shù)量之間的比值,能夠反映文本的信息含量。詞匯密度越高,文本的信息量越大。詞匯密度的具體計算公式如下:
由于詞匯密度對文本長度依賴性不大,因此該公式的計算結(jié)果是比較可靠的。但是,要計算詞匯密度必定要統(tǒng)計實詞數(shù)量,也就需要區(qū)分實詞與虛詞。關(guān)于如何劃分實詞與虛詞,許多學者提出了不同的觀點,本文結(jié)合《左傳》《戰(zhàn)國策》詞性標注的實際情況,采用胡裕樹[13]與黃伯榮、廖序東[14]的觀點,將名詞、動詞、形容詞、數(shù)詞、量詞、代詞、副詞歸為實詞大類,其余詞性都歸為虛詞大類。
《左傳》和《戰(zhàn)國策》三種語言的詞匯密度計算結(jié)果如表8。
根據(jù)表中數(shù)據(jù),從縱向來看,《左傳》《戰(zhàn)國策》古文和白話文的詞匯密度都在85.00%左右,英文的詞匯密度均超過70.00%,說明表達同樣含義的內(nèi)容時,古文和白話文詞匯密度相差不大,而英文則傾向于使用更多的虛詞。
從橫向來看,《左傳》《戰(zhàn)國策》在對應(yīng)語言上的詞匯密度相當,即兩部典籍所包含的信息量都比較龐大,這也是符合實際情況的?!蹲髠鳌飞糜谟浭拢绕涫怯涗浉鲊g的戰(zhàn)爭?!蹲髠鳌酚涗浀膽?zhàn)爭多達數(shù)百次,其中的著名戰(zhàn)役包括齊魯長勺之戰(zhàn)、晉楚城濮之戰(zhàn)、秦晉殽之戰(zhàn)、晉楚邲之戰(zhàn)、齊晉鞌之戰(zhàn)、晉楚鄢陵之戰(zhàn)等。有的側(cè)重戰(zhàn)前策略布局,有的放大戰(zhàn)爭細節(jié),有的通過戰(zhàn)爭塑造人物,還有的全面展現(xiàn)戰(zhàn)爭過程?!稇?zhàn)國策》善于記言,尤其是記錄縱橫家們勸諫、游說、外交的言行,其中著名的事件包括《鄒忌諷齊王納諫》《淳于髡謂齊王》《觸龍說趙太后》《唐雎不辱使命》《張儀為秦連橫說趙王》《蘇秦以連橫說秦》《蘇代為燕說齊》等。這些篇章記載了策士們用比喻、類比、寓言等方法巧妙地說服統(tǒng)治者聽從自己的建議,或化解危機,或完成使命。由此可見,這兩部典籍言之有物,內(nèi)容翔實。
一般而言,動詞反映文本的活躍度,形容詞反映文本的描寫度。文本活動度就是通過動詞和形容詞兩個變量構(gòu)建關(guān)系來反映文本在描寫和敘述之間的側(cè)重點。在一段文本中,動詞的詞例數(shù)與動詞和形容詞的詞例總數(shù)作商即為該文本的活動度,公式如下:
文本的活動度的值(Q)在0-1 之間,若將0.5 看作描寫度與活動度的均衡值,那么當Q 大于0.5 時,文本活動度高,敘述性強;反之,文本活動度低,描寫性強。
《左傳》和《戰(zhàn)國策》三種語言的文本活動度計算結(jié)果如表9。
表9 《左傳》《戰(zhàn)國策》三種語言的文本活動度計算結(jié)果
從以上結(jié)果可以看到,縱向上,《左傳》和《戰(zhàn)國策》的文本活動度在三種語言上都遠大于0.5,說明這兩部典籍動詞使用量遠勝于形容詞,均屬活躍文本,非常注重對動作和事件本身的記錄,而避免使用豐富的形容詞修飾語。進一步觀察發(fā)現(xiàn),雖然文本內(nèi)容含義相同,但無論是白話文譯本還是英文譯本在活動度上的值都比原文低,尤其是英譯本,降低了0.2 左右。這說明譯者轉(zhuǎn)述原作的同時,為了吸引現(xiàn)代讀者閱讀,符合現(xiàn)代語言的使用習慣,可能發(fā)揮了主觀能動性,適當增強了描寫性。
橫向上,這兩部典籍在文本活動度上較高且差異微乎其微,都具有敘事特征。例如,《左傳·成公十六年》中詳細記載了晉楚鄢陵之戰(zhàn),晉楚雙方的作戰(zhàn)過程形成鮮明對比。楚方“察夷傷,補卒乘,繕甲兵,展車馬,雞鳴而食,唯命是聽”。晉方同樣“蒐乘補卒,秣馬歷兵,修陳固列,蓐食申禱”,接連的動詞短語足以看出此次戰(zhàn)爭的激烈。又如,《戰(zhàn)國策·趙二·張儀為秦連橫說趙王》中記載了張儀游說趙王歸附秦國的過程。張儀首先恭維趙國,而后又展現(xiàn)秦國國力“弊邑恐懼懾伏,繕甲厲兵,飾車騎,習馳射,力田積粟,守四封之內(nèi)”,一系列的動詞短語彰顯出秦國強大的經(jīng)濟實力和軍事實力。繼而又威脅趙王“今宣君有微甲鈍兵,軍于澠池,愿渡河逾漳,據(jù)番吾,迎戰(zhàn)邯鄲之下”。從“軍”“渡”到“據(jù)”“迎戰(zhàn)”,言辭間鋒芒畢露、暴力施壓。趙王不得不屈服退讓,歸順秦國。張儀與趙王對話中動詞的使用簡短而精妙,形成鮮明對比,具有畫面感。由此可見,這兩部典籍在動詞的使用上以小見大,敘事精妙絕倫,讓人有身臨其境之感。
在文學作品中,韻律節(jié)奏也是構(gòu)成作品語體風格的重要因素。句子離散度就是指文本中句子的長度與平均句長相比的偏離程度,是衡量文本節(jié)奏變化程度的指標,計算公式如下:
其中,Ds表示句子離散度,Ls表示平均句長,Li表示每個句子的長度,n 表示文本中句子總數(shù)。句子離散度越小,每個句子長度越接近平均句長,文本越容易產(chǎn)生節(jié)奏感;反之,句長波動大,長短交錯,節(jié)奏富于變化?!蹲髠鳌泛汀稇?zhàn)國策》句子離散度計算結(jié)果如表10。
表10 《左傳》《戰(zhàn)國策》句子離散度計算結(jié)果
由上表數(shù)據(jù)可以看出,縱向上,古文和英文離散度低,白話文離散度高。
橫向上,《左傳》句子離散度相對《戰(zhàn)國策》較高,這表明《左傳》在行文時使用的句子長短錯落有致,波瀾起伏,含蓄內(nèi)斂;《戰(zhàn)國策》在行文時使用的句子長度均衡工整,音律和諧,鏗鏘有力。
同樣是說服統(tǒng)治者,《左傳·僖公二十六年》展喜與齊孝公對話的措辭中,展喜首先夸贊齊國先王在爭取構(gòu)建各國良好關(guān)系上的豐功偉績:“恃先王之命。昔周公、大公股肱周室,夾輔成王。成王勞之而賜之盟曰:‘世世子孫,無相害也?!d在盟府,大師職之?;腹且约m合諸侯而謀其不協(xié),彌縫其闕而匡救其災(zāi),昭舊職也。”而后又用肯定的語氣猜測齊孝公會遵循先王之命避免戰(zhàn)爭:“及君即位,諸侯之望曰:‘其率桓之功?!冶忠赜貌桓冶>郏唬骸M其嗣世九年而棄命廢職,其若先君何?’君必不然。恃此以不恐?!泵髅鞅疽馐钦f齊孝公違背傳統(tǒng),拋棄仁義道德,但是沒有直接抨擊,激怒對方,整段話娓娓道來,不卑不亢,既為對方保全顏面,也展現(xiàn)了本國的風度和禮節(jié)。這與展喜這段話較高的句子離散度也密不可分,句子離散度高,有長句也有短句,輕重緩急分明,溫文爾雅,有引人深思的弦外之音。
《戰(zhàn)國策·蘇秦以連橫說秦》中,蘇秦為了說服秦王采用連橫的方法吞并各國,成就統(tǒng)一大業(yè)時首先說了一段話闡明秦國的優(yōu)勢:“大王之國,西有巴蜀、漢中之利,北有胡貉、代馬之用,南有巫山、黔中之限,東有肴、函之固。田肥美,民殷富,戰(zhàn)車萬乘,奮擊百萬,沃野千里,蓄積饒多,地勢形便?!碑斍赝醣硎静辉赴l(fā)動戰(zhàn)爭時,蘇秦又舉例:“堯伐驩兜,舜伐三苗,禹伐共工,湯伐有夏,文王伐崇,武王伐紂,齊桓任戰(zhàn)而伯天下。”接著闡明只靠文治并不能解決根本問題:“古者使車轂擊馳,言語相結(jié),天下為一;約從連橫,兵革不藏;文士并飭,諸侯亂惑;萬端俱起,不可勝理;科條既備,民多偽態(tài);書策稠濁,百姓不足;上下相愁,民無所聊;明言章理,兵甲愈起;辯言偉服,戰(zhàn)攻不息;繁稱文辭,天下不治;舌弊耳聾,不見成功;行義約信,天下不親?!弊詈螅诌M一步闡述戰(zhàn)爭的必要性:“寬則兩軍相攻,迫則杖戟相撞,然后可建大功。是故兵勝于外,義強于內(nèi);威立于上,民服于下。今欲并天下,凌萬乘,詘敵國,制海內(nèi),子元元,臣諸侯,非兵不可?!碧K秦這段說辭多用排比,句子離散度低,句與句之間格律相似,節(jié)奏感強,聲勢浩大,揮灑自如,縱橫馳騁,直言不諱,自成一種磅礴之氣。
句子破碎度是指一個句子中的停頓次數(shù),可以反映句子的整散程度和流暢程度。句子破碎度越低,句子越完整流暢,反之則越松散。句子破碎度的具體計算公式如下:
一個句子中的所有停頓次數(shù)取決于該句的停頓次數(shù),即標點符號的個數(shù)。本文句子停頓次數(shù)為逗號、頓號、分號、句號、感嘆號和問號的總數(shù)。本文對以上6 種標點在《左傳》和《戰(zhàn)國策》的三種語言中出現(xiàn)的頻次進行了統(tǒng)計,并計算相應(yīng)的句子破碎度?!蹲髠鳌贰稇?zhàn)國策》在三種語言上的句子破碎度如表11 所示。
表11 《左傳》《戰(zhàn)國策》句子破碎度
縱向上,兩部典籍在中文上的句子破碎度都接近3,英文譯本的句子破碎度則在1.8 左右,這說明表達同一個意思時,中文文本傾向于用標點符號分隔長句,且古白文本破碎度相似,而英文更可能采用連詞或從句的方式一氣呵成。例如,《左傳·隱公元年》中原文 “莊公寤生,驚姜氏,故名曰寤生,遂惡之?!弊g成白話文是“莊公降生時是腳先出頭后出的,這是難產(chǎn),使姜氏很驚訝,因此給他取名叫寤生,并且很討厭他。”譯成英文是 “Duke Zhuang was born difficultly and his mother was frightened, so she called him Wusheng.”《戰(zhàn)國策·卷一·東周》中原文 “楚之君臣,欲得九鼎,謀之于葉庭之中,其日久矣?!弊g成白話文是“楚國君臣為了得到九鼎,很早就在葉庭進行謀劃?!弊g成英文是“Both the sovereign and court officials of Chu want to own the Nine Cauldrons.They have planned to gain them for a long time in Yeting.”中文的句子破碎度明顯高于英文。而在橫向上對應(yīng)版本的句子破碎度卻很接近。
本文構(gòu)建了《左傳》和《戰(zhàn)國策》跨語言平行語料庫,利用規(guī)范語料、清華漢語樹庫、賓州英文樹庫,采用機器學習和深度學習的方法訓練分詞和詞性標注模型,選擇最佳模型對語料進行處理,通過統(tǒng)計和計算對比《左傳》和《戰(zhàn)國策》的語體風格,結(jié)論如下:
(1)詞匯豐富度上,《戰(zhàn)國策》在3 種語言上的詞匯獨特性和多樣性都優(yōu)于《左傳》,說明《左傳》樸素文雅,《戰(zhàn)國策》辭藻華麗。另外,通過對比原本和譯本發(fā)現(xiàn),古文詞匯比白話文詞匯更豐富,中文詞匯比英文詞匯更豐富。
(2)詞匯密度上,《左傳》《戰(zhàn)國策》在對應(yīng)語言上的詞匯密度相當,說明這兩部包含的信息量都比較龐大,《左傳》擅于記錄戰(zhàn)爭,《戰(zhàn)國策》擅于記錄策士辭令,符合歷史散文以敘事為主的風格特征。同時還觀察到,表達同樣含義的內(nèi)容時,古文和白話文詞匯密度相差不大,而英文則傾向于使用更多的虛詞。
(3)文本活動度上,《左傳》和《戰(zhàn)國策》動詞使用量遠勝于形容詞,均屬活躍文本,無論是以記事為主的《左傳》還是以記言為主的《戰(zhàn)國策》都非常注重對動作和事件本身的記錄。但在翻譯時,譯者轉(zhuǎn)述原作的同時,適當增強了描寫性。
(4)句子離散度上,《左傳》離散度高于《戰(zhàn)國策》。《左傳》在行文時使用的句子長短錯落有致,波瀾起伏,含蓄內(nèi)斂;《戰(zhàn)國策》在行文時使用的句子長度均衡工整,音律和諧,鏗鏘有力,說明《左傳》委婉含蓄,《戰(zhàn)國策》氣勢磅礴。此外還可以看到,古文和英文離散度低,白話文離散度相對較高。
(5)句子破碎度上,《左傳》和《戰(zhàn)國策》在句子破碎度上差別不大,都具有較為松散的語言風格。同時還發(fā)現(xiàn),中文文本傾向于用標點符號分隔長句,而英文更可能采用連詞或從句的方式一氣呵成,中文文本比英文文本更松散。
本文的研究過程中也存在一些不足之處有待改進。
(1)在語料處理中,由于清華漢語樹庫和賓州英文樹庫與典籍語料在內(nèi)容上的差異,訓練出的模型對白話文和英文進行分詞或詞性標注時準確率不夠高。尤其是特殊的人名、地名,雖然抽取了古文中的名詞加入訓練,在白話文上的識別效果得到提升,但仍未達到理想狀態(tài)。英文語料中,按照空格分詞的方法對人名、地名的切分產(chǎn)生了影響,切分過細導致后續(xù)無法統(tǒng)計。
(2)在特征選取中,本文所選特征主要集中在字符、詞匯、句子和語法層面,未來可以加入更多的層面上的特征繼續(xù)展開研究。