田春燕,徐 毅,解 威,郭淑云(大連民族大學(xué) .外國語學(xué)院; .理學(xué)院;.東北少數(shù)民族研究院,遼寧 大連 116605)
在現(xiàn)代文化及外來文化的強(qiáng)勢(shì)沖擊下,少數(shù)民族的典籍文化流失嚴(yán)重,缺乏人員保護(hù)、處于十分瀕危的狀態(tài)[1]。薩滿文化是中國東北地區(qū)少數(shù)民族,尤其是滿族的一種重要民間文化,對(duì)其所遺留下來的文化典籍保護(hù)和推廣也成了民族文化傳承的重要課題[2]。近年來,一些地方仍然健在的薩滿典籍讓許多國外學(xué)者驚羨,然而這些薩滿文化大多是以紙質(zhì)媒介傳播,因而如何運(yùn)用現(xiàn)代技術(shù)手段傳承與保護(hù)薩滿典籍成為當(dāng)務(wù)之急[3-4]。
平行語料庫是原文文本及其平行對(duì)應(yīng)的譯文文本構(gòu)成的雙語/多語語料庫,它對(duì)于眾多跨語言的自然語言處理研究和應(yīng)用都具有相當(dāng)高的研究和實(shí)用價(jià)值。
現(xiàn)在比較流行的少數(shù)民族平行語料庫大多是特定語言環(huán)境、特定詞匯間的翻譯語料庫,針對(duì)少數(shù)民族與漢語之間的平行語料庫大多集中在維語、蒙古語、藏族語言與漢語之間的翻譯,這些平行語料庫大多取材于日常用語及某些雜志期刊,很少涉及到民族典籍的翻譯。滿族典籍具有其特有的文化特征,翻譯的效果受文化傳統(tǒng)、風(fēng)俗習(xí)慣等方面影響。大量專業(yè)性的雙語語料需要段落對(duì)齊、句對(duì)齊。滿族典籍由于其語言文字的局限性,很難像英語、漢語按段落、句子做對(duì)應(yīng)的切分。某些對(duì)齊的滿族典籍語料,對(duì)齊效果也并不理想,這在很大程度上阻礙了滿族典籍翻譯語料庫的研究。
鑒于上述理由,考慮到大連民族大學(xué)目前已有多位專家從事東北民族典籍方面的研究,特別是對(duì)于《尼山薩滿》的翻譯和研究都已經(jīng)非常成熟[5-6]。因此在他們的工作基礎(chǔ)之上,筆者及其團(tuán)隊(duì)構(gòu)建了《尼山薩滿》的多語平行語料庫,本文重點(diǎn)討論該平行語料庫的對(duì)齊技術(shù)問題。
語料對(duì)齊是指將雙語語料中兩個(gè)互譯的語料片段建立對(duì)應(yīng)關(guān)系,對(duì)齊的語料片段可以分為篇章、段落、句子三個(gè)級(jí)別,研究最多的是段落對(duì)齊和句子對(duì)齊。
在《尼山薩滿》典籍中,其原文及其漢語譯文的段落基本上遵循一一對(duì)應(yīng)的關(guān)系[2]?;剀嚀Q行符基本都是用作段落分割的標(biāo)志,通過這種分割可得到基本的段落單體。這種方法實(shí)現(xiàn)比較簡單,運(yùn)行效率比較高,當(dāng)原文與譯文文本格式比較規(guī)范,可以達(dá)到預(yù)期的對(duì)齊效果。但作者在研究過程中發(fā)現(xiàn)某些《尼山薩滿》譯本附錄中有些歌謠或者頌詞部分會(huì)出現(xiàn)段落不規(guī)范的情況;一旦某個(gè)段落出現(xiàn)錯(cuò)誤,后面的段落或句子對(duì)齊的正確率會(huì)急劇下降。
考慮到本文所選典籍語料《尼山薩滿》是一個(gè)關(guān)于滿族文化的神話故事,人名貫穿故事始末,同一人名出現(xiàn)的頻率也非常高,《尼山薩滿》中部分人名關(guān)鍵字在滿漢典籍中出現(xiàn)的次數(shù)統(tǒng)計(jì)見表1。因此本文給出了一種基于人名關(guān)鍵字的段落對(duì)齊方法。首先應(yīng)用回車符進(jìn)行自然段的切分,然后利用滿漢雙語文本中人名關(guān)鍵字信息進(jìn)行進(jìn)一步的分段對(duì)齊。
表1 《尼山薩滿》典籍人名關(guān)鍵字統(tǒng)計(jì)表
具體實(shí)現(xiàn)步驟可描述如下,算法的流程圖如圖1。
(1) 首先使用回車符對(duì)滿漢互譯語料進(jìn)行自然分段;
(2) 將步驟1中對(duì)齊的自然段落按順序?qū)?yīng)起來,根據(jù)句子特征確定段落對(duì)齊;
(3) 以已對(duì)齊的滿漢互譯語料中的段落為單位,按照標(biāo)點(diǎn)符號(hào)為基準(zhǔn)劃分為若干個(gè)句子,得到漢文段落Ci的一個(gè)有序句列{Ci0,Ci1,Ci2,…,Ciu}和滿文段落Mj的一個(gè)有序句子序{Mj0,Mj1,Mj2,…,Mjv};
(4) 從漢語段落Ci的句子序列中依次取出每個(gè)包含人名關(guān)鍵字信息的句子 ,將該句子中的所有人名關(guān)鍵字按順序提取,得到人名關(guān)鍵字序列{N1,N2,N3,…,Ns}(s≥1);
(5)從人名關(guān)鍵字序列中取出一個(gè)人名關(guān)鍵字Ns,翻譯成滿語,然后在滿語有序段落Mj的有序句列中進(jìn)行匹配,若找到匹配項(xiàng)則計(jì)數(shù)后跳到下一個(gè)人名關(guān)鍵字Ns+1繼續(xù)進(jìn)行匹配。若沒有找到匹配項(xiàng),則進(jìn)入下一個(gè)滿文段落Mj+1進(jìn)行匹配,一直到找到包含對(duì)應(yīng)人名關(guān)鍵字的滿文句子。若一直未找到則進(jìn)入到本漢語段落中下一個(gè)包含人名關(guān)鍵字信息的句子中;
(6) 若根據(jù)人名關(guān)鍵字找到匹配的滿漢語料句對(duì),則對(duì)這個(gè)句子進(jìn)行標(biāo)記,并將此句作為本段的分割標(biāo)準(zhǔn),劃分為兩個(gè)分段,然后以下一個(gè)分段為基礎(chǔ)繼續(xù)上述過程。若所有分段處理完畢,則算法結(jié)束。
圖1 基于人名關(guān)鍵字的段落對(duì)齊流程圖
在實(shí)際的典籍平行語料庫應(yīng)用中,段落層次的對(duì)齊顯然不能夠滿足典籍語料庫的需求,需要做更小的語料顆粒劃分句子對(duì)齊。句子對(duì)齊是語料庫對(duì)齊中研究最多的一個(gè)課題,目前出現(xiàn)了眾多句子對(duì)齊方法??傮w上看,這些方法可以分為如下幾種[7]:
(1) 基于長度統(tǒng)計(jì)的對(duì)齊方法。這種對(duì)齊方法是根據(jù)互譯的兩種語言之間長度關(guān)系的不同進(jìn)行對(duì)齊,實(shí)現(xiàn)這種對(duì)齊方法需要統(tǒng)計(jì)兩種語言語料中對(duì)應(yīng)句子的長度信息,并分析出其統(tǒng)計(jì)規(guī)律。
(2) 基于典型詞匯的句子對(duì)齊方法。這種對(duì)齊方法根據(jù)兩種互譯語料中特殊詞匯信息的比對(duì)而實(shí)現(xiàn)的對(duì)齊方法,實(shí)現(xiàn)這種對(duì)齊方法需要查詢?cè)~典并對(duì)句子進(jìn)行必要的處理。
(3) 基于句子長度和詞匯信息相結(jié)合的對(duì)齊方法。這種對(duì)齊方法是上面兩種對(duì)齊方法的結(jié)合,取二者的優(yōu)點(diǎn),既提高了句子的對(duì)齊性能又降低了對(duì)齊算法的復(fù)雜度。
在對(duì)滿族典籍平行語料庫句子對(duì)齊研究過程中,考慮到滿語與漢語屬于不同語系,滿語中單個(gè)詞匯識(shí)別度較差這些情況,決定采用句子長度的對(duì)齊方法。
在進(jìn)行句子長度分析時(shí),通常會(huì)以單詞或字符作為最小研究單位。在滿漢典籍語料研究中,若以單詞作為統(tǒng)計(jì)句子長度的最小單位會(huì)出現(xiàn)較多問題,主要原因在于漢語與滿語并非同一語系,漢語在分詞方面有一定的復(fù)雜性,這就會(huì)導(dǎo)致在統(tǒng)計(jì)滿文和對(duì)應(yīng)漢語譯文句子長度時(shí)會(huì)出現(xiàn)一定的誤差,因此我們以字符數(shù)為最小單位對(duì)滿漢典籍語料句子長度的分析。對(duì)《尼山薩滿》原文及其海參崴版本譯文進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),原文典籍共包含654個(gè)句子,而對(duì)應(yīng)漢語譯文中有663個(gè)。在進(jìn)行分段對(duì)齊及手工處理后共得到661個(gè)互譯句對(duì),以字符數(shù)為最小研究單位得到的滿漢互譯句子長度關(guān)系統(tǒng)計(jì)如圖2。
圖2 滿漢互譯句子長度關(guān)系統(tǒng)計(jì)
分析可知,以字符數(shù)為標(biāo)準(zhǔn)的句子長度統(tǒng)計(jì)中,滿語句子字符數(shù)與對(duì)應(yīng)的漢語句子字符數(shù)有一定的相互制約關(guān)系。一般情況下,漢語句子中的字符數(shù)與其對(duì)應(yīng)的滿語句子中的字符數(shù)的比值是相互獨(dú)立的,具有一定的隨機(jī)性,將這個(gè)比值記做隨機(jī)變量X,X的分布具有正態(tài)分布的特點(diǎn),將X的均值記做μ,方差記做σ2,得到相關(guān)統(tǒng)計(jì)結(jié)果見表2。μ≈滿語句子字符數(shù)/漢語句子字符數(shù),σ2=(Lm-Lc·μ)2/Lc,其中Lm表示滿語句子中字符數(shù),Lc表示漢語句子中的字符數(shù)。
表2 滿漢句子字符比值統(tǒng)計(jì)表
由于滿語和漢語不屬于同一語系,與同一語系的語言相比較,其句子長度之間差別比較大,我們把不滿足上述統(tǒng)計(jì)參數(shù)的句子所出現(xiàn)的范圍稱為拒絕域。從對(duì)統(tǒng)計(jì)表的分析可知,滿漢典籍語料句子長度比值均值的拒絕域是{Y=Lm/Lc|Y<2或Y>6},拒絕域中的句子格式如下:
從此之后,巴彥夫婦經(jīng)常求神拜佛、燒香祈禱神靈保佑。作為回報(bào),到了五十歲那年,又生了一共兒子,起名叫色爾古代費(fèi)揚(yáng)古。
Tereci bihei eigen gargam suisai se isifi endure fucihi de baime jalbirafi (jalbarifi) geli emu jui ujifi sergudia fiyanggu seme gebulefi。
Y=8.426
基于長度的句子對(duì)齊方法基本思想是按照互譯的兩種語言句子長度的相關(guān)關(guān)系研究句子的對(duì)齊,而不考慮其句子意思及所包含的詞匯信息。根據(jù)上述對(duì)滿漢語料句子長度的統(tǒng)計(jì)結(jié)果可以求取對(duì)應(yīng)句子的互譯概率,于是得到基于句子長度的雙語句子對(duì)齊模型[8]
(1)
由貝葉斯定理可知:
(2)
式中,p(δ)是一個(gè)常數(shù),不會(huì)影響句子的互譯概率,所以可以得到對(duì)應(yīng)句子的互譯概率為
(3)
式(2)-(3)中,P(M(Lm,Lc))表示在不考慮句子長度的情況下得到的(Lm,Lc)句對(duì)類型出現(xiàn)的概率。式(2)中δ表示滿足標(biāo)準(zhǔn)正態(tài)分布類型的雙語句子長度關(guān)系評(píng)價(jià)函數(shù),在這個(gè)關(guān)系函數(shù)中,p(δ|M(Lm,Lc))表示按正態(tài)分布密度函數(shù)[9],它的計(jì)算公式為
(4)
式中,μ和σ2分別表示滿漢典籍互譯句子字符數(shù)比值均值與比值方差,可以根據(jù)對(duì)滿漢典籍互譯句子字符數(shù)比值的統(tǒng)計(jì)得到。
(5)
通過動(dòng)態(tài)規(guī)劃的思想,使用公式(5)找到滿足公式(4)的對(duì)齊句對(duì)。具體操作過程如下:
(1)對(duì)于公式(5)做初始化操作;
(2)根據(jù)我們已經(jīng)總結(jié)的滿漢典籍語料句子匹配類型及其統(tǒng)計(jì)概率計(jì)算公式(5)的幾種可能情況,例如g(i-1,j-1),g(i-1,j-2),g(i-2,j-1),g(i-2,j-2);
(3)設(shè)置偏移量,當(dāng)程序進(jìn)行到分段段落的結(jié)尾時(shí)表示查找過程完成,基于長度的句子對(duì)齊算法結(jié)束;
(4)在查找過程中,如果出現(xiàn)有多個(gè)情況滿足式(5)的情況,取最小的計(jì)算值尋找滿足公式(4)的對(duì)齊句對(duì);
(5)若一次查找完成后,將控制循環(huán)次數(shù)的參數(shù)進(jìn)行加一操作后繼續(xù)執(zhí)行。
本文對(duì)齊性能的評(píng)價(jià)方法主要通過計(jì)算對(duì)齊的召回率和準(zhǔn)確率。
(1)假設(shè)有組對(duì)齊后的語料組{S,T},S表示按照?qǐng)?zhí)行對(duì)齊算法后得到的對(duì)齊句對(duì),T表示人工處理后的需要達(dá)到理想狀況的對(duì)齊句對(duì)。把S中對(duì)齊正確的雙語片段數(shù)與T中正確的雙語片段數(shù)的比值稱為S對(duì)T的召回率,召回率Recall[10]計(jì)算公式為
(6)
分析可知,Recall的范圍在0與1之間,當(dāng)Recall=0時(shí)表示S中正確片段數(shù)為0,這是句子對(duì)齊算法執(zhí)行時(shí)最壞的情況;當(dāng)Recall=1時(shí)表示S中對(duì)齊片段全部正確,這是最好的情況。
(2)在同樣一組語料組中,把S中對(duì)齊正確的片段數(shù)與S語段中所有對(duì)齊語料片段數(shù)的比值稱為準(zhǔn)確率,S相對(duì)于T準(zhǔn)確率Precission表示公式為:
(7)
Precission的范圍也在0與1之間,當(dāng)Precission越大表示在對(duì)齊算法的準(zhǔn)確度越高,當(dāng)Precission=0時(shí)表示沒有正確的片段,當(dāng)Precission=1時(shí)表示S中對(duì)齊片段全部正確。
本文的滿漢雙語語料分段方法的對(duì)齊結(jié)果分析見表3。由于《尼山薩滿》正文部分比較規(guī)范,回車符均是分段換行符,因此基于回車符分段的準(zhǔn)確率和召回率均為百分之百,對(duì)于《尼山薩滿》附錄部分,由于很多回車符不是分段換行符,因而對(duì)齊的準(zhǔn)確率和召回率會(huì)顯著下降。使用基于人名關(guān)鍵字的方法,雖然準(zhǔn)確率和召回率相比基于回車符分段略有下降,但其準(zhǔn)確率和召回率均在可接受范圍之內(nèi),而且其優(yōu)點(diǎn)是會(huì)使句子對(duì)齊的準(zhǔn)確率和召回率有很大提高;對(duì)于《尼山薩滿》附錄部分,很多回車符不是分段換行符,基于回車符的分段技術(shù)準(zhǔn)確率和和召回率均有所下降,而基于人名關(guān)鍵字的對(duì)齊方法則不受影響。
表3 分段結(jié)果分析表 %
基于長度的句子對(duì)齊方法應(yīng)用于滿漢典籍語料對(duì)齊中的對(duì)齊結(jié)果見表4。由分析結(jié)果可知,句子對(duì)齊與段落對(duì)齊相比略有下降,這主要是因?yàn)榫渥蛹?jí)別的對(duì)齊屬于更小顆粒的對(duì)齊,對(duì)齊范圍更精確,相比較而言也更容易出錯(cuò)。由于是民族典籍翻譯,不要求句對(duì)的精確翻譯,而是要求句意忠于原文,因此這個(gè)統(tǒng)計(jì)數(shù)據(jù)也是在可以接受的范圍之內(nèi)。
表4 基于長度的句子對(duì)齊結(jié)果分析 %
針對(duì)中國少數(shù)民族的文化典籍面臨的問題,本文以《尼山薩滿》為例,研究了滿族典籍平行語料庫的分段對(duì)齊和分句對(duì)齊方法。研究結(jié)果顯示:像《尼山薩滿》這樣的口傳民族文學(xué)經(jīng)典,大多包涵大段的歌謠或頌詞,故在建立滿族典籍平行語料庫時(shí),基于人名關(guān)鍵字的段落對(duì)齊方法更加有效;同時(shí),實(shí)驗(yàn)結(jié)果表明,在句子對(duì)齊方面,基于長度的句子對(duì)齊方法是切實(shí)有效的,可以滿足建立滿族經(jīng)典平行語料庫的要求。
參考文獻(xiàn):
[1] 張媛,王宏印. 民族典籍翻譯的現(xiàn)狀、問題與對(duì)策——人類學(xué)學(xué)者訪談錄之七十一[J]. 廣西民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2014(04): 23-26.
[2] 宋和平. 《尼山薩滿》研究[M]. 北京: 社會(huì)科學(xué)文獻(xiàn)出版社, 1998: 34-68.
[3] 崔穎. 東北少數(shù)民族典籍翻譯現(xiàn)狀與發(fā)展策略探究
[J]. 貴州民族研究, 2016(01): 117-119.
[4] 張玉. 東北地區(qū)少數(shù)民族典籍翻譯研究[J]. 校園英語, 2014(34): 229-230.
[5] 郭淑云. 中國薩滿教研究特點(diǎn)與展望[J]. 西域研究,2012(02): 96-103.
[6] 郭淑云. 中國薩滿教若干問題研究述評(píng)[J]. 民族研究,2011(03): 83-94.
[7] 惠聰. 機(jī)器翻譯中的高級(jí)對(duì)齊技術(shù)和開發(fā)集選擇策略研究[D]. 上海: 上海交通大學(xué), 2012.
[8] 王克非. 雙語平行語料庫在翻譯教學(xué)上的用途[J]. 外語電化教學(xué), 2004(06): 27-32.
[9] 魏宗舒. 概率論與數(shù)理統(tǒng)計(jì)教程[M]. 北京: 高等教育出版社, 1996.
[10] 劉昕,周明,朱勝火,等. 基于自動(dòng)抽取詞匯信息的雙語句子對(duì)齊[J]. 計(jì)算機(jī)學(xué)報(bào), 1998(S1): 151-158.
[11] RENNER. XML data and object databases: The perfect couple[C]. Washington: International Conference on data engineering, 2001.
大連民族大學(xué)學(xué)報(bào)2018年3期