蔣 躍,張英賢,韓紅建
(西安交通大學(xué) 外國(guó)語(yǔ)學(xué)院,陜西 西安 710049)
?
人機(jī)翻譯英語(yǔ)被動(dòng)句相似度的向量距離測(cè)算
蔣 躍,張英賢,韓紅建
(西安交通大學(xué) 外國(guó)語(yǔ)學(xué)院,陜西 西安 710049)
基于語(yǔ)料庫(kù)翻譯學(xué)和文本挖掘的方法,提出了一種將向量空間模型與主成分分析相結(jié)合的向量距離算法,用以測(cè)算在線機(jī)器翻譯(“在線機(jī)譯”)與人工翻譯在對(duì)應(yīng)翻譯英語(yǔ)被動(dòng)句上的相似度。測(cè)算結(jié)果表明,人工譯本和在線機(jī)譯都體現(xiàn)了英語(yǔ)被動(dòng)句翻譯的不對(duì)等性,均將少量英語(yǔ)被動(dòng)句譯成漢語(yǔ)被動(dòng)句。研究結(jié)果或?yàn)樽g本對(duì)比及文本相似度的測(cè)量提供一種新的數(shù)理統(tǒng)計(jì)算法,從而更加客觀、科學(xué)地對(duì)比譯本之間的異同。
在線機(jī)譯;被動(dòng)句;相似度;向量空間模型;主成分分析;向量距離
文本數(shù)據(jù)挖掘是從大量無(wú)結(jié)構(gòu)文本中,發(fā)現(xiàn)隱含信息和新知識(shí)的過(guò)程,商業(yè)價(jià)值很高。它與自然語(yǔ)言處理密切相關(guān),其中最關(guān)鍵的是提取有用的文本特征,常用的挖掘方法有文本分類、聚類、關(guān)聯(lián)分析和趨勢(shì)預(yù)測(cè)等[1]。隨著統(tǒng)計(jì)算法的成熟和完善,文本挖掘技術(shù)也得到更加廣泛的應(yīng)用。計(jì)算文本相似度是挖掘其它文本數(shù)據(jù)的關(guān)鍵和基礎(chǔ),越來(lái)越受到人們重視[2]。翻譯作品也是一種文本,通過(guò)對(duì)比翻譯文本的相似度,可為翻譯質(zhì)量評(píng)估和譯本對(duì)比提供重要的量化指標(biāo)。
傳統(tǒng)的翻譯作品及翻譯風(fēng)格對(duì)比大多是直覺(jué)和內(nèi)省式的定性研究,主觀有余客觀不足。隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展,可通過(guò)提取語(yǔ)言的計(jì)量特征來(lái)對(duì)比翻譯語(yǔ)言的特點(diǎn),如標(biāo)準(zhǔn)形類比(STTR)、詞匯密度、各種詞類的比例等[3][4]。這些對(duì)比結(jié)果能夠比較客觀地反映譯本特點(diǎn)以及譯者風(fēng)格。但黃立波等人認(rèn)為,基于目的語(yǔ)類比語(yǔ)料庫(kù)的語(yǔ)言計(jì)量特征研究意義不大,因?yàn)檫@些研究只是從STTR、平均句長(zhǎng)等純形式特征著手,而不能深入到文本及語(yǔ)言內(nèi)部[5]。另外,類比語(yǔ)料庫(kù)缺乏與源語(yǔ)的對(duì)比,因而也不夠客觀。因此,只有對(duì)翻譯文本進(jìn)行深入客觀和量化的挖掘才能達(dá)到真正意義上的客觀科學(xué)的研究。近年來(lái),已有多位學(xué)者轉(zhuǎn)向定量分析語(yǔ)言規(guī)律。通過(guò)統(tǒng)計(jì)計(jì)量方法分析語(yǔ)言的結(jié)構(gòu)特征,如名詞、動(dòng)詞比例,可以實(shí)現(xiàn)文本聚類[6]。胡顯耀通過(guò)統(tǒng)計(jì)學(xué)上的因子分析方法,對(duì)多個(gè)語(yǔ)言特征進(jìn)行了降維分析[7]。降維法也可用于翻譯作品的研究,采用主成分分析法(Principle Component Analysis, PCA)對(duì)詞頻進(jìn)行了降維,并建立起研究譯者翻譯風(fēng)格的多維球體模型[8]。總之,翻譯研究已經(jīng)從傳統(tǒng)的主觀研究,走向更加客觀的基于數(shù)理統(tǒng)計(jì)的研究。
上世紀(jì)90年代以來(lái),計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)突飛猛進(jìn),應(yīng)用日益廣泛。然而,機(jī)器翻譯的質(zhì)量尚差強(qiáng)人意[9]。被動(dòng)句具有重要的語(yǔ)法、語(yǔ)用和語(yǔ)篇銜接作用。其語(yǔ)義關(guān)系與主動(dòng)句順序相反,邏輯關(guān)系和句法結(jié)構(gòu)都較為復(fù)雜,對(duì)機(jī)器翻譯是極大的挑戰(zhàn)。因此,被動(dòng)句翻譯也是機(jī)譯中常見(jiàn)錯(cuò)誤之一[10]。柏曉靜和詹衛(wèi)東曾總結(jié)出不能對(duì)應(yīng)翻譯成漢語(yǔ)被動(dòng)句的一些限制,認(rèn)為機(jī)譯時(shí)應(yīng)該輸出大量的非“被”字句[11]。為了適應(yīng)漢語(yǔ)讀者的閱讀習(xí)慣,通常將被動(dòng)句處理成漢語(yǔ)主動(dòng)句[10]。若將英語(yǔ)被動(dòng)句對(duì)應(yīng)翻譯成漢語(yǔ)被動(dòng)句,則能保留源語(yǔ)較高的信息量[12]。被動(dòng)句的對(duì)應(yīng)翻譯,即將原語(yǔ)的被動(dòng)句轉(zhuǎn)化成目的語(yǔ)中的被動(dòng)句,對(duì)在線機(jī)譯系統(tǒng)是個(gè)挑戰(zhàn),具有典型的研究意義。
(一)研究問(wèn)題
英語(yǔ)被動(dòng)句的翻譯問(wèn)題是在線機(jī)譯發(fā)展過(guò)程中的關(guān)鍵問(wèn)題之一。那么,在將英語(yǔ)被動(dòng)句對(duì)應(yīng)譯成漢語(yǔ)被動(dòng)句方面,在線機(jī)譯與人工翻譯究竟有多大程度的相似度?用什么方法可以客觀科學(xué)的測(cè)量這個(gè)相似度呢?這便是本文的兩個(gè)研究問(wèn)題。
(二)研究設(shè)計(jì)
有文獻(xiàn)表明,文本數(shù)據(jù)挖掘的方法或許不失為一種可取的方法。它常用的方法有文本分類、聚類、特征抽取、信息壓縮等,向量空間模型(Vector Space Model,VSM)是最為常用的模型之一,信息壓縮通常使用主成分分析法。本研究嘗試將VSM與PCA結(jié)合起來(lái),測(cè)量對(duì)比在線機(jī)譯與人工翻譯在對(duì)應(yīng)翻譯被動(dòng)句上的相似度,以期尋求一種量化測(cè)量不同譯本特殊句型翻譯的相似度的新方法。本研究擬基于一個(gè)自建的平行語(yǔ)料庫(kù)。采用數(shù)據(jù)挖掘的方法,定量分析和定性分析相結(jié)合,對(duì)比在線機(jī)譯與人工翻譯在被動(dòng)句對(duì)應(yīng)翻譯上的相似度。
(一)語(yǔ)料選取
本文選用的語(yǔ)料庫(kù)為自建的《傲慢與偏見(jiàn)》一對(duì)五英漢雙語(yǔ)平行語(yǔ)料庫(kù),總庫(kù)容約110萬(wàn)字。語(yǔ)料庫(kù)包括一部完整的英語(yǔ)原著,一個(gè)在線機(jī)譯譯本,以及四個(gè)人工譯本。人工譯者分別為:王科一(上海譯文出版社1980)[13]、孫致禮(1985譯林出版社)[14]、張玲和張揚(yáng)合譯(1995人民文學(xué)出版社)[15]、張經(jīng)浩(浙江文藝出版社 2004)[16]。因百度在線翻譯屬于國(guó)內(nèi)比較先進(jìn)的在線機(jī)譯系統(tǒng),代表了機(jī)器翻譯技術(shù)發(fā)展的方向[4]。因此,本研究中的在線譯本選定百度在線翻譯,通過(guò)網(wǎng)站http://fanyi.baidu.com/在線自動(dòng)生成而成。將這些譯本經(jīng)人工和電腦處理,將人工譯本和在線譯本的語(yǔ)料清洗和加工,后進(jìn)行平行對(duì)齊,構(gòu)建成一個(gè)一對(duì)五的平行語(yǔ)料庫(kù)。
(二)主要研究過(guò)程
詞性賦碼標(biāo)注后的熟語(yǔ)料可通過(guò)編輯正則表達(dá)式來(lái)提取。英語(yǔ)被動(dòng)句的主要結(jié)構(gòu)為“be+V-ed(動(dòng)詞的過(guò)去分詞)”,其它系動(dòng)詞結(jié)構(gòu)包括feel/seem/remain等[17]。但并非所有此類結(jié)構(gòu)都表被動(dòng)含義,如“hasbeen gone”等,已形容詞化表示主動(dòng)意義,并非真正意義上的被動(dòng)句。此外,英語(yǔ)中某些過(guò)去分詞做狀語(yǔ)的結(jié)構(gòu),如“Mr. Collins, much offended, laid aside his book”,雖缺少be動(dòng)詞或系動(dòng)詞,仍表達(dá)被動(dòng)含義,本文也考慮在內(nèi)。因此,本研究的考察對(duì)象是指在形式和意義上都符合的被動(dòng)句。漢語(yǔ)的被動(dòng)句雖然數(shù)量上不如英語(yǔ)多,但表現(xiàn)形式卻比英語(yǔ)豐富,通常是以各種標(biāo)記詞標(biāo)示的,如“被”、“叫”、“讓”、“給”、“所”等。此外,還有“是……的”、“經(jīng)”、“由”等[18][19]。雖然都表被動(dòng)含義,但每個(gè)被動(dòng)標(biāo)記詞都有不同的深層機(jī)制和句法功能。
傳統(tǒng)的VSM特征提取以高頻詞的頻次為主,忽略了語(yǔ)義和句法結(jié)構(gòu),因?yàn)橥ǔ5母哳l詞主要為助詞類的虛詞等。被動(dòng)句的對(duì)應(yīng)翻譯研究需要綜合詞匯、句法和語(yǔ)義等各層面的因素。因此,本研究的特征選定對(duì)應(yīng)翻譯中各類被動(dòng)標(biāo)記詞。具體的研究步驟是,基于英漢雙語(yǔ)平行語(yǔ)料庫(kù),使用平行檢索軟件CUC_Paraconc 3.0提取出英語(yǔ)被動(dòng)句及其對(duì)應(yīng)的漢語(yǔ)譯文。從檢索結(jié)果中刪除不合要求的語(yǔ)料,建成只包含被動(dòng)句的多譯本平行語(yǔ)料庫(kù),通過(guò)編輯英語(yǔ)被動(dòng)句的正則表達(dá)式提取平行句對(duì)之后,統(tǒng)計(jì)對(duì)比各譯本中對(duì)應(yīng)翻譯的具體數(shù)據(jù)。然后,為探究在線譯本與人工譯本之間的相似度,提出一種結(jié)合PCA和空間向量距離的相似度計(jì)算公式,為了更客觀的描述向量距離,本文還對(duì)傳統(tǒng)的距離公式進(jìn)行改進(jìn)。通過(guò)新的空間向量距離計(jì)算公式,測(cè)算各譯本之間的相似度,實(shí)現(xiàn)譯本間被動(dòng)句翻譯相似度的客觀定量的描述。
(三)向量空間模型
1.向量余弦距離
VSM常用于信息檢索領(lǐng)域,具有極強(qiáng)的可操作性和可計(jì)算性[2],是文本數(shù)據(jù)挖掘中最常用的數(shù)學(xué)模型之一。VSM的主要原理是把文檔用向量來(lái)表示,提取特征項(xiàng)的權(quán)重作為向量的每個(gè)維度,通過(guò)詞頻統(tǒng)計(jì)與向量降維處理來(lái)計(jì)算相似度,是一種常見(jiàn)的文本相似度測(cè)量方法[20][21]。向量相似度常用余弦?jiàn)A角值來(lái)表示,值越大,則夾角越小,表明兩者之間相似度越高因此VSM通??捎糜谟?jì)算文本之間的相似度。翻譯作品作為一種特殊文本,也可以構(gòu)建其VSM。每個(gè)譯本的特征向量對(duì)應(yīng)該空間中的一個(gè)點(diǎn),兩譯本間的相似度由兩者的相對(duì)位置決定。測(cè)量不同譯本向量的夾角余弦值,可用來(lái)表征其相似度。
首先在每個(gè)文檔中都提取n個(gè)特征,這n個(gè)特征組成特征空間,則每個(gè)文本都可以表示成一個(gè) 維向量。向量中的每個(gè)維度代表對(duì)應(yīng)特征在文本中所占的權(quán)重,即描述文本內(nèi)容時(shí)所做的相對(duì)貢獻(xiàn)大小。設(shè)一個(gè)文本的特征空間向量為x=(x1x2…xN),另一文本向量y=(y1y2…yN),則兩文本向量間的余弦?jiàn)A角計(jì)算公式如下式:
(1)
式中〈·〉表示內(nèi)積運(yùn)算,|·|表示向量的長(zhǎng)度大小。向量夾角余弦值等于x和y兩個(gè)向量的單位向量的內(nèi)積。cos(θ)值越大,兩文本越相似。反之,cos(θ)值越小,則兩文本的差異越大。為了使向量夾角余弦值符合常用的距離概念,即距離越小,兩個(gè)向量越相似,本文采用夾角余弦距離(cosine distance,CD)來(lái)計(jì)算,定義dc為兩個(gè)文本之間特征向量的CD,則
dc=1-cos(θ)
(2)
2.向量歐式距離
雖然余弦距離可用來(lái)表征兩譯本的相似度,但它有一定的局限性,因?yàn)橛嘞揖嚯x只能代表向量方向上的變化,而不能表征向量長(zhǎng)度上的變化。假設(shè)兩個(gè)向量方向完全相同,但長(zhǎng)度差異很大,余弦距離不能表征這兩個(gè)向量的相似度高低。因此,向量的比較也需要考慮其長(zhǎng)度大小,一般用歐氏距離(Euclidean Distance, ED)來(lái)計(jì)算。ED是指空間兩點(diǎn)的絕對(duì)距離,由各點(diǎn)所處的位置決定,能體現(xiàn)數(shù)值的絕對(duì)差異,符合傳統(tǒng)上對(duì)距離遠(yuǎn)近的認(rèn)知概念。據(jù)此我們又采用了ED來(lái)估算兩譯本之間的相似度。設(shè)兩個(gè)文本向量分別為x=(x1x2…xN)和y=(y1y2…yN),則它們之間的ED為:
(3)
歐式距離de取值越大,則兩向量間的距離越遠(yuǎn),兩者的相似度就越小。
3.改進(jìn)的向量距離
向量CD能表征兩個(gè)向量方向上的距離,而ED則能反映長(zhǎng)度的大小,為了更加全面客觀地說(shuō)明文本向量的相似度,需要把方向和長(zhǎng)度都納入其中。因此,本研究提出一種結(jié)合兩種距離的方法。
首先,由于向量CD和ED的量綱不同,必須先對(duì)兩種距離進(jìn)行歸一化。求得歸一化后的CD為dcn和ED為den,其中
dcn=dc/(maxdc)
(4)
den=de/(maxde)
(5)
然后,綜合考慮兩種距離的影響,對(duì)兩種距離進(jìn)行加權(quán)平均。構(gòu)造出新的距離公式如下式:
d=(dcn+den)/2
(6)
從而得出改進(jìn)的向量距離。
(四)主成分分析法的應(yīng)用
建立VSM的關(guān)鍵是抽取文本的特征,并組成特征向量空間。然而,VSM的缺點(diǎn)是其提取的特征中,正交性假設(shè)不符合自然語(yǔ)言的實(shí)際,無(wú)法滿足特征不相關(guān)的要求。而且,冗余的特征會(huì)增加空間維度,不利于結(jié)果的直觀描述,而且增加計(jì)算難度,降低計(jì)算效率。據(jù)此,可采用空間降維的方法,以減少最后提取的特征項(xiàng),且使其相互獨(dú)立[20]。實(shí)際研究中,譯本特征的維數(shù)過(guò)多會(huì)造成對(duì)主要特征的識(shí)別困難。為了簡(jiǎn)化判斷過(guò)程,也需要對(duì)多個(gè)譯本特征包含的信息進(jìn)行濃縮,對(duì)特征的維數(shù)進(jìn)行降維處理,本研究采用PCA實(shí)現(xiàn)特征的降維。
PCA是一種常見(jiàn)的降維方法,其主要目的是通過(guò)對(duì)原始數(shù)據(jù)特征進(jìn)行線性變換,用盡可能少的維數(shù)最大限度地表示原始特征信息[22],保留主要的特征向量,忽略次要特征,以此實(shí)現(xiàn)降維。PCA本身只是對(duì)原始數(shù)據(jù)信息的一種轉(zhuǎn)換,既不增加也不減少原有總信息量,只是重新分配了原有信息[23]。新的主成分之間相互正交,消除了多重共線性,是原有成分的線性轉(zhuǎn)換,且消除了原有特征之間的相關(guān)性,降低了數(shù)據(jù)處理的難度,從而提高計(jì)算效率。
假設(shè)有M個(gè)樣本(譯本),表示為向量形式X=[x1x2…xM],每個(gè)樣本提取 個(gè)特征,表示為xi=[xi1xi2…xiN]N,其中[·]T表示轉(zhuǎn)置。則PCA的基本過(guò)程如下:
1)數(shù)據(jù)標(biāo)準(zhǔn)化
由于提取的數(shù)據(jù)特征可能具有不同的量綱,其數(shù)值差別較大,會(huì)對(duì)結(jié)果造成影響。因此,需要消除原始數(shù)據(jù)的數(shù)量級(jí),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即變換為均值為0和方差為1的標(biāo)準(zhǔn)化數(shù)據(jù),如式(7)。當(dāng)原始數(shù)據(jù)的量綱相同或者值差異較小時(shí),只需進(jìn)行零均值操作。
(7)
2)計(jì)算協(xié)方差矩陣,如式(8):
(8)
3)計(jì)算特征值和特征向量
通過(guò)協(xié)方差矩陣Cx的特征方程計(jì)算它的特征值λi,并從大到小排序,λ1≥λ2≥…≥λN≥0(因?yàn)镃x非負(fù)定)。求解相應(yīng)的單位特征向量為u1,u2,…,uN,得到特征向量矩陣U=(u1,u2,…,uN)。
4)計(jì)算壓縮維數(shù)
主成分是原始數(shù)據(jù)按照方差最大原則在新坐標(biāo)系上的投影,而特征值反應(yīng)了其方差大小。引入特征值的累積貢獻(xiàn)量,其計(jì)算公式如下:
(9)
一般情況下,令Tp≥85%,即保留原始數(shù)據(jù)85%的信息,可求出滿足此式最小的p值,則提取p個(gè)主成分。
5)計(jì)算主成分
提取的主成分可通過(guò)將零均值數(shù)據(jù)在前p個(gè)特征向量Up=[u1u2…up]的坐標(biāo)上投影得到:
(10)
經(jīng)過(guò)PCA提取出的p個(gè)主成分同樣適用于向量空間模型。因此,翻譯文本向量就可簡(jiǎn)化為主成分特征向量。通過(guò)上一節(jié)(3.2.1.3節(jié))構(gòu)造的新的向量距離公式(6),即可計(jì)算出兩個(gè)譯本之間的實(shí)際距離,從而比較全面地測(cè)量?jī)烧咧g的翻譯相似度。
綜上,本文嘗試一種基于VSM與PCA的定量分析方法,對(duì)比人機(jī)對(duì)應(yīng)翻譯被動(dòng)句的相似度。首先抽取人工和在線機(jī)譯的特征,組成特征向量空間;進(jìn)而利用PCA方法對(duì)該特征空間進(jìn)行降維處理,得到主成分。最后,計(jì)算主成分間向量的距離即可實(shí)現(xiàn)譯本間相似性的測(cè)度。
經(jīng)以上步驟,最終提取的有效英語(yǔ)原文中被動(dòng)結(jié)構(gòu)共1524句。而漢語(yǔ)譯文中的被動(dòng)句數(shù)量卻相距甚遠(yuǎn)。英漢被動(dòng)句在數(shù)量上不對(duì)等,具有不對(duì)稱性[24-25]。研究已知,只有部分英語(yǔ)被動(dòng)句處理成了含被動(dòng)標(biāo)記詞的漢語(yǔ)被動(dòng)句。英語(yǔ)被動(dòng)句對(duì)應(yīng)譯成漢語(yǔ)被動(dòng)句,在結(jié)構(gòu)形式和意義上都能保持很好的對(duì)等,能夠傳達(dá)最多的源語(yǔ)信息量[12],且再現(xiàn)原文的語(yǔ)言結(jié)構(gòu)。從這點(diǎn)來(lái)看,將英語(yǔ)被動(dòng)句順譯成漢語(yǔ)被動(dòng)句是不錯(cuò)的策略,能夠體現(xiàn)不同的翻譯特點(diǎn)。
(一)在線機(jī)譯與人工翻譯被動(dòng)句的相似度比較
根據(jù)漢語(yǔ)形式被動(dòng)句的特點(diǎn),即含有各類被動(dòng)語(yǔ)法標(biāo)記詞,如“被”、“叫”、“讓”、“遭”、“蒙”、“是……的”等[18][19]。此外,漢語(yǔ)還通過(guò)一些介詞或動(dòng)詞結(jié)構(gòu),如“得以(事件得以圓滿解決)”,“有……著”(莉迪亞有母親寵著)等表達(dá)被動(dòng)含義。但由于數(shù)量太少,本文將其一并歸入“其它”。本研究提取18類對(duì)應(yīng)翻譯成的漢語(yǔ)被動(dòng)句,具體數(shù)據(jù)如表1所示。
表1 英語(yǔ)被動(dòng)句對(duì)譯成的各類漢語(yǔ)被動(dòng)句
將每個(gè)譯本都視為一個(gè)18維的文本向量,實(shí)現(xiàn)譯本向量化。之后用主成分分析法求得特征值和特征向量,將特征值按照從大到小的順序排列,然后計(jì)算信息累積量,最后提取前幾個(gè)貢獻(xiàn)較多的主成分。通常情況下,主成分累計(jì)貢獻(xiàn)率需要達(dá)到85%以上,為了保留更多的信息量,本文取閾值90%。經(jīng)過(guò)計(jì)算和提取,第一個(gè)主成分方差貢獻(xiàn)率為87.77%,第二個(gè)主成分為11.59%,前兩個(gè)主成分累計(jì)方差貢獻(xiàn)率達(dá)到99.36%,即,保留了原始文本向量絕大多數(shù)的信息量。因此,可以用兩個(gè)新的主成分來(lái)代替原來(lái)的18個(gè)維度。此外,經(jīng)過(guò)計(jì)算,兩個(gè)新主成分間的相關(guān)系數(shù)為0,說(shuō)明兩者之間相互正交,這就消除了原始特征間的相關(guān)性和共線性,同時(shí)也表明算法的正確性。用這兩個(gè)主成分建立新的二維正交坐標(biāo)系,則各譯本所在的空間位置如圖1所示。
圖1 主成分圖
各譯本之間的距離,即翻譯的不相似性,由各自所在的空間位置決定。由圖1可知,四個(gè)人工譯本在空間中分布較為集中,說(shuō)明使用主成分分析法能夠成功實(shí)現(xiàn)兩類譯本的分類和聚類,對(duì)于譯本比較和文本數(shù)據(jù)挖掘有重要的應(yīng)用價(jià)值。各譯本位置與原點(diǎn)的連線即構(gòu)成該譯本的文本向量。由此可知,四個(gè)人工譯本相互之間的距離和夾角都很小,說(shuō)明人工翻譯的相似度較高。與之相反,人工譯本與在線機(jī)譯文本之間的距離卻相對(duì)較遠(yuǎn),且?jiàn)A角很大,說(shuō)明在線機(jī)譯與人工仍有很大的差距。因此,使用主成分分析法研究各譯本被動(dòng)句對(duì)應(yīng)翻譯的特征,可將人工譯本和在線機(jī)譯譯本進(jìn)行區(qū)分并加以歸類,說(shuō)明在英語(yǔ)被動(dòng)句的對(duì)應(yīng)翻譯上,在線機(jī)譯與人工有顯著的差異。
(二)兩類譯本的向量距離
由4.1節(jié)可知,通過(guò)降維法已提取兩個(gè)主成分,累計(jì)貢獻(xiàn)率達(dá)99.36%,可以解釋絕大部分的信息量。因此,可將原有的18維文本向量投射到2維空間中,則每個(gè)譯本都可降成二維的向量,如表2所示。
表2 主成分特征向量
通過(guò)兩個(gè)主成分組成的特征向量(表2中每列代表一個(gè)對(duì)應(yīng)的文本向量),使用上述改進(jìn)的向量距離公式(6),求得各譯本之間的實(shí)際向量距離如表3所示:
表3 各譯本被動(dòng)句向量之間的距離
向量距離數(shù)值均在0到1之間,值越大,說(shuō)明距離越遠(yuǎn),則被動(dòng)句的對(duì)應(yīng)翻譯越不相似。距離具有對(duì)稱性,即文本向量 和 的距離與 和 的距離相同,故表3中只列出左半部分距離數(shù)值。由表3可知,在線譯本與人工譯本之間的距離都在0.6以上,而人工譯本之間的余弦距離基本在0.2以下,可得出與上一小節(jié)(4.1)類似的結(jié)論,即在線機(jī)譯與人工翻譯的差異性較大。此外,孫致禮譯本和王科一譯本間的向量距離僅有0.0147,說(shuō)明這兩名譯者在被動(dòng)句的翻譯上相似度最高。從表1大致可以看出,兩個(gè)譯本的數(shù)據(jù)結(jié)構(gòu)和變化也較為一致。由被動(dòng)句的對(duì)應(yīng)翻譯推及整個(gè)譯本,或許這兩個(gè)譯本的翻譯風(fēng)格也最相近。
張經(jīng)浩譯本和在線譯本的距離為0.6271,是人工譯本與在線譯本的最小距離。而人工譯本之間距離的最大值為0.1866(張經(jīng)浩與張玲譯本的距離)。兩個(gè)數(shù)值相差約3倍,表明在線譯本與人工譯本的相似度較小,而人工譯本之間相似度較高。因?yàn)殡m然不同譯者的翻譯風(fēng)格有差異,遣詞用句也各有特點(diǎn),但都遵循漢語(yǔ)的自然使用習(xí)慣,都不脫離原文,都遵循原文的內(nèi)容,故整體相似度較高。而在線機(jī)譯有賴于雙語(yǔ)語(yǔ)料和統(tǒng)計(jì)規(guī)則有限的限制,導(dǎo)致其在翻譯英語(yǔ)被動(dòng)句時(shí),不能像人工翻譯那樣靈活多變,因而會(huì)產(chǎn)出大量單一的“被”字句。并且,機(jī)譯的“被”字句中,有些并不符合漢語(yǔ)的語(yǔ)用色彩,可讀性較低,說(shuō)明機(jī)譯需要更多的改進(jìn)。
為了更直觀地呈現(xiàn)各譯本間的距離,比較其翻譯相似度,將表3的數(shù)據(jù)以折線圖畫出,如圖 2所示。
圖2 各譯本之間的向量距離折線圖
圖2中每條線的折點(diǎn)代表對(duì)應(yīng)譯本與該點(diǎn)投影的橫坐標(biāo)上各譯本之間的向量距離??梢钥闯?,在線機(jī)譯的前五個(gè)折點(diǎn)均在其余五條線前五個(gè)折點(diǎn)的上方,而其余五條線的前五個(gè)折點(diǎn)全都在0.2以下,這就直觀地表明,在線機(jī)譯的被動(dòng)句翻譯與人工翻譯的有很大的距離。另一方面,該圖也證明了上述結(jié)論,即各人工譯本之間的距離都很接近。人工譯者與王科一譯本的距離都很近。因此,人工平均譯本與王科一的也最為接近,從圖2中的對(duì)應(yīng)譯本的線條距離和趨勢(shì)也能看出。張經(jīng)浩與在線機(jī)譯的距離0.6271對(duì)應(yīng)的點(diǎn)是個(gè)突出的轉(zhuǎn)折點(diǎn),說(shuō)明被動(dòng)句翻譯方面,兩者的相似度明顯高于其它人工譯者與機(jī)譯之間的相似度。同理,張玲與機(jī)譯的距離最遠(yuǎn)(距離為1),說(shuō)明兩者的被動(dòng)句翻譯最不相似。
本研究基于語(yǔ)料庫(kù)翻譯學(xué)與文本數(shù)據(jù)挖掘的方法,提出了一種結(jié)合向量空間模型與主成分分析的向量距離測(cè)算方法,實(shí)現(xiàn)了人工譯本與在線機(jī)譯譯本在被動(dòng)句對(duì)應(yīng)翻譯相似度的定量測(cè)算和對(duì)比。研究發(fā)現(xiàn),無(wú)論人工還是在線機(jī)譯,只有少數(shù)英語(yǔ)被動(dòng)句對(duì)應(yīng)翻譯成了漢語(yǔ)被動(dòng)句。漢語(yǔ)被動(dòng)句明顯少于英語(yǔ),英漢被動(dòng)句的翻譯存在極大的不對(duì)稱性。
使用文本數(shù)據(jù)挖掘的方法,即向量距離評(píng)估方法,可以對(duì)比兩類譯本被動(dòng)句翻譯特征的相似度。結(jié)果表明人工譯本和在線譯本的距離較大,人工譯本之間的距離都較小,說(shuō)明在線譯本的翻譯質(zhì)量和人工翻譯尚有不小的差距。本研究雖然著眼于英語(yǔ)被動(dòng)句的對(duì)應(yīng)翻譯,但該方法也可應(yīng)用到其它特殊句式或者整個(gè)譯本的文本數(shù)據(jù)挖掘中。使用數(shù)理模型和計(jì)量算法,對(duì)于譯本對(duì)比及翻譯風(fēng)格對(duì)比的定量研究或許更加科學(xué)客觀,且有推廣價(jià)值。
[1] 袁軍鵬, 朱東華, 李毅等. 文本挖掘技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2006 (2):1-3.
[2] 郭慶琳, 李艷梅, 唐琦. 基于VSM的文本相似度計(jì)算的研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2008 (11):3256-3258.
[3] 王克非. 語(yǔ)料庫(kù)翻譯學(xué)探索[M]. 上海:上海交通大學(xué)出版社, 2012:58-114.
[4] 蔣躍. 人工譯本與機(jī)器在線譯本的語(yǔ)言計(jì)量特征對(duì)比——以5屆韓素音翻譯競(jìng)賽英譯漢人工譯本和在線譯本為例[J]. 外語(yǔ)教學(xué), 2014(5):98-103.
[5] 黃立波, 王克非. 語(yǔ)料庫(kù)翻譯學(xué):課題與進(jìn)展[J]. 外語(yǔ)教學(xué)與研究,2011(6):911-921.
[6] 黃偉, 劉海濤. 漢語(yǔ)語(yǔ)體的計(jì)量特征在文本聚類中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009(29):25-27.
[7] 胡顯耀. 基于語(yǔ)料庫(kù)的漢語(yǔ)翻譯語(yǔ)體特征多維分析[J]. 外語(yǔ)教學(xué)與研究, 2010(6):451-458.
[8] 董琇. 基于降維法的譯者風(fēng)格研究[J]. 外語(yǔ)教學(xué)與研究, 2014(2):282-293.
[9] 戴新宇, 尹存燕, 陳家駿,等. 機(jī)器翻譯研究現(xiàn)狀與展望[J]. 計(jì)算機(jī)科學(xué), 2004(11):176-179.
[10] 李梅, 朱錫明. 譯后編輯自動(dòng)化的英漢機(jī)器翻譯新探索[J]. 中國(guó)翻譯, 2013(4):83-87.
[11] 柏曉靜, 詹衛(wèi)東. 漢語(yǔ)“被”字句的約束條件與機(jī)器翻譯中英語(yǔ)被動(dòng)句的處理[R]. 武漢:漢語(yǔ)被動(dòng)表述問(wèn)題國(guó)際學(xué)術(shù)研討會(huì),2003.
[12] 鄭聲滔. 將英語(yǔ)被動(dòng)句順譯成漢語(yǔ)被動(dòng)句的技巧[J]. 重慶郵電學(xué)報(bào), 2003 (1):83-91.
[13] 簡(jiǎn)·奧斯汀. 傲慢與偏見(jiàn)[ M]. 王科一, 譯. 上海:上海譯文出版社, 1980.
[14] 簡(jiǎn)·奧斯汀. 傲慢與偏見(jiàn)[ M]. 孫致禮, 譯. 南京:譯林出版社, 1985.
[15] 簡(jiǎn)·奧斯汀. 傲慢與偏見(jiàn)[ M]. 張玲, 張揚(yáng), 譯.北京:人民文學(xué)出版社, 1993.
[16] 簡(jiǎn)·奧斯汀. 傲慢與偏見(jiàn)[ M]. 張經(jīng)浩, 譯. 杭州:浙江文藝出版社, 2004.
[17] QUIRK Q S, GREENBAUM G, et al. A comprehensive Grammar of the English Language [M]. London:Longman Group United Kingdom, 1985:167-171.
[18] 王力. 漢語(yǔ)語(yǔ)法史[M]. 北京:商務(wù)印書館, 2005:285.
[19] 屈哨兵. 現(xiàn)代漢語(yǔ)被動(dòng)標(biāo)記研究[M]. 武漢:華中師范大學(xué)出版社, 2008:2-36.
[20] 朱華宇, 孫正興, 張福炎. 一個(gè)基于向量空間模型的中文文本自動(dòng)分類系統(tǒng)[J]. 計(jì)算機(jī)工程, 2001[2]:15-17.[21] 蘇振魁. 基于馬爾科夫模型的文本相似度研究[D]. 大連:大連理工大學(xué), 2007:2.
[22] 屈梁生, 張西寧, 沈玉娣. 機(jī)械故障診斷理論與方法[M]. 西安:西安交通大學(xué)出版社, 2009:170-173.
[23] 傅德印. 主成分分析中的統(tǒng)計(jì)檢驗(yàn)問(wèn)題[J]. 統(tǒng)計(jì)教育, 2007(9):4-7.
[24] LI CHARLES N, SANDRA A. Thompson:Mandarin Chinese-A Functional Reference Grammar[M]. Berkeley and Los Angeles:University of California Press, 1981:498.
[25] XIAO R, A MCENERY, Y QIAN. Passive constructions in English and Chinese-A corpus-based contrastive study [J]. Languages in Contrast, 2006 (6):109-149.
(責(zé)任編輯:司國(guó)安)
A Vector Distance Algorithm for Similarity between Human Translation and Online Translation of English Passives
JIANG Yue, ZHANG Yingxian, HAN Hongjian
(School of Foreign Languages, Xi′an Jiaotong University, Xi′an 710049, China)
By combining corpus-based translation studies with textual data mining methods, this research proposes a new vector distance algorithm by combining Vector Space Model (VSM) and Principal Component Analysis (PCA), to measure the similarity between online translation and human translation of English passives into Chinese passives in a formally parallel manner. The results show that not many English passives are translated correspondingly into Chinese passives. The four human translated texts studied are close to each other but far from online translation in vector distance, indicating a low similarity between human and online translations.Conclusively, the results and method of this study can be applied to translation comparison and provide a new statistical algorithm for measuring textual similarity so as to study and compare different translated texts more objectively.
online translation; passives; similarity; vector space model; principal component analysis; vector distance
10.15896/j.xjtuskxb.201603016
2015-04-13
教育部社科規(guī)劃項(xiàng)目(15YJA740016)
蔣躍(1958- ),男,西安交通大學(xué)外國(guó)語(yǔ)學(xué)院教授,博士生導(dǎo)師。
H059
A
1008-245X(2016)03-0110-07
西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2016年3期