藍楊
(浙江警官職業(yè)學院,浙江杭州,310018)
國際教育學習成就調(diào)查委員會(The International Association for the Evaluation of Education Achievement, 以下簡稱 IEA)的主要工作是了解各國學生數(shù)學及科學(含物理、化學、生物、及地球科學)方面學習成就、教育環(huán)境等影響學生學習成效的因素,找出關聯(lián)性,并在國際間相互作比較。自1970年起開始第一次國際數(shù)學與科學教育成就調(diào)查后,世界各國逐漸對國際數(shù)學與科學教育成就研究感到興趣,IEA便在 1995年開始每四年辦理國際數(shù)學與科學教育成就研究一次,稱為國際數(shù)學與科學教育成就趨勢調(diào)查(Trends in International Mathematics and Science Study,以下簡稱TIMSS )。
中國教育科學研究院于1983年正式成為IEA的團體會員,并計劃加入和引進TIMSS的調(diào)研活動,以期對中國數(shù)學教育和科學教育產(chǎn)生積極的作用。而我國的臺灣省于1999年加入TIMSS后,已經(jīng)開始著手實施相關工作,包括負責試題翻譯及測驗工作。本文在對國外和臺灣的相關試題測試工作進行研究和分析后,對TIMSS試題翻譯作了初步的研究分析。
以往使用人工翻譯雖然可以達到很高的翻譯質(zhì)量,但是需要耗費相當多的人力資源和時間,而且在翻譯過程中不同的翻譯者會有不同的翻譯標準,相同的翻譯者也可能在文章前后翻譯方式不一致而產(chǎn)生語意上的混淆。因此此類語言轉(zhuǎn)換導致的問題間接影響試題難易程度。若直接將英文詞匯透過英漢字典翻譯成相對的中文詞匯,翻譯的結(jié)果可能會不符合一般人的用詞順序。另外中文的自由度較高,很容易造成翻譯上用詞順序的不同。例如:“下圖顯示某一個國家所種谷物的分布圖”,也可翻譯為“某一個國家所種谷物的分布圖,如下圖顯示”。可能會影響到受測者的思緒,使作答時粗心的情形增加。因此,若能利用機器翻譯(machine translation)的技術來輔助翻譯以及調(diào)整詞序,便可提高翻譯的質(zhì)量和效率。
Dorr等學者[1]將現(xiàn)在機器翻譯依據(jù)系統(tǒng)處理的方式來分類,分成以語言學為基礎翻譯(linguistic-based paradigms),例如基于知識(knowledge-based)和基于規(guī)則(rule-based)等;以及非語言學為基礎翻譯(nonlinguistic-based paradigms) ,例如基于統(tǒng)計(statisticalbased)和基于范例(example-based)等。
以知識為基礎的機器翻譯(knowledge-based machine translation)系統(tǒng)是運用字典、語法規(guī)則或是語言學家的知識來幫助翻譯。這種利用字典來幫助翻譯的系統(tǒng),會有一字多義的情形發(fā)生,一個詞匯在字典中通常有一個以上的翻譯。以英翻中為例“current”這個字在字典里就有十多種不同的翻譯,即使專家也無法找出一個統(tǒng)一的規(guī)則,在何種情況下要用何種翻譯,所以在翻譯的質(zhì)量和正確性上很難滿足使用者的的需求。因此,翻譯系統(tǒng)通常都會限定領域來減少一字多義,例如“current”在電子電機類的文章中出現(xiàn),最常被翻譯為電流,在文學類的文章中,最常被翻譯為現(xiàn)代。
以范例為基礎的機器翻譯(example-based machine translation,以下簡稱為 EBMT)的相關研究已有相當多年歷史,在1990年美國學者Brown和Pietra[2]所提出的EBMT是將翻譯過程分為分解(decomposition)、轉(zhuǎn)換(transfer)和合成(composition)三步驟。分解階段是將來源句放到范例庫中搜尋,將所搜尋到 worddependency tree當作來源句的word-dependency tree,并且形成來源句的表示式;轉(zhuǎn)換階段將來源句的表示式轉(zhuǎn)換成目標句的表示式;合成階段將目標句的表示式展開為目標句的word-dependency tree,并輸出翻譯結(jié)果。Al- Adhaileh等學者[3]將 structured string tree correspondence(SSTC)運用在英文翻譯成馬來西亞文的過程中,SSTC是一種能將英文對應馬來西亞文的結(jié)構(gòu),但此結(jié)構(gòu)并沒有解決詞序交換的問題。目前較完整的EBMT系統(tǒng)為tree-string correspondence (TSC)結(jié)構(gòu)和統(tǒng)計式模型所組成的 EBMT系統(tǒng)[4],在比對TSC結(jié)構(gòu)的機制是計算來源句剖析樹和 TSC比對的分數(shù),產(chǎn)生翻譯的是由來源詞匯翻譯成目標詞匯的機率和目標句的語言模型所組成。
我們提出雙語樹對應字符串的結(jié)構(gòu)(bilingual structured string tree correspondence,簡稱為BSSTC)是可以運用在多元剖析樹上的,并且 BSSTC可在翻譯過程中當作詞序交換的參考。根據(jù)我們實驗結(jié)果,我們能有效的調(diào)動詞序,以提升翻譯的質(zhì)量。完成詞序交換后,再透過字典翻譯成中文,最后運用統(tǒng)計式選詞模型,產(chǎn)生初步翻譯結(jié)果,但本系統(tǒng)尚屬于半自動翻譯系統(tǒng),故需要人工加以修飾編輯。
由于我們的目的在于利用中英互為翻譯的句子找出詞序關系,并且將英文句和中文句詞序的信息儲存在計算機中,儲存的格式是將中英文句的詞序關系記錄在英文剖析樹的結(jié)構(gòu)中,此結(jié)構(gòu)將成為之后英文句的結(jié)構(gòu)調(diào)整為適合中文的結(jié)構(gòu)的參考。最后再將英文詞匯翻譯成中文詞匯,并利用統(tǒng)計式選詞選出最有可能翻譯成的中文詞匯,讓翻譯的結(jié)果更符合一般人的用詞和順序。
本系統(tǒng)的架構(gòu)如圖1所示。我們針對范例樹產(chǎn)生的系統(tǒng)和英文句翻譯系統(tǒng)這兩部份分別簡介如下。
范例樹產(chǎn)生系統(tǒng):這個系統(tǒng)利用中英平行語料作為基礎,這里的中英平行語料必需要一句英文句對應一句中文句,且每一組中英文句都要是互為翻譯的句子。中文句經(jīng)過斷詞處理后,被斷成數(shù)個中文詞匯,以空白隔開;英文句則經(jīng)過英文剖析器建成英文剖析樹。將斷詞后的結(jié)果和英文剖析樹經(jīng)過剖析樹對應字符串模塊處理,建成英文剖析樹對應字符串的結(jié)構(gòu)樹,此結(jié)構(gòu)樹稱為范例樹。再將每個范例樹取出子樹,并且判斷是否有詞序交換,將需要詞序交換的范例樹全部存入范例樹數(shù)據(jù)庫中方便搜尋。
英文句翻譯系統(tǒng):當輸入英文句后,先將句子透過英文剖析器,建成英文剖析樹。有了英文剖析樹就可以透過搜尋范例樹模塊,標記英文剖析樹上需要調(diào)動詞序的結(jié)構(gòu),并依照所標記的詞序作調(diào)整。詞序調(diào)整完成后再將英文結(jié)構(gòu)樹中的英文單字或詞組透過翻譯模塊做翻譯。其中翻譯模塊包含了大小寫轉(zhuǎn)換、斷詞處理和禁用詞過濾等環(huán)節(jié),之后將處理過的詞匯透過字典文件做翻譯[5]。每個英文單字或詞組都可能有一個以上的中文翻譯,因此需要選詞的機制來產(chǎn)生初步翻譯結(jié)果,此翻譯結(jié)果尚需要人工作后續(xù)的編修。
圖1 系統(tǒng)框架圖
根據(jù)上一節(jié)介紹,系統(tǒng)架構(gòu)分為范例樹產(chǎn)生系統(tǒng)和英文句翻譯系統(tǒng)兩大系統(tǒng)。范例樹產(chǎn)生系統(tǒng)的執(zhí)行流程為先處理中文句斷詞和剖析英文句,再將斷詞和剖析后的結(jié)果輸入至剖析樹對應字符串模塊,并將處理后的范例樹存入數(shù)據(jù)庫中。英文句翻譯系統(tǒng)的執(zhí)行流程區(qū)分為三大部分,第一部分為搜尋范例樹模塊,將英文剖析樹跟范例樹數(shù)據(jù)庫作比對,并且將未比對到的子樹做修剪;第二部分將修剪后的剖析樹輸入到翻譯模塊翻成中文;第三部分以中英詞匯對列工具及bi-gram語言模型,計算出中英詞匯間最有可能之翻譯組合。
在建立 BSSTC結(jié)構(gòu)之前,我們必須將中英平行語料中的中英文句先作前處理,我們將英文句透過StanfordLexParser-1.6[6]建成剖析樹,剖析樹的每個葉子節(jié)點為一個英文單字,并以英文單字為單位由1開始標號。這里我們將樹根定義為第0層,樹根的子樹是第1層,越往下層數(shù)越大,故葉子節(jié)點必定是英文單字,且不屬于任何一層,如圖2所示。中文句子斷詞后的單位由1開始標號。這里的中文句代表來源句;英文句則代表目標句。本結(jié)構(gòu)都假設中英文對應是在詞匯的對應或連續(xù)字符串的對應基礎上。假設剖析樹的節(jié)點集合N={N1,N2, …,Nm},m為剖析樹上節(jié)點個數(shù),對任一節(jié)點n∈N,n有三個參數(shù)分別是n[STREE//]、n[/STC/]和n[//ORDER]; 我 們 以n[STREE/STC/ORDER]來表示。為了方便說明,若節(jié)點n只有n[STREE//]和n[/STC/],則以n[STREE/STC/]表示。再假設nC(n)為節(jié)點n有1到C(n)個子節(jié)點。n[STREE//]為節(jié)點n所涵蓋來源句的范圍,層數(shù)最大節(jié)點的n[STREE//]必定對應到一個來源句單字,此參數(shù)的功用為當作每個節(jié)點的鍵值(primary key),故在同一棵剖析樹中n[STREE//]不會重復。圖 3是一個BSSTC結(jié)構(gòu)的例子,來源句為英文:“Our experiments were simple in concept”;目標句為中文:“我們的實驗概念很簡單”。首先英文句必須先建成剖析樹,每個葉子節(jié)點為一個英文單字,并以英文單字為單位做標 號 , 例 如 : “Our(1)”, “ex-periments(2)”,“were(3)”, “simple(4)”, “in(5)”,“concept(6)”。另外中文句經(jīng)過斷詞的處理后,以斷詞后的單位做標號,例如:“我們(1)”, “的(2)”, “實驗(3)”, “概念(4)”, “很(5)”, “簡單(6)”。中英對應句都標號后,以標號為單位開始做詞匯對準(word alignment),并標記在剖析樹的節(jié)點上。剖析樹是用文法結(jié)構(gòu)來分層,不同層節(jié)點能對應到不同的范圍的目標句字符串。n[STREE/STC/]若為 VP[3-6/4-6/],則 STREE代表節(jié)點 VP對應來源句第三到第六個字 “were simple in concept”;STC代表“were simple in concept”對應目標句的第四到第六個字“概念很簡單”。nC(n)[STREE/STC/ORDER]的兄弟節(jié)點(sibling node)若為JJ[4/6/2]和PP[5-6/4/1],我們可以觀察到JJ的ORDER大于PP的ORDER,故PP[5-6/4/1]的中文對應「概念」在JJ[4/6/2] 的中文對應「簡單」之前。
圖2 英文剖析數(shù)
圖3 BSSTC結(jié)構(gòu)的表示法
建立 BSSTC結(jié)構(gòu)必需要有英文跟中文互為翻譯的句子,建構(gòu)的順序是從最底層也就是層數(shù)最大的開始標記,再一層一層往上建置到第0層為止,標記參數(shù)順序是先將所有節(jié)點的n[STREE//]和n[/STC/]標記完后,再標記n[//ORDER]。首先,標記最底層n[STREE//]的方法,是將最底層的節(jié)點n所對應葉子節(jié)點的編號標記在n[STREE//]。如圖3節(jié)點NNS所對應來源句的“experiments”的編號為 2,故 NNS[STREE//]中的 STREE標記為 2。接著標記最底層n[/STC/]的方法是尋找中英對應句中互為翻譯的中文詞匯和英文詞匯,也就是詞匯對準。詞匯對準若采用人工方式,則相當耗時費力,其本身也是一項困難的研究。如圖3來源句的“experiments”在字典中的翻譯有“實驗”、“經(jīng)驗”和“試驗”,將這三個中文翻譯到目標句去比對,此例子將會比對到目標句第三個詞匯“實驗”,接著將目標句“實驗”的編號標記在NNS[2/STC/]中的STC上。最后將比對到的個數(shù)除以英文句單字的個數(shù),稱為對應率。最佳情況下是每個英文單字都有相對應的中文翻譯,對應率為 1;最差的情況下每個英文單字都沒有相對應的中文翻譯,對應率為0,所以對應率會落在0到1之間,值越大代表對應率越高。我們需要夠大的對應率,才能認定為范例樹。因此,需要定一個門坎值來篩選,根據(jù)實驗結(jié)果當門坎值越高留下來的范例樹越少,而門坎值越低會使翻譯的質(zhì)量下降。
圖4 僅標記最底層
根據(jù)搜尋范例樹算法的流程,如圖 7。首先將來源句的剖析樹加到數(shù)列(queue)里,從數(shù)列里面取出一棵剖析樹到范例樹數(shù)據(jù)庫中,搜尋是否有相同結(jié)構(gòu)的范例樹;如為否,則將此棵樹的下一層的子樹加入數(shù)列,加入數(shù)列的順序為左子樹到右子樹;如為是,則將該樹的ORDER標記在來源句的剖析樹上,繼續(xù)取出數(shù)列內(nèi)的剖析樹,直到數(shù)列里沒有剖析樹為止。所以來源句的剖析樹是由一個以上的匹配子樹所組成。
圖5 僅標記STREE及STC
圖6為剖析樹搜尋范例樹的情形。來源句:“The graph shows the heights of four girls”,剖析樹為“(S(NP(DT The)(NN graph))(VP(VBZ shows)(NP(NP(DT the)(NNS heights))(PP(IN of)(NP(CD four)(NNS girls)))))”。透過搜尋范例樹算法找出匹配子樹,首先以節(jié)點S為樹根的剖析樹到數(shù)據(jù)庫作搜尋,搜尋時不包含葉子節(jié)點,此例子沒搜尋到匹配子樹,則將節(jié)點S的子樹NP和VP加入數(shù)列中。接下來將從數(shù)列中取出的子樹為 NP,到范例樹數(shù)據(jù)庫搜尋匹配子樹,但數(shù)據(jù)庫中沒有相同的范例樹,此時NP的子樹皆為葉子節(jié)點,所以并無子樹在加入數(shù)列中。依照先進先出的原則下一個從數(shù)列取出的是S的右子樹VP,在范例樹數(shù)據(jù)庫中還是搜尋不到,因此要將VP的子樹VBZ和NP加入數(shù)列中,但VBZ為葉子節(jié)點,故只有NP加入數(shù)列中。接下來是子樹NP從數(shù)列中被取出來,子樹NP在數(shù)據(jù)庫中搜尋到相同的范例樹,如圖六的范例樹就是所搜尋到的匹配子樹,因此將范例樹的ORDER標記上去,標記后的剖析樹將如圖8所示。此時數(shù)列中已經(jīng)為空,搜尋范例樹的流程到此為止。
標記完ORDER之后,將沒有標記的子樹作修剪,也就是將不用作詞序交換的子樹修剪到最小層樹。如圖8節(jié)點S的右子樹、NP[2]和NP[1]的子樹皆不需要作詞序交換,因此修剪的結(jié)果為“(S(NP The graph)(VP(VBZ shows)(NP(NP[2] the heights)(PP[1](IN[2]of)(NP[1] four girls))))) ”,如圖9所示。最后從層數(shù)最大的每個兄弟節(jié)點開始逐層往上依照優(yōu)先權順序調(diào)整剖析樹的結(jié)構(gòu);調(diào)整后的結(jié)果將會輸入到翻譯模塊產(chǎn)生翻譯。若我們直接取來源句剖析樹的葉子節(jié)點作翻譯,將會成為單字式的翻譯,我們將無法對詞組或詞組作翻譯。翻譯的部分會在下一節(jié)會作詳細說明。
圖6 剖析數(shù)與范例數(shù)的對應關系
圖7 搜尋范例數(shù)演算法
圖8 完成ORDER標記
圖9 剖析書修剪后的結(jié)果
圖10 調(diào)整詞序后的結(jié)果
經(jīng)過上一節(jié)處理最后得到修剪樹,修剪樹的葉子節(jié)點可能為英文單字(word)、詞組(term)。詞組即為數(shù)個單字結(jié)合的字符串,不一定為完整的句子,如“would be left on the floor”或詞組(phrase,如名詞詞組、動詞詞組、形容詞詞組等) ,如“in order to”。在翻譯處理上會遇到英文單字或詞組,在英文單字的部分,直接查尋字典文件作翻譯;詞組的部分利用規(guī)則詞典文件的詞組,和詞組進行字符串比對,以找出符合的詞組及中文翻譯。以下為字典文件及規(guī)則詞典文件分項說明。
字典文件:字典文件部分我們使用Concise Oxford English Dictionary[8](牛津現(xiàn)代英漢雙解詞典,收錄39429個詞匯),將前處理過后的英文單字或詞組做翻譯對等字搜尋的動作,找出所有和該英文單字的中文詞組,作為翻譯的候選名單。如無法在字典文件中搜尋到對應的中文翻譯。如姓名和專有名詞,則直接輸出該英文字。
規(guī)則詞典文件:為常用的名詞詞組、動詞詞組、形容詞詞組等詞組,以及試題翻譯小組所決議之統(tǒng)一翻譯詞組以人工的方式建立的中英翻譯對照檔,如in order to(為了)。 分成單字和詞組翻譯是因為若在規(guī)則詞典文件比對不到,則用空白來做一般字和字之間的斷詞,也就變成單字的翻譯,因為詞組較能完整表現(xiàn)出動作或敘述。如只用單字作翻譯,會造成翻譯上的錯誤。須注意的是比對的句型若有相似結(jié)構(gòu)但不同長度的字符串樣式,則取長度最長的為結(jié)果。如一英文句子為“…as shown in diagram…”,同時滿足規(guī)則詞典文件內(nèi)的“as shown in diagram”和“in diagram”片語句型,則我們會選擇長度較長的“as shown in diagram”而不是選擇“in diagram”加上“as show”作為斷詞的結(jié)果。 在英文翻譯成中文的過程中,有些英文單字不需要翻譯或是無意義的情形,所以我們將這些單字過濾不翻譯,這些單字稱為stop word。例如:冠詞the直接去除。介詞for、to、of等,若前一單字為 what、how、who、when、why等疑問詞,則允許刪除,另外,to出現(xiàn)在句首直接刪除。助動詞do、does等,判斷方式與介詞相同。在翻譯過程中還可能出現(xiàn)詞干變化(如~ing、~ed等)和詞性變化(如動詞break,其過去式為 broke,被動式為 broken,以及名詞單復數(shù)型態(tài))。詞干變化的部份,我們可以還原各詞性(名詞、動詞、形容詞、副詞);詞性變化的部分,有些是不規(guī)則的變化,較難用算法處理。
本節(jié)主要介紹利用本系統(tǒng)翻譯國際數(shù)學與科學教育成就趨勢調(diào)查2010年考題,簡稱TIMSS2010,并將試題依照年齡別和科目別,分別比較翻譯的質(zhì)量。最后將與在線翻譯以及已經(jīng)研發(fā)在用的翻譯系統(tǒng)作比較。評估方式為利用BLEU(IBM公司的機器翻譯評測標準)及美國國家標準與技術研究院 NIST(National Institute of Standards and Technology)指標。
用來翻譯的來源為TIMSS2010試題, 所有實驗語料句對數(shù)、中英詞匯數(shù)、中英總詞匯個數(shù)及平均句長,皆如表1所示。用來建立范例樹的來源有中國教育科學院委托北京實驗二小和北京第四中學語文學習教科書補充資料題庫[7]及科學人雜志。補充數(shù)據(jù)題庫以人工方式完成中英語句對列(sentence alignment),再經(jīng)過范例樹的篩選門坎值為0.6的情況下有565句。用來訓練選詞機率模型的來源有自由時報中英對照讀新聞及科學人雜志。自由時報中英對照讀新聞從2009年2月14日至2011年10月31日,而自由時報中英對照讀新聞本身就已經(jīng)作好中英語句對列??茖W人雜志是從2006年3月至2009年12月共110 篇為語料來源。
首先,將TIMSS2010試題問句以逗號、問號或驚嘆號作為斷句的單位,每個誘答選項做為斷句的單位,若一道題目為一句試題問句及四項誘答選項所組成,則一道題目可斷出五句。經(jīng)過人工斷句處理TIMSS2010試題,小學數(shù)學領域有165句;小學科學領域有262句;中學數(shù)學領域有439句;中學科學領域有236句,并整理為文字文件。建立范例樹數(shù)據(jù)庫所使用的語料為中學補充數(shù)據(jù)題庫,訓練機率模型所使用的語料自由時報中英對照讀新聞加上科學人雜志,其中訓練語言模型得到的bi-gram共有134435個。
主要評估的對象有Google在線翻譯、Yahoo在線翻譯及本系統(tǒng)互相做比較,并且評估翻譯系統(tǒng)在不同年級的試題內(nèi)容上,翻譯質(zhì)量是否會按照越低年級其翻譯質(zhì)量越好的趨勢。因此,我們將實驗組別分為中學生段和小學生段;數(shù)學領域以M為代號,科學領域以S為代號,當作實驗組別的名稱??梢訲IMSS2010分為中學段2010 M組、中學段2010 S組、小學段2010 M組及以小學段2010 S組四組;在加上TIMSS 2010數(shù)學及科學領域之中學段試題,和TIMSS 2010數(shù)學及科學領域之小學段試題,分別為中學段2010MS組及小學段2010MS組,總共六組,如表2所示。
從表3可觀察到,中學段2010 M組NIST分數(shù)以Yahoo!最高分,但 BLEU分數(shù)與本系統(tǒng)相近,可知Yahoo對中學段2010 M組所翻譯的詞匯跟參考翻譯較相同,但Yahoo和本系統(tǒng)翻譯后詞序的正確性是差不多的。小學段2010 M組試題中有較多特殊符號,例如○和●等,Yahoo及Google在線翻譯系統(tǒng)會將這些特殊符號處理成亂碼,但本系統(tǒng)可以將特殊符號保留下來,故小學段和中學段2010 M組與最高分系統(tǒng)的差距較小。先前我們假設翻譯質(zhì)量是否會按照越低年級其翻譯質(zhì)量越好的趨勢,觀察中學段2010MS組及小學段MS組,可發(fā)現(xiàn)與假設相反,各系統(tǒng)在中學段2010 MS組的表現(xiàn)都比小學段2010 MS組要好??赏茰y出本系統(tǒng)其中一種語料為中學補充數(shù)據(jù)題庫較符合TIMSS中學段2010的試題。
表1 實驗語料來源統(tǒng)計
表2 TIMSS試題實驗組別表
表3 本系統(tǒng)及以上翻譯系統(tǒng)之NIST及BLEU值比較表
我們將中學段 2010M組和中學段 2010S組作比較,小學段2010 M組和小學段2010 S組作比較,可以發(fā)現(xiàn)各系統(tǒng)除了Google之外,在M組上表現(xiàn)都比S組好,因為M組的試題內(nèi)容包含較多的數(shù)字,對于翻譯系統(tǒng)較容易處理,而S組則包含較多專有名詞,對于翻譯系統(tǒng)較為困難。
本論文提出 BSSTC結(jié)構(gòu),此結(jié)構(gòu)能夠記錄來源句詞匯的位置、目標句詞匯的位置及來源句與目標句詞匯對應的關系;并且將 BSSTC結(jié)構(gòu)運用在我們實作的翻譯系統(tǒng)上。本系統(tǒng)是利用 BSSTC結(jié)構(gòu)建立范例樹,將來源句經(jīng)過搜尋范例樹算法,來達到修正詞序的目的。最后,在依據(jù)修正后的詞序進行翻譯,翻譯時再利用中英詞匯對列工具及 bi-gram語言模型,選出最適合的中文翻譯,產(chǎn)生建議的翻譯,此翻譯還需要人工修整。 TIMSS的試題為數(shù)學及科學類,應該要用大量數(shù)學及科學類的語料,但實際上我們并無法找到夠多的數(shù)學及科學類語料,尤其以中英對應的語料最少,所以我們選用新聞及補充數(shù)據(jù)題庫來擬補語料的不足。不過訓練量還是不夠多,在選詞上會有許多機率為0的情況,造成選詞錯誤。未來將盡量找尋相關領域的語料,來建立范例樹和訓練語言模型,就能針對不同領域的內(nèi)容進行翻譯,使翻譯的結(jié)果更為精確。 訓練語料中的斷詞是使用國外的系統(tǒng),而我們翻譯使用的字典為牛津字典,兩者所使用的字典并不相同,會使斷詞后的詞匯可能無法在牛津字典中找到,造成選詞錯誤。未來可將翻譯后的詞匯,找出同義詞來擴充詞匯數(shù),便能增加被找到的可能性。
英文的語言特性上并沒有量詞,而中文句中運用了很多的量詞,如缺少量詞也會使中文的流暢度下將。本系統(tǒng)的翻譯結(jié)果也缺少中文的量詞。未來若能將翻譯結(jié)果填補上缺少的量詞,便可達到更好的質(zhì)量,這也是我們今后要做的工作。
[1] B. J. Dorr, P. W. Jordan and J. W. Benoit. “A Survey of Current Paradigms in Machine Translation” Advances in Computers [M].London: Academic Press, 1999: 1?8.
[2] P. F. Brown, J. Cocke, S. A. D. Pietra, V. J. D. Pietra, F. Jelinek,J. D. Lafferty, R. L. Mercer and P. S. Roossin. A Statistical Approach to Machine Translation [J]. Computa-tional Linguistics, 1990, 12(6): 79?85.
[3] M. H. Al-Adhaileh, T. E. Kong and Y. Zaharin, A synchronization structure of SSTC and its applications in machine translation [C]// Proceedings of the International Conference on Computational Linguistics-2002 Post-Conference Workshop on Machine Translation in Asia. 2002:1?8.
[4] Z. Liu, H. Wang and H. Wu. Example-based Machine Translation Based on TSC and Statistical Generation [C]//Proceedings of the Tenth Machine Translation Summit, 2005:25?32.
[5] 桂詩春. 標準化考試一理論、原則與方法[M]. 廣州: 廣東高等教育出版社, 1986.
[6] R.L.桑代克E.P.哈根. 心理與教育的測量和評價[M]. 北京: 人民教育出版社, 1985.
[7] 藏忠恒. 心理與教育測量[M]. 上海: 華東師范大學出敝社,1987.
[8] Bachman L F. Fundamental Considerations in Language Testing[M]. 上海: 上海外語教育出版社, 1999.