劉伍穎,王 琳
(1. 魯東大學(xué) 山東省語言資源開發(fā)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,山東 煙臺(tái) 264025;2. 廣東外語外貿(mào)大學(xué) 外國語言學(xué)及應(yīng)用語言學(xué)研究中心,廣東 廣州 510420;3. 上海外國語大學(xué) 賢達(dá)經(jīng)濟(jì)人文學(xué)院,上海 200083)
隨著語言科學(xué)和計(jì)算技術(shù)的發(fā)展,特別是近年來深度學(xué)習(xí)在自然語言處理中的成功應(yīng)用,超大規(guī)模語言資源越來越成為算法成功的關(guān)鍵因素。對于低資源語言,如何快速有效地構(gòu)建超大規(guī)模結(jié)構(gòu)化良好的語言資源對其高效處理應(yīng)用至關(guān)重要[1]。
早期研究發(fā)現(xiàn),來自不同類型的同種語言文本之間存在較強(qiáng)的形態(tài)相似性[2]。利用遷移學(xué)習(xí)進(jìn)行形態(tài)復(fù)用,我們可以實(shí)現(xiàn)跨類別的有效文本分類。即用A型文本訓(xùn)練出一個(gè)文本分類模型,然后成功應(yīng)用于B型文本的分類任務(wù)。但是兩種不同語言之間的形態(tài)相似性究竟有多大?它能不能足以支持低資源語言處理應(yīng)用中的形態(tài)復(fù)用呢?
帶著這些思考,我們首先回顧了以往的研究。已有研究發(fā)現(xiàn),不僅英式英語和美式英語之間,而且英語、德語、法語和其他西方語言之間在詞匯層面上都有高度交疊。研究還發(fā)現(xiàn),漢語和日本語、韓國語或越南語之間有超過60%的共用詞匯[3]。這些借詞的形態(tài)相似性主要是源于這些語言之間的同源性和文化交流性。同源語言是指在人類語言進(jìn)化的長河中,它們在語言譜系樹上具有共同祖先節(jié)點(diǎn)的那些語言。同源語言之間的形態(tài)相似性已成為形態(tài)復(fù)用的希望之橋。接下來,我們選擇一對同源語言(馬來語和印尼語)作為我們的檢測對象。
來自同語族的語言的形態(tài)同源性和相似性最為明顯。馬來語和印尼語同屬南島語系的馬來-波利尼西亞語族。廣義上講,印尼語也是一種馬來語。以現(xiàn)代印尼語為母語的人數(shù)約為4 500萬,全世界以其為第二語言的人數(shù)有1.6億。而現(xiàn)代馬來語的母語使用者超過8 000萬,主要分布在文萊、印度尼西亞、馬來西亞、新加坡和其他地方。全球范圍馬來語使用者超過了3億。盡管這兩種語言的使用者不少,但它們到漢語的平行句庫等資源仍然稀缺。相對于英語等富資源語言,馬來語和印尼語仍然屬于低資源語言。因此,在接下來的定量分析中,我們檢測馬來語和印尼語之間的詞匯交疊。
如式(1)所示,本文定義從A語言到B語言的形態(tài)遷移率(MTR)為A語言和B語言Token集合中共現(xiàn)Token數(shù)除以B語言Token集合中Token數(shù)的百分比。其中,函數(shù)#(·)表示集合中的Token數(shù),函數(shù)TokenSet(·)表示語言的某種Token集合。
MTR(A→B)=
(1)
上述定義表明形態(tài)遷移在兩種語言之間具有方向性。MTR(A→B)的數(shù)值屬于[0%,100%],反映的是從A語言到B語言形態(tài)遷移的有效程度。有兩種特例: ①當(dāng)#(TokenSet(A))數(shù)值等于#(TokenSet(B))數(shù)值,形態(tài)遷移的有效程度在兩種語言之間將是雙向等價(jià)的(MTR(A→B)=MTR(B→A))。②當(dāng)#(TokenSet(A)∩TokenSet(B))數(shù)值等于0,在兩種語言的這類Token之間不會(huì)進(jìn)行任何有效的形態(tài)遷移。
我們統(tǒng)計(jì)的語料來源于Wikipedia馬來語和印尼語20191101版,包括bz2 package 格式的202.9 MB馬來語篇章和523.4 MB印尼語篇章。由于計(jì)算MTR時(shí)可以采用任意粒度的Token,所以我們關(guān)注廣泛使用的去重后的詞級(jí)N元Token。而且對于每個(gè)Token我們分別統(tǒng)計(jì)了大小寫相關(guān)的Token數(shù)和大小寫無關(guān)的Token數(shù)。經(jīng)過交疊Token數(shù)統(tǒng)計(jì),最后得到具體的MTR結(jié)果如表1所示。其中正常字體數(shù)值表示大小寫相關(guān)結(jié)果,粗體數(shù)值表示大小寫無關(guān)結(jié)果。
表1 馬來語和印尼語的形態(tài)遷移率
根據(jù)表1數(shù)值,我們發(fā)現(xiàn)所有馬來語文本僅由590 105個(gè)不同的大小寫相關(guān)單詞組成,而所有印尼語文本由1 081 745個(gè)不同的大小寫相關(guān)單詞組成,并且兩種語言的共現(xiàn)大小寫相關(guān)單詞數(shù)多達(dá)315 312。1元大小寫無關(guān)Token的MTR(M→I)值為29.67%,而相同Token的MTR(I→M)值為53.66%,這說明1元大小寫無關(guān)Token的形態(tài)遷移從印尼語到馬來語比反方向更有效。從1元到5元Token的MTR值可知,盡管馬來語對印尼語的提升不及印尼語對馬來語的提升大,但相關(guān)提升對于相對低資源語言而言還是意義非凡。而在最近的深度學(xué)習(xí)算法中,為了降低語言空間維度,往往采用子詞特征代替詞匯特征,這有利于形態(tài)遷移率的進(jìn)一步提升。
上述MTR數(shù)值為形態(tài)復(fù)用提供了堅(jiān)實(shí)的基礎(chǔ),接下來我們通過語言資源建設(shè)和語義轉(zhuǎn)述應(yīng)用這兩個(gè)特定的任務(wù)來進(jìn)一步闡明形態(tài)轉(zhuǎn)移學(xué)習(xí)的有效性。
多詞表示(MultiWord Expression, MWE)通常是指由兩個(gè)以上詞匯連接構(gòu)成,其意義不能通過部分構(gòu)成詞匯獲得的一種介于詞匯和句子之間的形態(tài)粒度。多詞表示適合高效的形態(tài)復(fù)用和語義處理,已被廣泛成功用于機(jī)器翻譯等自然語言處理應(yīng)用[4]。因此每種語言的多詞表示語料庫已成為一種關(guān)鍵的基礎(chǔ)語言資源。
為了高效構(gòu)建多詞表示語料庫,人們進(jìn)行了長期的探索。除了人工標(biāo)注之外,采用自然語言處理算法自動(dòng)提取也經(jīng)歷了基于規(guī)則的方法、有監(jiān)督學(xué)習(xí)方法[5]、半監(jiān)督學(xué)習(xí)方法[6]等,并取得了一系列成果。早期的采用統(tǒng)計(jì)上下文特征的提取算法在英語多詞表示提取上取得了較高的準(zhǔn)確率[7]。后來有研究采用形態(tài)、句法、詞匯等特征實(shí)現(xiàn)德語的多詞表示提取[8],而另一些研究者借助WordNet和Google Translate等第三方資源和工具實(shí)現(xiàn)阿拉伯語多詞表示提取[9]。但這些早期方法的有效性取決于人工標(biāo)注規(guī)模和復(fù)雜特征選擇[10]的質(zhì)量,而這些先決條件往往費(fèi)時(shí)費(fèi)力且代價(jià)高昂。隨著語言大數(shù)據(jù)的爆炸增長,富資源語言的多詞表示自動(dòng)提取變得越來越容易。盡管當(dāng)前的無監(jiān)督學(xué)習(xí)方法[11]和深度學(xué)習(xí)方法[12]對人工標(biāo)注語料的依賴程度不斷降低,但它們?nèi)孕枰笠?guī)模無標(biāo)注的原始語料。因此,對于既缺乏標(biāo)注語料又缺乏大規(guī)模無標(biāo)注語料的低資源語言而言,已有的方法難以高效解決多詞表示提取問題,這也促使我們嘗試基于詞匯遷移的形態(tài)復(fù)用方法。
小學(xué)數(shù)學(xué)教材中專業(yè)術(shù)語極多,不容易理解的知識(shí)點(diǎn),大幅度的文字描述都讓教材顯得晦澀難懂,所以,教師除了擁有傳達(dá)知識(shí),引導(dǎo)學(xué)生理解掌握知識(shí)的作用外,還要注意調(diào)整語言,以保證能將數(shù)學(xué)教材中難以理解的知識(shí)點(diǎn)轉(zhuǎn)換成直白簡單的口語,通過簡化專業(yè)術(shù)語的方式加深學(xué)生對知識(shí)點(diǎn)的掌握,同時(shí)在教學(xué)過程中,老師所講解的知識(shí)點(diǎn)最好結(jié)合生活實(shí)例,讓學(xué)生能從生活中發(fā)現(xiàn)并解決問題,從而達(dá)到提升思維能力的目的。
本文設(shè)計(jì)的用于多詞表示提取的形態(tài)復(fù)用框架如圖1所示。該框架主要包含源語言(短虛線)和目標(biāo)語言(實(shí)線)兩條路徑。沿著短虛線路徑,多詞表示提取器(MWE Extractor)接收F語言文本并輸出F語言的多詞表示集(MWEF)。沿著實(shí)線路徑,N元Token索引器(N-gram Token Indexer)接收T語言文本,并輸出大小寫無關(guān)的詞級(jí)1元到5元的Token索引。最關(guān)鍵的遷移學(xué)習(xí)器(Transfer Learner)接收MWEF,搜索1元索引并輸出T語言多詞表示大集(MWEB),同時(shí)搜索2、3、4、5元索引并輸出T語言多詞表示小集(MWES)。我們還使用相同的多詞表示提取器直接從T語言文本中提取T語言多詞表示集(MWET)。最后,評估器(Evaluator)采用MWET分別萃取MWEB和MWES,據(jù)此輸出從F語言遷移得到的T語言多詞表示集MWEb和MWEs,也就是采用相同的多詞表示提取算法從當(dāng)前T語言文本中提取不到的多詞表示。
圖1 多詞表示提取的形態(tài)復(fù)用框架
該框架是一種適用于任何語言用作F語言或T語言、任何具體多詞表示提取算法實(shí)現(xiàn)多詞表示提取器(MWE Extractor)的元框架。本文4.1節(jié)實(shí)驗(yàn)采用了我們以前提出的空格二值分類思想實(shí)現(xiàn)多詞表示提取器。對于框架中的遷移學(xué)習(xí)器(Transfer Learner),我們在實(shí)驗(yàn)時(shí)充分考慮算法的高效可計(jì)算性,設(shè)計(jì)實(shí)現(xiàn)了兩款遷移策略: ①大策略對于MWEF集合中的每條多詞表示,先以空格切分得到詞匯集合,再逐一搜索1元索引。如果每個(gè)詞匯都命中索引,那么判斷該條多詞表示是T語言多詞表示; ②小策略對于MWEF集合中的每條多詞表示搜索2、3、4、5元索引。如果命中索引,那么判斷該條多詞表示是T語言多詞表示。大策略是一種模糊策略,能夠提取T語言語料中并未連續(xù)出現(xiàn)的潛在多詞表示,在一定程度上克服了新多詞表示發(fā)現(xiàn)的困難;小策略是一種精準(zhǔn)策略,能夠提取T語言語料中出現(xiàn)但頻率偏小的潛在多詞表示,在一定程度上克服了語料受限時(shí)多詞表示發(fā)現(xiàn)的困難。
機(jī)器翻譯(Machine Translation, MT)是采用目標(biāo)自然語言轉(zhuǎn)述源自然語言語義的算法計(jì)算過程。在經(jīng)歷規(guī)則機(jī)器翻譯的青銅時(shí)代和統(tǒng)計(jì)機(jī)器翻譯[13]的白銀時(shí)代之后,基于深度學(xué)習(xí)[14]的神經(jīng)機(jī)器翻譯(Neural MT, NMT)開啟了新的黃金時(shí)代[15]。迄今產(chǎn)生了一系列優(yōu)秀模型[16],如谷歌的端到端(End-to-End)模型[17]、蒙特利爾大學(xué)的編碼器-解碼器(Encoder-Decoder)模型[18]、深度Transformer模型[19]等。
在超大規(guī)模雙語平行語料的支持下,深度學(xué)習(xí)神經(jīng)機(jī)器翻譯取得了比較理想的效果,基本上能夠滿足日常的翻譯需求[20]。但對于缺少超大規(guī)模雙語平行語料的低資源語言機(jī)器翻譯問題,目前尚無成熟算法。而在全世界現(xiàn)存的7 000多種語言中,絕大部分的非通用語言都在不同程度上存在超大規(guī)模雙語平行語料稀缺的困難。當(dāng)前理性主義追本溯源,力求通過解析語言本質(zhì)來實(shí)現(xiàn)更高水平的機(jī)器翻譯,但尚未取得明顯進(jìn)展。而經(jīng)驗(yàn)主義采用數(shù)據(jù)制導(dǎo),認(rèn)為結(jié)果有效即王道,并依仗深度神經(jīng)網(wǎng)絡(luò)取得了實(shí)用性進(jìn)步。后一種思路促使我們嘗試基于詞匯遷移的形態(tài)復(fù)用方法應(yīng)對低資源語言語義轉(zhuǎn)述任務(wù)。
我們設(shè)計(jì)的用于神經(jīng)機(jī)器翻譯的形態(tài)復(fù)用框架如圖2所示。該框架包含了三種語言: 源語言F、目標(biāo)語言T以及相應(yīng)的平行語言C。其中,源語言、目標(biāo)語言以及平行語言都可以是任意的人類語言。由于我們著重研究外語到漢語的機(jī)器翻譯,因此,本文中的平行語言是漢語。首先,1元Token索引器接收TC平行句庫中的T語言句子,生成大小寫無關(guān)的詞級(jí)1元Token索引。接著,遷移學(xué)習(xí)器接收FC平行句庫中的F語言句子,并通過搜索1元索引對該FC句對進(jìn)行可遷移和不可遷移的二值分類。最后,NMT訓(xùn)練器綜合TC平行句庫中的TC句對和從FC平行句庫中遷移來的TC句對,訓(xùn)練出一個(gè)T語言到C語言的神經(jīng)機(jī)器翻譯模型。
圖2 神經(jīng)機(jī)器翻譯的形態(tài)復(fù)用框架
該框架是一種與具體神經(jīng)機(jī)器翻譯算法無關(guān)的元框架,也可以看成是神經(jīng)機(jī)器翻譯算法的語料增強(qiáng)預(yù)處理過程。在實(shí)現(xiàn)遷移學(xué)習(xí)器的二值分類時(shí),具體遷移策略是對于FC平行句庫中的F語言句子,先以空格切分得到詞匯序列,再逐一搜索1元索引,如果每個(gè)詞匯都命中索引,那么判斷該句子對應(yīng)的FC句對是可遷移句對,反之是不可遷移句對。該策略最大限度地保證了可遷移句對的有用性。
為了驗(yàn)證本文新提出的形態(tài)復(fù)用方法對低資源語言的有效性,根據(jù)語言資源建設(shè)和語義轉(zhuǎn)述應(yīng)用任務(wù),選擇馬來語和印尼語作為實(shí)驗(yàn)對象語言進(jìn)行雙向遷移實(shí)驗(yàn)。即: 我們從馬來語(印尼語)語料庫提取印尼語(馬來語)多詞表示;從馬來語(印尼語)資源增強(qiáng)的印尼語(馬來語)-漢語平行句庫訓(xùn)練出印尼語(馬來語)-漢語神經(jīng)機(jī)器翻譯模型。具體的實(shí)驗(yàn)實(shí)現(xiàn)、實(shí)現(xiàn)結(jié)果與討論如下文所述。
我們首先實(shí)現(xiàn)了圖1框架,其中的多詞表示提取器采用廣泛使用的空格二值分類有監(jiān)督學(xué)習(xí)算法[21]。學(xué)習(xí)時(shí),需要統(tǒng)計(jì)空格已標(biāo)注文本語料的1元Token頻率和2元Token頻率。應(yīng)用時(shí),只需計(jì)算兩個(gè)Token鄰接共現(xiàn)的概率除以每個(gè)Token出現(xiàn)的概率,就能較好實(shí)現(xiàn)不定長多詞表示的提取。接著,把Wikipedia 20191101版的202.9 MB馬來語篇章和523.4 MB印尼語篇章分別用作馬來語文本語料和印尼語文本語料。最后,把人工編訂的114 032條馬來語多詞表示和253 176條印尼語多詞表示用作標(biāo)準(zhǔn)答案,對下列實(shí)驗(yàn)結(jié)果進(jìn)行討論。
具體的多詞表示提取結(jié)果如表2所示。我們從202.9 MB馬來語語料提取得到76 078條多詞表示,從523.4 MB印尼語語料提取得到143 521條多詞表示。采用形態(tài)復(fù)用方法,可以從馬來語語料遷移得到45 201條印尼語多詞表示大集和34 487條印尼語多詞表示小集,反向可以從印尼語語料遷移得到51 137條馬來語多詞表示大集和30 257條馬來語多詞表示小集。經(jīng)過評估器萃取,我們可以從馬來語語料遷移獲得僅從印尼語語料提取不到的印尼語多詞表示(大集21 534條,小集10 823條),反之也可以從印尼語語料遷移獲得僅從馬來語語料提取不到的馬來語多詞表示(大集37 784條,小集16 908條)。根據(jù)標(biāo)準(zhǔn)答案,從馬來語語料遷移獲得的印尼語多詞表示MWEb和MWEs的準(zhǔn)確率分別為0.35和0.59,從印尼語語料遷移獲得的馬來語多詞表示MWEb和MWEs的準(zhǔn)確率分別為0.29和0.45。 在實(shí)驗(yàn)過程中,采用同樣的空格二值分類有監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)的多詞表示提取器(MWE Extractor)從T語言文本直接提取MWET就是一個(gè)可對比的Baseline方法。而遷移學(xué)習(xí)的實(shí)驗(yàn)結(jié)果表明采用形態(tài)復(fù)用能夠提取到Baseline方法提取不到的多詞表示。
表2 多詞表示提取結(jié)果
根據(jù)上述語言資源建設(shè)實(shí)驗(yàn),我們可以得出下列結(jié)論: ①形態(tài)復(fù)用方法能夠有效提取目標(biāo)語言語料中并未連續(xù)出現(xiàn)或出現(xiàn)但頻率偏低的潛在多詞表示。②上述形態(tài)復(fù)用的實(shí)驗(yàn)準(zhǔn)確率都低于0.60是因?yàn)闃?biāo)準(zhǔn)答案與實(shí)驗(yàn)語料是相互獨(dú)立的,而且空格二值分類有監(jiān)督學(xué)習(xí)算法0.90左右的準(zhǔn)確率也導(dǎo)致錯(cuò)誤累積。因此我們形態(tài)復(fù)用的實(shí)際準(zhǔn)確率應(yīng)該更高。③N元Token索引器采用索引數(shù)據(jù)結(jié)構(gòu)、遷移學(xué)習(xí)器采用一趟掃描的流處理,因此時(shí)空復(fù)雜度在實(shí)際應(yīng)用中也是可接受的。當(dāng)然,如果還想獲得更精準(zhǔn)的語言資源,則需要進(jìn)一步人工審定。④經(jīng)過隨機(jī)采樣人工標(biāo)注,我們發(fā)現(xiàn)采用形態(tài)復(fù)用識(shí)別出的多詞表示中人名、地名、機(jī)構(gòu)名占據(jù)75%以上,對相對低資源語言的語言資源建設(shè)具有實(shí)用價(jià)值。
我們實(shí)現(xiàn)了圖2框架,其中分別采用了兩種經(jīng)典的GNMT模型[22]和Transformer模型[23]來實(shí)現(xiàn)NMT訓(xùn)練器。實(shí)驗(yàn)采用漢語作為框架中的C語言。因此我們遷移馬來語(印尼語)-漢語句對資源,增強(qiáng)訓(xùn)練出印尼語(馬來語)-漢語神經(jīng)機(jī)器翻譯模型。為了顯示形態(tài)復(fù)用的增強(qiáng)效果,我們針對兩種神經(jīng)機(jī)器翻譯模型(GNMT模型和Transformer模型)、兩個(gè)遷移方向(馬來語到印尼語和印尼語到馬來語)運(yùn)行了8次模型訓(xùn)練實(shí)驗(yàn)。
表3中的實(shí)驗(yàn)語料主要包括馬來語-漢語平行句庫(3 856 449句對)、印尼語-漢語平行句庫(10 297 458句對)以及采用我們的形態(tài)復(fù)用方法得到的馬來語到印尼語可遷移1 934 968句對、印尼語到馬來語可遷移6 354 026句對。實(shí)驗(yàn)運(yùn)行之前先將TC平行句庫分成訓(xùn)練、驗(yàn)證、測試3個(gè)集合,其中驗(yàn)證集和測試集各包含100 000句對,是通過不放回隨機(jī)采樣技術(shù)抽取而成。
表3 神經(jīng)機(jī)器翻譯結(jié)果
表3顯示了8個(gè)神經(jīng)機(jī)器翻譯模型訓(xùn)練的實(shí)驗(yàn)結(jié)果,其中4個(gè)無形態(tài)復(fù)用(遷移句對數(shù)等于0)的實(shí)驗(yàn)結(jié)果用作可對比的Baseline結(jié)果。從中可以發(fā)現(xiàn)采用形態(tài)復(fù)用方法挑選的遷移句對資源的確能夠提高GNMT模型和Transformer模型的性能。例如,在印尼語-漢語神經(jīng)機(jī)器翻譯實(shí)驗(yàn)中,馬來語資源增強(qiáng)的印尼語-漢語訓(xùn)練集包含12 032 426(=1 934 968+10 297 458-100 000-100 000)句對。相應(yīng)GNMT模型的BLEU4得分從無形態(tài)復(fù)用的38.62提高至41.35,Transformer模型的BLEU4得分更能從無形態(tài)復(fù)用的39.88顯著提高至42.75。與此類似,在馬來語-漢語神經(jīng)機(jī)器翻譯實(shí)驗(yàn)中,遷移印尼語資源6 354 026句對后,GNMT模型的BLEU4得分從對應(yīng)無形態(tài)復(fù)用的26.16提高至30.21,Transformer模型的BLEU4得分能從對應(yīng)無形態(tài)復(fù)用的27.33提高至31.57。我們已經(jīng)成功將上述BLEU4得分最高的印尼語-漢語神經(jīng)機(jī)器翻譯模型(BLEU4=42.75)和馬來語-漢語神經(jīng)機(jī)器翻譯模型(BLEU4=31.57)部署成互聯(lián)網(wǎng)應(yīng)用系統(tǒng)。
根據(jù)上述語義轉(zhuǎn)述應(yīng)用實(shí)驗(yàn),我們可以得出下列結(jié)論: ①形態(tài)復(fù)用對GNMT模型和Transformer模型的增強(qiáng)訓(xùn)練都是有效的,這是由于同語族的同源性和相似性帶來很強(qiáng)的形態(tài)可遷移性。②形態(tài)復(fù)用框架中1元Token索引器采用的索引數(shù)據(jù)結(jié)構(gòu)以及遷移學(xué)習(xí)器采用的一趟掃描流處理的時(shí)空復(fù)雜度是實(shí)際應(yīng)用可接受的,這使得同語族低資源語言具有很強(qiáng)的遷移可計(jì)算性。③增加遷移句對資源后,訓(xùn)練集總規(guī)模相近,但印尼語-漢語神經(jīng)機(jī)器翻譯性能優(yōu)于馬來語-漢語神經(jīng)機(jī)器翻譯性能,這是因?yàn)樽罱K的馬來語-漢語訓(xùn)練集摻雜了60%以上的印尼語-漢語句對,導(dǎo)致訓(xùn)練出的模型產(chǎn)生了過擬合。④Transformer模型性能普遍優(yōu)于完全相同條件下的GNMT模型性能,BLEU4得分均高出1點(diǎn)多,這是由于兩個(gè)模型原生的性能差異。
本文圍繞形態(tài)復(fù)用這個(gè)科學(xué)問題,采用形態(tài)遷移率指標(biāo)定量評估了同語族語言之間的遷移效果,通過馬來語和印尼語之間的多詞表示提取和神經(jīng)機(jī)器翻譯實(shí)驗(yàn)闡明了形態(tài)復(fù)用對低資源語言的語言資源建設(shè)和語義轉(zhuǎn)述應(yīng)用是有效的。而形態(tài)復(fù)用框架所采用的索引數(shù)據(jù)結(jié)構(gòu)和一趟掃描流處理也都是時(shí)空高效和實(shí)際可用的。
未來將進(jìn)一步定量研究不同語族語言之間的形態(tài)復(fù)用效果,探究適合任意語言之間的分級(jí)形態(tài)復(fù)用框架和算法。多源擴(kuò)建低資源語言的雙語多詞表示資源,改善神經(jīng)機(jī)器翻譯中的專有名詞譯不準(zhǔn)窘態(tài),增強(qiáng)神經(jīng)機(jī)器翻譯的精準(zhǔn)性。此外,我們還將上述研究成果用于其他低資源語言的語言資源建設(shè)和語義轉(zhuǎn)述應(yīng)用。