龍從軍,安 波
民族語言文字信息處理是我國語言文字信息處理的重要組成部分。我國是一個統(tǒng)一的多民族國家,除了國家通用語言文字之外,少數(shù)民族語種和文種也很豐富,在55個少數(shù)民族中有53個民族有自己的語言(回族、滿族通用漢語文),其中一些民族使用多種語言。新中國成立前,有21個少數(shù)民族有自己的文字。新中國成立后,政府為壯、布依、彝、苗、哈尼、傈僳、納西、侗、佤、黎、土、羌等民族制定了文字方案,還對一些民族文字系統(tǒng)進行了改革或改進。
自20世紀80年代始,隨著計算機和網絡技術的發(fā)展,傳統(tǒng)非拉丁字母型的民族文字面臨著新的問題,即文字字符需要在計算機等電子設備上實現(xiàn)輸入、顯示、打印和在互聯(lián)網上傳輸。1991年國家民族事務委員會發(fā)布了《關于進一步做好少數(shù)民族語言文字工作的報告》,該報告明確指出“要加強民族語文的基礎理論、應用理論和民族文字信息處理的科學研究,積極推廣和普及研究成果”。2014年國家語言文字工作委員會發(fā)布了《關于進一步做好語言文字信息化工作的若干意見》,該文件指出“加快制定信息化急需的少數(shù)民族語言文字基礎規(guī)范標準。建設少數(shù)民族語言文化資源庫和傳統(tǒng)通用少數(shù)民族語言的大規(guī)模語料庫。充分利用信息化手段科學保護各民族語言文字,抓緊做好瀕危語言文字的數(shù)字化整理和記錄保存工作。重視跨境少數(shù)民族語言文字信息化建設,積極構筑民族語言文化高地,服務國家周邊外交,切實維護國家安全”。2020年國務院辦公廳發(fā)布了《關于全面加強新時代語言文字工作的意見》,該文件指出“發(fā)揮語言文字信息技術在國家信息化、智能化建設中的基礎支撐作用,提升語言文字信息處理能力,推進語言文字的融媒體應用”。不難看出,在我國發(fā)展的不同階段,民族語言文字信息化研究都受到關注和重視,尤其是現(xiàn)階段,民族語言文字信息處理能力的提升是國家信息化、智能化建設的任務之一。
民族語言文字信息處理研究的內容包括以民族文字字符編碼、字形字庫制作、輸入法開發(fā)、字符識別等為主要內容的字處理研究;以分詞、詞性標注、命名實體識別等為主要內容的詞處理研究和以句法、語義等為主要內容的句處理研究;也包括語音識別與合成、多語機器翻譯、民族語言服務、應用產品的開發(fā)等,本文分別就我國民族語言文字在上述領域的研究狀況、問題及發(fā)展趨勢進行簡要總結。
語言文字信息處理是指利用計算機對自然語言的音、形、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作與加工。根據(jù)不同的研究階段,信息處理大體劃分為字處理、詞處理、句法語義處理和語篇處理。字、詞、句信息處理和語料庫建設是當前民族語言文字信息處理領域的基礎和核心工作。
民族文字字符編碼是民族文字輸入計算機的第一個環(huán)節(jié),民族文字輸入是其信息處理技術的一個關鍵問題,只有不同的民族文字信息進入計算機之后,才能利用計算機強大的儲存和計算能力進行處理。
1.字符編碼和規(guī)范標準研究
我國的一些民族文字創(chuàng)制和使用歷史悠久,一些文字現(xiàn)在仍然在日常生活、教育、出版、新媒體領域廣泛使用,具有較強的活力。蒙古族使用蒙古文和托忒文,藏族使用藏文,維吾爾族、哈薩克族、柯爾克孜族分別使用維吾爾文、哈薩克文和柯爾克孜文;壯族、傈僳族、拉祜族、布依族、侗族、佤族、哈尼族、納西族、土族、羌族使用新創(chuàng)制的拉丁字母文字。苗族使用的文字又分為黔東苗文、湘西苗文、川黔滇苗文、滇東北苗文;傣族使用傳統(tǒng)的西雙版納傣文和德宏傣文,一些地區(qū)也使用改進后的新傣文;景頗族使用改進的拉丁字母文字,部分人使用載瓦拉丁字母文字;彝族使用傳統(tǒng)彝文,四川涼山彝族使用修訂后的規(guī)范彝文。民族文字大體上可以分成兩種類型,一種是以拉丁字母為基礎的拼音文字,如一些新創(chuàng)的少數(shù)民族語言文字;另一種為非拉丁字母的文字。非拉丁字母文字又可以分成兩類,一類是如維吾爾文一樣的以阿拉伯字母為基礎的文字系統(tǒng);另一類是如漢文一樣的表意文字系統(tǒng)。以非拉丁字母文字為基礎的民族文字有藏文、傳統(tǒng)蒙古文、彝文、傣文、朝鮮文、維吾爾、哈薩克、柯爾克孜文等。
在信息化時代,為了滿足以語言文字為載體的信息交流和傳輸,給非拉丁字母的民族文字制定國際或國家字符統(tǒng)一編碼標準成為必然。20世紀80年代開始,我國學者就逐步開展民族語言文字字符編碼標準研究,其中,蒙古文編碼字符集成為最早發(fā)布的民族文字字符國家標準(GB8045-1987《信息處理交換用蒙古文七位和八位編碼圖形字符集》)。此后,朝鮮文、維吾爾文、藏文、彝文、傣文等多種民族語言文字的編碼字符集也逐漸發(fā)布,同時還制定了與每種民族文字字符配套的點陣字型標準和鍵盤布局標準。
20世紀90年代,民族語言文字編碼邁向國際化。其中,蒙古文、托忒蒙古文、錫伯文、滿文、藏文、維吾爾文、哈薩克文、柯爾克孜文、朝鮮文、彝文和德宏傣文編碼字符集國際標準被收入在ISO/IEC10646區(qū)。西雙版納新傣文編碼字符集國際標準被收入在ISO/IEC10646:2003/Amendment2:2006區(qū)。其他一些民族文字也開始研究并逐步形成了編碼字符集國際標準草案和正式編碼標準,如老傈僳文、滇東北簡體苗文、西夏文和古突厥文。一些民族文字編碼字符集正緊鑼密鼓地被研制和申報國際編碼,如納西東巴文和古彝文。
率先完成字符編碼國際或國家標準的民族文字,也先后完成一系列配套的規(guī)范標準,其中一些是國家標準,一些是地方或行業(yè)標準。維吾爾語言文字的規(guī)范標準文件共26項,其中,國家標準16項,地方標準10項。蒙古語言文字的規(guī)范標準文件共25項,其中,國家標準20項,地方標準4項,行業(yè)標準1項。藏語語言文字規(guī)范標準文件共17項,其中,國家標準14項,行業(yè)標準3項。哈薩克語言文字規(guī)范標準文件共23項,其中,國家標準14項,地方標準8項,行業(yè)標準1項。柯爾克孜語言文字規(guī)范標準文件共23項,其中,國家標準14項,地方標準8項,行業(yè)標準1項。滿語言文字規(guī)范標準文件共9項,全部是國家標準。傣語言文字規(guī)范標準文件共7項,其中,國家標準5項,行業(yè)標準2項。錫伯語言文字規(guī)范標準文件共6項,全部是國家標準。彝語言文字規(guī)范標準文件共4項,其中,國家標準3項,行業(yè)標準1項。黎語言文字規(guī)范標準文件1項。
2011年新聞出版署啟動了中華字庫工程,其中涉及對民族古文字和現(xiàn)行文字字符的收集、整理和編碼研究等內容。這項工程的實施,加速了民族文字的字符編碼研究進程,彌補了一些民族文字現(xiàn)有字符編碼的不足,為尚未完成字符編碼國際標準的民族文字申請國際標準提供了良好的基礎。更重要的是,一旦編碼、字庫和輸入法研究完成,我國民族語言文字中的任何字符都可以方便輸入、顯示和打印,這對民族文字文獻的研究和出版提供了方便。
到目前為止,民族語言文字規(guī)范標準研究已經取得了巨大成績,大部分民族文字能方便地實現(xiàn)計算機的輸入、顯示、打印和互聯(lián)網傳輸,為我國優(yōu)秀民族文化的國際國內互聯(lián)網傳播提供了技術保障。但是,民族文字字符編碼規(guī)范研究還有不少缺陷,進一步完善的空間較大,例如制定的規(guī)范標準文件數(shù)量還不夠多;語言信息處理領域的規(guī)范化、標準化在民族語言之間或同一語言內部表現(xiàn)不平衡,現(xiàn)有規(guī)范標準主要集中在蒙、藏、維、朝、哈、柯、彝、傣等民族語言;語言信息處理領域的規(guī)范化、標準化在民族語言之間或同一語言內部表現(xiàn)不平衡;文字字符編碼標準、鍵盤布局標準相對較多,但面向信息處理的語音、詞匯、語法、句子、篇章的規(guī)范標準較少;已經頒布的民族語言文字規(guī)范標準還有一些缺陷,還需要不斷更新和完善。
2.輸入法研究
語言文字信息處理最基礎的工作是字符輸入。輸入方式包括鍵盤輸入、光電掃描與字符識別輸入和語音輸入。
鍵盤輸入是最常見的輸入方式之一。文字輸入要制定鍵盤布局標準以及字符與鍵盤的映射關系規(guī)則。我國民族文字輸入法的鍵盤布局規(guī)范都是根據(jù)英文鍵盤布局標準來制定的,非拉丁字母體系的民族文字的字符與鍵盤映射相對困難,有些文字需要借助拉丁轉寫來完成鍵位映射。一方面不同類型的民族文字的字符數(shù)量存在差別,有些民族文字字符數(shù)量多,主鍵盤不夠用,要借助輔助鍵盤來實現(xiàn)全字符輸入。例如藏文輸入法按照國家鍵盤布局標準,需要一個主鍵盤和四個輔助鍵盤,同時還要借助控制鍵輔助完成字符輸入,極大地降低了輸入速度。另一方面鍵盤輸入速度與語言文字信息處理的水平相互制約,輸入效率低,影響信息處理水平的提高;反之,信息處理的水平低,基礎資源少,詞法研究不到位又影響輸入法的提高。通常來說,基于字符的輸入效率低,基于詞、短語和句子的輸入效率高。當前,我國大部分民族語言文字的鍵盤輸入法都停留在字符輸入層面,以詞、詞組或句子為單位的聯(lián)想輸入法比較少見。
通過光電掃描方式可以快速實現(xiàn)電子化,但光電掃描獲得的圖像需要進行文字識別。文字識別是對文檔圖像中的文字進行分割、識別,將文檔從圖像轉換為可以編輯的電子文本。文字識別的方式按照文檔的媒體形式分為兩大類:脫機(Offline)文字識別和聯(lián)機(Online)文字識別。民族文字特征復雜,長短高低不同,構字法、構詞法不同,書寫方向也不一致(從左向右,或從右向左,或從上向下),字符之間相互疊加黏連,相似字符多,這些現(xiàn)象造成了字符識別的困難。在幾代學者的努力下,民族文字識別效果穩(wěn)步提升,TH-OCR 2007統(tǒng)一多民族文字識別系統(tǒng)集民族文字識別之大成,使多種民族文字識別達到實用化水平。近十年來,OCR技術進一步用于民族古籍文獻的信息化建設中,尤其是在基于古籍文字、木刻板、自然場景(板材噴碼、商鋪標牌)等不規(guī)則載體的文字識別中,也取得了不錯的效果。
民族語言語音輸入研究取得階段成果的有蒙古語、維吾爾語和藏語,但都還處于初步應用階段,語音輸入準確率有待進一步提高。制約語音輸入的主要因素是基礎研究薄弱,可供語音輸入使用的資源有限,如在民族語言中沒有大規(guī)模的語音數(shù)據(jù)庫,尤其是口語語音數(shù)據(jù)庫、自然場景對話語音數(shù)據(jù)庫等基礎資源,一些民族語言方言語音差距較大,方言語音資源庫極為缺乏。
詞法分析是語言信息處理進入詞處理研究階段的標志。詞法分析是以詞為單元開展的語言信息處理工作,一般包括自動分詞、自動詞綴詞干切分,詞性標注,特殊詞的識別、抽取和標注,以詞為基礎的知識圖譜、詞向量研究等,其中分詞和詞性標注研究是最基礎的工作。
1.分詞
字處理是語言信息處理的前提,詞是語義的基本單元,詞法分析是將輸入的句子從字序列轉化為詞序列,即在詞的邊界上打標簽。我國民族語言的語言類型不同,自動分詞的內涵和方法也存在差異,按照語言類型大體可以劃分成兩大類:一類是詞形變化不豐富的孤立型民族語言,如藏語、彝語等,這些語言與漢語類似,詞語之間沒有顯性的標記,需要進行詞的邊界識別;另一類是具有豐富詞形變化的黏著型民族語言,如蒙古語、維吾爾語等,所謂分詞指對詞語的詞干、詞綴切分和提取。
孤立型民族語言分詞研究大體經歷三個階段:基于詞表匹配的規(guī)則分詞階段、基于統(tǒng)計的分詞階段和基于深度學習的分詞階段。當前基于深度學習的分詞性能最好,但依賴于大規(guī)模的標注語料或超大規(guī)模的無標注數(shù)據(jù)。在少數(shù)民族語言分詞領域,采用基于條件隨機場的統(tǒng)計分詞方法和基于深度學習的分詞方法,其分詞效果在性能上沒有明顯差距。
黏著型民族語言詞干、詞綴切分方法大體上也經歷兩個階段:基于規(guī)則的詞干、詞綴切分和基于統(tǒng)計的詞干、詞綴切分。基于規(guī)則的方法主要是通過構造詞干和詞綴規(guī)則表,由詞干詞典和一級詞綴(集表)表、二級詞綴(集表)表和三級詞綴(集表)表組成,詞干詞典里存放功能詞和非功能的詞干,例如維吾爾語非功能詞中詞尾非常豐富,詞性變化多,但有規(guī)律可循;詞干和詞綴,詞綴與詞綴之間的組合有規(guī)則,通過構造一個詞干與詞綴,詞綴與詞綴之間的變化規(guī)則表,完成詞法分析。但是黏著型語言存在語音和諧問題,詞干后接詞綴時,有些元音、輔音會出現(xiàn)弱化或者丟失、增加等情況,為了得到正確的詞干與詞綴,還需對發(fā)生變化的字母進行還原;規(guī)則也可能出現(xiàn)遺漏、沖突、歧義等情況,對于發(fā)生復雜音變現(xiàn)象的詞(特別是動詞的形態(tài))利用規(guī)則也難以恢復原始形式?;诮y(tǒng)計的詞干詞綴切分的方法是把詞干和詞綴作為序列標注中獨立的標注單元,通過大規(guī)模數(shù)據(jù)訓練方式獲得詞干和詞綴的統(tǒng)計概率。
在采用統(tǒng)計分詞方法時,不管是孤立型還是黏著型民族語言,通常都采用BIO標注法標注訓練語料,即將每個元素(字符串、音節(jié)、字)標注為“B-X”、“I-X”或者“O”。其中,“B-X”表示元素所在的片段屬于X類型并且在片段的開頭,“I-X”表示元素所在的片段屬于X類型,并且在片段的中間位置,“O”表示不屬于任何類型。在實際應用中,可以根據(jù)需要對BIO進行改進,如采用IOBES,其中E表示帶有黏著字符的子串,S表示非黏著字符子串,這種處理可以用于黏著型民族語言的詞法分析。
利用統(tǒng)計模型進行分詞研究時,需要一定規(guī)模的訓練語料。在訓練語料制作方面,維吾爾語、藏語、蒙古語、朝鮮語等已經具有一定規(guī)模的訓練語料,因此統(tǒng)計模型詞法分析效果也初步達到實用水平。在分詞技術方面,各語言采用的方法大體相似,一般都采用條件隨機場等序列標注模型,也有研究者嘗試在一些民族語言上使用深度神經網絡模型,但受民族語言語料資源的限制,基于深度神經網絡模型的分詞效果并沒有大幅提升。
2017年中文信息學會舉辦了第一屆“民族語言自動分詞評測”,參與評測的有蒙古文、藏文、維吾爾文三個語種。評測采用開放測試形式,分詞評測任務包括受限訓練任務(Close Track)和非受限訓練任務(Open Track),評測性能包括分詞精度與分析速度兩個方面。2021年舉辦了第二屆,與第一屆相比,評測形式沒有變化,但訓練和測試語料數(shù)量和質量大幅提升,從評測結果來看,民族語言分詞技術水平也有一定的提升。分詞評測是在統(tǒng)一語料、統(tǒng)一評價標準的基礎上開展的,公開評測措施有力推動了民族語言分詞技術的發(fā)展。
2.詞性標注
詞性標注(Part of Speech Tagging或POSTagging)是指為句子中的每個詞,確定一個合適詞性的過程。它是自然語言處理中的一項基礎任務,在語音識別、信息檢索及自然語言處理的很多領域都發(fā)揮著重要的作用。除了給詞標注詞性之外,還有一些以詞為單位的其他標注,例如人名、地名、組織機構名等專有名詞的識別、標注研究,也屬于為特定詞類打標簽的過程,通常稱為命名實體識別(Name Entity Recognition,NER),本文的詞性標注指稱廣義的標注,包括所有對“分詞單位”的屬性標注研究。
分詞和詞性標注可以分步進行,即先分詞然后進行詞性標注;也可以一體化處理,即分詞和詞性標注同步進行。一般來講,分詞和詞性標注同步進行的標注效果要好一些,分詞和標注過程相互制約,使分詞和詞性標注的準確率都有所提高。近期,基于同步標注策略的聯(lián)合學習模型在分詞與詞性標注任務中取得了更好的效果。具體地,面向分詞與詞性標注的聯(lián)合模型學習字符串的表示,并在此表示的基礎上,分別使用兩個標注模型進行分詞、詞性標注。該方法的出發(fā)點是分詞、詞性標注兩個任務具有很強的關聯(lián)性,分詞的結果決定了詞性標注的界限,詞性標注的合理性也反過來影響分詞的結果。在模型層面,常用的分詞及標注模型有:Bert+BiLSTM+CRF模型和Bert+BiLSTM+SPAN模型,在聯(lián)合學習模型中,分詞模型和標注模型共享Bert+BiLSTM部分的架構和參數(shù),CRF和SPAN模型則是分詞、標注模型分別私有的。共享參數(shù)能夠得到分詞和標注兩部分監(jiān)督信息的反饋,能夠學習到更好的模型。
詞性標注的過程包括研制標注集,制作標注標準和標注語料。通常需要人工標注一定數(shù)量的訓練材料,然后進行模型訓練。詞性標注集的規(guī)模往往會影響標注模型的效果,模型根據(jù)統(tǒng)計概率選擇最佳標注結果,通常訓練集規(guī)模越大,模型的性能越好。其中常用詞性標注數(shù)據(jù)集以Treebank(樹庫)為主,如英文詞性標注樹庫、中文詞性標注樹庫、藏文樹庫等。詞性標注的評價標準與分詞的評價標準類似,主要以準確率(Precision)、召回率(Recall)和F1值(F1-value)來計算,其中F1值越高,通常表示標注模型的性能越好。
命名實體識別(Named Entity Recognition,NER)是指在文本中自動標注和抽取特定對象,如人名、地址名、組織機構名等。命名實體識別在許多大型自然語言處理的應用系統(tǒng)中廣泛應用,如信息檢索、自動文本摘要、問答系統(tǒng)、機器翻譯以及知識圖譜等領域,因此是自然語言處理研究的熱點之一。
從語言信息處理的角度來看,詞性標注材料的使用場合要比分詞材料的使用場合少,因此民族語言詞性標注研究的進展比較緩慢。從現(xiàn)有成果來看,詞性標注的研究成果主要集中在蒙、藏、維等民族語言。
3.詞向量
單從“詞向量”這個術語字面上分析,就可以看出它是語言學和數(shù)學結合的產物。詞是語言學中最基本的概念之一,是最小的能夠獨立運用的語言單位;向量則是數(shù)學中的基本概念之一(起源于物理學),是“具有大小和方向的量”。詞和向量結合形成的“詞向量”在一定程度上能夠表達一個特定的“詞”在大?。ㄎ谋居颍┖头较颍ㄉ舷挛模┥系南蛄靠偤?,其中最典型的是詞的一部分分布(位置)信息和語義信息可以通過計算方式獲得。
索緒爾把語言看成一個符號系統(tǒng),該系統(tǒng)由音位、音節(jié)、語素、詞、短語、句子等各要素按照一定的層級組成。在索緒爾看來,語言符號系統(tǒng)各成員之間的位置關系可以概括為兩種最基本的關系:組合關系和聚合關系。組合關系是指兩個同一性質的結構單位按照線性順序組合起來的關系,組合關系是一種共現(xiàn)關系;而聚合關系是指在語言符號組合關系的某一位置上能夠互相替換且功能相同或相似的一類符號之間的關系,它是一種替換關系。美國結構主義語言學家布龍菲爾德提出“位置”和“形類”等概念,并用來描寫語言的分布特征
。哈里斯提出語言的分布結構,即“一個元素的分布將被理解為其所有環(huán)境的總和”、“如果認為詞A和B在意義上與A和C不同,那么我們經常會發(fā)現(xiàn)A和B的分布比A和C的分布更為不同”,詞的意義差異的總量大致相當于它們環(huán)境差異的總量,如果A和B從來沒有相同的環(huán)境,我們就說它們是兩個不同語法類的成員。從這些闡釋可以看出,語義相似的詞在文本中具有相似的位置分布,它們相互之間的語義距離也近。但是獲取詞的語義信息是人的認知行為,定量和定性的數(shù)據(jù)難以得到,這也是自語義分布概念提出以來,長達幾十年未被實際應用的主要原因。然而,隨著計算技術的發(fā)展和可利用的大規(guī)模文本數(shù)據(jù)的出現(xiàn),定量捕捉詞的語義信息成為可能。利用語言模型和機器學習獲得詞的語義分布信息以“向量”方式儲存,可以簡單地理解為一種語言的“詞向量”就是該種語言的一種新型“詞典”,詞條與傳統(tǒng)詞典一樣,詞條的釋義則以抽象的、數(shù)字化的“詞向量”表示。詞向量是在大規(guī)模文本數(shù)據(jù)的基礎上,通過詞匯的上下文學習,得到詞匯的低維向量表示(如100維的向量)。常用的詞向量學習工具包括Word2vec、Glove、Fasttext等,這三種工具均可以在Gensim工具中直接調用。常用的詞向量學習算法包括Skip-gram、CBOW等,Skip-gram是利用上下文來預測中心詞,CBOW是利用中心詞來預測上下文。詞向量常使用無監(jiān)督的文本數(shù)據(jù)進行訓練,訓練數(shù)據(jù)的規(guī)模、質量和領域會影響詞向量下游任務的性能,通常訓練數(shù)據(jù)的規(guī)模越大、數(shù)據(jù)質量越高、訓練數(shù)據(jù)與下游任務領域數(shù)據(jù)越接近,訓練得到的詞向量對于下游任務的效果就更好。除此之外,詞匯序列上下文窗口的大小、停用詞、詞頻、迭代次數(shù)等超參數(shù)的設置也會直接影響詞向量的質量。
詞向量在自然語言處理中的應用十分廣泛,研究者高度關注,研究成果豐富。但是詞向量在社會科學領域的應用還不常見,冉雅璇等從理論上描述了詞向量在社會科學領域六方面的應用:挖掘社會偏見和刻板印象、窺探文化認知內涵、分析詞的語義內涵演變、推斷文本情感傾向、挖掘不同組織在價值觀和意識形態(tài)層面的關聯(lián)、揭示個體的判斷和決策心理。但這些研究設想即使在中文領域也未見有實質性的研究成果發(fā)表。在蒙、藏、維等民族語言信息處理中,只有少量研究論文涉及詞向量,如探討詞向量的表示方法、基于詞向量的語義聚類、詞向量在民漢機器翻譯中的應用等,研究深度和廣度都有待提升,民族語言詞向量技術在社會科學領域的研究成果尚未見到。
4.知識圖譜
谷歌公司在2012年提出了知識圖譜(Knowledge Graph,KG)的概念,所謂知識圖譜是以結構化的形式描述客觀世界中的概念、實體及其相互關系。從狹義角度看,概念和實體往往以詞或者短語來體現(xiàn),概念、實體之間的關系可以簡單地看作是詞與詞之間的關系。從“知識圖譜”概念的內涵和外延差異來看,可以分成兩類:基于文獻計量的知識地圖和基于關聯(lián)數(shù)據(jù)的語義知識圖譜,而后者才是真正意義上的知識圖譜。語義知識圖譜概念提出之前,語言學家和計算語言學家通常使用本體知識(Ontology)、語言知識工程、語義網絡等概念來指稱,研究成果的典型代表有WordNet,F(xiàn)reebase和Hownet等知識庫。
早期研究者在構建知識圖譜時,一般采用自頂向下的方式,即由專家建立好知識圖譜的框架,包括圖譜中的概念、實體的層次和關系,然后依據(jù)特定的工具來填寫,常見的工具有Protégé、TopBraid Composer等。知識圖譜構建過程包括知識建模、知識獲取、知識融合和推理。
互聯(lián)網催生和加快了知識圖譜的產生和發(fā)展,知識圖譜又提升了互聯(lián)網的智能化水平?;ヂ?lián)網上開放鏈接的數(shù)據(jù)非常多,利用語言信息技術從開放鏈接數(shù)據(jù)中抽取實體加入到知識庫,然后再自動或半自動構建實體之間的關系,這是一種自底向上的構建方式。知識圖譜為互聯(lián)網上海量、異構、動態(tài)的大數(shù)據(jù)表達、組織、管理以及利用提供了一種更為有效的方式,使得網絡的智能化水平更高,更加接近于人類的認知思維。知識圖譜具有廣泛的應用前景,可以用于智能搜索、深度問答、社交網絡分析等,因此它已經成為自然語言處理研究領域的熱點之一。
基于民族語言文字的知識圖譜研究總體上處于起步階段,研究成果局限于特定領域。趙生輝認為要構建藏漢雙語融合型知識圖譜,以西藏宗教文化多語言知識圖譜為例闡釋構建過程。馮小蘭等構建了漢藏雙語旅游領域知識圖譜。葛運城基于WordNet的結構探索計算機領域漢英蒙術語知識圖譜構建。龍從軍也開展了以藏文古文獻文本為基礎的知識圖譜研究,初步完成了吐蕃藏文金石銘刻基本概況、研究現(xiàn)狀、刻文內容和語法范疇四種本體的知識圖譜,以知識圖譜技術研究民族古文獻是數(shù)字人文技術的深化,當基于古文獻文本內容的知識圖譜形成一定規(guī)模時,它將對民族古文獻保護、開發(fā)和利用發(fā)揮重要價值。
5.預訓練語言模型
語言模型是用來計算句子中不同層級的語法單位概率的一種技術,根據(jù)處理的對象不同,可以分別計算句子中字、詞、短語、語法成分等的概率。語言模型分專家規(guī)則模型、統(tǒng)計語言模型和預訓練語言模型。專家規(guī)則語言模型是語言處理初級階段的產物,統(tǒng)計語言模型是隨著計算機和語料庫技術的發(fā)展而產生的,N-gram是常見的統(tǒng)計語言模型,但N的取值并非任意,取值一般小于5,所以N-gram統(tǒng)計語言模型無法獲取更長距離的上下文信息,模型效果過度依賴訓練語料的質量,也不可避免地出現(xiàn)數(shù)據(jù)稀疏的問題。靜態(tài)詞向量技術從一定程度上解決了N-gram模型的問題,但對一詞多義、未登錄詞等問題仍然無法從根本上解決。建立在動態(tài)詞向量基礎上的預訓練語言模型綜合利用了強大的計算機算力、各種訓練方法和技巧,能夠從海量無標注數(shù)據(jù)中產生上下文相關的特征表示,獲取包括語義、句法、語境等各方面的大量語言知識,從全局角度“理解”給定文本的含義。當前,BERT(Bidirectional Encoder Representation from Transformer)模型是應用最廣泛的大規(guī)模預訓練模型的代表。但BERT模型有大量的參數(shù),預訓練時對硬件的要求高、消耗大、訓練難度高;同時需要海量無監(jiān)督文本數(shù)據(jù),對低資源語言來說也極難實現(xiàn)。
我國民族語言語料稀缺,文本、語音材料獲取難度大,現(xiàn)有的多語言模型無法直接用于處理民族語言文字。值得慶幸的是科大訊飛和哈爾濱工業(yè)大學聯(lián)合發(fā)布了首個面向少數(shù)民族語言的多語言預訓練模型CINO(Chinese Minority Pre-Trained Language Model),該模型提供了藏語、蒙語(回鶻體)、維吾爾語、哈薩克語(阿拉伯體)、朝鮮語、壯語等少數(shù)民族語言相關預訓練模型,填補了民族語言預訓練模型這一研究空白。該預訓練語言模型在藏文文本分類等任務上取得了顯著效果,證明了預訓練語言模型在少數(shù)民族語言處理領域的價值。
自動句法分析是計算機根據(jù)語言知識自動地識別出一個句子的語法單位以及這些語法單位之間相互關系的過程,分析的結果以樹圖的形式表示語言知識的結構,它是語言形式化的一種重要手段。句法分析在語言信息處理領域占據(jù)十分重要的作用,正確的句法分析結果可以幫助提高機器理解自然語言的性能。
句法分析一般有兩種常見的分析理論:基于短語結構語法的句法分析和基于依存語法的句法分析。
短語結構語法是在結構主義的直接成分分析法基礎上發(fā)展而來的,喬姆斯基在直接成分分析法的基礎上,根據(jù)直接成分的性質,給它們標注上相應的類型,如S、NP、VP、AP等,并構建了一套推導規(guī)則,如S—>NP VP,然后再把NP、VP分解為更小的成分,這種推導規(guī)則揭示了語法具有用有限的規(guī)則生成無限句子的能力,也表明了各種短語類型的句法層次關系。采用短語結構規(guī)則表示的句子結構清晰,使人一目了然,短語結構由于規(guī)則有限、層次分明,便于計算機分析,因此在自然語言處理研究領域廣泛使用。
依存語法是研究句子各構成成分之間的支配和從屬關系。依存可以是詞語之間的依存,短語之間的依存,句法成分之間的依存。基于依存語法建立起的依存樹在當前自然語言處理研究中發(fā)揮了積極的作用,依存句法樹庫的構建也成為各語言句法樹研究的熱點。
民族語言的句法分析研究集中在蒙、藏、維、哈以及西南跨境民族語言。華卻才讓等人采用判別式的依存句法分析,采用33個依存句法分析標簽,選用了最大生成樹模型,利用四類分類特征模板來分析藏語依存句法。扎西加、多拉闡述了藏語依存樹庫建設的理論與方法,對藏語句子的篩選、藏語依存結構的形式化模型、藏語依存的骨架結構以及藏語依存樹的多維關系等方面進行了研究和分析。龍從軍構建了約1萬句的藏語短語結構樹庫,研制了基于短語結構自動句法分析器。斯·勞格勞借用依存句法的理論對蒙古語開展依存句法的自動分析研究。蘇向東等基于最大生成樹模型進行了蒙古文依存句法分析。阿布都熱依木·熱合曼從構建句法樹庫的角度討論了維吾爾語句法樹庫標注體系。阿布都克力木·阿不力孜采用自頂向下的算法,開展維吾爾語的自動句法分析。朱敬國對維吾爾語句子采用GLR算法進行句法分析。
值得說明的是,隨著端到端(End-to-End)深度學習技術的發(fā)展,研究者更喜歡把詞法、句法解析的工作交給模型去處理,而不愿意花過多的精力去研制句法樹庫,加之民族語言句法分析難度大以及小規(guī)模樹庫資源也難以大幅提升自然語言信息處理下游任務的效果,諸多原因合力導致民族語言句法分析研究任務難以為繼。
民族語言信息處理離不開數(shù)據(jù)資源的支持,數(shù)據(jù)資源是以統(tǒng)計為手段的信息處理研究得以開展的前提,構建民族語單語或多語語料庫具有重要的意義。民族語言語料庫建設的內容涉及語料的選取、收集、加工和分析,其中語料庫加工包括語料庫的分詞、詞干詞綴切分、詞性標注等詞法層面的加工;也包括句法分析、語義標注等句法層面的加工;同時還涉及篇章標注和篇章分析等內容。
民族語言語料庫建設的研究起步于20世紀90年代。受基礎理論研究薄弱和電子文檔數(shù)量少的限制,民族語言語料的規(guī)模、質量都難以得到保障。一些研究者構建了小規(guī)模的語料庫,其中大部分屬于生語料庫,少部分進行了標注。
21世紀初,一些民族語言字符編碼問題得到有效解決,網絡文本語料大量出現(xiàn),民族語言語料庫規(guī)模迅速擴充,百萬級的語料庫逐漸出現(xiàn),其中,藏語語料庫有西藏大學建立的超大型藏文基礎語料庫,中國社會科學院民族所發(fā)布了藏語分詞標注語料庫,并基于語料庫開發(fā)了藏語分詞和詞性標注工具,青海師范大學的基于句子對齊的雙語語料庫,復旦大學開源了藏文文本分類數(shù)據(jù)集。維吾爾語料庫有新疆師范大學的維吾爾文語料庫,新疆大學的維吾爾語詞法標注語料庫和句法標注語料庫,維漢、哈漢和柯漢雙語語料庫。蒙古語語料庫有內蒙古大學蒙古文電子文本語料庫、中世紀蒙古文語料庫、現(xiàn)代蒙古語語料庫、蒙古語文教材語料庫、蒙古語傳媒語言文本語料庫、蒙古語口語語料庫、東北亞語言資源中心等。朝鮮語方面,建成了上億級原始文本語料庫和部分詞性標注語料庫、2 000萬字的朝(韓)漢對譯語料庫、820萬字朝鮮語(韓國語)病句語料庫、100小時的標準口語音頻數(shù)據(jù)和100小時的標準語雙頻數(shù)據(jù)和140萬字的正字法轉寫庫、140萬字的語言轉寫語料庫、90萬語節(jié)的實際發(fā)音訓練語料庫。其他民族語言也相應建立了一些小規(guī)模語料庫。從數(shù)量和規(guī)模上看,民族語言語料庫規(guī)模不斷擴大,但是,語料質量、加工層級方面還存在不少問題,大部分屬于“生語料”或“半生語料”。
民族語言文字信息處理的最終目標是讓機器“理解”語言,實現(xiàn)語言信息的“人機交互”?;诿褡逭Z言文字的信息處理產品開發(fā)以文字識別、語音識別和民漢機器翻譯研究為主,前文已經敘述過文字識別問題,下面主要談談語音識別和民漢機器翻譯研究現(xiàn)狀。
語音識別(Automatic Speech Recognition,ASR)是以語音為研究對象,通過語音信號處理和模式識別,讓機器把語音信號轉變?yōu)橄鄳奈谋净蛎?。語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關系。
語音識別技術經歷了三個階段,基于模板的特定人、小詞匯量、孤立詞的語音識別,基于馬爾科夫模型(Hidden Markov Model,HMM)的非特定人、大詞匯量、連續(xù)語音識別和以深度神經網絡為基礎的端到端的、非特定人、大詞匯量、連續(xù)語音識別。有傳統(tǒng)文字的民族語言語音識別雖然起步晚,但發(fā)展快,目前大部分研究都處于第三階段。采用端到端技術之后,從某種意義上說,對訓練語料加工的要求降低了,不需要預先對語音和文本數(shù)據(jù)對齊和描述音素內部狀態(tài)的變化,只需要一個輸入序列和一個輸出序列就可以進行訓練,同時,把聲學模型和語言模型也統(tǒng)一在神經網絡模型之中,擺脫了語音學、音系學、語言學等專業(yè)知識和非母語研究者語言障礙的約束。技術的進步使語音識別朝著更簡單、更高效、更準確的方向發(fā)展。
民族語言語音識別和機器翻譯相結合的產品在民族語言資源保護、不同民族之間的語言文化交流、維護基于移動互聯(lián)網的民族語言安全等方面都有一定的應用價值,因此吸引了一批企業(yè)參與產品研究與開發(fā)。訊飛與民族地區(qū)的高校合作,建立蒙、藏、維語語音識別合作實驗室。騰訊開發(fā)了騰訊民漢翻譯微信小程序,可以實現(xiàn)維吾爾語、藏語(衛(wèi)藏、安多、康巴)、哈薩克語和蒙古語民漢雙向語音輸入、識別和翻譯。捷通華聲的靈云平臺可以支持普通話、藏語、彝語、蒙古語、朝鮮語、哈薩克語、維吾爾語等民族語言語音識別。
機器翻譯(Machine Translation,MT)是指用計算機來實現(xiàn)不同語言之間的翻譯,被翻譯的語言通常稱為源語言,翻譯的結果語言稱為目標語言,機器翻譯就是實現(xiàn)從源語言到目標語言轉換的過程。不同語言之間的翻譯需要多學科知識。在不同國家或民族的語言文字信息交流中,機器翻譯成為解決“語言屏障”問題的關鍵技術之一,對促進文化交流具有重要意義。
機器翻譯所采用的方法在不同的時期表現(xiàn)不同。機器翻譯研究初期主要采用基于規(guī)則的轉換翻譯方法、基于中間語言的翻譯方法等。自20世紀80年代末期以來,語料庫技術和統(tǒng)計機器學習方法在機器翻譯研究中廣泛應用,機器翻譯進入一個新紀元。一批基于語料庫的機器翻譯方法相繼問世,主要有基于記憶的翻譯方法、基于實例的翻譯方法、統(tǒng)計翻譯方法以及基于深度學習的神經網絡機器翻譯方法等。
神經網絡機器翻譯采用了端到端序列生成模型,模型可以自動從大規(guī)模語料中提取出最相關的數(shù)據(jù)特征,減少了人工預處理環(huán)節(jié)。在算法上,神經網絡模型部分模擬了人類習得和使用語言的活動狀態(tài),因而在處理語言這類復雜現(xiàn)象時要比傳統(tǒng)的統(tǒng)計機器翻譯效果更佳。
當前民族語言機器翻譯主要采用端到端的神經網絡技術。比較成型的產品有陽光藏漢雙向機器翻譯系統(tǒng)(藏漢)、民漢對話通(蒙漢、藏漢、維漢、哈漢、朝漢、彝漢、壯漢)、云嶺機器翻譯系統(tǒng)(越南語、泰語、緬甸語、老撾語、柬埔寨語、藏語、維語等),東北亞語言資源中心的蒙漢機器翻譯系統(tǒng)。這些系統(tǒng)主要采用神經網絡機器翻譯技術,受限于民族語言語料規(guī)模,從翻譯效果來看,現(xiàn)有的產品還難以達到人們期望的實用水平。事實證明,語料規(guī)模小,基于端到端的神經網絡翻譯模型也難以大幅提升機器翻譯的效果。近幾年,遷移學習、數(shù)據(jù)增強也引入民族語言機器翻譯中,但是無法從根本上解決語料匱乏的現(xiàn)狀,而且沒有文字的民族語言目前尚未開展機器翻譯研究。
2018年,香港大學、紐約大學的研究人員提出一種新的神經機器翻譯方法,即元學習算法(Model Agnostic Meta Learning,MAML),元學習就是讓機器利用已有的知識經驗“學會如何學習”,例如構建多資源的語言模型,當?shù)玫綐O佳的初始參數(shù)時,再構建一個所有語言的詞匯表,再以初始模型為基礎,訓練低資源語言的翻譯,然后進一步優(yōu)化初始模型,最終得到的模型就可以很好地提升低資源語言的翻譯性能。據(jù)報道該種技術不但可以用于低資源語言,而且可以用于極少資源的語言機器翻譯,希望這種技術盡快在我國民族語言機器翻譯中得到應用。
民族語言信息處理研究經過幾十年的發(fā)展,取得了大量的研究成果,積累了豐富的研究經驗?;就瓿捎嬎銠C字符編碼,實現(xiàn)了現(xiàn)行文字和古文字的計算機輸入、輸出、顯示和打印,基于統(tǒng)一編碼的民族文字的網絡傳輸?shù)靡詫崿F(xiàn),為民族文字的文本信息化、基于民族文字的文化保護和傳承、資源庫建設奠定了基礎。
民族語言“字”處理研究取得了大批科研成果。蒙、藏、維、朝、哈、柯、彝等民族語言在分詞、詞干詞綴切分、詞性標注等基礎研究領域成果豐富,構建了大批數(shù)據(jù)資源,開發(fā)了可以供輔助語言研究、分析的系列計算機工具,基本滿足了民族語言自然語言處理的需求。
民族語言句法、語義和篇章研究粗具規(guī)模?;诰渥蛹墶⑵录壍馁Y源庫不斷積累,推動民族語言本體和應用研究深入開展。
基于民族語言的應用、服務產品不斷涌現(xiàn)。一部分跨境民族語言文字應用產品的開發(fā)和使用,對維護國家邊疆穩(wěn)定、地區(qū)和平發(fā)揮著重要作用?!耙粠б宦贰毖鼐€多語機器翻譯、語音識別產品對跨國、跨地區(qū)經濟、文化交流提供服務。蒙、藏、維語音識別和機器翻譯系統(tǒng)基本達到實用水平,推動了各民族之間的文化交流。
但是民族語言信息處理研究領域狹窄,市場小,研究進展緩慢。與漢、英語言信息處理研究相比,研究團隊小,技術相對落后。同時,也可以看到民族語言信息處理研究成果在語言本體研究中應用較少。語言本體研究者在收集、整理和分析民族語言材料時,很少使用語言信息處理技術和產品,導致工作進度慢,加工規(guī)范性差;反過來無統(tǒng)一規(guī)范標準的民族語言文字材料也難以用于語言信息處理研究中,語言本體研究和信息處理研究有機結合、相互促進是今后民族語言研究關注的重點。
近年來,低資源自然語言處理得到了學界的廣泛關注,利用無監(jiān)督、多任務、小樣本、零樣本學習等技術為低資源場景下的信息處理提供了新的機遇。因此,基于深度學習的低資源信息處理技術將成為民族語言文字信息處理領發(fā)展的動力。
龍從軍,負責全文撰寫和修改;安波,負責資料補充和核校。