常亞昕,龍?jiān)骑w
(紅河州民族研究所,云南蒙自 661199)
紅河哈尼族彝族自治州境內(nèi)居住著哈尼、彝、苗、傣、壯、瑤、回、布依、拉祜、布朗(莽人)等10個(gè)少數(shù)民族,少數(shù)民族人口占全州總?cè)丝诘?1.5%(2020年),其中哈尼族人口最多。我國憲法規(guī)定:各民族都有使用和發(fā)展自己的語言文字的自由。為認(rèn)真貫徹落實(shí)《中華人民共和國民族區(qū)域自治法》《紅河哈尼族彝族自治州自治條例》,2011年7月,紅河州委州政府下發(fā)文件《關(guān)于規(guī)范使用哈尼之、彝之、漢之三種文字標(biāo)牌的通知》(紅辦發(fā)〔2011〕87號(hào)),紅河州正式使用哈尼文、彝文、漢文三種文字(以下簡稱“三種文字”)標(biāo)牌。
2019年,紅河州成功創(chuàng)建為全國民族團(tuán)結(jié)進(jìn)步示范州,“三種文字”標(biāo)牌作為創(chuàng)建示范州宣傳工作的載體之一,以視覺文字的形式展現(xiàn)了紅河哈尼族彝族自治州民族文化特色,結(jié)合開展民族團(tuán)結(jié)進(jìn)步創(chuàng)建工作。截止2019年底,“三種文字”標(biāo)牌已覆蓋范圍包括:州、縣(市)、鄉(xiāng)(鎮(zhèn)、辦事處)黨和國家機(jī)關(guān)、人民團(tuán)體的名稱標(biāo)牌;州黨代會(huì)、州人代會(huì)、州政協(xié)會(huì)及州委、州人大常委會(huì)、州政府、州政協(xié)召開的重要會(huì)議、重大活動(dòng)的會(huì)標(biāo);州、縣(市)人民政府所在地事業(yè)單位的名稱標(biāo)牌;州、縣(市)人民政府所在地城區(qū)主要道路、街道、公共設(shè)施的名稱標(biāo)牌;州內(nèi)主要旅游景點(diǎn)名稱標(biāo)牌;州、縣(市)人民政府所在地的部分賓館、酒店;國有、私營企業(yè);主要街道的商號(hào)、店鋪等等,以及各種重大節(jié)慶活動(dòng)、民族團(tuán)結(jié)宣傳月、宣傳周、民族團(tuán)結(jié)進(jìn)步創(chuàng)建活動(dòng)等宣傳標(biāo)語。“三種文字”標(biāo)牌自2011年啟動(dòng)以來,粗略統(tǒng)計(jì)已翻譯6萬余條。
目前承擔(dān)全州翻譯工作的任務(wù)主要集中在紅河州民族研究所,且翻譯人員不足。因?yàn)榉g任務(wù)是根據(jù)需要安排,不定時(shí)也不定量,所以在翻譯任務(wù)比較集中的時(shí)候不免出現(xiàn)翻譯人員無法按時(shí)完成任務(wù)的情況。筆者從2011年從事“三種文字”標(biāo)牌翻譯工作至今,在多年的翻譯實(shí)踐中通過分析工作中遇到的問題,提出此開發(fā)“三種文字”翻譯軟件的設(shè)想,希望通過軟件的開發(fā)運(yùn)用,提高工作效率,促進(jìn)紅河州“三種文字”標(biāo)牌翻譯工作長期有效地發(fā)展。
2019年7月州委州政府頒布了《關(guān)于貫徹全面深入持久開展民族團(tuán)結(jié)進(jìn)步創(chuàng)建工作 鑄牢中華民族共同體意識(shí)的實(shí)施意見》(紅辦發(fā)〔2019〕50號(hào)),意見提出的主要任務(wù)之一就是深化民族團(tuán)結(jié)進(jìn)步宣傳教育。同年12月,國家民委命名紅河哈尼族彝族自治州為“全國民族團(tuán)結(jié)進(jìn)步示范州”。“三種文字”標(biāo)牌作為我州創(chuàng)建全國民族團(tuán)結(jié)進(jìn)步示范州宣傳工作的載體之一,為進(jìn)一步鞏固提升全國民族團(tuán)結(jié)進(jìn)步示范州創(chuàng)建成果,推進(jìn)新時(shí)代紅河州民族團(tuán)結(jié)進(jìn)步創(chuàng)建工作由“創(chuàng)建型”向“示范型”轉(zhuǎn)變,不斷鑄牢中華民族共同體意識(shí),開發(fā)一款適用于紅河州翻譯哈尼文、彝文、漢文“三種文字”標(biāo)牌的翻譯工具,并將翻譯軟件推廣到各縣市民宗局,達(dá)到各縣市可以獨(dú)立運(yùn)用翻譯軟件翻譯“三種文字”標(biāo)牌的目的。這也是踐行國家相關(guān)民族語言文字政策的體現(xiàn),同時(shí)有利于本民族人民增強(qiáng)文化自信,有利于樹立自覺學(xué)習(xí)、保護(hù)和發(fā)展民族語言文字的意識(shí)[1]。并且符合少數(shù)民族語言文字信息化、辦公自動(dòng)化趨勢(shì)。
1.“三種文字”標(biāo)牌翻譯軟件的開發(fā)研究屬于少數(shù)民族語言文字機(jī)器翻譯技術(shù)的研究。機(jī)器翻譯(Machine Translation)是指利用計(jì)算機(jī)完成一種自然語言到另一種自然語言的轉(zhuǎn)換,它涉及多門學(xué)科,包括語言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)等,是一種多領(lǐng)域交叉學(xué)科[2]。而少數(shù)民族語言文字機(jī)器翻譯技術(shù)的研究更是一項(xiàng)復(fù)雜的工作,因?yàn)樯贁?shù)民族語言的句子結(jié)構(gòu)與漢語存在巨大差異。受到市場規(guī)模、語料庫規(guī)模、研究人員數(shù)量、經(jīng)費(fèi)支持力度等多種因素的制約,目前我國少數(shù)民族語言文字機(jī)器翻譯技術(shù)整體上還處在初級(jí)階段[3]。此涉及的哈尼文、彝文兩種少數(shù)民族語言文字中,目前面世的彝語言文字計(jì)算機(jī)信息處理系統(tǒng)比較多,而哈尼語言文字計(jì)算機(jī)信息處理系統(tǒng)尚無。
2.大多數(shù)少數(shù)民族語言一般有小型詞典,但沒有完備的語料庫,在句法分析方面的研究也基本處于空白[4]。目前我們“三種文字”標(biāo)牌翻譯的對(duì)象主要是名詞性的新詞術(shù)語,包括彝文和哈尼文在翻譯過程中我們大多采用音譯的方式。根據(jù)這個(gè)特點(diǎn),我們就揚(yáng)長避短明確問題,即軟件僅針對(duì)目前紅河州“三種文字”標(biāo)牌翻譯工作,承擔(dān)哈尼文、彝文、漢文三種文字標(biāo)牌的翻譯。由于少數(shù)民族語言獨(dú)特的性質(zhì),其句子結(jié)構(gòu)與漢語存在巨大差異,為簡化和集中解決問題,軟件暫不承擔(dān)其他文章、古籍、對(duì)話等的翻譯。這樣我們?cè)陂_發(fā)過程中就大大簡化了問題。
3.由于我們平時(shí)需要的標(biāo)牌有橫向和豎向之分,所以“三種文字”標(biāo)牌翻譯軟件需要輸出橫排和豎排兩種情況,即要考慮三種文字在橫向和豎向時(shí)的書寫方式。其中漢字比較簡潔,直接排版即可,彝文是傳統(tǒng)的表意文字,在標(biāo)牌翻譯中可與漢字一一對(duì)應(yīng),而哈尼文是拼音文字,且在橫向書寫時(shí),是以詞為單位相連在一起,詞與詞之間用空格隔開,而在豎向標(biāo)牌中,則要單個(gè)字分開,如下面的例子。為顯正式與莊重,目前標(biāo)牌翻譯中哈尼文都采用大寫字母書寫。
橫排:
蒙自市社會(huì)主義學(xué)院
豎排:
首先把要翻譯的漢文內(nèi)容根據(jù)橫排和豎排的需要進(jìn)行分詞,在分詞的過程中后臺(tái)要通過分詞算法給出正確的分詞結(jié)果,然后進(jìn)行翻譯,即從詞庫中尋找到漢文匹配的哈尼文和彝文。詞庫需要收錄日常使用的工具書《漢哈尼新詞術(shù)語集》《漢哈尼詞典》《漢彝大辭典》中的大部分詞匯及其之相應(yīng)的譯文(哈尼文和彝文);還要收錄之前翻譯過的所有“三種文字”標(biāo)牌詞匯;并盡量收錄紅河州各縣市、鄉(xiāng)鎮(zhèn)、社區(qū)、村委會(huì)、自然村的名稱和有可能需要掛牌的詞匯。詞庫是一個(gè)很重要的數(shù)據(jù)庫,詞庫里面收錄的詞匯決定了翻譯結(jié)果的正確性和完整性,如果詞庫里沒有收錄該詞匯,則出不了相應(yīng)結(jié)果,這就需要及時(shí)補(bǔ)充和完善,為此該軟件還需設(shè)置詞匯新增功能,若有重復(fù)收錄詞匯的情況,系統(tǒng)也能自動(dòng)識(shí)別避免重復(fù)。找到了匹配的哈尼文和彝文,則根據(jù)需要排版成橫排或豎排,以word文檔形式,根據(jù)用戶設(shè)置的路徑輸出到目標(biāo)文件夾里,這里可設(shè)置單獨(dú)輸出橫排或豎排,也可同時(shí)輸出橫豎排,最后用戶只需對(duì)輸出的結(jié)果進(jìn)行核查和微調(diào)即可。
初步設(shè)想本系統(tǒng)提供以 B/S 架構(gòu)(即瀏覽器和服務(wù)器架構(gòu)模式)為主的 Web 應(yīng)用,也提供可獨(dú)立運(yùn)行的 C/S 架構(gòu)(即客戶機(jī)/服務(wù)器模式)windows 客戶端應(yīng)用。系統(tǒng)大致分為四個(gè)部分,第一部分為用戶交互層,提供 Web 網(wǎng)頁和 windows客戶端兩種方式,其中 Web 網(wǎng)頁支持電腦、Pad、手機(jī)瀏覽器通過互聯(lián)網(wǎng)訪問。Windows 客戶端支持?jǐn)嗑W(wǎng)離線使用,也可以支持聯(lián)網(wǎng)后自動(dòng)更新最新數(shù)據(jù)使用。第二部分為服務(wù)層,此部分主要是依托于IIS(Internet Information Services互聯(lián)網(wǎng)信息服務(wù))提供服務(wù),針對(duì)windows 客戶端提供了WCF(Windows Communication Foundation是由微軟開發(fā)的一系列支持?jǐn)?shù)據(jù)通信的應(yīng)用程序框架,可以翻譯為Windows 通訊開發(fā)平臺(tái))服務(wù)進(jìn)行數(shù)據(jù)更新。第三部分為標(biāo)牌翻譯軟件核心模塊翻譯引擎,此部分主要是哈、彝、漢詞庫,根據(jù)詞庫自動(dòng)生成中文分詞詞庫,分詞算法根據(jù)中文分詞詞庫對(duì)需翻譯的漢文進(jìn)行詞法解析,然后根據(jù)詞法解析結(jié)果,對(duì)照詞庫進(jìn)行翻譯并輸出結(jié)果。第四部分為數(shù)據(jù)存儲(chǔ)區(qū)域,本系統(tǒng)采用輕量級(jí)的免費(fèi)數(shù)據(jù)庫,windows客戶端也提供了本地?cái)?shù)據(jù)存儲(chǔ)。
圖1 軟件總體架構(gòu)
本系統(tǒng)設(shè)計(jì)功能結(jié)構(gòu)模塊分為基礎(chǔ)功能、業(yè)務(wù)功能、系統(tǒng)管理、翻譯引擎四部分,如圖2。各模塊的詳細(xì)功能介紹如下:
圖2 系統(tǒng)功能結(jié)構(gòu)圖
1.基礎(chǔ)功能主要是完成系統(tǒng)的登錄認(rèn)證,進(jìn)入系統(tǒng)首頁后能看到系統(tǒng)整體的使用概況,包括詞匯收錄情況,待譯數(shù)據(jù)情況等直觀圖表展示。
2.業(yè)務(wù)功能為本系統(tǒng)的重要組成部分,涵蓋了待譯詞匯的申請(qǐng)、翻譯處理、詞匯收錄、標(biāo)牌翻譯以及收錄語料的搜索查詢。翻譯申請(qǐng),考慮到哈尼文和彝文的不同翻譯以及對(duì)應(yīng)不同的使用者,為協(xié)調(diào)進(jìn)行翻譯工作的進(jìn)行,在進(jìn)行翻譯申請(qǐng)時(shí),分別自動(dòng)生成待譯哈尼文和待譯彝文清單。當(dāng)哈尼文和彝文工作者翻譯完成時(shí),系統(tǒng)將自動(dòng)收錄漢文、及對(duì)應(yīng)的哈尼文和彝文詞匯。翻譯處理,哈尼文和彝文工作者分別處理待譯清單內(nèi)容。詞匯收錄,可以直接收錄漢文、哈尼文、彝文詞匯,并且可以對(duì)收錄詞匯進(jìn)行增加、刪除、修改、查詢。標(biāo)牌翻譯,此功能也是本系統(tǒng)最終的應(yīng)用核心。該功能提供友好的輸入界面,輸入待翻譯的中文信息,點(diǎn)擊翻譯,系統(tǒng)將經(jīng)過分詞算法對(duì)待譯中文進(jìn)行分詞和翻譯,并將分詞結(jié)果和對(duì)應(yīng)的哈尼文和彝文返回界面。系統(tǒng)提供將翻譯結(jié)果導(dǎo)出至 word(橫排、豎排)文檔,與此同時(shí)可以將翻譯結(jié)果收錄至語料庫以便后續(xù)進(jìn)行查詢。
3.系統(tǒng)管理主要包括用戶管理,權(quán)限管理,客戶端身份管理,日志管理等功能。用戶管理包括新增、刪除和修改用戶密碼。權(quán)限管理,用于給用戶授權(quán)不同的系統(tǒng)使用功能,可以進(jìn)行增刪改查??蛻舳松矸莨芾?,主要用于windows 客戶端訪問者的身份驗(yàn)證,以確保數(shù)據(jù)訪問的安全性。日志管理,主要進(jìn)行系統(tǒng)操作的日常記錄,以便審計(jì)和排查問題。
4.翻譯引擎是系統(tǒng)的關(guān)鍵模塊,它通過分詞算法的運(yùn)算和與詞庫內(nèi)詞匯的匹配,提供翻譯服務(wù)。如下為此系統(tǒng)采用的翻譯規(guī)則和算法,如不滿足算法規(guī)則則不能出結(jié)果。
基本翻譯規(guī)則:漢文語句分詞取決于收錄詞匯,未收錄詞匯只能被解析為單個(gè)字;漢文分詞算法:雙向最大匹配(詳見下方算法資料);漢文語句能夠按照算法進(jìn)行分詞,然后再根據(jù)分詞結(jié)果進(jìn)行翻譯;針對(duì)詞匯,翻譯成哈尼文時(shí)橫排中間沒有空格,豎排是哈尼文單詞與漢文單詞對(duì)齊即可;漢文與彝文字符一對(duì)一翻譯,不考慮一對(duì)多或者多對(duì)多的翻譯;考慮到標(biāo)牌翻譯多為名詞組合,為簡化問題,不考慮語法語序問題,按照漢文的先后順序一一對(duì)應(yīng)。
算法包括正向最大匹配算法和逆向最大匹配算法,詳細(xì)解析如下:
(1)正向最大匹配算法:第一步,從左向右取待切分漢語句的 m 個(gè)字符作為匹配字段,m 為翻譯引擎詞庫中最長詞條個(gè)數(shù)。第二步,查找翻譯引擎詞庫進(jìn)行匹配。若匹配成功,則將這個(gè)匹配字段作為一個(gè)詞切分出來。若匹配不成功,則將這個(gè)匹配字段的最后一個(gè)字去掉。剩下的字符串作為新的匹配字段,進(jìn)行再次匹配,重復(fù)以上過程,直到切分出所有詞為止。
(2)逆向最大匹配算法:該算法是正向最大匹配的逆向思維,匹配不成功,將匹配字段的最前一個(gè)字去掉。實(shí)驗(yàn)表明,逆向最大匹配算法要優(yōu)于正向最大匹配算法。
(3)雙向最大匹配法:是將正向最大匹配法得到的分詞結(jié)果和逆向最大匹配法得到的結(jié)果進(jìn)行比較,從而決定正確的分詞方法。如果正反向分詞結(jié)果詞數(shù)不同,則取分詞數(shù)量較少的那個(gè)。如果分詞結(jié)果詞數(shù)相同,就說明沒有歧義,可返回任意一個(gè)。
1.系統(tǒng)安裝包括系統(tǒng)環(huán)境和系統(tǒng)部署。系統(tǒng)環(huán)境目前普通辦公電腦即可,電腦系統(tǒng)要求windows7及其以上。系統(tǒng)部署主要是外網(wǎng)服務(wù)器和內(nèi)部網(wǎng)絡(luò)部署,由專業(yè)人員安排部署。
2.系統(tǒng)使用:分為普通用戶界面和高級(jí)用戶界面。高級(jí)用戶的權(quán)限要比普通用戶的權(quán)限大。
(1)統(tǒng)一使用同一個(gè)登錄界面,用戶權(quán)限根據(jù)后臺(tái)分配的賬號(hào)類別而定,用戶在登錄時(shí)選擇自己的賬號(hào)和密碼登錄即可。
(2)普通用戶界面主要是針對(duì)縣市民宗局和其他需要翻譯的各單位部門工作人員提供的操作界面,有翻譯標(biāo)牌、翻譯申請(qǐng)、關(guān)鍵詞搜索幾個(gè)功能。翻譯標(biāo)牌即直接輸入漢字,點(diǎn)擊翻譯,即可輸出相應(yīng)的“三種文字”標(biāo)牌,同時(shí)可選擇橫豎排。翻譯申請(qǐng)是在遇到翻譯結(jié)果有誤,或部分漢字未翻譯出來的時(shí)候,向翻譯老師提交申請(qǐng)的渠道,在此處提交申請(qǐng),專門負(fù)責(zé)補(bǔ)充詞庫的哈尼文、彝文老師就會(huì)在高級(jí)用戶界面的待譯哈尼文、待譯彝文模塊查看到需要翻譯的內(nèi)容,并予以處理,處理后的詞匯將自動(dòng)收錄進(jìn)詞庫,提交申請(qǐng)的用戶也將收到反饋信息。
(3)高級(jí)用戶界面主要是針對(duì)專業(yè)人員,如專門負(fù)責(zé)審查補(bǔ)充詞庫的哈尼文、彝文老師,目前主要是指州民研所的翻譯人員。除了擁有普通用戶的權(quán)限外,高級(jí)用戶界面還可以新增收錄詞匯、修改和刪除詞匯、對(duì)普通用戶提供的翻譯申請(qǐng)進(jìn)行處理和反饋。另外可以對(duì)用戶進(jìn)行簡單的管理和維護(hù)。
3.系統(tǒng)評(píng)測,即對(duì)其功能性、穩(wěn)定性和實(shí)用性等方面進(jìn)行考察。
為驗(yàn)證技術(shù)原理的可行性,目前我們初步做了一個(gè)測試版的“三種文字”標(biāo)牌翻譯軟件,翻譯結(jié)果顯示,常用的標(biāo)牌標(biāo)語都能翻譯出來,若詞庫未收錄所需翻譯的漢字信息相對(duì)應(yīng)的譯文(哈尼文和彝文),則能輸出橫排,而不能輸出豎排,橫排所缺的漢字對(duì)應(yīng)的譯文用空格顯示。根據(jù)目前的測試結(jié)果來看,需要開展專門的詞匯補(bǔ)充工作,使得輸出結(jié)果得到全面改善。軟件正式開發(fā)完成以后,也是需要一段時(shí)間的積累和優(yōu)化才能最終投入使用。
縱覽中國發(fā)展史,可以說,得益于包括民族語言翻譯在內(nèi)的國家翻譯機(jī)制,中華文明形態(tài)得以發(fā)展和改觀,尤其是在和平年代,各國政府為了國境安定、行政暢通,專門設(shè)置負(fù)責(zé)民族語言翻譯的機(jī)構(gòu)、機(jī)制和官職[5]。創(chuàng)建少數(shù)民族文字的初心:一是改變少數(shù)民族地區(qū)文化事業(yè)落后的狀況,使其盡快適應(yīng)社會(huì)主義的建設(shè)和發(fā)展。二是盡快提高少數(shù)民族地區(qū)人民的教育水平和文化素質(zhì)。三是更好地發(fā)展和傳承少數(shù)民族的語言文化[6]。紅河州哈尼文、彝文、漢文“三種文字”標(biāo)牌作為我州創(chuàng)建全國民族團(tuán)結(jié)進(jìn)步示范州宣傳工作的載體之一,開發(fā)“三種文字”標(biāo)牌翻譯實(shí)操性軟件,不僅可以提高工作效率,也將為紅河州進(jìn)一步鞏固提升全國民族團(tuán)結(jié)進(jìn)步示范州創(chuàng)建成果助力。