馬瑞祾,王成平,沙馬拉毅
(1.西南民族大學(xué)中國(guó)語(yǔ)言文學(xué)學(xué)院,四川 成都 610041;2.西南民族大學(xué)民族語(yǔ)言文字信息處理重點(diǎn)實(shí)驗(yàn)室,四川 成都 610041)
突發(fā)公共事件的預(yù)防和處置是國(guó)家治理體系和治理能力現(xiàn)代化的重要標(biāo)志.語(yǔ)言在應(yīng)急和減災(zāi)中發(fā)揮著不容忽視的作用:第一,語(yǔ)言是信息傳遞的重要載體,信息是應(yīng)急決策和抗災(zāi)施救的必需基礎(chǔ)和核心要素[2].第二,語(yǔ)言是應(yīng)急必需的社會(huì)資源,防治災(zāi)害的各階段、各環(huán)節(jié)都離不開(kāi)對(duì)語(yǔ)言資源的合理配置.第三,語(yǔ)言是處置災(zāi)害的特殊戰(zhàn)力,應(yīng)急語(yǔ)言服務(wù)及產(chǎn)品的有效供給能為災(zāi)害處置、安全維護(hù)和社會(huì)治理助力添翼[3].災(zāi)害的防治規(guī)劃、監(jiān)測(cè)預(yù)警、應(yīng)急救援、恢復(fù)重建均需要高效率和高質(zhì)量的應(yīng)急語(yǔ)言服務(wù)撐持.國(guó)家、團(tuán)體、個(gè)人在應(yīng)對(duì)和處置公共突發(fā)事件時(shí)應(yīng)積極樹(shù)立“語(yǔ)言減災(zāi)”的觀念[4-8].
和諧穩(wěn)定的社會(huì)生活有助于促進(jìn)各民族的交往交流交融,增強(qiáng)各族人民的凝聚力、向心力,鑄牢中華民族共同體意識(shí).中國(guó)少數(shù)民族聚居的西部地區(qū)往往呈現(xiàn)出地形特征復(fù)雜、災(zāi)害疾病頻發(fā)、公共設(shè)施薄弱、語(yǔ)言類(lèi)型多樣的特點(diǎn).在多次突發(fā)公共事件的處置過(guò)程中,各民族的語(yǔ)言差異和信息屏障是造成應(yīng)急救援困難的重要因素.為打破現(xiàn)實(shí)窘境,除了堅(jiān)定不移地在民族地區(qū)深化普及國(guó)家通用語(yǔ)言文字外,還應(yīng)為民族同胞提供符合其語(yǔ)言能力和需求的應(yīng)急語(yǔ)言服務(wù).
在國(guó)家2021年頒布的“十四五”規(guī)劃中明確指出:“強(qiáng)化數(shù)字技術(shù)在公共衛(wèi)生、自然災(zāi)害、事故災(zāi)難、社會(huì)安全等突發(fā)公共事件應(yīng)對(duì)中的運(yùn)用,全面提升預(yù)警和應(yīng)急處置能力”[1].隨著現(xiàn)代信息技術(shù)的不斷發(fā)展和對(duì)人類(lèi)社會(huì)的持續(xù)賦能,探索語(yǔ)言技術(shù)在民族地區(qū)應(yīng)急管理實(shí)踐中的應(yīng)用路徑和實(shí)施方案具有重要意義.通過(guò)構(gòu)建漢彝雙語(yǔ)應(yīng)急語(yǔ)言資源智能查詢(xún)平臺(tái)能為以涼山州為代表的民族地區(qū)在應(yīng)對(duì)各類(lèi)災(zāi)害時(shí)的醫(yī)患溝通、信息檢索、智能翻譯等提供語(yǔ)言技術(shù)和資源的支持,助推民族地區(qū)提升應(yīng)對(duì)和處置突發(fā)公共事件的現(xiàn)代化能力和水平.
用戶(hù)需求分析能明晰平臺(tái)的搭建目的、服務(wù)內(nèi)容和主體功能.漢彝雙語(yǔ)應(yīng)急語(yǔ)言資源智能查詢(xún)平臺(tái)是為滿(mǎn)足不同應(yīng)急主體在處置突發(fā)公共事件時(shí)產(chǎn)生的雙語(yǔ)資源需求.根據(jù)突發(fā)事件的不同階段具體需求如下:
第一,“備急”需求:為制定應(yīng)急語(yǔ)言規(guī)劃與政策提供參考,特別是為研制《簡(jiǎn)明漢語(yǔ)(彝語(yǔ)版)》提供語(yǔ)料參考.助力地方政府、學(xué)校開(kāi)展雙語(yǔ)防災(zāi)知識(shí)教育,普及和推廣國(guó)家通用語(yǔ)言文字,規(guī)范公共空間語(yǔ)言景觀(應(yīng)急標(biāo)識(shí))的語(yǔ)言文字使用.擴(kuò)容現(xiàn)有雙語(yǔ)資源庫(kù)的語(yǔ)料數(shù)據(jù)規(guī)模,推動(dòng)彝語(yǔ)言文字信息處理走向精細(xì)化、專(zhuān)業(yè)化.
第二,“應(yīng)急”需求:滿(mǎn)足地方政府編制應(yīng)急手冊(cè)、視頻、橫幅、掛圖等應(yīng)急產(chǎn)品的翻譯需求;為地方的雙語(yǔ)媒體報(bào)道、語(yǔ)言輿情監(jiān)測(cè)提供語(yǔ)料支撐;解決漢、彝語(yǔ)際溝通障礙造成的醫(yī)患會(huì)話(huà)問(wèn)題;為災(zāi)害處置和救援提供一批召之即來(lái)、素質(zhì)過(guò)硬的雙語(yǔ)志愿者.
第三,“善后”需求:為災(zāi)后開(kāi)展心理診療咨詢(xún)、語(yǔ)言康復(fù)訓(xùn)練、救援物資輸送等環(huán)節(jié)中的雙語(yǔ)翻譯提供技術(shù)輔助.
為滿(mǎn)足多元的應(yīng)急語(yǔ)言服務(wù)需求,需研發(fā)一個(gè)具有信息檢索、結(jié)果可視化、數(shù)據(jù)下載、智能翻譯、動(dòng)態(tài)管理多功能為一體的智能查詢(xún)平臺(tái),并依托Web網(wǎng)絡(luò)服務(wù)端實(shí)現(xiàn)應(yīng)急語(yǔ)言服務(wù)資源的發(fā)布、檢索、管理,提高應(yīng)急語(yǔ)言資源的共享性和使用率.
查詢(xún)平臺(tái)的構(gòu)建分為七個(gè)主要步驟:第一,確定應(yīng)急語(yǔ)言資源庫(kù)所需的語(yǔ)言數(shù)據(jù)類(lèi)型、規(guī)模和獲取渠道.第二,從多源異構(gòu)數(shù)據(jù)中獲取所需的語(yǔ)言資源.第三,通過(guò)數(shù)據(jù)清洗、文本聚類(lèi)、數(shù)據(jù)挖掘等方式獲取各類(lèi)應(yīng)急領(lǐng)域、應(yīng)急事件的詞語(yǔ)、句子、語(yǔ)篇、標(biāo)識(shí)等漢語(yǔ)資源數(shù)據(jù).第四,將獲取的漢語(yǔ)數(shù)據(jù)對(duì)照翻譯為彝語(yǔ),得到彝語(yǔ)數(shù)據(jù),并將二者存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中.第五,基于本體建模的方式將資源庫(kù)中的詞匯術(shù)語(yǔ)數(shù)據(jù)生成動(dòng)態(tài)知識(shí)圖譜,存儲(chǔ)到Neo4j數(shù)據(jù)庫(kù)中.第六,基于MySQL和Neo4j兩個(gè)數(shù)據(jù)庫(kù)中的語(yǔ)言資源構(gòu)建智能查詢(xún)平臺(tái).第七,將智能平臺(tái)的不同功能應(yīng)用于處置突發(fā)公共事件的各類(lèi)場(chǎng)景中.平臺(tái)構(gòu)建的技術(shù)路線(xiàn)見(jiàn)圖1.
圖1 智能查詢(xún)平臺(tái)構(gòu)建的技術(shù)路線(xiàn)Fig.1 The technical route of the intelligent query platform construction
實(shí)現(xiàn)智能化查詢(xún)需依靠大規(guī)模、高質(zhì)量、廣領(lǐng)域的語(yǔ)言資源和語(yǔ)言數(shù)據(jù).由此,構(gòu)建應(yīng)急語(yǔ)言資源庫(kù)是先導(dǎo)性、基礎(chǔ)性的工作.漢彝雙語(yǔ)應(yīng)急語(yǔ)言資源庫(kù)的設(shè)計(jì)遵循概念單一化原則[9].為提升不同語(yǔ)言資源應(yīng)用的針對(duì)性和管理維護(hù)工作的便捷性,在設(shè)計(jì)資源庫(kù)時(shí)根據(jù)用戶(hù)需求和數(shù)據(jù)類(lèi)型將不同語(yǔ)言資源分置于五個(gè)不同子庫(kù)中,即“詞匯術(shù)語(yǔ)庫(kù)”“診療語(yǔ)句庫(kù)”“政務(wù)語(yǔ)篇庫(kù)”“應(yīng)急標(biāo)識(shí)庫(kù)”“雙語(yǔ)志愿者服務(wù)團(tuán)庫(kù)”.
ER模型是最為通用的“實(shí)體關(guān)系”概念模型,運(yùn)用ER圖(實(shí)體關(guān)系圖)展示資源庫(kù)與5個(gè)子庫(kù)(實(shí)體)間的聯(lián)系,以及各子庫(kù)包含的不同鍵值屬性.通過(guò)建立資源庫(kù)的整體概念結(jié)構(gòu)模型,完成資源庫(kù)結(jié)構(gòu)關(guān)系的抽象,模型結(jié)構(gòu)如圖2所示.
圖2 漢彝雙語(yǔ)資源庫(kù)組織結(jié)構(gòu)ER圖Fig.2 ER diagram of the organization structure of the Chinese-Yi bilingual resource database
MySQL相較于大型數(shù)據(jù)庫(kù)管理系統(tǒng),雖數(shù)據(jù)存儲(chǔ)規(guī)模有限,但又具有運(yùn)行速度快、可移植性強(qiáng)、易于學(xué)習(xí)、接口豐富、共享性高等優(yōu)勢(shì).另外,MySQL不僅提供了多種編程語(yǔ)言的API,且其網(wǎng)絡(luò)化的特點(diǎn)大大提高了數(shù)據(jù)在因特網(wǎng)中的共享效率.因此,該資源庫(kù)的搭建采用MySQL的數(shù)據(jù)關(guān)系管理系統(tǒng).
數(shù)據(jù)表(Table)是數(shù)據(jù)庫(kù)的基礎(chǔ)和核心.數(shù)據(jù)庫(kù)表是系列二位數(shù)組的集合,是存儲(chǔ)數(shù)據(jù)和操作數(shù)據(jù)的邏輯結(jié)構(gòu);表通常由表結(jié)構(gòu)和表內(nèi)容(記錄)兩個(gè)部分組成,建立存儲(chǔ)數(shù)據(jù)的基本表結(jié)構(gòu)是實(shí)現(xiàn)應(yīng)急漢彝雙語(yǔ)資源的數(shù)據(jù)庫(kù)化的最終環(huán)節(jié).首先,根據(jù)“一事一地”的原則確定該資源庫(kù)中共含7張數(shù)據(jù)表,即不同表描述不同實(shí)體(詞匯、句子、語(yǔ)篇、標(biāo)識(shí)、志愿者),且表內(nèi)只包含與該主題相關(guān)的信息,不包含重復(fù)信息.其次,根據(jù)概念設(shè)計(jì)確定各表中的相應(yīng)字段.最后,選定主鍵和外鍵字段,建立表與表間的關(guān)系.本庫(kù)不同語(yǔ)料要素的數(shù)據(jù)類(lèi)型如表1所示.
表1 資源庫(kù)語(yǔ)料要素?cái)?shù)據(jù)表結(jié)構(gòu)Table 1 Table structure of the corpus elements of the resource database
2.3.1 漢語(yǔ)數(shù)據(jù)獲取
應(yīng)急領(lǐng)域資源庫(kù)的數(shù)據(jù)源十分多樣,呈現(xiàn)出復(fù)雜的多源異構(gòu)特征.主要包括以下三類(lèi):應(yīng)急領(lǐng)域的已有數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù),應(yīng)急管理部門(mén)官方網(wǎng)站中發(fā)布的文件信息等半結(jié)構(gòu)化數(shù)據(jù),以及《抗擊疫情湖北方言通》《疫情防控外語(yǔ)通》等相關(guān)專(zhuān)業(yè)書(shū)籍、手冊(cè)等文本類(lèi)非結(jié)構(gòu)化數(shù)據(jù).首先,通過(guò)Python語(yǔ)言對(duì)應(yīng)急管理部、國(guó)家減災(zāi)委辦公室、涼山州衛(wèi)健委等政府部門(mén)的官方網(wǎng)站公開(kāi)發(fā)布的信息(標(biāo)題和正文)進(jìn)行批量爬取,再將爬取的半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為文本(txt.)格式.其次,通過(guò)文字識(shí)別的方式將文獻(xiàn)、書(shū)籍、讀物中的文字轉(zhuǎn)換為文本信息,共獲取各類(lèi)語(yǔ)料來(lái)源文本2 833篇,含1 678 228字符.最后,將其存儲(chǔ)到生語(yǔ)料庫(kù)中,作為構(gòu)建資源庫(kù)的數(shù)據(jù)源.
2.3.2 數(shù)據(jù)清洗
對(duì)獲取的生語(yǔ)料進(jìn)行預(yù)處理:第一,運(yùn)用Editplus工具對(duì)文本進(jìn)行降噪(Emeditor),刪除回車(chē)和空格.第二,使用Jieba分詞軟件對(duì)文本進(jìn)行詞語(yǔ)切分,對(duì)分詞結(jié)果進(jìn)行人工校對(duì).將機(jī)構(gòu)名稱(chēng)、專(zhuān)業(yè)術(shù)語(yǔ)處理為一個(gè)分詞單位,如“發(fā)熱門(mén)診”“傳染病”“傳染源”等.第三,在分詞過(guò)程中會(huì)出現(xiàn)部分質(zhì)量低、不準(zhǔn)確、不完整的噪聲數(shù)據(jù),需要剔除數(shù)據(jù)集中的殘缺、重復(fù)、無(wú)用、冗余、錯(cuò)誤數(shù)據(jù)以及停用詞.
2.3.3 文本聚類(lèi)
文本聚類(lèi)是將數(shù)據(jù)集中主題相同或相似的文本分為若干個(gè)不相交的子集,各子集是一個(gè)簇(cluster).調(diào)用CountVectorizer()函數(shù)對(duì)清洗后的數(shù)據(jù)進(jìn)行特征提取,生成詞頻矩陣X,計(jì)算出詞匯的TFIDF值,公式如下:
TF-IDF(X)=TF(X)*IDF(X). (1)
公式(1)中,TF(X)指詞X在當(dāng)前文本中的詞頻,IDF(X)表示詞X的逆文檔率.應(yīng)用K-means聚類(lèi)方法對(duì)文本進(jìn)行主題聚類(lèi),在聚類(lèi)參數(shù)上參考文獻(xiàn)提出的分類(lèi)標(biāo)準(zhǔn)[10],首先劃分自然災(zāi)害和人為災(zāi)害兩大災(zāi)害領(lǐng)域,根據(jù)不同致災(zāi)因子將自然災(zāi)害細(xì)分地質(zhì)、海洋、生物等5種災(zāi)害類(lèi)型;再根據(jù)不同災(zāi)害源將人為災(zāi)害細(xì)分為生態(tài)環(huán)境災(zāi)害、公共衛(wèi)生事件等4種災(zāi)害類(lèi)型,故將聚類(lèi)簇?cái)?shù)n_clusters設(shè)為9.最后,對(duì)文本進(jìn)行降維處理,繪制可視化的聚類(lèi)圖形[11].
2.3.4 漢語(yǔ)數(shù)據(jù)入庫(kù)
第一,“詞匯術(shù)語(yǔ)庫(kù)”的數(shù)據(jù)處理:基于文本聚類(lèi)結(jié)果,分類(lèi)統(tǒng)計(jì)出各應(yīng)急事件詞語(yǔ)的詞頻和詞次,將各災(zāi)類(lèi)中的前100個(gè)高頻詞導(dǎo)入excel表格,并人工篩選出各災(zāi)類(lèi)中的通用詞.如“公共衛(wèi)生事件”中“病史、處方、病例”等均為該災(zāi)類(lèi)的通用詞.根據(jù)分類(lèi)疊合和詞頻計(jì)算,統(tǒng)計(jì)出自然、人為災(zāi)害均可通用的詞匯.最后,將語(yǔ)料按類(lèi)分裝于應(yīng)急通用詞表、自然災(zāi)害詞表、人為災(zāi)害詞表3個(gè)數(shù)據(jù)表中,共計(jì)收錄2 000條應(yīng)急詞匯術(shù)語(yǔ).不同詞表中的詞條數(shù)目情況如表2所示.每個(gè)詞條均由普通話(huà)水平等級(jí)為一乙的發(fā)音人錄制音頻文件.
表2 應(yīng)急詞匯術(shù)語(yǔ)庫(kù)中的詞條分布情況統(tǒng)計(jì)Table 2 Distribution of entries in the Emergency Vocabulary Database
第二,“診療語(yǔ)句庫(kù)”的數(shù)據(jù)處理:確定醫(yī)患溝通常用話(huà)題,如“病情描述”“處方建議”“病情診斷”等,再以《抗擊疫情湖北方言通》和《疫情防控外語(yǔ)通》中的語(yǔ)句為參照,從數(shù)據(jù)集中統(tǒng)計(jì)出200句高頻醫(yī)患診療會(huì)話(huà)語(yǔ)句.語(yǔ)句盡量涵蓋各類(lèi)常用的醫(yī)患交際話(huà)題.
第三,“政務(wù)語(yǔ)篇庫(kù)”的數(shù)據(jù)處理:首先,根據(jù)不同主體部門(mén)和語(yǔ)篇主題將文本分為“通知公告類(lèi)”“新聞報(bào)道”“健康須知”“知識(shí)科普”四類(lèi),分類(lèi)遴選出典型的政務(wù)語(yǔ)篇文本.對(duì)語(yǔ)篇進(jìn)行文本簡(jiǎn)化,簡(jiǎn)化標(biāo)準(zhǔn)參照《疫情防控“簡(jiǎn)明漢語(yǔ)”》中的標(biāo)準(zhǔn)和實(shí)例,結(jié)合《新HSK大綱詞匯(1-6級(jí))》,建立“簡(jiǎn)化詞表”和“語(yǔ)句簡(jiǎn)化規(guī)則”.對(duì)照詞表和規(guī)則對(duì)語(yǔ)篇中的專(zhuān)業(yè)術(shù)語(yǔ)和繁難句子進(jìn)行人工標(biāo)注和降級(jí)處理.過(guò)程中調(diào)用同義詞在線(xiàn)檢索平臺(tái)和電子詞典進(jìn)行詞語(yǔ)的等義替換.
第四,“應(yīng)急標(biāo)識(shí)庫(kù)”的數(shù)據(jù)處理:從國(guó)家應(yīng)急廣播網(wǎng)中下載應(yīng)急標(biāo)識(shí)104個(gè),包括“氣象預(yù)警”44個(gè)、“求救信號(hào)”7個(gè)、“應(yīng)急避難場(chǎng)所標(biāo)識(shí)”16個(gè)、“警示標(biāo)識(shí)”22個(gè)和“指令標(biāo)識(shí)”15個(gè),將標(biāo)識(shí)的圖片和內(nèi)容儲(chǔ)存到標(biāo)識(shí)庫(kù)中.
第五,“雙語(yǔ)志愿者庫(kù)”的數(shù)據(jù)處理:依托高校和地方相關(guān)窗口部門(mén)、公益組織招募漢彝雙語(yǔ)志愿者325名,對(duì)志愿者信息(姓名、民族、專(zhuān)業(yè)等)進(jìn)行統(tǒng)計(jì)和入庫(kù).
2.3.5 彝語(yǔ)語(yǔ)料翻譯
彝語(yǔ)語(yǔ)料采用Unicode進(jìn)行統(tǒng)一編碼與處理,使資源庫(kù)更具平臺(tái)和應(yīng)用程序的兼容性和共享性.Unicode突破了傳統(tǒng)的字符編碼方案的局限,對(duì)不同語(yǔ)言的不同字符均設(shè)有統(tǒng)一且唯一的二進(jìn)制編碼,較好地實(shí)現(xiàn)了跨語(yǔ)言、跨平臺(tái)的文本信息處理.語(yǔ)料標(biāo)注采用JSON這種輕量級(jí)的數(shù)據(jù)交換格式.
由于在現(xiàn)有的漢彝雙語(yǔ)資源庫(kù)中收錄的應(yīng)急領(lǐng)域的數(shù)據(jù)相對(duì)匱乏,難以實(shí)現(xiàn)機(jī)器自動(dòng)翻譯.因此,語(yǔ)料的對(duì)照翻譯工作由彝語(yǔ)言和彝藥專(zhuān)業(yè)的研究生按照彝語(yǔ)新詞術(shù)語(yǔ)規(guī)范進(jìn)行人工標(biāo)注,再請(qǐng)相關(guān)專(zhuān)業(yè)的專(zhuān)家教授進(jìn)行校審.對(duì)部分彝語(yǔ)中尚無(wú)對(duì)應(yīng)詞語(yǔ)的術(shù)語(yǔ)采用“暫時(shí)空缺”或“新造詞語(yǔ)”的方式進(jìn)行翻譯.每條彝語(yǔ)詞匯都配有母語(yǔ)者錄制的規(guī)范彝語(yǔ)音頻文件.最后,將標(biāo)注好的語(yǔ)料導(dǎo)入數(shù)據(jù)庫(kù)中,再交由相關(guān)專(zhuān)業(yè)領(lǐng)域的專(zhuān)家進(jìn)行最終校審.
知識(shí)圖譜(Knowledge Graphs)于2012年由Google提出,隨著人工智能技術(shù)的發(fā)展,知識(shí)圖譜以其強(qiáng)大的語(yǔ)義處理和互聯(lián)組織能力,廣泛應(yīng)用于搜索引擎、智能問(wèn)答、個(gè)性化推薦等領(lǐng)域.知識(shí)圖譜的特點(diǎn)是結(jié)構(gòu)化,通常采取符號(hào)化(SPO三元組,S:頭實(shí)體,P:關(guān)系,O:尾實(shí)體)的知識(shí)表示方式,并以有向圖的形式進(jìn)行呈現(xiàn)和存儲(chǔ).因此,知識(shí)圖譜具有語(yǔ)義豐富、結(jié)構(gòu)友好、易于理解等優(yōu)點(diǎn).為更好地存儲(chǔ)和利用結(jié)構(gòu)知識(shí),人類(lèi)分別構(gòu)建了面向開(kāi)放領(lǐng)域的通用型知識(shí)圖譜和面向垂直領(lǐng)域型知識(shí)圖譜[12].
本文所構(gòu)建的是用以表示特定領(lǐng)域(應(yīng)急)的語(yǔ)言知識(shí)圖譜,需要憑借行業(yè)專(zhuān)家知識(shí).因此,主要采用自頂向下的方式來(lái)構(gòu)建知識(shí)本體.本體構(gòu)建是為在獲取某一領(lǐng)域的知識(shí)時(shí),通過(guò)對(duì)該領(lǐng)域知識(shí)達(dá)成的共識(shí)來(lái)明晰概念間的關(guān)系,進(jìn)而來(lái)描述概念的語(yǔ)義.本體模型的構(gòu)建工具較為多樣,本文主要使用斯坦福大學(xué)開(kāi)發(fā)的本體編輯工具Protégé.該平臺(tái)具有安裝便捷、操作便利、功能強(qiáng)大的特點(diǎn),且可以滿(mǎn)足不同復(fù)雜程度圖譜的構(gòu)建需求.該圖譜的節(jié)點(diǎn)與關(guān)系模型如表3所示,本體的可視化如圖3所示.
圖3 應(yīng)急領(lǐng)域詞匯術(shù)語(yǔ)知識(shí)圖譜本體的可視化Fig.3 Visualization of the knowledge graph ontology of vocabulary terms in the emergency field
表3 詞匯知識(shí)實(shí)體、關(guān)系模型Table 3 Vocabulary knowledge entity and relationship model
上圖僅展示了部分詞條(節(jié)點(diǎn))的本體模型.圖中藍(lán)色(實(shí)線(xiàn))線(xiàn)段表示Subclass(包含關(guān)系)的對(duì)象屬性,黃色(虛線(xiàn))線(xiàn)段表示Translate(翻譯關(guān)系).
通過(guò)Python實(shí)現(xiàn)(災(zāi)害領(lǐng)域,包括,災(zāi)害類(lèi)型),(災(zāi)害類(lèi)型,包括,漢語(yǔ)詞匯),(漢語(yǔ)詞匯,翻譯,彝語(yǔ)詞匯)三元組的自動(dòng)構(gòu)建系.以漢語(yǔ)實(shí)體和彝語(yǔ)實(shí)體為例,其自動(dòng)構(gòu)建的核心代碼如下所示:
在完成對(duì)資源庫(kù)的實(shí)驗(yàn)調(diào)試后,可將資源庫(kù)投放至網(wǎng)絡(luò)平臺(tái),分類(lèi)向政府部門(mén)、公益組織、學(xué)術(shù)團(tuán)體、個(gè)人志愿者等不同用戶(hù)開(kāi)放,功能系統(tǒng)如圖4所示.
圖4 應(yīng)急語(yǔ)言資源查詢(xún)平臺(tái)的多功能系統(tǒng)Fig.4 Multifunctional system of bilingual emergency language resource database
平臺(tái)為用戶(hù)提供了三種適需的智能檢索路徑:第一,用戶(hù)可通過(guò)Web前端常用的交互方式對(duì)1至4子庫(kù)中的文本數(shù)據(jù)(漢彝對(duì)照)進(jìn)行檢索.在查詢(xún)平臺(tái)的功能欄目中選中信息檢索,輸入“地震”,單擊“查詢(xún)”按鈕,即可獲得與該詞條相關(guān)的標(biāo)注信息和圖譜(見(jiàn)圖5).第二,用戶(hù)可根據(jù)具體的災(zāi)害類(lèi)型和服務(wù)內(nèi)容,按需對(duì)深度加工的音頻、圖像、視頻數(shù)據(jù)進(jìn)行檢索.第三,為保護(hù)志愿者的個(gè)人隱私,在子庫(kù)5中添加隱藏項(xiàng)目設(shè)置,僅對(duì)政府相關(guān)部門(mén)的工作人員開(kāi)放,并與政府部門(mén)簽訂保密協(xié)議.
圖5 查詢(xún)平臺(tái)“地震”一詞的檢索結(jié)果展示Fig.5 Display of the search results of the word"earthquake"on the query platform
此外,該平臺(tái)支持多種檢索方式,包括字符串檢索、標(biāo)注檢索、通配符檢索、正則表達(dá)式檢索、漢語(yǔ)語(yǔ)音輸入檢索、應(yīng)急標(biāo)識(shí)圖片識(shí)別檢索6種方式.多樣化的方式為用戶(hù)提供了較大的檢索便利和良好的用戶(hù)體驗(yàn).
有別于傳統(tǒng)的搜索引擎,用戶(hù)使用平臺(tái)檢索不同災(zāi)害領(lǐng)域、類(lèi)型漢彝雙語(yǔ)詞匯術(shù)語(yǔ)時(shí)能夠生成相應(yīng)的知識(shí)圖譜.以“公共衛(wèi)生”類(lèi)災(zāi)害中的“傳染病”領(lǐng)域的詞條為例,其知識(shí)圖譜如圖6.查詢(xún)結(jié)果可視化是將查詢(xún)結(jié)果生成為相應(yīng)詞條的知識(shí)卡片,以“鼠疫”一詞為例,知識(shí)卡片見(jiàn)圖7.
圖7 “鼠疫”一詞的知識(shí)卡片F(xiàn)ig.7 Knowledge card of the"Plague"node
為提升資源庫(kù)中數(shù)據(jù)的適需性,根據(jù)用戶(hù)的不同身份和需求對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行分類(lèi)、分級(jí)拆分.根據(jù)與數(shù)據(jù)對(duì)應(yīng)的不同用戶(hù)類(lèi)別,對(duì)5個(gè)子庫(kù)定義不同的視圖,視圖里只有用戶(hù)所在權(quán)限內(nèi)的語(yǔ)料數(shù)據(jù);子庫(kù)1至4面向一般檢索用戶(hù)查詢(xún)和下載,而子庫(kù)5僅面向政府有特殊需求的政府窗口部門(mén)開(kāi)放.對(duì)查詢(xún)子庫(kù)5信息的用戶(hù)進(jìn)行不同的管理與授權(quán),用戶(hù)需先通過(guò)身份認(rèn)證,才能按相應(yīng)的檢索方式從后臺(tái)數(shù)據(jù)庫(kù)中調(diào)用相關(guān)信息.面向不同身份用戶(hù)的數(shù)據(jù)下載方案如圖8所示:
圖8 面向不同用戶(hù)視圖的語(yǔ)料數(shù)據(jù)下載方案Fig.8 Corpus data download scheme for different user views
相較于文本詞典和在線(xiàn)翻譯軟件,該平臺(tái)是基于一定規(guī)模的詞語(yǔ)、句子、篇章對(duì)齊的語(yǔ)料資源庫(kù),能夠較好地實(shí)現(xiàn)漢語(yǔ)和彝語(yǔ)的機(jī)器翻譯.此外,隨著深度學(xué)習(xí)和知識(shí)圖譜的普及,大規(guī)模的知識(shí)庫(kù)是實(shí)現(xiàn)人機(jī)交互、智能翻譯、智能問(wèn)答的基礎(chǔ).該平臺(tái)通過(guò)調(diào)用外部接口,實(shí)現(xiàn)漢語(yǔ)語(yǔ)音和圖片的輸入識(shí)別;并首次嘗試將知識(shí)圖譜概念引入彝文信息處理領(lǐng)域,為基于詞向量和語(yǔ)義信息的智能化機(jī)器翻譯奠定基礎(chǔ).
為適配不斷迭變的應(yīng)急服務(wù)需求,該資源庫(kù)采用動(dòng)態(tài)管理的方式實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和更新;當(dāng)新的疾病名稱(chēng)術(shù)語(yǔ)出現(xiàn)或新的信息發(fā)布時(shí),需要對(duì)資源庫(kù)中的語(yǔ)料進(jìn)行及時(shí)更新,其實(shí)現(xiàn)路徑有兩種:一是管理員定期進(jìn)行維護(hù),以人工的方式增刪或修改語(yǔ)料數(shù)據(jù);二是調(diào)用SQL Server 2019管理中的觸發(fā)器功能,對(duì)各子庫(kù)的數(shù)據(jù)表定義插入、刪除和更新的觸發(fā)器并預(yù)先設(shè)定事件,實(shí)現(xiàn)記錄的自動(dòng)更新或過(guò)濾.資源庫(kù)的動(dòng)態(tài)管理可以確保庫(kù)中數(shù)據(jù)的時(shí)效性和真實(shí)性,提高雙語(yǔ)應(yīng)急語(yǔ)言資源庫(kù)的實(shí)際價(jià)值.
在應(yīng)對(duì)和處置突發(fā)公共事件時(shí)應(yīng)急語(yǔ)言服務(wù)不能缺位,需得到充分地重視[13].語(yǔ)言技術(shù)是國(guó)家語(yǔ)言能力的重要衡量指標(biāo),語(yǔ)言技術(shù)的儲(chǔ)備和語(yǔ)言資源的建設(shè)是應(yīng)急語(yǔ)言服務(wù)的必需內(nèi)容[14-16].未來(lái),我們將進(jìn)一步研發(fā)以國(guó)家通用語(yǔ)言文字為主體,多民族語(yǔ)言對(duì)照的“多語(yǔ)種應(yīng)急語(yǔ)言資源庫(kù)及智能查詢(xún)平臺(tái)”,并建立和完善資源庫(kù)構(gòu)建及管理規(guī)范,發(fā)揮語(yǔ)言智能技術(shù)在提升我國(guó)民族地區(qū)災(zāi)害防治能力的現(xiàn)代化、數(shù)字化水平的積極作用,維護(hù)國(guó)家安全、社會(huì)穩(wěn)定,推進(jìn)構(gòu)筑中華民族共有精神家園,鑄牢中華民族共同體意識(shí).