特日格勒呼,王斯日古楞*,韓永順,愛麗雅,娜何雅
1.內(nèi)蒙古師范大學(xué),呼和浩特市 010022
問答系統(tǒng)是人工智能領(lǐng)域的重要研究方向,它作為人與機器交互的溝通橋梁,具有重大的研究意義和發(fā)展前景。在當代老齡化嚴重的社會背景下,智能問答系統(tǒng)可以陪伴老人,同時也能減輕年輕人的工作壓力和困擾。問答系統(tǒng)主要分為任務(wù)型和非任務(wù)型,其中非任務(wù)型問答系統(tǒng)是面向開放領(lǐng)域,與用戶進行閑聊對話,而任務(wù)型問答系統(tǒng)是為了完成用戶提出的某個特定任務(wù)工作。
隨著互聯(lián)網(wǎng)數(shù)據(jù)的暴漲、深度學(xué)習(xí)技術(shù)的崛起以及硬件設(shè)備性能的提高,越來越多的智能交互設(shè)備融入到我們?nèi)粘I钪小5侵髁鞯漠a(chǎn)品或模型主要以中文、英文等高資源語言為主,而蒙古文問答系統(tǒng)發(fā)展緩慢。蒙古文信息處理研究中,機器翻譯、語音識別、語音合成等方向的研究已經(jīng)取得了較好的成果。但是,蒙古文自動問答領(lǐng)域的研究處于起步階段,內(nèi)蒙古大學(xué)常澤暉[1]研究了面向開放領(lǐng)域的蒙古語語音交互系統(tǒng),其中問答系統(tǒng)部分是在約 2萬條問答語料上使用序列到序列(Sequence to Sequence,Seq2Seq)框架實現(xiàn)的。譚銘言[2]利用構(gòu)建的蒙古文知識圖譜以及命名實體識別系統(tǒng)和關(guān)系抽取系統(tǒng),搭建了面向旅游領(lǐng)域的蒙古文問答系統(tǒng)。王光義[3]構(gòu)建了32156條紀檢監(jiān)察領(lǐng)域的蒙古文問答語料,并通過問句意圖識別和問答匹配兩個模塊實現(xiàn)了蒙古文問答系統(tǒng)。
問答語料資源的稀缺是影響蒙古文自動問答技術(shù)發(fā)展的重要因素之一。因此,本文通過獲取開源中文問答語料庫并通過篩選、翻譯、校正等方法構(gòu)建了5萬句對蒙古文問答語料,相比,其他蒙古文自動問答研究使用的語料具有更大的數(shù)據(jù)量和更貼切的內(nèi)容。蒙古文問答語料庫的建設(shè)可以有效促進蒙古文信息處理的研究,對促進民族之間的交流與合作具有十分重要的意義。
蒙古文問答語料來源是中文公開數(shù)據(jù)集,通過對其進行規(guī)則篩選、漢蒙機器翻譯、人工校正等步驟構(gòu)建了蒙古文問答語料,其構(gòu)建流程如圖1所示。
語料庫的質(zhì)量和規(guī)模對問答系統(tǒng)的研究發(fā)展有直接的影響,因此語料的正確選擇和處理非常重要。關(guān)于蒙古文問答的研究較少,更沒有公開可用的蒙古文問答語料庫。
本研究首要任務(wù)是構(gòu)建適當規(guī)模的蒙古文問答語料庫。使用的問答語料來源是2020年清華大學(xué)公開的中文問答數(shù)據(jù)集LCCC[4]中的LCCC-base。該數(shù)據(jù)集的原始對話數(shù)據(jù)來自微博對話,這一數(shù)據(jù)過濾流程包括一系列手工規(guī)則以及若干基于機器學(xué)習(xí)算法所構(gòu)建的分類器,已經(jīng)對臟字臟詞、特殊字符、顏表情、語法不通的語句、上下文不相關(guān)的對話等噪聲進行了初步過濾。與“小黃雞”“青云”等公開的同類數(shù)據(jù)集相比,具有更好的內(nèi)容質(zhì)量和更大的數(shù)量。
源語料是由單輪和多輪問答交替組成的json文件,語料樣例如表1所示。首先,從源語料中篩選了100萬對單輪問答語料,為了獲取更高質(zhì)量的問答對,通過編寫以“?”“嗎”“么”“嘛”“了”等常用的疑問句結(jié)尾字以及多種自定義的規(guī)則設(shè)定為約束條件進行篩選獲得了10萬對問答語料。
表1 中文原始語料樣例Table 1 Samples of original Chinese corpus
通過分析發(fā)現(xiàn),句子仍然包含連續(xù)重復(fù)多次的問號、感嘆號、逗號和含有一些“、'、~、「」”等不規(guī)則符號等,因此把句末和句中的問句、感嘆號和逗號替換為單個符號,對不規(guī)則符號和句首的符號進行過濾,并且去除了長度超過100個字的句子。表2列舉了幾種代表性的語料清洗樣例。
表2 中文原始語料清洗樣例Table 2 Sorting-out samples of original Chinese corpus
將預(yù)處理后的中文問答語料經(jīng)過本實驗室現(xiàn)有的漢蒙機器翻譯模型從中文翻譯成蒙古文。由于中文問答語料內(nèi)容存在一些噪聲,以及翻譯后的蒙古文譯文中有語序錯誤和錯別字等問題,最后,我們對蒙古文語料進行校正。
本文對漢蒙機器翻譯過后的蒙古文問答語料內(nèi)容采用了自動校正和人工校對相結(jié)合的方法。自動校正是針對蒙古文語料中存在的編碼錯誤和名詞格附加成分使用不當?shù)绕磳戝e誤,使用自動校對工具進行修正。
人工校正是一項費時費力的工作,同時,我們開發(fā)了一款語料管理及修改的平臺,該平臺支持多人在線校正雙語平行語料,并且可以自由地分配任務(wù),也支持實時監(jiān)督和統(tǒng)計任務(wù)進度,可以提高工作效率,平臺展示如圖2所示。
校正平臺將修改的內(nèi)容展示成四列,中文問答句為修改蒙古文問答句提供參考。通過平臺可以對語料進行一一校正,校正的主要工作內(nèi)容有:
(1)拋棄中文問題和答案不匹配、質(zhì)量較差、句子邏輯有誤的句子,相反保留質(zhì)量很好的蒙古文問答對,不需要其進行改動。
(2)對中文問答語料質(zhì)量較好,但翻譯后的蒙古文句子不通順、不完整情況進行補充修正,構(gòu)成符合蒙古文語法的句子。校正過程中遇到的部分典型例子如表3所示。
表3 蒙古文問答語料校正樣例Table 3 Correction Samples of Mongolian question and answer corpus
表中藍色字體表示保持原文,紅色字體表示對原文進行了修改。
第二行中,由于中文問答語料缺少停頓標點符號,導(dǎo)致翻譯的蒙古文句子含義發(fā)生了變化。
第三行中,中文源句中的句子是祈使句或者感嘆句,導(dǎo)致翻譯后的蒙古文句子含有“《》”“”、“”等詞的情況。
校正后的語料由問題和答案組成,屬于開放領(lǐng)域的單輪日常問答語料。
本文公開的語料包含通過人工校正后的蒙古文問答語料,由5萬句對一一對應(yīng)的問題和答復(fù)組成,詞表大小為20927字,問答句平均長度為6.94個字。圖3展示了10行蒙古文問答語料樣例,第一列是蒙古文問句,第二列為所對應(yīng)的回復(fù)句。圖4根據(jù)問答句的長度分布進行了繪制。
從圖4中可以看蒙古文問句長度主要分布在6-10字,而大量答復(fù)句長度在2-5字之間。
通過統(tǒng)計分析問答語料中的詞頻,并且去除符號、格附加成分、連詞后對主要出現(xiàn)的詞使用WordArt(https://wordart.com/)平臺進行了詞云繪制,如圖5所示。
為了驗證問答語料的質(zhì)量,我們使用了人工評價和自動評價兩種方式。
首先通過Distinct-N[5]對構(gòu)建的5萬句對語料進行了評價,Distinct-N主要衡量問答系統(tǒng)中句子的多樣性,避免出現(xiàn)一些“我不知道”等萬能回復(fù)。Distinct-1、Distinct-2分別由不同的一元詞和二元詞數(shù)量與生成單詞總數(shù)相除得到,蒙古文問答語料多樣性評測結(jié)果如表4所示,指標越高表示句子越好。
表4 蒙古文問答句多樣性評測Table 4 Diversity evaluation of Mongolian question and answer corpus
自動評價只能從客觀的層面對語料進行評估,當數(shù)據(jù)量較大的情況下比較合適,可以考慮全局信息,但是無法從語義層面進行理解。因此,本文采用了三分制的人工評分方法,從語料庫中隨機抽樣500個問答對,并邀請5位具有語料校正經(jīng)歷的人員對這些問答對進行打分,主要針對問答和答案的內(nèi)容貼切度、句子流暢性、以及是否存在蒙古文語法錯誤等。打分標準如表5所示。
表5 蒙古文問答語料打分標準Table 5 Grading standards for Mongolian question and answer corpus
表6展示了蒙古文問答語料質(zhì)量評價結(jié)果。
表6 人工評價結(jié)果Table 6 Result of manual evaluation
評價結(jié)果顯示,問題與回答內(nèi)容不匹配,含有語法錯誤或錯別字的問答對只占3%;由于中文語料質(zhì)量的限制,20.6%的回答提供的價值不高,但并沒有邏輯錯誤;而剩余 76.4%的問答對句子流暢問題與答案相關(guān)性較高。評價結(jié)果證明了問答語料的質(zhì)量以及有效性。
目前,國內(nèi)未見公開可用的蒙古文問答語料,本數(shù)據(jù)集的公開是蒙古文自動問答領(lǐng)域中的一次重要嘗試,可以為蒙古文問答系統(tǒng)的發(fā)展提供重要的數(shù)據(jù)支撐,還可以用于訓(xùn)練生成式蒙古文問答模型、微調(diào)預(yù)訓(xùn)練模型和遷移學(xué)習(xí)等具體任務(wù),從而獲得更好的效果。本數(shù)據(jù)集具有廣泛的科研價值和較高的社會應(yīng)用價值。
同時,希望同行能夠分享更多蒙古文問答數(shù)據(jù)集,促進蒙古文自動問答研究的開放與發(fā)展。
本數(shù)據(jù)集以xlsx文件為存儲格式,使用者可以根據(jù)自身需求將文件改為txt或者所需要的格式進行使用。任何組織和個人可以以非商業(yè)目的使用本數(shù)據(jù)集。
數(shù)據(jù)作者分工職責
特日格勒呼(1997—),男,內(nèi)蒙古赤峰人,研究生在讀,研究方向為自然語言信息處理、問答系統(tǒng)。主要擔任工作:數(shù)據(jù)采集與管理,平臺搭建與文章撰寫。
王斯日古楞(1970—),女,內(nèi)蒙古呼和浩特人,博士,教授,研究方向為自然語言信息處理、機器翻譯。主要擔任工作:提供研究思路、指導(dǎo)論文框架、修改文章內(nèi)容。
韓永順(1997—),男,內(nèi)蒙古呼倫貝爾人,研究生在讀,研究方向為自然語言信息處理。主要擔任工作:數(shù)據(jù)采集與校正處理。
愛麗雅(1998—),女,內(nèi)蒙古呼倫貝爾人,研究生在讀,研究方向為自然語言信息處理。主要擔任工作:數(shù)據(jù)采集與校正處理。
娜何雅(1998—),女,內(nèi)蒙古通遼人,研究生在讀,研究方向為自然語言信息處理。主要擔任工作:數(shù)據(jù)采集與校正處理。