楊勇 任鴿
摘要:維吾爾語語義本體庫在維吾爾語計(jì)算語言學(xué)研究中扮演著重要角色,在維吾爾語語義理解、詞義消歧、信息檢索等多項(xiàng)研究領(lǐng)域中發(fā)揮重要作用,本文利用了漢語各類語義知識(shí)庫和詞典,充分借鑒了其中的各類語義關(guān)系,設(shè)計(jì)了維吾爾語語義本體的構(gòu)建方法,利用軟件工程知識(shí)設(shè)計(jì)了維吾爾語語義本體輔助構(gòu)建系統(tǒng),實(shí)踐結(jié)果表明,該系統(tǒng)可以有效地提高維吾爾語語義本體庫的構(gòu)建效率,加快建設(shè)維吾爾語語義本體庫的建設(shè)周期。
關(guān)鍵詞:本體;維吾爾語語義;輔助構(gòu)建
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)05-0066-02
0 引言
本體(Ontology)是對共享概念的正規(guī)、明確的表述。本體始于哲學(xué)概念,90年代初被引入人工智能后,作為一種能在語義和知識(shí)層面上描述信息系統(tǒng)的概念模型建模工具[1]。中文的語義本體知識(shí)庫的代表有HowNet(知網(wǎng))[2,4],知網(wǎng)是一個(gè)以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫。知網(wǎng)作為一個(gè)知識(shí)系統(tǒng),實(shí)副其名是一個(gè)網(wǎng)而不是樹,它所著力要反映的是概念的共性和個(gè)性,以及反映概念之間和概念的屬性之間的各種關(guān)系,它包含上下位關(guān)系、同義關(guān)系、反義關(guān)系、部分整體關(guān)系等16種關(guān)系,知網(wǎng)通過義原標(biāo)注概念的含義。英語的語義本體知識(shí)庫的代表是WordNet[3,5],英文WordNet是詞匯學(xué)家米勒(Mill George A)以及他的研究小組于1985年著手構(gòu)建開發(fā)的一部在線詞典數(shù)據(jù)庫系統(tǒng),是基于英語的詞匯語義網(wǎng)絡(luò)系統(tǒng),它以詞的同義詞集合表示一個(gè)基本的詞匯概念,并在這些詞匯概念間建立多種詞匯語義關(guān)系。
目前,維吾爾語語義研究領(lǐng)域還缺乏本體知識(shí)庫建設(shè),究其原因是多方面的,其中一個(gè)很重要的原因就是缺乏本體輔助構(gòu)建系統(tǒng)的支持,本文將研究維吾爾語語義本體的構(gòu)建方法,并在此基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)維吾爾語語義本體輔助構(gòu)建系統(tǒng)。
1 維吾爾語語義本體構(gòu)建過程
第一步,利用《維吾爾語同義詞詞典》,《維吾爾語大辭典》等維吾爾語詞典獲取維吾爾語同義詞集合。
第二步,通過《維漢雙語詞典》將維吾爾語同義詞集合翻譯為漢語,在漢語的《同義詞詞林》的找到對應(yīng)的分類,確定類別名稱,借鑒《同義詞詞林》的分類體系,將維吾爾語語
義本體分為12大類,94個(gè)中類、1428個(gè)小類。
上述建立的維吾爾語語義本體知識(shí)庫中詞語只有上下位關(guān)系和反義關(guān)系,可以參照HowNet添加比較常見的整體-部分關(guān)系和反義關(guān)系,具體過程如下:
第一步,遍歷維吾爾語語義本體知識(shí)庫,獲取類別名稱。
第二步,以該類別名稱作為關(guān)鍵詞搜索HowNet,獲取其整體-部分詞語和反義詞語。
第三步,在維吾爾語語義本體知識(shí)庫中標(biāo)注其整體-部分詞語和反義詞語,建立相關(guān)關(guān)系。
2 需求建模
維吾爾語語義本體輔助構(gòu)建系統(tǒng)能夠?qū)崿F(xiàn)系統(tǒng)管理和分類管理兩大模塊,系統(tǒng)管理和分類管理均采用樹形結(jié)構(gòu)實(shí)現(xiàn),系統(tǒng)管理通過用戶管理、角色管理以及菜單管理,實(shí)現(xiàn)不同的用戶可以授予不同的角色,不同的角色可以授予不同的權(quán)限,從而實(shí)現(xiàn)不同用戶登錄后的顯示界面不同,這樣既保護(hù)了數(shù)據(jù)的安全性,又滿足了不同用戶的需求。分類管理模塊以《同義詞詞林》作為本體標(biāo)注的基礎(chǔ),整個(gè)標(biāo)注體系由大類、中類、小類、與標(biāo)題詞四級組成,共有十二個(gè)大類,包括人、物、時(shí)間與空間、抽象事物、特征、動(dòng)作、心理活動(dòng)、活動(dòng)、現(xiàn)象與狀態(tài)、關(guān)聯(lián)、助語、敬語,每一詞群以一最常用詞為標(biāo)題詞(例如:Aa、01、人、人民、眾人)。能夠?qū)Ψ诸惖臉?biāo)注數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)錄入、數(shù)據(jù)修改、數(shù)據(jù)刪除、數(shù)據(jù)導(dǎo)出、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢以及數(shù)據(jù)的瀏覽等功能。在標(biāo)注過程中系統(tǒng)要充分利用《同義詞詞林》、HowNet,《維吾爾語同義詞詞典》、《維吾爾語大詞典》《維漢詞典》等外部知識(shí)庫資源,設(shè)計(jì)讀取各類資源的功能,使用者按照第2節(jié)所描述的維吾爾語語義本體構(gòu)建過程,構(gòu)建維吾爾語語義本體庫。下面通過用例圖描述整個(gè)系統(tǒng)的功能,如圖1,圖2所示。
3 概要設(shè)計(jì)
系統(tǒng)共分為9個(gè)模塊,整體模塊圖如圖3所示,每個(gè)模塊的具體功能如下:
(1)用戶管理模塊: 管理員登錄系統(tǒng)后,進(jìn)入系統(tǒng)的主界面,可以實(shí)現(xiàn)對用戶信息的管理,可以瀏覽所有用戶的信息,添加新用戶的信息,修改、刪除已有用戶的信息,并能夠通過用戶名進(jìn)行模糊搜索,也可以通過用戶角色進(jìn)行精確搜索,還可以根據(jù)需要將用戶信息導(dǎo)出到excel中。(2)角色管理模塊 :管理員登錄系統(tǒng)后,進(jìn)入系統(tǒng)的主界面,可以實(shí)現(xiàn)對角色信息的管理,可以查看所有角色信息,添加新角色,修改、刪除角色信息,對角色進(jìn)行角色授權(quán),賦予角色更多的權(quán)限或取消角色擁有的權(quán)限,并能夠根據(jù)角色名進(jìn)行模糊查詢。(3)菜單管理模塊:超級管理員登錄系統(tǒng)后,進(jìn)入系統(tǒng)的主界面,可以實(shí)現(xiàn)對菜單信息的管理,能夠?yàn)g覽所有的菜單信息,添加菜單信息,修改、刪除菜單信息。(4)詞典管理模塊:管理員登錄系統(tǒng)后,可以添加、刪除各類機(jī)讀詞典,并可對詞典里的數(shù)據(jù)進(jìn)行添加和修改。(5)標(biāo)注管理模塊:管理員登錄系統(tǒng)后,可以對語義標(biāo)注體系進(jìn)行管理,語義標(biāo)注體系來源于《同義詞詞林》的分類體系。(6)語義本體管理:管理員登錄系統(tǒng)后,可以完成對已標(biāo)注語義本體的導(dǎo)入、導(dǎo)出操作。(7)維漢翻譯:標(biāo)注人員同過維漢翻譯模塊,獲取要標(biāo)注維吾爾語的漢語翻譯,便于獲取在漢語詞典中的各種關(guān)系。(8)標(biāo)注單詞管理:標(biāo)注人員利用語義本體標(biāo)記對維吾爾語單詞進(jìn)行標(biāo)注同義、上下位、整體-部分等語義關(guān)系,構(gòu)建語義本體庫。(9)查詢詞典:標(biāo)注人員通過查詢漢語詞語在《同義詞詞林》,HowNet中各類詞語的關(guān)系,確定相應(yīng)維吾爾語詞語之間的相互關(guān)系。
4 系統(tǒng)實(shí)現(xiàn)效果
系統(tǒng)登錄效果如圖4所示,登錄后效果如圖5所示。
5 結(jié)語
維吾爾語語義本體庫在維吾爾語計(jì)算語言學(xué)研究中扮演著重要角色,在維吾爾語語義理解、詞義消歧、信息檢索等多項(xiàng)研究領(lǐng)域中發(fā)揮重要作用,本文借鑒《同義詞詞林》的分類體系,設(shè)計(jì)了維吾爾語語義本體標(biāo)注體系,針對語義本體中的各種復(fù)雜關(guān)系的擴(kuò)充與確定問題,采用維漢翻譯的方式,獲取維吾爾語對應(yīng)翻譯結(jié)果在HowNet中的關(guān)系來擴(kuò)充維吾爾語語義本體庫,為方便研究人員更有效率的構(gòu)建維吾爾語語義本體庫,設(shè)計(jì)了功能完善的維吾爾語語義本體輔助構(gòu)建系統(tǒng),極大的提高了標(biāo)注人員的工作效率,未來可在建成的維吾爾語語義本體庫基礎(chǔ)上開展詞義消歧義,語義理解多多方面的研究,促進(jìn)維吾爾語計(jì)算語言學(xué)的發(fā)展。
參考文獻(xiàn)
[1] 趙小兵,邱莉榕,趙鐵軍.多民族語言本體知識(shí)庫構(gòu)建技術(shù)[J].中文信息學(xué)報(bào),2011,25(04):71-74.
[2] 孫柳.《同義詞詞林》的改進(jìn)與應(yīng)用研究[D].廣西師范大學(xué),2015.
[3] 哈斯.蒙古語名詞詞匯語義網(wǎng)的構(gòu)建[D].內(nèi)蒙古大學(xué),2013.
[4] 知網(wǎng)[OL]http://www.keenage.com/[t1].
[5] WordNet[OL] http://wordnet.princeton.edu/.