陳濤,楊開漠
(五邑大學(xué) 智能制造學(xué)部,廣東 江門 529020)
《康熙字典》是康熙四十九年由張玉書與陳延敬等人所編寫的詞典,其包含了豐富的古漢語文化以及語義信息. 該詞典采用部首分類法進(jìn)行分類,并按筆畫對(duì)單字進(jìn)行排序. 全書共分為十二集,以子、丑、寅、卯、辰、巳、午、未、申、酉、戌、亥十二地支進(jìn)行標(biāo)識(shí),每集又分為上、中、下三卷,并按韻母、聲調(diào)以及音節(jié)分類排序韻母表及其對(duì)應(yīng)漢字,共收錄漢字47 035 個(gè)[1-3].
如果能夠挖掘詞典中包含的部首、集、卷及漢字間的語義關(guān)系,將有利于促進(jìn)《康熙字典》的研究進(jìn)程. 知識(shí)圖譜(Knowledge Graph)是一種對(duì)知識(shí)的深層語義描述的方法,其主要利用圖的形式來描述客觀世界中的概念、實(shí)體及其關(guān)系. 雖然現(xiàn)有的知識(shí)圖譜(例如 WordNet[4]、Freebase[5]、Zhishi.me[6]、XLore[7])已經(jīng)成為當(dāng)今許多人工智能和自然語言處理應(yīng)用的重要資源,但是知識(shí)圖譜的一個(gè)迫切問題是覆蓋范圍問題. 即使是目前規(guī)模最大的 XLore[7]中文知識(shí)圖譜也未能將《康熙字典》中所包含偏僻漢字和偏僻漢字間的關(guān)系全部描述出來,因而也無法進(jìn)一步挖掘《康熙字典》中所存在的語義關(guān)系. 為了幫助研究者對(duì)《康熙字典》中所蘊(yùn)涵的語義關(guān)系進(jìn)行分析和表達(dá),本文提出一種針對(duì)《康熙字典》的知識(shí)圖譜構(gòu)建方法,在該基礎(chǔ)上設(shè)計(jì)一套基于推理規(guī)則的內(nèi)部關(guān)系推理方法,以進(jìn)一步挖掘《康熙字典》知識(shí)圖譜中所隱含的實(shí)體和實(shí)體關(guān)系知識(shí),并將該技術(shù)應(yīng)用于《康熙字典》的知識(shí)圖譜構(gòu)建及搜索系統(tǒng)中,提高該系統(tǒng)知識(shí)推薦效果.
本文提出的《康熙字典》古漢語知識(shí)圖譜構(gòu)建方法的基本框架如圖 1 所示. 首先,以《康熙字典》中每個(gè)詞條對(duì)應(yīng)的詞作為命名實(shí)體構(gòu)建命名實(shí)體庫. 其中,命名實(shí)體庫所包含的命名實(shí)體類型有漢字、部首、集、卷和典籍. 然后,結(jié)合外部中文知識(shí)圖譜和外部詞典,對(duì)實(shí)體庫中的實(shí)體構(gòu)建實(shí)體間關(guān)系,建立關(guān)系庫. 對(duì)于同時(shí)出現(xiàn)在外部資源中的兩個(gè)實(shí)體,將該外部資源中標(biāo)注的關(guān)系經(jīng)過篩選后補(bǔ)充到基于康熙字典的關(guān)系庫中. 本文所選用的關(guān)系類型主要有部首與集間的上下位關(guān)系、集與卷間的上下位關(guān)系、卷與漢字間上下位關(guān)系、漢字與典籍間的引用關(guān)系、漢字間的反義關(guān)系和近義關(guān)系. 本文所用到的中文知識(shí)圖譜包括Zhishi.me[6]、XLore[7]等,所用到的詞典包括在線詞林以及在線漢語詞典. 其次,根據(jù)關(guān)系庫構(gòu)建知識(shí)圖譜,對(duì)知識(shí)圖譜進(jìn)行質(zhì)量評(píng)估,即對(duì)命名實(shí)體庫和實(shí)體關(guān)系庫進(jìn)行抽樣質(zhì)量評(píng)估,若存在實(shí)體或?qū)嶓w間關(guān)系質(zhì)量不符合要求,需要剔除未達(dá)到質(zhì)量評(píng)估要求的關(guān)系,并重新進(jìn)行關(guān)系構(gòu)建. 最后,利用圖數(shù)據(jù)庫存儲(chǔ)知識(shí)圖譜,并進(jìn)行知識(shí)圖譜的可視化展示.
圖1 本文提出的《康熙字典》的古漢語知識(shí)圖譜構(gòu)建方法的基本框架
本文以上海書店出版社1996 年出版的《康熙字典》[1]為數(shù)據(jù)源構(gòu)建古漢語知識(shí)圖譜. 對(duì)《康熙字典》數(shù)據(jù)集進(jìn)行預(yù)處理操作包括以下步驟:首先, 利用光學(xué)字符識(shí)別( Optical Character Recognition,OCR)技術(shù)對(duì)《康熙字典》的圖像文件進(jìn)行分析識(shí)別處理,以識(shí)別并獲取《康熙字典》圖片中所存在的文字信息,并將這些文字信息轉(zhuǎn)化為電子文本數(shù)據(jù)格式;然后,結(jié)合網(wǎng)絡(luò)上可供下載的“康熙字典數(shù)據(jù)庫”,清除電子文本中所存在的冗余數(shù)據(jù),如標(biāo)題、目錄、無法識(shí)別漢字等;最后,對(duì)電子文本數(shù)據(jù)進(jìn)行斷句處理,將所有詞條逐一處理成如圖2 所示的樣例形式.
圖2 《康熙字典》內(nèi)容樣例
本文主要從《康熙字典》中抽取出部首、集、卷、漢字以及古代詩文五種實(shí)體作為核心實(shí)體. 結(jié)合《康熙字典》內(nèi)容排版特點(diǎn)以及不同核心實(shí)體在《康熙字典》語料庫中的位置特點(diǎn),提出一套用于抽取《康熙字典》中不同核心實(shí)體的規(guī)則,以達(dá)到自動(dòng)抽取《康熙字典》中對(duì)應(yīng)核心實(shí)體集的目的. 該規(guī)則所抽取到的實(shí)體集如表1 所示.
表1 命名實(shí)體庫統(tǒng)計(jì)與示例
實(shí)體間的關(guān)系是知識(shí)圖譜的另外一個(gè)基本要素,直接決定了實(shí)體知識(shí)圖譜中知識(shí)的豐富程度和基于知識(shí)圖譜的其他應(yīng)用系統(tǒng)的功能范圍[8-9]. 《康熙字典》的實(shí)體關(guān)系構(gòu)建任務(wù)的主要目標(biāo)是研究如何抽取《康熙字典》中部首與集之間的上下文關(guān)系、集與卷之間的上下文關(guān)系、卷與漢字之間上下文關(guān)系、漢字與典籍之間引用關(guān)系、漢字實(shí)體之間的近義關(guān)系以及反義關(guān)系六種語義關(guān)系. 本文主要采用以下兩種方法來定義關(guān)系.
第一種方法是《康熙字典》內(nèi)部規(guī)則關(guān)系構(gòu)建法. 該方法根據(jù)《康熙字典》內(nèi)部排版結(jié)構(gòu)進(jìn)行關(guān)系抽取,利用知識(shí)圖譜中的模式層定義知識(shí)圖譜中所應(yīng)用到的數(shù)據(jù)模式. 其中,數(shù)據(jù)模式主要包含實(shí)體類型和實(shí)體間關(guān)系等信息. 本文定義的實(shí)體類型之間的上下位關(guān)系,如圖 3 所示. 從圖中可以看出,實(shí)體類型“集”與“部首”之間、“卷”與“集”之間、“漢字”實(shí)體與“卷”之間都存在上下位關(guān)系. 本文利用“屬于”表示兩個(gè)實(shí)體或?qū)嶓w類型之間的上下位關(guān)系. 同時(shí),實(shí)體類型“典籍”引用“漢字”實(shí)體,所以這兩類實(shí)體之間存在“引用”關(guān)系.
圖3 實(shí)體關(guān)系圖
所抽取到的實(shí)體關(guān)系的集合一般以三元組〈頭實(shí)體,關(guān)系,尾實(shí)體〉的形式表示. 例如(集,屬于,部首)、(卷,屬于,集)、(漢字,屬于,卷)、(典籍,引用,漢字). 為了區(qū)分部首中集和集中卷的不同,本文以“部首+集”和“部首+集+卷”表示不同部首下的集以及不同集下的卷. 例如,“一巳集”、“一巳集上”等,如表 2所示.
表2 實(shí)體關(guān)系示例
利用以上方法從《康熙字典》中抽取出集與部首之間上下位關(guān)系、卷與集之間上下位關(guān)系、漢字與卷之間上下位關(guān)系、典籍與漢字之間引用關(guān)系等四種關(guān)系,數(shù)量與示例統(tǒng)計(jì)如表3 所示.
表3 內(nèi)部規(guī)則關(guān)系構(gòu)建法抽取出的三元組數(shù)量及示例
第二種方法是參考外部知識(shí)構(gòu)建關(guān)系的方法. 該方法通過參考現(xiàn)有的準(zhǔn)確度更高的中文知識(shí)圖譜或數(shù)據(jù)源百科,例如Zhishi.me、XLore 等中文知識(shí)圖譜,在線詞林、在線漢語詞典等在線詞典進(jìn)行關(guān)系抽取. 該方法首先從命名實(shí)體庫中抽取出命名實(shí)體. 然后,在現(xiàn)有的中文知識(shí)圖譜或百科中查找與該實(shí)體具有某種關(guān)系的實(shí)體,并對(duì)其建立實(shí)體間關(guān)系,其中,本文選用的關(guān)系類別主要有近義關(guān)系、反義關(guān)系等. 例如,漢字實(shí)體“專”和漢字實(shí)體“擅”在Zhishi.me 中是近義關(guān)系,漢字實(shí)體“擒”和 “放”在Zhishi.me 中是反義關(guān)系,我們將上述關(guān)系補(bǔ)充進(jìn)康熙字典的實(shí)體關(guān)系庫中. 最后,對(duì)所抽取的關(guān)系進(jìn)行過濾,從中抽取出具有價(jià)值的關(guān)系. 該方法作為第一種方法的補(bǔ)充,能夠有效地解決第一種方法難以抽取出的漢字之間關(guān)系的問題.
利用該方法從《康熙字典》中抽取出漢字間的近義關(guān)系和反義關(guān)系,如表4 所示. 漢字實(shí)體“櫲”與“樟”之間、“丂”與“考”之間、“擅”與“專”之間、“擈”與“撲”之間都屬于近義關(guān)系,漢字實(shí)體“橫”與“豎”之間、“叛”與“順”之間、“擒”與“放”之間、“虧”與“盈”之間都屬于反義關(guān)系.
表4 參考外部知識(shí)構(gòu)建關(guān)系方法所抽取出的三元組數(shù)量及示例
數(shù)據(jù)質(zhì)量體現(xiàn)了該數(shù)據(jù)在其相關(guān)領(lǐng)域下的“實(shí)用性”,數(shù)據(jù)質(zhì)量的好壞會(huì)影響該數(shù)據(jù)在其相關(guān)領(lǐng)域下的應(yīng)用質(zhì)量. 其中,數(shù)據(jù)質(zhì)量問題主要包含準(zhǔn)確性、完整性、一致性等問題[10-11]. 命名實(shí)體庫和實(shí)體關(guān)系庫中的數(shù)據(jù)質(zhì)量對(duì)于構(gòu)建《康熙字典》的古漢語知識(shí)圖譜具有決定性意義.
本文面臨的一個(gè)重要問題是如何評(píng)判所構(gòu)建的命名實(shí)體庫中實(shí)體和實(shí)體關(guān)系庫中實(shí)體關(guān)系的質(zhì)量. 針對(duì)該問題,本文需要確定具體、客觀和可比較的數(shù)據(jù)質(zhì)量指標(biāo),其中包括實(shí)體及實(shí)體間關(guān)系的準(zhǔn)確性、語義表達(dá)的正確性以及實(shí)體間關(guān)系的覆蓋性.
對(duì)于實(shí)體及實(shí)體間關(guān)系的準(zhǔn)確性,因?yàn)楸疚睦贸绦蜃詣?dòng)從《康熙字典》中抽取出部首、集、卷、漢字及典籍等五種實(shí)體集,所以需要利用人工抽樣檢查方法來保證所抽取實(shí)體的準(zhǔn)確性. 同時(shí),對(duì)于實(shí)體間的“屬于”和“引用”關(guān)系,可以利用同樣的方法進(jìn)行檢查. 對(duì)于漢字實(shí)體間的“近義關(guān)系”和“反義關(guān)系”的質(zhì)量評(píng)估,需要通過人工檢索多個(gè)相關(guān)性網(wǎng)站,從中尋找可信度高的答案作為結(jié)果.
本文利用前期所構(gòu)建的命名實(shí)體庫和關(guān)系庫來構(gòu)建《康熙字典》的古漢語知識(shí)圖譜. 將上述命名實(shí)體庫和實(shí)體關(guān)系庫中的實(shí)體及關(guān)系導(dǎo)入圖數(shù)據(jù)庫中,通過圖數(shù)據(jù)庫提供的程序接口,能夠方便的查詢知識(shí)圖譜中實(shí)體及其關(guān)系,并根據(jù)需求進(jìn)行數(shù)據(jù)可視化. 圖 4 為《康熙字典》的古漢語知識(shí)圖譜部分節(jié)點(diǎn)的可視化展示.
圖4 《康熙字典》的古漢語知識(shí)圖譜部分節(jié)點(diǎn)的可視化展示
《康熙字典》的古漢語知識(shí)圖譜中各部分實(shí)體及其關(guān)系如下所示:
部首、集與卷間的上下文關(guān)系. 查詢實(shí)體“口字部”和與其相關(guān)的集及卷間的關(guān)系,其查詢結(jié)果如圖5 所示. 從圖5 中可以看出,深灰色節(jié)點(diǎn)表示實(shí)體“口字部”,白色節(jié)點(diǎn)表示部首實(shí)體“口字部”所包含的集實(shí)體,其中,包括“口子集”、“口午集”、“口戌集”等集實(shí)體. 淺灰色節(jié)點(diǎn)表示集實(shí)體所包含的卷實(shí)體,比如,集實(shí)體“口戌集”包含卷實(shí)體“口戌集下”,集實(shí)體“口丑集”包含卷實(shí)體“口丑集中”等. 節(jié)點(diǎn)間的有向邊及其上面的“屬于”表示部首實(shí)體與集實(shí)體間、集實(shí)體與卷實(shí)體間的上下文關(guān)系.
圖5 部首、集及卷間的關(guān)系圖
卷與漢字間的上下文關(guān)系. 查詢卷實(shí)體“口字部”和與其相關(guān)的集及卷間的關(guān)系,其查詢結(jié)果如圖6 所示. 灰色節(jié)點(diǎn)表示卷實(shí)體“一子集上”,白色節(jié)點(diǎn)表示卷實(shí)體“一子集上”所包含的漢字實(shí)體,其中,包括“一”、“上”、“丁”、“下”,“萬”等漢字實(shí)體. 卷實(shí)體與漢字實(shí)體間的上下文關(guān)系通過節(jié)點(diǎn)間的有向邊及其上面的“屬于”表示.
圖6 卷和漢字間的關(guān)系圖
《康熙字典》的古漢語知識(shí)圖譜能夠有效地管理和利用《康熙字典》中知識(shí),為古漢語研究人員提供豐富的知識(shí)點(diǎn)間關(guān)聯(lián)信息,從而抽取出新的漢字知識(shí),為古漢語研究提供知識(shí)和理論基礎(chǔ). 以下列舉兩個(gè)可能的應(yīng)用領(lǐng)域:
網(wǎng)絡(luò)知識(shí)關(guān)系挖掘指的是以一個(gè)實(shí)體作為中心點(diǎn),以知識(shí)圖譜可視化的形式挖掘和查找與該實(shí)體具有相關(guān)關(guān)系的漢字實(shí)體、部首實(shí)體、典籍實(shí)體、集合實(shí)體、卷實(shí)體等. 在《康熙字典》知識(shí)圖譜中,每一個(gè)實(shí)體利用一個(gè)節(jié)點(diǎn)表示,實(shí)體間的關(guān)系用對(duì)應(yīng)節(jié)點(diǎn)間的有向邊表示,如圖7 所示.
從圖7 可以看出,實(shí)體“康”與實(shí)體“平”之間存在近義關(guān)系,他們共同引用“唐韻”、“集韻”、“廣韻”等典籍實(shí)體. 實(shí)體“康”與實(shí)體“病”之間存在反義關(guān)系. 實(shí)體“康”、實(shí)體“平”及實(shí)體“病”都引用了典籍實(shí)體“正韻”. 當(dāng)《康熙字典》中實(shí)體關(guān)系比較復(fù)雜時(shí),《康熙字典》古漢語知識(shí)圖譜能夠幫助古漢語研究者更好的進(jìn)行分析.
圖7 網(wǎng)絡(luò)知識(shí)關(guān)系挖掘示意圖
路徑挖掘指的是從知識(shí)圖譜中搜索出指定實(shí)體間的最短路徑. 圖 8 展示了典籍實(shí)體“玉篇”與典籍實(shí)體“徐曰”之間的最短路徑.
從圖8 中可以看出,典籍實(shí)體“玉篇”與典籍實(shí)體“徐曰”均被漢字實(shí)體“夌”所引用,漢文化研究者可以通過研究漢字實(shí)體“夌”,間接研究典籍實(shí)體“玉篇”與典籍實(shí)體“徐曰”. 《康熙字典》中實(shí)體路徑關(guān)系越復(fù)雜,越能體現(xiàn)知識(shí)圖譜的價(jià)值.
圖8 路徑挖掘示意示例
針對(duì)現(xiàn)有中文知識(shí)圖譜對(duì)《康熙字典》中詞語實(shí)體間關(guān)系定義不足、覆蓋不全的問題,本文提出一種針對(duì)《康熙字典》的知識(shí)圖譜構(gòu)建方法,該方法可為古漢語研究提供知識(shí)和理論基礎(chǔ),但由于本文知識(shí)圖譜所用到的內(nèi)部關(guān)系推理方法是基于簡單的推理規(guī)則,還無法獲取《康熙字典》中所包含的更深層次的語義信息. 在未來的工作中,可以結(jié)合深度學(xué)習(xí)進(jìn)一步探索內(nèi)部規(guī)則推理方法,并將新方法應(yīng)用到現(xiàn)有的《康熙字典》的知識(shí)圖譜構(gòu)建和搜索系統(tǒng)中,以挖掘《康熙字典》中所包含的深層次信息.