司莉,李鑫
?
基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘研究**本文系教育部人文社會(huì)科學(xué)重點(diǎn)研究基地重大項(xiàng)目“基于內(nèi)容的多語(yǔ)言信息組織與檢索研究”(項(xiàng)目編號(hào):14JJD870001)研究成果之一
司莉,李鑫
摘要文章提出基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘框架,選取和利用知識(shí)挖掘方法中基于規(guī)則的語(yǔ)義推理方法對(duì)該框架進(jìn)行實(shí)現(xiàn)。實(shí)驗(yàn)過(guò)程包括構(gòu)建一個(gè)實(shí)驗(yàn)型的中英雙語(yǔ)本體,定義本體實(shí)例的規(guī)則并對(duì)規(guī)則進(jìn)行形式化處理,實(shí)現(xiàn)基于規(guī)則的語(yǔ)義推理,即利用編程工具和算法完成對(duì)中英雙語(yǔ)本體的知識(shí)挖掘。
關(guān)鍵詞知識(shí)挖掘語(yǔ)義推理多語(yǔ)言本體
引用本文格式司莉,李鑫.基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘研究[J].圖書館論壇,2016(2):27- 34.
A Study of Knowledge Mining Based on Multilingual Ontology
SI Li,LI Xin
Abstract This paper proposes a framework for knowledge mining based on multilingual ontology,and carries out an experiment using the rules -based semantic reasoning method to confirm the feasibility of the framework proposed. The experiment process includes three main steps:construct a bilingual ontology;set the rules of instances and make them formalization;carry out the rule-based semantic reasoning and complete knowledge mining using programming tools and algorithms.
Keywords knowledge mining;semantic reasoning;multilingual ontology
當(dāng)前,網(wǎng)絡(luò)信息資源的多語(yǔ)種化和網(wǎng)絡(luò)用戶分布國(guó)際化兩大趨勢(shì)日漸凸顯,用戶獲取多語(yǔ)言信息資源面臨的語(yǔ)言壁壘以及用戶對(duì)多語(yǔ)言語(yǔ)義信息資源的需求亟需解決,多語(yǔ)言的信息組織與檢索和知識(shí)挖掘?qū)⒅饾u成為研究熱點(diǎn)。一方面,多語(yǔ)言信息檢索至今仍停留在基于關(guān)鍵詞匹配的文獻(xiàn)檢索階段,且以文本檢索為主。多語(yǔ)言檢索系統(tǒng)的概念識(shí)別能力較弱,無(wú)法精確化地識(shí)別用戶查詢請(qǐng)求中的語(yǔ)義,無(wú)法準(zhǔn)確分析目標(biāo)對(duì)象與查詢請(qǐng)求中語(yǔ)義相關(guān)性,檢索結(jié)果冗余度高、相關(guān)性較低、效率和精度還不夠理想,尚未實(shí)現(xiàn)細(xì)粒度、語(yǔ)義化的知識(shí)檢索。另一方面,知識(shí)挖掘雖然已經(jīng)形成了較完整理論與技術(shù)體系,但如何將這些理論與技術(shù)運(yùn)用于多語(yǔ)言領(lǐng)域,進(jìn)行多語(yǔ)言、動(dòng)態(tài)化、細(xì)粒度的知識(shí)抽取與組織,進(jìn)而實(shí)現(xiàn)基于語(yǔ)義的挖掘,尚需進(jìn)行深入探究。而基于多語(yǔ)言領(lǐng)域本體的語(yǔ)義知識(shí)挖掘從多語(yǔ)言信息資源中抽取隱含的、細(xì)粒度和語(yǔ)義(關(guān)聯(lián))化的知識(shí),克服了傳統(tǒng)知識(shí)挖掘與多語(yǔ)言信息檢索在隱含信息、語(yǔ)義關(guān)聯(lián)信息的挖掘與檢索等方面的不足。本研究的目的是構(gòu)建一個(gè)基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘框架,在此基礎(chǔ)上,選取和利用知識(shí)挖掘方法中合適的技術(shù)與方法對(duì)所設(shè)計(jì)的框架進(jìn)行實(shí)現(xiàn)。
筆者遵循系統(tǒng)設(shè)計(jì)原則,提出基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘的框架與內(nèi)容,并闡述實(shí)現(xiàn)該框架的關(guān)鍵技術(shù)。
1.1多語(yǔ)言領(lǐng)域本體知識(shí)挖掘框架的構(gòu)成
基于多語(yǔ)言領(lǐng)域本體知識(shí)挖掘的框架如圖1所示,包括原始數(shù)據(jù)層、語(yǔ)義知識(shí)表示層、知識(shí)挖掘?qū)?、知識(shí)服務(wù)與應(yīng)用層。
圖1 多語(yǔ)言領(lǐng)域本體知識(shí)挖掘框架
(1)原始數(shù)據(jù)層。該層主要存放來(lái)自不同數(shù)據(jù)源的、不同類型的、異構(gòu)的多語(yǔ)言信息資源。涉及多個(gè)語(yǔ)種,包含圖像、文本、視頻、音頻等多種類型;覆蓋不同學(xué)科、不同領(lǐng)域的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息資源;在進(jìn)行知識(shí)挖掘時(shí),需要對(duì)其中的數(shù)據(jù)進(jìn)行抽取和預(yù)處理。
(2)語(yǔ)義知識(shí)表示層。數(shù)據(jù)層中的數(shù)據(jù)缺乏明確的、形式化的語(yǔ)義表示,因此需要對(duì)其隱含的、潛在的概念、知識(shí)和語(yǔ)義進(jìn)行規(guī)范化、形式化的表達(dá)和處理。語(yǔ)義知識(shí)表示層主要包括了語(yǔ)義網(wǎng)技術(shù)、自然語(yǔ)言處理技術(shù)、多語(yǔ)言領(lǐng)域本體、多語(yǔ)言領(lǐng)域本體規(guī)則庫(kù)、專家經(jīng)驗(yàn)本體、用戶偏好本體及其他的本體和知識(shí)庫(kù)等,其主要功能有四個(gè):一是對(duì)多語(yǔ)言信息資源進(jìn)行語(yǔ)義化表示。主要借助語(yǔ)義網(wǎng)技術(shù)以及自然語(yǔ)言處理技術(shù)等對(duì)多語(yǔ)言信息資源進(jìn)行語(yǔ)義層面的初步分析和處理,并利用多語(yǔ)言本體進(jìn)行語(yǔ)義標(biāo)注,識(shí)別信息資源中有意義的、能夠表達(dá)信息資源內(nèi)容和特征的概念和實(shí)體及其之間的關(guān)系。二是根據(jù)多語(yǔ)言領(lǐng)域本體和領(lǐng)域知識(shí),建立基于多語(yǔ)言領(lǐng)域本體的規(guī)則庫(kù)。三是為知識(shí)挖掘?qū)犹峁┱Z(yǔ)義數(shù)據(jù)。利用多語(yǔ)言本體對(duì)不同類型的多語(yǔ)言信息資源進(jìn)行知識(shí)表示和語(yǔ)義標(biāo)注等,識(shí)別和抽取信息資源中的概念及其關(guān)系,并以機(jī)器可理解(如RDF)的形式編碼后存儲(chǔ)在信息資源語(yǔ)義元數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)對(duì)多語(yǔ)言信息資源內(nèi)容的準(zhǔn)確理解和表達(dá),從而為知識(shí)挖掘提供良好的數(shù)據(jù)基礎(chǔ)。四是檢驗(yàn)知識(shí)挖掘結(jié)果。利用本體的推理功能對(duì)知識(shí)挖掘的結(jié)果進(jìn)行語(yǔ)義推理,去掉無(wú)用或冗余的規(guī)則或知識(shí)。
(3)知識(shí)挖掘?qū)?。?jīng)過(guò)規(guī)范化和形式化處理的多語(yǔ)言信息資源,對(duì)資源間的深層次或隱含的相互關(guān)系以及細(xì)粒度的語(yǔ)義知識(shí)還是缺乏揭示。知識(shí)挖掘?qū)拥墓δ馨▋蓚€(gè)方面:第一,知識(shí)發(fā)現(xiàn)。知識(shí)挖掘技術(shù)能夠充分利用多語(yǔ)言領(lǐng)域本體、用戶偏好本體、規(guī)則庫(kù)等提供的豐富的概念層次結(jié)構(gòu)和領(lǐng)域先驗(yàn)知識(shí)對(duì)其進(jìn)行語(yǔ)義層面的深度知識(shí)挖掘,獲得深層次或多維度的知識(shí)、規(guī)則等。第二,不斷更新語(yǔ)義知識(shí)表示層中的本體。利用知識(shí)挖掘?qū)拥耐诰蛩玫恼Z(yǔ)義關(guān)聯(lián)知識(shí)、規(guī)則等,并結(jié)合專家經(jīng)驗(yàn)知識(shí)指導(dǎo)多語(yǔ)言本體的動(dòng)態(tài)構(gòu)建和多語(yǔ)言本體學(xué)習(xí)。
(4)知識(shí)服務(wù)與應(yīng)用層。該層的主要功能是利用知識(shí)挖掘?qū)又蝎@取的知識(shí)或規(guī)則,實(shí)現(xiàn)多種知識(shí)服務(wù)如多語(yǔ)言知識(shí)挖掘、多語(yǔ)言信息檢索、知識(shí)導(dǎo)航、個(gè)性化推薦服務(wù)等,以及各種應(yīng)用如多語(yǔ)言問(wèn)答系統(tǒng)、多語(yǔ)言領(lǐng)域本體的學(xué)習(xí)和構(gòu)建。用戶可采用任一種自然語(yǔ)言提問(wèn),利用多語(yǔ)言本體的術(shù)語(yǔ)服務(wù)機(jī)制中的查詢?cè)~擴(kuò)展與精煉功能以及本體間的映射關(guān)系和推理功能,在語(yǔ)義層面上精確地表達(dá)自己的信息需求,并利用知識(shí)挖掘結(jié)果修正信息檢索的范圍和結(jié)果。
1.2基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘特征
1.2.1信息資源的語(yǔ)義化表示
實(shí)現(xiàn)在語(yǔ)義層面上的知識(shí)挖掘是提高挖掘結(jié)果質(zhì)量的關(guān)鍵問(wèn)題,語(yǔ)義網(wǎng)技術(shù)、本體的出現(xiàn)為解決這一問(wèn)題提供了一種新的思路。多語(yǔ)言領(lǐng)域本體主要提供學(xué)科領(lǐng)域內(nèi)的核心概念、知識(shí)和概念間的關(guān)系,為語(yǔ)義分析和標(biāo)注、知識(shí)挖掘、語(yǔ)義推理等提供可靠的先驗(yàn)知識(shí)。利用多語(yǔ)言領(lǐng)域本體可以實(shí)現(xiàn)對(duì)多語(yǔ)言信息資源的一致性解釋和表示,表達(dá)信息資源內(nèi)部隱含的語(yǔ)義知識(shí)及其關(guān)聯(lián)關(guān)系,并解決了多語(yǔ)言信息資源的異構(gòu)問(wèn)題。
1.2.2挖掘準(zhǔn)確度與共享性高
利用語(yǔ)義網(wǎng)、本體技術(shù)從語(yǔ)義層面對(duì)知識(shí)進(jìn)行表示,通過(guò)導(dǎo)入多語(yǔ)言領(lǐng)域本體等提供的語(yǔ)義概念,實(shí)現(xiàn)對(duì)信息資源進(jìn)行語(yǔ)義層面的知識(shí)挖掘,利用知識(shí)挖掘技術(shù)與方法提供給用戶高度相關(guān)的挖掘結(jié)果,提高了挖掘過(guò)程中知識(shí)抽取的可靠性,從而提高知識(shí)挖掘的準(zhǔn)確性。同時(shí),實(shí)現(xiàn)了知識(shí)的無(wú)障礙共享。多語(yǔ)言領(lǐng)域本體、用戶偏好本體等為個(gè)人、組織以及機(jī)器間的相互理解和交流提供了共同的、規(guī)范的概念定義和關(guān)系描述,消除了人們對(duì)語(yǔ)義的概念或知識(shí)的表達(dá)差異,從而實(shí)現(xiàn)挖掘所得知識(shí)、規(guī)則的無(wú)障礙共享。
1.2.3注重用戶偏好
筆者在建立知識(shí)挖掘過(guò)程中應(yīng)用多語(yǔ)言領(lǐng)域本體、用戶偏好本體等。用戶偏好本體由高層次的抽象概念組成,全面真實(shí)地反映了用戶的需求類信息如個(gè)性化定制服務(wù)、用戶的行為類信息如信息檢索記錄、用戶反饋類信息如用戶服務(wù)評(píng)價(jià)信息等,提高了用戶的參與度,使挖掘的結(jié)果更易符合用戶的需求,減少無(wú)意義或無(wú)效的結(jié)果。
1.3實(shí)現(xiàn)多語(yǔ)言領(lǐng)域本體知識(shí)挖掘的關(guān)鍵技術(shù)
1.3.1構(gòu)建多語(yǔ)言領(lǐng)域本體技術(shù)
多語(yǔ)言本體的構(gòu)建有三種途徑:一是從頭開(kāi)始構(gòu)建新的語(yǔ)言本體;二是合并兩種或多種現(xiàn)有不同語(yǔ)言的本體成為一種新的多語(yǔ)言本體,即多語(yǔ)言本體間的映射;三是將現(xiàn)有的一種語(yǔ)言的本體翻譯成其他語(yǔ)言的本體從而構(gòu)建多語(yǔ)言本體,即本體翻譯或本地化。在本文的實(shí)驗(yàn)部分構(gòu)建了一個(gè)小型的實(shí)驗(yàn)本體,主要采用手工方法從頭開(kāi)始構(gòu)建中英雙語(yǔ)本體。通過(guò)設(shè)置數(shù)據(jù)屬性(Data Property)實(shí)現(xiàn)雙語(yǔ)本體相同語(yǔ)義概念的映射,包括相同語(yǔ)言中同義概念間的映射以及不同語(yǔ)言間的同義概念之間的映射。
1.3.2基于規(guī)則的推理技術(shù)
該技術(shù)是依靠推理工具或推理引擎利用規(guī)則推理算法,從已有的領(lǐng)域知識(shí)庫(kù)或本體庫(kù)中推理出隱含的知識(shí)、關(guān)系的過(guò)程。首先要在領(lǐng)域知識(shí)庫(kù)或本體庫(kù)的基礎(chǔ)上結(jié)合規(guī)則推理技術(shù)建立適用于領(lǐng)域知識(shí)的規(guī)則庫(kù),然后推理系統(tǒng)借助推理工具或推理引擎以及利用一定的推理算法完成知識(shí)庫(kù)、規(guī)則庫(kù)的加載與解析,在此基礎(chǔ)上完成本體庫(kù)或基于本體庫(kù)的推理。規(guī)則庫(kù)主要有兩種來(lái)源:一是本體庫(kù)中本體自身蘊(yùn)含的規(guī)則;二是在本體庫(kù)和知識(shí)庫(kù)的基礎(chǔ)上建立適用于領(lǐng)域的規(guī)則。在定義了領(lǐng)域規(guī)則后,采用合適的規(guī)則描述語(yǔ)言對(duì)所構(gòu)建的規(guī)則進(jìn)行形式化描述,從語(yǔ)言的權(quán)威性、表達(dá)能力和推理引擎的支持等角度考慮,選用SWRL作為規(guī)則描述語(yǔ)言。
2.1實(shí)驗(yàn)環(huán)境
本實(shí)驗(yàn)的計(jì)算機(jī)操作系統(tǒng)是Win7,所需要的工具包括本體構(gòu)構(gòu)建與編輯工具Protégé、Java集成開(kāi)發(fā)環(huán)境與工具Eclipse、基于Java的開(kāi)源代碼本體操作工具包Jena以及Jena自帶的推理機(jī)。Protégé作為本體的編輯工具是一個(gè)免費(fèi)和開(kāi)源的工具,界面友好,用戶不用掌握本體描述語(yǔ)言也可以直接對(duì)類、屬性等進(jìn)行檢查、瀏覽、編輯和修改等操作,它支持RDF、OWL等多種本體描述語(yǔ)言。Eclipse是一個(gè)開(kāi)放源代碼的、基于Java可擴(kuò)展的開(kāi)發(fā)框架與平臺(tái),可以將Eclipse作為Java的集成開(kāi)發(fā)環(huán)境(IDE)使用。Jena是由惠普實(shí)驗(yàn)室開(kāi)發(fā)的Java開(kāi)發(fā)開(kāi)源工具包,用于語(yǔ)義網(wǎng)中應(yīng)用程序的開(kāi)發(fā)。Jena框架功能主要包括:以RDF/XML、三元組形式解析RDF文件;對(duì)RDFS、OWL、DAML+OIL等本體進(jìn)行操作;利用數(shù)據(jù)庫(kù)保存數(shù)據(jù);提供查詢模型;基于Jena推理引擎進(jìn)行基于規(guī)則的推理等。
2.2實(shí)驗(yàn)內(nèi)容
本實(shí)驗(yàn)中知識(shí)挖掘?qū)ο蟀▋煞矫?,即?gòu)建的中英雙語(yǔ)領(lǐng)域本體以及中英雙語(yǔ)對(duì)照信息資源,所使用的知識(shí)挖掘技術(shù)為基于規(guī)則的語(yǔ)義推理技術(shù)。
遵循本體構(gòu)建原則,利用上文中介紹的本體構(gòu)建的技術(shù)體系,使用本體編輯工具Protégé構(gòu)建中英雙語(yǔ)本體,給定一段中英對(duì)照文本,對(duì)文本中的實(shí)體及其關(guān)系進(jìn)行分析,利用本體對(duì)文本進(jìn)行標(biāo)注,并將標(biāo)注的結(jié)果作為本體的實(shí)例添加在本體中并進(jìn)行存儲(chǔ)。分析文本中實(shí)體之間的關(guān)系,在此基礎(chǔ)上建立實(shí)例的規(guī)則并使用SWRL規(guī)則描述語(yǔ)言對(duì)其進(jìn)行形式化形成規(guī)則庫(kù)文件。在Eclipse環(huán)境下加載本體和相應(yīng)的規(guī)則庫(kù)文件,采用Java語(yǔ)言編程,利用規(guī)則進(jìn)行本體的語(yǔ)義推理,從而實(shí)現(xiàn)中英雙語(yǔ)本體的知識(shí)挖掘。
2.3實(shí)現(xiàn)過(guò)程
2.3.1多語(yǔ)言領(lǐng)域本體的構(gòu)建
本實(shí)驗(yàn)使用Protégé4.3.0手工構(gòu)建雙語(yǔ)本體,步驟如下:
(1)確定主要的概念,建立類及類的層次。構(gòu)建大學(xué)課程教育的中英雙語(yǔ)本體,該本體包括1個(gè)一級(jí)類為大學(xué)教育;5個(gè)二級(jí)類為課程、教師、教師職稱、學(xué)生、教育層次;6個(gè)三級(jí)類:在課程類型下建立3個(gè)三級(jí)類,分別為本科課程、碩士課程、博士課程;在教育層次下建立3個(gè)三級(jí)類,分別為本科教育、碩士教育和博士教育。利用Protégé建立類以及類與類之間的等級(jí)結(jié)構(gòu),完成后選擇“OWLViz”,本體的結(jié)構(gòu)圖如圖2所示。
圖2 大學(xué)課程教育本體的可視化結(jié)構(gòu)圖
筆者通過(guò)設(shè)置數(shù)據(jù)屬性(Data Property)實(shí)現(xiàn)雙語(yǔ)本體相同語(yǔ)義概念的映射,包括相同語(yǔ)言中同義概念間的映射和不同語(yǔ)言間的同義概念之間的映射,從而構(gòu)建中英雙語(yǔ)本體。具體而言,在數(shù)據(jù)屬性中的Annotation Properties(注釋屬性)選項(xiàng)下建立數(shù)據(jù)屬性hasName,利用hasName屬性添加不同語(yǔ)言的同義概念。利用hasName屬性下建立的子屬性hasSynonymous,可添加每個(gè)類的同義中文和英文的概念或詞匯。
在數(shù)據(jù)屬性中的Annotation Properties下建立類的數(shù)據(jù)屬性hasName屬性,對(duì)建立的本體中的每一個(gè)類分別添加hasName屬性,輸入屬性值為相應(yīng)的類的中文和英文名稱,從而完成中英概念類的對(duì)照。以“課程”類為例,在Protégé中選擇Annotation選項(xiàng)卡,選擇屬性“hasName”,在屬性值Value中輸入“Course”,在Lang中輸入“en”以表示為英文類名,則完成英文類名的添加(見(jiàn)圖3)。采用同樣的方式添加類的中文名稱,只需在Lang中輸入“zh”以表示中文即可?!罢n程”類建立的中英文對(duì)照類名如圖4所示。采用上述方式對(duì)構(gòu)建的中英雙語(yǔ)本體中的每一個(gè)類添加相應(yīng)的中英文類名,即完成大學(xué)課程教育中英雙語(yǔ)本體的構(gòu)建。
圖3 “課程”類的英文類名添加過(guò)程圖
圖4 “課程”類所建立的中英文對(duì)照類名
(2)建立屬性及屬性的約束。在OWL本體中,屬性關(guān)系可以分為對(duì)象屬性(Object Property)和數(shù)據(jù)屬性(Data Property),前者表示概念之間的關(guān)系,后者表示每個(gè)概念的基本信息。大學(xué)課程教育中英雙語(yǔ)本體中各個(gè)概念之間的語(yǔ)義關(guān)系是通過(guò)設(shè)置對(duì)象的屬性完成的,共建立了30個(gè)對(duì)象屬性(見(jiàn)表1),具有互逆關(guān)系的對(duì)象屬性在Protégé中通過(guò)設(shè)置“Inverse Of”來(lái)實(shí)現(xiàn)。在Protégé中對(duì)相應(yīng)的類分別設(shè)置其對(duì)象屬性,對(duì)于具有屬性約束的要設(shè)置相應(yīng)的屬性約束。
表1 大學(xué)教育本體中設(shè)置的對(duì)象屬性
(3)本體存儲(chǔ),將已構(gòu)建的本體存儲(chǔ)為OWL文件,以便用于語(yǔ)義推理和挖掘。
2.3.2語(yǔ)義標(biāo)注與本體規(guī)則庫(kù)的構(gòu)建
給定圖5所示中英雙語(yǔ)對(duì)照文本,分析并提取文本中的實(shí)體以及實(shí)體間的關(guān)系,利用上面構(gòu)建的學(xué)校本體對(duì)其進(jìn)行語(yǔ)義標(biāo)注,標(biāo)注的結(jié)果作為本體的實(shí)例添加在本體中。
圖5 中英雙語(yǔ)對(duì)照文本
筆者抽取中英對(duì)照實(shí)體18對(duì)36個(gè),分別在本體類本科課程下建立信息管理、圖書館學(xué)概論2個(gè)實(shí)例;在碩士課程下建立信息檢索、信息資源建設(shè)2個(gè)實(shí)例;在博士課程下建立數(shù)據(jù)挖掘、信息服務(wù)2個(gè)實(shí)例;在教師下建立楊靜、裴蓓和劉然3個(gè)實(shí)例;在學(xué)生下李靜、李娜和蕭涵3個(gè)實(shí)例。以同樣的方法對(duì)在相應(yīng)的概念類中分別建立相應(yīng)的英文實(shí)例,然后分別對(duì)每一個(gè)實(shí)例設(shè)置其對(duì)象屬性和屬性的約束,并保存為owl格式的文件,作為下面語(yǔ)義推理與挖掘的輸入。由于實(shí)例以及實(shí)例之間的對(duì)象關(guān)系較多,不再一一贅述。
對(duì)構(gòu)建的學(xué)校教育雙語(yǔ)本體中實(shí)例之間的關(guān)系進(jìn)行分析,定義本體的推理規(guī)則。對(duì)分析的規(guī)則采用SWRL規(guī)則描述語(yǔ)言形式化描述,可得到多語(yǔ)言本體實(shí)例的完整的規(guī)則庫(kù)文件,其中包含64條實(shí)例的對(duì)象屬性推理規(guī)則。因篇幅有限,本文僅給出部分形式化的SWRL規(guī)則庫(kù)文件(見(jiàn)圖6)。在此基礎(chǔ)上,利用Jena包中的推理引擎中綁定所建立的規(guī)則庫(kù)文件以及所建立的學(xué)校教育中英雙語(yǔ)本體文件,然后進(jìn)行多語(yǔ)言領(lǐng)域本體的基于規(guī)則推理的知識(shí)挖掘。
圖6 本體的規(guī)則庫(kù)文件(部分)
2.3.3基于語(yǔ)義推理的知識(shí)挖掘
筆者主要利用Java編程工具E-clipse、Jena工具包進(jìn)行基于本體規(guī)則的語(yǔ)義推理,挖掘?qū)嵗须[含的知識(shí)和關(guān)系,實(shí)現(xiàn)知識(shí)的挖掘。在Eclipse中通過(guò)修改工程的Java創(chuàng)建路徑的方法導(dǎo)入Jena jar文件,可以在Eclipse中調(diào)用Jena API完成本體知識(shí)庫(kù)(文件)和規(guī)則庫(kù)(文件)的加載、解析和處理。然后編寫相應(yīng)的程序處理本體庫(kù)和規(guī)則庫(kù),實(shí)現(xiàn)基于規(guī)則的語(yǔ)義推理,關(guān)鍵的代碼如下:
public class JenaInf{
public void getInf(){
//加載規(guī)則文件
Modelm = ModelFactory.createDefaultModel();
Resource configuration = m.createResource();
configuration.addProperty (ReasonerVocabulary.
PROPruleMode,"hybrid");
configuration.addProperty (ReasonerVocabulary.
PROPruleSet,"data/rules.rules");/
//創(chuàng)建推理機(jī)
Reasonerreasoner=GenericRuleReasonerFactory.
theInstance().create(configuration);
//加載本體文件
Model data = FileManager.get ().loadModel ("file:
data/UniversityEducation.owl");
//獲取具有本體數(shù)據(jù)和規(guī)則的模型
InfModelinfmodel= ModelFactory.createInfModel
(reasoner,data);
//獲取規(guī)則推理結(jié)果
StmtIteratori = infmodel.getDeductionsModel ().
listStatements();
while (i.hasNext()){
String st =PrintUtil.print(i.nextStatement());
if(st.startsWith("(http://www.semanticweb.
org/lixin")){
System.out.println (st.replaceAll("http://www.se
manticweb.org/lixin/ontologies/2015/3/Universi
tyEducation#",""));
}
}
}
public static void main(String[]args){ newJenaInf().getInf();
}
}
2.4實(shí)驗(yàn)結(jié)果與分析
運(yùn)行該程序,可得到基于規(guī)則的語(yǔ)義推理的部分結(jié)果,見(jiàn)圖7。
圖7 基于規(guī)則的語(yǔ)義推理程序運(yùn)行結(jié)果(部分)
由于Eclipse界面有限,無(wú)法展示全部推理結(jié)果,且推理結(jié)果中包含一些無(wú)用的結(jié)果,因此得到的結(jié)果進(jìn)行整理并剔除部分無(wú)用結(jié)果,得到推理的結(jié)果見(jiàn)表2(篇幅有限,僅列出部分結(jié)果)。由表2可知,基于規(guī)則的語(yǔ)義推理挖掘出了李靜(Jing Lee)可以上的課程有信息管理、Information Management、圖書館學(xué)概論、Library Introduction,副教授裴蓓(Bee Pei)可以教的課程有信息管理、Information Management、圖書館學(xué)概論、Library Introduction、信息資源建設(shè)、Information Construction、信息檢索、Information Retrieval等實(shí)體之間隱含的知識(shí)與關(guān)系,實(shí)現(xiàn)了基于規(guī)則推理的中英雙語(yǔ)本體的知識(shí)挖掘。
表2 基于規(guī)則的部分推理結(jié)果
2.5多語(yǔ)言領(lǐng)域本體知識(shí)挖掘的應(yīng)用
(1)應(yīng)用于知識(shí)服務(wù)?;诙嗾Z(yǔ)言領(lǐng)域本體的知識(shí)挖掘技術(shù)可對(duì)多語(yǔ)言信息資源進(jìn)行處理,以挖掘其隱含的、具有潛在價(jià)值的知識(shí),分析知識(shí)內(nèi)容之間的關(guān)聯(lián),從而提供基于語(yǔ)義的、面向內(nèi)容的知識(shí)服務(wù)。這種深層次的知識(shí)服務(wù)依靠多語(yǔ)言領(lǐng)域本體進(jìn)行語(yǔ)義特征的提取,利用知識(shí)挖掘技術(shù)進(jìn)行分類、聚類分析等處理,從而挖掘出多語(yǔ)言信息資源中隱藏的知識(shí)及其之間的語(yǔ)義關(guān)聯(lián)關(guān)系。圖書館可以利用基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘結(jié)果開(kāi)展學(xué)科知識(shí)服務(wù),對(duì)用戶的需求進(jìn)行收集、分析、規(guī)范化處理和表達(dá);采用多語(yǔ)言知識(shí)挖掘技術(shù)對(duì)圖書館數(shù)據(jù)庫(kù)進(jìn)行知識(shí)挖掘,獲取隱藏的、深層次的學(xué)科知識(shí)以及知識(shí)之間的語(yǔ)義關(guān)聯(lián),將滿足用戶需求的知識(shí)挖掘的結(jié)果提供給用戶。
(2)應(yīng)用于多語(yǔ)言信息檢索。將知識(shí)挖掘技術(shù)應(yīng)用于多語(yǔ)言信息檢索,挖掘并分析用戶需求與多語(yǔ)言信息資源之間主題的相關(guān)性,有助于實(shí)現(xiàn)用戶需求和多語(yǔ)言信息資源之間的精確匹配,提高檢索效率并優(yōu)化檢索結(jié)果,具體方法有:①提高檢索效率。利用基于多語(yǔ)言領(lǐng)域本體的知識(shí)挖掘技術(shù)可以對(duì)檢索對(duì)象進(jìn)行預(yù)處理,例如利用知識(shí)挖掘中的聚類分析技術(shù)將文檔按照其語(yǔ)義聚類到特定的類別,在進(jìn)行多語(yǔ)言信息檢索時(shí)可以直接將檢索目標(biāo)定位到具體的類別,只需對(duì)該類別進(jìn)行處理和檢索,從而減少了檢索所需的時(shí)間并提高了檢索效率。②優(yōu)化多語(yǔ)言檢索結(jié)果。多語(yǔ)言信息檢索是用戶需求與多語(yǔ)言信息資源的自動(dòng)匹配過(guò)程,這一過(guò)程中以及在檢索的結(jié)果中利用知識(shí)挖掘技術(shù)可以獲取細(xì)粒度語(yǔ)義知識(shí),解決檢索結(jié)果的優(yōu)化問(wèn)題。檢索結(jié)果優(yōu)化的過(guò)程可抽象成對(duì)目標(biāo)數(shù)據(jù)庫(kù)進(jìn)行知識(shí)挖掘的過(guò)程,即將檢索結(jié)果的文檔集看作目標(biāo)數(shù)據(jù)庫(kù)。多語(yǔ)言信息檢索結(jié)果中符合用戶需求的目標(biāo)往往會(huì)頻繁出現(xiàn),可以利用基于本體的知識(shí)挖掘技術(shù)對(duì)結(jié)果進(jìn)行挖掘,提取其中有價(jià)值的頻繁模式或規(guī)則等,然后利用其對(duì)檢索結(jié)果進(jìn)行過(guò)濾和優(yōu)化。
筆者把基于多語(yǔ)言本體的知識(shí)挖掘作為研究目標(biāo),旨在利用知識(shí)挖掘技術(shù)從多語(yǔ)言信息資源挖掘出隱含的、未知的、有潛在應(yīng)用價(jià)值的細(xì)粒度的語(yǔ)義知識(shí),圍繞著該主題進(jìn)行了相關(guān)研究,具體來(lái)說(shuō)有兩方面:第一,構(gòu)建了一個(gè)實(shí)驗(yàn)型的中英雙語(yǔ)本體。利用Protégé構(gòu)建了一個(gè)實(shí)驗(yàn)型的中英雙語(yǔ)本體,實(shí)現(xiàn)了對(duì)多語(yǔ)言信息資源語(yǔ)義化、關(guān)聯(lián)化的組織與揭示。第二,提出了一個(gè)基于多語(yǔ)言本體的知識(shí)挖掘的框架并對(duì)其進(jìn)行實(shí)現(xiàn)。首先,構(gòu)建了一個(gè)實(shí)驗(yàn)型的中英雙語(yǔ)本體。其次,利用該中英雙語(yǔ)本體對(duì)一段給定的中英對(duì)照文本進(jìn)行語(yǔ)義標(biāo)注,標(biāo)注結(jié)果作為實(shí)例存儲(chǔ)在本體中,并在此基礎(chǔ)上構(gòu)建了該中英雙語(yǔ)本體的規(guī)則庫(kù)。最后,選取Eclipse作為編程環(huán)境與工具,利用Jena本體推理機(jī)解析本體和規(guī)則文件,對(duì)文本中隱藏的知識(shí)和關(guān)系進(jìn)行基于規(guī)則推理的知識(shí)挖掘。本文選取了基于規(guī)則的語(yǔ)義推理技術(shù)作為主要的實(shí)現(xiàn)技術(shù),未來(lái)還可以探究其他傳統(tǒng)的知識(shí)挖掘技術(shù)在多語(yǔ)言語(yǔ)義知識(shí)挖掘中應(yīng)用,具體的內(nèi)容包括基于內(nèi)容的多語(yǔ)言關(guān)聯(lián)挖掘研究、基于語(yǔ)義的概念挖掘研究、關(guān)聯(lián)規(guī)則、決策樹(shù)技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)以及機(jī)器學(xué)習(xí)技術(shù)在基于內(nèi)容的多語(yǔ)言知識(shí)挖掘中的應(yīng)用研究。
參考文獻(xiàn)
[1] Internet World States[EB/OL]. [2014- 10- 02]. http:// www.internetworldstats.com/stats.htm.
[2]歐石燕.基于SOA架構(gòu)的術(shù)語(yǔ)注冊(cè)和服務(wù)系統(tǒng)設(shè)計(jì)與應(yīng)用[J].中國(guó)圖書館學(xué)報(bào),2011,37(5):13- 25.
[3]周倩.基于User- Ontology的圖書館用戶數(shù)據(jù)挖掘研究[J].圖書館雜志,2006(10):58- 63.
[4]章成志.多語(yǔ)言領(lǐng)域本體學(xué)習(xí)研究[M].南京:南京大學(xué)出版社,2012:21- 22.
[5]王進(jìn).基于本體的語(yǔ)義信息檢索研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2006.
理論研究
收稿日期2015- 10- 22
作者簡(jiǎn)介司莉,博士生導(dǎo)師,武漢大學(xué)信息資源研究中心教授,圖書館學(xué)系主任;李鑫,武漢大學(xué)信息管理學(xué)院碩士研究生。