尹作重,李江華,杜 峻,張 偉,任麗娜
(1.北京漫游谷信息技術有限公司,北京 100101;2.中國水利水電科學研究院,北京 100038;3.北京機械工業(yè)自動化研究所,北京 100120)
在科技文獻中往往存在著大量的專業(yè)知識,而且知識的形式也多種多樣,知識的來源渠道也比較復雜,用來表示知識的概念和術語也非常多樣化,這導致了科技文獻的信息共享存在著重重困難,在科技文獻共享方面必須采用一種明確的形式化的規(guī)范描述。在知識表示和知識共享方面,本體能從語義和知識兩個層面上對科技文獻的信息進行描述,能夠比較精確而且規(guī)范的描述某個領域知識的概念以及概念間的相互關系,而且這些概念以及概念的關系是在領域內(nèi)得到大家認可的概念集,同時本體描述語言是符合W3C標準的建模語言[1],所以由本體構建的模型可保證領域知識的共享和可復用性,由于本體具有以上優(yōu)勢,本體技術在知識表示、知識共享和語義檢索方面的研究成為熱點問題,比如在國內(nèi)外本體技術在醫(yī)學行業(yè)、農(nóng)業(yè)花卉、化工行業(yè)、生物等領域的研究和應用有了一定的進展,特別是近些年來將本體技術引入到科技文獻檢索中的研究得到了越來越多的研究和探索,所以對科技文獻本體模型設計和實現(xiàn)的研究對科技文獻共享和檢索方面具有重要的支撐作用。
本體最早是做為一個哲學的概念被提出來的,后來隨著計算機技術和人工智能技術的不斷發(fā)展,本體在計算機和人工智能領域被賦予了越來越多的新內(nèi)涵,隨著時間的發(fā)展,本體的內(nèi)涵不斷的完善和豐富,本體的構建方法論、描述工具以及構建工具都得到了進一步的發(fā)展。本體的應用在不同領域以及不同應用場景中的應用各不相同,所以并沒有形成統(tǒng)一的本體的構建方法論、本體模型的描述語言以及構建工具。
1)本體的定義
各個領域的專家和學者根據(jù)自己的領域知識和理解給出了各自的本體定義,1993年Gruber提出“本體是對概念模型的明確規(guī)范的說明[2]”,1998年Studer提出“本體共享概念模型的明確的形式化規(guī)范說明[3]”,這兩個對本體的定義對本體的發(fā)展比較具有影響力,國際W3C組織采納了Studer對本體所做的定義。
2)本體構建方法
國內(nèi)外的大學、科研院所以及各個領域的專家和學者對本體的構建方法進行了研究,但是在本體的實際構建過程中,大多還是采用手工方式,目前在構建本體過程中并沒有統(tǒng)一的建模方法,應用比較廣泛的本體構建方法主要包括骨架法、METHONTOLOGY法、IDEF5法、TOVE法以及七步法。
如表1所示,從是否有工程管理、是否需要開發(fā)前期、是否有需求分析、是否有設計、是否有執(zhí)行、是否有開發(fā)后期等維度對常用的本體構建方法進行對比分析,每一種本體構建方法都有自己的優(yōu)勢和劣勢,都有自己適合的領域,經(jīng)過比較分析,在本文中構建科技文獻本體模型的過程中綜合了上述五種方法的優(yōu)勢,并且較多的借鑒了七步法中的設計思路。
表1 本體構建方法分析
3)本體模型描述語言
本體是一種知識表示和知識共享的方法,本體的描述語言的特定必須簡單、明確,對知識的表示和描述沒有歧義,由人工智能領域發(fā)展而來的本體描述語言有CycL、Loom、OCML以及Ontolingua語言等,后來隨著計算機技術的高速發(fā)展,特別是互聯(lián)網(wǎng)技術的快速發(fā)展,基于語義Web的本體描述語言應運而生,其中RDF、OIL和OWL語言應用比較廣泛,并且被W3C國際組織作為本體描述語言標準向本體研發(fā)人員進行推薦。
圖1 本體描述語言分析
如圖1所示,在推理能力與語法表達及互操作兩個維度來說,現(xiàn)有的本體描述語言有各自的優(yōu)缺點,RDF的語法表示存在著弱勢,對WEB本體支持較弱,而DAML+OIL和OWLDL在語法表示方面可以支持比較復雜的本體需求,但OWLDL在推理方面難點和復雜程度比較高,OWLDL在專業(yè)領域的復雜概念和關系的本體構建應用較多。OWL語言被W3C推薦為本體描述語言的標準,比較適合WEB應用,同時使用OWL語言建造和使用本體的難度都比較小,通過以上的比較,在本文中選擇OWL作為水利水電科技文獻本體的描述語言。
4)本體模型構建工具
在本體的構建、編輯、維護過程中,往往采用一些商用的或者免費的軟件工具,這些工具往往是一些大學或者企業(yè)率先研發(fā)出來的,這些工具主要包括以下兩大類 :第一類本體構建工具主要包括Ontolingua工具、WebOnto工具以及OntoSaurus工具等;第二類本體構建工具包括OilEd工具、Protégé工具和OntoEdit工具等。上述的本體構建工具不只支持一種描述語言,往往可以對多種本體描述語言格式進行支持,比如XML,RDF和DAML+OIL等。本體構建工具各有優(yōu)缺點,適用于不同領域的本體開發(fā)工作,這些本體構建工具還在不斷的發(fā)展和完善之中。
Protégé軟件是由斯坦福大學醫(yī)學院開發(fā)的構建本體模型的一個重要的軟件工具,該軟件是基于Java語言開發(fā)的本體集成開發(fā)環(huán)境,屬于開放源代碼軟件,用戶可以在斯坦福大學Protégé官方社區(qū)下載Protégé工具的最新源代碼以及各個歷史版本,高級用戶甚至可以根據(jù)自己的實際需求來修改Protégé工具的源代碼,并且社區(qū)還為這些用戶提供技術支持,在本文在構建科技文獻本體模型的研究過程中,將采用Protégé4.3作為本體模型的建模工具,設計和構建科技文獻的領域本體模型。
圖2 七步法的主要步驟
本體模型的設計主要步驟如圖2所示,七步法的主要步驟為“本體專業(yè)領域的確定”→“有無現(xiàn)有本體可以重用”→“凝練領域的重要術語”→“類以及結構的定義”→“本體中類的屬性定義”→“屬性側面的定義”→“實例的創(chuàng)建”。在科技文獻本體模型設計過程中,下面按照七步法的指導,對本體模型的設計過程進行詳細描述。
1)專業(yè)領域的確定
本體描述的概念以及概念之間的層次關系都是有一定的領域范圍的,在多個領域通用的本體模型是不存在的,所以應用領域的不同,本體模型也各不相同。構建科技文獻領域本體所涉及的范圍就是確定科技文獻的概念、術語、概念之間的關系、概念的相關屬性之間關系以及屬性以及屬性之間的關系等內(nèi)容。在構建領域內(nèi)本體的過程中,通常采用參考該領域內(nèi)科技文獻分類體系的方式。由于分類方法使用了公認和規(guī)范的術語,既可以參考領域內(nèi)的分類方法中的術語和詞匯來形成領域本體的概念和術語,也可以參考領域內(nèi)分類方法的層次結構來構建本體類的關系,可以縮短構建領域內(nèi)本體的工作時間,同時使得本體的可擴展性和可維護性大大提高。
2)有無現(xiàn)有本體重用的分析
在構建本體模型之前,需要進行大量的調研工作,確定在該領域內(nèi)是否存在可供復用的領域本體模型,若該領域內(nèi)有可復用的本體,則可以從本體的基礎上,根據(jù)實際需求,在領域內(nèi)專家的指導下,對本體模型進行補充和完善。在本文中則從零開始,在七步法的指導下一步一步的構建科技文獻本體模型。
3)凝練領域的重要術語
科技文獻本身包括的信息主要分為內(nèi)容描述、知識產(chǎn)權相關、學科分類、外部屬性描述和關聯(lián)屬性描述等。文件本身信息主要包含了資料名稱信息、學科分類信息、語言類型信息信息、資料類型信息、數(shù)據(jù)類型信息、等信息屬性。文獻的分類信息主要來自于該領域內(nèi)的分類體系。由于文獻間存在著同義詞、相關性,還有部分和整體的關系以及參照和被參照的關系,所以還要需要確定文獻之間的重要關系。總起來說領域的重要術語包含了內(nèi)容描述、知識產(chǎn)權相關、學科分類、外部屬性描述和關聯(lián)屬性描述等信息。
4)類以及結構的設計
通過前面的步驟得到了最原始的術語集合,通過分析和細化這些術語,選擇一部分與本體模型關系比較密切的術語作為概念,該概念代表著一類具有共性的實例對象,并且這些概念作為本體模型中層次結構中結點而存在,在本體理論中,這些概念稱為類,類既是本體模型中最主要的知識單元,同時也是基本組織單元,跟計算機領域內(nèi)的面向對象編程語言中的類有個相似的地方就是本體理論中的類也具有繼承性,越高層的類表示的概念越抽象,子類繼承了父類的屬性,表示的概念比父類具體一些。
圖3 科技文獻類的設計
如圖3所示,科技文獻資源的本體描述框架共分為5個大類,共有20多個屬性,這四個大類為:內(nèi)容描述類、知識產(chǎn)權相關類、學科分類、外部屬性描述類和關聯(lián)屬性描述類。
內(nèi)容描述類主要包括文獻標示、文獻名稱、文獻標題、學科分類、項目來源、文獻語種、關鍵字、文獻摘要、文獻內(nèi)容等屬性。
知識產(chǎn)權相關類主要包括文獻作者、出版社等屬性。
學科分類是描述科技文獻模型的重要分類,是科技文獻檢索的基礎。
外部屬性描述類主要包括文件大小、歸檔日期、文獻類型、文獻頁數(shù)、文件大小、完成日期、資料格式等屬性。
關聯(lián)屬性描述類主要包括了是…的一部分、包含…的部分、參照關系、被參照關系等屬性,關聯(lián)屬性描述類主要描述了科技文獻之間的關聯(lián)關系,是對象型屬性。
學科分類是科技文獻資源描述框架的核心類,主要描述了科技文獻的上位類詞、下位類詞和同義類詞的關系。學科分類通過subClassOf(是子類)和equivalentClass(是同義類)屬性將的學科分類聯(lián)系起來。
5)本體中類的屬性設計
通過上述步驟建立了科技文獻領域的整體架構,該架構描述了本體的類以及類的層次關系,但就有類和類的層次關系還遠遠不能提供科技文獻本體模型所表達的知識信息,需要在本體模型類和類的層次結構的框架基礎上進一步描述這些類的內(nèi)部結構,這些類的結構數(shù)據(jù)就是類的屬性,在本體構建過程中,類的屬性通??梢苑譃橐韵聝煞N:數(shù)據(jù)類型屬性和對象屬性。
如表2所示,科技文獻本體模型的類通過類的屬性建立了類的實例之間的關聯(lián),使科技文獻本體模型中的“科技文獻”類的實例之間的聯(lián)系構成了網(wǎng)狀結構,在“科技文獻”類的眾多屬性中,“學科分類”屬性是最重要的一個,該屬性指定科技文獻所屬的學科分類,這個屬性的取值必須是“學科分類”的實例,這樣就建立起來科技文獻信息和學科分類之間的關系,因此“學科分類”屬性是連接文獻信息和學科分類的重要聯(lián)系方式。
6)屬性特性的設計
屬性PROPERTY的特性有翻轉性、傳遞性、對稱性、相同性、函數(shù)性等等,可以根據(jù)實際情況進一步設置。屬性的特性名稱、描述和實例如下:
翻轉特性:一個屬性可以被聲明為另一個屬性的翻轉屬性,參照屬性是被參照屬性的翻轉屬性。例如文獻A的參照屬性是文獻B,則可以推出文獻B的被參照屬性是文獻A。
傳遞特性:屬性可以被聲明為傳遞的,比如綜合類和綜合A類的名字不同,但擁有相同的實例。
同義特性:兩個屬性可以被聲明為相同的,比如綜合類和綜合A類的名字不同,但擁有相同的實例。
文獻信息類的屬性特性根據(jù)技文獻本身的特點,比如在科技文獻本體模型的設計中,文獻信息類的對象屬性有同義詞、相關文獻、包含…的部分、是…的一部分、被參照、參照等特性。
7)實例的創(chuàng)建
通過上述六個步驟創(chuàng)建了科技文獻本體模型的類、類的層次關系以及類的屬性之后,就可以定義某個類的實例。類的實例之間關聯(lián)關系可以通過屬性來進行確定,科技文獻本體模型的設計過程已經(jīng)完成,創(chuàng)建科技文獻本體實例的過程也就是對科技文獻實例進行語義標注的過程,每篇技文獻對應一個實例。
本文對本體構建方法、描述語言等關鍵技術進行研究,按照本體構建方法的指導下,結合領域專家的建議,建立出科技文獻領域本體模型,并進一步把科技文獻進行標注,完成科技文獻本體庫的構建工作。本體模型的構建過程是一個反復迭代、不斷發(fā)展完善的過程,科技文獻本體在實際工作過程中,可以在現(xiàn)有的工作基礎上進一步擴展和完善科技文獻領域本體。
[1] 趙偉,等.基于本體的語義網(wǎng)檢索模型及關鍵技術研究[J].計算機工程與設計.2011,(01):145-148.
[2] Gruber T R . A Translation Approach to Portable Ontology Specif i cations[J].Knowledge Acquisition. 1993, 5: 199-220.
[3] Studer R, Benjamins V R and Fensel D.Knowledge Engineering,Principles and Methods[J].Data and Knowledge Engineering. 1998,25(1-2):161-197.