王芳
摘要:針對圖書發(fā)行標準檢索復雜,利用率低等問題,本文在充分分析圖書發(fā)行標準的相關特點的基礎之上,融合現(xiàn)有本體構建技術,借鑒骨架法的更新及文檔化機制,改進了七步法,提出一種基于圖書發(fā)行標準的本體構建方法,并借助本體建模工具Protege實現(xiàn)對圖書發(fā)行標準本體的構建。本文研究實現(xiàn)的圖書發(fā)行標準本體構建方法是圖書發(fā)行標準領域知識圖譜構建的重要研究內(nèi)容,是實現(xiàn)圖書發(fā)行標準可視化檢索的關鍵步驟。
關鍵詞:本體構建;圖書發(fā)行標準;骨架法;七步法
中圖分類號:G250 文獻標識碼:A 文章編號:1007-9416(2019)11-0192-04
0 引言
標準是社會生活中規(guī)范人們生產(chǎn)活動不可缺少的一種重要文獻,對推動行業(yè)的發(fā)展起到了至關重要的作用。目前現(xiàn)行圖書發(fā)行領域標準幾百種,每個標準都包括封皮、前言、范圍、規(guī)范性引用、基本原則等標準主體約束內(nèi)容,一般一個發(fā)行領域標準含有6-8個部分,每一個部分還若干個小節(jié)。因此,人們查閱所需標準信息時需要翻閱量很大,既浪費精力又浪費時間,直接導致圖書發(fā)行標準信息利用效率比較低。本文旨在探討圖書發(fā)行標準本體構建方法,進而實現(xiàn)圖書發(fā)行標準知識圖譜構建,提高圖書發(fā)行標準檢索的效率,促進圖書發(fā)行標準的利用率,推動圖書發(fā)行行業(yè)的規(guī)范化。
本體(Ontology),是共享概念模型的明確的形式化規(guī)范說明[1],是知識圖譜的重要組成部分。本體主要包含了五個基本的建模元素,分別是類或概念、屬性、關系、約束和實例,通過這六個元素對對象進行形式化描述。圖書發(fā)行領域標準最大的特點是規(guī)范,每個標準都是嚴格按照統(tǒng)一的規(guī)范書寫,但規(guī)范不是一承不變的,它是隨著社會的發(fā)展,發(fā)行領域要求的不斷更新而不斷改進的。因此,本文根據(jù)圖書發(fā)行領域標準特點,研究現(xiàn)行較成熟的幾種本體構建方法,最終,借鑒骨架法的更新機制,改進了七步法,提出一種基于圖書發(fā)行標準的本體構建方法。
1 主流本體構建方法分析
本體的構建是個復雜的過程,需要系統(tǒng)化的方法來支持。目前比較主流的本體構建方法有METHONTOLOGY法[2]、五步循環(huán)法[3]、七步法[4]和骨架法[5,6]等。
METHONTOLOGY方法,該方法構建本體的步驟依次是:需求分析、知識獲取、概念化、系統(tǒng)集成、通過OWL等本體表示語言進行形式化表達、本體評價和文檔說明。該方法是專門用于構建化學本體的方法,并支持本體層次構建,但是該方法無法進行更新迭代。
五步循環(huán)法是一種環(huán)狀的結構,循環(huán)中的五步分別是:選取構建本體的資源(數(shù)據(jù)庫、文檔或者其他本體)、概念學習、領域集中、關系學習、對構建好的本體進行評價。
七步法,顧名思義構建本體的方法有七步,所以被稱作為“七步法”。七步分別是:確定本體構建的領域、考查復用現(xiàn)有本體的可能性、列舉本體領域中的概念本體、定義本體中概念的結構層次、定義概念屬性、定義屬性的約束和本體的實例化。七步法忽略了本體構建過程中內(nèi)容的更新。
骨架法,構建本體主要包含了四個步驟:明確本體構建的目的、執(zhí)行本體構建、對構建完成的本體進行評估,最后對本體進行文檔化保存。骨架法通過對本體的評估實現(xiàn)對本體的更新。
圖書發(fā)行領域標準規(guī)范性很強,標準文檔層次明晰,這一特征使其適合七步法構建本體。但標準規(guī)范一旦變化,標準的主體結構就隨之改變,本體必須是可以更新的,也就必須要進行文檔化保存。因此,結合骨架法的更新機制,改進七步法,研究提出了一種適用于圖書發(fā)行領域標準的本體構建方法。
2 圖書發(fā)行標準本體構建方法
圖書發(fā)行標準的本體構建方法包括七步:確定本體構建領域及范圍、獲取并分析領域信息、定義本體概念和概念層次、定義概念的屬性和屬性約束、本體更新評估、本體實例化、文檔化說明。圖書發(fā)行標準本體構建方法的流程如圖1所示。
(1)明確本體構建的領域。標準涉及各個行業(yè),知識面覆蓋多領域,難以統(tǒng)一規(guī)范,構建通用的知識本體較為繁瑣,難以實現(xiàn)。本文研究的本體的構建領域是圖書發(fā)行標準領域。
(2)獲取和分析領域信息。明確了本體的構建領域之后,接下來就要收集現(xiàn)有的圖書發(fā)行領域標準,并對其內(nèi)容和結構進行分析,為本體概念的定義和概念層次的建立打下基礎。
(3)定義本體概念和概念的層次。在收集和分析圖書發(fā)行領域標準后,研究需要盡可能多的抽取圖書發(fā)行領域的核心概念,這些核心概念能較全面地描述領域特征。
(4)定義概念的屬性以及屬性值約束。依靠本體概念還不能完整的描述圖書發(fā)行領域標準,需要根據(jù)概念的特征,定義概念的屬性,來全方面的描述某一概念所具有的信息。
(5)本體更新評估。通過對概念屬性和屬性約束的對比分析,評價圖書發(fā)行領域標準是否已更新,如已更新就需要更改本體的定義,如未更新則進入本體實例化。
(6)本體實例化。定義好概念以及概念的層次結構以后,為了能夠將構建的本體模型應用到實際問題中,需要給本體中的概念添加圖書發(fā)行領域標準實例及其屬性。
(7)文檔化說明。由于領域知識是在不斷更新變化的,因此,圖書發(fā)行標準的本體內(nèi)容不會是一直不變的,通過不斷地獲取新的圖書發(fā)行標準知識,我們還要對原本的本體內(nèi)容進行不斷迭代和更新,因此本體的文檔化存儲是至關重要的。
3 圖書發(fā)行標準本體的具體構建過程
3.1 圖書發(fā)行標準領域信息分析
本文的研究數(shù)據(jù)是基于原中華人民共和國新聞出版總署發(fā)布的圖書發(fā)行標準,包括術語標準、信息分類與編碼標準、單證與標簽標準、元數(shù)據(jù)與信息交換標準、作業(yè)與服務標準、管理標準共6類[7]。共收集各類標準百余項,進行分析及特征歸納。
每一個標準文檔都是按照規(guī)定的規(guī)范書寫,一般包含三部分:封面、前言、主體。封面包括標準的分類號、中英文名稱、發(fā)布時間和實施時間等九項內(nèi)容;前言包括歸口單位、起草單位、起草人、上一級標準;主體部分包括范圍、規(guī)范性引用文件、術語和定義,及其他具體標準規(guī)范的內(nèi)容。比如:《出版物發(fā)行商務通用流程規(guī)范》的主體包括:范圍、規(guī)范性引用文件、術語和定義、發(fā)行商務通用流程、商務談判、采購、供貨、對賬等十一項,主體中的每一項又包括若干小項,如:對賬又包括對賬原則和對賬單要素,而對賬原則中還包括兩小節(jié)內(nèi)容。如表1所示標準的基本結構。經(jīng)研究分析可見,圖書發(fā)行標準領域規(guī)范性強,層次明確。
3.2 定義本體概念和概念的層次
通過對獲取的圖書發(fā)行標準信息進行分析和總結,得到如表1所示的標準的基本結構。根據(jù)標準的基本結構提取出核心概念,圖書發(fā)行標準部分核心概念如表2所示。
同時,根據(jù)標準的基本結構定義多層本體架構,一級子層節(jié)點是封面、前言和正文;二級子層節(jié)點分別為一級子層節(jié)點的包括項,依次類推分層。
3.3 定義概念的屬性及屬性值的約束
依靠本體概念還不能完整的描述某一領域,需要根據(jù)概念的組成信息等,定義概念的屬性,來全方面的描述某一概念所具有的信息。屬性值的約束,可以使概念的表述具有一致性和規(guī)范性,避免構建本體的時候,產(chǎn)生太多雜亂的知識。本體中屬性可以分為兩類,分別是對象屬性和數(shù)據(jù)屬性。
對象屬性用于描述概念之間的關系,例如“引用”(Reference)這個屬性,用于關聯(lián)“圖書發(fā)行標準”概念和另外一個“行業(yè)標準”概念,其描述的是一個圖書發(fā)行標準和另外一個行業(yè)標準之間的關系,如圖2所示。通過研究圖書發(fā)行標準之間信息,得到兩個發(fā)行標準之間的關系有:父標準、子級標準、引用關系等。
數(shù)據(jù)屬性指的是概念的“內(nèi)在屬性”,表示概念本身具有的特質,如圖3所示。
圖書發(fā)行標準本體中的部分屬性值和對應屬性值約束如表3所示。
3.4 本體評估及實例化
通過對本體概念和概念層次的比對分析,評估本體是否已更新,如已更新就需要對本體定義進行更新,部分更新可復用原有的屬性和屬性約束,全部更新的需要重新定義。圖書發(fā)行標準領域一般是在原標準的基礎上改進,因此多為部分更新,可以復用原有屬性和屬性值約束。
本體實例化操作就是對于本體中的每一個概念,創(chuàng)建相應的實例,然后填寫實例對應的屬性?;趫D書現(xiàn)有的發(fā)行標準,本文進行了圖書發(fā)行標準本體的實例化操作。如:CY/T140-2015(出版物發(fā)行商務通用流程規(guī)范)是圖書發(fā)行標準的一個實例,其是一個行業(yè)標準,它的父級標準是GB/T1.1-2009(標準化工作導則),其父級標準的子標準還有CY/T52-2009(出版物發(fā)貨單)和CY/T39-2006(圖書流通信息規(guī)則)。如圖4所示。
3.5 文檔化說明
圖書發(fā)行標準的本體內(nèi)容不會一直不變的,隨著行業(yè)發(fā)展的需要,圖書發(fā)行標準的修訂也一直在進行,通過不斷地獲取新的圖書發(fā)行標準知識,我們還要對原本的本體內(nèi)容進行不斷迭代和更新。因此,需要對構建好的本體進行文檔化存儲,以便該本體內(nèi)容在以后的工作中能夠繼續(xù)使用。
本體描述語言OWL[8]能夠實現(xiàn)圖書發(fā)行標準領域本體模型的形式化表示,為后續(xù)數(shù)據(jù)實例化、本體評估等提供標準、統(tǒng)一的語言規(guī)范。圖書發(fā)行標準本體OWL文件部分內(nèi)容如下:
(1)概念的存儲:
4 總結與展望
本文通過分析圖書發(fā)行標準的特征,在研究現(xiàn)行主流本體構建方法的基礎上,借鑒骨架法的本體評估和文檔化機制,改進七步法,提出了圖書發(fā)行標準領域的本體構建方法,明確了本體概念及層次的定義,說明了屬性和屬性值的約束,采用本體建模工具Protege[9]實現(xiàn)圖書發(fā)行標準本體的構建。圖書發(fā)行標準領域本體構建方法是該領域知識圖譜構建的重要部分,該方法的提出與實現(xiàn)促進了圖書發(fā)行標準的利用率,將有效推動該行業(yè)的規(guī)范化。此外,各標準領域普遍存在著較強的規(guī)范性和明確的層次關系,因此,該方法可以推廣應用到其他標準領域的本體構建,實現(xiàn)標準領域的知識圖譜構建,為標準領域可視化檢索的實現(xiàn)提供了新的研究思路。但由于Protege是一種手動構建本體的工具,當本體出現(xiàn)更新時,迭代更新的工作量比較巨大,因此,將進一步研究圖書發(fā)行標準本體自動化構建。
參考文獻
[1] Studer Rudi,V.Richard Benjamins,Dieter Fensel.Knowledge engineering: principles andmethods[J].Data&knowledge engineering,1998,25(1):161-197.
[2] 余凡.領域本體構建方法及實證研究[M].武漢:武漢大學出版社,2015.
[3] Seul-Ki Lee,Ka-Ram Kim, Jung-Ho Yu. BIM and ontology-based approach for building cost estimation[J].Automation in Construction,2014,41:96-105.
[4] 馬旭明.本體構建方法與應用[J].信息與電腦,2018,(05):33-35+38.
[5] 岳麗欣,劉文云.國內(nèi)外本體構建方法的比較研究[J].情報理論與實踐,2016(08):119-125.
[6] Gregor D,Toral S,Ariza T,et al.A methodology for structured ontology construction applied to intelligent transportation systems[J].Computer Standards &Interfaces,2016,47:108-119.
[7] CV/Z 13-2011,出版物發(fā)行標準體系表[S].
[8] Lohmann,Steffen,Link,et al.Web VOWL:Web-based visualization of ontologies[J].International Conference on Knowledge Engineering and Knowledge Management. Sprnger International Publishing,2014:154-158.
[9] 李景.主要本體構建工具比較研究[J].情報理論與實踐,2014,29(2):109-111.