陳瓅
摘要:本體是一種知識(shí)重用、知識(shí)共享和建模的重要工具。構(gòu)建本體的方法很多,本文提出了一種自頂向下的領(lǐng)域本體構(gòu)建方法,可從一定程度上減少概念冗余度,并按此法構(gòu)建了一個(gè)文學(xué)領(lǐng)域本體。
關(guān)鍵詞:本體;本體庫(kù);本體的構(gòu)建方法
中圖分類號(hào):TP302.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)27-0181-02
近幾年,網(wǎng)絡(luò)文化呈快速發(fā)展態(tài)勢(shì),網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)動(dòng)漫、網(wǎng)絡(luò)音樂(lè)、網(wǎng)絡(luò)影視、網(wǎng)絡(luò)文學(xué)、網(wǎng)絡(luò)廣播等迅速崛起,網(wǎng)絡(luò)文化繁榮發(fā)展。隨著網(wǎng)絡(luò)文化的迅猛發(fā)展,在線文化內(nèi)容日益龐大,如何在這海量的數(shù)據(jù)中識(shí)別出特定的內(nèi)容也就顯得較為困難。本體是一種知識(shí)重用、知識(shí)共享和建模的重要工具,領(lǐng)域本體庫(kù)對(duì)于在線網(wǎng)絡(luò)文化監(jiān)控系統(tǒng)是不可或缺的,通過(guò)構(gòu)建網(wǎng)絡(luò)內(nèi)容領(lǐng)域本體庫(kù)可解決網(wǎng)絡(luò)文化監(jiān)控系統(tǒng)中內(nèi)容識(shí)別的問(wèn)題。
1本體
本體最早起源于哲學(xué),其所研究的是世界萬(wàn)物的本源,即所有事物的客觀,真實(shí)的存在[1]。
1.1本體的定義
在計(jì)算機(jī)領(lǐng)域中認(rèn)為“本體是共享概念模型明確的形式化規(guī)范說(shuō)明”。 本體根據(jù)不同的屬性,可以將其進(jìn)行不同的分類,分類方法也很多。根據(jù)領(lǐng)域依賴程度,可分為頂級(jí)、領(lǐng)域、人物、應(yīng)用四類。
1.2本體的組成元素
本體的組成元素可歸納為以下[2]:
1)類或概念:指任何事務(wù),如工作描述、功能、策略和推理過(guò)程等;
2)實(shí)例:各種元素;
3)關(guān)系:領(lǐng)域中概念之間的作用;
4)函數(shù):一類特殊的關(guān)系,即用前n-1個(gè)元素唯一確定第n個(gè)元素;
5)公理:永真的描述。
1.3 領(lǐng)域本體的構(gòu)建方法
Stanford大學(xué)的Noy和Hafner分析了早期著名的本體設(shè)計(jì)項(xiàng)目,并結(jié)合其開(kāi)發(fā)和使用Progege 2000、Ontolingua等本體編輯環(huán)境的經(jīng)驗(yàn),給出了本體構(gòu)建的七步法[3]:1)確定本體的領(lǐng)域和范圍。即明確一些基本問(wèn)題,以此確定本體的領(lǐng)域或范圍;2)考慮對(duì)現(xiàn)有本體的復(fù)用。如果是對(duì)特定的領(lǐng)域進(jìn)行細(xì)化或擴(kuò)展,那么系統(tǒng)需要與其他的特定本體知識(shí)庫(kù)或受控詞匯的應(yīng)用交互,則可對(duì)現(xiàn)有本體進(jìn)行復(fù)用。3)確定本體的重要術(shù)語(yǔ);4)定義類和類的繼承;5)定義屬性和關(guān)系;6)定義屬性的限制;7)生成實(shí)例。
2 文學(xué)領(lǐng)域本體的構(gòu)建技術(shù)
2.1創(chuàng)建領(lǐng)域術(shù)語(yǔ)集
根據(jù)上述七步法,要構(gòu)建領(lǐng)域本體庫(kù),首先要構(gòu)建領(lǐng)域術(shù)語(yǔ)集,由于這方面內(nèi)容和范圍紛繁復(fù)雜,本文根據(jù)中國(guó)的“四分法”將文學(xué)文劃為詩(shī)歌、小說(shuō)、散文、戲劇四大類,本論文將根據(jù)這四方面建立本體庫(kù)。
2.2文學(xué)領(lǐng)域本體庫(kù)的構(gòu)造和實(shí)現(xiàn)
2.2.1建立類
本文中采用自頂向下模式構(gòu)建文學(xué)本體庫(kù),頂層本體為文學(xué),第二層為詩(shī)歌、小說(shuō)、散文、戲劇,第三層再逐步求精、進(jìn)一步細(xì)化,在構(gòu)建本體的時(shí)候,還需充分考慮本體之間的聯(lián)系。因此,本文中的類圖也按此分層,最終構(gòu)造出文學(xué)領(lǐng)域本體庫(kù)。 這里以“小說(shuō)”本體為例,給出部分類層次圖,如圖1。
2.2.2建立類的屬性
根據(jù)以上四個(gè)本體構(gòu)建類的屬性,這里以章回小說(shuō)為例,列出部分屬性如表1。
2.3添加本體實(shí)例
在設(shè)計(jì)好類和屬性之后,就可以添加各種類的實(shí)例了。創(chuàng)建類的實(shí)例類似于向數(shù)據(jù)庫(kù)中的表錄入數(shù)據(jù),在屬性圖中已給出屬性名及其取值范圍。一個(gè)完整的本體由類、屬性和實(shí)例組成。例如:小說(shuō)本體中,章回類的實(shí)例為四大名著等;演義小說(shuō)的實(shí)例為《隋唐演義》、《楊家將》、《東周列國(guó)志》、《明史演義》等。
2.4本體庫(kù)的存儲(chǔ)方式
目前對(duì)于本體的存儲(chǔ)方式主要有三種:純文本存儲(chǔ)方式、數(shù)據(jù)庫(kù)存儲(chǔ)方式以及專門(mén)管理工具方式。文本方式適合于數(shù)據(jù)量較少的小型數(shù)據(jù)庫(kù),而專門(mén)管理工具通用性及擴(kuò)展性差??紤]到本項(xiàng)目中數(shù)據(jù)規(guī)模較大,檢索需求較頻繁,故采用MySql數(shù)據(jù)庫(kù)存儲(chǔ)本體。
3 結(jié)束語(yǔ)
本文中在構(gòu)建本體類的時(shí),借用了軟件開(kāi)發(fā)中自頂向下的思想。首先確立“文學(xué)”這一頂層本體,然后分化為“詩(shī)歌”、“小說(shuō)”、“散文”、“戲劇”本體,再據(jù)此進(jìn)一步細(xì)化。從而,可從一定程度上降低概念的冗余度。當(dāng)然,采用此方法建立的本體庫(kù)在進(jìn)行實(shí)例添加時(shí),會(huì)存在一些二義性,因?yàn)橛行┪膶W(xué)的劃分范圍存在交叉部分。
參考文獻(xiàn):
[1] 李善平.本體論研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1041-1052.
[2] GRUBER T R.Towards principles for the design of ontologies used for knowledge sharing[J]. International Jouranl of Human and Computer Studies ,1995(43):907-928.
[3] Noy N F,McGuinness D L.Ontology development 101:a guide to creating your first ontology [R].USA:Standford University. 2001.SMI Technical Report.SMI-2001-0880.