• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種文本分類模式下的本體構(gòu)建方法

    2015-01-20 11:43:09赫宜
    電腦知識(shí)與技術(shù) 2014年36期

    摘要:本體在知識(shí)管理和語義網(wǎng)中扮演著越來越重要的角色,但本體的構(gòu)建是一項(xiàng)費(fèi)力又費(fèi)時(shí)的工作,為此本文提出一種基于文本分類模式下的本體自動(dòng)構(gòu)建方法。該方法以形式化概念理論分析作為基礎(chǔ),計(jì)算出概念之間的相關(guān)度,以概念間的相關(guān)度和它們?cè)谖臋n中出現(xiàn)的頻率矩陣構(gòu)建本體概念圖。實(shí)驗(yàn)結(jié)果表明,在文檔分類模式下自動(dòng)構(gòu)建本體支持目前的信息分類系統(tǒng),形成的本體有利于更好地共享和重用,促進(jìn)語義Web的本體的升級(jí)。

    關(guān)鍵詞:語義網(wǎng);本體構(gòu)建;信息分類;形式化概念分析

    中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8750-04

    根據(jù)Berners-Lee的觀點(diǎn),語義網(wǎng)并非是全新的Web,而是對(duì)現(xiàn)有的Web進(jìn)行擴(kuò)展。簡(jiǎn)而言之,語義網(wǎng)是一個(gè)整合了眾多元數(shù)據(jù)的網(wǎng)絡(luò),信息的含義在語義網(wǎng)環(huán)境下能夠很好地加以定義[1],并使得計(jì)算機(jī)能夠自動(dòng)檢索、處理、共享、重用和交換信息。

    作為語義網(wǎng)基礎(chǔ)的本體(Ontology),是通過對(duì)概念、術(shù)語及其相互關(guān)系的規(guī)范化描述,勾畫出某一領(lǐng)域的基本知識(shí)體系,它可以很好地解決知識(shí)表示、知識(shí)組織以及知識(shí)共享等問題[2]。語義網(wǎng)的快速發(fā)展和成功很大程度上依賴于本體如何快速高效的建立,而本體構(gòu)建一般是手工建立,不僅費(fèi)時(shí)費(fèi)力而且還需要領(lǐng)域?qū)<业膮⑴c。因此,本體的自動(dòng)化構(gòu)建成為科研工作者越來越關(guān)心的熱點(diǎn)研究領(lǐng)域。該文提出一種基于文本分類框架[3]下本體的自動(dòng)構(gòu)建方法。

    1 常用的本體構(gòu)建方法

    本體的構(gòu)建是本體應(yīng)用的基礎(chǔ),是實(shí)現(xiàn)信息交換、共享,解決語義沖突的基礎(chǔ),通過構(gòu)建統(tǒng)一的術(shù)語和概念,實(shí)現(xiàn)知識(shí)共享,為異構(gòu)系統(tǒng)間的通訊提供交流平臺(tái),便于他們之間的互操作和集成。雖然許多領(lǐng)域本體已經(jīng)存在,但是大部分領(lǐng)域本體都是為特定的領(lǐng)域和目的構(gòu)建的,統(tǒng)一通用的本體構(gòu)建的方法還沒有形成,而其他領(lǐng)域比如語言學(xué)、信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和軟件工程等方面的研究和相關(guān)技術(shù)可為本體構(gòu)建提供借鑒。Maedche等人[4]提出本體構(gòu)建可分為四部分,分別為:抽取、修剪、精煉、導(dǎo)入或重用。該文主要以抽取方法為基礎(chǔ),相應(yīng)的本體的構(gòu)建方法分別是:基于字典、文本聚類、關(guān)聯(lián)規(guī)則、知識(shí)庫的學(xué)習(xí)方法和形式概念分析。

    1.1 基于詞典的本體學(xué)習(xí)法

    基于詞典的本體學(xué)習(xí)法根據(jù)一些現(xiàn)有的詞匯在詞典中定義的同義詞、近義詞、反義詞、根詞、詞源等知識(shí)來獲取概念間的關(guān)系[5-7 ]。基于詞典的本體構(gòu)建方法有它自己的局限性,在與另外一種方法配對(duì)才能發(fā)揮它的有效作用,為此它不能獨(dú)立使用。

    1.2 基于文本聚類的本體學(xué)習(xí)法

    聚類的含義是使用屬于同一類別的個(gè)體之間距離盡可能的小,而不同類別的個(gè)體之間的距離盡可能的大。采用文本聚類方法來計(jì)算概念層次,根據(jù)其同義詞分組,不同的搜索策略指導(dǎo)聚集過程。每一聚集由某一特定的使用頻率高的詞或術(shù)語表示,由此重復(fù)該步驟能夠獲取術(shù)語的層次體系。該方法目前仍存在一些問題,影響其可用性[8]。

    1.3 基于關(guān)聯(lián)規(guī)則的本體學(xué)習(xí)法

    基于關(guān)聯(lián)規(guī)則的本體學(xué)習(xí)法利用概念間的非分類關(guān)系來構(gòu)建本體?;舅枷胧侨绻麅蓚€(gè)領(lǐng)域概念經(jīng)常出現(xiàn)在同一個(gè)語法單元,即出現(xiàn)在同一句子、同一段落或同一文檔中,則這兩個(gè)概念之間必定存在著一定關(guān)系。而它們之間聯(lián)系的緊密程度和它們所在的語法單元有關(guān)。兩個(gè)概念在一個(gè)語法單元內(nèi),則語義聚合度就高,那么這兩個(gè)概念之間的緊密程度越高[9]。Maedche等人[4]于2000年最先提出并評(píng)價(jià)了將關(guān)聯(lián)規(guī)則并應(yīng)用于本體學(xué)習(xí)的方法,于2001年又提出使用已有的概念層次作為背景知識(shí),然后利用關(guān)聯(lián)規(guī)則來發(fā)現(xiàn)概念間的非分類關(guān)系的方法[10]。

    1.4 基于知識(shí)庫的本體學(xué)習(xí)法

    基于知識(shí)庫的本體學(xué)習(xí)法,首先需要在相關(guān)領(lǐng)域建立知識(shí)庫,知識(shí)庫必須包含基礎(chǔ)的規(guī)則和簡(jiǎn)單的實(shí)例,當(dāng)用戶輸入關(guān)鍵詞檢索時(shí),相關(guān)的實(shí)例以對(duì)應(yīng)的方式顯示出來。當(dāng)所需的規(guī)則被挑選出來時(shí),知識(shí)庫里的規(guī)則用來建立相關(guān)本體。這種方法不同于上面提到的三種方法,知識(shí)庫里的規(guī)則可以用來作為本體的一種表現(xiàn)形式,知識(shí)庫里的規(guī)則往往被用來組合相關(guān)的本體[11]。

    1.5 形式概念分析法

    形式概念分析(Formal concept analysis, FCA) 是運(yùn)用形式概念分析的方法,去發(fā)現(xiàn)、構(gòu)造和展示由屬性和對(duì)象構(gòu)成的概念及其之間的關(guān)系,它最具特色的性質(zhì)就是能從任何給出的數(shù)據(jù)集中產(chǎn)生可視化圖形,因此FCA在計(jì)算機(jī)科學(xué)中得到廣泛的應(yīng)用[5]。目前,F(xiàn)CA的方法,已經(jīng)大量運(yùn)用在概念聚類、數(shù)據(jù)分析、信息檢索、知識(shí)發(fā)現(xiàn)、本體工程的應(yīng)用之中。

    2 基于信息分類模式下本體的構(gòu)建方法

    本文的目的是利用本體學(xué)習(xí)方法構(gòu)建文本概念圖,以實(shí)現(xiàn)的高效的信息檢索,信息檢索的模式如圖1所示。這樣的檢索系統(tǒng)可分為三個(gè)主要的子系統(tǒng)和相關(guān)模塊。這些子系統(tǒng)說明如下:

    圖1 系統(tǒng)結(jié)構(gòu)圖

    2.1術(shù)語解析子系統(tǒng)

    為了滿足后面處理的要求,輸入各種數(shù)據(jù)文本時(shí)必須經(jīng)過不同的方法進(jìn)行處理。在此階段中有的5個(gè)步驟分別是:

    1)消除文檔格式:各種數(shù)據(jù)文檔有不同的格式,因此,第一步是忽略所有不相關(guān)信息,如:排版格式,注釋和其它的附加信息。這個(gè)階段的輸出的是字符數(shù)據(jù)流。

    2)詞法分析:詞法分析是把字符數(shù)據(jù)流轉(zhuǎn)化成術(shù)語數(shù)據(jù)流[6]。英語詞法分析利用空格或標(biāo)點(diǎn)標(biāo)記把數(shù)據(jù)流轉(zhuǎn)化成一個(gè)術(shù)語集。

    3)消除停止符:在詞法分析的第二個(gè)階段,我們注意到最頻繁使用的術(shù)語通常不具有區(qū)分和識(shí)別的屬性。事實(shí)上,一個(gè)文檔中,超過80%的術(shù)語是無意義的,并經(jīng)常在分析過程過濾掉。這兒提及的術(shù)語通常是指:冠詞、介詞、連詞和其他不構(gòu)成文檔主題思想或主要概念的詞匯,例如:a, as, and, etc。消除這些術(shù)語不僅節(jié)約存儲(chǔ)空間而且降低計(jì)算的復(fù)雜性。

    4)消除衍生詞:由于不同的作者有不同的寫作風(fēng)格,在不同的語境中特定術(shù)語有細(xì)微的變化是不可避免的。基本詞匯通過復(fù)數(shù)、動(dòng)名詞和時(shí)態(tài)變化等形式出現(xiàn),利用詞匯的標(biāo)準(zhǔn)形式或詞根代替它的變形格式。例如“connect”這個(gè)詞的變化形式有connecting,connection,connections等。利用詞根代替它的變形可以節(jié)約存儲(chǔ)空間,減少計(jì)算的復(fù)雜性。

    5) 近義詞:不同的詞匯具有相同的意思,因此近義詞作為多余的詞匯被忽略了[6]。

    2.2本體構(gòu)建子系統(tǒng)

    由于文檔內(nèi)容已經(jīng)轉(zhuǎn)變成一個(gè)術(shù)語集合,本體構(gòu)建子系統(tǒng)利用本體構(gòu)建技術(shù)生成文檔概念圖。

    2.2.1建立概念關(guān)系集和術(shù)語之間的層次結(jié)構(gòu)

    在這里,我們利用概念分析的思想[7,8]建立概念的集合和層次關(guān)系結(jié)構(gòu)。一般而言,概念之間存在三種關(guān)系,分別是:獨(dú)立、交叉和繼承。為建立概念間的聯(lián)系和不同術(shù)語間的層次關(guān)系,執(zhí)行以下五步:

    第一步:文檔和術(shù)語間產(chǎn)生二元關(guān)系矩陣

    在每一個(gè)文檔中,最能表達(dá)文檔主題的術(shù)語必須添加到術(shù)語檢索子系統(tǒng)中,為此,產(chǎn)生文檔集和術(shù)語集。如果一個(gè)術(shù)語在一個(gè)文檔中出現(xiàn),矩陣中相應(yīng)的值標(biāo)記為“X”,以此生成文檔和術(shù)語之間二元關(guān)系矩陣。利用FCA建立相應(yīng)的三元組:O=(D, T, R),本體用O表示,本體的相關(guān)文檔集用D表示,本體的相關(guān)術(shù)語集用T表示,用R來表示D和T的二元關(guān)系:R?D×T。

    第二步:產(chǎn)生概念集C

    如果X是D的一個(gè)子集,Y是T的一個(gè)子集,那即X?D,Y?T,映射如下:

    [σ(X)=t∈T|?d∈X:(t,d)∈R]

    [τ(Y)=d∈D|?t∈Y:(t,d)∈R],

    根據(jù)以上定義,對(duì)任意一對(duì)文檔集術(shù)語集(X,Y)有Y=s(X)和X=t(Y)。因而,包含公共術(shù)語最多的文檔集是由具有關(guān)系R的二維數(shù)組成的最全矩陣。所有的概念的集合c就可以用概念集C來表示。

    第三步:計(jì)算概念的層次關(guān)系

    所有給定的概念集是完整的偏序序列。定義概念(X0,Y0)是另一個(gè)概念(X1,Y1)子集,記為:(X0,Y0) ? (X1,Y1)。假設(shè),具有術(shù)語集Y1的文檔集X1包含在擁有術(shù)語集Y2的文檔集X2,記為X1?X2,(X1, Y1)成為(X2, Y2)的子集,記為(X1, Y1) ? (X2, Y2)。對(duì)于概念集C,那么C1(X1, Y1)成為C2(X2, Y2)的子概念。

    第四步:生成概念的層次結(jié)構(gòu)

    由于概念C可能具有多個(gè)父概念而成為子概念,所以獲得全部概念層次結(jié)構(gòu)必須計(jì)算不同概念的各種層次關(guān)系。每層的一個(gè)節(jié)點(diǎn)代表一個(gè)概念,在概念層次結(jié)構(gòu)上給出兩個(gè)元素(D1,T1)和(D2,T2),他們的上確界或者結(jié)合點(diǎn)定義為[7]:

    [(D1,T1)?(D2,T2)=(τ(T1?T1),T1?T1)]

    C1(X1, Y1)和C2(X2, Y2)是兩個(gè)概念,為了在概念層次上為了確定他們各自位置,應(yīng)計(jì)算兩個(gè)概念的上確界。

    第五步:產(chǎn)生概念之間的相互關(guān)系

    在構(gòu)建概念之間的層次關(guān)系之后,可定義概念之間的相互關(guān)系。C1(X1, Y1)和C2(X2, Y2)是兩個(gè)概念,如果Y1?Y2且Y2?Y1,那么這兩個(gè)概念部分的相互包含,這樣就可以定義C1和C2之間的關(guān)系。

    2.2.2概念之間的相關(guān)度計(jì)算

    在建立概念間的聯(lián)系之后,我們可以開始計(jì)算不能直接繼承的概念之間的相關(guān)度。利用Kang等人[9]提出計(jì)算概念間相關(guān)性的方法來計(jì)算概念的相關(guān)度,公式如下:

    [fjk=relevancy(Tj,Tk)=i=1ndijki=1ndij×WeightingFactor(Tk)] (1)

    [dijk=tfijk×log10(Ndfjk×wj)] (1.1)

    [dij=tfij×log10(Ndfj×wj)] (1.2)

    [WeightingFactor(Tk)=log10Ndfklog10N] (1.3)

    公式(1)描述了兩個(gè)概念之間的相關(guān)度。每個(gè)相關(guān)度都對(duì)應(yīng)一個(gè)的方向,所以不同術(shù)語作為中心點(diǎn)計(jì)算出的關(guān)聯(lián)度的值是不同的。公式(1)可以分解成另外三個(gè)等式,如公式(1.1),公式(1.2),公式(1.3)。我們注意到公式 (1.1)和(1.2)是應(yīng)用TF-IDF(term frequency—inverse document frequency)概念[6]。在公式(1.1) 中,dijk由術(shù)語Tk和Tj同時(shí)出現(xiàn)的頻率以及逆文檔頻率來決定的。tfijk表示術(shù)語Tj和Tk同時(shí)出現(xiàn)在文檔i中的頻率。公式(1.2) djk表示同時(shí)出現(xiàn)Tj和Tk全部文檔的數(shù)目。當(dāng)兩個(gè)術(shù)語有較高的相關(guān)性,Tk和Tj出現(xiàn)在同一文檔中的次數(shù)就多,并且集中出現(xiàn)在一些特殊的文檔中。公式(1.3) 中WeightingFactor(Tk)反應(yīng)了術(shù)語Tk對(duì)應(yīng)的文檔的屬性,術(shù)語Tk越普通,WeightingFactor(Tk)的值就在越低。在公式(1) 中的變量描述示如表1。

    表1 公式(1) 中的變量描述

    [變量\&描述\&N\&關(guān)鍵術(shù)語總數(shù)\&dijk\&在文檔i中同時(shí)出現(xiàn)術(shù)語j,k的次數(shù)\&wj\&逆文檔頻率的比重\&tfij\&術(shù)語j在文檔i中出現(xiàn)的次數(shù)\&dfj\&包好術(shù)語j的文檔數(shù)量\&dfjk\&包含術(shù)語j,k的文檔數(shù)量\&]

    表2表示不同術(shù)語在每一個(gè)文檔中出現(xiàn)的頻率。公式(1)計(jì)算的相關(guān)度和通過形式化概念分析(FCA)構(gòu)建概念層次關(guān)系生成本體概念圖,如圖2。在圖中,實(shí)線箭頭用于表示概念間的繼承關(guān)系,虛線表示兩個(gè)概念間的相互關(guān)系。概念A(yù)對(duì)于概念B相關(guān)度與概念B對(duì)于概念A(yù)相關(guān)度是不同的,虛線上有兩個(gè)數(shù)字表示以各自為中心相關(guān)度。endprint

    表2 術(shù)語在文件中出現(xiàn)的頻率矩陣

    [\&D1\&D2\&D3\&D4\&D5\&D6\&D7\&D8\&D9\&D10\&Mathematics\&5\&3\&4\&5\&5\&9\&\&\&\&\&Data\&\&\&\&\&\&\&6\&9\&10\&8\&O S\&3\&7\&\&\&6\&9\&\&\&\&\&Ontology\&\&\&8\&3\&\&\&5\&7\&8\&3\&A I\&\&6\&7\&6\&4\&\&3\&5\&4\&\&Compliers\&\&\&\&\&\&14\&\&\&\&\&Algorithms\&7\&\&\&\&\&\&\&\&\&14\&Multimedia\&\&\&\&2\&\&\&\&\&\&\&Logics\&\&\&\&\&\&\&\&\&\&3\&Database\&\&7\&\&\&4\&\&1\&2\&\&\&C5.0\&\&\&\&\&\&6\&\&\&\&\&Programming\&2\&\&4\&\&\&\&\&\&\&\&Network\&\&\&\&\&\&\&\&\&2\&\&]

    圖2 從表2得到的本體概念圖

    2.3本體管理子系統(tǒng)

    本體管理子系統(tǒng)有兩個(gè)主要的部分。第一部分,建立概念間準(zhǔn)確的層次關(guān)系。對(duì)于構(gòu)建者來說最重要的是確保本體正確性。從用戶的角度來說,層次結(jié)構(gòu)上的錯(cuò)誤將導(dǎo)致用戶對(duì)概念產(chǎn)生誤解。第二部分,語義網(wǎng)為用戶提供一個(gè)有效檢索接口,提高搜索效果。關(guān)于子系統(tǒng)第二部分就是用戶可以在圖2(概念圖)中選擇一個(gè)概念,找不到相關(guān)的概念的文檔,或者能同時(shí)選擇幾個(gè)具有關(guān)聯(lián)的概念文檔。

    3 方法驗(yàn)證

    本研究的主要目的是提升現(xiàn)有互聯(lián)網(wǎng)的應(yīng)用。實(shí)驗(yàn)中的數(shù)據(jù)均來自互聯(lián)網(wǎng)的資源。研究中提出的系統(tǒng)是在互聯(lián)網(wǎng)上執(zhí)行的。另外,如圖1中的系統(tǒng)結(jié)構(gòu)需要使用一些函數(shù)庫,因此這項(xiàng)研究選擇Java語言作為實(shí)現(xiàn)語言。

    3.1 實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)

    研究本體構(gòu)建技術(shù)的最終目標(biāo)就是建立相關(guān)本體概念的映射圖,來幫助用戶查找他們所需信息。基于當(dāng)前的本體構(gòu)建技術(shù),無論用基于字典、文本類聚、關(guān)聯(lián)規(guī)則和知識(shí)庫的技術(shù)方法在建立層次關(guān)系時(shí)難免的產(chǎn)生一些錯(cuò)誤。因此我們利用層次關(guān)系來對(duì)照概念節(jié)點(diǎn)得到整個(gè)本體的準(zhǔn)確率。在測(cè)量構(gòu)建方法的效率時(shí),利用準(zhǔn)確率和召回率進(jìn)行評(píng)估[10],公式如下:

    [Precision=|ReleventRetrieved|Retrieved] (2)

    [Recall=|ReleventRetrieved|Relevent] (3)

    在測(cè)量本體概念層次時(shí),精確度是指能自動(dòng)構(gòu)建概念層次程度,而召回率是指應(yīng)產(chǎn)生的概念層次的程度。如圖3顯示了概念層次結(jié)構(gòu)圖。在圖中層次共有8個(gè)概念節(jié)點(diǎn)和8個(gè)概念聯(lián)系。其中一個(gè)不準(zhǔn)確的概念聯(lián)系用粗實(shí)線表示。另外,虛線表示存在但不能自動(dòng)建立的概念聯(lián)系。利用公式(2) 和(3) 計(jì)算概念層次得到準(zhǔn)確率(8-1)/8=87.5%和召回率7/(8-1+1)=87.5%。

    3.2 實(shí)驗(yàn)驗(yàn)證

    實(shí)驗(yàn)中為了測(cè)試構(gòu)建方法的效率和準(zhǔn)確性,涉及的內(nèi)容越相近,實(shí)驗(yàn)素材的使用范圍就越小。我們所用的實(shí)驗(yàn)素材是 “學(xué)術(shù)學(xué)位論文和的摘要” 里包含術(shù)語“ontology”的論文(http://www.sciencedirect.com/)。 總共收集了200個(gè)文件。

    Wu等人[11]指出,主題詞和關(guān)鍵詞等術(shù)語通常由名詞—?jiǎng)釉~和名詞—名詞組成。通過句法形式、形態(tài)結(jié)構(gòu)和語料庫可以過濾掉大部分不相關(guān)的術(shù)語。由于有兩個(gè)或更多的術(shù)語可以表示同一個(gè)事物,具有多種含義或者具有多種翻譯的外國的專有名詞,可能產(chǎn)生混淆。因此很有必要建立一個(gè)同義詞詞典來促進(jìn)術(shù)語翻譯的準(zhǔn)確率。通過語言特性和同義詞可以收集到大部分基于名詞的術(shù)語,但它們的含義還是有區(qū)別的,因此為了提高效率很有必要過濾停止詞。

    表3顯示了從實(shí)驗(yàn)所收集的原始術(shù)語集,這個(gè)術(shù)語集是使用語言特性、同義詞和停止詞過濾之后形成的最終術(shù)語的和術(shù)語集的過濾率。如果再仔細(xì)觀察一下這張表,我們將會(huì)注意到集合使用語言特性過濾率最高,這是因?yàn)槲覀冞^濾有關(guān)概念的名詞和動(dòng)詞,這也說明描述性術(shù)語和句子在任何給定的文檔中數(shù)量最多。雖然同義詞和停止詞表現(xiàn)出較低過濾率,但它對(duì)整體效率的提高是不容忽視的。最終的術(shù)語集合只有15%的初始術(shù)語。

    表3 不同情況術(shù)語集的數(shù)目

    [\&原始

    術(shù)語\&使用語言特性過濾之后的集合\&使用同義詞過濾之后的集合\&使用停止詞過濾之后的集合\&最終的術(shù)語集合\&術(shù)語數(shù)\&4468\&865\&764\&676\&676\&過濾率(%)\&100\&19\&17\&15\&15\&]

    過濾的術(shù)語數(shù)量決定了本體表達(dá)信息的能力。概念節(jié)點(diǎn)太多會(huì)產(chǎn)生噪音,概念節(jié)點(diǎn)太少會(huì)不夠充分。該文利用本體概念層次結(jié)構(gòu)來表示數(shù)據(jù)的分布。假如單個(gè)概念節(jié)點(diǎn)的下面沒有其他節(jié)點(diǎn)則該節(jié)點(diǎn)歸入根節(jié)點(diǎn),如果我們認(rèn)為這個(gè)節(jié)點(diǎn)比其他的節(jié)點(diǎn)有低的相關(guān)度,它將不再被認(rèn)為是概念層次結(jié)構(gòu)的一部分。在圖4中節(jié)點(diǎn)Z(充滿斜線)通常被認(rèn)為是一個(gè)獨(dú)立節(jié)點(diǎn)。因此我們對(duì)層次率的定義如下:

    [Hierarchy ratio=1- number of independent nodestotal number of nodes] (4)

    在獲得等級(jí)比例之后,我們得出最佳的術(shù)語集的數(shù)量是107。因此,我們利用FCA算法組合術(shù)語集生成完整本體框架。表4顯示了從實(shí)驗(yàn)得到本體的實(shí)驗(yàn)結(jié)果。經(jīng)過術(shù)語集過濾在這個(gè)實(shí)驗(yàn)中文檔的數(shù)量從187減少到184。另一方面,層次的深度和廣度顯示了本體所包含的內(nèi)容的范圍。本體層次廣度越寬,多元化的和通常的概念就越多;深度越深,內(nèi)容就越詳細(xì)。層次關(guān)系的數(shù)量表明了節(jié)點(diǎn)的復(fù)雜度的等級(jí)。實(shí)驗(yàn)中共有107個(gè)節(jié)點(diǎn)而只產(chǎn)生了132個(gè)層次關(guān)系,表明節(jié)點(diǎn)之間的關(guān)系并不復(fù)雜。經(jīng)過實(shí)驗(yàn)本體的準(zhǔn)確率和召回率分別為84.1%和81.1%,如表4所示。

    表4 實(shí)驗(yàn)產(chǎn)生的本體

    4 結(jié)論

    在本體領(lǐng)域內(nèi),通常是手工或者半自動(dòng)的方式構(gòu)建本體,并且需要專業(yè)開發(fā)人員和專家的參與,這嚴(yán)重阻礙了網(wǎng)絡(luò)的發(fā)展,限制了知識(shí)共享的進(jìn)程。因此,該文采用形式化概念分析算法研究自動(dòng)構(gòu)建本體來滿足這樣的需求。該文所用的實(shí)驗(yàn)素材是學(xué)術(shù)論文,計(jì)算了由不同數(shù)據(jù)生成的本體的準(zhǔn)確率和召回率。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)實(shí)驗(yàn)中的方法在較小的數(shù)據(jù)范圍和更多相同內(nèi)容的數(shù)據(jù)上能獲得較高的準(zhǔn)確率和召回率。通常普通的數(shù)據(jù)具有較淺的概念層次和更寬的廣度。這是因?yàn)橐话愕臄?shù)據(jù)內(nèi)容較分散,易于產(chǎn)生較為扁平的概念結(jié)構(gòu),而特殊的數(shù)據(jù)內(nèi)容易產(chǎn)生較完整的本體概念的層次結(jié)構(gòu)。該文中采用的方法更適合小范圍的數(shù)據(jù)。

    本文的主要貢獻(xiàn)是:現(xiàn)有的分類關(guān)系通常不能表達(dá)同一類別概念的優(yōu)先級(jí),這將導(dǎo)致搜索一個(gè)概念時(shí)很容易忽略重要的信息。該文提出的方法能夠構(gòu)建各種概念和類之間的重要程度,能幫助用戶提高他們搜索信息的準(zhǔn)確率,減少搜索花費(fèi)的時(shí)間。根據(jù)實(shí)驗(yàn)的結(jié)果所示,本方法在數(shù)據(jù)較小范圍內(nèi)可以實(shí)現(xiàn)更好的結(jié)果。

    參考文獻(xiàn):

    [1] 陸建江,張亞非.語義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.

    [2] 梁健,王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐,2007(1):112-115.

    [3] 張大鵬.基于本體的文本分類關(guān)鍵技術(shù)研究[D].長(zhǎng)春:東北師范大學(xué),2012.

    [4] Maedche A, Staab S.Ontology learning for the semantic web[J].IEEE Intelligent systems,2001,16(2):72-79.

    [5] Stumme G.Formal concept analysis on its way from mathematics to computer science[M]//Conceptual Structures: Integration and Interfaces.Springer Berlin Heidelberg,2002:2-19.

    [6] Chowdhury G.Introduction to modern information retrieval[M].Facet publishing,2010.

    [7] Buchli F.Detecting software patterns using formal concept analysis[J].inder Philosophisch-naturwissenschaftlichen Fakult: University of Bern,2003:10-15.

    [8] Ganter B,Stumme G, Wille R. Formal Concept Analysis: foundations and applications[M].Springer,2005.

    [9] Kang S H, Huh W, Lee S, et al. Automatic classification of WWW documents using a neural network[C]//2000, Proceedings of international conference on production research,Bangkok.

    [10] Han J,Kamber M, Pei J.Data mining: concepts and techniques[M].Morgan kaufmann,2006.

    [11] Wu S H,Day M Y, Tsai T H, et al. FAQ-centered organizational memory[M]//Knowledge Management and Organizational Memories. Springer US,2002:103-112.

    表4 實(shí)驗(yàn)產(chǎn)生的本體

    4 結(jié)論

    在本體領(lǐng)域內(nèi),通常是手工或者半自動(dòng)的方式構(gòu)建本體,并且需要專業(yè)開發(fā)人員和專家的參與,這嚴(yán)重阻礙了網(wǎng)絡(luò)的發(fā)展,限制了知識(shí)共享的進(jìn)程。因此,該文采用形式化概念分析算法研究自動(dòng)構(gòu)建本體來滿足這樣的需求。該文所用的實(shí)驗(yàn)素材是學(xué)術(shù)論文,計(jì)算了由不同數(shù)據(jù)生成的本體的準(zhǔn)確率和召回率。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)實(shí)驗(yàn)中的方法在較小的數(shù)據(jù)范圍和更多相同內(nèi)容的數(shù)據(jù)上能獲得較高的準(zhǔn)確率和召回率。通常普通的數(shù)據(jù)具有較淺的概念層次和更寬的廣度。這是因?yàn)橐话愕臄?shù)據(jù)內(nèi)容較分散,易于產(chǎn)生較為扁平的概念結(jié)構(gòu),而特殊的數(shù)據(jù)內(nèi)容易產(chǎn)生較完整的本體概念的層次結(jié)構(gòu)。該文中采用的方法更適合小范圍的數(shù)據(jù)。

    本文的主要貢獻(xiàn)是:現(xiàn)有的分類關(guān)系通常不能表達(dá)同一類別概念的優(yōu)先級(jí),這將導(dǎo)致搜索一個(gè)概念時(shí)很容易忽略重要的信息。該文提出的方法能夠構(gòu)建各種概念和類之間的重要程度,能幫助用戶提高他們搜索信息的準(zhǔn)確率,減少搜索花費(fèi)的時(shí)間。根據(jù)實(shí)驗(yàn)的結(jié)果所示,本方法在數(shù)據(jù)較小范圍內(nèi)可以實(shí)現(xiàn)更好的結(jié)果。

    參考文獻(xiàn):

    [1] 陸建江,張亞非.語義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.

    [2] 梁健,王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐,2007(1):112-115.

    [3] 張大鵬.基于本體的文本分類關(guān)鍵技術(shù)研究[D].長(zhǎng)春:東北師范大學(xué),2012.

    [4] Maedche A, Staab S.Ontology learning for the semantic web[J].IEEE Intelligent systems,2001,16(2):72-79.

    [5] Stumme G.Formal concept analysis on its way from mathematics to computer science[M]//Conceptual Structures: Integration and Interfaces.Springer Berlin Heidelberg,2002:2-19.

    [6] Chowdhury G.Introduction to modern information retrieval[M].Facet publishing,2010.

    [7] Buchli F.Detecting software patterns using formal concept analysis[J].inder Philosophisch-naturwissenschaftlichen Fakult: University of Bern,2003:10-15.

    [8] Ganter B,Stumme G, Wille R. Formal Concept Analysis: foundations and applications[M].Springer,2005.

    [9] Kang S H, Huh W, Lee S, et al. Automatic classification of WWW documents using a neural network[C]//2000, Proceedings of international conference on production research,Bangkok.

    [10] Han J,Kamber M, Pei J.Data mining: concepts and techniques[M].Morgan kaufmann,2006.

    [11] Wu S H,Day M Y, Tsai T H, et al. FAQ-centered organizational memory[M]//Knowledge Management and Organizational Memories. Springer US,2002:103-112.

    表4 實(shí)驗(yàn)產(chǎn)生的本體

    4 結(jié)論

    在本體領(lǐng)域內(nèi),通常是手工或者半自動(dòng)的方式構(gòu)建本體,并且需要專業(yè)開發(fā)人員和專家的參與,這嚴(yán)重阻礙了網(wǎng)絡(luò)的發(fā)展,限制了知識(shí)共享的進(jìn)程。因此,該文采用形式化概念分析算法研究自動(dòng)構(gòu)建本體來滿足這樣的需求。該文所用的實(shí)驗(yàn)素材是學(xué)術(shù)論文,計(jì)算了由不同數(shù)據(jù)生成的本體的準(zhǔn)確率和召回率。分析實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)實(shí)驗(yàn)中的方法在較小的數(shù)據(jù)范圍和更多相同內(nèi)容的數(shù)據(jù)上能獲得較高的準(zhǔn)確率和召回率。通常普通的數(shù)據(jù)具有較淺的概念層次和更寬的廣度。這是因?yàn)橐话愕臄?shù)據(jù)內(nèi)容較分散,易于產(chǎn)生較為扁平的概念結(jié)構(gòu),而特殊的數(shù)據(jù)內(nèi)容易產(chǎn)生較完整的本體概念的層次結(jié)構(gòu)。該文中采用的方法更適合小范圍的數(shù)據(jù)。

    本文的主要貢獻(xiàn)是:現(xiàn)有的分類關(guān)系通常不能表達(dá)同一類別概念的優(yōu)先級(jí),這將導(dǎo)致搜索一個(gè)概念時(shí)很容易忽略重要的信息。該文提出的方法能夠構(gòu)建各種概念和類之間的重要程度,能幫助用戶提高他們搜索信息的準(zhǔn)確率,減少搜索花費(fèi)的時(shí)間。根據(jù)實(shí)驗(yàn)的結(jié)果所示,本方法在數(shù)據(jù)較小范圍內(nèi)可以實(shí)現(xiàn)更好的結(jié)果。

    參考文獻(xiàn):

    [1] 陸建江,張亞非.語義網(wǎng)原理與技術(shù)[M].北京:科學(xué)出版社,2007.

    [2] 梁健,王惠臨.基于文本的本體學(xué)習(xí)方法研究[J].情報(bào)理論與實(shí)踐,2007(1):112-115.

    [3] 張大鵬.基于本體的文本分類關(guān)鍵技術(shù)研究[D].長(zhǎng)春:東北師范大學(xué),2012.

    [4] Maedche A, Staab S.Ontology learning for the semantic web[J].IEEE Intelligent systems,2001,16(2):72-79.

    [5] Stumme G.Formal concept analysis on its way from mathematics to computer science[M]//Conceptual Structures: Integration and Interfaces.Springer Berlin Heidelberg,2002:2-19.

    [6] Chowdhury G.Introduction to modern information retrieval[M].Facet publishing,2010.

    [7] Buchli F.Detecting software patterns using formal concept analysis[J].inder Philosophisch-naturwissenschaftlichen Fakult: University of Bern,2003:10-15.

    [8] Ganter B,Stumme G, Wille R. Formal Concept Analysis: foundations and applications[M].Springer,2005.

    [9] Kang S H, Huh W, Lee S, et al. Automatic classification of WWW documents using a neural network[C]//2000, Proceedings of international conference on production research,Bangkok.

    [10] Han J,Kamber M, Pei J.Data mining: concepts and techniques[M].Morgan kaufmann,2006.

    [11] Wu S H,Day M Y, Tsai T H, et al. FAQ-centered organizational memory[M]//Knowledge Management and Organizational Memories. Springer US,2002:103-112.

    冕宁县| 隆回县| 社旗县| 无锡市| 平泉县| 新河县| 宜良县| 西城区| 五寨县| 台安县| 崇阳县| 朔州市| 仁化县| 张家界市| 沁阳市| 宣威市| 湾仔区| 琼海市| 黄大仙区| 博湖县| 闵行区| 禹城市| 绥芬河市| 梁平县| 安图县| 永平县| 广河县| 肥城市| 利辛县| 台安县| 南昌市| 紫阳县| 余庆县| 江阴市| 九龙县| 临夏县| 蓬莱市| 久治县| 册亨县| 富民县| 丘北县|