趙 明 杜亞茹 杜會(huì)芳 張家軍 王紅說 陳 瑛
(中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083)
?
植物領(lǐng)域知識(shí)圖譜構(gòu)建中本體非分類關(guān)系提取方法
趙明杜亞茹杜會(huì)芳張家軍王紅說陳瑛
(中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083)
采用本體學(xué)習(xí)的方法,以百度百科植物類詞條內(nèi)容的非結(jié)構(gòu)和半結(jié)構(gòu)化中文文本信息作為語料進(jìn)行處理。使用一種有指導(dǎo)的基于依存句法分析的詞匯-語法模式來獲取植物領(lǐng)域的概念、分類和非分類關(guān)系,并分別利用基于詞表過濾的方法和給模式添加限制的方法,較大程度地提高了關(guān)系抽取的精確度,完成在輕量級本體的基礎(chǔ)上自動(dòng)構(gòu)建重量級本體。該方法建立了一個(gè)特定領(lǐng)域語料的概念層次,提高了最具代表性的分類和非分類關(guān)系的發(fā)現(xiàn),并使用OWL語言形式化表達(dá)抽取結(jié)果。實(shí)驗(yàn)表明,該方法在非分類關(guān)系抽取上取得了較好的結(jié)果,為該領(lǐng)域知識(shí)圖譜構(gòu)建奠定了基礎(chǔ)。
植物領(lǐng)域本體; 知識(shí)圖譜; 非分類關(guān)系; 本體學(xué)習(xí); 百度百科
“知識(shí)圖譜”[1]作為一種知識(shí)表示方法,包含了大量概念(實(shí)體)以及概念間的分類和非分類關(guān)系,使其成為具有語義性的知識(shí)庫。它支撐綜合性知識(shí)檢索、智能問答、智能決策等方面的廣泛應(yīng)用。知識(shí)圖譜構(gòu)建的主要任務(wù)是抽取豐富的概念和關(guān)系,其中概念間非分類關(guān)系抽取是構(gòu)建知識(shí)圖譜的難點(diǎn)問題。而本體(Ontology)作為構(gòu)建知識(shí)圖譜的概念模型和邏輯基礎(chǔ),尤其是概念之間的非分類關(guān)系,不僅增加了知識(shí)表達(dá)的完備性和復(fù)雜性,還在很大程度上對知識(shí)圖譜進(jìn)行了豐富和擴(kuò)展[2]。
本體[3]是用于描述或表達(dá)某一領(lǐng)域中術(shù)語、概念以及之間關(guān)系的一個(gè)基本知識(shí)體系,是共享概念模型的形式化的明確說明。基于本體的應(yīng)用和解決方案是在本體構(gòu)建的基礎(chǔ)上實(shí)現(xiàn)的。然而,現(xiàn)有的各種本體開發(fā)工具(如Protégé、KAON等)支持的是手工構(gòu)建本體的方式,存在費(fèi)時(shí)、費(fèi)力且不易及時(shí)動(dòng)態(tài)更新等問題。因此如何快速、低成本、自動(dòng)或半自動(dòng)構(gòu)建大規(guī)模領(lǐng)域本體——即所謂的本體學(xué)習(xí)(Ontology learning)就成為一個(gè)很有意義的研究方向[4-5]。目前,在本體學(xué)習(xí)領(lǐng)域抽取非分類關(guān)系的方法主要有:基于詞典的方法、基于關(guān)聯(lián)規(guī)則的方法和基于模式匹配的方法。
基于詞典的方法抽取出的關(guān)系必須是WordNet 中已經(jīng)存在的關(guān)系,并僅能從WordNet 中抽取同義、反義和部分/整體這幾種關(guān)系,局限性比較大?;陉P(guān)聯(lián)規(guī)則的方法研究中,研究者分別設(shè)置不同的參數(shù),諸如概念之間的關(guān)聯(lián)度閾值[6]、術(shù)語之間相似度權(quán)重[7]、對數(shù)似然比[8-9]以及粒計(jì)算模型[10]等進(jìn)行非分類關(guān)系抽取。但是該類方法中,由于詞性標(biāo)注的錯(cuò)誤對準(zhǔn)確率有較大的影響,因此還要探索更為有效的方法。
基于模式匹配的方法[11]是通過分析領(lǐng)域相關(guān)文本,歸納出頻繁使用的語言模式,來識(shí)別相應(yīng)的語義關(guān)系。研究者均采用語義依存[1]的本體非分類關(guān)系抽取方法,經(jīng)過詞性標(biāo)注、角色標(biāo)注[3]和語義分析得到具有語義依存的動(dòng)詞框架,構(gòu)建動(dòng)詞向量語料庫[12],再進(jìn)行句子相似度的計(jì)算。還有一部分研究者提出一種綜合語義模式和統(tǒng)計(jì)學(xué)的啟發(fā)式非分類關(guān)系學(xué)習(xí)框架[11,13]。該類方法中,抽取精度較高,但是有些中心詞的選取會(huì)對非分類關(guān)系的選取造成影響。另外,非分類關(guān)系復(fù)雜多樣,不僅僅包含術(shù)語和術(shù)語之間的關(guān)系,還包含一些諸如產(chǎn)地、病蟲害等屬性關(guān)系,此類關(guān)系更為復(fù)雜且豐富,以上方法沒有針對性,因此提取效果較差。以上方法由于中文概念的多義性對非分類關(guān)系種類的影響等原因,該方法的準(zhǔn)確率和召回率在領(lǐng)域本體構(gòu)建中還可以進(jìn)一步優(yōu)化。
以上非分類關(guān)系抽取的研究方法所涉及的領(lǐng)域包括農(nóng)業(yè)[14]、醫(yī)學(xué)診療[15]、網(wǎng)站[16]、航空管理等[17]。還有一部分研究者利用非監(jiān)督的本體學(xué)習(xí)方法[18]從Web文檔提取非分類關(guān)系,并對該方法進(jìn)行評測[19]。但是中文本體的自動(dòng)構(gòu)建,尤其是農(nóng)業(yè)領(lǐng)域非分類關(guān)系的學(xué)習(xí)研究才剛剛起步。因此本文針對基于模式匹配方法提取非分類關(guān)系的局限,以百度百科植物詞條內(nèi)容為語料,采用詞匯-語法模式進(jìn)行非分類關(guān)系的抽取,利用停用詞表過濾和為模式增加限制的方法對該方法進(jìn)行改進(jìn),并且對非分類關(guān)系的類別進(jìn)行討論,開展基于Web的中文植物本體非分類關(guān)系學(xué)習(xí)方法的研究。
針對基于百度百科植物領(lǐng)域本體學(xué)習(xí)中非分類關(guān)系的學(xué)習(xí)方法,采用的主要技術(shù)和步驟如下:
(1)抓取相關(guān)詞條的網(wǎng)頁內(nèi)容,以此為語料,對語料進(jìn)行預(yù)處理,使用改進(jìn)的詞匯-語法模式進(jìn)行非分類關(guān)系的自動(dòng)抽取,提升抽取的準(zhǔn)確度。
(2)抽取百度百科半結(jié)構(gòu)化文本中的非分類關(guān)系。
(3)在抽取出關(guān)系三元組的基礎(chǔ)上,使用OWL語言將其形式化。
總體流程如圖1所示。
圖1 技術(shù)流程圖Fig.1 Flow chart of technological process
1.1基于詞匯-語法模式的非分類關(guān)系抽取
1.1.1數(shù)據(jù)的獲取與預(yù)處理
利用Python編寫的語料采集工具從百度百科的植物分類下抓取了9 623個(gè)詞條作為語料。這些語料用GBK編碼的文本文件形式存儲(chǔ)。為解決百度百科詞條正文非結(jié)構(gòu)化文本難以直接利用的問題,借助自然語言處理的開源工具LTP(Language technology platform)[20],主要使用分詞、詞性標(biāo)注和依存句法分析這3個(gè)模塊對語料進(jìn)行預(yù)處理,得到的結(jié)果以XML的形式保存。
1.1.2模式獲取
從百度百科植物語料中選取一小批高質(zhì)量并具有代表性的詞條(在19個(gè)分類下共選取了97個(gè)詞條),自動(dòng)找出典型的表達(dá)非分類關(guān)系的語句(共339句),該類語句均含有農(nóng)業(yè)概念,且主要集中在具有農(nóng)業(yè)價(jià)值的非分類關(guān)系上,如植物的地理分布、適生環(huán)境、病蟲害、經(jīng)濟(jì)價(jià)值等,表1列舉了其中部分語句。
表1 部分語句Tab.1 Some of statements
模式提取的任務(wù)實(shí)際上也是一種序列標(biāo)注問題,解決該任務(wù)一般采用有監(jiān)督學(xué)習(xí)方式。令{(xi,yi)}(i=1,2,…,N)為一個(gè)大小為N的訓(xùn)練樣本集。每個(gè)序列對(xi,yi)為一個(gè)樣本,其中xi=
另外,考慮到植物領(lǐng)域詞匯的特殊性,其概念詞匯出現(xiàn)的上下文中往往包含特定的詞匯,例如:又名、又叫、輪作、套種、有、富含、含有、栽培、病害、蟲害等。因此在植物詞匯出現(xiàn)的語句中,分別在淺層和深層依存句法分析結(jié)果進(jìn)行標(biāo)注,即找出并標(biāo)明句子中存在非分類關(guān)系的概念,以及非分類關(guān)系的名稱,記為Ri(Xi,Yi)。然后統(tǒng)計(jì)Xi、Ri、Yi之間的依存關(guān)系序列在其他標(biāo)注Xj、Rj、Yj(i≠j)中出現(xiàn)的次數(shù)。其中,淺層句法分析通過正則表達(dá)式匹配的方法獲取非分類關(guān)系,深層句法分析通過句法依賴分析匹配模式的方法獲得關(guān)系。再借助相似度計(jì)算等機(jī)器學(xué)習(xí)方法統(tǒng)計(jì)訓(xùn)練語料中出現(xiàn)頻率較高的詞語構(gòu)成高頻詞表,進(jìn)行多次迭代不斷泛化來獲取表達(dá)非分類關(guān)系的詞匯-語法模式,剔除不符合語法的序列后,得到出現(xiàn)多次的依存關(guān)系序列即為表達(dá)非分類關(guān)系的詞匯-語法模式,如表2所示(依存句法標(biāo)注含義見LTP官方文檔)。
表2 詞匯-語法模式集Tab.2 Set of lexicon-syntactic patterns
其中,模式采用依存關(guān)系(頭節(jié)點(diǎn),依存節(jié)點(diǎn))→非分類關(guān)系名稱(施事概念,受事概念)的形式表示??梢孕问交癁?/p>
(1)
其中L、A、B為si和ti中指定的元素,式(1)表示當(dāng)所有依存關(guān)系Di都滿足時(shí),則L(A,B)關(guān)系成立。
1.1.3為模式增加規(guī)則
對于抽取的詞匯-語法模式,一個(gè)值得注意的問題是有些模式含有并列關(guān)系(COO)和連動(dòng)結(jié)構(gòu)(VV):對于并列關(guān)系,如果某個(gè)節(jié)點(diǎn)的依存關(guān)系為COO的話,則該節(jié)點(diǎn)視為等同于依存關(guān)系所指向的節(jié)點(diǎn),并且該性質(zhì)具有傳遞性。例如,在句子 “主要蟲害有介殼蟲和斑蛾。”中,將“介殼蟲”與“斑蛾”視為等同;對于連動(dòng)結(jié)構(gòu),如果某個(gè)節(jié)點(diǎn)的依存關(guān)系為VV的話,則該節(jié)點(diǎn)依存關(guān)系所指向的節(jié)點(diǎn)可視為與該節(jié)點(diǎn)共享主語,即VV(X, Y), SBV(X, Z)→SBV(Y, Z),并且該性質(zhì)具有傳遞性。例如,在句子“黃芪產(chǎn)于內(nèi)蒙古等地,為國家三級保護(hù)植物。” 中,“產(chǎn)”與“為”是連動(dòng)結(jié)構(gòu),“為”共享“產(chǎn)”的主語“黃芪”。
另一個(gè)值得注意的問題是,表2中的模式?jīng)]有利用定中關(guān)系(ATT)和狀中結(jié)構(gòu)(ADV),這樣會(huì)導(dǎo)致抽取出來的非分類關(guān)系的概念和關(guān)系名稱都是語句中相應(yīng)成分的中心詞,從而丟失了部分語義,例如,“鐵觀音原產(chǎn)于福建安溪縣西坪?!边@句話,利用模式SBV(Y, X), HED(Root, Y), CMP(Y, Z), POB(Z, W)→Y_Z(X, W)會(huì)抽取出“產(chǎn)_于(鐵觀音,西坪)”,關(guān)系名稱丟失了“原產(chǎn)于”中的狀語“原”,也影響了關(guān)系名稱的精確性。本文在歸納總結(jié)詞匯-語法模式時(shí),考慮到要盡可能提高模式的召回率,采用了這種弱限定的模式,對于上述抽取結(jié)果語義缺失的情況,本文采用后處理的方法,如果抽取出的非分類關(guān)系的概念和關(guān)系名稱在語句中前面有限定性修飾成分的話,則會(huì)補(bǔ)上。
另外,由于百度百科詞條的文本圍繞著詞條進(jìn)行闡述說明,故許多句子的主語默認(rèn)就是詞條名稱,從而被缺省。這種情況對非分類關(guān)系抽取的影響是導(dǎo)致抽取出來的非分類關(guān)系缺少施事概念,本文的處理方法就是將詞條名稱作為默認(rèn)的施事概念。
1.1.4非分類關(guān)系抽取
在所獲詞匯-語法模式的基礎(chǔ)上,可以進(jìn)行非分類關(guān)系的提取。具體過程為:對待提取的文檔利用LTP進(jìn)行分段、分句、分詞、依存句法分析;然后將模式匹配歸結(jié)為在依存樹中尋找子樹的問題,即對句子的依存樹進(jìn)行檢測,如果樹中存在這些節(jié)點(diǎn),其滿足模式前件中的每項(xiàng)約束,則模式匹配成功;并將這些節(jié)點(diǎn)按照模式的后件轉(zhuǎn)換為非分類關(guān)系。以表2中第3行為例,“鐵觀音原產(chǎn)于福建安溪縣西坪?!边@句話的依存樹如圖2所示,因?yàn)椤拌F觀音”與“產(chǎn)”為主謂關(guān)系(SBV),虛擬節(jié)點(diǎn)Root與“產(chǎn)”為HED關(guān)系,“產(chǎn)”與“于”為動(dòng)補(bǔ)結(jié)構(gòu)(CMP),“于”與“西坪”為介賓關(guān)系(POB),所以滿足了該模式的前件,根據(jù)模式的后件,將這些節(jié)點(diǎn)轉(zhuǎn)為非分類關(guān)系:產(chǎn)_于(鐵觀音,西坪)。
圖2 “鐵觀音原產(chǎn)于福建安溪縣西坪”的依存樹Fig.2 An example of a D-tree
另外,當(dāng)利用SBV-HED-VOB模式對句子進(jìn)行模式匹配時(shí),將句子中依存關(guān)系名稱為“SBV”、“HED”、“VOB”的詞組成三元組,然后再去判斷這些三元組內(nèi)部的依存關(guān)系是否和模式中的完全一致,當(dāng)一致時(shí),則匹配成功,否則失敗。
1.1.5對詞匯-語法模式添加約束
(1)對結(jié)果進(jìn)行過濾
針對模式過于寬泛而影響準(zhǔn)確率的問題,為避免抽取出一些非農(nóng)業(yè)領(lǐng)域的通用語義關(guān)系,采用詞表過濾的方式,當(dāng)關(guān)系的施事概念、受事概念都屬于植物領(lǐng)域相關(guān)概念時(shí),保留該關(guān)系,其余關(guān)系則為錯(cuò)誤關(guān)系。這種方式可以大幅提高關(guān)系抽取的準(zhǔn)確度。
(2)對詞匯-語法模式增加限制
對上述詞匯-語法模式進(jìn)行改進(jìn),添加更多的約束,以提高模式的準(zhǔn)確度。改進(jìn)方法的流程如圖3所示。
圖3 改進(jìn)方法的流程圖Fig.3 Flow chart of the improved method
單個(gè)限制用如圖4所示的方式表示??梢杂肅onstraint Combination對象表示多個(gè)限制的組合。
圖4單個(gè)限制的數(shù)據(jù)結(jié)構(gòu)
Fig.4Data structure of a single constraint
首先用基本模式,如SBV-HED-VOB在標(biāo)注集上進(jìn)行初步抽取,對于抽取成功的實(shí)例,本文將施事概念、關(guān)系名稱、受事概念的詞性和詞中的字用圖4中的方式表示為限制(限制值均為XML處理過程中對文本的標(biāo)記。其中,段落id和句子id分別為實(shí)例所在段落和句子的位置;基準(zhǔn)id為依存父節(jié)點(diǎn)在句子中的位置;相對于基準(zhǔn)的偏移量為抽取實(shí)例與依存父節(jié)點(diǎn)位置差值;限制的值為模式抽取的正確實(shí)例所含的特征),并計(jì)算這些限制的所有子集在標(biāo)注集上的Laplacian值,Laplacian因子計(jì)算公式為
(2)
式中e——抽取的錯(cuò)誤數(shù)
n——抽取的總數(shù)
Laplacian用來估計(jì)所添加的約束的性能好壞,Laplacian值低的表示該限制組合在標(biāo)注集上抽取表現(xiàn)良好。
1.2基于百度百科半結(jié)構(gòu)化文本的非分類關(guān)系抽取
由于對模式增加限制會(huì)對抽取非分類關(guān)系的召回率造成影響,本文除了從非結(jié)構(gòu)化文本信息中進(jìn)行關(guān)系提取,還有效利用百度百科中大量的半結(jié)構(gòu)化文本,這些半結(jié)構(gòu)化文本通常是經(jīng)過總結(jié)和提純過的知識(shí),相較于自然語言處理的方式,這種通過收割半結(jié)構(gòu)化文本的知識(shí)重用方式不僅可以抽取非分類關(guān)系作為補(bǔ)充來提高召回率,還具有簡單易行、準(zhǔn)確度高的優(yōu)點(diǎn),因而也是本體學(xué)習(xí)的一個(gè)重要途徑。
百度百科的詞條結(jié)構(gòu)包括:詞條名稱、百科名片、段落標(biāo)題和目錄、詞條正文等??捎糜诔槿》欠诸愱P(guān)系的半結(jié)構(gòu)化信息存在于百科名片和詞條正文的表格中。
百科名片中包含了大量的植物別名、產(chǎn)地等屬性信息,該類信息也為植物領(lǐng)域非分類關(guān)系的一部分,且清晰易得。百度百科詞條正文中的大部分都是非結(jié)構(gòu)化的自由文本,但是有的詞條正文中也會(huì)同時(shí)采用表格的方式表示知識(shí)。
本文利用百度百科詞條半結(jié)構(gòu)化信息的方法為:對網(wǎng)頁的DOM樹進(jìn)行解析處理,查找出其中表示百科名片中詞條基本信息欄表格和正文表格的HTML標(biāo)簽,獲取表格中“分布區(qū)域”等表示非分類關(guān)系的表項(xiàng),然后將其轉(zhuǎn)換為對應(yīng)的非分類關(guān)系三元組,其中,關(guān)系名稱為表格中表項(xiàng)的名稱,施事概念為詞條名稱,受事概念為表項(xiàng)的內(nèi)容。因?yàn)楸磉_(dá)受事概念的表項(xiàng)內(nèi)容通常為一些簡單的自然語言語句,因此需先對其進(jìn)行LTP分詞、命名實(shí)體識(shí)別等處理。例如表3為百度百科詞條“紫薯”的正文中的一張表格,其中含有較多的表示營養(yǎng)成分的概念,因此觸發(fā)了非分類關(guān)系的生成,這些概念均處于表示營養(yǎng)成分主題的列表中,故非分類關(guān)系的名稱取“營養(yǎng)成分”。
1.3抽取結(jié)果的形式化
將抽取的關(guān)系三元組用OWL(Web ontology language)語言進(jìn)行形式化,并借助Protégé的可視化插件OWLPropViz進(jìn)行抽取結(jié)果的顯示。對應(yīng)的可視化結(jié)果如圖5所示。
本研究從收集的語料中挑選了70個(gè)含有植物
表3 百度百科中紫薯的營養(yǎng)成分Tab.3 Nutrients of Solanum tuberdsm in Baidu encyclopedia
注:各成分含量為每100 g中的含量。
圖5 部分結(jié)果的可視化結(jié)果Fig.5 Partial results of visualization
分布區(qū)域關(guān)系的句子和31個(gè)含有植物病蟲害關(guān)系的句子,測試上文提出的非分類關(guān)系抽取方法的性能。作為抽取方法的baseline,基本模式的抽取情況如表4所示。其中SBV-HED-VOB模式主要用于病蟲害關(guān)系的抽取,SBV-HED-CMP-POB模式主要用于分布區(qū)域關(guān)系的抽取。
表4 基本模式的抽取情況Tab.4 Extraction of basic pattern
注:表中N/A表示不可用。
從表4中可以看出,在利用LTP對文本進(jìn)行自然語言處理結(jié)果的基礎(chǔ)上,直接用模式進(jìn)行抽取,準(zhǔn)確率在70%左右,還有較大的提升空間。一方面,LTP對于長難句和語言風(fēng)格偏科研文獻(xiàn)句子的處理結(jié)果都會(huì)有一些問題。因此,本文把LTP處理有錯(cuò)誤的句子進(jìn)行過濾,模式抽取準(zhǔn)確率大有提升。另一方面,針對模式過于寬泛而影響準(zhǔn)確率的問題,本文采用詞表過濾的方法作為對模式的一種改進(jìn)。如表4所示,過濾后的結(jié)果具有較高的準(zhǔn)確率。
另一種提高模式準(zhǔn)確率的改進(jìn)方法是為其增加限制。將31個(gè)含有植物病蟲害關(guān)系的句子分為2部分,前15個(gè)句子用來計(jì)算限制的Laplacian因子,并據(jù)此挑選在其上表現(xiàn)最優(yōu)的限制;然后將模式和限制合在一起,用來抽取后16個(gè)句子中的病蟲害關(guān)系。這時(shí)根據(jù)啟發(fā)式的策略選擇擁有最低Laplacian值的限制,測試語句上的準(zhǔn)確率如表5所示。
表5 加上限制后模式的抽取情況Tab.5 Extraction after adding restriction
可以看出,通過對模式增加限制,可更充分地利用除依存關(guān)系外的其他語言特征,從而提高了模式的抽取準(zhǔn)確度。
近幾年內(nèi),國內(nèi)外本體學(xué)習(xí)界也有一些非分類關(guān)系學(xué)習(xí)的研究,例如加拿大ZOUAQ等[21]研究的OntoCmaps工具,以及國內(nèi)的古凌嵐等[22]提出的中文本體非分類關(guān)系抽取方法,這些研究在一定程度上代表了當(dāng)前本體非分類關(guān)系學(xué)習(xí)的水平,非分類關(guān)系抽取方法的性能如表6所示。
表6 相關(guān)研究的抽取情況Tab.6 Extraction condition of related study
ZOUAQ等在OntoCmaps中采用的是手工總結(jié)的詞匯-語法模式,其在論文中的測評結(jié)果顯示,該方法在不同語料上的性能波動(dòng)較大,故表6中給出了其平均準(zhǔn)確率的最大和最小值,總的來說,該結(jié)果和本文手工設(shè)定的模式準(zhǔn)確率基本一致,但二者均由于LTP性能問題以及其方法缺少對結(jié)果的過濾功能,導(dǎo)致抽取的準(zhǔn)確率偏低。
綜合實(shí)驗(yàn)結(jié)果來看,本文用改進(jìn)的詞匯-語法模式作為非分類關(guān)系提取的基本方法,已經(jīng)能夠達(dá)到與同類方法相當(dāng)?shù)臏?zhǔn)確度。在此基礎(chǔ)上,分別利用基于詞表過濾的方法和給模式添加限制的方法,較大程度地提高了關(guān)系抽取的準(zhǔn)確度。
(1)以網(wǎng)絡(luò)百科為知識(shí)來源,在信息提取、自然語言處理等領(lǐng)域的一些關(guān)系抽取方法基礎(chǔ)上,提出了一種改進(jìn)的基于詞匯-語法模式的中文非分類關(guān)系抽取辦法,實(shí)驗(yàn)表明其有效地提高了模式的準(zhǔn)確度,取得了預(yù)期的效果。
(2)本文的研究屬于嘗試性的探索工作,測試的語句集還較少,未來還有一些需要改進(jìn)的地方和可能的研究方向:鑒于LTP等中文自然語言處理工具在百度百科的文本上性能有所下降,說明目前的技術(shù)在依存句法分析等相對深層的自然語言處理中與完全實(shí)用尚有一定的距離。本體是知識(shí)圖譜表示的概念模型和邏輯基礎(chǔ),在本體非分類關(guān)系抽取的基礎(chǔ)上,進(jìn)行實(shí)體和關(guān)系的映射,構(gòu)建完整的植物領(lǐng)域知識(shí)圖譜還需要進(jìn)一步完善。
1王昊奮. 大規(guī)模知識(shí)圖譜技術(shù)[EB/OL]. (2014-06-12)http:∥www.China-cloud.com/zhongyunxy/20140612_38070.html.
2DESHPANDE O, LAMBA D S, TOURN T, et al. Building, maintaining, and using knowledge bases: a report from the trenches[C]∥2013 SIGMOD’13, 2013:1209-1220.
3程童凌, 李娟子. 基于維基類百科知識(shí)資源的實(shí)體關(guān)系發(fā)現(xiàn)和語標(biāo)注[J]. 電子技術(shù)與軟件工程, 2015(18):170-173.
4MAEDCHE A, STAAB S. Ontology learning for the semantic web[J]. IEEE, Intelligent Systems, 2001, 16(2):72-79.
5WONG W, LIU W, BENNAMOUN M. Ontology learning from text: a look back and into the future[J]. Acm Computing Surveys, 2012, 44(4):1-36.
6廖福燕. 本體構(gòu)建中概念和關(guān)系獲取方法研究[D]. 西安:西安建筑科技大學(xué), 2011.
LIAO Fuyan. Research on domain ontology concept and relation acquisition[D]. Xi’an:Xi’an University of Architecture and Technology,2011.(in Chinese)
7谷俊, 嚴(yán)明, 王昊. 基于改進(jìn)關(guān)聯(lián)規(guī)則的本體關(guān)系獲取研究[J]. 情報(bào)理論與實(shí)踐, 2011, 34(12):121-125.
GU Jun, YAN Ming, WANG Hao. Research on ontology relation extraction based on improved association rule[J]. Information Studies, 2011, 34(12):121-125. (in Chinese)
8舒萬里. 中文領(lǐng)域本體學(xué)習(xí)中概念和關(guān)系抽取的研究[D]. 重慶:重慶大學(xué), 2012.
SHU Wanli. Research on concept and relation extraction of Chinese domain ontology[D]. Chongqing: Chongqing University, 2012. (in Chinese)
9胡云飛. 本體學(xué)習(xí)中關(guān)系獲取的研究[D]. 西安:西安建筑科技大學(xué), 2012.
HU Yunfei. Research on relations acquisition of ontology learning[D]. Xi’an: Xi’an University of Architecture and Technology, 2012. (in Chinese)
10邱桃榮,黃海泉,段文影,等.非分類關(guān)系學(xué)習(xí)的粒計(jì)算模型研究[J].南昌大學(xué)學(xué)報(bào):工科版,2012,34(3):273-278.
QIU T R, HUANG H Q, DUAN W Y, et al. Research on granular computing model for non-taxonomic relations learning[J]. Journal of Nanchang University, 2012,34(3):273-278. (in Chinese)
11梁吉震. 基于領(lǐng)域概念知識(shí)的非分類關(guān)系學(xué)習(xí)研究[D]. 長春:吉林大學(xué), 2012.
LIANG Jizhen. Research on non-taxonomic relationships learning based on domain concept knowledge[D]. Changchun: Jilin University, 2012. (in Chinese)
12WEICHSELBRAUN A, WOHLGENANNT G, SCHARL A. Refining non-taxonomic relation labels with external structured data to support ontology learning[J]. Data & Knowledge Engineering, 2010, 69(8):763-778.
13向陽, 張波, 韓婕. Agent驅(qū)動(dòng)的中文本體智能構(gòu)建研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 45(10):133-137.
XIANG Yang, ZHANG Bo, HAN Jie. Agent driven intelligent construction of Chinese ontology[J]. Computer Engineering and Appfication, 2009, 45(10):133-137. (in Chinese)
14葉瓊. 農(nóng)業(yè)領(lǐng)域本體知識(shí)云化方法研究[D]. 合肥:安徽農(nóng)業(yè)大學(xué), 2012.
YE Qiong. Research on cloudization method of agricultural ontology knowledge[D]. Hefei: Anhui Agricultural University, 2012. (in Chinese)
15鄧子平. 面向醫(yī)學(xué)診療的本體自動(dòng)生成系統(tǒng)的研究與開發(fā)[D]. 廣州:廣東工業(yè)大學(xué), 2011.
DENG Ziping. Research and development of a ontology automatic generation system oriented medical diagnosis[D]. Guangzhou: Guangdong University of Technology,2011. (in Chinese)
16馬莉,陳志新.基于網(wǎng)站結(jié)構(gòu)的領(lǐng)域本體學(xué)習(xí)方法[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(16):83,85.
MA Li, CHEN Zhixin. Domain ontology learning mehtod based on structure of the site[J]. Computer CD Software and Applications,2014(16):83,85. (in Chinese)
17王紅,高斯婷,潘振杰,等.基于NNV關(guān)聯(lián)規(guī)則的非分類關(guān)系提取方法及其應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(10):3665-3668.
WANG Hong, GAO Siting, PAN Zhenjie, et al. Application and research of non-taxonimic relation extraction method based on NNV association rule[J]. Application Research of Computers, 2012, 29(10): 3665-3668. (in Chinese)
19SERRA I, GIRARDI R, NOVAIS P. Evaluating techniques for learning non-taxonomic relationships of ontologies from text[J]. Expert Systems with Applications, 2014, 41(11):5201-5211.
20CHE W, LI Z, LIU T. LTP: a Chinese language technology platform[C]∥Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations, 2010:13-16.
21ZOUAQ A, GASEVIC D, HATALA M. Linguistic patterns for information extraction in OntoCmaps[C]∥Proceedings of the 3rd Workshop on Ontology Patterns, 2012:1-12.
22古凌嵐, 孫素云. 基于語義依存的中文本體非分類關(guān)系抽取方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2012, 33(4):1676-1680.
GU Linglan, SUN Suyun. Approach to Chinese ontology non-taxonomic relation extraction based on semantic dependency[J].Computer Engineering and Design, 2012, 33(4):1676-1680. (in Chinese)
Research on Ontology Non-taxonomic Relations Extraction in Plant Domain Knowledge Graph Construction
Zhao MingDu YaruDu HuifangZhang JiajunWang HongshuoChen Ying
(CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China)
In order to provide more specific knowledge and technology of plant field, the main task of KG (knowledge graph) is to extract a wealth of concepts and relationships. Due to the relation extraction is the most difficult in KG construction, this paper makes use of ontology learning, and proposes a non-taxonomic relation learning method to obtain representative concepts and their relations from unstructured and semi-structured texts of Baidu Encyclopedia entry content by using lexicon-syntactic patterns based on dependency grammar analysis. Moreover, the methods of adding constraint models and words filtering were adopted to build heavy weight ontology automatically based on a lightweight ontology and greatly improved the precision of the relation extraction. The approach established a concept structure from the plant domain corpus, ameliorated the discovery of the most representative non-taxonomic relation, and formalized them in the standardized OWL 2.0. A set of experiments was performed using the approach implemented in the plant domain. The results indicated that extraction by patterns should be performed directly after natural language processing, which has a comparatively high accuracy compared to the former algorithms, and this approach can extract non-taxonomic relations with high effectiveness, which lays the foundation for KG construction of plant field.
plant domain ontology; knowledge graph; non-taxonomic relation; ontology learning; Baidu Encyclopedia
10.6041/j.issn.1000-1298.2016.09.038
2016-03-09
2016-05-15
國家自然科學(xué)基金項(xiàng)目(61503386)
趙明(1963—),男,副教授,主要從事知識(shí)工程與計(jì)算機(jī)圖形學(xué)研究,E-mail: zhaoming@cau.edu.cn
陳瑛(1978—),女,副教授,主要從事自然語言處理研究,E-mail: chenying@cau.edu.cn
TP391
A
1000-1298(2016)09-0278-07