楊媛媛
本刊核心層次論文
領(lǐng)域知識圖譜的基本概念與構(gòu)建特點(diǎn)
楊媛媛
(渤海大學(xué) 文學(xué)院,遼寧 錦州 121013)
知識圖譜作為人工智能發(fā)展的基礎(chǔ)性內(nèi)核技術(shù),逐漸成為計(jì)算語言學(xué)與自然語言處理研究的熱點(diǎn)問題。對領(lǐng)域知識圖譜的基本概念和構(gòu)建特點(diǎn)進(jìn)行系統(tǒng)梳理,對領(lǐng)域知識圖譜的理論與實(shí)踐研究具有一定價(jià)值。本文對領(lǐng)域知識圖譜的基本概念、主要特點(diǎn)、發(fā)展歷程、構(gòu)建流程等內(nèi)容進(jìn)行了描寫和分析。在梳理領(lǐng)域知識圖譜取得的研究成果的基礎(chǔ)上,總結(jié)了目前領(lǐng)域知識圖譜構(gòu)建的主要特點(diǎn):數(shù)據(jù)來源和數(shù)據(jù)處理具有較強(qiáng)的領(lǐng)域特性,關(guān)系抽取是領(lǐng)域知識圖譜構(gòu)建的關(guān)鍵技術(shù)問題,領(lǐng)域知識圖譜構(gòu)建需要領(lǐng)域知識與構(gòu)建技術(shù)的深度融合。
領(lǐng)域知識圖譜;知識圖譜;構(gòu)建;特點(diǎn)
國家“十四五”發(fā)展規(guī)劃明確將科技自強(qiáng)作為國家發(fā)展的重要戰(zhàn)略任務(wù),將人工智能列為最高級別優(yōu)先發(fā)展的對象。《國務(wù)院辦公廳關(guān)于全面加強(qiáng)新時(shí)代語言文字工作的意見》明確提出“大力推動(dòng)語言文字與人工智能、大數(shù)據(jù)、云計(jì)算等信息技術(shù)的深度融合?!敝R圖譜作為基礎(chǔ)性內(nèi)核技術(shù),是人工智能得以實(shí)現(xiàn)的重要基礎(chǔ)。2012年,搜索引擎巨頭谷歌公司最早提出了“知識圖譜”的概念。知識圖譜的出現(xiàn),為傳統(tǒng)信息檢索帶來了巨大的變革,讓人們看到了信息檢索所可能達(dá)到的最簡潔、直接的效果,也讓人們看到了相關(guān)問題的無限延伸,意識到知識庫規(guī)模的重要性。繼谷歌之后,各大互聯(lián)網(wǎng)巨頭紛紛構(gòu)建了自己的知識圖譜,國外如Freebase、WikiData等;國內(nèi)如百度知心、搜狗知立方等。目前,世界各大公司都在不斷擴(kuò)充自己的知識圖譜規(guī)模,使其包含的實(shí)體規(guī)模數(shù)量更大,關(guān)系更復(fù)雜,體系更完備。與覆蓋各個(gè)領(lǐng)域的通用知識圖譜相比,專注于某一特定領(lǐng)域的領(lǐng)域知識圖譜所需實(shí)體數(shù)量規(guī)模和關(guān)系搭建難度相對降低。各個(gè)領(lǐng)域都在構(gòu)建自己的知識圖譜,并試圖將其應(yīng)用在專業(yè)領(lǐng)域來解決實(shí)際問題,如醫(yī)療、金融、地理、軍事、政治、語言、旅游等領(lǐng)域。目前各領(lǐng)域知識圖譜構(gòu)建都有了初步探索,并取得了一定成果。
“知識圖譜”產(chǎn)生于語義網(wǎng)(Semantic Web)的快速發(fā)展,其本質(zhì)內(nèi)涵是語義網(wǎng)的延伸和擴(kuò)展。20世紀(jì)中后期,計(jì)算機(jī)科學(xué)領(lǐng)域的專家學(xué)者普遍發(fā)現(xiàn),使用圖形來表示知識更便于知識的表達(dá)和理解。隨著學(xué)者們逐漸認(rèn)識到語義關(guān)系在計(jì)算機(jī)信息處理中的重要性,將圖論與語義關(guān)系構(gòu)建相結(jié)合的語義網(wǎng)絡(luò)便應(yīng)運(yùn)而生。語義網(wǎng)絡(luò),是用網(wǎng)絡(luò)表示不同實(shí)體和概念之間語義關(guān)系的一種形式,通常以圖的形式表現(xiàn)出來。
“知識圖譜”正是在語義網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來,其本質(zhì)是一種使用圖形表示知識之間關(guān)系的知識表示形式。與語義網(wǎng)絡(luò)相比,知識圖譜所覆蓋的知識范圍更大,關(guān)系更復(fù)雜。“知識圖譜”主要由實(shí)體和關(guān)系構(gòu)成。實(shí)體就是一個(gè)確切的對象,每個(gè)實(shí)體都會(huì)有很多屬性,比如“梅西”是一個(gè)實(shí)體,屬性包括身高、生日、國籍、所屬俱樂部等。實(shí)體是相對獨(dú)立的,而屬性往往依附于實(shí)體,有時(shí)實(shí)體的某個(gè)或多個(gè)屬性,也可以是一個(gè)或多個(gè)獨(dú)立的實(shí)體,比如“梅西的家人”對應(yīng)了父親、母親、哥哥、姐姐等,在每個(gè)稱謂都對應(yīng)了一個(gè)實(shí)體的同時(shí),這個(gè)稱謂本身就是一種屬性。關(guān)系則包括實(shí)體與屬性、實(shí)體與實(shí)體、屬性與屬性之間各種各樣的聯(lián)系。關(guān)系是形成知識圖譜的關(guān)鍵,基于知識圖譜的檢索系統(tǒng)正是通過遍歷每個(gè)節(jié)點(diǎn)尋找它們之間的語義關(guān)系,從而鎖定檢索目標(biāo)。
知識圖譜分為通用知識圖譜和領(lǐng)域知識圖譜。通用知識圖譜中的實(shí)體與關(guān)系覆蓋范圍廣,能夠滿足人們?nèi)粘Ω鱾€(gè)行業(yè)、各種知識的檢索。領(lǐng)域知識圖譜只服務(wù)于特定的研究領(lǐng)域。
通用知識圖譜與領(lǐng)域知識圖譜的主要區(qū)別就是實(shí)體的范圍。領(lǐng)域知識圖譜在構(gòu)建過程中,只構(gòu)建特定領(lǐng)域內(nèi)的實(shí)體,實(shí)體之間的關(guān)系描述與抽取則需要熟練的專業(yè)知識作為支撐。同時(shí),領(lǐng)域知識圖譜通常為解決特定領(lǐng)域內(nèi)專業(yè)人員的檢索需求而構(gòu)建,具有很強(qiáng)的針對性,服務(wù)特定領(lǐng)域和特定人群,如雙語旅游知識圖譜、區(qū)域地理知識圖譜、政治領(lǐng)域知識圖譜等。領(lǐng)域知識圖譜的上位概念是行業(yè)知識圖譜,多個(gè)精專的研究領(lǐng)域構(gòu)成了特定行業(yè)。行業(yè)知識圖譜的規(guī)模通常比領(lǐng)域知識圖譜更大,知識覆蓋的廣度更大。
“知識圖譜”從誕生之初的通用知識圖譜(General-purpose Knowledge Graph),到行業(yè)知識圖譜,再到領(lǐng)域知識圖譜(Domain-specific Knowledge Graph),這一系列知識圖譜的產(chǎn)生和構(gòu)建,體現(xiàn)了人工智能為了滿足人們對知識和知識表示形式不同層面的需求而取得的一系列成果。與通用知識圖譜相比,領(lǐng)域知識圖譜具有以下特點(diǎn):
領(lǐng)域知識圖譜與通用和行業(yè)知識圖譜相比,最突出的特點(diǎn)是具有領(lǐng)域?qū)I(yè)性,這種專業(yè)性主要體現(xiàn)在知識表示的深度與粒度上。領(lǐng)域知識圖譜根據(jù)具體需求可以達(dá)到更深的知識層面,比如我們最熟悉的電商領(lǐng)域,相對“裙子”這個(gè)通用概念,“日系夏季新款百搭氣質(zhì)優(yōu)雅收腰顯瘦小個(gè)子中長款修身連衣裙”在通用概念的基礎(chǔ)上,進(jìn)行了精細(xì)化分類,從各個(gè)分類角度對實(shí)體進(jìn)行描述與定位,從而為搜索引擎提供了更多的檢索鏈條。有時(shí)人們對于深度的認(rèn)識不能達(dá)成一致,即使在相同的學(xué)科背景之下,對于一些概念或知識點(diǎn)的分層,學(xué)者們存在一定的分歧,這種主觀認(rèn)知上的差別是領(lǐng)域知識圖譜構(gòu)建所面臨的主要困難之一。
領(lǐng)域知識圖譜所覆蓋的知識粒度也更細(xì),知識圖譜內(nèi)部的知識單位,可以是一個(gè)幾十頁的文件,幾百字的段落,或只有一個(gè)漢字的關(guān)鍵詞。領(lǐng)域知識圖譜為了滿足專業(yè)的檢索需求,其粒度往往要覆蓋到具體知識點(diǎn),甚至一個(gè)知識點(diǎn)的下位概念、相關(guān)概念、相關(guān)概念的下位概念等。如,醫(yī)學(xué)領(lǐng)域知識圖譜,關(guān)于一種疾病的知識表示,包括它發(fā)生的部位、產(chǎn)生癥狀、對應(yīng)檢查、并發(fā)疾病、治療方式、治療藥物、相關(guān)流行病、社會(huì)學(xué)調(diào)查等一系列知識單位。每個(gè)知識單位繼續(xù)層層展開分類,直到具體的關(guān)鍵詞為止。正是因?yàn)轭I(lǐng)域知識圖譜所覆蓋的粒度更細(xì),粒度之間的聯(lián)系更加復(fù)雜、多維,才能滿足專業(yè)領(lǐng)域的深度檢索需求,解決更專業(yè)的問題。
“知識圖譜”的誕生要追溯整個(gè)人工智能的發(fā)展歷程。作為人工智能龐大體系中的一個(gè)組成部分,知識圖譜是人工智能在大數(shù)據(jù)時(shí)代發(fā)展的重要突破。人工智能研究的終極目標(biāo)是使計(jì)算機(jī)像人腦一樣,不僅僅能夠處理簡單的計(jì)算和推理,并且能夠完成類似人類大腦通過思考來處理問題的一系列復(fù)雜任務(wù)。
人工智能興起之初,學(xué)者們并沒有像現(xiàn)在這樣認(rèn)識到知識的重要性,而是側(cè)重于使用符號構(gòu)建各種各樣的推理模型。面對某一特定問題,通過構(gòu)建模型和數(shù)據(jù)的推導(dǎo)來得到一個(gè)結(jié)果,這就是答案。這種推理方式可以說是冷酷無情的,將互聯(lián)網(wǎng)中所有的信息轉(zhuǎn)化為格式化數(shù)據(jù),所有信息的關(guān)系依靠運(yùn)算符號進(jìn)行推導(dǎo)和歸納,這種數(shù)據(jù)化的結(jié)構(gòu)方式忽略了信息本身的特性,突出的是結(jié)構(gòu)化的共性。
隨著人工智能的發(fā)展,當(dāng)信息處理發(fā)展到一定程度,僅依靠單一化、絕對化的符號處理不能體現(xiàn)龐大、多元、復(fù)雜的結(jié)構(gòu)關(guān)系,也無法充分體現(xiàn)數(shù)據(jù)的本質(zhì)特性之后,學(xué)者們逐漸認(rèn)識到“知識”的重要性?!爸R”體現(xiàn)在兩個(gè)方面:
第一是結(jié)構(gòu)化數(shù)據(jù)背后所隱藏的信息的特有屬性和知識價(jià)值;
第二是模擬人腦所具有的,使用已經(jīng)獲得的知識進(jìn)行相關(guān)推理的能力。讓計(jì)算機(jī)能夠像人腦一樣具有相關(guān)知識的識別和推理能力,而不是單純通過構(gòu)建模型進(jìn)行數(shù)據(jù)推導(dǎo),使人工智能發(fā)展到了一個(gè)新的階段。
這種讓計(jì)算機(jī)具有領(lǐng)域?qū)<乙粯拥闹R推導(dǎo)能力的思想叫作“知識工程”。“知識工程”的核心思想是讓計(jì)算機(jī)具有專家級別的知識體系,構(gòu)建“專家系統(tǒng)”。在專家系統(tǒng)的構(gòu)建工程中,這些門類復(fù)雜的知識如何有效地表達(dá)出來,是一個(gè)關(guān)鍵問題。海量知識的存儲(chǔ)和表示,是構(gòu)建知識之間推理關(guān)系的重要前提。
因此,尋找一種能夠準(zhǔn)確、高效地完成知識表示的方法是推動(dòng)知識工程構(gòu)建的關(guān)鍵步驟。知識表示是將來源于現(xiàn)實(shí)世界的具體信息轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),以便實(shí)現(xiàn)后期知識推理。而現(xiàn)實(shí)世界中的海量信息語義關(guān)系復(fù)雜,邏輯關(guān)系層次混亂,常常需要專業(yè)的分析和思考。為了解決知識表示所面臨的困難,學(xué)者們嘗試了多種知識表示的方法,語義網(wǎng)絡(luò)就是其中一種,此外還包括謂詞邏輯、決策樹、貝葉斯網(wǎng)絡(luò)、馬爾科夫邏輯網(wǎng)等[1]。
知識圖譜就是在這些方法的基礎(chǔ)上誕生的知識表示方法之一。但知識圖譜誕生之初,就有著與傳統(tǒng)知識工程的知識表示方法本質(zhì)的區(qū)別。知識圖譜興起于大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)的高速發(fā)展催生了用戶對數(shù)據(jù)規(guī)模的需求,這就要求新的知識表示方法,能夠適用于具有龐大數(shù)據(jù)規(guī)模并且處于不斷更新之中的大數(shù)據(jù)網(wǎng)絡(luò)。
2012年谷歌公司推出了知識圖譜,這種全新的知識表示形式更新了傳統(tǒng)的知識表示,擴(kuò)大了知識工程的規(guī)模,打破了傳統(tǒng)知識工程中既定專家系統(tǒng)的邊界,滿足了大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)信息檢索需求。知識圖譜誕生于大數(shù)據(jù)時(shí)代,根植于互聯(lián)網(wǎng)系統(tǒng),以大規(guī)模的知識表示為主要任務(wù)。作為大數(shù)據(jù)時(shí)代知識工程的代表性方法,其突出特點(diǎn)是融合了互聯(lián)網(wǎng)所生成的內(nèi)容,包括網(wǎng)站、網(wǎng)頁、論壇、百科以及各種信息來源和各種形式的信息。這些來自用戶的海量信息以極大的開放性、復(fù)雜性和超乎想象的速度日益增長,面對如此巨大的信息規(guī)模,基于互聯(lián)網(wǎng)的知識圖譜的構(gòu)建面臨著巨大的挑戰(zhàn),同時(shí)也具有極大的應(yīng)用價(jià)值。
領(lǐng)域知識圖譜的核心要件是海量的實(shí)體和多維復(fù)雜的實(shí)體之間的關(guān)系,因此構(gòu)建知識圖譜的工作主要分為實(shí)體識別和抽取實(shí)體之間的兩大關(guān)系。
實(shí)體識別是構(gòu)建知識圖譜的基礎(chǔ)性工作。實(shí)體是構(gòu)成知識圖譜關(guān)系網(wǎng)絡(luò)的個(gè)體,擁有足夠數(shù)量的實(shí)體才能構(gòu)成規(guī)模性知識圖譜。實(shí)體識別是在來源各異、形式多樣的海量信息中將具體的時(shí)間、地點(diǎn)、任務(wù)、學(xué)科等實(shí)體信息識別出來。根據(jù)構(gòu)建需求,實(shí)體的識別可以達(dá)到不同的粒度,如機(jī)構(gòu)的識別,就有“中央民族大學(xué)”和“中央民族大學(xué)中國少數(shù)民族語言學(xué)院蒙古語言文學(xué)系”兩種不同的粒度,識別的層次分別是學(xué)校名稱和具體院系名稱。實(shí)體識別的方法主要有兩種:
一種是制定好規(guī)則或者固定的模板,并配合一定的人工參與,比如“大學(xué)”這個(gè)字段前面的內(nèi)容就是一個(gè)特定機(jī)構(gòu)的名稱,“大學(xué)”就是模板之一。而規(guī)則的制定是需要豐富的語言學(xué)知識的,需要一定的人工參與。這種方法的特點(diǎn)就是高度依賴模板和規(guī)則,前期模板描寫和規(guī)則制定需要大量的準(zhǔn)備工作。
另一種方法就是依靠機(jī)器學(xué)習(xí),通過訓(xùn)練模型對目標(biāo)文本進(jìn)行自動(dòng)標(biāo)注和識別。根據(jù)具體的需求,構(gòu)建標(biāo)簽體系,對目標(biāo)文本中的每個(gè)詞語進(jìn)行標(biāo)簽標(biāo)注,使用各種特征進(jìn)行模型訓(xùn)練,從而完成標(biāo)注,實(shí)現(xiàn)實(shí)體識別。比較經(jīng)典的訓(xùn)練模型包括隱馬爾科夫模型(HMM)、條件隨機(jī)場模型(CRF)和深度學(xué)習(xí)模型。
實(shí)體之間關(guān)系的抽取是構(gòu)建知識圖譜的核心內(nèi)容。通過實(shí)體之間關(guān)系抽取和搭建才能形成規(guī)模性網(wǎng)絡(luò),從而實(shí)現(xiàn)智能推薦和立體檢索。實(shí)體之間關(guān)系的抽取方法,與實(shí)體識別類似,主要有兩種:
一種是依靠觸發(fā)詞或依存句法匹配的方法,這種方法類似于使用固定模板,即出現(xiàn)特定的觸發(fā)詞,就進(jìn)行關(guān)系抽取;或者對目標(biāo)語句進(jìn)行分析,將分析結(jié)果與依存語法規(guī)則匹配,匹配成功就生成一組實(shí)體與關(guān)系。這種方法的實(shí)質(zhì)是依靠前期豐富的觸發(fā)詞和大量的依存語法規(guī)則的制定,后期只需要進(jìn)行簡單的匹配就能得到結(jié)果。其優(yōu)點(diǎn)是操作簡單,結(jié)果準(zhǔn)確;其缺點(diǎn)是前期模板的構(gòu)建工作量大,規(guī)則庫一旦構(gòu)建,可調(diào)整性差。
另一種方法是依靠機(jī)器學(xué)習(xí),訓(xùn)練模型實(shí)現(xiàn)自動(dòng)抽取的方法。為了達(dá)到自動(dòng)抽取,盡量減少人工標(biāo)注和人工設(shè)計(jì)特征的目標(biāo),實(shí)體關(guān)系抽取的機(jī)器學(xué)習(xí)模型從傳統(tǒng)的有監(jiān)督學(xué)習(xí)使用特征標(biāo)注的最大熵模型、核函數(shù)方法中的句法樹、SPT最短依賴路徑樹、上下文相關(guān)的最短依賴樹等思想,到遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)關(guān)系抽取模型,以及不斷提出的不滿足于深度學(xué)習(xí)大量標(biāo)注而提出的半監(jiān)督抽取方法。實(shí)體關(guān)系自動(dòng)抽取的方法經(jīng)歷了一系列的演變和發(fā)展[2]。
與通用知識圖譜相比,領(lǐng)域知識圖譜的數(shù)據(jù)來源具有較強(qiáng)的領(lǐng)域特性。這種特性主要體現(xiàn)為數(shù)據(jù)的專深性,是由領(lǐng)域知識圖譜的性質(zhì)決定的。在目前的領(lǐng)域知識圖譜構(gòu)建研究中,大多數(shù)研究集中在某一特定領(lǐng)域的具體方向上。因此,與通用知識圖譜相比,數(shù)據(jù)來源的范圍相對狹窄,只針對特定研究方向的特定問題;同時(shí)數(shù)據(jù)來源的深度相對延長,往往需要具有專業(yè)背景的專業(yè)人士進(jìn)行前期的數(shù)據(jù)選取和加工處理。如,醫(yī)學(xué)領(lǐng)域的疾病名稱、藥物名稱、病理體系[3-5],語言學(xué)領(lǐng)域甲骨文的字際關(guān)系[6-7]、漢語與外語或少數(shù)民族語言之間跨語言的同源詞對應(yīng)[8],軍事安全領(lǐng)域的情報(bào)獲取與反恐感知,政治領(lǐng)域的事件劃分與事理推斷[9],地理領(lǐng)域的位置數(shù)據(jù)和時(shí)空轉(zhuǎn)換[10],司法領(lǐng)域的罪名判斷,電商領(lǐng)域的商品信息對應(yīng)[11],海關(guān)領(lǐng)域的商品甄別,農(nóng)業(yè)領(lǐng)域的蟲害信息等。領(lǐng)域內(nèi)部專業(yè)知識的獲取,除了使用網(wǎng)絡(luò)爬蟲對相對應(yīng)的網(wǎng)絡(luò)頁面進(jìn)行爬取之外,還要對獲得的文本信息進(jìn)行人工地分析和篩選,去除研究主題無關(guān)的干擾項(xiàng)。
領(lǐng)域知識圖譜的數(shù)據(jù)來源具有較強(qiáng)的領(lǐng)域特性也體現(xiàn)在實(shí)體抽取中。對來源數(shù)據(jù)進(jìn)行數(shù)據(jù)清理以后,領(lǐng)域知識圖譜構(gòu)建的基礎(chǔ)工作是對數(shù)據(jù)庫中的實(shí)體進(jìn)行識別和抽取,哪些命名實(shí)體是構(gòu)建領(lǐng)域知識圖譜的主體,是實(shí)體抽取的主要對象,實(shí)體和它的各個(gè)屬性信息之間是怎樣的對應(yīng)關(guān)系,實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,都需要在抽取工作開始之前,進(jìn)行系統(tǒng)地整理和規(guī)范。而這些實(shí)體、屬性、關(guān)系之間的規(guī)則建立則需要由具有專業(yè)背景和領(lǐng)域知識才能完成,與通用知識圖譜中的通用知識有著本質(zhì)區(qū)別。
所以,在領(lǐng)域知識圖譜構(gòu)建的前期,在構(gòu)建領(lǐng)域知識庫的過程中所有涉及到數(shù)據(jù)文本的處理問題都體現(xiàn)出較強(qiáng)的領(lǐng)域特性,是領(lǐng)域知識圖譜構(gòu)建的主要特點(diǎn)之一。
不論是通用知識圖譜還是領(lǐng)域知識圖譜的構(gòu)建,都圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)核心元素展開。在知識圖譜的構(gòu)建過程中,人們通常將這三者從海量信息中抽取出來,構(gòu)成一個(gè)實(shí)體的三元組。同一個(gè)實(shí)體的屬性通常是多元的,具有很強(qiáng)的擴(kuò)展性,是否將實(shí)體的所有屬性信息在海量的信息中全部抽取出來,或者只是有選擇地進(jìn)行抽取和組合,是構(gòu)建知識圖譜的另一項(xiàng)至關(guān)重要的決定。因?yàn)橥粋€(gè)實(shí)體所選定的屬性數(shù)量的多少,將同時(shí)決定實(shí)體與實(shí)體之間關(guān)系的數(shù)量、關(guān)系的種類、關(guān)系的層次等等。而知識圖譜構(gòu)建工作的關(guān)鍵技術(shù)問題就是在海量的實(shí)體與屬性信息中,抽取那些顯性的或隱性的語義關(guān)系。
領(lǐng)域知識圖譜構(gòu)建的主要技術(shù)問題包括知識抽取、知識表示、知識融合與知識推理。這四個(gè)主要技術(shù)問題實(shí)際上是領(lǐng)域知識圖譜構(gòu)建的四個(gè)主要步驟,它們都是圍繞著知識圖譜的核心——實(shí)體關(guān)系展開的。不論是知識抽取、知識表示還是知識推理,這幾項(xiàng)工作的處理對象都是實(shí)體和屬性信息之間的語義關(guān)系。而在這三項(xiàng)對實(shí)體和屬性信息關(guān)系的處理工作中,實(shí)體和屬性信息的關(guān)系抽取是核心基礎(chǔ)工作,不論是知識表示還是知識推理都是在前期的關(guān)系抽取的基礎(chǔ)上完成的。因此,關(guān)系抽取工作的結(jié)果,將直接影響后期知識表示和知識推理的質(zhì)量和層級。關(guān)系抽取是領(lǐng)域知識圖譜構(gòu)建的關(guān)鍵技術(shù)問題。
在面向各領(lǐng)域的知識圖譜構(gòu)建中,針對各領(lǐng)域的具體的實(shí)體關(guān)系,提出了不同的關(guān)系抽取框架和模型。傳統(tǒng)的關(guān)系抽取方法主要是人工制定語義規(guī)則或模板,隨著自然語言處理技術(shù)的發(fā)展,關(guān)系模型逐漸取代了人工定義的規(guī)則。目前,在領(lǐng)域知識圖譜構(gòu)建中常用的關(guān)系抽取方法主要包括馬爾科夫邏輯網(wǎng)和本體推理等。馬爾科夫邏輯網(wǎng)MLN(Markov logic network)[12]是一種基于關(guān)系學(xué)習(xí)框架的實(shí)體關(guān)系抽取模型,該模型融合了馬爾科夫網(wǎng)絡(luò)與一階邏輯。在馬爾科夫邏輯網(wǎng)的基礎(chǔ)上,提出了各種各樣針對實(shí)體關(guān)系抽取的改進(jìn)模型,包括可自動(dòng)生成抽取器的StatSnowball模型[13]、將關(guān)系抽取與實(shí)體識別結(jié)合的EntSum模型[14]、簡易馬爾科夫邏輯模型[15]等。
這些關(guān)系抽取的框架和模型,隨著大數(shù)據(jù)時(shí)代計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展而不斷改進(jìn),沒有一種框架和模型是一成不變的。針對不同具體領(lǐng)域的數(shù)據(jù)特征,調(diào)整模型和參數(shù),從而促進(jìn)了領(lǐng)域知識圖譜關(guān)系抽取技術(shù)的全面發(fā)展。
領(lǐng)域知識圖譜的構(gòu)建是在知識圖譜構(gòu)建技術(shù)與領(lǐng)域知識進(jìn)行深度融合的基礎(chǔ)上完成的,與通用知識圖譜相比難度更大。與領(lǐng)域知識深度融合的知識圖譜構(gòu)建,從數(shù)據(jù)獲取、數(shù)據(jù)清洗、規(guī)則建立等基礎(chǔ)性工作,到信息抽取、知識表示、圖譜可視化等一系列工作中都要對領(lǐng)域知識進(jìn)行有針對性地處理。例如,地理領(lǐng)域知識圖譜的構(gòu)建,必須充分考慮地理領(lǐng)域知識的特性。地理空間數(shù)據(jù)是地理領(lǐng)域知識圖譜數(shù)據(jù)區(qū)別于其他領(lǐng)域知識圖譜的主要特征。除了一般領(lǐng)域知識圖譜構(gòu)建需要的實(shí)體屬性、語義關(guān)聯(lián)之外,還要抽取地物的空間方位等地理語義特征。
來自通用知識庫的屬性信息只能提供地物的一般語義特征,如名稱、長度、寬度、坐標(biāo),以及與其他地物之間的關(guān)系等;而地理空間信息則包括地物的空間方位信息,如東南西北、穿過、鄰接、覆蓋、遠(yuǎn)近等。此外,地物的空間特征具有幾何形狀與空間關(guān)系兩重特征。幾何形狀如點(diǎn)(車站)、線(道路)、面(行政區(qū)域);空間關(guān)系包括方位(東、南、西、北)、拓?fù)洌ㄏ嗟?、相離、鄰接、相交、穿過、在之內(nèi)、覆蓋)、距離關(guān)系(遠(yuǎn)、近、非常近、非常遠(yuǎn)、中等)[16]。因此,地理領(lǐng)域知識圖譜的構(gòu)建,在實(shí)體抽取和關(guān)系抽取中,除了屬性和語義關(guān)系的抽取,還要進(jìn)行空間關(guān)系的抽取,并將地理空間知識與通用知識進(jìn)行知識融合,實(shí)體對齊,屬性融合,從而構(gòu)建領(lǐng)域知識圖譜。除此之外,地理領(lǐng)域知識圖譜在關(guān)系抽取過程中,在處理語義信息的基礎(chǔ)上,還要處理位置信息[17]。這使得地理領(lǐng)域知識圖譜的實(shí)體構(gòu)建和關(guān)系抽取工作量更加繁重復(fù)雜。構(gòu)建一個(gè)地理領(lǐng)域知識圖譜的工程要大大超出其他領(lǐng)域知識圖譜,融合了位置信息和語義信息的實(shí)體關(guān)系變得更加復(fù)雜,很多時(shí)候要將各種關(guān)系進(jìn)行分層處理。這使得實(shí)體之間的關(guān)系鏈條大大增加,在顯性關(guān)系的基礎(chǔ)上補(bǔ)全隱性的、需要進(jìn)一步推理的實(shí)體關(guān)系,對實(shí)體之間的鏈接進(jìn)行預(yù)測和補(bǔ)全是地理領(lǐng)域知識圖譜構(gòu)建技術(shù)關(guān)注較多的問題[18]。
此外,政治領(lǐng)域、醫(yī)學(xué)領(lǐng)域、電商領(lǐng)域、法律領(lǐng)域等各領(lǐng)域知識圖譜的構(gòu)建都要對領(lǐng)域知識與構(gòu)建技術(shù)進(jìn)行深度融合,充分考慮到具體領(lǐng)域知識在語義表達(dá)上的突出特征,并將這些特征進(jìn)行充分和完整地表達(dá),從而構(gòu)建具有領(lǐng)域特色的知識圖譜。但深度融合了領(lǐng)域知識的知識圖譜構(gòu)建,在技術(shù)上和工程上所面臨的難度和挑戰(zhàn)也更大。因此,很多領(lǐng)域知識圖譜構(gòu)建的研究并不聚焦于整個(gè)領(lǐng)域知識圖譜的構(gòu)建工作,而專注于領(lǐng)域知識圖譜構(gòu)建微觀技術(shù)的實(shí)現(xiàn),如基于實(shí)體關(guān)系的知識補(bǔ)全、鏈接預(yù)測、知識推理模型、算法改進(jìn)等。這些專注于關(guān)系抽取或知識表示的細(xì)微技術(shù)的改進(jìn)對領(lǐng)域知識圖譜的構(gòu)建有著重要意義。正是在每一次技術(shù)和方法改進(jìn)的技術(shù)上,這種領(lǐng)域知識與構(gòu)建技術(shù)的深度融合才得以實(shí)現(xiàn)。
[1] 肖仰華. 知識圖譜概念與技術(shù)[M]. 北京: 電子工業(yè)出版社, 2020: 10.
[2] 陳華均. 知識圖譜導(dǎo)論[M]. 北京: 電子工業(yè)出版社, 2021: 64-83.
[3] 劉道文. 基于多源知識圖譜融合的智能導(dǎo)診算法[J]. 中文信息學(xué)報(bào), 2021, 35(1): 125-134.
[4] 龔樂君, 楊璐, 高志宏, 等. LncRNA與疾病關(guān)系的知識 圖譜構(gòu)建[J]. 山東大學(xué)學(xué)報(bào), 2021, 51(2): 26-33.
[5] 譚玲. 醫(yī)學(xué)知識圖譜構(gòu)建關(guān)鍵技術(shù)及研究進(jìn)展[EB/OL]. (2021-03-08)[2022-02-23].https://kns.cnki.net/kcms/ detail/10.1321.g2.20210428.0849.002.html
[6] 熊晶, 鐘珞, 王愛民. 甲骨文知識圖譜構(gòu)建中的實(shí)體關(guān)系發(fā)現(xiàn)研究[J]. 計(jì)算機(jī)工程與科學(xué), 2015, 37(11): 2189- 2194.
[7] 蔡鴻博. 基于上位詞的中文實(shí)體關(guān)系圖譜構(gòu)建[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014.
[8] 馮小蘭, 趙小兵. 漢藏雙語旅游領(lǐng)域知識圖譜系統(tǒng)構(gòu)建[J].中文信息學(xué)報(bào), 2019, 33(11): 65-72.
[9] 賀博驛. 思政領(lǐng)域知識圖譜構(gòu)建與系統(tǒng)實(shí)現(xiàn)[D]. 武漢: 華中師范大學(xué), 2020.
[10] 劉俊楠, 劉海硯, 陳曉慧, 等. 面向多源地理空間數(shù)據(jù)的知識圖譜構(gòu)建[J]. 地球信息科學(xué)報(bào), 2020, 22(7): 1476-1486.
[11] 王思宇. 基于知識圖譜的在線商品問答研究[J]. 中文信息學(xué)報(bào), 2020, 34(11): 104-112.
[12] DOMINGOS P, LOWD D. Markov logic: an interface layer for artificial intelligence[M]. San Rafael, CA: Morgan & Claypool, 2009: 24-30.
[13] ZHU Jun, NIE Zai-qing, LIU Xiao-jiang, et al. Stat-Snowball: a statistical approach to extracting entityrela-tionships[C]//Proceedings of the 18th International Con-ference on WorldWideWeb. Switzerland: WWW 2009: 101-110.
[14] LIU Xiao-jiang, YU Neng-hai. People summarization by combining named entity recognition and relation extraction[J]. Journal of Convergence Information Te-chnology, 2010, 5(10): 233-241.
[15] DOMINGOS P, WEBB A. A tractable first-order probabilistic logic[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence. San Francisco, CA: AAAI, 2012:1902-1909.
[16] 段鵬飛. 基于空間投影和關(guān)系路徑的地理知識圖譜表示學(xué)習(xí)[J]. 中文信息學(xué)報(bào), 2018, 32(3): 26-33.
[17] 李恒. 地理社會(huì)網(wǎng)絡(luò)數(shù)據(jù)可視化分析研究綜述[J]. 中文信息學(xué)報(bào), 2018, 32(10): 11-18.
[18] 張寧豫. 基于位置的知識圖譜鏈接預(yù)測[J]. 中文信息學(xué)報(bào), 2018, 32(4): 80-86.
H17
A
1674-327X (2022)03-0057-05
10.15916/j.issn1674-327x.2022.03.014
2022-01-14
國家社科基金青年項(xiàng)目(17CYY044); 遼寧省哲學(xué)社會(huì)科學(xué)青年人才委托項(xiàng)目(2022LSLWTKT-059)
楊媛媛(1986-),女(滿族),遼寧錦州人,講師,博士。
(責(zé)任編輯:付春玲)