曾楨 趙浩宇
(貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025)
傳統(tǒng)史書(shū)內(nèi)容的組織方式往往只能揭示一個(gè)維度的信息而弱化了其他維度的信息[1],這對(duì)專(zhuān)業(yè)學(xué)者和普通用戶進(jìn)行語(yǔ)義檢索和分析對(duì)比造成了困難。從傳統(tǒng)歷史文獻(xiàn)的知識(shí)組織方式來(lái)看,若以人物活動(dòng)刻畫(huà)歷史,不利于歷史事件整體維度的把握;若按歷史時(shí)間劃分,則會(huì)弱化人物活動(dòng)維度。因此,僅用一種知識(shí)組織方式很難展現(xiàn)豐富多元的歷史文獻(xiàn)資源內(nèi)容,不利于用戶對(duì)其感興趣的歷史信息進(jìn)行宏觀把握和深層了解。
隨著信息技術(shù)的快速發(fā)展,歷史文獻(xiàn)資源大都完成了數(shù)字化轉(zhuǎn)型升級(jí),但傳統(tǒng)圖情領(lǐng)域的知識(shí)組織方法面對(duì)海量的文獻(xiàn)資源卻顯得力不從心[2],如分類(lèi)法、主題法所采用的傳統(tǒng)知識(shí)組織方式相較于機(jī)器語(yǔ)言而言,其組織方式單一、語(yǔ)義表達(dá)性較差,很難發(fā)現(xiàn)知識(shí)資源之間隱含的復(fù)雜關(guān)系,因此一些有價(jià)值的信息被淹沒(méi)在數(shù)字化的海洋里。此外,各種形式結(jié)構(gòu)的中國(guó)近代史文獻(xiàn)資源零散分布在不同的館藏機(jī)構(gòu)和互聯(lián)網(wǎng)中,海量的數(shù)據(jù)成為封閉的孤島[3],難以充分發(fā)揮其潛在的價(jià)值。更智能地實(shí)現(xiàn)多源異構(gòu)歷史文獻(xiàn)資源語(yǔ)義關(guān)聯(lián)和深度融合的主要任務(wù)就是將現(xiàn)有的異構(gòu)數(shù)據(jù)集成起來(lái),讓計(jì)算機(jī)能夠自動(dòng)識(shí)別和處理,所以必須建立統(tǒng)一的標(biāo)準(zhǔn)體系,即本體[4]。構(gòu)建中國(guó)近代史本體有以下作用:①厘清歷史概念之間的關(guān)系,擴(kuò)充中國(guó)近代史本體詞表;②對(duì)中國(guó)近代史知識(shí)進(jìn)行多維度描述,將人物、事件、組織機(jī)構(gòu)、地點(diǎn)等不同實(shí)體相互關(guān)聯(lián),有利于對(duì)歷史內(nèi)容的宏觀把握和深層了解;③通過(guò)本體模型構(gòu)建中國(guó)近代史知識(shí)圖譜,以節(jié)點(diǎn)和邊的形式對(duì)中國(guó)近代史知識(shí)進(jìn)行細(xì)粒度的展示,實(shí)現(xiàn)中國(guó)近代史的可視化展示和知識(shí)查詢。
因此,本文在借鑒國(guó)內(nèi)外相關(guān)研究成果的基礎(chǔ)上,提出中國(guó)近代史相關(guān)歷史要素資源的語(yǔ)義描述與知識(shí)組織的思路和方法,并基于這一思路構(gòu)建中國(guó)近代史的歷史本體模型,在此基礎(chǔ)上完成中國(guó)近代史知識(shí)圖譜的實(shí)例展示,以期實(shí)現(xiàn)其可視化操作、復(fù)雜語(yǔ)義檢索以及知識(shí)發(fā)現(xiàn)等應(yīng)用層服務(wù)。
本體源于哲學(xué)中的本體論,側(cè)重于對(duì)“存在”進(jìn)行抽象的刻畫(huà)與描繪。Neches等[5]是人工智能領(lǐng)域最先為本體下定義的學(xué)者。Gruber[6]將本體定義為概念化的明確的規(guī)范說(shuō)明。Borst[7]認(rèn)為本體是一種共享的概念模型。計(jì)算機(jī)領(lǐng)域的本體側(cè)重于模擬人類(lèi)對(duì)世間萬(wàn)物認(rèn)知的行為方式,展現(xiàn)出認(rèn)知的概念體系,以及概念之間的語(yǔ)義關(guān)系,而提出本體的一個(gè)重要?jiǎng)訖C(jī)是知識(shí)的共享與復(fù)用,以及數(shù)據(jù)之間的互聯(lián)互通。
隨著本體研究的逐步成熟,結(jié)合語(yǔ)義網(wǎng)技術(shù)開(kāi)展相關(guān)研究日益成為圖書(shū)情報(bào)領(lǐng)域所關(guān)注的焦點(diǎn)[8]。已有學(xué)者開(kāi)展了中國(guó)近代史領(lǐng)域的本體和知識(shí)圖譜的構(gòu)建與應(yīng)用。如陸偉忠[9]以“國(guó)共合作”為題材構(gòu)建了國(guó)共合作歷史本體,并實(shí)現(xiàn)了語(yǔ)義檢索服務(wù)的本體應(yīng)用。吳麗杰[10]以“東北抗戰(zhàn)史”特色數(shù)據(jù)庫(kù)為實(shí)例探討特色數(shù)據(jù)庫(kù)本體構(gòu)建模式。梁恩平[11]對(duì)近代史研究者研究方向進(jìn)行了梳理,利用Protégé構(gòu)建了近代史研究者興趣領(lǐng)域本體,并提出了歷史檔案資源的個(gè)性化推送策略。陳玖瑜[12]依托數(shù)字人文理論和語(yǔ)義網(wǎng)相關(guān)技術(shù)挖掘出了民國(guó)文獻(xiàn)知識(shí)元之間的語(yǔ)義關(guān)聯(lián),設(shè)計(jì)了民國(guó)報(bào)紙本體,并以歷史人物梅蘭芳為實(shí)例完成了知識(shí)圖譜的可視化展示,實(shí)現(xiàn)了民國(guó)時(shí)期報(bào)紙內(nèi)容知識(shí)元的細(xì)粒度關(guān)聯(lián)。孫輝等[13]探索了國(guó)史領(lǐng)域知識(shí)的特征,提出國(guó)史本體的構(gòu)建步驟,實(shí)現(xiàn)了本體知識(shí)實(shí)例的可視化展示。王穎等[14]基于國(guó)史本體框架,利用Neo4j圖數(shù)據(jù)庫(kù)作為數(shù)據(jù)倉(cāng)儲(chǔ),實(shí)現(xiàn)了國(guó)史知識(shí)的可視化展示和檢索、問(wèn)答等服務(wù)層應(yīng)用,為國(guó)史領(lǐng)域知識(shí)的深度檢索服務(wù)提供了重要參考。張?jiān)浦械萚15]在構(gòu)建紅色歷史人物知識(shí)圖譜schema基礎(chǔ)上設(shè)計(jì)了知識(shí)問(wèn)答服務(wù)架構(gòu),提升了用戶的檢索體驗(yàn)。王帥奇等[16]對(duì)中國(guó)革命歷史檔案資源進(jìn)行開(kāi)發(fā),構(gòu)建了革命戰(zhàn)爭(zhēng)知識(shí)圖譜。劉偉麗[17]構(gòu)建了中共一大人物知識(shí)圖譜。葛勇文[18]構(gòu)建了中國(guó)近代革命文物知識(shí)圖譜,并實(shí)現(xiàn)了革命文物知識(shí)圖譜的應(yīng)用??梢?jiàn),結(jié)合本體、知識(shí)圖譜等語(yǔ)義網(wǎng)技術(shù),深入挖掘中國(guó)近代史相關(guān)事件細(xì)粒度的語(yǔ)義特征,順應(yīng)了當(dāng)前研究中國(guó)近代史的需要,具有很強(qiáng)的現(xiàn)實(shí)意義,但目前覆蓋中國(guó)近代史文獻(xiàn)資源全領(lǐng)域的本體建模相對(duì)較少,建模深度較淺,粒度較粗,本體開(kāi)發(fā)的系統(tǒng)性和可擴(kuò)展性有待提高。因此本研究將視角聚焦于中國(guó)近代史本體建模,實(shí)現(xiàn)中國(guó)近代史文獻(xiàn)資源的關(guān)聯(lián)與聚合,為中國(guó)近代史文本內(nèi)容的知識(shí)組織和表示提供新方法,為中國(guó)近代史知識(shí)圖譜的實(shí)證研究提供新思路。
本研究所需要的數(shù)據(jù)為電子形式的中國(guó)近代史文獻(xiàn)資料,主要選取歷史名人數(shù)據(jù)、中國(guó)近代史歷史大事記等具有歷史典型特征的文本數(shù)據(jù)作為本研究的基礎(chǔ)支撐。其中文本形式的資料以《簡(jiǎn)明中國(guó)近代史讀本》《中國(guó)近代史》《中國(guó)近現(xiàn)代名人生平暨生卒年錄(1840—2000)》《中國(guó)近代人物錄》等著作內(nèi)容為主。歷史人物數(shù)據(jù)主要來(lái)自國(guó)家圖書(shū)館人物專(zhuān)題數(shù)據(jù)庫(kù)、孫中山故居紀(jì)念館相關(guān)人物專(zhuān)題庫(kù)、維基百科以及百度百科等。歷史大事記主要來(lái)自網(wǎng)絡(luò)論壇、開(kāi)放數(shù)據(jù)集、垂直站點(diǎn)等多種數(shù)據(jù)源。其中,開(kāi)放數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)的主要來(lái)源,專(zhuān)題數(shù)據(jù)庫(kù)和百科是半結(jié)構(gòu)化數(shù)據(jù)的來(lái)源,從中國(guó)近代史書(shū)籍和垂直站點(diǎn)獲取的是非結(jié)構(gòu)化形式的文本內(nèi)容。針對(duì)以上數(shù)據(jù)源主要采用網(wǎng)絡(luò)爬蟲(chóng)、人工篩選、自然語(yǔ)言處理等方式獲取相關(guān)數(shù)據(jù)。
研究的主要工作是實(shí)現(xiàn)中國(guó)近代史文獻(xiàn)資源內(nèi)容細(xì)粒度知識(shí)元的語(yǔ)義化表示,因此設(shè)計(jì)了中國(guó)近代史本體模型,并基于此模型完成知識(shí)圖譜實(shí)證研究,實(shí)現(xiàn)知識(shí)內(nèi)容可視化展示和知識(shí)檢索等應(yīng)用。研究思路如圖1所示,分三步實(shí)現(xiàn)知識(shí)圖譜構(gòu)建。
圖1 研究思路
首先,進(jìn)行模式層的搭建,通過(guò)系統(tǒng)的調(diào)研分析,確定中國(guó)近代史知識(shí)圖譜所需要的具體數(shù)據(jù);其次,通過(guò)深入剖析文本內(nèi)容特征以及結(jié)合領(lǐng)域?qū)<抑R(shí)來(lái)設(shè)計(jì)相關(guān)概念、關(guān)系及屬性,運(yùn)用Protégé構(gòu)建中國(guó)近代史本體,完成“中國(guó)近代史”知識(shí)建模;再次,基于設(shè)計(jì)好的本體庫(kù),利用自然語(yǔ)言處理技術(shù)擴(kuò)充實(shí)例數(shù)據(jù),根據(jù)不同形式的數(shù)據(jù)類(lèi)型采取不同的方法對(duì)其進(jìn)行抽取;最后,將抽取得到的實(shí)例知識(shí)進(jìn)行整合處理,將其導(dǎo)入Neo4j中,并通過(guò)Web前端完成知識(shí)的可視化呈現(xiàn),實(shí)現(xiàn)中國(guó)近代史知識(shí)圖譜的實(shí)例構(gòu)建。整個(gè)構(gòu)建過(guò)程具有非領(lǐng)域性和非針對(duì)性,因此該方法不僅適用于中國(guó)近代史領(lǐng)域本體構(gòu)建,而且適用于其他領(lǐng)域本體模型的構(gòu)建。
模式層即知識(shí)圖譜的本體模型[19],是對(duì)數(shù)據(jù)層的約束和規(guī)范,通過(guò)本體模型刻畫(huà)出中國(guó)近代史的核心概念體系。構(gòu)建本體的根本目的在于為某一特定領(lǐng)域提供一套被廣泛接受、認(rèn)可和共享重用的概念體系[20],使得領(lǐng)域知識(shí)能夠被重用,避免“重復(fù)造輪子”的情況。本研究根據(jù)文獻(xiàn)資料的關(guān)鍵詞,結(jié)合歷史領(lǐng)域相關(guān)學(xué)者的專(zhuān)業(yè)知識(shí),考慮實(shí)際情況提煉出最具代表性的核心概念作為中國(guó)近代史本體的核心類(lèi)目,使用Protégé工具并結(jié)合“七步法”構(gòu)建中國(guó)近代史本體模型。具體步驟如下。
第一步,確定中國(guó)近代史本體的構(gòu)建范圍。根據(jù)需求分析確定構(gòu)建本體的對(duì)象,以中國(guó)近代史文獻(xiàn)資源為主要參考資料,確定以中國(guó)近代史內(nèi)容要素為研究對(duì)象。
第二步,尋找可復(fù)用的本體。通過(guò)DAML、Ontolingua、Protege本體庫(kù),調(diào)研可復(fù)用本體的類(lèi)和屬性并進(jìn)行引用,發(fā)現(xiàn)Foaf、Time Ontology、DC terms、EventKG、Org、CIDOC-CRM、BIBFRAME等本體中的相關(guān)概念和屬性可復(fù)用,但是目前可復(fù)用的本體模型不能完全滿足中國(guó)近代史細(xì)粒度知識(shí)描述的需要,因此筆者在基于關(guān)聯(lián)數(shù)據(jù)發(fā)布準(zhǔn)則的基礎(chǔ)上,根據(jù)需要自定義類(lèi)和屬性,構(gòu)建中國(guó)近代史本體模型CMH(China’s Modern History),用縮寫(xiě)“:cmh”作為前綴名稱定義中國(guó)近代史本體的描述詞匯。
第三步,列舉出中國(guó)近代史內(nèi)容中的重要術(shù)語(yǔ)。與相關(guān)歷史專(zhuān)家和學(xué)者進(jìn)行交流溝通,認(rèn)真聽(tīng)取其意見(jiàn),并結(jié)合網(wǎng)上調(diào)研,對(duì)中國(guó)近代史的相關(guān)知識(shí)內(nèi)容做了系統(tǒng)的梳理分析,最終凝煉出10個(gè)最具概括性的核心概念作為中國(guó)近代史本體的一級(jí)類(lèi)目。
第四步,定義本體分類(lèi)體系。根據(jù)中國(guó)近代史歷史知識(shí)元素和重要術(shù)語(yǔ),對(duì)其進(jìn)行歸納分類(lèi),確定本體模型中包含的類(lèi)及其層次關(guān)系,逐漸構(gòu)建完整的層級(jí)體系。在最頂級(jí)owl:Thing類(lèi)目下面設(shè)置“歷史人物”“歷史事件”“歷史文獻(xiàn)”“地點(diǎn)”“時(shí)間實(shí)體”“歷史時(shí)期”“思想理念”“領(lǐng)域”“行為主體”“組織機(jī)構(gòu)”10個(gè)核心概念。通過(guò)對(duì)概念的層次體系進(jìn)行構(gòu)建,能夠較好地抽象出中國(guó)近代史知識(shí)的概念體系,更真實(shí)地還原歷史細(xì)節(jié)。
第五步,定義本體屬性及關(guān)系。定義中國(guó)近代史本體數(shù)據(jù)屬性可以豐富對(duì)歷史實(shí)例的描述,擴(kuò)展實(shí)例含義;類(lèi)之間的相互關(guān)聯(lián)通過(guò)定義對(duì)象屬性來(lái)完成,對(duì)象屬性的建立可以方便中國(guó)近代史知識(shí)圖譜進(jìn)行語(yǔ)義關(guān)聯(lián)和知識(shí)發(fā)現(xiàn)。例如,“歷史事件”類(lèi)通過(guò)sem:hasActor屬性與“歷史人物”類(lèi)相互關(guān)聯(lián),“歷史文獻(xiàn)”類(lèi)通過(guò)dc:creator屬性與“歷史人物”類(lèi)相互關(guān)聯(lián)。本體類(lèi)之間的部分關(guān)聯(lián)如圖2所示。
圖2 中國(guó)近代史本體模型圖
第六步,定義本體屬性約束。本體屬性約束就是對(duì)屬性添加語(yǔ)義關(guān)系約束,具體包括三方面:一是定義屬性的定義域和值域;二是定義屬性的特性;三是定義屬性的限制。屬性約束的目的在于減少語(yǔ)義沖突,提升本體推理能力。
第七步,建立中國(guó)近代史本體實(shí)例。完成中國(guó)近代史本體類(lèi)、對(duì)象屬性、數(shù)據(jù)屬性的添加后,需要利用Protégé對(duì)中國(guó)近代史相關(guān)人物、事件、地點(diǎn)、時(shí)間等實(shí)例和屬性值進(jìn)行添加,形成中國(guó)近代史知識(shí)組織體系。
按照七步法構(gòu)建完畢后,中國(guó)近代史本體模型共有10個(gè)一級(jí)類(lèi)、53個(gè)二級(jí)類(lèi)、88個(gè)三級(jí)類(lèi),以及包括數(shù)據(jù)屬性和對(duì)象屬性在內(nèi)的95個(gè)屬性約束。有關(guān)中國(guó)近代史領(lǐng)域范疇本體構(gòu)建的研究,大多數(shù)學(xué)者都圍繞某一特定題材或?qū)W⒂谔囟v史要素進(jìn)行語(yǔ)義建模,而涵蓋中國(guó)近代史全領(lǐng)域的本體構(gòu)建研究相對(duì)較為缺乏。本研究構(gòu)建的本體模型,涵蓋中國(guó)近代史這一特定歷史時(shí)期內(nèi)的人物、事件、文獻(xiàn)、地點(diǎn)、機(jī)構(gòu)等重要實(shí)體概念,使單一的歷史要素之間融合成相互關(guān)聯(lián)的有機(jī)整體,拓寬了先前學(xué)者所構(gòu)建的本體范圍,補(bǔ)充了領(lǐng)域本體術(shù)語(yǔ)詞表,加深了中國(guó)近代史歷史要素之間的關(guān)聯(lián)性和系統(tǒng)性。目前,中國(guó)近代史本體主要涵蓋歷史人物和歷史事件的基本信息、人際關(guān)系、歷史事件的因果關(guān)系、歷史文獻(xiàn)的著述信息及思想內(nèi)容等多維度信息。此外,還可以依據(jù)本體構(gòu)建生命周期理論,根據(jù)需求的變化而動(dòng)態(tài)擴(kuò)充實(shí)體、關(guān)系和屬性。中國(guó)近代史本體模型的構(gòu)建為知識(shí)圖譜應(yīng)用層的搭建提供了基礎(chǔ)支持。
知識(shí)獲取是將半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為構(gòu)建知識(shí)圖譜數(shù)據(jù)層所需要的實(shí)體和關(guān)系的過(guò)程。因此根據(jù)數(shù)據(jù)來(lái)源的不同,本文通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、模式匹配、包裝器適配等方法,采集相關(guān)數(shù)據(jù)。通過(guò)使用HanLP、Jiagu等自然語(yǔ)言處理工具包完成實(shí)體識(shí)別、信息抽取等任務(wù),抽取所需要的實(shí)體、關(guān)系和屬性,并將其轉(zhuǎn)換成實(shí)體關(guān)系三元組。
結(jié)構(gòu)化數(shù)據(jù)具有良好的層次結(jié)構(gòu),通常存儲(chǔ)在數(shù)據(jù)庫(kù)中。本文從中文開(kāi)放知識(shí)圖譜(OpenKG.CN)中獲取“中國(guó)近代歷史人物知識(shí)圖譜”開(kāi)放數(shù)據(jù)集,包含近1 300位中國(guó)近代史人物的結(jié)構(gòu)化數(shù)據(jù)。
中國(guó)近代史人物實(shí)體屬性的來(lái)源通常是百科網(wǎng)站中的Infobox模塊的半結(jié)構(gòu)化數(shù)據(jù)。因頁(yè)面格式基本固定,遂采用包裝器方法對(duì)網(wǎng)站內(nèi)容進(jìn)行解析實(shí)現(xiàn)數(shù)據(jù)自動(dòng)采集,并將其存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)。
非結(jié)構(gòu)化數(shù)據(jù)通常是文本資源,其內(nèi)容完整,數(shù)據(jù)豐富,它是知識(shí)圖譜實(shí)例數(shù)據(jù)的主要來(lái)源,也是抽取任務(wù)的難點(diǎn)。鑒于選擇的文本數(shù)據(jù)缺乏大規(guī)模詞性標(biāo)注數(shù)據(jù)集,因此本文采用規(guī)則和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的方式來(lái)抽取三元組知識(shí)。經(jīng)過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn),中國(guó)近代史文本內(nèi)容中包含大量的著作、條款、會(huì)議、事件、條約、日期等內(nèi)容,其特點(diǎn)是表達(dá)形式比較固定,規(guī)則性較強(qiáng),易于提取知識(shí)元素,因此針對(duì)此類(lèi)型的數(shù)據(jù)主要采取基于模式匹配的方法抽取。最直接的方式就是將文本內(nèi)容視為字符序列,構(gòu)造正則表達(dá)式的字符模式,實(shí)現(xiàn)抽取。其余實(shí)體的抽取主要通過(guò)Hanlp開(kāi)源工具包、自定義詞典和規(guī)則相結(jié)合的方法自動(dòng)抽取文本中的實(shí)體。hanlp工具對(duì)特定領(lǐng)域中的實(shí)體識(shí)別具有較高的準(zhǔn)確度[21]。實(shí)體的屬性和關(guān)系利用jiagu深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)開(kāi)源模型進(jìn)行抽取,抽取的結(jié)果以三元組的形式表達(dá)出來(lái)。Jiagu深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)開(kāi)源模型是使用大規(guī)模語(yǔ)料訓(xùn)練而成,并且提供中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、關(guān)系抽取等常用自然語(yǔ)言處理功能,得益于已訓(xùn)練好的模型,其使用時(shí)無(wú)須對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。
通過(guò)以上方法采集的數(shù)據(jù)大多需要逐條篩選進(jìn)行二次過(guò)濾,剔除無(wú)關(guān)、重復(fù)數(shù)據(jù),完善缺省數(shù)據(jù),保障收集到的數(shù)據(jù)具有較高的質(zhì)量。本文利用上述方法半自動(dòng)獲取人物實(shí)體及其屬性5 507個(gè),獲取中國(guó)近代史中具有重要意義的歷史事件及其屬性177個(gè),人物間關(guān)系7萬(wàn)余對(duì)。
知識(shí)表示[22]是把人類(lèi)知識(shí)表示成機(jī)器可以理解的數(shù)據(jù)結(jié)構(gòu)和系統(tǒng)控制結(jié)構(gòu)的策略,知識(shí)表示是知識(shí)組織的前提和基礎(chǔ)。知識(shí)表示的形式大致可分為3種:三元組的形式、圖結(jié)構(gòu)的形式以及低維稠密向量表示的形式。本文使用RDF數(shù)據(jù)模型對(duì)中國(guó)近代史本體概念和關(guān)系進(jìn)行形式化表示,使計(jì)算機(jī)能夠理解數(shù)據(jù)模型。由于RDF三元組是由“點(diǎn)-邊-點(diǎn)”組成的有向語(yǔ)義網(wǎng)絡(luò)圖,本質(zhì)上屬于圖形模式的數(shù)據(jù)結(jié)構(gòu),因此可以與圖結(jié)構(gòu)數(shù)據(jù)相互映射。例如,三元組中每個(gè)實(shí)體對(duì)應(yīng)Neo4j圖中的一個(gè)節(jié)點(diǎn),屬性和關(guān)系對(duì)應(yīng)圖中的有向邊。數(shù)據(jù)層以實(shí)例數(shù)據(jù)為對(duì)象,為方便下文使用Neo4j作為知識(shí)圖譜的數(shù)據(jù)倉(cāng)儲(chǔ),因此對(duì)RDF進(jìn)行格式轉(zhuǎn)換,以備導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù)中使用,并完成從“實(shí)體-屬性-屬性值”或“實(shí)體-關(guān)系-實(shí)體”的三元組形式到Neo4j的對(duì)應(yīng)。將本體中的類(lèi)映射為圖中的實(shí)體節(jié)點(diǎn),本體的類(lèi)間關(guān)系映射為圖中節(jié)點(diǎn)的邊,本體屬性映射為圖中節(jié)點(diǎn)的屬性,從而實(shí)現(xiàn)本體模型到Neo4j的映射。在Neo4j圖數(shù)據(jù)庫(kù)中,數(shù)據(jù)屬性以鍵值對(duì)的形式作為對(duì)節(jié)點(diǎn)特征的描述,對(duì)象屬性作為節(jié)點(diǎn)和邊的關(guān)聯(lián)形式進(jìn)行表示。圖3為李鴻章人物信息屬性圖,數(shù)據(jù)屬性表示為<李鴻章-民族-漢族>,對(duì)象屬性表示為<李鴻章-任職機(jī)構(gòu)-清政府>等。
圖3 李鴻章人物信息屬性圖
中國(guó)近代史知識(shí)的融合包括本體層中概念、關(guān)系、屬性的融合,以及數(shù)據(jù)層中實(shí)例、屬性值的融合。概念層的融合即將中國(guó)近代史本體模型與其他相關(guān)本體中等價(jià)類(lèi)或?qū)傩越⒂成潢P(guān)系,實(shí)現(xiàn)模式層的語(yǔ)義融合,不同本體相同的類(lèi)和屬性用owl:equivalentClass和owl:equivalentProperty進(jìn)行關(guān)聯(lián)。例如本文中“歷史文獻(xiàn)”類(lèi)所包含的“文獻(xiàn)名稱”概念在文獻(xiàn)組件本體(DoCO)中表示為doco:title,而在書(shū)目框架本體(BIBFRAME)中描述為bf:workTitle,因此可以使用owl:equivalentClass屬性完成不同本體之間相同類(lèi)的映射。通過(guò)概念層的融合可以發(fā)現(xiàn)更多相似的本體,實(shí)現(xiàn)本體概念和屬性的擴(kuò)展,讓本體得到充分的共享,發(fā)揮本體的最大作用。數(shù)據(jù)層的融合包括實(shí)體鏈接和實(shí)體消歧。實(shí)體鏈接是將中國(guó)近代史實(shí)體實(shí)例與本體中的概念進(jìn)行相互映射,例如,若兩個(gè)含義相同的不同實(shí)例進(jìn)行相互關(guān)聯(lián),則使用owl:sameAs屬性來(lái)表示兩者身份的同一性,owl:sameAs屬性表示兩個(gè)不同URI的引用實(shí)際上指的是同一事物,兩個(gè)實(shí)體具有相同的“身份。crm:isEqualInTimeTo屬性用來(lái)融合兩個(gè)不同的時(shí)間表示方式,以此來(lái)表示兩個(gè)不同的時(shí)間表示方式指的是同一個(gè)時(shí)間點(diǎn)或時(shí)間段。例如,清帝退位時(shí)間按照皇帝年號(hào)紀(jì)年是“宣統(tǒng)三年十二月二十五日”,而用公元紀(jì)年法則是“1912年2月12日”,因此用crm:isEqualInTimeTo屬性來(lái)表示二者指代同一天。
實(shí)體消歧旨在解決不同名稱的實(shí)體含義相同的問(wèn)題,消除實(shí)體的多樣性和歧義性。同一地點(diǎn)在古代和近代往往存在不同的名稱,為了實(shí)現(xiàn)地名的統(tǒng)一,本文利用中國(guó)省市縣區(qū)域劃分開(kāi)放數(shù)據(jù)集作為實(shí)體鏈接的標(biāo)準(zhǔn)數(shù)據(jù),然后將已抽取的中國(guó)近代史相關(guān)地名與其進(jìn)行實(shí)體鏈接,完成實(shí)體對(duì)齊工作。其他實(shí)例,包括“歷史人物”“歷史事件”“歷史文獻(xiàn)”等賦予唯一標(biāo)識(shí)符URI并使用“別名”等屬性進(jìn)行輔助識(shí)別,完成實(shí)體消歧。例如,在中國(guó)近代史文獻(xiàn)中,“直隸”往往指皇帝所在的心腹之地,又稱“京師”,現(xiàn)今為“河北省”的管轄范圍。使用OWL語(yǔ)言進(jìn)行表示為:
中國(guó)近代史本體的構(gòu)建,標(biāo)志著知識(shí)圖譜模式層的完成。本文在中國(guó)近代史本體框架的基礎(chǔ)上增加相關(guān)實(shí)例,完成中國(guó)近代史知識(shí)圖譜的實(shí)例構(gòu)建。知識(shí)圖譜的可視化呈現(xiàn)是通過(guò)圖形化的形式表現(xiàn)出來(lái),因此選擇合適的存儲(chǔ)方式至關(guān)重要。本文使用Neo4j作為數(shù)據(jù)倉(cāng)儲(chǔ),完成知識(shí)圖譜的實(shí)例構(gòu)建。Neo4j為多種語(yǔ)言提供了API接口[23],如Java、Python、C#等。下面將通過(guò)Python語(yǔ)言和Cypher命令句對(duì)Neo4j進(jìn)行讀寫(xiě)操作。首先將上文抽取得到的數(shù)據(jù)進(jìn)行整合處理,轉(zhuǎn)換成CSV格式文件并存儲(chǔ)到Neo4j根目錄下的import文件,使用Cypher命令語(yǔ)句LOAD CSV將人物、事件節(jié)點(diǎn)及其屬性導(dǎo)入圖數(shù)據(jù)庫(kù)Neo4j中,然后再將人物和事件所對(duì)應(yīng)的關(guān)系導(dǎo)入其中。其次,因?yàn)槿宋镩g關(guān)系數(shù)量較多,且存儲(chǔ)格式為三元組的形式,所以選擇更快捷方便的Python第三方庫(kù)Py2neo將其導(dǎo)入Neo4j中,完成知識(shí)的可視化呈現(xiàn),為中國(guó)近代史知識(shí)圖譜實(shí)證研究打下基礎(chǔ)。完成知識(shí)存儲(chǔ)后,數(shù)據(jù)庫(kù)中共有包括人物、事件、地點(diǎn)、職位、作品、畢業(yè)學(xué)校等各類(lèi)實(shí)體節(jié)點(diǎn)數(shù)量11 768個(gè),各類(lèi)關(guān)系在內(nèi)的16 592條邊。
知識(shí)圖譜最重要的作用就是把知識(shí)以圖的形式展現(xiàn)出來(lái),圖中的節(jié)點(diǎn)和關(guān)系一目了然,得益于邊與邊之間的相互鏈接,可以沿著相鄰節(jié)點(diǎn)依次發(fā)現(xiàn)相互關(guān)聯(lián)的新知識(shí),最大程度地為用戶節(jié)省時(shí)間和精力。本文以中國(guó)近代時(shí)間段內(nèi)的相關(guān)人物和事件為例進(jìn)行知識(shí)圖譜的實(shí)證研究,以期探尋人物之間的深層關(guān)系和人物與事件的參與關(guān)系。本研究使用HTML+CSS+D3(jQuery)技術(shù)構(gòu)建前端展示平臺(tái),使用基于Python的Flask框架搭建后端服務(wù),并利用Neovis.js可視化組件與Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行連接并對(duì)其進(jìn)行操作。該平臺(tái)立足于中國(guó)近代史領(lǐng)域,以相關(guān)歷史要素為核心,構(gòu)建一個(gè)包含瀏覽與檢索功能的展示平臺(tái),實(shí)現(xiàn)中國(guó)近代史知識(shí)圖譜的可視化展示和相關(guān)應(yīng)用。
(1)知識(shí)圖譜的可視化展示。中國(guó)近代史知識(shí)圖譜的展示功能體現(xiàn)在兩個(gè)方面:一是瀏覽功能,即以圖的形式對(duì)知識(shí)元進(jìn)行部分或全部展示,并且支持節(jié)點(diǎn)的放大、縮小以及節(jié)點(diǎn)屬性詳情的瀏覽,讓用戶能夠從宏觀層面把握中國(guó)近代史知識(shí)脈絡(luò);二是詞云展示功能,即通過(guò)對(duì)中國(guó)近代史文本內(nèi)容進(jìn)行分詞和詞頻統(tǒng)計(jì)的直觀展現(xiàn),并生成相應(yīng)的詞云圖。
(2)知識(shí)圖譜的相關(guān)應(yīng)用。知識(shí)檢索是知識(shí)圖譜應(yīng)用層的一項(xiàng)基本功能,中國(guó)近代史知識(shí)圖譜的檢索功能可實(shí)現(xiàn)歷史人物和歷史事件的查詢,人物知識(shí)圖譜能直觀地了解人物間關(guān)系,方便發(fā)掘人物之間的隱含關(guān)系,事件知識(shí)圖譜可深入挖掘事件之間錯(cuò)綜復(fù)雜的關(guān)聯(lián)關(guān)系,能更好地把握歷史事件發(fā)展的趨勢(shì)和脈絡(luò)。
知識(shí)圖譜的檢索功能不但可以迅速返回結(jié)果,而且可以根據(jù)已存在的邏輯關(guān)系發(fā)現(xiàn)新的實(shí)體間關(guān)系,實(shí)現(xiàn)對(duì)隱性知識(shí)的挖掘。Neo4j圖數(shù)據(jù)庫(kù)使用的是Cypher查詢語(yǔ)言,形式與SQL查詢語(yǔ)言較為相似,它是一種聲明性模式匹配語(yǔ)言,可以通過(guò)簡(jiǎn)單的語(yǔ)法規(guī)則進(jìn)行非常復(fù)雜的查詢。例如,在前端歷史人物知識(shí)圖譜中查詢與“陳獨(dú)秀”相關(guān)的節(jié)點(diǎn),查詢結(jié)果如圖4所示,從圖中可以看出陳獨(dú)秀和李大釗共同參與了新文化運(yùn)動(dòng),和胡適共同參與了“五四運(yùn)動(dòng)”等歷史事件,從圖中也能看出與陳獨(dú)秀相關(guān)的屬性信息及其豐富的人際關(guān)系等。
圖4 知識(shí)檢索可視化展示
本文構(gòu)建了十分豐富的人物關(guān)系知識(shí)圖譜,包括父母、姐弟、戰(zhàn)友、好友、師生、領(lǐng)導(dǎo)等在內(nèi)的117個(gè)人物間關(guān)系類(lèi)型。研究中國(guó)近代史很重要的一點(diǎn)在于厘清歷史人物之間錯(cuò)綜復(fù)雜的關(guān)系,發(fā)現(xiàn)人物之間的隱性關(guān)系,深入挖掘人物的潛在歷史價(jià)值。
在不知道兩個(gè)人物之間有何關(guān)系時(shí),可以通過(guò)多深度關(guān)系節(jié)點(diǎn)查詢來(lái)發(fā)現(xiàn)人物節(jié)點(diǎn)之間的關(guān)系。當(dāng)需要實(shí)現(xiàn)中國(guó)近代史相關(guān)人物的多深度關(guān)系節(jié)點(diǎn)查詢時(shí),可以使用Cypher語(yǔ)法中的深度運(yùn)算符來(lái)完成查詢操作,Neo4j可以快速地對(duì)實(shí)體節(jié)點(diǎn)完成圖遍歷,并且可以計(jì)算出各節(jié)點(diǎn)的路徑,利用路徑關(guān)系推導(dǎo)出節(jié)點(diǎn)間的聯(lián)系。
綜上所述,歷史內(nèi)容通過(guò)書(shū)籍或網(wǎng)頁(yè)形式的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行展示時(shí),會(huì)浪費(fèi)用戶大量的時(shí)間和精力去挖掘、揭示各實(shí)體間的隱含關(guān)系,而知識(shí)圖譜能以最直觀的形式為歷史愛(ài)好者提供相關(guān)人物與事件的知識(shí)查詢,為了解歷史人物和事件之間的復(fù)雜關(guān)系提供新的視角和方法。
本研究從歷史文獻(xiàn)資源的開(kāi)發(fā)利用入手,以本體和知識(shí)圖譜等語(yǔ)義網(wǎng)技術(shù)為手段,從文本資料中篩選出相關(guān)概念及概念間關(guān)系,構(gòu)建了能夠揭示細(xì)粒度知識(shí)元之間語(yǔ)義關(guān)系的中國(guó)近代史本體模型,完成了中國(guó)近代史知識(shí)圖譜的實(shí)例構(gòu)建,實(shí)現(xiàn)了各實(shí)體屬性的細(xì)粒度知識(shí)關(guān)聯(lián),又以具體的歷史人物與事件為樣例進(jìn)行查詢驗(yàn)證,在理論與實(shí)踐上證明了知識(shí)圖譜技術(shù)在中國(guó)近代史研究上的可行性,并形成了較為完備的研究思路。
中國(guó)近代史知識(shí)圖譜的構(gòu)建,為相關(guān)學(xué)者探究中國(guó)近代史知識(shí)提供了便利,為歷史人文研究數(shù)字化提供了技術(shù)支持,在一定程度上豐富了歷史文獻(xiàn)資源的開(kāi)發(fā)利用,因此本研究既是一次有價(jià)值的嘗試,也為后續(xù)相關(guān)學(xué)科交叉研究提供借鑒和參考。為確保數(shù)據(jù)的準(zhǔn)確性,利用人工手段對(duì)爬取的數(shù)據(jù)進(jìn)行清洗,數(shù)據(jù)質(zhì)量高但效率較低,同時(shí)對(duì)于存在于非結(jié)構(gòu)化文本中的人物和事件實(shí)體識(shí)別的能力和方法有待進(jìn)一步完善,下一步的研究需要根據(jù)中國(guó)近代史文獻(xiàn)的內(nèi)外部特征,建立整個(gè)中國(guó)近代史文本標(biāo)注的語(yǔ)料庫(kù),以期從海量的文本中更準(zhǔn)確地獲取數(shù)據(jù),降低人工參與度,擴(kuò)充知識(shí)圖譜實(shí)體數(shù)量,補(bǔ)充實(shí)體屬性,從而為用戶提供更完善的智能推薦、知識(shí)推理、語(yǔ)義問(wèn)答等應(yīng)用層服務(wù)。