郭凌宇 吳俊潮 陳鑫 姜贏 耿之矗
(1.北京師范大學(xué)珠海分校管理學(xué)院 廣東省珠海市 519000)
(2.北京師范大學(xué)人文和社會(huì)科學(xué)高等研究院 廣東省珠海市 519000)
紅色文化資源是指中國(guó)共產(chǎn)黨領(lǐng)導(dǎo)人民在長(zhǎng)期革命斗爭(zhēng)實(shí)踐中形成的精神和史跡,具有教育價(jià)值、經(jīng)濟(jì)價(jià)值、和品牌價(jià)值。弘揚(yáng)、傳承、發(fā)展紅色文化資源是實(shí)現(xiàn)民族復(fù)興、建立文化自信、提升人民幸福感的需要。目前紅色文化資源的數(shù)字化方式僅是載體層面上的數(shù)字化,存在分散民間、保護(hù)力度低卻又不可再生、、信息內(nèi)容缺乏立體性和直觀性、共享性差、表達(dá)方式枯燥單一等問(wèn)題,傳統(tǒng)的信息資源數(shù)字化手段已經(jīng)不能適應(yīng)紅色文化發(fā)展的需要。
“數(shù)字中國(guó)”建設(shè)實(shí)施以來(lái),教育信息化程度不斷提高,為紅色文化資源更加完整、持久地保存,更好地傳承與發(fā)展帶來(lái)了機(jī)遇與挑戰(zhàn)。長(zhǎng)征是紅色文化資源的重要組成部分,研究長(zhǎng)征文化資源對(duì)整個(gè)紅色文化資源體系的研究具有示范意義。本文以挖掘、整理、數(shù)字化長(zhǎng)征紅色文化資源為主旨,采用知識(shí)管理前沿技術(shù)知識(shí)圖譜對(duì)長(zhǎng)征文化資源進(jìn)行有機(jī)的數(shù)字化整理,實(shí)現(xiàn)系統(tǒng)直觀的信息展現(xiàn)。本研究不僅僅是對(duì)長(zhǎng)征文化資源的集中整理和保護(hù),更是對(duì)長(zhǎng)征文化資源教育價(jià)值的充分發(fā)揮,對(duì)研究方法進(jìn)一步探索,有利于推動(dòng)重走長(zhǎng)征路旅游產(chǎn)業(yè)的發(fā)展,促進(jìn)長(zhǎng)征沿線革命老區(qū)經(jīng)濟(jì)發(fā)展,助力扶貧工作的進(jìn)行,對(duì)打造長(zhǎng)征紅色文化品牌生態(tài)鏈,提高人民幸福感具有重要意義。
本文發(fā)揮知識(shí)圖譜的技術(shù)優(yōu)勢(shì),關(guān)注紅色資源載體與人們之間的互動(dòng)和情感塑造,從長(zhǎng)征歷史文化豐富的地理信息資源出發(fā),對(duì)長(zhǎng)征文化資源進(jìn)行了生動(dòng)具體、貼近生活的數(shù)字化組織,為紅色文化資源的數(shù)字化保護(hù)和弘揚(yáng)提供應(yīng)用示范。
在歷史文化資源數(shù)字化技術(shù)中,包括以下幾種重要技術(shù):數(shù)字圖像處理技術(shù)、多媒體技術(shù)、數(shù)字內(nèi)容管理與發(fā)布技術(shù)、3S 技術(shù)(遙感、地理信息系統(tǒng)、全球定位系統(tǒng))、網(wǎng)絡(luò)技術(shù)、三維技術(shù)、虛擬現(xiàn)實(shí)技術(shù)等。
國(guó)外,早在2000 年,美國(guó)就已啟動(dòng)“美國(guó)記憶”項(xiàng)目對(duì)美國(guó)國(guó)會(huì)圖書館和其它文獻(xiàn)機(jī)構(gòu)最有價(jià)值的歷史文化資源進(jìn)行了數(shù)字化保護(hù),讓超過(guò)500 萬(wàn)份的文獻(xiàn)資料被數(shù)字化完成并在國(guó)會(huì)圖書館網(wǎng)站上向大眾開放。歐洲數(shù)字圖書館(Europeana)是一個(gè)多達(dá)2300 個(gè)圖書館、美術(shù)館、博物館所參與的龐大的歷史文化資源數(shù)字化聯(lián)盟,共收藏了3000多萬(wàn)件元數(shù)據(jù),其中有超過(guò)百分之三十的數(shù)據(jù)可以直接下載。該館還與Google,Wikipedia,Linked Open Data 等合作,擴(kuò)大數(shù)字化的歷史文化資源的傳播途徑。
國(guó)內(nèi)歷史文化資源數(shù)字化工作的與起步較晚。陜西師范大學(xué)歷史文化學(xué)院袁林教授為代表的一批兼愛(ài)中國(guó)古代文獻(xiàn)和計(jì)算機(jī)技術(shù)的專家學(xué)者,完成了“漢籍全文檢索系統(tǒng)”軟件,目前己升級(jí)為4.20 版,收入文獻(xiàn)2903 共種。2000 年,北京書同文電腦技術(shù)有限公司成功開發(fā)了《文淵閣四庫(kù)全書》電子版。北哈佛大學(xué)和復(fù)旦大學(xué)共同構(gòu)建的中國(guó)地理信息系統(tǒng)(CHGIS)、中華文明之時(shí)空基礎(chǔ)架構(gòu)(CCTS)在時(shí)空維度上對(duì)歷史文化資源進(jìn)行了整合。哈佛大學(xué)和北京大學(xué)合作的“中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)”(CBDB)收集了中國(guó)歷史人物的信息及其之間的關(guān)系。
綜上,歷史文化資源在數(shù)字化方面已經(jīng)取得不錯(cuò)的成果,但目前的數(shù)字化多是單純的載體層面上的數(shù)字化,數(shù)字化成果之間沒(méi)有形成一定的關(guān)聯(lián),處于相互孤立的狀態(tài)。本文運(yùn)用知識(shí)圖譜,對(duì)當(dāng)前的長(zhǎng)征紅色文化資源數(shù)字化成果作更深層次的數(shù)字化,使當(dāng)前的長(zhǎng)征紅色文化資源載體數(shù)字化成果鏈接為一個(gè)整體,從而實(shí)現(xiàn)更好的數(shù)字化。
知識(shí)圖譜(Knowledge Graph)是在2018 年由谷歌公司提出的概念,一開始的目的是為下一代智能搜索引擎提供技術(shù)支持。其主要核心是利用實(shí)體、實(shí)體之間的關(guān)系以及實(shí)體本身的屬性來(lái)解決問(wèn)題。但隨著知識(shí)圖譜的不斷深入研究,這種全新的信息檢索模式的應(yīng)用范圍逐漸拓展到了智能搜索、智能問(wèn)答等領(lǐng)域。作為關(guān)系的最有效的表示方式,知識(shí)圖譜描述了知識(shí)資源及本身的內(nèi)容和它們相互之間的聯(lián)系。
知識(shí)圖譜在歷史文化領(lǐng)域也獲得了許多成果。北京師范大學(xué)周亦等人基于歷史人物關(guān)系知識(shí)圖譜,構(gòu)建了歷史人物關(guān)系可視化的系統(tǒng)。北京大學(xué)信息管理系基于哈佛大學(xué)費(fèi)正清中國(guó)研究中心、中央研究院歷史語(yǔ)言研究所及北京大學(xué)中國(guó)古代史研究中心三方合作構(gòu)建的中國(guó)歷代人物傳記資料庫(kù)(CBDB)數(shù)據(jù), 以知識(shí)圖譜的形式描述了宋代文人的學(xué)術(shù)師承關(guān)系, 為人文領(lǐng)域提供了嶄新的研究方向和技術(shù)手段。同樣的,肖大軍利用中國(guó)歷代人物傳記資料庫(kù)(CBDB)中的人物關(guān)系,構(gòu)建了自動(dòng)問(wèn)答系統(tǒng)。
本體來(lái)源于哲學(xué)領(lǐng)域,解釋為存在于現(xiàn)實(shí)事物之外的“事物本身”。和知識(shí)圖譜相似的,本體也常根據(jù)其涉及的知識(shí)的廣度和深度被分為通用本體和領(lǐng)域本體。面向不同的領(lǐng)域,本體構(gòu)建方法一般有:SENSUS 法、七步法等,常用的本體構(gòu)建工具有WebOnto 等,經(jīng)常被使用的本體構(gòu)建語(yǔ)言有:RDF、RDFS、OWL 等。
長(zhǎng)征紅色文化資源領(lǐng)域本體構(gòu)建旨在結(jié)構(gòu)化地表示各類長(zhǎng)征紅色文化資源以及它們之間的聯(lián)系。本文基于斯坦福大學(xué)開發(fā)的開源知識(shí)編輯工具Protégé,采用“七步法”進(jìn)行本體構(gòu)建。合現(xiàn)有可搜集到的長(zhǎng)征數(shù)字化紅色文化資源的基本結(jié)構(gòu),再輔以領(lǐng)域?qū)<业闹笇?dǎo),構(gòu)建長(zhǎng)征紅色文化資源領(lǐng)域本體知識(shí)模型,為長(zhǎng)征紅色文化知識(shí)圖譜的構(gòu)建提供邏輯支撐。
“七步法”的主要步驟分別是:
(1)明確本體的范圍和領(lǐng)域;
(2)是否存在可用本體庫(kù);
(3)列出本體的重要術(shù)語(yǔ);
(4)確定類及其等級(jí);
(5)確定類的屬性;
(6)確定屬性約束;
(7)創(chuàng)建實(shí)例。
可以對(duì)“長(zhǎng)征紅色文化資源”做一個(gè)簡(jiǎn)單的定義:在長(zhǎng)征長(zhǎng)達(dá)兩年的時(shí)間里(1934 年10 月-1936 年10 月),在長(zhǎng)征中做出過(guò)有一定影響事跡的、在長(zhǎng)征過(guò)程中犧牲的革命志士和革命烈士;革命志士或革命烈士曾使用過(guò)的物件、戰(zhàn)斗過(guò)的軍事遺跡古戰(zhàn)場(chǎng)、居住過(guò)的遺址;長(zhǎng)征過(guò)程中的服飾、創(chuàng)作的詩(shī)歌;有著重大影響的長(zhǎng)征歷史事件;長(zhǎng)征沿途革命老區(qū)的人文自然風(fēng)光;后人對(duì)長(zhǎng)征內(nèi)容再建立或創(chuàng)作的紀(jì)念建筑、畫作、雕塑、影視作品,以及評(píng)論解讀,史實(shí)記載,親歷者口述等。紅軍長(zhǎng)征歷時(shí)兩年零五天,行程約二萬(wàn)五千里。其中,中央紅軍共進(jìn)行了 380 余次戰(zhàn)斗,攻占 700 多座縣城,犧牲營(yíng)以上干部 430 人,擊潰國(guó)民黨軍數(shù)百個(gè)團(tuán),跨越 11 個(gè)?。ń鳌⒏=?、廣東、湖南、廣西、貴州、云南、陜西、四川、西康、甘肅),翻越 18 座大山,跨過(guò) 24 條大河。這段歷史被稱為“地球上的紅飄帶的歷史擁有比較豐富的內(nèi)容。但是,現(xiàn)階段部分長(zhǎng)征紅色文化資源的保護(hù)力度不夠高卻又不可再生,其開發(fā)形式也往往單一而不系統(tǒng),仍未被充分深入挖掘,這對(duì)全方位地整理長(zhǎng)征紅色文化資源并進(jìn)行數(shù)字化提出了迫切需求和挑戰(zhàn)。由于已經(jīng)數(shù)字化的長(zhǎng)征紅色文化資源分布較為分散,目前沒(méi)有一個(gè)較為完備的知識(shí)庫(kù)對(duì)所有的長(zhǎng)征相關(guān)紅色數(shù)字文化資源進(jìn)行整合,因此,本文以《紅軍長(zhǎng)征紀(jì)實(shí)叢書》、《今日長(zhǎng)征路圖集》、《長(zhǎng)征畫典》等長(zhǎng)征相關(guān)書籍中各個(gè)長(zhǎng)征紅色文化資源的名稱為關(guān)鍵詞,在分散的數(shù)據(jù)來(lái)源間進(jìn)行數(shù)字文化資源采集。長(zhǎng)征在線教育網(wǎng)站、長(zhǎng)征沿線地方政府?dāng)?shù)據(jù)庫(kù)、讀秀、超星圖書館、中國(guó)知網(wǎng)等學(xué)術(shù)資源數(shù)據(jù)庫(kù)中以及網(wǎng)絡(luò)知識(shí)百科中存在著大量已有的長(zhǎng)征紅色文化電子資源。本文針對(duì)不同的數(shù)據(jù)來(lái)源,設(shè)計(jì)網(wǎng)絡(luò)爬蟲、構(gòu)建數(shù)據(jù)標(biāo)注工具等不同的數(shù)據(jù)抽取方案,進(jìn)行特征提取和篩選分類,再構(gòu)建知識(shí)圖譜進(jìn)行數(shù)字化整合。在歷史領(lǐng)域?qū)<业闹笇?dǎo)下,對(duì)所獲得的內(nèi)容進(jìn)行篩選分類,融入數(shù)字化長(zhǎng)征紅色文化資源庫(kù),并基于該資源庫(kù)進(jìn)行知識(shí)圖譜的映射聚合。
長(zhǎng)征紅色文化資源的來(lái)源較為廣泛。按照數(shù)據(jù)的類型,可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。例如書本中的內(nèi)容絕大多數(shù)是非結(jié)構(gòu)化知識(shí),而來(lái)自網(wǎng)絡(luò)百科中的內(nèi)容絕大多數(shù)是結(jié)構(gòu)化的知識(shí)。針對(duì)非結(jié)構(gòu)和半結(jié)構(gòu)化的數(shù)據(jù),需要使用一定的手段和工具將其轉(zhuǎn)為所想要的格式。本文主要以Python 為工具,利用網(wǎng)絡(luò)爬蟲、命名實(shí)體識(shí)別、圖像文本識(shí)別等技術(shù)手段,從知識(shí)百科、圖書文本以及長(zhǎng)征相關(guān)博物館官網(wǎng)等網(wǎng)站中采集數(shù)據(jù),從而為下一步的知識(shí)抽取任務(wù)提供基礎(chǔ)。
本文的數(shù)據(jù)來(lái)源多樣,結(jié)構(gòu)也各不相同,需要將這些來(lái)源和結(jié)構(gòu)各異的數(shù)據(jù)轉(zhuǎn)化為想要的統(tǒng)一格式進(jìn)行存儲(chǔ)。同時(shí),在數(shù)據(jù)的存儲(chǔ)過(guò)程中,需要有一定的規(guī)范約束,保證數(shù)據(jù)的合法性。Protégé是斯坦福大學(xué)醫(yī)學(xué)院基于Java 語(yǔ)言開發(fā)的本體編輯工具,用于創(chuàng)建、可視化、操縱各種表現(xiàn)形式的本體,具有嚴(yán)格的語(yǔ)義規(guī)則約束。本文使用Protégé 知識(shí)編輯工具,提前定義好前文所構(gòu)建的長(zhǎng)征紅色文化資源本體庫(kù)模型,將收集到的結(jié)構(gòu)化后的數(shù)據(jù)進(jìn)行編輯錄入。這些數(shù)據(jù)主要包括實(shí)體和屬性。屬性又分為數(shù)據(jù)型屬性和對(duì)象型屬性。所有的實(shí)體關(guān)系、實(shí)體屬性的定義全部都在這一階段完成?;赑rotégé 工具的本體構(gòu)建,可以很好地將知識(shí)圖譜約束在定義好的框架內(nèi),防止類別分散、實(shí)體或?qū)傩灾孛㈥P(guān)系或?qū)傩匀哂嗟惹闆r的發(fā)生。此外,Protégé 還內(nèi)接了強(qiáng)大的推理功能,可以幫助拓展完善更多實(shí)體間的邏輯屬性關(guān)系。
使用Protégé 生成的OWL 文件有效且規(guī)范地表示了長(zhǎng)征紅色文化資源知識(shí)圖譜的實(shí)體、屬性及其關(guān)系。Neo4j是一個(gè)高性能的NOSQL 圖形數(shù)據(jù)庫(kù),它將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在圖網(wǎng)絡(luò)中,可以高效地存儲(chǔ)和描述數(shù)據(jù)間地復(fù)雜鏈接關(guān)系。使用Python 將OWL 文件轉(zhuǎn)為Json 格式進(jìn)行結(jié)構(gòu)化數(shù)據(jù)表示后,采用第三方庫(kù)Py2neo 將讀取的三元組知識(shí)導(dǎo)入Neo4j 數(shù)據(jù)庫(kù)中,方便知識(shí)圖譜的存儲(chǔ)和使用。
長(zhǎng)征紅色數(shù)字文化資源知識(shí)圖譜構(gòu)建完成后,就可以在此基礎(chǔ)上實(shí)現(xiàn)基于知識(shí)圖譜的服務(wù)模式。本文從數(shù)據(jù)層、技術(shù)層、服務(wù)層、應(yīng)用層四個(gè)層面入手,分層設(shè)計(jì)構(gòu)建服務(wù),由下層為上層提供支持。為了充分發(fā)揮知識(shí)圖譜的優(yōu)勢(shì)在紅色文化資源數(shù)字化方面的優(yōu)勢(shì),本文基于構(gòu)建好的長(zhǎng)征紅色文化資源本體庫(kù)和長(zhǎng)征紅色文化資源自身?yè)碛胸S富的時(shí)空信息這一特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了知識(shí)地圖和導(dǎo)航、可交互時(shí)空地圖兩大功能應(yīng)用模塊。
黨中央部署的黨史工作重點(diǎn)項(xiàng)目:“紅軍長(zhǎng)征紀(jì)實(shí)叢書”幾乎窮盡了當(dāng)前所能收集到的長(zhǎng)征親歷者的回憶史料。本文選取“長(zhǎng)征紀(jì)實(shí)叢書”為主要數(shù)據(jù)來(lái)源,再輔以其它一些長(zhǎng)征相關(guān)書籍,如:蔣建農(nóng)等主編的《長(zhǎng)征畫典》、劉益濤,張樹軍主編的《今日長(zhǎng)征路圖集》等,對(duì)它們進(jìn)行掃描和文本識(shí)別,獲取電子版文檔作為語(yǔ)料數(shù)據(jù)。
4.2.1 長(zhǎng)征人物知識(shí)抽取
根據(jù)獲得的《紅軍長(zhǎng)征紀(jì)實(shí)叢書》語(yǔ)料數(shù)據(jù),對(duì)全文進(jìn)行OCR 文本識(shí)別,提取文本后,使用hanlp 自然語(yǔ)言處理工具對(duì)全文進(jìn)行命名實(shí)體識(shí)別,獲得長(zhǎng)征有關(guān)的所有人名并存儲(chǔ)。以保存的人名作為對(duì)象進(jìn)行網(wǎng)絡(luò)爬蟲,提取其百度百科詞條并進(jìn)行解析,過(guò)濾掉詞條中不包含“長(zhǎng)征”這個(gè)關(guān)鍵詞的所有詞條,剩下保留的人物詞條就視為是與長(zhǎng)征有關(guān)的所有人物,保存這些人物的詞條百科,獲得長(zhǎng)征人物語(yǔ)料庫(kù)。
針對(duì)百度百科這樣的網(wǎng)絡(luò)百科知識(shí)抽取,由于其本身已經(jīng)對(duì)知識(shí)做了結(jié)構(gòu)化的處理,因此對(duì)這類資料只需采用基于模式匹配的方法,使用Python 的Beautiful Soup 模塊解析下載好的知識(shí)百科詞條,提取其中結(jié)構(gòu)化知識(shí)即可。如圖1 所示,<dt class=”basicInfo-item name”></dt>標(biāo)簽和<dt class=”basicInfo-item value”></dt>標(biāo)簽的內(nèi)容即為當(dāng)前百科詞條的表格鍵值對(duì)結(jié)構(gòu),根據(jù)網(wǎng)絡(luò)知識(shí)百科的詞條構(gòu)成規(guī)則,制定專門的解析策略,進(jìn)而實(shí)現(xiàn)百科詞條的結(jié)構(gòu)化知識(shí)抽取。
圖1:百度百科結(jié)構(gòu)化知識(shí)
4.2.2 長(zhǎng)征地理信息知識(shí)抽取
長(zhǎng)征擁有豐富的地理信息。地理位置跨度較大,對(duì)地點(diǎn)的信息采集粒度就不需要過(guò)細(xì)。本文使用高德地圖的行政區(qū)域查詢API對(duì)這11 個(gè)長(zhǎng)征途經(jīng)省份的所有下轄地點(diǎn)信息進(jìn)行遍歷,保存(遍歷到縣級(jí)行政區(qū)為止)。主要保存的信息是地名和地點(diǎn)的經(jīng)緯度,以及各個(gè)地點(diǎn)之間的下轄和隸屬關(guān)系。
4.2.3 長(zhǎng)征遺存、藝術(shù)作品知識(shí)抽取
《今日長(zhǎng)征路圖集》、《長(zhǎng)征畫典》中包含了大量的長(zhǎng)征舊址文物、紀(jì)念建筑和藝術(shù)作品信息。從讀秀上獲取文獻(xiàn)的掃描件后,使用Python 的OpenCV 庫(kù)和和GUI 圖形界面開發(fā)庫(kù)Tkinter 構(gòu)建標(biāo)注工具,將信息摘取下來(lái)。標(biāo)注工具的界面如下:
如圖2 所示,為標(biāo)注工具的操作界面。操作界面分為兩大部分,左邊是控制面板,右邊是圖片(來(lái)自《長(zhǎng)征畫典》)??刂泼姘鍙纳系较乱来螢椋寒?dāng)前標(biāo)注實(shí)體的編號(hào)、給當(dāng)前實(shí)體攜帶的額外信息、額外信息輸入框、實(shí)體標(biāo)注內(nèi)容選項(xiàng)卡及其狀態(tài)指示燈、總控制按鈕。對(duì)一個(gè)實(shí)體的標(biāo)注首先需要通過(guò)額外信息輸入框修改攜帶的額外信息(非必要操作),隨后點(diǎn)擊“圖片主體”選項(xiàng),在右邊的圖片部分拖拽選擇“送別_版畫_鄒達(dá)青”這幅畫的主體部分并點(diǎn)擊回車,此時(shí)“圖片主體”的狀態(tài)指示燈由紅色變?yōu)榫G色,表示當(dāng)前實(shí)體的這部分內(nèi)容已標(biāo)注完畢,對(duì)“命名區(qū)域”的標(biāo)注同理。在“圖片主體”和“命名區(qū)域”兩部分都顯示為綠燈后,一個(gè)完整的實(shí)體就標(biāo)注完畢,此時(shí)系統(tǒng)后臺(tái)會(huì)生成 “實(shí)體標(biāo)號(hào)_main.png”和“實(shí)體標(biāo)號(hào)_name_額外信息.png”兩個(gè)文件,分別表示當(dāng)前標(biāo)號(hào)實(shí)體的“圖片主體”和“命名區(qū)域”內(nèi)容,及其所攜帶的額外信息(沒(méi)有額外信息則不會(huì)添加)。一個(gè)完整的實(shí)體標(biāo)注完畢后,即可通過(guò)總控制按鈕來(lái)進(jìn)行下一個(gè)實(shí)體的標(biāo)注或打開下一張圖片標(biāo)注實(shí)體。
圖2:標(biāo)注工具操作界面
標(biāo)注完畢后,即可調(diào)用百度圖片文本識(shí)別OCR接口,對(duì)每個(gè)實(shí)體的“實(shí)體標(biāo)號(hào)_name_額外信息.png”文件進(jìn)行識(shí)別,獲得其命名,結(jié)合對(duì)應(yīng)實(shí)體標(biāo)號(hào)的“實(shí)體標(biāo)號(hào)_main.png”文件生成文件名為實(shí)體名的實(shí)體文件,如圖3 所示。
圖3:標(biāo)注工具生成命名實(shí)體文件一覽
獲得來(lái)自書本的知識(shí)后,再以這些實(shí)體名字中的部分關(guān)鍵詞在網(wǎng)絡(luò)上進(jìn)行人工檢索和篩選,即可得到更多拓展的長(zhǎng)征紅色文化資源知識(shí)內(nèi)容,其主要來(lái)源網(wǎng)站包括但不限于表1。
表1:知識(shí)主要來(lái)源網(wǎng)站
為了保證構(gòu)建的知識(shí)圖譜足夠規(guī)范化,本文在記錄知識(shí)時(shí)使用Protégé 進(jìn)行知識(shí)錄入,生成OWL 文件后,再使用Python 解析OWL 文件中的知識(shí),通過(guò)Py2neo 庫(kù)連接并導(dǎo)入Neo4j 數(shù)據(jù)庫(kù)方便取用。
按照上述方法將知識(shí)存入Neo4j 數(shù)據(jù)庫(kù)后,可以通過(guò)其查詢語(yǔ)言Cypher 方便快捷地獲得數(shù)據(jù)庫(kù)中的知識(shí)。如在Neo4j 控制臺(tái)中輸入 match(n) where n.name=’周恩來(lái)’return n 即可獲得“周恩來(lái)”實(shí)體在數(shù)據(jù)庫(kù)中的關(guān)系網(wǎng)絡(luò)可視化。
考慮到系統(tǒng)的可維護(hù)性和后期系統(tǒng)的可拓展性,本文最終采用分層設(shè)計(jì)的方法設(shè)計(jì)系統(tǒng),將系統(tǒng)從下層到上層分為:數(shù)據(jù)層、技術(shù)層、服務(wù)層和應(yīng)用層。下層為上層的基礎(chǔ),上層可以調(diào)用下層,體系架構(gòu)設(shè)計(jì)如圖4 所示。
圖4:服務(wù)平臺(tái)體系架構(gòu)設(shè)計(jì)
(1)數(shù)據(jù)層:該層由Neo4j 數(shù)據(jù)庫(kù)和服務(wù)器中存儲(chǔ)的圖片和用戶數(shù)據(jù)構(gòu)成,主要為服務(wù)提供數(shù)據(jù)支撐。知識(shí)圖譜存儲(chǔ)在Neo4j 中,結(jié)合一些標(biāo)記信息綁定服務(wù)器文件中的對(duì)應(yīng)圖片,向服務(wù)傳輸完整的知識(shí)圖譜數(shù)據(jù)。
(2)技術(shù)層:Cypher 是Neo4j 圖數(shù)據(jù)庫(kù)管理系統(tǒng)提供的一種簡(jiǎn)單快捷的操作語(yǔ)言,它可以使我們快速地獲得知識(shí)圖譜中的信息,提供與數(shù)據(jù)層的對(duì)接,為服務(wù)器提供數(shù)據(jù)支持;Flask 是基于Python 語(yǔ)言的Web 應(yīng)用程序框架,為前端頁(yè)面提供遠(yuǎn)程服務(wù);基于Vue 的uniapp 框架用于構(gòu)建跨平臺(tái)的前端應(yīng)用。
(3)服務(wù)層:根據(jù)最終應(yīng)用的需求,搭建不同的前端頁(yè)面并開發(fā)相應(yīng)的服務(wù)器接口。
(4)應(yīng)用層:最終,服務(wù)器向知識(shí)地圖和知識(shí)導(dǎo)航、可交互的時(shí)空地圖兩個(gè)應(yīng)用提供服務(wù)。
時(shí)空演化模塊最重要的兩大功能塊分別為可交互地圖和時(shí)間軸??山换サ貓D通過(guò)基于JavaScript 的數(shù)據(jù)可視化圖表庫(kù)ECharts來(lái)實(shí)現(xiàn),在“全國(guó)地圖”頁(yè)面,在頁(yè)面被打開時(shí),向服務(wù)器請(qǐng)求所有的長(zhǎng)征重大事件數(shù)據(jù),其中事件的發(fā)生地點(diǎn)經(jīng)緯度來(lái)自高德地圖API,定位到最小行政單位為縣級(jí)。此外,處于相同地理位置的地圖標(biāo)記點(diǎn),需要使用點(diǎn)聚合的方法,將其合并為一個(gè)可以點(diǎn)擊展開的點(diǎn)。時(shí)間軸額外編輯好TimeLine.vue 組件后,在使用地圖的頁(yè)面調(diào)用該組件,監(jiān)聽用戶拖動(dòng)時(shí)間軸到了哪個(gè)刻度,傳輸當(dāng)前刻度到地圖頁(yè)面,地圖頁(yè)面再顯示當(dāng)前時(shí)間點(diǎn)下的長(zhǎng)征大事件信息。
最終實(shí)現(xiàn)的時(shí)空演化模塊APP 界面如下:
如圖5 所示,圖左下方為可拖動(dòng)的時(shí)間軸,通過(guò)拖動(dòng)時(shí)間軸可以選取不同的時(shí)間點(diǎn),正中間的地圖上會(huì)顯示出當(dāng)前時(shí)間點(diǎn)下發(fā)生的長(zhǎng)征大事件的發(fā)生地點(diǎn),處于同一地點(diǎn)的大事件會(huì)被聚合,聚合的點(diǎn)會(huì)顯示其聚合的事件數(shù)量。通過(guò)點(diǎn)擊不同的事件或省份模塊(可點(diǎn)擊、含有長(zhǎng)征信息的省份已被標(biāo)深灰),APP 下方會(huì)出現(xiàn)事件或省份的信息彈框,通過(guò)彈框,可以進(jìn)入事件或省份的詳細(xì)信息界面。圖5 右為貴州省的詳細(xì)信息,貴州省內(nèi)含有的長(zhǎng)征紅色文化資源及其所處的地理位置會(huì)在省份地圖上顯示,通過(guò)下方彈框的分類標(biāo)簽可以快速瀏覽貴州省內(nèi)不同長(zhǎng)征紅色文化資源的信息。
圖5:時(shí)空演化模塊APP 界面
本文將長(zhǎng)征紅色文化資源進(jìn)行了細(xì)分后,在知識(shí)導(dǎo)航頁(yè)面將其按照本體庫(kù)的分類進(jìn)行分類標(biāo)簽展示。此外,還需要構(gòu)建模糊搜索模塊。在檢測(cè)到檢索框的內(nèi)容發(fā)生改變時(shí),傳輸修改后的關(guān)鍵詞到后端,得到修改后的關(guān)鍵詞得到的檢索結(jié)果。Flask后端與neo4j數(shù)據(jù)庫(kù)的交互通過(guò)Py2neo模塊實(shí)現(xiàn)。
最終實(shí)現(xiàn)的知識(shí)導(dǎo)航模塊APP 界面如下:
如圖6 左,可以通過(guò)切換不同的分類標(biāo)簽,顯示知識(shí)庫(kù)中不同分類的長(zhǎng)征紅色文化資源,通過(guò)在檢索框輸入檢索關(guān)鍵詞,如圖6 右的彈框會(huì)實(shí)時(shí)顯示當(dāng)前關(guān)鍵詞下的推薦長(zhǎng)征紅色文化資源內(nèi)容。
圖6:知識(shí)導(dǎo)航和模糊檢索APP 界面
本文采用知識(shí)圖譜技術(shù)對(duì)長(zhǎng)征紅色數(shù)字文化資源進(jìn)行了描述、組織和關(guān)聯(lián),并在此基礎(chǔ)上設(shè)計(jì)和構(gòu)建了基于知識(shí)圖譜的知識(shí)服務(wù)系統(tǒng)。為發(fā)揮知識(shí)圖譜的技術(shù)優(yōu)勢(shì),關(guān)注紅色資源載體與人們之間的互動(dòng)和情感塑造,從長(zhǎng)征歷史文化豐富的地理信息資源出發(fā),對(duì)長(zhǎng)征文化資源進(jìn)行了生動(dòng)具體、貼近生活的數(shù)字化組織,為紅色文化資源的數(shù)字化保護(hù)和弘揚(yáng)提供了應(yīng)用示范。