,
2012年5月17日,谷歌正式推出知識圖譜(Knowledge Graph)項目,針對互聯(lián)網(wǎng)上的網(wǎng)頁信息世界,試圖通過真實世界中存在的各種實體和概念進行知識描述和檢索,從而代替?zhèn)鹘y(tǒng)的字符串匹配檢索,創(chuàng)造全新的信息檢索模式[1]。國內(nèi)外的互聯(lián)網(wǎng)搜索引擎公司緊隨其后紛紛構(gòu)建了自己的知識圖譜,如微軟的Probase、搜狗的“知立方”、百度的“知心”等,知識圖譜已經(jīng)成為構(gòu)建下一代智能化搜索引擎的基礎(chǔ)。
盡管在學(xué)術(shù)界和工業(yè)界,有關(guān)知識圖譜的研究與應(yīng)用不斷升溫,并且出現(xiàn)一些知識圖譜產(chǎn)品,但在國防科研領(lǐng)域尚缺乏知識圖譜構(gòu)建的成熟解決方案。本文在研究知識圖譜的概念和現(xiàn)有構(gòu)建技術(shù)的基礎(chǔ)上,結(jié)合國防科技文獻特點,提出了從科研本體模式構(gòu)建知識圖譜的思路,并以權(quán)威科技文摘數(shù)據(jù)為對象開展了知識圖譜構(gòu)建實踐。
知識圖譜(Knowledge Graph)是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界的概念及其相關(guān)關(guān)系,其基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)“屬性-值對”,實體間通過關(guān)系相關(guān)聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)[2]。
一般來說,知識圖譜是由具有屬性的實體通過關(guān)系鏈接而成的網(wǎng)狀知識庫,可以看作是一張巨大的圖,圖的特征更明顯一些,譜的特征相對較弱。這張圖中的節(jié)點表示實體或概念,圖中的邊則構(gòu)成關(guān)系,是一種有效的知識表達形式。
知識圖譜和本體結(jié)構(gòu)非常類似,但將其與本體概念進行比較后可以發(fā)現(xiàn),知識圖譜并不是本體的替代品,相反它是在本體的基礎(chǔ)上進行了豐富和擴充,這種擴充主要體現(xiàn)在實體(Entity)層面。本體中突出和強調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系,描述的知識圖譜的數(shù)據(jù)模式(Schema),即為知識圖譜構(gòu)建數(shù)據(jù)模式相當于為其構(gòu)建本體;而知識圖譜則是在本體的基礎(chǔ)上,增加了更加豐富的關(guān)于實體的信息。
知識圖譜在邏輯上分為數(shù)據(jù)層和模式層,模式層是知識圖譜的核心,主要對圖譜中的知識節(jié)點進行定義和規(guī)范,同時對知識節(jié)點之間的關(guān)系定義描述和約束;數(shù)據(jù)層則是在模式層約束下,對大數(shù)據(jù)資源進行“實體-關(guān)系-實體”或者“實體-屬性-屬性值”描述,最終形成龐大的知識網(wǎng)絡(luò)。知識圖譜構(gòu)建主要是利用現(xiàn)有大數(shù)據(jù)資源和知識抽取等技術(shù),獲取知識圖譜模式結(jié)構(gòu)并構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),最終完成知識圖譜構(gòu)建。有學(xué)者[3]給出了知識圖譜的構(gòu)建和維護流程(圖1)。
圖1知識圖譜構(gòu)建與更新流程
國內(nèi)有學(xué)者[3]把知識圖譜構(gòu)建過程分為自頂向下和自底向上兩種模式。其中,自頂向下構(gòu)建是指借助已有權(quán)威知識,在專家干預(yù)之下獲取模式信息,按照模式信息對數(shù)據(jù)資源進行加工,形成知識圖譜;自底向上構(gòu)建則是指借助一定技術(shù)手段,從數(shù)據(jù)資源中獲取實體/概念及關(guān)系,利用統(tǒng)計學(xué)原理選擇其中置信度較高的新模式,經(jīng)人工審核之后形成知識庫??傊S著大數(shù)據(jù)時代的到來,知識抽取和知識加工技術(shù)的不斷成熟,知識圖譜構(gòu)建基本是由專家、數(shù)據(jù)、技術(shù)結(jié)合而進行的螺旋式進化和迭代式更新的過程,已經(jīng)很難區(qū)分是從自頂向下還是自底向上。
大數(shù)據(jù)信息環(huán)境為知識圖譜構(gòu)建提供了豐富的資源基礎(chǔ),大數(shù)據(jù)技術(shù)的迅速發(fā)展不斷推動知識圖譜構(gòu)建工作向工程化和自動化發(fā)展,其中信息抽取、知識融合、知識推理等是影響知識圖譜構(gòu)建的關(guān)鍵技術(shù)[3]。
信息抽取是自然語言處理研究中的一個重要領(lǐng)域,主要實現(xiàn)從半結(jié)構(gòu)化、無結(jié)構(gòu)化的自由文本或其他信息資源中抽取出結(jié)構(gòu)化的、無二義性信息。在知識圖譜構(gòu)建中主要完成從半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)中抽取實體、關(guān)系以及實體屬性等結(jié)構(gòu)化信息,主要涉及命名實體識別、關(guān)系抽取、屬性抽取等技術(shù)。命名實體識別是指從文本中自動識別并抽取出特定的實體信息[3],如人物、地點、機構(gòu)、時間等;關(guān)系和屬性抽取則是根據(jù)已經(jīng)識別出的實體,按照一定句法和句式自動識別出實體與實體之間的關(guān)系,以及實體自身附著的特性信息。
知識融合是將不同來源的事實知識準確、有效地合并到知識倉儲中,并保證知識描述的一致性。為此,知識融合過程要準確識別待合并事實知識與已有知識重復(fù)和相矛盾的部分,并采取適當?shù)拇胧┻M行處理,保證知識的一致性、無冗余、無矛盾。在知識圖譜構(gòu)建過程中主要是對抽取出的實體、關(guān)系以及屬性信息進行概念消歧、冗余剔出和知識準確性檢查,主要涉及實體消歧、共指消解、知識合并等技術(shù)[3]。
知識推理是在知識表達的基礎(chǔ)上,進行機器思維求解問題,實現(xiàn)知識推理的智能操作過程,是目前的技術(shù)難點[3]。在知識圖譜構(gòu)建過程中,主要通過干預(yù)和機器學(xué)習(xí)實現(xiàn)知識圖譜的更新和自我進化,是目前知識圖譜工程化和自動化的難點,涉及到的技術(shù)包括自然語言學(xué)習(xí)、機器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)。
本體是對概念進行建模的規(guī)范,是描述客觀世界的抽象模型,旨在以形式化方式對概念及其之間的關(guān)系給出明確定義??蒲斜倔w目前沒有統(tǒng)一的定義,通常是以科研信息活動為描述對象,揭示和反映領(lǐng)域科研活動主體及各科研對象之間的聯(lián)系,如科研人員、科研機構(gòu)、科研成果、科學(xué)會議、科研設(shè)備等各種對象屬性及其相互之間的本質(zhì)聯(lián)系,是支持科研人員從海量科技文獻中進行知識發(fā)現(xiàn)的基礎(chǔ)。
從科技文獻入手進行科研本體構(gòu)建最早來源于書目本體。20世紀90年代初,斯坦福人工智能研究的著名學(xué)者Tom Gruber用LISP語言定義了書目數(shù)據(jù)的本體模型[4]。很多學(xué)者都嘗試利用語義網(wǎng)技術(shù)實現(xiàn)書目信息的本體化[5-6]。國內(nèi)學(xué)者王軍采用了SKOS Core的所有類和關(guān)系構(gòu)建了KVision書目本體,并提供了主要類和關(guān)系如圖2(圖片素材來自于文獻[7])。
圖2 KVision本體
該本體中定義了文獻(Document)、概念(Concept)、作者(Author)、出版機構(gòu)(Press)等實體類型。在關(guān)系的定義中,主要包括兩個方面,一是繼承主題詞表中概念間用代屬分參關(guān)系,二是利用文獻與概念、文獻與作者、文獻與出版社之間形成的固有關(guān)系進行定義。本體實例則是通過海量的文獻元數(shù)據(jù)進行填充。KVision最終用于概念瀏覽和簡單語義檢索支持??傊?,書目本體更關(guān)注于文獻這個核心,通過與文獻與文獻附屬的科研實體之間的關(guān)系進行關(guān)聯(lián)擴展,相對簡單,因而對語義檢索的支持相對較弱。
VIVO是康奈爾大學(xué)圖書館于2004年啟動的項目,后期利用RDF、OWL、Jena和SPARQL等技術(shù)進行改造,最終形成了面向科學(xué)和學(xué)術(shù)交流的科學(xué)家語義網(wǎng)絡(luò),即VIVO科學(xué)家本體,主要用來促進科研人員的科研網(wǎng)絡(luò)化協(xié)作[8]。該本體結(jié)構(gòu)以歐美教育體系為原型,以促進科研人員的科研網(wǎng)絡(luò)化和協(xié)作為目標,描述內(nèi)容覆蓋康奈爾大學(xué)所有院系的教員、科研人員和學(xué)科信息,分為人員、機構(gòu)、學(xué)術(shù)活動和科研。VIVO本體由核心本體(VIVO Core)和一些大眾本體(BIBO,F(xiàn)OAF,SKOS等)構(gòu)成,內(nèi)容重點關(guān)注科學(xué)家的學(xué)術(shù)、教育與服務(wù)等方面。如學(xué)術(shù)方面的教育背景、出版物、專業(yè)領(lǐng)域、資助,教育方面開設(shè)的課程、報告會、培訓(xùn)等,服務(wù)方面的組織會議、參加編委會、學(xué)術(shù)社團服務(wù)等。
VIVO集成了不同本體中大量的類,圍繞學(xué)術(shù)這個中心進行數(shù)據(jù)建模,主要實體類型除了傳統(tǒng)的機構(gòu)(Organization)、概念(Concept)、學(xué)者(Person)、期刊(Journal)外,還包括與學(xué)者相關(guān)的教學(xué)(Teaching)、教育培訓(xùn)(Education and Training)、獲獎(Award)、資助(Grant)等[9]。這些類之間通過對象類型屬性形成了復(fù)雜的學(xué)術(shù)知識網(wǎng)絡(luò)。
隨著文獻數(shù)據(jù)量的大幅提升,特別是文獻計量方法和社會網(wǎng)絡(luò)分析方法的廣泛應(yīng)用,科學(xué)研究活動中學(xué)者的關(guān)注點逐漸從獲取全文文獻轉(zhuǎn)變?yōu)槲墨I引證分析和科研主體實例分析。在這樣的背景下,各大出版商、服務(wù)商和信息服務(wù)科研機構(gòu)迅速推進知識服務(wù)創(chuàng)新,圍繞科研信息活動中涉及的對象與關(guān)系,按照自身服務(wù)需求構(gòu)建科研本體,在創(chuàng)新文獻檢索服務(wù)的基礎(chǔ)上開展科研實體分析服務(wù)。
信息出版和服務(wù)主要圍繞所占有的海量文獻開展服務(wù),因此在科研本體建設(shè)方面仍然圍繞文獻這個核心實體,從文獻元數(shù)據(jù)中所描述的作者、作者單位、基金、文獻出處、主題概念、文獻分類、引文、共被引文獻、共引文獻等方面進行知識對象定義,利用文獻及其之間的關(guān)系將知識對象關(guān)聯(lián)形成知識網(wǎng)節(jié),提高用戶在相關(guān)知識對象之間跳轉(zhuǎn)的友好性;通過檢索結(jié)果中對知識對象的統(tǒng)計分析幫助用戶快速獲取情報信息,從定量情報分析角度運用文獻信息,并輔以可視化展示。
國外以EI、SCI等權(quán)威數(shù)據(jù)庫服務(wù)為代表,國內(nèi)則以清華同方、萬方數(shù)據(jù)、維普三大數(shù)據(jù)服務(wù)商為龍頭。其中萬方公司圍繞學(xué)科、主題、人物、機構(gòu)、基金五要素構(gòu)建檢索服務(wù)體系的脈絡(luò),以科學(xué)為紐帶,組成各個要素之間的相互關(guān)聯(lián)關(guān)系,構(gòu)成知識關(guān)聯(lián)網(wǎng)絡(luò),各知識庫詳細描述各要素信息,形成知識節(jié)點,每個節(jié)點與所有放射狀箭頭所指的節(jié)點形成“以點帶面”的知識庫(圖3)[10]。
圖3 知識關(guān)聯(lián)“五要素”
信息服務(wù)科研機構(gòu)以支撐科研活動為使命,在科研本體建設(shè)方面?zhèn)戎赜诮Y(jié)合自身科研活動特征需求進行科研本體設(shè)計。科技部組織的“面向外文科技文獻信息的知識組織體系”項目中,科技知識組織系統(tǒng)(Science& Techology Knowledge Organization System,STKOS)科研本體以國外重要科技機構(gòu)、核心科技人員、主要科技期刊、國際重要會議為主體構(gòu)建,涵蓋理工農(nóng)醫(yī)四大領(lǐng)域,包括科研人員本體、科研機構(gòu)本體、科研項目本體、科技會議本體、科研基金本體、科研成果本體等,揭示和反映了領(lǐng)域科研活動主體及各科研對象之間的聯(lián)系。中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所開展了衛(wèi)生政策科研本體建設(shè),圍繞衛(wèi)生政策研究過程設(shè)計了活動、機構(gòu)、成果、人員、項目、研究主題、信息來源7個類[11]。中國科學(xué)院國家科學(xué)圖書館利用protégé構(gòu)建了用于項目目標的科研本體,主要概念包括科研活動、科研產(chǎn)出、科研主體、科研設(shè)施和基本概念五大范疇。圖4是該本體部分關(guān)系描述示例[12],圖中粗箭頭是類層次關(guān)系,細箭頭是類之間邏輯關(guān)系。
圖4 科研本體部分關(guān)系描述示例
傳統(tǒng)的國防科技知識組織體系以國防科技敘詞表、分類表為基礎(chǔ),通過不同來源詞表之間的概念映射形成較為完備的知識概念網(wǎng)絡(luò),國防科技科研本體是對傳統(tǒng)國防科技知識組織體系的拓展和深化。
國防科技科研活動具有明顯的領(lǐng)域特色,國防科技科研本體緊緊圍繞其領(lǐng)域特色,在國防科技主題概念網(wǎng)絡(luò)的基礎(chǔ)上,對各種信息資源進行本地化處理與集成,形成近億條科技文獻元數(shù)據(jù)作為樣本進行建設(shè)。在知識描述廣度上,從主題概念單維度拓展到與科研活動息息相關(guān)的各種實體,包括科研機構(gòu)、科研人員、出版物、學(xué)術(shù)會議活動、國防產(chǎn)品等多維度;在實施描述深度上,突破傳統(tǒng)“用代屬分參”敘詞關(guān)系,為每個實體定義屬性,并在實體自身維度內(nèi)和跨實體之間構(gòu)建多種關(guān)系,從而使整個知識組織體系從單維度簡單關(guān)系構(gòu)成的知識網(wǎng)絡(luò),全面轉(zhuǎn)變?yōu)槎嗑S立體的復(fù)雜關(guān)系網(wǎng)絡(luò)。而國防科技知識圖譜則依據(jù)國防科技科研本體中定義的包含實體概念、實體屬性和實體關(guān)系的數(shù)據(jù)模型,利用海量國防科技文獻元數(shù)據(jù)中所描述的信息,圍繞內(nèi)容相似、文獻引用、用戶瀏覽、社會網(wǎng)絡(luò)關(guān)系等文獻之間客觀存在的顯性關(guān)系,完成知識單元填充之后形成的包含了隱性知識的關(guān)聯(lián)網(wǎng)絡(luò)。其示意圖如圖5所示。
圖5基于科研本體的國防科技知識圖譜
基于科研本體的國防科技知識圖譜是以國防科技科研活動中的實體為節(jié)點,以實體關(guān)聯(lián)關(guān)系為邊,在時間流的驅(qū)動下形成譜系。而國防科技海量文獻元數(shù)據(jù)中包含了大量的科研實體信息,分別對作者、機構(gòu)、期刊和會議活動等實體基本信息進行了描述。其中,作者是專業(yè)知識的研究或者傳播主體,發(fā)文量、引文量多的作者是重要的學(xué)科帶頭人、領(lǐng)域影響者;機構(gòu)是作者所在的團體,影響力強的作者聚集機構(gòu)一般是領(lǐng)域?qū)W科的重要發(fā)現(xiàn)源;期刊和會議是科研成果的聚集點,是科研創(chuàng)新和變革的重要陣地。這些實體之間彼此關(guān)聯(lián),環(huán)環(huán)相扣,可以通過元數(shù)據(jù)從任何一個實體關(guān)聯(lián)到其他實體。本文構(gòu)建的國防科技知識圖譜則以權(quán)威的國防科技文獻元數(shù)據(jù)為素材,采用面向?qū)ο蟮乃枷耄ㄟ^數(shù)據(jù)清洗、實體歸一、關(guān)聯(lián)抽取等方法,最終完成圖譜構(gòu)建。
4.1.1 實體模型定義
實體是以對象的形式存在的,每個實體都是一個對象。所抽象出的類包括各種屬性,有些是主要屬性,有些是次要屬性。對實體信息的模型定義需要分析它在元數(shù)據(jù)中的描述特征。
機構(gòu)名稱在不同來源的元數(shù)據(jù)中描述有所不同,可能是因為歷史變遷導(dǎo)致名稱多次變動,也可能是長期以來學(xué)術(shù)界約定俗稱的說法,或者是描述規(guī)則不同形成不同寫法等。還有一種情況是描述相同,但不是一個機構(gòu),如每個國家都有科學(xué)院,相同的大學(xué)可以在不同地區(qū)建立分校。為此,明確所屬地相同的機構(gòu)作為一個類,該類所屬的對象則是各種不同描述信息,以此為前提,定義如下的機構(gòu)模型。
Organization = {Country*,City,Name*,F(xiàn)relation,Fsub }
機構(gòu)類包括國家、城市、名稱屬性和不同名稱的關(guān)聯(lián)函數(shù)、父子函數(shù),其中國家和名稱是必要屬性。基于此模型,需要建立包括國家同義表、城市同義表,在此基礎(chǔ)上建立機構(gòu)名稱規(guī)范系統(tǒng),以及不同機構(gòu)描述的關(guān)系(曾用名、簡稱、別名、錯拼等)對應(yīng)表和父機構(gòu)與子機構(gòu)的對應(yīng)關(guān)系表。
采用相同的思想,定義如下的作者、期刊、會議模型。
Author = {Organization*,Surname*,Firstname*,Email }
作者類包括所屬機構(gòu)、姓、名、電子郵件地址,其中機構(gòu)、姓和名是必要屬性。
Journal = {ISSN*,Coden,Publisher*,Name*,F(xiàn)relation }
期刊類包括ISSN、CODEN、出版機構(gòu)、期刊名稱和不同名稱的關(guān)聯(lián)函數(shù),其中ISSN、出版機構(gòu)、期刊名稱是必要屬性。
Conference = {Confername*,Conferdate*,Conferlocation*,Sponsor,F(xiàn)relation }
會議類包括會議名稱、會議召開時間、會議召開地點、會議主辦者和不同名稱的關(guān)聯(lián)函數(shù),其中會議名稱、會議召開時間、會議召開地點是必要屬性。
4.1.2 實體歸一化
長期以來,信息服務(wù)機構(gòu)的海量文獻元數(shù)據(jù)是科研人員檢索文獻、全文獲取的重要來源。Web of Science、Dialog、EI等元數(shù)據(jù)庫是開展科學(xué)研究的基礎(chǔ)素材。隨著大數(shù)據(jù)分析技術(shù)的發(fā)展,基于科研實體等要素的學(xué)術(shù)文獻產(chǎn)出分析成為重要需求。圍繞文獻檢索和獲取的元數(shù)據(jù)存在描述不規(guī)范統(tǒng)一、各家自成一體的現(xiàn)象,嚴重影響了數(shù)據(jù)分析結(jié)果,實體歸一成為提高分析準確性的重要需求。
由于海量文獻元數(shù)據(jù)中包含實體眾多,很難對所有實體進行歸一。因此,為了遵循科研活動的基本規(guī)律,筆者只針對具有國防科技特色的、高價值數(shù)據(jù)庫,包括美國政府四大報告、AIAA、IEL等全文數(shù)據(jù)庫和EI INSPEC等文摘數(shù)據(jù)庫抽取其中學(xué)術(shù)產(chǎn)出較高、學(xué)術(shù)影響力大的科研實體進行歸一處理。具體實現(xiàn)中,采用短文本匹配、高頻次優(yōu)先等方法進行,具體步驟如下:選取元數(shù)據(jù)庫并進行數(shù)據(jù)預(yù)處理,定義實體模型并抽取相關(guān)屬性,對實體屬性的可辨識性(可以表征實體區(qū)別于其他實體的辨識度)進行權(quán)值分配,定義不同類型實體的選取閾值(在元數(shù)據(jù)中出現(xiàn)頻次表征其學(xué)術(shù)重要度),通過短文本匹配算法對實體屬性進行權(quán)值計算獲得匹配的不同實體并給出唯一標識,對于一個實體的屬性信息選取該唯一標識下出現(xiàn)頻次最多的文本信息(如對期刊實體具有識別性價值的屬性值,ISSN、刊名完成短文本匹配后,出版社、CODEN等屬性值則選取出現(xiàn)頻率最高文本值)。
實體歸一是一個不斷迭代更新的過程,需要定期計算。在短文本匹配處理中,采取去停用詞、詞干抽取和忽略詞順等方法過濾噪聲信息,獲取到具有實際意義的關(guān)鍵詞集合。假設(shè)文本A形成的集合是S(A),|S(A)|表示包含的關(guān)鍵詞數(shù)量,兩個文本形成的集合A和B之間的相似度可以計算為:D(A,B) = |S(A)∩S(B)|/|S(A)∪S(B)|。
為上述的相似度設(shè)置一定閾值,有一部分可以由計算機直接處理,完成短文本匹配;有一部分需要人工核查;有一部分則不可能相同,直接過濾。
4.1.3 關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建
所有科研實體信息通過處理后,形成了由唯一標識符標識的對象及其關(guān)系表,結(jié)合國防科技分類主題一體化詞表,與國防科技文獻元數(shù)據(jù)庫進行實體關(guān)聯(lián)和概念,所有實體采用唯一標識符進行連接,完成圖譜中各節(jié)點的邊建設(shè)。具體的數(shù)據(jù)表關(guān)系如圖6所示。
國防科技知識圖譜是以文獻元數(shù)據(jù)中客觀存在的科研實體關(guān)系為基礎(chǔ)的,知識圖譜構(gòu)建后存儲在后臺關(guān)系型數(shù)據(jù)庫中。構(gòu)建不是知識圖譜的目標,開展基于知識圖譜的服務(wù)和推進基礎(chǔ)文獻獲取服務(wù)向科研實體分析型服務(wù)轉(zhuǎn)型,才是知識圖譜構(gòu)建的核心。筆者以構(gòu)建的知識圖譜為基礎(chǔ),從科研實體和科技論文等方面提供知識導(dǎo)航和檢索服務(wù),并借助可視化技術(shù)進行圖譜關(guān)聯(lián)關(guān)系展示,實施了服務(wù)模式的實踐。
服務(wù)系統(tǒng)以已經(jīng)構(gòu)建完成的知識圖譜存儲數(shù)據(jù)庫為輸入,整個架構(gòu)分上、下兩層,如圖7所示。圖7中間的下面一層為引擎層,主要完成對提供數(shù)據(jù)的存儲處理、索引構(gòu)建和可視化引擎,其中數(shù)據(jù)庫待用CASS,索引采用Solr完成;上面一層是服務(wù)層,主要面向知識服務(wù)用戶需求提供多維度的導(dǎo)航、檢索、關(guān)聯(lián)展示和數(shù)據(jù)分析,主要實現(xiàn)以元數(shù)據(jù)、科研作者、科研機構(gòu)、期刊、會議、概念為用戶查閱入口,在提供基本文獻檢索和獲取的同時,重點推出實體的導(dǎo)航、瀏覽、檢索和學(xué)術(shù)成果統(tǒng)計分析等,主要利用引擎層提供的功能進行分析結(jié)果數(shù)據(jù)輸出和可視化展示。
圖6關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù)表關(guān)系
圖7 國防知識圖譜服務(wù)系統(tǒng)架構(gòu)
知識圖譜由不同類型的節(jié)點構(gòu)成,服務(wù)系統(tǒng)面向各種節(jié)點類型設(shè)計了特色化的用戶服務(wù)界面。對于科研機構(gòu)部分,主要提供了按照機構(gòu)名稱首字母、機構(gòu)類型、機構(gòu)所屬區(qū)域等進行信息導(dǎo)航與發(fā)文統(tǒng)計,并利用地圖的形式提供發(fā)文數(shù)據(jù)的直觀瀏覽;對于主題概念,則主要以其范疇分類、概念關(guān)系為主要導(dǎo)航點,為用戶提供囊括中英文、融合多領(lǐng)域詞表的知識體系;對于論文,作為所有科研實體關(guān)聯(lián)的基礎(chǔ),在提供基礎(chǔ)的專業(yè)分類導(dǎo)航外,則主要以檢索結(jié)果中的實體、概念及其之間的關(guān)系挖掘為主要展示內(nèi)容,為用戶提供所檢索論文內(nèi)容的同時,還提供對結(jié)果數(shù)據(jù)量化的分析情況。圖8是檢索“航空發(fā)動機”之后對結(jié)果進行分析后的知識圖譜可視化展示和文獻列表。
圖8國防知識圖譜服務(wù)系統(tǒng)界面截圖
大數(shù)據(jù)分析技術(shù)的迅猛發(fā)展促進了海量文獻的量化分析,而知識圖譜構(gòu)建又是開展量化分析的重要基礎(chǔ)。筆者從國防科研活動出發(fā)試圖構(gòu)建國防科技知識圖譜,探索基于知識圖譜服務(wù)的新模式。在整個研究和試驗過程中,也發(fā)現(xiàn)了一些問題,主要有兩類。一是信息服務(wù)機構(gòu)業(yè)務(wù)轉(zhuǎn)型問題。傳統(tǒng)的組織加工不再是核心工作,其重點應(yīng)該轉(zhuǎn)向研究各領(lǐng)域間知識圖譜構(gòu)建所依賴的本體模型。二是智能化處理技術(shù)需求強烈。由于數(shù)據(jù)量的指數(shù)級增長,未來大部分文獻處理工作需要計算機完成,因此實體識別、知識抽取、知識標注等技術(shù)還需要深入研究。