郝培豪,高潔
(中國人民公安大學信息技術與網(wǎng)絡安全學院,北京102623)
隨著社會不斷發(fā)展,社會之中人與人之間的交往也變得更加頻繁,與此同時,愈來愈多的社會活動也隨之而不斷開展,而保障這些活動的安全順利的進行是各級政府極具重視的工作之一。再加之,社會中一些具有仇視心理的人為報復社會,總會在大規(guī)模人群中制造危險,并且國內外對于這種事件的發(fā)生也屢見不鮮,因此合理科學地增強安保工作便成為當務之急。我國安保領域的數(shù)據(jù)資源雖然豐富,數(shù)據(jù)量也呈爆炸式增長,其涉及的方面也十分廣泛,但是其包含各種結構化、半結構化和非結構化數(shù)據(jù),關聯(lián)性和可操作性較差,難以為安保做出更大的貢獻,如何解決安?;顒又谐霈F(xiàn)的各種諸如人、車以及物品等數(shù)據(jù),并將其整合成為有關系的語義網(wǎng)絡便成為當前安保領域的一個研究方向。傳統(tǒng)的關系數(shù)據(jù)庫可以處理一下具有簡單的數(shù)據(jù)關系,但隨著如今各種數(shù)據(jù)已爆炸的形勢增長,以往的關系數(shù)據(jù)庫已在適應數(shù)據(jù)的動態(tài)性、處理數(shù)據(jù)之間的關系等方面呈現(xiàn)出一定的疲態(tài),而知識圖譜便可處理安?;顒又械碾y題。知識圖譜是顯示知識發(fā)展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯(lián)系[1]。本文運用Neo4j圖數(shù)據(jù)庫[2]對安保警務知識圖譜所產(chǎn)生的數(shù)據(jù)進行統(tǒng)計與整理,并進行數(shù)據(jù)的編譯,使之形成一個完整的安保知識圖譜,使安保人員能夠直觀地了解某些在安保過程中面對突發(fā)情況所應該采取的措施,一方面節(jié)省時間,另一方面也優(yōu)化了信息獲取的速度,縮短了時間,提升了工作效率。
Neo4j圖數(shù)據(jù)庫作為一個高性能的圖形數(shù)據(jù)庫,它的優(yōu)點是可以將結構化的數(shù)據(jù)保存在網(wǎng)絡中,而不是傳統(tǒng)關系數(shù)據(jù)庫中的數(shù)據(jù)表中。它利用的是Java持久化引擎,并且該引擎是嵌入式的、基于磁盤、具備完全的事務特性[3]。它擁有目前成熟數(shù)據(jù)庫的諸多特性,相比較于傳統(tǒng)的關系數(shù)據(jù)庫,它可以更加高效地解決大量低結構化、復雜的數(shù)據(jù),其原因在于,傳統(tǒng)的關系數(shù)據(jù)庫在處理關系繁多的數(shù)據(jù)信息是,伴隨其產(chǎn)生的就是大量的數(shù)據(jù)表連接,這些連接會使得用戶在做數(shù)據(jù)查詢處理時就會顯得不夠迅速與便捷。而Neo4j圖數(shù)據(jù)庫很出色地解決了這一問題,通過圍繞圖形進行數(shù)學建模,Neo4j在數(shù)據(jù)處理上會以相同速度遍歷節(jié)點與邊,并且其遍歷的速度與圖數(shù)據(jù)庫中的數(shù)據(jù)量是沒有直接關系,無論圖數(shù)據(jù)庫中存儲的數(shù)據(jù)量有多少,都不會影響Neo4j的遍歷速度,這種做法的好處是大大提升了數(shù)據(jù)庫的工作效率。此外,Neo4j圖數(shù)據(jù)庫還在傳統(tǒng)關系數(shù)據(jù)庫的基礎上,提供了快速的圖算法、推薦系統(tǒng)和OLAP風格的分析方法,方便數(shù)據(jù)的綜合分析[4]。
本文是構建一個安保領域體系的知識圖譜,將安保中出現(xiàn)的數(shù)據(jù)信息存儲到數(shù)據(jù)庫中,并利用可視化工具將其展現(xiàn),并且能夠進行特定查詢的功能。具體研究步驟如下:
(1)采用億圖MindMaster軟件做安保工作的思維導圖,用于理清安保過程中各個流程之間的關系,以及梳理在安保過程中出現(xiàn)的人、車以及物品所可能出現(xiàn)的關系屬性。
(2)運用 Protégé軟件進行安保領域的本體構建[5],分析其中的知識結構,明確安保領域的本體概念,針對安保中的邏輯概念進行限定,最后利用定義規(guī)則的方式推理安保知識圖譜的本體關系。
(3)基于Neo4j圖數(shù)據(jù)庫構建安保知識圖譜,利用Cypher語言對安保中的實體、關系以及屬性進行設計、編譯,使安保知識圖譜中可以呈現(xiàn)清晰的節(jié)點關系結構,并且利用該圖數(shù)據(jù)庫方便使用交互式查詢。
在知識圖譜的研究領域中,知識圖譜對于數(shù)據(jù)來源的定義已劃為基本的三類,分別為基于結構化數(shù)據(jù)構建、基于半結構化數(shù)據(jù)構建和基于非結構化數(shù)據(jù)構建。由于安保行動對于全世界而言都是屬于秘密行動,為防止不法分子針對安保方案進行恐怖活動方案設計,所以本文的安保知識圖譜數(shù)據(jù)主要是通過基層調研,向基層派出所的一線民警調研學習,獲得關于安?;顒拥姆桨敢约疤幹媒?jīng)驗,故本文主要基于非結構化數(shù)據(jù)進行安保知識圖譜的構建,并結合網(wǎng)絡中相關的安保新聞以及文檔信息,作為安保知識圖譜的數(shù)據(jù)基礎,進行分析。
本文運用億圖MindMaster軟件,針對安保方案以及收集的數(shù)據(jù)進行梳理,將安保流程及規(guī)范整理為本體與事件兩大類,其中安保中本體下可分為人、車和物,而安保中事件可分為應急、防爆和檢查,運用這兩大類,六個方面將安保工作進行整體概括,從而形成安保知識導圖(如圖1所示)。
圖1 安保知識導圖
在本文研究中,針對抽取而出的安保信息數(shù)據(jù)的本體,例如在安保行動過程中出現(xiàn)的人,其屬性包括為姓名、身份證號、相貌特征、犯罪記錄等,以及車輛、物品,諸如此類本體在一定的時空之中會發(fā)生諸多交集,并且由于安?,F(xiàn)場人員眾多,車輛與物品的出現(xiàn)也會充滿了隨機性與多樣性,這樣復雜的關系聯(lián)系就需要人工定義推理的方法完成,本文運用Protégé軟件進行本體與本體之間,以及屬性的定義,分析出對于安保過程中最基本的本體要本,利用OntoGraf插件可構建完整的本體屬性關聯(lián)關系圖(如圖2所示),從而形成嚴密完整的知識語言邏輯體系,成為安保知識圖譜的理論基礎。
通過對本體與本體之間的關系進行定義,可以定義駕駛、擁有、偷竊、檢查等多種關系,憑借著各種關系,多種本體之間的關系就會構成一套容納整個安保中的本體、關系的知識庫。
安保知識圖譜的可視化是通過Neo4j圖數(shù)據(jù)庫所實現(xiàn)的[6]。在Neo4j圖數(shù)據(jù)庫中,數(shù)據(jù)展現(xiàn)是通過數(shù)據(jù)節(jié)點、屬性已經(jīng)關系展現(xiàn)的,各個節(jié)點之間可以擁有多個關系和屬性,并且針對安保工作中的各種人物、車輛和物品的復雜關系,以及多源的數(shù)據(jù)類型,Neo4j圖數(shù)據(jù)庫可以很好地處理這些問題。并在這基礎之上,針對傳統(tǒng)數(shù)據(jù)庫在表示數(shù)據(jù)表的連接時的局限性,Neo4j圖數(shù)據(jù)庫可概括為一個節(jié)點,從而大幅度提升數(shù)據(jù)檢索時的效率。
圖2 安保本體聯(lián)系圖
針對安保中數(shù)據(jù)信息的處理,通過代碼編寫和數(shù)據(jù)導入,獲得安保信息,并在Neo4j圖數(shù)據(jù)庫中構建知識圖譜體系。例如,在數(shù)據(jù)庫中,對人物“楊問楓”進行檢索,其對應的查詢語句為:
match(p:人物{姓名:“楊問楓”}
return p;
查詢結果如圖3所示。通過對人物“楊問楓”的檢索,可以獲得關于其的人物關系、車輛關系以及物品所屬關系,通過對這些關系的分析,從而可以便捷高效地掌握信息,也同時為安保工作提供便利。
圖3 安保知識圖譜
本文通過針對警務安保領域的知識圖譜構建進行了探究,通過對安保行業(yè)的知識信息數(shù)據(jù)進行歸納提取,基于其特殊的應用領域,從本體關系關聯(lián)的角度,深入本體之間的關系架構,構建符合安保實際情況的知識圖譜,也同時為安保知識圖譜的研究提供一個實踐基礎和理論基礎。隨著社會快速發(fā)展,安保領域也面臨著活動不斷復雜的情況,并且關于本體的數(shù)據(jù)也在不斷變化與更新,因此需要對本體和屬性的知識庫進行周期性更新,這樣才能夠保證安保知識圖譜在安保領域中不會落后,不會影響安保工作的正常進行。在本文中也存在著一些不足,對于安保領域而言,本文的安保知識圖譜僅是一次初步探索,其本體的定義還不僅完善,對屬性以及關系的構建也不夠詳盡與,因此希望在以后的研究中將其完善,做深入研究。
安保行業(yè)領域一直以來都是受到廣泛關注的特殊領域,為此,加強安保工作,針對安保知識圖譜的搭建便具有十分重要的意義。在此基礎上,安保知識圖譜也能在可視化的檢索服務中為安保人員的知識需求提供一種便捷的服務,從而幫助安保活動的正常順利進行。