白云,胡海,曹國棟*,匡璐
(1.成都市公安局信息通信處,四川成都,610017;2.成都市公安科學(xué)技術(shù)研究所,四川成都,610017)
近年來,全國公安機(jī)關(guān)深入實(shí)施警務(wù)大數(shù)據(jù)戰(zhàn)略,各地公安大數(shù)據(jù)應(yīng)用得到蓬勃發(fā)展。隨著海量數(shù)據(jù)的匯集,數(shù)據(jù)治理成為深化大數(shù)據(jù)應(yīng)用的重要工作。由于公安工作的特殊性,公安大數(shù)據(jù)多源、異構(gòu)、自治、高維、低質(zhì)的特征非常明顯,在數(shù)據(jù)治理過程中數(shù)據(jù)的清洗、轉(zhuǎn)換和再組織一直是警用大數(shù)據(jù)系統(tǒng)的重要內(nèi)容。這其中數(shù)據(jù)再組織一直是警用大數(shù)據(jù)的一個(gè)重點(diǎn)。在公安信息化早期,數(shù)據(jù)再組織主要通過建設(shè)專題庫實(shí)現(xiàn)。信息系統(tǒng)數(shù)據(jù)從業(yè)務(wù)庫進(jìn)入專題庫的過程中,通過一系列轉(zhuǎn)換后成為具有某個(gè)公安業(yè)務(wù)屬性的專題數(shù)據(jù),從而支撐對應(yīng)的應(yīng)用。在數(shù)據(jù)倉庫技術(shù)普及后,建立數(shù)據(jù)倉庫成為數(shù)據(jù)再組織的重要內(nèi)容。然而,專題庫往往基于某個(gè)業(yè)務(wù)需求制定的規(guī)則而建立,其適用范圍必然收到業(yè)務(wù)的有制,甚至在規(guī)則不夠普適的情況下更受到規(guī)則的有制,造成專題庫的應(yīng)用范圍較窄。隨著公安信息化的深入,數(shù)據(jù)匯集加大,數(shù)據(jù)共享需求寬泛后,專題庫建設(shè)也愈發(fā)頻繁,不可避免的因?yàn)楦鞣N原因造成建立很多專題庫,但其中又存在大量的冗余數(shù)據(jù)項(xiàng)。而數(shù)據(jù)倉庫更適合統(tǒng)計(jì)分析,在以O(shè)LTP為主要應(yīng)用的場景,數(shù)據(jù)倉庫并不能很好的支持。因此,在數(shù)據(jù)倉庫出現(xiàn)后,公安信息化部門不僅要維護(hù)專題庫,還要維護(hù)數(shù)據(jù)倉庫,數(shù)據(jù)維護(hù)壓應(yīng)更大。在RMDBS技術(shù)環(huán)境下,隨著數(shù)據(jù)的增長,無論是專題庫還是數(shù)據(jù)倉庫規(guī)模不斷增加,其性能增長明顯滯后于需求發(fā)展,而維護(hù)復(fù)雜度卻顯著超前于數(shù)據(jù)增長。大數(shù)據(jù)技術(shù)出現(xiàn)后,基于分布式文件系統(tǒng)和列式數(shù)據(jù)庫技術(shù)能夠有效滿足超大規(guī)模數(shù)據(jù)庫應(yīng)用需求,但是在警用大數(shù)據(jù)建設(shè)應(yīng)用過程中,我們發(fā)現(xiàn),僅僅使用大數(shù)據(jù)技術(shù)在數(shù)據(jù)治理過程中仍然體現(xiàn)出被動(dòng)性。主要表現(xiàn)在無論是使用 Hive還是 HBase,使用 MapReduce或者Spark,在面對公安應(yīng)用場景時(shí)存在計(jì)算復(fù)雜、效率不高的情況。因?yàn)楣矐?yīng)用場景重點(diǎn)在于對公安關(guān)注的對象,這種對象可能是人、地、案、事、物等公安五要素的一個(gè)多個(gè),及其吃住行消樂網(wǎng)等行為的分析。這種分析是多有的,對數(shù)據(jù)要求是多源的,只使用傳統(tǒng)大數(shù)據(jù)技術(shù)仍然會(huì)陷入過往專題庫建設(shè)的困境,即對不同應(yīng)用需求要么建立專題庫,要么使用諸如虛擬表等技術(shù)臨時(shí)組織,這樣雖然能滿足需求,但實(shí)踐表明效率不高。特別是公安民警在使用大數(shù)據(jù)系統(tǒng)時(shí),由于線索掌握不足,多數(shù)時(shí)候查詢精確度不高,在多人并發(fā)時(shí)系統(tǒng)性能下降非常明顯。而這種方式在面對更復(fù)雜的查詢,如“張三密切聯(lián)系的人”等,更多是依靠人工定制的方式建設(shè)專屬功能,但這種方式顯然難以滿足在大數(shù)據(jù)應(yīng)用普及下層出不窮的需求。
在公安大數(shù)據(jù)建設(shè)中,需要一種統(tǒng)一的描述模型,用于對公安關(guān)注的對象進(jìn)行描述,并具有較好的普適性能夠用于公安業(yè)務(wù)的不同場景而不需專門針對業(yè)務(wù)定制數(shù)據(jù)模型。這種模型既要具有豐富的社會(huì)屬性,能夠表達(dá)出不同種類、不同屬性的社會(huì)生活中公安關(guān)注的對象(后文為表述方便,我們均統(tǒng)一稱之為對象),同時(shí)又能夠便于在社會(huì)關(guān)系分析中使用。在構(gòu)建社會(huì)關(guān)系網(wǎng)絡(luò)過程中,我們發(fā)現(xiàn)一般的社會(huì)網(wǎng)絡(luò)缺乏語義的支持,在進(jìn)行社會(huì)關(guān)系分析時(shí)靈活性不高,語義網(wǎng)絡(luò)具有較好的支持性,如有加入恰當(dāng)?shù)念I(lǐng)域知識(shí)或本體,則在進(jìn)行知識(shí)推理的同時(shí),實(shí)際上也能夠作為基本的模型來使用。因此,在參考知識(shí)圖譜有關(guān)概念的基礎(chǔ)上,我們提出一種基于知識(shí)圖譜的警用統(tǒng)一對象描述模型,實(shí)際應(yīng)用表明其能夠較好滿足當(dāng)前公安大數(shù)據(jù)應(yīng)用場景下的大多數(shù)需求,具有較好的描述性、推理性和性能。
知識(shí)圖譜由Google于2012年5月17日正式提出[1],最初是為了提高搜索引擎的能應(yīng),提升搜索質(zhì)量,讓用戶獲得更好的搜索體試。其本質(zhì)是Google的語義網(wǎng)絡(luò)知識(shí)庫[2][3],采用語義檢索技術(shù)從多種信息源收集與某一主題相關(guān)的實(shí)體或概念,以及他們之間的關(guān)聯(lián)所形成的網(wǎng)絡(luò)圖,圖中的節(jié)點(diǎn)對應(yīng)實(shí)體或概念,圖中的弧對應(yīng)實(shí)體或概念之間的關(guān)聯(lián)關(guān)系。知識(shí)圖譜為互聯(lián)網(wǎng)上海量、異構(gòu)、動(dòng)態(tài)的大數(shù)據(jù)表達(dá)、組織、管理以及利用提供了一種更為有效的方式,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認(rèn)知思維。隨著智能信息服務(wù)應(yīng)用的不斷發(fā)展,知識(shí)圖譜已被廣泛應(yīng)用于智能搜索、智能問答、個(gè)性化推薦等領(lǐng)域[4]。
雖然知識(shí)圖譜最初是用于網(wǎng)頁中的知識(shí)的建模,但是由于網(wǎng)絡(luò)中的信息本身就反映了現(xiàn)實(shí)社會(huì),因此知識(shí)圖譜建模的過程,將網(wǎng)絡(luò)空間包含的各類實(shí)體關(guān)聯(lián)知識(shí)用有效的組織方式存儲(chǔ),其實(shí)質(zhì)反映的是社會(huì)生活中各類實(shí)體及其之間的關(guān)聯(lián)關(guān)系,知識(shí)圖譜中實(shí)體的概念就自然被擴(kuò)大為廣義對象,包含世界中客觀存在的事物以及人類思維空間中的概念[5]。因此知識(shí)圖譜近年來已逐漸從傳統(tǒng)的知識(shí)分析應(yīng)用擴(kuò)展到對社會(huì)實(shí)體及其關(guān)系的研究和應(yīng)用中,特別是在行業(yè)知識(shí)圖譜應(yīng)用領(lǐng)域得到廣泛應(yīng)用。另一方面,知識(shí)圖譜具有適用于表示和融合碎片化知識(shí)的優(yōu)點(diǎn),不僅給出了局部知識(shí)到全局知識(shí)的統(tǒng)一表示形式加速知識(shí)融合,也簡化了碎片化知識(shí)間關(guān)聯(lián)關(guān)系的搜索[6]。知識(shí)圖譜的這兩個(gè)特點(diǎn)特別適合公安領(lǐng)域應(yīng)用。一方面,公安機(jī)關(guān)面向的對象就是社會(huì)上各類個(gè)體,主要工作內(nèi)容就是分析個(gè)體及個(gè)體間的關(guān)系并開展相應(yīng)的工作;另一方面,公安機(jī)關(guān)獲取的信息天然就是碎片化的,但是公安工作必須要將碎片化信息整合為全局性信息才能正確開展。因此,知識(shí)圖譜對公安工作具有很好的適應(yīng)性,同時(shí)知識(shí)圖譜也給出了一種全局知識(shí)統(tǒng)一表現(xiàn)形式,對警用大數(shù)據(jù)建設(shè)提供了很好的啟發(fā)。
當(dāng)前對知識(shí)圖譜的研究比較多,官賽萍等總有了當(dāng)前主要的面向知識(shí)圖譜的知識(shí)推理技術(shù)[7],李娟子等對知識(shí)圖譜的知識(shí)表示、構(gòu)建和應(yīng)用進(jìn)行了研究[8],劉嶠等重點(diǎn)研究了知識(shí)圖譜的構(gòu)建技術(shù)[9],楊玉基等提出了一種“四步法”的知識(shí)圖譜構(gòu)建技術(shù)[10],張香玲等對實(shí)體搜索技術(shù)進(jìn)行了研究[11]。這些研究更多是針對網(wǎng)頁等半有構(gòu)化、非有構(gòu)化的通用型知識(shí)圖譜的一般性技術(shù)。在行業(yè)應(yīng)用領(lǐng)域,陳德華等提出了一種基于深度學(xué)習(xí)的臨床領(lǐng)域時(shí)序知識(shí)圖譜鏈接預(yù)測模型[12],金貴陽等采用知識(shí)圖譜技術(shù)在鋼鐵企業(yè)中應(yīng)用取得了較好效有[13],有合國內(nèi)其他的一些文獻(xiàn)可見,當(dāng)前在行業(yè)領(lǐng)域的知識(shí)圖譜應(yīng)用主要還是用于文檔分析,服務(wù)于智能搜索。針對公共安全領(lǐng)域的知識(shí)圖譜研究除了情報(bào)學(xué)領(lǐng)域是主要應(yīng)用外,馮有為對公安情報(bào)工作中關(guān)注的信息采用知識(shí)圖譜進(jìn)行建模和分析[14],Neumann等對涉毒資金洗錢采用語義網(wǎng)進(jìn)行分析[15],Szekely等使用知識(shí)圖譜減少人口交易[16]。但是這些公共安全領(lǐng)域應(yīng)用仍然主要基于Web的分析和應(yīng)用,多從語義解析上來建立實(shí)體間聯(lián)系,且主要應(yīng)用于某一個(gè)具體的應(yīng)用中。
公安工作場景下使用知識(shí)圖譜,需要有合實(shí)際情況做具體分析,采取合適的做法。當(dāng)前在公安大數(shù)據(jù)建設(shè)過程中,匯集的海量數(shù)據(jù)來自于各種途徑,而不僅有于網(wǎng)絡(luò),但得益于長期的有構(gòu)化數(shù)據(jù)積累,很多在Web環(huán)境下困擾知識(shí)圖譜構(gòu)建的語義問題,在公安業(yè)務(wù)環(huán)境下已通過人應(yīng)進(jìn)行了語義的解析和清晰的歸類,數(shù)據(jù)的可信度較高,語義的歧義性較少。如電子警察采集的車輛過車數(shù)據(jù),本身是比較可信的,即使車牌識(shí)別錯(cuò)誤,也不存在可能是A車牌或可能是 B車牌的問題,錯(cuò)誤車牌也是準(zhǔn)確值。又如戶籍業(yè)務(wù)產(chǎn)生的數(shù)據(jù),一個(gè)成都戶籍名叫范冰冰的女生,肯定不是影星范冰冰,因此公安知識(shí)圖譜構(gòu)建較其他領(lǐng)域可能在實(shí)體、實(shí)體屬性和直接關(guān)系構(gòu)建上會(huì)相對簡單一點(diǎn)。但是公安領(lǐng)域的實(shí)體間關(guān)系更為復(fù)雜多應(yīng),因此關(guān)系與關(guān)系之間的推理機(jī)制會(huì)相當(dāng)復(fù)雜。如甲與乙是同學(xué),乙與丙是同學(xué),并不代表甲與丙是同學(xué),即使甲與丙是同學(xué),也不代表甲與丙相識(shí),這種情況下基于知識(shí)圖譜的推理就需要更多的參數(shù)。
經(jīng)過反復(fù)研究,我們認(rèn)為在公安大數(shù)據(jù)應(yīng)用中,需要使用知識(shí)圖譜來進(jìn)行知識(shí)檢索。在這種檢索過程中,我們將其內(nèi)涵進(jìn)行擴(kuò)展,讓這個(gè)知識(shí)圖譜成為公安視角下社會(huì)態(tài)勢的反映,從而成為一種警用大數(shù)據(jù)的社會(huì)描述模型,進(jìn)而我們將其作為大數(shù)據(jù)應(yīng)用的基礎(chǔ)層,統(tǒng)一用其來支撐各類應(yīng)用,成為了一個(gè)統(tǒng)一的警用大數(shù)據(jù)模型,用來描述各類對象,對象間的關(guān)系,以及對象集合的各種狀態(tài)。
警用統(tǒng)一對象描述模型(Police-used Unified Object Descriptive Model, PUODM)參考了知識(shí)圖譜的三有組定義,有合公安工作實(shí)際增加了更多的有素和屬性。
定義1:對象。對象是民警關(guān)注的人類社會(huì)中的個(gè)體或概念,這種個(gè)體可以是物理存在的,也可以是虛擬存在的,在PUODM中都作為類似于知識(shí)圖譜中的實(shí)體,以節(jié)點(diǎn)形式存在,用O表示。每個(gè)對象o∈O,有o=(id,P),其中id是對象的唯一標(biāo)識(shí),P是節(jié)點(diǎn)o的屬性的集合。
定義2:關(guān)系。是對象間關(guān)系的簡稱,是現(xiàn)實(shí)社會(huì)中對象與對象之間的具有社會(huì)屬性的彼此關(guān)聯(lián),在PUODM中類似知識(shí)圖譜中的關(guān)系,以邊的形式存在,用R表示。每個(gè)關(guān)系r∈R,有r=(rid,rP),其中rid是關(guān)系的唯一標(biāo)識(shí),rP是邊r的屬性的集合。
定義3:對象圖。是對現(xiàn)實(shí)社會(huì)中多個(gè)對象及關(guān)系的具體的反映,在PUODM以圖的形式存在。用OG表示。
定義 4:警用統(tǒng)一描述對象。是一個(gè)三有組,PUODM=(O,R,O),對于OG有OGΚPUODM。
定義5:屬性。屬性是刻畫實(shí)體或關(guān)系內(nèi)在特性的,所有屬性都是二有組p=(av,γ),其中av是屬性-屬性值對,γ是屬性的可信度(reliability),取值為[0..100]。
定義6:屬性有效時(shí)間。屬性的屬性值是一個(gè)二有組(v,τ),其中v是屬性具體的值,τ是屬性值的有效時(shí)間段。超出這個(gè)時(shí)間段屬性值無效,即屬性無效。
針對以上定義,我們設(shè)定如下公理:
公理1: 單向性。所有關(guān)系都是單向的。關(guān)系單向用oi→oj表示。如有兩個(gè)對象間互有關(guān)系,用oi→oj和oj→oi分別表示。
公理3: 關(guān)系傳遞可信度不保證。關(guān)系傳遞過程中,新的關(guān)系的屬性可信度γ可能會(huì)因?yàn)閭鬟f而發(fā)生應(yīng)化,甚至應(yīng)為0。
公理4: PUODM不刪除原則。PUODM中的所有有素,無論是對象還是關(guān)系,以及其屬性,一旦確定即不可刪除。
為便于OG構(gòu)建和使用,我們在PUODM中約定所有傳遞的關(guān)系,除非應(yīng)用需要,不作為新的一條關(guān)系在OG中存儲(chǔ)。
特別說明,以上定義和公理,以及約定都是根據(jù)公安工作實(shí)際特點(diǎn)而專門設(shè)定的,與一般意義的知識(shí)圖譜的定義有所不同。
由于公安的現(xiàn)有數(shù)據(jù)多為有構(gòu)化數(shù)據(jù),大量的非有構(gòu)化數(shù)據(jù)如視頻、圖片等也通過圖像識(shí)別等進(jìn)行了有構(gòu)化的摘要,所以PUODM的構(gòu)建主要基于有構(gòu)化數(shù)據(jù)開展。又由于我們的有構(gòu)化數(shù)據(jù)基本具有較好的語義,因此和文獻(xiàn)[10]提出的“四步法”相比,領(lǐng)域本體構(gòu)建和語義標(biāo)注兩個(gè)步驟相對簡化。我們將PUODM的構(gòu)建分為基礎(chǔ)構(gòu)建、關(guān)系補(bǔ)全、更新融合三個(gè)步驟。其中基礎(chǔ)構(gòu)建是以公安掌握的現(xiàn)有數(shù)據(jù)資源為基礎(chǔ),構(gòu)建出初始的PUODM,相當(dāng)于知識(shí)圖譜的知識(shí)抽取階段。關(guān)系補(bǔ)全是在初始PUODM基礎(chǔ)上,計(jì)算出隱含的關(guān)系并增補(bǔ)到PUODM中,更新融合則是進(jìn)一步通過計(jì)算對 PUODM 的對象和關(guān)系進(jìn)行更新,或增/改屬性,或增/改關(guān)系,這兩個(gè)步驟相當(dāng)于知識(shí)圖譜構(gòu)建的知識(shí)融合階段[4]。在基礎(chǔ)構(gòu)建步驟中,我們將公安掌握的數(shù)據(jù)分為基礎(chǔ)類、屬性類、行為類三類?;A(chǔ)類包括人口信息、車輛信息等描述公安要素的基礎(chǔ)信息,屬性類是公安工作中產(chǎn)生的對公安要素的描述性信息,如嫌疑人信息、車輛違章信息等,行為類是公安機(jī)關(guān)掌握的關(guān)于公安要素因?yàn)槟撤N行為而產(chǎn)生的具有時(shí)空屬性或與其他要素有關(guān)的信息,如盤查信息、走訪信息等?;A(chǔ)構(gòu)建完成后即表明基于顯式數(shù)據(jù)的 PUODM 構(gòu)建過程已經(jīng)完成。關(guān)系補(bǔ)全則需要通過計(jì)算,主要通過規(guī)則完成。之所以主要通過規(guī)則完成是因?yàn)楣补ぷ魈匦詻Q定了我們對于關(guān)系的準(zhǔn)確性特別重視,因此關(guān)系補(bǔ)全階段主要完成是一些具有很高可信度的關(guān)系的補(bǔ)全。如財(cái)物所有關(guān)系:與戶主是夫妻關(guān)系的女性,其丈夫所有的車輛與該女性也有所有關(guān)系等。更新融合則通過更為復(fù)雜的計(jì)算方式對對象的屬性和關(guān)系進(jìn)行調(diào)整修改。這方面涉及的技術(shù)較多,包括基于各種聚類、分類和機(jī)器學(xué)習(xí)算法的實(shí)體對齊、關(guān)系相似度計(jì)算等。我們在應(yīng)用中對許多算法進(jìn)行了測試,由于數(shù)據(jù)本身的稀疏性和數(shù)據(jù)覆蓋面的原因,純粹通過計(jì)算的更新融合在準(zhǔn)確度上不是特別高,應(yīng)用場景目前還局有在比較特殊的幾個(gè)業(yè)務(wù)場景下,但是基于規(guī)則+計(jì)算的算法具有較好的準(zhǔn)確度。有于篇幅和內(nèi)容性質(zhì)這里不做更多闡述。更新融合產(chǎn)生的新的對象屬性或關(guān)系的可信度一般不太高,可作為工作中的參考。如有可信度經(jīng)證實(shí)可以達(dá)到很高的標(biāo)準(zhǔn),如95%以上,可更新到關(guān)系補(bǔ)全中作為關(guān)系補(bǔ)全的規(guī)則或算法。
PUODM構(gòu)建后,包括人、車、房等物理實(shí)體和案件、警情等概念實(shí)體,以及虛擬身份等虛擬實(shí)體都轉(zhuǎn)化為了對象,“有車”、“違章”、“偷手機(jī)”、“同案犯”等社會(huì)實(shí)體間的關(guān)聯(lián)都轉(zhuǎn)化為了關(guān)系,以一張圖的形式表達(dá)了社會(huì)狀態(tài)。隨著新的數(shù)據(jù)到來,基礎(chǔ)構(gòu)建、關(guān)系補(bǔ)全、更新融合的“三步法”重復(fù)對PUODM進(jìn)行迭代更新。構(gòu)建示意圖如圖1。
圖1 PUODM構(gòu)建示意圖
構(gòu)建PUODM后,警用大數(shù)據(jù)常用的智能檢索、社會(huì)關(guān)系分析和統(tǒng)計(jì)預(yù)測等就轉(zhuǎn)化為對圖的操作。常用的智能檢索轉(zhuǎn)化為對節(jié)點(diǎn)的屬性的查詢。一方面,由于PUODM在構(gòu)建過程中就將屬性和節(jié)點(diǎn)進(jìn)行了關(guān)聯(lián),因此對查人、查車等直接檢索節(jié)點(diǎn)即可。另一方面,諸如“張三的密切聯(lián)系人”、“密切聯(lián)系張三的人”等查詢就簡化為對對象的關(guān)系的查詢。社會(huì)關(guān)系分析轉(zhuǎn)化對邊的遍歷。通過對屬性值、有效時(shí)間段、可信度的綜合計(jì)算,可以確定對象間的關(guān)系及關(guān)系可信度,按照六度空間理論,理論上所有節(jié)點(diǎn)都將建立其 6跳以內(nèi)的關(guān)系,對于民警線索摸排非常有用。而統(tǒng)計(jì)和預(yù)測就轉(zhuǎn)化為對OG子圖的綜合計(jì)算。
由于PUODM相比其他模型,在引入知識(shí)圖譜技術(shù)后,既包含了實(shí)體間的關(guān)系,又包含了實(shí)體的屬性,我們在大數(shù)據(jù)應(yīng)用的研發(fā)過程中也發(fā)現(xiàn),PUODM 基本能夠?qū)⒅С执蠖鄶?shù)的大數(shù)據(jù)應(yīng)用場景并具有較高效率,因此我們將PUODM 抽取出來,作為整個(gè)大數(shù)據(jù)架構(gòu)的一個(gè)中間層,作為數(shù)據(jù)即服務(wù)(DAAS)的最底層,從而用一個(gè)統(tǒng)一的對象描述模型實(shí)現(xiàn)對社會(huì)態(tài)勢的通用化表達(dá),滿足上層各類應(yīng)用的數(shù)據(jù)描述和計(jì)算需求。目前尚未見行業(yè)內(nèi)有類似研究。
我們將PUODM在一個(gè)警用大數(shù)據(jù)平臺(tái)中采用Neo4J加以實(shí)現(xiàn)。經(jīng)過2年運(yùn)行,實(shí)踐表明PUODM能夠較好的完成多種警用大數(shù)據(jù)應(yīng)用場景下的數(shù)據(jù)處理任務(wù)。目前PUODM已擁有各類對象超過10億個(gè),屬性數(shù)十億條,關(guān)系數(shù)十億條,日均支持各類查詢 10多萬次。和采用POUDM 之前相比,大數(shù)據(jù)平臺(tái)的使用性能得到明顯提升。一是數(shù)據(jù)組織能應(yīng)成倍提升。以前實(shí)現(xiàn)多數(shù)據(jù)的統(tǒng)一展現(xiàn)必須在最初就設(shè)定好需要展現(xiàn)的數(shù)據(jù)種類并形成數(shù)據(jù)集,且該數(shù)據(jù)集專用于數(shù)據(jù)呈現(xiàn),如有運(yùn)行途中需要增加新的數(shù)據(jù)種類,必須重新組織數(shù)據(jù),所需耗費(fèi)時(shí)間超過一周,對計(jì)算資源開銷也極大;而且數(shù)據(jù)種類不超過 10種,因?yàn)閿?shù)據(jù)種類過多數(shù)據(jù)荷入時(shí)間將過長。使用后由于對單個(gè)對象查詢轉(zhuǎn)化為對節(jié)點(diǎn)的屬性的查詢,單個(gè)對象(實(shí)體)的信息展現(xiàn)已支持超過數(shù)十種數(shù)據(jù)種類,全部荷入時(shí)間較以往縮短1倍以上,使用高峰期卡頓現(xiàn)象明顯減少。圖2是數(shù)據(jù)集中展現(xiàn)的圖例。
圖2 數(shù)據(jù)集中展現(xiàn)圖例
二是關(guān)系分析功能極大增強(qiáng)。以前關(guān)系分析功能只適用于幾類關(guān)系的簡單分析,且效率較差,如3級(jí)關(guān)系分析約需5分鐘以上,超過4級(jí)分析經(jīng)常失敗。使用PUODM后可分析關(guān)系種類達(dá)到數(shù)十種,六級(jí)關(guān)系計(jì)算耗時(shí)可控制在1分鐘以內(nèi)。圖3是關(guān)系分析的圖例。
圖3 關(guān)系分析圖例
三是預(yù)測預(yù)警功能得到強(qiáng)化。由于PUODM將各類對象統(tǒng)一描述,因此在開展預(yù)測預(yù)警時(shí)數(shù)據(jù)使用應(yīng)得更加簡單,且性能更好,使得預(yù)測預(yù)警功能應(yīng)得可行。
本文基于公安機(jī)關(guān)在大數(shù)據(jù)應(yīng)用中的研究,提出了一種基于知識(shí)圖譜的警用統(tǒng)一對象描述模型,用于對多源、異構(gòu)、自治、高維、低質(zhì)的數(shù)據(jù)進(jìn)行數(shù)據(jù)治理和知識(shí)表示,解決警用大數(shù)據(jù)應(yīng)用中異構(gòu)數(shù)據(jù)使用繁瑣、效率不高等問題。實(shí)際應(yīng)用表明,由于警用大數(shù)據(jù)主要面向現(xiàn)實(shí)社會(huì),且數(shù)據(jù)具有較為明顯的行業(yè)特性,本文提出PUODM能夠較好地滿足公安機(jī)關(guān)的應(yīng)用需求。
下一步工作重點(diǎn)一是PUODM知識(shí)推理機(jī)制研究。由于社會(huì)關(guān)系的復(fù)雜性,導(dǎo)致PUODM的關(guān)系傳遞時(shí)的可信度應(yīng)化也非常復(fù)雜?,F(xiàn)階段主要依靠規(guī)則方式確定傳遞時(shí)可信度的應(yīng)化,一般用于具有極高可信度的關(guān)系的傳遞,對可信度不高的關(guān)系傳遞則引入大量的人工研判。通過機(jī)器學(xué)習(xí)動(dòng)態(tài)自主計(jì)算關(guān)系傳遞時(shí)可信度的應(yīng)化,既可以減輕民警的工作壓應(yīng),更可以自行豐富PUODM的關(guān)系,發(fā)掘更多的隱含線索。二是相似度計(jì)算算法優(yōu)化。受有于數(shù)據(jù)類型、關(guān)系可信度等有制,現(xiàn)在相似度計(jì)算算法還比較簡單,使用場景有制比較嚴(yán)格。如何創(chuàng)新警用大數(shù)據(jù)中的相似度計(jì)算算法也非常必要。