◆韓戈白 楊紹雄 王 博 陳 迪
(中國(guó)電子科技集團(tuán)公司第二十八研究所 江蘇 210000)
裝備大數(shù)據(jù)是指關(guān)于裝備日常管理及任務(wù)產(chǎn)生的各種數(shù)據(jù)的集合,它具有大數(shù)據(jù)的典型特征,并且還體現(xiàn)出了裝備類型多、業(yè)務(wù)種類繁雜和裝備用戶多的特點(diǎn)。隨著信息化程度的逐漸加深,裝備大數(shù)據(jù)日漸龐大和復(fù)雜,而現(xiàn)階段使用的傳統(tǒng)文件存儲(chǔ)和關(guān)鍵字查詢的方式已不能滿足日常辦公復(fù)雜性、及時(shí)性的需要,急需提高裝備數(shù)據(jù)的管理和使用效率。
知識(shí)圖譜是一種研究數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的新興技術(shù),能有效地展現(xiàn)錯(cuò)綜復(fù)雜數(shù)據(jù)之間的各種關(guān)聯(lián)關(guān)系,清晰地表達(dá)數(shù)據(jù)的知識(shí)結(jié)構(gòu),讓使用者對(duì)數(shù)據(jù)本身能有全面而深入的認(rèn)識(shí)。針對(duì)裝備大數(shù)據(jù)展現(xiàn)出來(lái)的特點(diǎn),本文構(gòu)建了知識(shí)圖譜在裝備大數(shù)據(jù)上的典型應(yīng)用。
裝備業(yè)務(wù)大數(shù)據(jù)除了具有傳統(tǒng)大數(shù)據(jù)的五個(gè)“V”的特點(diǎn)[1]之外,還具備裝備類型多、業(yè)務(wù)種類繁雜和裝備用戶多的特點(diǎn)。
裝備管理以裝備為核心,涉及裝備、人員、機(jī)構(gòu)、器材、設(shè)備和工具等諸多管理要素,裝備管理實(shí)體具有類型多、數(shù)量大和關(guān)系復(fù)雜的特點(diǎn)。根據(jù)裝備管理?xiàng)l例,裝備管理的目標(biāo)是實(shí)現(xiàn)裝備全壽命、全系統(tǒng)管理,涵蓋裝備從研發(fā)直至報(bào)廢的全系統(tǒng)、全壽命、全要素的裝備管理活動(dòng),業(yè)務(wù)種類繁多。而裝備管理用戶包括與裝備全要素相關(guān)聯(lián)的各級(jí)部門機(jī)構(gòu)用戶和生產(chǎn)單位用戶,涉及部門類型多,用戶數(shù)量較大。
近年來(lái),為了應(yīng)對(duì)與日俱增的網(wǎng)絡(luò)數(shù)據(jù),各大搜索引擎公司相繼以包含各種實(shí)體和實(shí)體關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)為基礎(chǔ)來(lái)構(gòu)建知識(shí)圖譜,旨在改進(jìn)引擎搜索質(zhì)量,進(jìn)而拉開(kāi)語(yǔ)義搜索的序幕[6,9]。知識(shí)圖譜旨在通過(guò)圖結(jié)構(gòu)描述真實(shí)世界中的實(shí)體和概念,以一個(gè)全局唯一的標(biāo)識(shí)符來(lái)表示每個(gè)實(shí)體,以多組屬性-值對(duì)來(lái)描述實(shí)體的內(nèi)在特征,以關(guān)聯(lián)關(guān)系來(lái)連接兩個(gè)實(shí)體。因此,知識(shí)圖譜從宏觀上形成了巨大的圖結(jié)構(gòu),圖中的節(jié)點(diǎn)表示實(shí)體,邊表示關(guān)系或者實(shí)體屬性[9]。
除了在輔助搜索引擎時(shí)有重大作用之外,知識(shí)圖譜在金融領(lǐng)域應(yīng)用廣泛,包括反欺詐、風(fēng)險(xiǎn)控制及評(píng)估和企業(yè)社交等方面。隨著知識(shí)圖譜技術(shù)的成熟和普及,知識(shí)圖譜在越來(lái)越多的領(lǐng)域展現(xiàn)了其聯(lián)系萬(wàn)物的優(yōu)勢(shì)[2-5]。
裝備大數(shù)據(jù)知識(shí)圖譜具有數(shù)據(jù)構(gòu)成復(fù)雜以及知識(shí)體系特殊的特點(diǎn)。區(qū)別于傳統(tǒng)真實(shí)世界知識(shí)圖譜的自然文本輸入,裝備大數(shù)據(jù)知識(shí)圖譜的輸入數(shù)據(jù)一部分來(lái)自已經(jīng)結(jié)構(gòu)化的業(yè)務(wù)系統(tǒng)數(shù)據(jù)等,一部分來(lái)自半結(jié)構(gòu)化、非結(jié)構(gòu)化的具有高度規(guī)則的文檔數(shù)據(jù)和一些圖片、音視頻數(shù)據(jù)。同時(shí),裝備大數(shù)據(jù)知識(shí)圖譜包含高度領(lǐng)域化的實(shí)體及實(shí)體關(guān)系,屬于典型的特殊領(lǐng)域知識(shí)圖譜。因此,傳統(tǒng)的面向自然文本的知識(shí)圖譜構(gòu)建技術(shù)并不完全適用,需要研究適應(yīng)于裝備大數(shù)據(jù)結(jié)構(gòu)和特點(diǎn)的知識(shí)圖譜構(gòu)建技術(shù)。
通過(guò)構(gòu)建基于裝備大數(shù)據(jù)的知識(shí)圖譜,可以提高數(shù)據(jù)管理統(tǒng)籌能力,解決數(shù)據(jù)利用率低的問(wèn)題?;谘b備大數(shù)據(jù)的知識(shí)圖譜可以將多領(lǐng)域、多形態(tài)的數(shù)據(jù)層層分解并關(guān)聯(lián)起來(lái),將以往長(zhǎng)期的、離散的、分段的、不同層面的數(shù)據(jù)整合起來(lái),共同反映裝備工作的整體面貌。
其次,面對(duì)多變的業(yè)務(wù)需求,知識(shí)圖譜可以提高決策支持的適用范圍。在實(shí)際使用中,裝備決策問(wèn)題根據(jù)不同的環(huán)境條件而改變,不同的時(shí)期又有不同的決策重點(diǎn)。同時(shí),裝備管理的精細(xì)化程度逐漸提高,針對(duì)細(xì)粒度的裝備決策難度上升。通過(guò)知識(shí)圖譜,可以從最基本的單個(gè)裝備出發(fā),從不同的關(guān)系延伸組合出不同切面的關(guān)系網(wǎng)絡(luò),以支撐多變的決策要求[4]。
圖1 知識(shí)圖譜構(gòu)建流程
基于裝備大數(shù)據(jù)的知識(shí)圖譜構(gòu)建流程如上圖1所示,針對(duì)裝備大數(shù)據(jù)中的結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)將采用不同的策略進(jìn)行實(shí)體關(guān)系提取。
對(duì)于結(jié)構(gòu)化數(shù)據(jù),基礎(chǔ)數(shù)據(jù)倉(cāng)庫(kù)中的各種對(duì)象數(shù)據(jù)表都是較好的實(shí)體表達(dá),可直接用作實(shí)體的載體。而實(shí)體之間的關(guān)系并沒(méi)有清晰的信息載體,需要通過(guò)一定的技術(shù)手段進(jìn)行提取和構(gòu)建。
對(duì)于半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),尤其是針對(duì)特定領(lǐng)域并且高度規(guī)整的數(shù)據(jù),可以直接使用準(zhǔn)確率相當(dāng)優(yōu)秀的現(xiàn)有提取模型進(jìn)行信息提取。
將兩部分?jǐn)?shù)據(jù)中提取的知識(shí)進(jìn)行知識(shí)融合之后,經(jīng)過(guò)知識(shí)質(zhì)量評(píng)估,并組織成為一定的知識(shí)表示形式即可形成知識(shí)庫(kù)[3]。
鑒于裝備大數(shù)據(jù)的數(shù)據(jù)本身體現(xiàn)出來(lái)的特點(diǎn),構(gòu)建基于裝備大數(shù)據(jù)的知識(shí)圖譜的難點(diǎn)主要集中在針對(duì)結(jié)構(gòu)化數(shù)據(jù)的實(shí)體關(guān)系提取和從不同數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)源提取得到的知識(shí)之間的知識(shí)融合兩個(gè)方面。
在實(shí)體提取階段,面對(duì)大量的結(jié)構(gòu)化的數(shù)據(jù)庫(kù),如何去除冗余信息,提取所需要的實(shí)體信息是關(guān)鍵;在關(guān)系提取階段,傳統(tǒng)的自然文本可以從關(guān)鍵詞及其語(yǔ)義信息等上下文信息確定實(shí)體關(guān)系,但是從結(jié)構(gòu)化的數(shù)據(jù)中,尤其是數(shù)據(jù)庫(kù)表中產(chǎn)生實(shí)體關(guān)系就缺少了理論依據(jù)和標(biāo)準(zhǔn)方法。經(jīng)過(guò)對(duì)裝備大數(shù)據(jù)中數(shù)據(jù)組織與知識(shí)展現(xiàn)方式的觀察,裝備大數(shù)據(jù)知識(shí)圖譜中的實(shí)體關(guān)系可來(lái)源于以下幾個(gè)方面:
(1)數(shù)據(jù)庫(kù)外鍵?;A(chǔ)數(shù)據(jù)倉(cāng)庫(kù)的外鍵很有可能就是實(shí)體之間的關(guān)聯(lián)關(guān)系的體現(xiàn),但并不是所有的外鍵都適合作為關(guān)系,需要人工經(jīng)驗(yàn)的識(shí)別、篩選。
(2)業(yè)務(wù)系統(tǒng)數(shù)據(jù)。業(yè)務(wù)系統(tǒng)中的某些數(shù)據(jù)與知識(shí)圖譜中的關(guān)系含義高度相符,可以從業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)表及其外鍵產(chǎn)生實(shí)體關(guān)系。
(3)關(guān)系表。部分業(yè)務(wù)系統(tǒng)中為了表達(dá)特定數(shù)據(jù)的多對(duì)多關(guān)系,構(gòu)建了專門的關(guān)系表,可以從該關(guān)系表中快速提取實(shí)體關(guān)系信息。
(4)人工經(jīng)驗(yàn)指導(dǎo)生產(chǎn)。由專業(yè)人士指導(dǎo)生成領(lǐng)域內(nèi)公認(rèn)的一些關(guān)系。
結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)融合
從結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)兩部分?jǐn)?shù)據(jù)中提取出來(lái)的知識(shí)是獨(dú)立的兩部分知識(shí),兩者的實(shí)體有可能指代的是同一個(gè)實(shí)體,但是實(shí)體的指稱不一樣,兩者的實(shí)體也有可能互相有實(shí)體關(guān)系。不僅是兩部分?jǐn)?shù)據(jù)之間,在結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)各自產(chǎn)生的知識(shí)中也有可能發(fā)生重復(fù)實(shí)體等現(xiàn)象,如何將兩個(gè)獨(dú)立的知識(shí)融合成統(tǒng)一的知識(shí)庫(kù)也是一個(gè)難點(diǎn)[7]。
實(shí)體對(duì)齊可以在一定程度上解決這個(gè)問(wèn)題。實(shí)體對(duì)齊旨在將那些不同數(shù)據(jù)源中提取出來(lái)的具有不同標(biāo)識(shí)符卻實(shí)際上表達(dá)同一對(duì)象的實(shí)體歸并為唯一實(shí)體對(duì)象[8],并添加到知識(shí)圖譜中。根據(jù)不同的數(shù)據(jù)特點(diǎn)可采用不同的實(shí)體對(duì)齊策略,本文根據(jù)提取得到的實(shí)體及其關(guān)系的特點(diǎn),采用聚類方法來(lái)進(jìn)行實(shí)體對(duì)齊。
實(shí)體搜索作為知識(shí)圖譜最基礎(chǔ)和最通用的應(yīng)用,可以為用戶提供快速獲取知識(shí)的渠道[4]。除此之外,開(kāi)發(fā)者用戶還可以在底層知識(shí)庫(kù)的基礎(chǔ)上按具體需求進(jìn)行應(yīng)用二次開(kāi)發(fā)。
實(shí)體搜索旨在將用戶輸入的關(guān)鍵詞與知識(shí)庫(kù)中實(shí)體名稱進(jìn)行匹配,找到符合該關(guān)鍵詞的實(shí)體及其類別,并將與目標(biāo)實(shí)體具有關(guān)系的其他實(shí)體全部展示出來(lái),向用戶展現(xiàn)目標(biāo)實(shí)體完整的知識(shí)面。
當(dāng)用戶輸入某公司名稱作為關(guān)鍵字進(jìn)行實(shí)體搜索時(shí),將會(huì)以匹配到的實(shí)體為中心,展示其兩層之內(nèi)的關(guān)系網(wǎng)絡(luò),圖2展示的是實(shí)體搜索的部分結(jié)果(因數(shù)據(jù)私有,實(shí)體名稱已經(jīng)過(guò)偏移處理),圖中每一個(gè)節(jié)點(diǎn)代表一個(gè)實(shí)體,節(jié)點(diǎn)之間的連線表示關(guān)系。
圖2 知識(shí)圖譜實(shí)體搜索展示
從圖2可以清楚地發(fā)現(xiàn),該公司與某些部門機(jī)構(gòu)簽訂了一些合同,這些合同又分別涉及某些裝備,屬于某些項(xiàng)目,因此用戶可以快速地了解與該公司相關(guān)的“供應(yīng)商、部門機(jī)構(gòu)、合同、項(xiàng)目、裝備”知識(shí)面。
種種因素導(dǎo)致傳統(tǒng)的工作模式要求用戶具有較高的專業(yè)知識(shí)才能勝任裝備日常管理工作。裝備大數(shù)據(jù)知識(shí)圖譜整合了不同數(shù)據(jù)源的數(shù)據(jù),為用戶提供了快速、簡(jiǎn)潔而統(tǒng)一的數(shù)據(jù)搜索方式,可以有效地提高裝備日常管理工作效率,降低用戶專業(yè)技能需求門檻。
知識(shí)圖譜提供了豐富的底層接口,用戶可以根據(jù)自身的應(yīng)用需求,通過(guò)這些接口和查詢語(yǔ)言進(jìn)行二次應(yīng)用開(kāi)發(fā)。
本文根據(jù)裝備大數(shù)據(jù)本體庫(kù)的特點(diǎn)和用戶需求,定制了合同風(fēng)險(xiǎn)審計(jì)分析模型,旨在通過(guò)知識(shí)圖譜挖掘具有潛在風(fēng)險(xiǎn)的合同關(guān)系,識(shí)別供應(yīng)商具有潛在欺詐的合同行為,效果如圖3所示(圖中數(shù)據(jù)均為模擬數(shù)據(jù)):
圖3 合同風(fēng)險(xiǎn)審計(jì)分析展示
該模型結(jié)合了知識(shí)圖譜接口和查詢語(yǔ)言,通過(guò)分別對(duì)裝備大數(shù)據(jù)知識(shí)圖譜中的供應(yīng)商表、合同表、人員表等多個(gè)表讀取對(duì)應(yīng)數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)篩選、整合和分析,最終得到具有潛在風(fēng)險(xiǎn)的多級(jí)合同列表。
本文提出了基于裝備大數(shù)據(jù)知識(shí)圖譜的構(gòu)建方法,有針對(duì)性地解決了裝備大數(shù)據(jù)特性給知識(shí)圖譜構(gòu)建帶來(lái)的困難。對(duì)于大數(shù)據(jù)集中的結(jié)構(gòu)化數(shù)據(jù),本文采用數(shù)據(jù)庫(kù)外鍵、業(yè)務(wù)系統(tǒng)數(shù)據(jù)和關(guān)系表等信息來(lái)指導(dǎo)實(shí)體關(guān)系的提取,對(duì)于半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),根據(jù)數(shù)據(jù)文件的類型采用不同的已經(jīng)成熟的方法來(lái)提取實(shí)體關(guān)系,最終經(jīng)過(guò)基于聚類的知識(shí)融合以及人工審核之后產(chǎn)生知識(shí)庫(kù)。此后,本文將知識(shí)庫(kù)中的三元組進(jìn)行可視化展示,并通過(guò)知識(shí)圖譜的不同應(yīng)用場(chǎng)景和擴(kuò)展開(kāi)發(fā)展示了知識(shí)圖譜在關(guān)系管理方面的優(yōu)越性。本文提出的基于裝備大數(shù)據(jù)的知識(shí)圖譜可以有效提高數(shù)據(jù)統(tǒng)籌管理能力,方便裝備業(yè)務(wù)的開(kāi)展,有利于裝備業(yè)務(wù)的決策確定。