彭開男,衛(wèi)春海,毛允杰
(空軍軍醫(yī)大學空軍衛(wèi)勤訓練基地,西安 710032)
大數(shù)據(jù)·云計算時代,對戰(zhàn)爭與非戰(zhàn)爭軍事行動衛(wèi)勤保障產(chǎn)生極大沖擊,借助大數(shù)據(jù)“云”計算使不同軍事行動中的衛(wèi)勤保障有效有序進行,是每一位衛(wèi)勤保障工作者必須面對和思索的問題。若能順利推動,我軍衛(wèi)勤保障將會由以往分散指令式衛(wèi)勤保障直接跨入一體智能化衛(wèi)勤保障,到時所有衛(wèi)勤保障都可實現(xiàn)自選一體智能化決策,使衛(wèi)勤保障模式產(chǎn)生顛覆性甚至革命性影響和推動[1]。
1.1衛(wèi)勤保障大數(shù)據(jù)庫基本內(nèi)涵衛(wèi)勤保障大數(shù)據(jù)庫指建立在高超性能計算機網(wǎng)絡(luò)信息高速流通平臺基礎(chǔ)上,通過對未來衛(wèi)勤保障所涉及各類不同海量要素的標準化信息采集,使其超量信息數(shù)據(jù)進入云計算的衛(wèi)勤保障網(wǎng)絡(luò)環(huán)境中,并按照預先設(shè)計的網(wǎng)絡(luò)云計算數(shù)學模型和網(wǎng)絡(luò)大數(shù)據(jù)邏輯運行法則進行有機結(jié)合的智能化衛(wèi)勤保障平臺。其既有以高超性能計算機為主的衛(wèi)勤保障網(wǎng)絡(luò)大平臺建設(shè),又有以各子系統(tǒng)計算機為輔的網(wǎng)絡(luò)小平臺建設(shè);既有硬件的廣泛投入,又有各種智能化軟件的大量研制開發(fā)與應用;既有各類海量衛(wèi)勤保障要素標準化的信息數(shù)據(jù)采集,又有海量衛(wèi)勤保障信息數(shù)據(jù)網(wǎng)絡(luò)化計算機語言的編程和錄入。其中,硬件平臺建設(shè)是基礎(chǔ),智能化軟件建設(shè)是保證,大數(shù)據(jù)信息釆集能否上機到位是根本和關(guān)鍵[2-3]。這里的“大數(shù)據(jù)”已不是一般意義上的“數(shù)據(jù)”,一般意義上的數(shù)據(jù)是指計算機系統(tǒng)中,各種字母、數(shù)字符號的組合、語音、圖形等。(Big data)研究機構(gòu)Gartner給出定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。麥肯錫全球研究所給出的定義是一種規(guī)模大到在獲取、存儲、管理、分析方面大幅度超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)(Velocity)、多樣的數(shù)據(jù)類型(Variety)和價值密度低(Value)四大特征。即所謂四V特性,這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念[3-4]。
1.2衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)目的和內(nèi)容衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)主要目的是通過助力衛(wèi)勤保障,持續(xù)保持和提高廣大指戰(zhàn)員的戰(zhàn)斗力。因為,衛(wèi)勤保障是軍隊戰(zhàn)斗力得以維系的重要基礎(chǔ),助力衛(wèi)勤保障基本任務(wù)就是以最簡潔方法、最快捷途徑、最有效手段,使所有軍人保持健康的體魄,使所有傷病員能得到及時有效的救治,使遂行各種任務(wù)的傷病員盡早盡快得到檢查、救治和歸隊。具體要通過衛(wèi)勤保障大數(shù)據(jù)庫的有效建設(shè),實現(xiàn)我軍各種衛(wèi)勤保障行動、決策決心、計劃方案、力量抽組、裝備器材、藥品采購、組織協(xié)調(diào)等的人工智能化運作。最終,使所有衛(wèi)勤保障都可通過大數(shù)據(jù)云計算的衛(wèi)勤保障平臺來實施,只要輕敲鼠標,各種智能化的一系列連貫性衛(wèi)勤保障服務(wù)及方案就會供你自行選擇。因此,衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)對于現(xiàn)代衛(wèi)勤保障就像各類基礎(chǔ)設(shè)施一樣不可或缺,為現(xiàn)代衛(wèi)勤保障提供廣闊空間,涵蓋領(lǐng)域非常廣泛。以衛(wèi)勤保障行動不同來區(qū)分,可分為平時、戰(zhàn)時和非戰(zhàn)爭軍事行動衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)。根據(jù)衛(wèi)勤保障作用不同,可分為軍隊公共衛(wèi)生大數(shù)據(jù)庫建設(shè)、軍人疾病診斷大數(shù)據(jù)庫建設(shè)、軍隊醫(yī)藥科研大數(shù)據(jù)庫建設(shè)、軍人及軍人群體健康危險因素分析大數(shù)據(jù)庫建設(shè)、軍隊戰(zhàn)時衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)等[5-6]。
1.3衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)的意義首先,衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)是信息網(wǎng)絡(luò)時代對衛(wèi)勤保障提出的必然要求。信息網(wǎng)絡(luò)時代,大數(shù)據(jù)云計算已經(jīng)成為不可阻擋的趨勢,是與自然資源、人力資源一樣重要的戰(zhàn)略資源,國家層面的競爭力將部分體現(xiàn)為一國擁有大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋、運用的能力。一個國家在大數(shù)據(jù)領(lǐng)域的落后,意味著失守這一戰(zhàn)略制高點,意味著數(shù)字主權(quán)無險可守,意味著國家安全將出現(xiàn)漏洞[5-6],不可避免會對未來軍隊衛(wèi)勤保障產(chǎn)生極大沖擊。以數(shù)據(jù)共建、共享、共用為核心的衛(wèi)勤保障大數(shù)據(jù)庫建設(shè),正在深刻地改變著未來衛(wèi)勤保障的模式和機制,終將成為推動衛(wèi)勤保障革命的重要力量。其次,衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)是實施國家大數(shù)據(jù)戰(zhàn)略要求的一項重要舉措。大力推動衛(wèi)勤保障大數(shù)據(jù)庫建設(shè),是開啟未來衛(wèi)勤保障制勝之門的“金鑰匙”。智能化的重要基礎(chǔ)就是大數(shù)據(jù)的挖掘利用,要“審時度勢、精心謀劃、超前布局、力爭主動,實施國家大數(shù)據(jù)戰(zhàn)略”,衛(wèi)勤保障大數(shù)據(jù)庫的建設(shè),正面臨一個難得的發(fā)展機遇,必須高度重視,強力而為,盡早盡快促成衛(wèi)勤保障大數(shù)據(jù)庫的建設(shè)[5-6]。
隨著大數(shù)據(jù)時代到來,傳統(tǒng)衛(wèi)勤保障數(shù)字化信息系統(tǒng)已遠遠不能滿足海量衛(wèi)勤保障數(shù)據(jù)存儲處理、分析挖掘以及多元化衛(wèi)勤保障數(shù)據(jù)服務(wù)等方面要求。海量衛(wèi)勤保障數(shù)據(jù)經(jīng)過生成及采集后,將異構(gòu)后的海量數(shù)據(jù),進行實時、高效的多樣化存儲,以實現(xiàn)復雜數(shù)據(jù)的快速查詢和準確響應;如何通過數(shù)據(jù)挖掘采集手段,對海量數(shù)據(jù)進行深度分析,快速有效為衛(wèi)勤工作者提供有價值的衛(wèi)勤保障數(shù)據(jù)服務(wù),達到最佳衛(wèi)勤保障效果,成為衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)急需解決的問題[6-7]。
2.1支撐衛(wèi)勤保障海量數(shù)據(jù)多元處理需求平臺建設(shè)的方法及技術(shù)該平臺建成后可同時兼顧多種數(shù)據(jù)處理需求。能基于海量的衛(wèi)勤保障數(shù)據(jù),以統(tǒng)計學決策樹的模型處理方法,對海量數(shù)據(jù)進行優(yōu)化存儲,提升計算效率,高效地為多樣化衛(wèi)勤保障提供海量數(shù)據(jù)支持服務(wù)。
決策樹(decision tree)一般都是自上而下生成的。每個決策或事件都可能引出兩個或多個事件,導致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹[5-7]。決策樹的構(gòu)成有四個要素:①決策結(jié)點;②方案枝;③狀態(tài)結(jié)點;④概率枝(圖1)。
圖1 決策樹構(gòu)成四要素
決策樹方法依賴分布式存儲和分布式計算,通過并行處理,來進行衛(wèi)勤保障各類海量數(shù)據(jù)的存儲。運用此模型處理方法,能在實現(xiàn)分布式冗余存儲基礎(chǔ)上,極大保證高可靠、高并發(fā)及可擴展性。再加之充分利用原有的統(tǒng)計結(jié)果,可在Hadoop或Storm平臺基礎(chǔ)上,進行增量計算來生成和更新決策樹,可以實現(xiàn)迅速定位統(tǒng)計數(shù)據(jù)位置,避免大數(shù)據(jù)量訪問,進而減輕系統(tǒng)負載,提高查詢的效率和訪問的并發(fā)性[5-8]。
Hadoop是由Apache軟件基金會研發(fā)的開放源碼系統(tǒng), 基于Map-Reduce計算框架提供分布式存儲和計算等各種服務(wù),Hadoop生態(tài)系統(tǒng)主要包括分布式文件管理系統(tǒng)(HDFS),分布式資源調(diào)度程序(YARN), 分布式消息發(fā)布訂閱系統(tǒng)(Kafka),分布式計算框架(Mapreduce),分布式協(xié)作服務(wù)(Zookeeper),實時分布式數(shù)據(jù)庫(HBase),數(shù)據(jù)倉庫(Hive), 數(shù)據(jù)流處理(Pig), 數(shù)據(jù)挖掘(Mahout), 日志收集工具(Flume),數(shù)據(jù)庫ETL工具(Sqoop), 安裝、部署、配置和管理工具(Ambari)等。用戶通過搭建廉價的Hadoop集群,便可應用Map及Reduce計算過程完成海量數(shù)據(jù)的處理和分析任務(wù)[6-8](圖2)。
Storm 是一個開源的分布式實時計算系統(tǒng),可以簡單、可靠地處理大量的數(shù)據(jù)流。Storm 有很多使用場景:如實時分析、在線機器學習、持續(xù)計算、分布式RPC(遠程過程調(diào)用)、ETL 等等。Storm 支持水平擴展,具有高容錯性,保證每個消息都會得到處理,而且處理速度很快(在一個小集群中,每個結(jié)點每秒可以處理數(shù)以百萬計的消息)。Storm 的部署和運行都很便捷,而且更為重要的是可以使用任意編程語言來開發(fā)應用[6-8]。
圖2 Hadoop生態(tài)圈
運用Hadoop和Storm分布式數(shù)據(jù)處理技術(shù),可以進行衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺設(shè)計模型的構(gòu)建[6-8]。因為Hadoop不僅具有易用的編程模型,其分布式數(shù)據(jù)處理技術(shù)還具有可靠性高、擴展性強、高度容錯等特點,用戶可以較容易地寫出不同于傳統(tǒng)SQL數(shù)據(jù)庫的高效程序代碼。所以,作為一個批處理系統(tǒng), Hadoop在海量數(shù)據(jù)處理上得到廣泛使用。但是, Hadoop不擅長實時計算,也是業(yè)界一致的共識。而Storm是實時的、分布式以及具備高容錯的計算系統(tǒng),能夠連續(xù)地進行流計算,很好彌補Hadoop時效性不高的問題。與近年涌現(xiàn)出的一些時效較強的S4和Puma數(shù)據(jù)處理系統(tǒng)相比,Storm部署簡單、性能較為出眾,非常適合于高效處理源源不斷的數(shù)據(jù)源,并實時計算和輸出結(jié)果,被廣泛應用在持續(xù)計算、實時分析、ETL等領(lǐng)域[7-9]。
2.2支撐衛(wèi)勤保障海量多元數(shù)據(jù)挖掘平臺總體設(shè)計框架衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)要基于國家和軍隊衛(wèi)勤保障戰(zhàn)略需求及衛(wèi)勤保障發(fā)展趨勢,整合原有軍隊衛(wèi)勤保障信息數(shù)據(jù)服務(wù)系統(tǒng),構(gòu)建規(guī)模化、可異構(gòu)、可擴展、互聯(lián)互通的云平臺,實現(xiàn)跨戰(zhàn)區(qū)、跨軍種、跨地域、跨專業(yè)的衛(wèi)勤保障大數(shù)據(jù)庫,這個跨多種信息平臺的衛(wèi)勤保障大數(shù)據(jù)庫,是由軍隊衛(wèi)勤最高權(quán)力機構(gòu)有效管控的一個集軍隊衛(wèi)勤保障海量數(shù)據(jù)資源管理、共享和數(shù)據(jù)高度整融合的超大數(shù)據(jù)平臺。衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺基于衛(wèi)勤保障要素海量數(shù)據(jù)“云”,實現(xiàn)衛(wèi)勤保障數(shù)據(jù)的分布式存儲及并行化處理,旨在優(yōu)化數(shù)據(jù)存儲結(jié)構(gòu),提升數(shù)據(jù)處理效率,以提供多元的個性化衛(wèi)勤保障服務(wù)[7-9]。
由于衛(wèi)勤保障數(shù)據(jù)的復雜性及服務(wù)的特殊性,平臺在層次構(gòu)建時需考慮: 一是要滿足衛(wèi)勤保障海量復雜的數(shù)據(jù)管理,即結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)管理,全局數(shù)據(jù)和本地數(shù)據(jù)管理;二是要支持海量數(shù)據(jù)實時處理與精準服務(wù)。
綜合考慮,構(gòu)建衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺的層次模型(圖3)[8-10]。
圖3 衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺框架
業(yè)務(wù)層:業(yè)務(wù)層位于最上層。通過調(diào)用功能層單一服務(wù)接口,或多種服務(wù)接口組合,形成針對于不同衛(wèi)勤保障對象的多樣化服務(wù)。包括不同衛(wèi)勤保障實時在線查詢、報表統(tǒng)計、預警、行為分析、行動決策等服務(wù)。
功能層:功能層位于服務(wù)層下面。其主要作用是作為服務(wù)接口層,平臺層通過多種處理方式計算所得的結(jié)果形成多樣化的服務(wù)接口,供業(yè)務(wù)層進行調(diào)用。其主要包括機器學習、深度挖掘、分析統(tǒng)計、實時查詢等功能。
平臺層:平臺層位于功能層之下,基礎(chǔ)層之上。主要功能是計算處理各種衛(wèi)勤保障數(shù)據(jù)。包括原有系統(tǒng)數(shù)據(jù)的導入,實時數(shù)據(jù)流處理,批量數(shù)據(jù)處理系統(tǒng)以及用于數(shù)據(jù)挖掘的算法庫。能夠高效支撐實時/離線多種數(shù)據(jù)處理需求。
基礎(chǔ)層:基礎(chǔ)層是平臺的最底層,是衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺運行的支撐平臺。其采用云計算架構(gòu),彈性存儲,靈活可擴展,便于對衛(wèi)勤保障海量異構(gòu)的數(shù)據(jù)進行分布式存儲。在云平臺上部署有分布式文件系統(tǒng)HDFS,NoSQL數(shù)據(jù)庫、HBase及MySQL數(shù)據(jù)庫等多種類型數(shù)據(jù)庫,主要是為了保證復雜多樣的衛(wèi)勤保障數(shù)據(jù)存儲。
綜上,衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺層次模型,具有平臺系統(tǒng)的服務(wù)特點,海量數(shù)據(jù)的存儲能力。在數(shù)據(jù)處理流程各部分設(shè)計原則指導下,繪制出衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺的設(shè)計框架。衛(wèi)勤保障海量數(shù)據(jù)挖掘平臺具有三個特點:一是靈活性。衛(wèi)勤保障歷史檔案中新增項,或新增加的衛(wèi)勤保障服務(wù)需求,無需大規(guī)模變動原有業(yè)務(wù),可實時完成系統(tǒng)重構(gòu)。二是可擴展性。平臺基于云計算架構(gòu)、彈性存儲、綠色節(jié)能,層與層之間相對獨立,具有較強的計算和存儲的可擴展性。三是重用性。該架構(gòu)將實時數(shù)據(jù)處理與批量數(shù)據(jù)處理有機結(jié)合,不僅適用于衛(wèi)勤保障海量數(shù)據(jù)的挖掘處理,還可用于各類軍民融合衛(wèi)勤保障海量數(shù)據(jù)處理等[8-10]。
2.3支撐衛(wèi)勤保障海量數(shù)據(jù)挖掘的方法要把挖掘來的海量數(shù)據(jù)傳送至現(xiàn)有衛(wèi)勤保障“云”平臺,平臺再根據(jù)這些數(shù)據(jù)給出若干方案,以此選擇判斷衛(wèi)勤保障結(jié)果的優(yōu)劣,并給出基本的衛(wèi)勤保障報告。讓參與軍隊各種行動的每個軍人和軍人群體都能了解自身衛(wèi)勤保障服務(wù)的內(nèi)容。
數(shù)據(jù)挖掘在于通過數(shù)據(jù)計算,發(fā)現(xiàn)客觀現(xiàn)實表象的本質(zhì)及內(nèi)在規(guī)律,這是當前計算機科學領(lǐng)域人工智能方面研究的熱點。數(shù)據(jù)挖掘綜合數(shù)據(jù)分析、數(shù)據(jù)聚類、數(shù)據(jù)分類等技術(shù),能夠從大量隨機的實際數(shù)據(jù)中進行抽象計算和科學分析,從而提取隱含的信息和知識,并為現(xiàn)實中的決策過程提供參考。數(shù)據(jù)挖掘主要分為兩大類:描述和預測。描述性挖掘是通過計算,得到數(shù)據(jù)庫中數(shù)據(jù)的一般特征或規(guī)律,并為這種特征或規(guī)律的解釋提供數(shù)據(jù)支持。預測性挖掘指基于數(shù)據(jù)庫中的數(shù)據(jù),計算得到特征或者規(guī)律,為現(xiàn)實應用提供科學預測[8-11]。
數(shù)據(jù)挖掘具體方法可分成很多類別,如聚類算法、神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、關(guān)聯(lián)規(guī)則算法及貝葉斯分析等,可廣泛應用于模式識別、氣象預測、指揮自動化系統(tǒng)等諸多領(lǐng)域。數(shù)據(jù)挖掘過程由六個主要步驟來完成:定義問題、預處理數(shù)據(jù)、觀察數(shù)據(jù)、構(gòu)建數(shù)據(jù)模型、結(jié)果解釋及評估。數(shù)據(jù)處理的流程可以循環(huán),創(chuàng)建和表示訓練數(shù)據(jù)模型可以是迭代過程。不同衛(wèi)勤保障選項與檢測參數(shù)的關(guān)聯(lián)性挖掘,通常采用貝葉斯網(wǎng)絡(luò)算法,通過直接編寫MapReduce程序就可實現(xiàn)[9-11]。
3.1主要靠國家或軍隊的指令性任務(wù)或計劃來推動完成這是實現(xiàn)衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)的主要途徑,也是最有效途徑,這是由網(wǎng)絡(luò)智能化時代衛(wèi)勤保障的地位性質(zhì)和客觀要求決定的。需要軍隊最高衛(wèi)勤保障權(quán)威機構(gòu),指派專門的機構(gòu)和專業(yè)技術(shù)人員進行頂層設(shè)計,刻苦攻關(guān),從人力、物力、財力等各個方面來有效推動才能實現(xiàn)。
3.2通過軍隊或院校的相關(guān)專業(yè)研究機構(gòu)有效創(chuàng)新的科研成果來推動和實現(xiàn)這是實現(xiàn)衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)的科學支撐。物聯(lián)網(wǎng)、大數(shù)據(jù)云計算及其所體現(xiàn)出的各種人工智能,給民眾生活帶來極大方便,并隨處可見。就軍隊來說,把其運用到軍隊的所有衛(wèi)勤保障中,還是一個新生事物。信息網(wǎng)絡(luò)智能化時代的大數(shù)據(jù)云計算運用到軍隊衛(wèi)勤保障,絕對不是生活中對一些數(shù)據(jù)的簡單羅列和復制,而是在一個陌生領(lǐng)域的重新開發(fā),需要投入素質(zhì)高的專門人員,對衛(wèi)勤保障大數(shù)據(jù)庫中的硬件和軟件進行專門的研究和開發(fā),找到并發(fā)現(xiàn)支撐衛(wèi)勤保障大數(shù)據(jù)庫運行的各種應用和人工智能軟件,以此支撐大數(shù)據(jù)庫的正常有效運轉(zhuǎn)。
3.3需要一大批有造詣的專業(yè)技術(shù)人才進行努力攻關(guān)才能有效推動這是衛(wèi)勤保障大數(shù)據(jù)庫建設(shè)成功與否的關(guān)鍵。這些有造詣的專業(yè)人才主要指高性能計算機維護人才、主機與子機大數(shù)據(jù)網(wǎng)絡(luò)維護人才、衛(wèi)勤保障各種要素數(shù)據(jù)釆集專業(yè)人才、衛(wèi)勤保障各種要素數(shù)據(jù)編碼和計算機錄入的專業(yè)人才、衛(wèi)勤保障大數(shù)據(jù)庫有效運行的軟件設(shè)計和維護專業(yè)人才、大數(shù)據(jù)云計算及人工智能化應用軟件設(shè)計與維護的專業(yè)人才等。這是推動大數(shù)據(jù)庫前行和發(fā)展實現(xiàn)的關(guān)鍵,否則衛(wèi)勤保障大數(shù)據(jù)庫的建設(shè)將寸步難行。