(國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院 石家莊 050084)
人類社會已經(jīng)進(jìn)入大數(shù)據(jù)時代,海量數(shù)據(jù)信息的出現(xiàn)讓身處信息汪洋的我們更加難以看清事物的本質(zhì),而大數(shù)據(jù)技術(shù)的發(fā)展為信息時代的數(shù)據(jù)處理提供了有力支撐。未來信息化戰(zhàn)爭,全域多維的海量數(shù)據(jù)信息爆發(fā),透過信息迷霧掌握戰(zhàn)爭脈動的一方將占據(jù)信息制高點,奪取制信息權(quán)進(jìn)而控制戰(zhàn)場態(tài)勢并贏得戰(zhàn)爭。大數(shù)據(jù)挖掘技術(shù)為我們提供了一種可能途徑,將軍事領(lǐng)域的海量信息進(jìn)行挖掘利用,掌握其中的規(guī)律并加以利用,必將改變未來戰(zhàn)爭的面貌。
隨著以云計算、物聯(lián)網(wǎng)為代表的新一代信息技術(shù)的快速發(fā)展,信息滲透到戰(zhàn)場的各個領(lǐng)域和環(huán)節(jié),現(xiàn)代戰(zhàn)場的信息流量成幾何級數(shù)劇增,數(shù)據(jù)量十分龐大[1]。這些數(shù)據(jù)當(dāng)中,部分屬于冗余數(shù)據(jù),部分則屬于不相關(guān)數(shù)據(jù),還有部分屬于噪音數(shù)據(jù)[2]。如何對大數(shù)據(jù)進(jìn)行系統(tǒng)的處理和分析,挖掘隱藏在數(shù)據(jù)背后的深層次軍事知識和含義,得出科學(xué)、可信的結(jié)論,成為一個緊迫而又全新的戰(zhàn)略課題。數(shù)據(jù)挖掘是一門面向應(yīng)用的技術(shù),不僅是面向特定數(shù)據(jù)庫的簡單檢索、查詢和調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀乃至宏觀的統(tǒng)計、分析和推理,挖掘大量數(shù)據(jù)背后的知識[3]。
大數(shù)據(jù)挖掘是從大量數(shù)據(jù)中有效地發(fā)現(xiàn)有價值的、不明顯的信息,這種涉及從數(shù)據(jù)中提取信息的過程也是一種探索性數(shù)據(jù)分析[4]。大數(shù)據(jù)挖掘是從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的信息,如模式、關(guān)聯(lián)、變化、異常和重要結(jié)構(gòu)的過程[5]。大數(shù)據(jù)挖掘通常用于非常大的數(shù)據(jù)庫,由于數(shù)據(jù)庫的復(fù)雜性和容量龐大,使得它通常是不能被解讀或分析。大數(shù)據(jù)挖掘的目的是從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的信息,這種過程被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)[6]。大數(shù)據(jù)挖掘涉及數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機器學(xué)習(xí)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索等多學(xué)科的技術(shù)集成[7~8]。總而言之,大數(shù)據(jù)挖掘是從海量數(shù)據(jù)信息中發(fā)現(xiàn)規(guī)律性現(xiàn)象的數(shù)據(jù)處理技術(shù),已經(jīng)成為信息時代處理數(shù)據(jù)信息的主要手段。
大數(shù)據(jù)挖掘涉及數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機器學(xué)習(xí)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索等多學(xué)科的技術(shù)集成[9]。其常用的分析方法包括分類、聚類、回歸分析、關(guān)聯(lián)規(guī)則和特征分析等[10]。
對采集到大數(shù)據(jù)進(jìn)行分析、挖掘前,通常會在探索性分析[11]的基礎(chǔ)上對數(shù)據(jù)進(jìn)行清洗,為數(shù)據(jù)分析和模型構(gòu)建做準(zhǔn)備[12]。主要對四類異常數(shù)據(jù)進(jìn)行處理。分別是缺失值、異常值(離群點)、去重處理以及噪音數(shù)據(jù)的處理。
1)缺失值。在大多數(shù)數(shù)據(jù)集中缺失值都普遍會存在,而對于缺失值的處理好壞會直接影響到模型的最終結(jié)果。常用處理方法有均值法、中位數(shù)法、插補法與建模法。插補法主要有隨即插補法、多重插補法、熱平臺插補法以及拉格朗日插補法與牛頓插補法。建模法可以用回歸、貝葉斯、隨機森林、決策樹等模型對缺失數(shù)據(jù)進(jìn)行預(yù)測。
2)異常值。分為異常點和離群點。異常點處理方法為直接刪除法、基于距離計算算法(包括K-means,KNN之類)、平均值替代法等。離群點常用處理方法有3δ法、模型檢測法、鄰近性法等。
3)去重處理。對于重復(fù)項的判斷,基本思想是“排序與合并”,主要用duplicated方法進(jìn)行判斷,然后將重復(fù)的樣本進(jìn)行簡單的刪除處理。
4)噪音處理。噪音是被測變量的隨機誤差或者方差,包括錯誤值或偏離期望的孤立點值,對于噪音的處理主要采用分箱法和回歸法(包括線性回歸和使用回歸)。
單變量分析又稱“單變量統(tǒng)計分析”,就是在一個時間點上對單一變量所進(jìn)行的描述和統(tǒng)計,目的是通過對數(shù)據(jù)的整理、加工、組織和展示,計算反應(yīng)數(shù)據(jù)的集中趨勢和離散程度的指標(biāo),對變量分布的特征和規(guī)律進(jìn)行刻畫和描述。主要分為單變量描述統(tǒng)計和單變量推論統(tǒng)計兩種方式。其中單變量描述統(tǒng)計可以確定頻數(shù)分布與頻率分布、進(jìn)行集中趨勢分析、進(jìn)行離散趨勢分析,單變量推論統(tǒng)計可通過樣本調(diào)查中所得到的數(shù)據(jù)資料,從區(qū)間估計和假設(shè)檢驗兩個方面對總體的狀況進(jìn)行推斷。
多變量分析是對多個變量(或稱因素、指標(biāo))同時存在時的統(tǒng)計分析,其內(nèi)容很多,但從實際應(yīng)用角度看,主要包括回歸分析、判別分析、因子分析、聚類分析、主成分分析、生存分析六大分支。其中數(shù)據(jù)挖掘中常用的為以下四種。
1)聚類分析。聚類是將數(shù)據(jù)對象分類成一組不相交類的過程[13],其基本思想是找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計量作為劃分類型的依據(jù),把一些相似程度較大的樣品(或指標(biāo))聚合為一類,直到把所有的樣品(或指標(biāo))聚合完畢。其結(jié)果對參數(shù)十分敏感,許多聚類算法要求用戶以輸入?yún)?shù)形式提供領(lǐng)域知識[17]。常用的方法有:直接聚類法、最短距離聚類法、最遠(yuǎn)距離聚類法。
2)回歸分析?;貧w分析指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。通常用于預(yù)測分析時間序列模型及發(fā)現(xiàn)變量之間的因果關(guān)系。
3)判別分析。分類是大數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典課題之一[15]。判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。常用的方法有:最大似然法、費歇(FISHER)判別思想、貝葉斯(BAYES)判別思想[16]、距離判別思想等。
4)主成分分析。主成分分析(PCA),是一種把離散信息歸至指定指標(biāo)的統(tǒng)計分析方法[17],也是一種降維的統(tǒng)計方法。主要是研究如何把彼此相關(guān)的變量綜合成一個(或少數(shù)幾個)綜合指標(biāo)(或稱主成分),使得在研究復(fù)雜問題時更容易抓住主要矛盾,揭示變量之間的內(nèi)在關(guān)系,得到對事物特征及其發(fā)展規(guī)律的一些深層次的啟發(fā)。
關(guān)聯(lián)分析又稱關(guān)聯(lián)挖掘,是一種簡單、實用的分析技術(shù),用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個事物中某些屬性同時存在的規(guī)律和模式。比較經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法有Apriori算法和FP-Tree算法,核心思想是通過連接產(chǎn)生候選項及其支持度,然后通過剪枝生成頻繁項集。當(dāng)前,對于大數(shù)據(jù)環(huán)境中的關(guān)聯(lián)分析,已經(jīng)有很多集成各種分析功能的工具包,如Mahout工具包可實現(xiàn)關(guān)聯(lián)挖掘、聚類、分類、回歸等操作。
1)提供高效準(zhǔn)確的情報。大數(shù)據(jù)思想最早應(yīng)用于軍事領(lǐng)域是軍事情報分析[18],其應(yīng)用非常廣泛。一是衛(wèi)星仿真數(shù)據(jù)分析與評估。李清毅[3]利用數(shù)傳評估算法對衛(wèi)星仿真柔性平臺的結(jié)果數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,進(jìn)行事后分析和處理,根據(jù)應(yīng)用需求從仿真數(shù)據(jù)中提煉有用的結(jié)果,并以曲線和圖表等多種形式予以保存和顯示。二是軍事情報信息挖掘。武開有[19]建立了數(shù)據(jù)挖掘模型,利用時間序列算法、關(guān)聯(lián)規(guī)則算法和聚類分析算法對海洋軍事情報信息進(jìn)行挖掘,可獲得更加準(zhǔn)確和時效性強的指揮決策支持信息。王榮生等[20]指出利用大數(shù)據(jù)采集分析技術(shù)和智能化應(yīng)用技術(shù),能及時處理海量、非結(jié)構(gòu)化、全維性的偵察情報信息,確保信息處理的時效性和準(zhǔn)確性。三是空間數(shù)據(jù)挖掘。江兵等[1]分析了空間數(shù)據(jù)的特征,將分類分析、聚類分析、關(guān)聯(lián)規(guī)則分析和決策論等方法技術(shù)運用到戰(zhàn)場環(huán)境分析、空間信息情報處理和戰(zhàn)場態(tài)勢挖掘上,從空間數(shù)據(jù)中提取出具有決策意義的信息,為戰(zhàn)場指揮員正確決策提供了數(shù)據(jù)支持。丁佐杉等[21]指出利用模糊數(shù)據(jù)開采方法(FDM)可進(jìn)行戰(zhàn)場環(huán)境仿真與分析,將地理信息系統(tǒng)(GIS)中的數(shù)據(jù)進(jìn)行挖掘,可得到目標(biāo)之間最短路徑、最優(yōu)規(guī)劃等有用知識,還可實現(xiàn)戰(zhàn)場氣候信息數(shù)據(jù)挖掘。同時指出利用此方法還可解決情報信息的融合處理問題。
2)輔助分析決策。大數(shù)據(jù)挖掘?qū)娛聸Q策支持有著重要的支撐作用。鄭澤席[22]把DM(Data Mining)和 KDD(Knowledge Discovery in Database)技術(shù)引入了軍事決策支持系統(tǒng),建立了知識向量集的拓?fù)淇臻g概念并提出了基于拓?fù)淇臻g向量集的不確定性知識表示方法,進(jìn)一步提高了軍事決策支持信息的準(zhǔn)確性和可靠性,為首長定下決心提供了必要的決策信息和數(shù)據(jù)支持。丁佐杉等[21]指出運用基于知識發(fā)現(xiàn)的模糊專家系統(tǒng)、統(tǒng)計決策理論、人工神經(jīng)網(wǎng)絡(luò)等多屬性決策技術(shù),可對兵力運用、火力運用、兵力機動、敵方威脅等進(jìn)行深入分析,形成有效的輔助決策方法。
3)提供全域控制戰(zhàn)場能力。一是對戰(zhàn)場進(jìn)行自主控制。劉彪等[23]提出面對戰(zhàn)場上的海量信息,大數(shù)據(jù)挖掘一方面可以實現(xiàn)各級指揮機構(gòu)對戰(zhàn)場的自主控制能力,主動對戰(zhàn)場情況做出有利于全局的組織領(lǐng)導(dǎo)活動。另一方面可以將情報信息、指揮控制、火力打擊、信息共享等要素進(jìn)行聯(lián)動,確保圍繞同一目標(biāo)的快速、精確進(jìn)行協(xié)調(diào)一致的行動。二是電磁頻譜管理。邵震洪等[24]從分析我軍電磁頻譜數(shù)據(jù)來源和特點出發(fā),提出了電磁頻譜數(shù)據(jù)挖掘體系框架,可從廢棄的和不重要的數(shù)據(jù)中提取有價值的知識和信息為電磁頻譜管理決策提供支持,有助于提升電磁頻譜管理的水平。
1)演訓(xùn)數(shù)據(jù)分析。軍事訓(xùn)練中會產(chǎn)生大量訓(xùn)練大數(shù)據(jù)[25],如何對其有效分析利用是需要研究的問題。一是軍事演習(xí)數(shù)據(jù)分析。劉天勇[26]對軍事演習(xí)中產(chǎn)生的大量初始數(shù)據(jù)、過程數(shù)據(jù)、結(jié)果數(shù)據(jù)和參演人員數(shù)據(jù)進(jìn)行分析整理和深入挖掘,高效提煉出決策和執(zhí)行人員所需要的“知識”,將演習(xí)大數(shù)據(jù)轉(zhuǎn)化為可供決策的知識,最終為決策所用。二是軍事訓(xùn)練數(shù)據(jù)分析。韓曜權(quán)等[27]提出了運用主成分分析(PCA)算法對軍事訓(xùn)練的大數(shù)據(jù)量、多科目、高維度的數(shù)據(jù)進(jìn)行降維,然后基于傳統(tǒng)層次聚類算法對訓(xùn)練數(shù)據(jù)進(jìn)行分析的方法,能直觀反映出各類訓(xùn)練人員的成績特點,對軍事訓(xùn)練計劃制定與實施提供了參考。程果等[28]針對當(dāng)前軍事定向越野教學(xué)訓(xùn)練的特點,運用大數(shù)據(jù)思想對長期訓(xùn)練中積累的大量控制點數(shù)據(jù)、任務(wù)點數(shù)據(jù)、學(xué)員橫向數(shù)據(jù)和學(xué)員縱向數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)并總結(jié)了一些具有普遍推廣價值的指導(dǎo)規(guī)律。
2)作戰(zhàn)仿真模擬。作戰(zhàn)仿真是有效的作戰(zhàn)輔助手段,會產(chǎn)生大量仿真大數(shù)據(jù)[29],大數(shù)據(jù)挖掘在此方面有重要用途。一是作戰(zhàn)毀傷仿真。李華等[30]基于坦克分隊?wèi)?zhàn)術(shù)綜合演練仿真系統(tǒng),運用數(shù)據(jù)挖掘技術(shù)對坦克分隊作戰(zhàn)過程中的毀傷概率模型進(jìn)行研究,利用決策權(quán)對模型進(jìn)行分析,較好地滿足了坦克分隊作戰(zhàn)毀傷研究的需要,為分隊作戰(zhàn)智能化仿真研究提供了一定借鑒。二是作戰(zhàn)仿真數(shù)據(jù)挖掘。薛青等[31]從作戰(zhàn)仿真數(shù)據(jù)構(gòu)成分析入手,提出了面向數(shù)據(jù)挖掘的作戰(zhàn)數(shù)據(jù)倉庫構(gòu)建方法,將系統(tǒng)數(shù)據(jù)、基礎(chǔ)仿真數(shù)據(jù)、作業(yè)仿真數(shù)據(jù)、仿真結(jié)果數(shù)據(jù)和仿真管理數(shù)據(jù)納入其中,對于從現(xiàn)實世界中搜集、獲取數(shù)據(jù)具有積極的參考價值。三是輔助兵棋推演。劉長亮[32]在分析總結(jié)現(xiàn)代作戰(zhàn)高性能兵棋推演特點要求的基礎(chǔ)上,按照可拓知識庫構(gòu)建、可拓變換、基于可拓變換的數(shù)據(jù)挖掘和可拓數(shù)據(jù)挖掘推理4個環(huán)節(jié)闡述了可拓數(shù)據(jù)挖掘在兵棋推演系統(tǒng)中的實現(xiàn)并分析驗證了其實用性。
3)演訓(xùn)效能評價。當(dāng)前我軍演訓(xùn)活動組織較多,產(chǎn)生大量數(shù)據(jù),大數(shù)據(jù)挖掘可用來量化對演訓(xùn)的評價。一是作戰(zhàn)實驗事后分析。王峰山等[33]在分布式存儲和并行運算技術(shù)基礎(chǔ)上,通過關(guān)聯(lián)挖掘算法對非結(jié)構(gòu)化、多源異構(gòu)的作戰(zhàn)實驗數(shù)據(jù)進(jìn)行全面深入挖掘,為作戰(zhàn)實驗事后分析提供了一種新思路。二是演訓(xùn)效能評估。馬新志等[34]充分借助大數(shù)據(jù)及其技術(shù),直視演訓(xùn)評估中數(shù)據(jù)浪費和數(shù)據(jù)缺失等問題,著力解決了數(shù)據(jù)整編、存儲、分析、展示、再生產(chǎn)等難題,使評估結(jié)論更加準(zhǔn)確、實時、高效,帶動了評估效率質(zhì)的飛躍。
1)在軍事通信網(wǎng)絡(luò)中的應(yīng)用。一是軟件測試管理。蘇賽[35]等在訓(xùn)練集上建立分類模型,首先對測試人員特點進(jìn)行分析,然后對測試過程中QA或質(zhì)量監(jiān)督員發(fā)現(xiàn)的問題進(jìn)行梳理統(tǒng)計,找出薄弱性尋找對策加以解決改進(jìn),提高了軟件開發(fā)的可靠性。二是輔助通信規(guī)劃。李克等[36]在分析數(shù)據(jù)倉庫特點的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘工具,構(gòu)筑了信息戰(zhàn)中軍事通信網(wǎng)絡(luò)的數(shù)據(jù)倉庫模型,提出了應(yīng)用數(shù)據(jù)倉庫技術(shù)來挖掘軍事通信網(wǎng)絡(luò)信息數(shù)據(jù)的設(shè)想,以期為戰(zhàn)場規(guī)劃和目標(biāo)預(yù)測提供幫助。
2)確保軍事網(wǎng)絡(luò)安全。一是在網(wǎng)絡(luò)入侵檢測中的應(yīng)用。藍(lán)永發(fā)[37]結(jié)合多種數(shù)據(jù)挖掘技術(shù)的算法,提出了一種數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測模型,在Snort入侵檢測系統(tǒng)中運用DBSAN算法和K-Means算法提高了入侵檢測的正確率,增加了網(wǎng)絡(luò)數(shù)據(jù)傳輸安全性。二是在網(wǎng)絡(luò)病毒監(jiān)測中的應(yīng)用。黃應(yīng)紅等[38]將數(shù)據(jù)挖掘技術(shù)運用到網(wǎng)絡(luò)病毒監(jiān)測中,運用分類分析、聚類分析和序列模式分析等算法,有效地從病毒監(jiān)測審計數(shù)據(jù)中提取出有用的信息,提高了病毒檢測能力。三是在網(wǎng)絡(luò)病毒防御中的應(yīng)用。李嘉嘉[39]針對計算機網(wǎng)絡(luò)病毒傳播快、種類多、破壞性強的特點,通過數(shù)據(jù)源抓包、數(shù)據(jù)預(yù)處理、建立規(guī)則庫,運用關(guān)聯(lián)規(guī)則、異類分析和聚類分析來發(fā)現(xiàn)和查找病毒特殊數(shù)據(jù),可有效保護網(wǎng)絡(luò)系統(tǒng)安全。
3)確保軍事網(wǎng)絡(luò)數(shù)據(jù)安全。軍事網(wǎng)絡(luò)中異常數(shù)據(jù)的處理一直是較難解決的問題,董本清等[40]針對傳統(tǒng)算法缺陷,提出一種采用優(yōu)化遺傳算法的復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流中的異常數(shù)據(jù)方法,利用遺傳算法獲得抽樣樣本集的聚類中心,對其進(jìn)行遺傳操作使其自適應(yīng)調(diào)整,可提高復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流中異常數(shù)據(jù)挖掘的準(zhǔn)確率。
1)提高信息化工作效率。李悅等[41]通過對目前我國信息化的發(fā)展現(xiàn)狀及問題進(jìn)行詳細(xì)分析,找到基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)與單位信息管理中的契合點,提出了基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)系統(tǒng)的設(shè)計方案。該方案有助于單位優(yōu)化資源配置,促進(jìn)領(lǐng)導(dǎo)決策合理性。
2)提高檔案管理效率。陳小莉[42]提出了一種基于大數(shù)據(jù)并行閉頻繁項集挖掘的檔案管理數(shù)據(jù)挖掘技術(shù),在關(guān)聯(lián)規(guī)則特征提取的基礎(chǔ)上建立檔案信息管理的閉頻繁項集后綴表,進(jìn)行大數(shù)據(jù)并行挖掘,將其應(yīng)用在檔案管理系統(tǒng)的數(shù)據(jù)信息檢索中,提高了檔案管理系統(tǒng)中的數(shù)據(jù)快速查閱和檢索性能。
3)增強部隊管理能力。高磊等[43]提出將不打招呼檢查信息轉(zhuǎn)換為標(biāo)準(zhǔn)化數(shù)據(jù),構(gòu)建以檢查記錄表為主的數(shù)據(jù)庫,找出高頻項目進(jìn)行最小支持度和最小置信度分析,通過關(guān)聯(lián)規(guī)則描述與解釋進(jìn)行成因調(diào)查研究進(jìn)而輔助決策提高管理效率。并指出該方法在安全風(fēng)險評估、兵員數(shù)質(zhì)量分析、組織編制演變規(guī)律研究等領(lǐng)域有廣闊應(yīng)用前景。
1)加強工程質(zhì)量審計管理。一是軍事工程成本管理。王武新等[44]通過建立軍隊后勤云計算中心,實現(xiàn)了基于云計算的軍事工程成本管理,通過云計算挖掘技術(shù),為破解軍隊建設(shè)項目成本管理中長期存在的“分散”、“虛置”、“繁混”等現(xiàn)象提供了契機,破解了軍事工程成本管理中的困局。二是電氣工程故障分析。吳嶸[45]將全局信息引入電力系統(tǒng)中,采用聚類分析技術(shù),從大型數(shù)據(jù)庫信息中自動提取有效的、新穎的、潛在有用的信息,快速準(zhǔn)確的檢測出故障分量和故障區(qū)斷,為電機工程研究提出了一種新的解決方案。三是用電信息優(yōu)化。尹成波[46]提出了基于大數(shù)據(jù)分析的用電信息采集運維優(yōu)化方法,建立電網(wǎng)采集運維優(yōu)化的目標(biāo)函數(shù),利用約束條件構(gòu)建優(yōu)化模型。通過粒子群算法和搜索能力及動態(tài)重組能力進(jìn)行求解,有效地縮短了用電信息采集電音,提高了用電信息采集統(tǒng)計量。四是提高軍隊事業(yè)審計效率。王蕾[47]在分析軍隊事業(yè)審計中運用數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,結(jié)合法規(guī)特殊性規(guī)定、數(shù)據(jù)勾稽關(guān)系、業(yè)務(wù)處理邏輯、外源印證和審計經(jīng)驗構(gòu)建個體分析模型,利用數(shù)據(jù)分析軟件進(jìn)行審計數(shù)據(jù)的分析處理(OLAP)及趨勢預(yù)測分析,能進(jìn)一步判斷被審計單位存在的問題并指出改進(jìn)方法和思路。
2)物流倉儲中的應(yīng)用。為提高后方倉庫指揮管理的效率,石勝慶等[48]針對后方倉庫大量“孤島”數(shù)據(jù)庫無法得到深層次利用的問題,通過建立基本框架、確定核心內(nèi)容、明確技術(shù)手段、統(tǒng)一集成標(biāo)準(zhǔn)的步驟構(gòu)建了后方倉庫指揮管理模型,在物資保障輔助決策、庫存物資質(zhì)量管理、智能化安防方面進(jìn)行應(yīng)用,提高了后方倉庫保障決策和日常管理服務(wù)水平。
3)裝備檢測和質(zhì)量管理。一是航天型號產(chǎn)品質(zhì)量管理。吳丹等[49]在航天型號產(chǎn)品質(zhì)量信息數(shù)據(jù)倉庫上,利用決策樹、聚類分析技術(shù)、關(guān)聯(lián)發(fā)現(xiàn)和時間序列發(fā)現(xiàn)技術(shù)以及ID3算法、BP算法等方法,建立了時間序列預(yù)測模型、分析分析模型和關(guān)聯(lián)分析模型。通過質(zhì)量數(shù)據(jù)查找出了某類質(zhì)量問題產(chǎn)生的根本原因,給出了在研型號的質(zhì)量水平和可能存在的質(zhì)量風(fēng)險的置信區(qū)間,實現(xiàn)了對型號質(zhì)量風(fēng)險的預(yù)測,對產(chǎn)品質(zhì)量及管理的快速科學(xué)決策。二是航空發(fā)動機狀態(tài)監(jiān)控與故障診斷。曠典等[50]在分析多元多維度大數(shù)據(jù)來源的基礎(chǔ)上,建立了大數(shù)據(jù)模型的構(gòu)架,利用全參數(shù)關(guān)聯(lián)規(guī)則挖掘、狀態(tài)量關(guān)聯(lián)度分析和狀態(tài)量加權(quán)分析的方法,使發(fā)動機的診斷精度得到提升,提高了飛行的安全性和維修保障的經(jīng)濟性。三是運載火箭測發(fā)故障分析。程龍[51]等研究了基于仿真與數(shù)據(jù)挖掘的測試發(fā)射故障分析方法,對仿真系統(tǒng)得到的大量數(shù)據(jù)信息進(jìn)行處理、分類和挖掘,獲取了所關(guān)心的故障知識,提高了相關(guān)故障分析工作的效率與質(zhì)量。四是海軍直升機裝備應(yīng)用。汪智超等[52]將數(shù)據(jù)挖掘技術(shù)應(yīng)用到海軍直升機裝備中,利用預(yù)測算法對航電系統(tǒng)進(jìn)行故障診斷和預(yù)測,確保了海軍直升機在護航和航母編隊任務(wù)中的飛行安全。
如今,大數(shù)據(jù)挖掘技術(shù)在軍事領(lǐng)域中的應(yīng)用日益廣泛,也已經(jīng)取得了一定的成果。但是,在挖掘技術(shù)和實現(xiàn)手段等方面還存在不足,需要進(jìn)一步的研究完善。首先,挖掘工具標(biāo)準(zhǔn)不一,缺少通用性。目前,挖掘工具都是針對某一具體的信息系統(tǒng),不同的挖掘工具操作方法各異,而沒有統(tǒng)一規(guī)范化的具有普遍適用性的數(shù)據(jù)挖掘工具,不便于使用者更好更快地掌握數(shù)據(jù)挖掘操作方法,給挖掘工具的推廣工作增加了難度。其次,挖掘工具操作復(fù)雜,只有專門從事數(shù)據(jù)信息工作方面的人員才能使用自如,對廣大普通管理者和從事信息管理的人員來說掌握起來需要花費的時間較長。所以,研究一種簡單、友好、方便快捷,并且通用性強的挖掘工具是目前大數(shù)據(jù)挖掘研究的重點。為將其更好地應(yīng)用于軍事領(lǐng)域,我們要統(tǒng)一思想,樹立大數(shù)據(jù)意識,對演習(xí)、訓(xùn)練和日常工作中的數(shù)據(jù)信息進(jìn)行收集建庫,為大數(shù)據(jù)挖掘技術(shù)提供應(yīng)用的平臺和空間。