郭瑞 賀筱媛
摘要
現(xiàn)代戰(zhàn)場信息大數(shù)據(jù)產(chǎn)生的戰(zhàn)爭迷霧對指揮員的戰(zhàn)場態(tài)勢認知產(chǎn)生了強烈干擾,這些都會增加指揮員的指揮決策的難度,針對某計算機兵棋系統(tǒng)具有高度模擬真實戰(zhàn)場的能力,本文依據(jù)對兵棋模擬數(shù)據(jù)研究的基礎上,選擇其中偵查相關數(shù)據(jù)作為處理對象,通過數(shù)據(jù)的清洗與集成能更清晰的認知戰(zhàn)場模擬態(tài)勢環(huán)境,為認識真實戰(zhàn)場提供一種模擬數(shù)據(jù)預處理方法,為戰(zhàn)場態(tài)勢認知的研究打下基礎。
【關鍵詞】模擬戰(zhàn)場 仿真數(shù)據(jù) 數(shù)據(jù)預處理
1 引言
在信息技術和戰(zhàn)爭實踐的推動下,聯(lián)合作戰(zhàn)和體系對抗己成為了現(xiàn)代戰(zhàn)爭的基本特征,現(xiàn)代戰(zhàn)爭與以往不同,戰(zhàn)爭的節(jié)奏越來越快,產(chǎn)生的戰(zhàn)場信息呈現(xiàn)幾何級增長,所以戰(zhàn)場態(tài)勢認知的研究勢在必行。
在一次對抗演習中,數(shù)據(jù)是兵棋演習的基礎支撐部分,一般意義上來講,數(shù)據(jù)可以對應、有序、準確的顯示出演習中的一切行動和特征,貫穿于演習的整個過程。在演習數(shù)據(jù)分類中,運行數(shù)據(jù)由系統(tǒng)自動產(chǎn)生,基礎想定數(shù)據(jù)則是根據(jù)演習的環(huán)境和實體參數(shù)在演習前設定完成,存放于對應的兵棋演習數(shù)據(jù)庫中,兵棋演習數(shù)據(jù)絕大部分是實時的、準確的,但是也會有部分數(shù)據(jù)存在內(nèi)容不完整、格式不一致、存放重復、信息缺失等情況,這些會對之后的數(shù)據(jù)處理和信息分析產(chǎn)生影響,甚至有可能對模型算法造成偏差,所以數(shù)據(jù)的預處理是非常必要的。
2 數(shù)據(jù)的預處理研究
2.1 選擇偵查預警數(shù)據(jù)為預處理目標
根據(jù)演習模型的規(guī)則和所得出數(shù)據(jù)的參數(shù)特征要求,計劃先選擇出相應有價值的數(shù)據(jù),對之進行兩次清洗,然后再集成出我們需要的格式數(shù)據(jù)。一次演習可能會產(chǎn)生海量的數(shù)據(jù),而研究工作可能要針對多次不同的演習情況,如果對這些數(shù)據(jù)都要加以處理的話,工作量的巨大程度無法評估,而且我們采用的算法的精確度也會受到一定的影響,所以我們要抽取出其中一部分有代表性意義而且對實驗有幫助的數(shù)據(jù)進行處理,這里選用偵查預警的相關態(tài)勢數(shù)據(jù)進行舉例說明整個數(shù)據(jù)預處理過程。
2.2 對所選偵查預警數(shù)據(jù)進行首次清洗
現(xiàn)實偵查預警任務中發(fā)生的一些突發(fā)問題,會產(chǎn)生相關預想不到的情況,對應演習數(shù)據(jù)有時難免會發(fā)生一些錯誤,另外在數(shù)據(jù)傳輸和采集的過程中已經(jīng)規(guī)則設定偏差等原因,都會產(chǎn)生一些異常,這些不僅僅影響數(shù)據(jù)庫的準確性,而且會對后續(xù)研究造成不利影響。
為了提升己選數(shù)據(jù)的精確性和研究價值,需要對一些突出的錯誤進行修正,這作為第一步的數(shù)據(jù)清洗,用來糾正偏差,重新錄入殘缺部分,清除偏離數(shù)據(jù),提高這些備用數(shù)據(jù)的可用性。具體清洗辦法如下所示。
2.2.1 異常檢測方法
通過模式識別、聚類、基于鄰近性、關聯(lián)規(guī)則等方式實現(xiàn)兵棋演習數(shù)據(jù)異常的自動檢測,并能夠?qū)?shù)據(jù)異常進行分類,為確定數(shù)據(jù)清洗方法提供依據(jù)。
2.2.2 缺失值填充方法
通過忽略元組、全局常量填充、數(shù)據(jù)的中心度量填充以及特殊情況下的人工填寫等方法填充缺失值。
2.2.3錯誤糾正方法
對形式和內(nèi)容不符合要求的數(shù)據(jù)進行糾正,對錯誤難以改正且不重要的數(shù)據(jù)采取刪除整條記錄的方法處理。
2.2.4 冗余消除方法
采取近鄰排序法對重復記錄進行識別、比較和排序,刪除低價值的重復冗余數(shù)據(jù)。
2.2.5 光滑噪聲方法
分箱、回歸、離群點分析等。
現(xiàn)今階段,數(shù)據(jù)的這一方面清洗技術已經(jīng)比較完備,本研究打算以成熟工具為基礎,例如WEKA,作為一個公共數(shù)據(jù)挖掘平臺,它集合了大量能承擔數(shù)據(jù)挖掘任務的機器學習算法,包括對數(shù)據(jù)進行預處理,分類、回歸、聚類,針對WEKA中的AddID、Remove、AddCluster、NumericCleaner、StringToWordVector等數(shù)據(jù)過濾器的具體特點,具體流程如下所示。
(1)檢測偏差,通過對輸入數(shù)據(jù)的檢驗,抽出其中出現(xiàn)錯誤、重復、缺失的數(shù)據(jù),并對其進行記錄,并對原始數(shù)據(jù)進行分析,確定是否需要下一步的清洗。
(2)確定方法,根據(jù)原始數(shù)據(jù)的異常類型,選擇確定清洗方案。
(3)檢驗方法,調(diào)用檢驗模塊檢驗選取的清洗方法是否適用于處理該類問題,如果適用,則執(zhí)行下一步,如果不適用,則進入手工清洗模式。
(4)執(zhí)行清洗,調(diào)用清洗模塊、標記異常數(shù)據(jù)、填補缺失數(shù)據(jù)、修改錯誤數(shù)據(jù)、刪除冗余數(shù)據(jù)。
(5)數(shù)據(jù)歸檔,調(diào)用加載模塊,將清洗后的目標數(shù)據(jù)歸檔到目的數(shù)據(jù)庫中。
2.3 對研究數(shù)據(jù)的最后集成
在演習中,根據(jù)模型的規(guī)則以及數(shù)據(jù)本身的特點,相應的會把數(shù)據(jù)分類存放在幾個數(shù)據(jù)庫以及文件中,這樣對模型本身的結構會有很好的適應性,但對于研究數(shù)據(jù)來說,會帶來一定的困難,因為有些數(shù)據(jù)會根據(jù)不同要求而重復存在,如果集成過程是簡單的把數(shù)據(jù)庫疊加在一起的話,可能會帶來一些數(shù)據(jù)的冗余甚至自相矛盾,另外還可能會產(chǎn)生相同數(shù)據(jù)的命名不一樣的問題等。所以要把所需的數(shù)據(jù)集成為一個結構相同、適合研究的集成文件中,這次集成是數(shù)據(jù)庫內(nèi)部的另一次清洗過程,這里用到的是數(shù)據(jù)倉庫的相關技術。
所以這里采用Oracle grid和Oracle database來組建所需要的數(shù)據(jù)倉庫,Oracle作為一款普遍使用的數(shù)據(jù)庫軟件,具有強大的數(shù)據(jù)處理能力。
由于所選數(shù)據(jù)的類型有對實體進行描述性的靜態(tài)數(shù)據(jù),也有在演習中進行交互的動態(tài)數(shù)據(jù),而這些數(shù)據(jù)是相關的,所以這次集成是要從不同的來源根據(jù)相互之間的關系進行挑選與合成。
3 結束語
本文的是在認知戰(zhàn)場的目的下,從模擬戰(zhàn)場環(huán)境的兵棋數(shù)據(jù)入手,從數(shù)據(jù)來源到數(shù)據(jù)的結構以及存儲與采集方式,初步研究對戰(zhàn)場實時偵查預警模擬數(shù)據(jù)的處理方法,對數(shù)據(jù)預處理是為了進一步更好的研究戰(zhàn)場認知打下基礎,通過對數(shù)據(jù)的清洗和集成可以更清晰明了的呈現(xiàn)戰(zhàn)場態(tài)勢。
參考文獻
[1]胡曉峰,范嘉賓.兵棋對抗演習概論[M].北京:國防大學出版社,2012.
[2]徐寧.計算機兵棋的關鍵技術研究與實現(xiàn)[D].東北大學,2009.
[3]彭春光,趙鑫業(yè),劉寶宏等.兵棋推演技術綜述[J].系統(tǒng)仿真技術及其應用,11:366-370.
[4]彭希文.兵棋-從實驗室走向戰(zhàn)場[M].北京:國防大學出版社,2013.
[5]陶雪嬌.基于仿真大數(shù)據(jù)的指揮效能分析方法研究[D].國防大學,2014.
[6]李曉菲.數(shù)據(jù)預處理算法的研究與應用[D].西南交通大學,2003.