摘 要:邁入信息時(shí)代,大數(shù)據(jù)建設(shè)逐漸成為各領(lǐng)域研究的熱點(diǎn)。大數(shù)據(jù)建設(shè)層次的高低,直接關(guān)系到信息產(chǎn)業(yè)的發(fā)展。新形勢下,加快推大數(shù)據(jù)建設(shè)與發(fā)展,能夠助力各行業(yè)信息化建設(shè)的提高。本文主要從數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換等方面,重點(diǎn)提出作戰(zhàn)數(shù)據(jù)預(yù)處理的方法步驟,為作戰(zhàn)大數(shù)據(jù)建設(shè)發(fā)展提供支撐。
關(guān)鍵詞:數(shù)據(jù)預(yù)處理;數(shù)據(jù)清洗;數(shù)據(jù)歸約
1.數(shù)據(jù)獲取
在特定領(lǐng)域中,參與單位多元、參與行動(dòng)多樣、協(xié)同關(guān)系復(fù)雜,數(shù)據(jù)需求種類繁多。如現(xiàn)場環(huán)境數(shù)據(jù),主要包括:地形地貌、氣象水文、空氣質(zhì)量、重力場、電磁環(huán)境、交通、建筑物、防御工程設(shè)施、網(wǎng)絡(luò)環(huán)境等[1]。傳感器、采集器以及相關(guān)部門提供的數(shù)據(jù)都需要系統(tǒng)地、有規(guī)律地進(jìn)行整合。
1.1采集要求
(1)完整性:保證采集的數(shù)據(jù)信息不存在缺失現(xiàn)象,不完整的信息數(shù)據(jù)可能會(huì)使整個(gè)實(shí)例數(shù)據(jù)失效。(2)唯一性:每一個(gè)實(shí)例只能對應(yīng)一條記錄,不允許出現(xiàn)兩個(gè)以上相同的實(shí)例。(3)一致性:不同的系統(tǒng)設(shè)備或者人員采集相同的實(shí)例應(yīng)當(dāng)是相同的信息,同一實(shí)例在不同系統(tǒng)中應(yīng)當(dāng)是相同的表達(dá)。(4)精準(zhǔn)性:采集的數(shù)據(jù)信息能夠準(zhǔn)確描述現(xiàn)實(shí)事件的特征。(5)時(shí)效性:數(shù)據(jù)在所需時(shí)間段內(nèi)及時(shí)可用,如果數(shù)據(jù)過于陳舊,會(huì)使該數(shù)據(jù)分析獲得的結(jié)論失去參考價(jià)值。同時(shí)在作戰(zhàn)數(shù)據(jù)的采集時(shí),還需要獲得上級(jí)領(lǐng)導(dǎo)的批準(zhǔn)或者指示。
1.2采集方法
(1)日志采集:日志采集屬于對非結(jié)構(gòu)化數(shù)據(jù)的采集,分為瀏覽器頁面日志采集和客戶端日志采集。①瀏覽器頁面日志采集:可以通過網(wǎng)絡(luò)爬蟲等方法對網(wǎng)頁信息進(jìn)行獲取,將獲取的信息儲(chǔ)存為本地?cái)?shù)據(jù)文件。②客戶端日志采集:通常是采用軟件開發(fā)工具包(SDK)用于APP等客戶端的數(shù)據(jù)采集,從事件的角度來采集數(shù)據(jù),比如業(yè)務(wù)操作事件、點(diǎn)擊事件、登錄事件等。(2)數(shù)據(jù)源數(shù)據(jù)同步:根據(jù)同步的方式可分為直接數(shù)據(jù)源同步、生成數(shù)據(jù)文件同步、數(shù)據(jù)庫日志同步。①直接數(shù)據(jù)源同步:通過特定的接口,直接讀取目標(biāo)數(shù)據(jù)庫的數(shù)據(jù)。②生成數(shù)據(jù)文件同步:將數(shù)據(jù)源系統(tǒng)生成的數(shù)據(jù)文件,通過文件系統(tǒng)同步到別的數(shù)據(jù)庫中。這種方式需要對文件進(jìn)行適當(dāng)加密和壓縮,可以提高數(shù)據(jù)效率和保證數(shù)據(jù)安全。③數(shù)據(jù)庫日志同步:數(shù)據(jù)庫日志文件記錄著數(shù)據(jù)庫所有數(shù)據(jù)的修改信息,防止意外情況導(dǎo)致數(shù)據(jù)庫出問題,可以通過數(shù)據(jù)庫日志進(jìn)行數(shù)據(jù)恢復(fù)。因此可以通過這個(gè)數(shù)據(jù)庫日志文件來進(jìn)行增量同步,從而獲得數(shù)據(jù)。
2.大數(shù)據(jù)預(yù)處理
2.1缺失值處理
(1)刪除法。此方法是最簡單、原始的方法,如果一條數(shù)據(jù)有缺失,直接將此有缺失的數(shù)據(jù)實(shí)例刪除以解決數(shù)據(jù)缺失的問題。
(2)插補(bǔ)法。作戰(zhàn)數(shù)據(jù)通常數(shù)據(jù)量龐大、屬性繁多,如果因?yàn)橐粋€(gè)屬性數(shù)據(jù)的缺失而刪除一整條數(shù)據(jù),會(huì)造成數(shù)據(jù)浪費(fèi)。因此,利用一些方法把缺失的數(shù)據(jù)補(bǔ)上即可。常見的方法有:①均值插補(bǔ):數(shù)據(jù)分為數(shù)值類型和非數(shù)值類型,當(dāng)缺失值是數(shù)值類型時(shí),將缺失這類屬性的其他所有值求平均,將平均值填入缺失的位置。當(dāng)缺失值是非數(shù)值類型時(shí),將這類屬性其他所有值求眾數(shù),也就是將這類屬性中出現(xiàn)最頻繁的數(shù)據(jù)填入缺失的位置。②回歸插補(bǔ):將缺少數(shù)據(jù)的屬性看作因變量,與其相關(guān)聯(lián)的其他屬性看作自變量,利用他們之間的關(guān)聯(lián)建立回歸模型進(jìn)行預(yù)測,將預(yù)測的值填入缺失的位置。③極大似然估計(jì):極大似然估計(jì)實(shí)際上是概率論在統(tǒng)計(jì)分析中的應(yīng)用,通過已有的數(shù)據(jù)分布情況去推測缺失值。
2.2噪聲過濾
噪聲數(shù)據(jù)是真實(shí)存在的數(shù)據(jù),但是存在誤差。隨機(jī)誤差產(chǎn)生的噪聲數(shù)據(jù)看起來是正常的,卻影響變量真值,所以噪聲數(shù)據(jù)也會(huì)影響最終數(shù)據(jù)分析結(jié)果,需要對其進(jìn)行去噪。去噪的方法通常有回歸法,均值平滑法,離群點(diǎn)分析法及小波去噪法。
(1)回歸法:回歸法是利用一個(gè)函數(shù)或者回歸模型擬合數(shù)據(jù),對數(shù)據(jù)進(jìn)行光滑處理,利用回歸得到的數(shù)據(jù)值代替原來的噪聲值,從而避免了噪聲數(shù)據(jù)的干擾,但是必須要求大部分?jǐn)?shù)據(jù)符合線性回歸的趨勢,才可以用此方法解決噪聲數(shù)據(jù)。通常可以先將數(shù)據(jù)可視化后,人為觀察數(shù)據(jù)的變化趨勢,如果符合線性回歸趨勢,則可用此方法去噪。
(2)均值平滑法:將具有序列特征的變量用臨近的若干數(shù)據(jù)均值來代替先前的噪聲數(shù)據(jù)。
(3)離群點(diǎn)分析:通常是運(yùn)用某種算法,檢測出異常點(diǎn),然后將其刪除。通常是采用聚類的算法,然后進(jìn)行聚類分析,多組實(shí)例數(shù)據(jù)聚集為同類稱之為蔟,同一蔟的數(shù)據(jù)相似程度高,而離群點(diǎn)的數(shù)據(jù)實(shí)例會(huì)獨(dú)立出來,不屬于任何一個(gè)蔟,這個(gè)時(shí)候就刪除這些離群點(diǎn),達(dá)到去噪的效果。
(4)小波法:小波去噪屬于音頻處理[2],具有較好的時(shí)頻特性。主要是用于對圖像或信號(hào)去噪。從數(shù)學(xué)角度分析,小波去噪本質(zhì)是函數(shù)逼近問題,根據(jù)衡量標(biāo)準(zhǔn)找出對原信號(hào)的最佳逼近,區(qū)別原信號(hào)與噪聲信號(hào),找到實(shí)際信號(hào)空間到小波函數(shù)空間的最佳映射,便于恢復(fù)最佳的原信號(hào)[3]。從信號(hào)學(xué)角度分析,小波去噪是信號(hào)濾波問題,雖然小波去噪很大程度上可看作低通濾波,但它優(yōu)于傳統(tǒng)低通濾波的地方是去噪后還能保留信號(hào)特征。小波去噪可看作是特征提取和低通濾波功能的綜合,輸入帶噪信號(hào)后,經(jīng)過特征提取與低通濾波可得到重建信號(hào)。
2.3重復(fù)值處理
重復(fù)的數(shù)據(jù)是相同信息的數(shù)據(jù)重復(fù)出現(xiàn),形成重復(fù)數(shù)據(jù)實(shí)例,造成數(shù)據(jù)信息冗余,并且會(huì)造成該樣本在整體數(shù)據(jù)中占比提升,最終可能導(dǎo)致數(shù)據(jù)分析時(shí)出現(xiàn)偏差。通常情況下運(yùn)用算法進(jìn)行匹配,找出重復(fù)多余的數(shù)據(jù)進(jìn)行刪除即可。
2.4數(shù)據(jù)集成
數(shù)據(jù)集成的一般方法:①聯(lián)邦數(shù)據(jù)庫:這是早期的一種通用方法,在這個(gè)數(shù)據(jù)庫中,數(shù)據(jù)源與數(shù)據(jù)源之間可以共享自己的一部分?jǐn)?shù)據(jù)模式,從而形成一個(gè)聯(lián)邦模式,從數(shù)據(jù)集成的效果來看可以分為緊密藕合聯(lián)邦數(shù)據(jù)庫和松散藕合聯(lián)邦數(shù)據(jù)庫。緊密藕合集成度比較高,解決了數(shù)據(jù)集間的異構(gòu)性,但是構(gòu)建的全局?jǐn)?shù)據(jù)模式擴(kuò)展性差且算法復(fù)雜。松散藕合集成度低,沒有全局模式,但其數(shù)據(jù)集成的自治性好、動(dòng)態(tài)性能好。②中間件集成:該集成方法同樣使用全局?jǐn)?shù)據(jù)模式,其特點(diǎn)是不僅能夠集成結(jié)構(gòu)化的數(shù)據(jù)信息,還可以集成半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù)信息。這種集成系統(tǒng)中包括中間件和包裝器,包裝器是對數(shù)據(jù)進(jìn)行包裝(包裝器和一個(gè)特定的數(shù)據(jù)信息進(jìn)行對應(yīng))。中間件就可以通過包裝器進(jìn)行數(shù)據(jù)交流。操作者通過全局?jǐn)?shù)據(jù)模式向中間件發(fā)出數(shù)據(jù)信息請求,中間件收到請求并處理。
2.5數(shù)據(jù)歸約
對于海量的數(shù)據(jù)信息,數(shù)據(jù)樣本實(shí)例太多,維度過高會(huì)引起數(shù)據(jù)超負(fù)荷,使得數(shù)據(jù)挖掘的算法不適用且運(yùn)算量大,因此執(zhí)行數(shù)據(jù)歸約是必要的。數(shù)據(jù)歸約的基本操作是刪除行列和減少列中值的數(shù)量。例如用一列的特征去表示兩列或多列的特征從而刪除列達(dá)到減少數(shù)據(jù)量的效果。數(shù)據(jù)維度歸約可以對海量的數(shù)據(jù)進(jìn)行降維處理,主要是利用主成分分析和小波變換將原始的數(shù)據(jù)映射到較小的空間,從而降低數(shù)據(jù)大小但不降低數(shù)據(jù)特征質(zhì)量,同時(shí)不降低數(shù)據(jù)分析結(jié)果質(zhì)量。總之,數(shù)據(jù)歸約的目的就是對數(shù)據(jù)信息進(jìn)行細(xì)化處理,盡可能壓縮數(shù)據(jù),并且不降低數(shù)據(jù)分析結(jié)果的準(zhǔn)確度。
結(jié)語:本文對特定領(lǐng)域用途大數(shù)據(jù)技術(shù)中數(shù)據(jù)預(yù)處理相關(guān)概念進(jìn)行介紹,對處理的流程進(jìn)行梳理,并詳細(xì)介紹每一個(gè)流程的作用和方法。通過數(shù)據(jù)清洗,可以刪除冗余數(shù)據(jù),填補(bǔ)空缺數(shù)據(jù),處理偏差數(shù)據(jù),再通過數(shù)據(jù)集成,使得數(shù)據(jù)格式相同,表達(dá)相同,最后經(jīng)過數(shù)據(jù)歸約和變換完成數(shù)據(jù)預(yù)處理。作戰(zhàn)所需的數(shù)據(jù)綜合性強(qiáng),需要多部門、多領(lǐng)域合作,對作戰(zhàn)數(shù)據(jù)進(jìn)行預(yù)處理可以更好地為指揮員及時(shí)掌握戰(zhàn)場態(tài)勢,高效科學(xué)決策提供數(shù)據(jù)支撐。
參考文獻(xiàn):
[1]趙一凡,卞良,叢昕.數(shù)據(jù)清洗方法研究綜述[J].軟件導(dǎo)刊,2017,16(12):222-224.
作者簡介:
王曉品,男(1988-),漢族,云南省馬關(guān)縣人,畢業(yè)于國防科技大學(xué),計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)碩士研究生,現(xiàn)任武警河南省總隊(duì)綜合信息保障中心助理工程師。
(武警河南省總隊(duì),河南 鄭州 450000)