張瑞,王曉菲
摘要:為了更好地保障網(wǎng)絡(luò)數(shù)據(jù)運(yùn)行安全,提出了基于鄰域差分濾波的網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)方法,通過對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行采集,結(jié)合鄰域差分濾波對(duì)采集所得數(shù)據(jù)進(jìn)行分類,構(gòu)建大量標(biāo)簽進(jìn)行數(shù)據(jù)支持,有針對(duì)性地進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng),解決傳統(tǒng)數(shù)據(jù)增強(qiáng)方法訓(xùn)練難度大、數(shù)據(jù)缺失等問題。實(shí)驗(yàn)結(jié)果表明,基于鄰域差分濾波的網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)方法訓(xùn)練更穩(wěn)定,可以更好地提高網(wǎng)絡(luò)數(shù)據(jù)運(yùn)行精度和安全,增強(qiáng)效果明顯較好,具有更高的可行性和有效性。
關(guān)鍵詞:鄰域差分濾波;網(wǎng)絡(luò)數(shù)據(jù); 數(shù)據(jù)增強(qiáng)
中圖分類號(hào):TN912? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)21-0035-02
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
隨著鄰域差分濾波技術(shù)的發(fā)展,基于鄰域差分濾波的網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)方法有所突破。當(dāng)網(wǎng)絡(luò)數(shù)據(jù)樣本標(biāo)記充分時(shí),使用鄰域差分濾波方法可提高分類精度。但是,但由于部分環(huán)境下受到較強(qiáng)的干擾或攻擊行為影響,導(dǎo)致網(wǎng)絡(luò)的穩(wěn)定性和泛化能力都很差,網(wǎng)絡(luò)數(shù)據(jù)的收集和標(biāo)簽數(shù)據(jù)獲取相對(duì)較為困難,且需要花費(fèi)很多時(shí)間和精力[1]?;谏鲜龇椒ǎ枰M(jìn)一步進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的增,對(duì)小數(shù)據(jù)集上的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行有效的訓(xùn)練和增強(qiáng)處理。網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)是克服信息受損的重要方法[2]?;卩徲虿罘譃V波的網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)方法將有限的數(shù)據(jù)合并或轉(zhuǎn)換為新數(shù)據(jù)。將灰度變換簡(jiǎn)單的方法結(jié)合起來,將仿射變換應(yīng)用于網(wǎng)絡(luò)。將幾何變換和網(wǎng)絡(luò)運(yùn)算結(jié)合起來,可以在一定程度上減少過擬合法,提高網(wǎng)絡(luò)泛化能力。
1 基于鄰域差分濾波的網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理
為了保證網(wǎng)絡(luò)環(huán)境的健康穩(wěn)定運(yùn)行,首先需要對(duì)網(wǎng)絡(luò)異常數(shù)據(jù)進(jìn)行采集和分類,以便后續(xù)進(jìn)行增強(qiáng)處理,為保障研究效果,歸納總結(jié)了多種網(wǎng)絡(luò)異常數(shù)據(jù)采集方法[3]。以數(shù)據(jù)采集方法為核心,對(duì)特征數(shù)據(jù)進(jìn)行預(yù)處理。在網(wǎng)絡(luò)流量異常檢測(cè)方面,幾乎所有的網(wǎng)絡(luò)流量在送往異常檢測(cè)器前都要經(jīng)過數(shù)據(jù)預(yù)處理[4]。
利用鄰域差分濾波進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的采集篩選和異常檢測(cè)處理。針對(duì)采集篩選獲取網(wǎng)絡(luò)流量異常的數(shù)據(jù)集,進(jìn)行通常數(shù)據(jù)特征粒度的分類。在網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理的過程中,將包層進(jìn)行 記錄,檢測(cè)數(shù)據(jù)的高維稀疏特征,并進(jìn)一步對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中的冗余數(shù)據(jù)進(jìn)行剔除[5]。為保障網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)處理的正確性,保證網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)效果,進(jìn)一步對(duì)采集所得數(shù)據(jù)中維數(shù)過大的信息進(jìn)行優(yōu)化,結(jié)合NP-hard方法對(duì)多維輸入空間的復(fù)雜度進(jìn)行降維處理,隨著網(wǎng)絡(luò)數(shù)據(jù)中每個(gè)新變量的索引而增加,篩選網(wǎng)絡(luò)數(shù)據(jù)矢量的相似性,從而保證網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理的精確度和有效性。網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)是克服數(shù)據(jù)不足的一種重要方法,基于數(shù)據(jù)預(yù)處理結(jié)果,進(jìn)一步在有限的網(wǎng)絡(luò)數(shù)據(jù)中進(jìn)行特征數(shù)據(jù)的組合和轉(zhuǎn)換處理,并進(jìn)一步結(jié)合鄰域差分濾波算法生成新的特征數(shù)據(jù)。在此基礎(chǔ)上,進(jìn)一步給出網(wǎng)絡(luò)數(shù)據(jù)的變換的數(shù)據(jù)增強(qiáng)方法,結(jié)合旋轉(zhuǎn)參數(shù),縮放數(shù)值,位移信息等進(jìn)行處理。并進(jìn)一步對(duì)網(wǎng)絡(luò)數(shù)據(jù)特征的對(duì)比度變換和附加噪聲進(jìn)行消除?;陬A(yù)處理后的網(wǎng)絡(luò)標(biāo)簽,對(duì)網(wǎng)絡(luò)領(lǐng)域進(jìn)行定位。以幾何變換為基礎(chǔ)鄰域差分濾波進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的增強(qiáng)運(yùn)算,有效緩解網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)過程中常見的過擬合問題,提高網(wǎng)絡(luò)數(shù)據(jù)推廣能力。
2 網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)算法
將網(wǎng)絡(luò)數(shù)據(jù)中的顯性模式和隱性模式進(jìn)行劃分。獲取一個(gè)隱含的密度模型,即網(wǎng)絡(luò)不能明確地給出數(shù)據(jù)分布的密度函數(shù)。以此實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)函數(shù)式的 WAN全局優(yōu)化推廣,則對(duì)其算法進(jìn)行優(yōu)化,進(jìn)一步對(duì)網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)條件生成對(duì)抗網(wǎng)絡(luò)加入了分類信息中記為Y,使之能夠生成指定分類的數(shù)據(jù)。
從數(shù)據(jù)增強(qiáng)的角度出發(fā),通過改進(jìn)生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練算法,設(shè)計(jì)了一種基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)方法,并將其應(yīng)用到數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)中。與其他網(wǎng)絡(luò)結(jié)構(gòu)相比,提出的鄰域差分濾波網(wǎng)絡(luò)結(jié)構(gòu)更適用于數(shù)據(jù)增強(qiáng)任務(wù),當(dāng)產(chǎn)生的樣本與原始數(shù)據(jù)難以區(qū)分時(shí),可以進(jìn)行類間分離,實(shí)現(xiàn)對(duì)學(xué)習(xí)復(fù)合數(shù)據(jù)點(diǎn)邊界的檢測(cè)。在訓(xùn)練算法方面,在鄰域差分濾波算法的基礎(chǔ)上,結(jié)合分類器的訓(xùn)練過程,推導(dǎo)出一個(gè)新的損失函數(shù),使數(shù)據(jù)處理和分類器的訓(xùn)練同步,不需要額外的存儲(chǔ)空間。在特征相似指數(shù)選擇的基礎(chǔ)上,可以采用多種方法確定最小冗余條件,并進(jìn)行去除。
假設(shè)在網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)中,高正相關(guān)和高負(fù)相關(guān)均為冗余,基于此獲取網(wǎng)絡(luò)特征數(shù)據(jù)的相關(guān)絕對(duì)值,進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)長度的度量,研究發(fā)現(xiàn)網(wǎng)絡(luò)流量異常檢測(cè)在數(shù)據(jù)預(yù)處理階段主要存在兩個(gè)問題:一是網(wǎng)絡(luò)流量數(shù)據(jù)特征繁多,具有一定的冗余性,二是維數(shù)過高,在實(shí)際操作中會(huì)帶來許多意想不到的后果,三是網(wǎng)絡(luò)流量正常數(shù)據(jù)被提取并標(biāo)記,成本較高。為解決上述問題,進(jìn)一步對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行特征融合,具體的數(shù)據(jù)特征融合方法如下圖所示:
在進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)的過程中,數(shù)據(jù)異常檢測(cè)和去噪是關(guān)鍵所在。針對(duì)這兩個(gè)問題,提出了網(wǎng)絡(luò)流量數(shù)據(jù)特征化及數(shù)據(jù)增強(qiáng)的新方法。對(duì)大小樣本網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行預(yù)處理,可以獲得高壓力縮率和大樣本流量,從而降低計(jì)算成本,提高后續(xù)網(wǎng)絡(luò)的異常檢測(cè)性能。針對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)的特點(diǎn),將網(wǎng)絡(luò)數(shù)據(jù)w-dba協(xié)議進(jìn)行數(shù)據(jù)增強(qiáng),并將其應(yīng)用于網(wǎng)絡(luò)流量數(shù)據(jù)增強(qiáng)模塊,以生成符合原始數(shù)據(jù)集分布的無線網(wǎng)絡(luò)流量數(shù)據(jù)樣本,并且保持?jǐn)?shù)據(jù)的多樣性。
進(jìn)一步對(duì)網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)模型進(jìn)行優(yōu)化,網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)模型能有效保證數(shù)據(jù)在增強(qiáng)過程中不存在過擬合和弱分類問題,從而實(shí)現(xiàn)準(zhǔn)確、有效滿足用戶的個(gè)性化需求,適合于各種網(wǎng)絡(luò)場(chǎng)景和環(huán)境?,F(xiàn)有的網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)模型主要應(yīng)用于人臉識(shí)別、目標(biāo)檢測(cè)和目標(biāo)跟蹤等網(wǎng)絡(luò)處理過程。在進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)處理的過程中,需要考慮建立需要代價(jià)因素進(jìn)行優(yōu)化,通過設(shè)置有限的網(wǎng)絡(luò)訓(xùn)練樣本,避免對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行強(qiáng)化處理,從而達(dá)到限制特征分類精度的目的。在此基礎(chǔ)上,提出了一種基于鄰域差分濾波進(jìn)行網(wǎng)絡(luò)增強(qiáng)數(shù)據(jù)選擇策略的優(yōu)化,這種策略對(duì)于具有連續(xù)值的數(shù)據(jù)集更為有效,不受值的絕對(duì)大小的影響,而更關(guān)注特征之間的數(shù)值比例??梢愿玫剡M(jìn)行數(shù)據(jù)增強(qiáng)處理?;谏鲜龇椒ㄟM(jìn)一步優(yōu)化了網(wǎng)絡(luò)數(shù)據(jù)變化方向、大小和間隔,并采用網(wǎng)絡(luò)數(shù)據(jù)特征屬性提取算法實(shí)現(xiàn)了量化特征直方圖的標(biāo)準(zhǔn)化,在不影響數(shù)據(jù)特征和距離特征檢測(cè)結(jié)果的前提下,分析了網(wǎng)絡(luò)特征的變化、影響范圍和干擾程度,并對(duì)干擾和冗余成分進(jìn)行了去除。在數(shù)據(jù)增強(qiáng)空間較大時(shí),通常需要快速尋找優(yōu)化的任務(wù)分配方法,建立處理集合,減少處理時(shí)間,節(jié)省處理成本。由于網(wǎng)絡(luò)數(shù)據(jù)中心處理大量數(shù)據(jù),所以云數(shù)據(jù)中心需要頻繁地運(yùn)行。為保證跨數(shù)據(jù)中心大數(shù)據(jù)處理的性能和可靠性,提出一種容錯(cuò)調(diào)用策略。具體過程中如下圖所示。