白帆 李雪貞 馬國學等
關鍵詞:數(shù)據(jù)預處理;環(huán)境γ 輻射劑量率;時間序列;特殊數(shù)據(jù)檢測;LSTM
中圖分類號:X830. 3 文獻標識碼:A
輻射環(huán)境質(zhì)量數(shù)據(jù)來源于多種監(jiān)測設備,由環(huán)境γ 輻射劑量率數(shù)據(jù)、氣象數(shù)據(jù)及各類監(jiān)測數(shù)據(jù)等共同組成時序多元數(shù)據(jù)集。這些傳感器連續(xù)數(shù)據(jù)間隔時間短,因此在短期內(nèi)數(shù)據(jù)規(guī)模極大且含有噪音,由于傳統(tǒng)的手工數(shù)據(jù)清洗方法成本高、效率慢,因此基于時間序列的數(shù)據(jù)預處理方法成為研究的熱點。
與此同時,特殊數(shù)據(jù)檢測也是數(shù)據(jù)挖掘的重要部分。特殊數(shù)據(jù)是指與其他數(shù)據(jù)分布有較為顯著不同的數(shù)據(jù)對象,也被稱作離群點,我們通常可以通過檢測離群點得知離群點產(chǎn)生的因素,精確的數(shù)據(jù)可以幫助我們更有效地對特殊數(shù)據(jù)進行檢測及分析,提高檢測效率。
早在19 世紀,統(tǒng)計學家就已經(jīng)對檢測數(shù)據(jù)中的特殊數(shù)據(jù)值展開了研究,并隨著時間的推移,研究出多種基于統(tǒng)計的特殊數(shù)據(jù)檢測技術。常見的有3 倍標準差準則、箱線圖等傳統(tǒng)統(tǒng)計方法,以及由Box 和Jenkins 于20 世紀70 年代初提出的自回歸移動平均模型、由Facebook 提出的Prophet 模型等時間序列預測方法[1] 。隨著機器學習的不斷發(fā)展,許多基于傳統(tǒng)機器學習的方法被提出,例如基于二元線性的支持向量機、基于決策樹的隨機森林、基于距離的K-最近鄰、具有噪聲的基于密度的聚類方法、局部離群因子檢測方法等聚類模型[2] ,Dorothy Denning 在1986年提出了第一個入侵檢測系統(tǒng)的特殊數(shù)據(jù)檢測模型,通過機器學習來進行特殊數(shù)據(jù)檢測的方法被廣泛應用。而當前主流的特殊數(shù)據(jù)檢測算法通?;谏疃葘W習技術,按照使用的監(jiān)督信息可以分為有監(jiān)督方法、無監(jiān)督方法、半監(jiān)督方法。例如自動編碼器、生成式對抗網(wǎng)絡[3] , 長短期記憶網(wǎng)絡[4] (LSTM) 等。有監(jiān)督模型通常根據(jù)現(xiàn)有特殊數(shù)據(jù)標簽學習,對數(shù)據(jù)更為精確地進行預測分類。由于LSTM 具有學習長期依賴關系的能力,可以更好地適應多元時間序列數(shù)據(jù),本文主要探究有監(jiān)督LSTM 的特殊數(shù)據(jù)檢測模型。
本文涉及的數(shù)據(jù)類型包括γ 輻射劑量率數(shù)據(jù)及氣象數(shù)據(jù),以某地區(qū)某時段γ 輻射劑量率的逐時數(shù)據(jù)為例,研究數(shù)據(jù)預處理方法對特殊檢測結果帶來的影響,將詳細介紹使用到的數(shù)據(jù)預處理技術,包括:輻射劑量率數(shù)據(jù)和氣象數(shù)據(jù)的解析、數(shù)據(jù)頻率的轉換、時序數(shù)據(jù)去噪、劑量率數(shù)據(jù)及氣象數(shù)據(jù)的完善、數(shù)據(jù)標準化處理等,并利用基于LSTM 的有監(jiān)督特殊數(shù)據(jù)檢測算法對數(shù)據(jù)預處理的結果從準確率、精確率、召回率、F1-分數(shù)方面進行評估,進一步提升輻射自動監(jiān)測數(shù)據(jù)的篩選與優(yōu)化。
1 數(shù)據(jù)預處理
為確保γ 輻射劑量率數(shù)據(jù)反饋的準確性,更加可靠真實地反應地區(qū)輻射環(huán)境水平,我們從數(shù)據(jù)的分析目標出發(fā),通過探究數(shù)據(jù)分布、應用數(shù)據(jù)去噪、數(shù)據(jù)清洗及數(shù)據(jù)變換等數(shù)據(jù)預處理方法[5-6]消除原始數(shù)據(jù)中可能存在的測量噪聲等造成的誤導監(jiān)測,為最終算法提供優(yōu)質(zhì)數(shù)據(jù),使得其成為使算法發(fā)揮最佳性能的必要部分。
1. 1 數(shù)據(jù)分析
監(jiān)測傳感器數(shù)據(jù)是時間序列數(shù)據(jù)的典型實例。對數(shù)據(jù)進行統(tǒng)計學分析,通過計算平均值、標準差、峰值、偏度等統(tǒng)計值和數(shù)據(jù)正態(tài)分布的擬合情況來了解輻射劑量率數(shù)據(jù)的統(tǒng)計特征及分布狀態(tài),以便于根據(jù)數(shù)據(jù)特性選擇合適的數(shù)據(jù)預處理方法,并分析時間序列數(shù)據(jù)背后隱藏的信息,理解序列模式的行為。
1. 2 數(shù)據(jù)集成
1. 2. 1 合并劑量率數(shù)據(jù)與氣象數(shù)據(jù) 根據(jù)氣象探測器與劑量率探測器地理位置坐標,將同一區(qū)域的氣象監(jiān)測數(shù)據(jù)與劑量率監(jiān)測數(shù)據(jù)對應時間索引相結合,完善數(shù)據(jù),便于結合劑量率與氣象數(shù)據(jù)相關性進行分析及數(shù)據(jù)挖掘。
1. 2. 2 填充時間序列
檢查時序數(shù)據(jù)是否為等間隔數(shù)據(jù),依據(jù)原始數(shù)據(jù)時間索引間隔(30 s) 填充時間戳,缺失數(shù)據(jù)用空值暫時填充,刪除重復時間戳。
1. 3 數(shù)據(jù)清洗
1. 3. 1 改變變量類型
時間序列是一組按照時間發(fā)生先后順序進行排列的數(shù)據(jù)點序列。本文所處理的數(shù)據(jù)均基于時間序列,這里將原始數(shù)據(jù)索引規(guī)范為時間序列,并對變量(劑量率、電池電壓、γ 輻射監(jiān)測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨) 的數(shù)據(jù)類型進行轉換,其中濕度與風向屬于離散變量、感雨為分類變量(二值變量)、其他均為連續(xù)變量,為便于對數(shù)據(jù)進行分析及后續(xù)檢測工作,統(tǒng)一轉換為浮點數(shù)。
1. 3. 2 規(guī)定數(shù)據(jù)范圍
本文所使用到的數(shù)據(jù)集為輻射劑量率數(shù)據(jù)與對應同步時間的氣象數(shù)據(jù),由于人為因素及自然因素均會引起劑量率數(shù)值的變化,因此在對于劑量率變化的分析研究中,可以將監(jiān)測器數(shù)據(jù)及氣象數(shù)據(jù)視作變量,即電池電壓、γ 輻射監(jiān)測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨等。由于來源不同,因此獲取的時間無法簡單地同步,數(shù)據(jù)中可能會存在數(shù)據(jù)范圍不統(tǒng)一、數(shù)據(jù)存在少量缺失值等問題。因此,針對變量單位不統(tǒng)一造成的數(shù)值范圍不統(tǒng)一,需要依具數(shù)據(jù)變量的固定單位,對數(shù)據(jù)的數(shù)值范圍進行調(diào)整。
1. 3. 3 數(shù)據(jù)去噪
時間序列本身具有非線性和信噪比高的特點,采用傳統(tǒng)的高斯去噪、中值濾波等方法往往存在諸多缺陷。由于離散小波變換(DWT)在高頻信號降噪方面的應用廣泛,因此通常采用離散小波變換,選擇緊支撐、具有對稱性、與信號波形相似的小波對時序數(shù)據(jù)進行降噪[7] 。離散小波變換公式如下[8] :
式中, α 代表比例因子, β 代表定位因子, e(λ) 為連續(xù)時間信號并非離散信號。根據(jù)設定閾值,保留大于閾值的系數(shù),再進行反向離散小波變換來重建信號,獲得降噪后的信號。
1. 3. 4 數(shù)據(jù)缺失值處理
根據(jù)本文實驗數(shù)據(jù)集的特性,對于部分相關性不強以及無關的特征值列,為保證分析的準確性,可以通過刪除法將其去除。對于剩余特征值的行缺失數(shù)據(jù),若通過刪除缺失值的方式對缺失值進行處理,對原始數(shù)據(jù)的子集進行挖掘,很可能造成分析結果由于基于局部產(chǎn)生偏差。因此,我們主要采用基于填充技術的插補法,避免了刪除法的弊端,使得數(shù)據(jù)集中的重要信息得以保留。為保證插補值的準確性,從缺失數(shù)據(jù)時間間隔的限制、變量自身特性、變量間的相關性以及與時間序列的關系等不同方面出發(fā),對行缺失數(shù)據(jù)進行填補。主要變量類型可分為以下三種:
(1)輻射劑量率數(shù)據(jù):由于輻射劑量率與其他變量間存在關系,且與時序變動有很強的趨勢,因此我們可以優(yōu)先采用冷卡填充的方法,選擇與缺失對象特征最為相似的第一個對象并進行填充,即在所有樣本中測量不同特征值之間的歐式距離進行分類,選擇與待填充樣本在特征空間中的1個最近鄰,再對剩余劑量率數(shù)據(jù)采用線性插值法進行填充。
(2)監(jiān)測器數(shù)據(jù):監(jiān)測器數(shù)據(jù)由γ 輻射監(jiān)測儀高壓及電池電壓組成。由于監(jiān)測器數(shù)據(jù)與其他變量相關性較弱,因此基于電壓本身隨時間變化的特性,我們根據(jù)缺失時間點前后時段相鄰最近的數(shù)據(jù),采用線性插值法對缺失時間點處的γ 輻射監(jiān)測儀高壓及電池電壓進行填充。
(3) 氣象數(shù)據(jù):氣象數(shù)據(jù)由溫度、氣壓、濕度、雨量、感雨、風向、風速組成。由于變量間相關性較強,且隨時間波動,我們采用時序中最基本的就近插補法,替換缺失值為缺失時間點之前或之后最近的觀測值,對溫度、氣壓、濕度、雨量、感雨、風向、風速進行填充,再對剩余氣象數(shù)據(jù)采用線性插值法進行填充。
1. 4 數(shù)據(jù)變換
為了解決可能存在的站點數(shù)據(jù)采樣周期不統(tǒng)一、采樣周期過小而導致數(shù)據(jù)量巨大、采樣周期過大而研究過程需要更小采樣周期等問題,須依具研究需求將數(shù)據(jù)變頻為高級別或低級別周期,即降采樣或增采樣。為了控制數(shù)據(jù)規(guī)模,降低模型訓練開銷,提高運算效率,通常選用降采樣的方式。一般情況下降采樣有最大值采樣、平均值采樣和區(qū)域采樣及隨其區(qū)域采樣等。我們通過對比30 秒頻率數(shù)據(jù)采用平均值求采及最大值求采至5分鐘頻率數(shù)據(jù)后輻射劑量率的數(shù)據(jù)變化曲線,發(fā)現(xiàn)若劃分5 分鐘長度時間窗口進行數(shù)據(jù)平均會造成單點極大值在臨近時間段的平均,降低數(shù)據(jù)的明顯差異,因此,我們需要采用劃分5 分鐘長度時間窗口進行數(shù)據(jù)最大值的采樣方法以保證檢測長時間段內(nèi)持續(xù)的特殊情況。
1. 5 數(shù)據(jù)轉換
由于不同變量的評價指標不同,具有不同的量綱,數(shù)據(jù)數(shù)值間的差別可能很大,為了消除指標之間的量綱和取值范圍差異對數(shù)據(jù)分析結果的影響,需要對數(shù)據(jù)進行標準化處理,即將數(shù)據(jù)按照比例縮放,使之落入一個特定的區(qū)間,以便于后期對數(shù)據(jù)的分析及處理。根據(jù)算法及模型的選擇,通常我們需要在數(shù)據(jù)預處理中或者模型中選擇不同標準化方法對數(shù)據(jù)進行標準化處理。常用的標準化方法主要有離差標準化,z-score 標準化等。
2 特殊數(shù)據(jù)檢測
LSTM 是一種特殊的遞歸神經(jīng)網(wǎng)絡[9] ,由于具有長期學習依賴關系的能力,非常適合預測時間序列數(shù)據(jù),也常被用于監(jiān)測變量集體水平上的特殊數(shù)據(jù)檢測。LSTM 通過對訓練集數(shù)據(jù)進行訓練,按照固定時間步長生成預測器,來預測下一時間點的輻射劑量率特征,對預測誤差信號的分布概率進行估計,選取閾值,按照預測誤差區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù)[10] 。
如圖1 所示,LSTM 架構由LSTM 單元組成,每個LSTM 單元包含輸入節(jié)點、輸出節(jié)點及由許多智能節(jié)點組成的隱藏層。A 代表一個完整的LSTM 單元,接受序列當前時間節(jié)點的輸入向量xt ,輸出當前隱藏狀態(tài)向量ht , 并傳遞至下一單元[11] 。
每個LSTM 單元包含三個門,即遺忘門、輸入門和輸出門。這些門使 LSTM 網(wǎng)絡能夠不斷地重置、寫入和讀取單元格,可被表示為式(4):
3 性能評估指標
為了評估特殊數(shù)據(jù)檢測算法的性能,我們以算法檢測出來的正確樣本為主,平衡正負樣本關系,主要評估算法的準確率、精確率和召回率以及F1 分數(shù)。TP (True Positive) 表示真正樣本數(shù),TN(True Negative ) 表示真負樣本數(shù), FP ( FalsePositive)表示假正樣本數(shù),F(xiàn)N (False Negative) 表示假負樣本數(shù)[8] 。
準確率(Accuracy) 是最為常見及直觀的評價指標,是全部樣本中被預測正確的樣本概率,對全部正負樣本結果中的預測準確程度,表達式為式(5):
4 實驗結果及評估
4. 1 數(shù)據(jù)集簡介
本文所用到的輻射劑量率及相關監(jiān)測數(shù)據(jù)均由監(jiān)測站點提供,所有站點均布設輻射劑量率連續(xù)監(jiān)測設備及微型氣象站,提供γ 輻射劑量率數(shù)據(jù)及風向、風速、溫度、濕度、氣壓、雨量和感雨等氣象數(shù)據(jù)。數(shù)據(jù)時間范圍為2019 年1 月1 日0 時到2020 年1 月1 日0 時。另外,在特殊數(shù)據(jù)檢測實驗中,用到的測試數(shù)據(jù)來源于A 站帶人工標注標簽數(shù)據(jù),數(shù)據(jù)時間范圍為2019 年1 月1 日0 時到2021 年1 月1 日0 時。
由于監(jiān)測站點間地理位置差距較大,各監(jiān)測站點本底劑量率數(shù)據(jù)存在明顯差異,某時段逐時輻射劑量率如圖2 所示。因此本論文對不同站點的數(shù)據(jù)分布狀態(tài)及數(shù)據(jù)情況進行了統(tǒng)計分析,表1為其中5 個監(jiān)測站點輻射劑量率的分布情況,從中可以看出各站輻射劑量率監(jiān)測數(shù)據(jù)偏度均大于1. 5,分布不對稱、形態(tài)偏斜、高峰陡峭,呈偏態(tài)分布。其中B 站輻射劑量率統(tǒng)計分布示例如圖3所示。
4. 2 數(shù)據(jù)降噪結果
小波分析庫PyWavelets 提供了眾多可供選擇的小波族, 例如Haar ( haar)、Daubechies ( db)、Symlets (sym)、Coiflets (coif)、Biorthogonal (bior)等。每個小波族下有不同的系數(shù),共127 個小波基函數(shù)。其中多貝西小波(Daubechies Wavelet)是最常使用到的小波轉換,主要應用在離散型的小波轉換,通常使用在信號分析、信號壓縮跟噪聲去除。為保證通過離散小波變換(DWT)后的去噪結果仍保留原始時序數(shù)據(jù)的規(guī)律性等特性以及特殊數(shù)據(jù)的突出部分,我們選用db38 的結果進行去噪。圖4 展示出A 站某時段進行離散小波變換降噪后的劑量率變化與原始時序數(shù)據(jù)對比??梢钥吹?,經(jīng)過降噪后的劑量率變化曲線變得更為平滑,噪聲數(shù)據(jù)減少,可以更加明顯地區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù),進而有效地避免了噪聲數(shù)據(jù)對特殊數(shù)據(jù)檢測效果的影響。
4. 3 實驗設置
在特殊數(shù)據(jù)檢測模型建模時使用A 站2019—2020 年帶人工標注標簽數(shù)據(jù)集(正常數(shù)據(jù)標簽為0,特殊數(shù)據(jù)標簽為1),按照0. 7、0. 15、0. 15 的比例將數(shù)據(jù)集隨機劃分為獨立的訓練集、測試集、驗證集。利用訓練集與驗證集建立模型并優(yōu)化,通過測試集預測標簽結果與實際標簽從準確率、精確率、召回率、F1-分數(shù)方面進行評估。
LSTM 模型輸入數(shù)據(jù)為Z-score 標準化變換后的數(shù)據(jù),輸入維度為:(樣本數(shù)量,時間步長,特征數(shù)量),將每個時間點的輸入當作該點數(shù)據(jù)全部特征的集合,即7 維向量,包含劑量率值、氣壓值、溫度值、濕度值、雨量值、風向值、風速值;時間步長設置為1,表示每個時間點的結果由前1 個時間點來進行預測。因此,模型的輸入維度為:(樣本數(shù)量,1,7)。
LSTM 模型激活函數(shù)為tanh,循環(huán)激活函數(shù)為sigmoid。通過RMSprop 優(yōu)化器進行模型優(yōu)化。為了讓模型可以快速收斂到最優(yōu)解,且在訓練后期更加穩(wěn)定,采用動態(tài)學習率在學習中進行調(diào)整。初始學習率設置為0. 1,當評價指標F1-分數(shù)在連續(xù)10 個epoch 后不再提升時,則減少學習率至原學習率的0. 1 倍, 直到學習率降低到最小值0. 001。
基于A 站預處理后帶標簽的數(shù)據(jù)訓練模型,通過網(wǎng)格搜索對RMSprop 學習效率等模型參數(shù)進行選擇。在實驗過程中,我們對模型的超參數(shù)進行調(diào)優(yōu),選擇隱藏層大小為256,設置batch 尺寸為128,epoch 數(shù)量為50。在模型對訓練數(shù)據(jù)進行訓練過程中,對每個epoch 通過F1-分數(shù)來評估模型在訓練集和驗證集上的性能,如圖5 所示。對訓練好的模型通過準確率、精確率、召回率、F1-分數(shù)來對模型進行評估。并且進行更精細的調(diào)優(yōu),例如嘗試不同數(shù)量的LSTM 隱藏單元等方法,進一步提高模型的檢測性能。
4. 4 性能評估
A 站2019 年某時段及該時段部分放大輻射劑量率數(shù)據(jù)預處理可視化如圖6 所示,可以看到,預處理后的數(shù)據(jù)對缺失數(shù)據(jù)進行了有效填充,且保留了原頻率時序數(shù)據(jù)波動特征,平滑了劑量率時間序列曲線。
同時,基于A 站2019—2020 年帶人工標注標簽數(shù)據(jù),我們通過對特殊數(shù)據(jù)算法的評估,研究數(shù)據(jù)預處理步驟對基于LSTM 特殊數(shù)據(jù)檢測算法性能的影響,實驗結果列于表2。該表為LSTM 二分類模型5 次運行結果的平均表現(xiàn),通過表2 可以得出,原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)變換后,應用LSTM 模型后的準確率、精確率、召回率及F1-分數(shù)均存在提升,其中精確率、召回率與F1-分數(shù)提升幅度較大, 分別提高了58. 8%、237. 3%、176. 6%。
為了進一步探究數(shù)據(jù)預處理是否會對特殊數(shù)據(jù)的預警產(chǎn)生影響,實驗將原始數(shù)據(jù)及預處理后數(shù)據(jù)分別通過檢測模型,對比得到的特殊數(shù)據(jù)與實際人工標注的特殊數(shù)據(jù),并基于時間序列繪制經(jīng)模型檢測出的輻射劑量率特殊數(shù)據(jù)散點圖,如圖7 所示。圖中,以測試集中人工標注的特殊數(shù)據(jù)為標準,對模型檢測出的特殊數(shù)據(jù)與人工標注的特殊數(shù)據(jù)重合點比例進行放大,可以更直觀的展示出,經(jīng)預處理后的數(shù)據(jù)相較于原數(shù)據(jù)帶入模型后,檢測出的正確特殊數(shù)據(jù)更多,更為精確。我們不失一般性地選取一組不同輸入的模型檢測結果(即測試集的原數(shù)據(jù)與預處理數(shù)據(jù)分別輸入模型后檢測出的特殊數(shù)據(jù)),并將它們與測試集中的人工標注特殊數(shù)據(jù)進行比較,檢測出的特殊數(shù)據(jù)關系如圖8 韋恩圖所示。在測試集30 711 條數(shù)據(jù)中,人工標注的特殊數(shù)據(jù)數(shù)量為3 967 條,原數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)數(shù)量為2 338 條,正確檢測出特殊數(shù)據(jù)共1 140 條,精確率為28. 74%,召回率為48. 76%;預處理數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)數(shù)量為4 329 條,正確檢測出特殊數(shù)據(jù)共2 492 條,精確率為62. 82%,召回率為57. 57%,明顯優(yōu)于原數(shù)據(jù)作為模型輸入數(shù)據(jù)得到的檢測結果, 通過評估此組模型不同輸入的檢測結果,可以看出經(jīng)預處理后的數(shù)據(jù)更適合作為檢測模型的輸入數(shù)據(jù),檢測效果更好。另外,預處理數(shù)據(jù)與原數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)重合率占原數(shù)據(jù)檢測結果的64. 97%,其中88. 51%為正確檢測出的特殊數(shù)據(jù),表明數(shù)據(jù)預處理并不會降低預警的靈敏度。因此,我們得出結論,數(shù)據(jù)預處理可以有效地提高數(shù)據(jù)質(zhì)量,且數(shù)據(jù)預處理并不會對特殊數(shù)據(jù)的預警產(chǎn)生影響。
5 結論
本文介紹了基于時間序列分析的數(shù)據(jù)預處理步驟,包括數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)清洗、數(shù)據(jù)變換及轉換處理,并對環(huán)境輻射劑量率數(shù)據(jù)集進行了數(shù)據(jù)預處理及特殊數(shù)據(jù)檢測實驗研究,通過無預處理的原始數(shù)據(jù)及預處理后的輻射劑量率特殊數(shù)據(jù)檢測結果進行評估,結果表明,經(jīng)過預處理后的數(shù)據(jù)應用于LSTM 特殊數(shù)據(jù)檢測模型后,在準確率、精確率、召回率及F1-分數(shù)方面都有所提高,這說明應用適當?shù)念A處理可以有效提高特殊數(shù)據(jù)檢測結果及數(shù)據(jù)質(zhì)量,為后續(xù)數(shù)據(jù)挖掘及特殊數(shù)據(jù)分析提供有力幫助。在后續(xù)研究中,我們可以通過多個方面對數(shù)據(jù)預處理方法進行優(yōu)化,其中,對缺失值的處理是影響數(shù)據(jù)預處理效果的重要部分,我們可以根據(jù)經(jīng)驗及多次實驗增加更為細化的填充規(guī)則,例如,設置更為準確的缺失值填充方法的時間間隔限制,采用不同的機器學習及時間序列預測方法等。