• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時間序列分析的環(huán)境γ輻射劑量率數(shù)據(jù)預處理方法研究及評估

      2023-04-29 00:44:03白帆李雪貞馬國學等
      輻射防護 2023年2期
      關鍵詞:數(shù)據(jù)預處理時間序列環(huán)境

      白帆 李雪貞 馬國學等

      關鍵詞:數(shù)據(jù)預處理;環(huán)境γ 輻射劑量率;時間序列;特殊數(shù)據(jù)檢測;LSTM

      中圖分類號:X830. 3 文獻標識碼:A

      輻射環(huán)境質(zhì)量數(shù)據(jù)來源于多種監(jiān)測設備,由環(huán)境γ 輻射劑量率數(shù)據(jù)、氣象數(shù)據(jù)及各類監(jiān)測數(shù)據(jù)等共同組成時序多元數(shù)據(jù)集。這些傳感器連續(xù)數(shù)據(jù)間隔時間短,因此在短期內(nèi)數(shù)據(jù)規(guī)模極大且含有噪音,由于傳統(tǒng)的手工數(shù)據(jù)清洗方法成本高、效率慢,因此基于時間序列的數(shù)據(jù)預處理方法成為研究的熱點。

      與此同時,特殊數(shù)據(jù)檢測也是數(shù)據(jù)挖掘的重要部分。特殊數(shù)據(jù)是指與其他數(shù)據(jù)分布有較為顯著不同的數(shù)據(jù)對象,也被稱作離群點,我們通常可以通過檢測離群點得知離群點產(chǎn)生的因素,精確的數(shù)據(jù)可以幫助我們更有效地對特殊數(shù)據(jù)進行檢測及分析,提高檢測效率。

      早在19 世紀,統(tǒng)計學家就已經(jīng)對檢測數(shù)據(jù)中的特殊數(shù)據(jù)值展開了研究,并隨著時間的推移,研究出多種基于統(tǒng)計的特殊數(shù)據(jù)檢測技術。常見的有3 倍標準差準則、箱線圖等傳統(tǒng)統(tǒng)計方法,以及由Box 和Jenkins 于20 世紀70 年代初提出的自回歸移動平均模型、由Facebook 提出的Prophet 模型等時間序列預測方法[1] 。隨著機器學習的不斷發(fā)展,許多基于傳統(tǒng)機器學習的方法被提出,例如基于二元線性的支持向量機、基于決策樹的隨機森林、基于距離的K-最近鄰、具有噪聲的基于密度的聚類方法、局部離群因子檢測方法等聚類模型[2] ,Dorothy Denning 在1986年提出了第一個入侵檢測系統(tǒng)的特殊數(shù)據(jù)檢測模型,通過機器學習來進行特殊數(shù)據(jù)檢測的方法被廣泛應用。而當前主流的特殊數(shù)據(jù)檢測算法通?;谏疃葘W習技術,按照使用的監(jiān)督信息可以分為有監(jiān)督方法、無監(jiān)督方法、半監(jiān)督方法。例如自動編碼器、生成式對抗網(wǎng)絡[3] , 長短期記憶網(wǎng)絡[4] (LSTM) 等。有監(jiān)督模型通常根據(jù)現(xiàn)有特殊數(shù)據(jù)標簽學習,對數(shù)據(jù)更為精確地進行預測分類。由于LSTM 具有學習長期依賴關系的能力,可以更好地適應多元時間序列數(shù)據(jù),本文主要探究有監(jiān)督LSTM 的特殊數(shù)據(jù)檢測模型。

      本文涉及的數(shù)據(jù)類型包括γ 輻射劑量率數(shù)據(jù)及氣象數(shù)據(jù),以某地區(qū)某時段γ 輻射劑量率的逐時數(shù)據(jù)為例,研究數(shù)據(jù)預處理方法對特殊檢測結果帶來的影響,將詳細介紹使用到的數(shù)據(jù)預處理技術,包括:輻射劑量率數(shù)據(jù)和氣象數(shù)據(jù)的解析、數(shù)據(jù)頻率的轉換、時序數(shù)據(jù)去噪、劑量率數(shù)據(jù)及氣象數(shù)據(jù)的完善、數(shù)據(jù)標準化處理等,并利用基于LSTM 的有監(jiān)督特殊數(shù)據(jù)檢測算法對數(shù)據(jù)預處理的結果從準確率、精確率、召回率、F1-分數(shù)方面進行評估,進一步提升輻射自動監(jiān)測數(shù)據(jù)的篩選與優(yōu)化。

      1 數(shù)據(jù)預處理

      為確保γ 輻射劑量率數(shù)據(jù)反饋的準確性,更加可靠真實地反應地區(qū)輻射環(huán)境水平,我們從數(shù)據(jù)的分析目標出發(fā),通過探究數(shù)據(jù)分布、應用數(shù)據(jù)去噪、數(shù)據(jù)清洗及數(shù)據(jù)變換等數(shù)據(jù)預處理方法[5-6]消除原始數(shù)據(jù)中可能存在的測量噪聲等造成的誤導監(jiān)測,為最終算法提供優(yōu)質(zhì)數(shù)據(jù),使得其成為使算法發(fā)揮最佳性能的必要部分。

      1. 1 數(shù)據(jù)分析

      監(jiān)測傳感器數(shù)據(jù)是時間序列數(shù)據(jù)的典型實例。對數(shù)據(jù)進行統(tǒng)計學分析,通過計算平均值、標準差、峰值、偏度等統(tǒng)計值和數(shù)據(jù)正態(tài)分布的擬合情況來了解輻射劑量率數(shù)據(jù)的統(tǒng)計特征及分布狀態(tài),以便于根據(jù)數(shù)據(jù)特性選擇合適的數(shù)據(jù)預處理方法,并分析時間序列數(shù)據(jù)背后隱藏的信息,理解序列模式的行為。

      1. 2 數(shù)據(jù)集成

      1. 2. 1 合并劑量率數(shù)據(jù)與氣象數(shù)據(jù) 根據(jù)氣象探測器與劑量率探測器地理位置坐標,將同一區(qū)域的氣象監(jiān)測數(shù)據(jù)與劑量率監(jiān)測數(shù)據(jù)對應時間索引相結合,完善數(shù)據(jù),便于結合劑量率與氣象數(shù)據(jù)相關性進行分析及數(shù)據(jù)挖掘。

      1. 2. 2 填充時間序列

      檢查時序數(shù)據(jù)是否為等間隔數(shù)據(jù),依據(jù)原始數(shù)據(jù)時間索引間隔(30 s) 填充時間戳,缺失數(shù)據(jù)用空值暫時填充,刪除重復時間戳。

      1. 3 數(shù)據(jù)清洗

      1. 3. 1 改變變量類型

      時間序列是一組按照時間發(fā)生先后順序進行排列的數(shù)據(jù)點序列。本文所處理的數(shù)據(jù)均基于時間序列,這里將原始數(shù)據(jù)索引規(guī)范為時間序列,并對變量(劑量率、電池電壓、γ 輻射監(jiān)測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨) 的數(shù)據(jù)類型進行轉換,其中濕度與風向屬于離散變量、感雨為分類變量(二值變量)、其他均為連續(xù)變量,為便于對數(shù)據(jù)進行分析及后續(xù)檢測工作,統(tǒng)一轉換為浮點數(shù)。

      1. 3. 2 規(guī)定數(shù)據(jù)范圍

      本文所使用到的數(shù)據(jù)集為輻射劑量率數(shù)據(jù)與對應同步時間的氣象數(shù)據(jù),由于人為因素及自然因素均會引起劑量率數(shù)值的變化,因此在對于劑量率變化的分析研究中,可以將監(jiān)測器數(shù)據(jù)及氣象數(shù)據(jù)視作變量,即電池電壓、γ 輻射監(jiān)測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨等。由于來源不同,因此獲取的時間無法簡單地同步,數(shù)據(jù)中可能會存在數(shù)據(jù)范圍不統(tǒng)一、數(shù)據(jù)存在少量缺失值等問題。因此,針對變量單位不統(tǒng)一造成的數(shù)值范圍不統(tǒng)一,需要依具數(shù)據(jù)變量的固定單位,對數(shù)據(jù)的數(shù)值范圍進行調(diào)整。

      1. 3. 3 數(shù)據(jù)去噪

      時間序列本身具有非線性和信噪比高的特點,采用傳統(tǒng)的高斯去噪、中值濾波等方法往往存在諸多缺陷。由于離散小波變換(DWT)在高頻信號降噪方面的應用廣泛,因此通常采用離散小波變換,選擇緊支撐、具有對稱性、與信號波形相似的小波對時序數(shù)據(jù)進行降噪[7] 。離散小波變換公式如下[8] :

      式中, α 代表比例因子, β 代表定位因子, e(λ) 為連續(xù)時間信號并非離散信號。根據(jù)設定閾值,保留大于閾值的系數(shù),再進行反向離散小波變換來重建信號,獲得降噪后的信號。

      1. 3. 4 數(shù)據(jù)缺失值處理

      根據(jù)本文實驗數(shù)據(jù)集的特性,對于部分相關性不強以及無關的特征值列,為保證分析的準確性,可以通過刪除法將其去除。對于剩余特征值的行缺失數(shù)據(jù),若通過刪除缺失值的方式對缺失值進行處理,對原始數(shù)據(jù)的子集進行挖掘,很可能造成分析結果由于基于局部產(chǎn)生偏差。因此,我們主要采用基于填充技術的插補法,避免了刪除法的弊端,使得數(shù)據(jù)集中的重要信息得以保留。為保證插補值的準確性,從缺失數(shù)據(jù)時間間隔的限制、變量自身特性、變量間的相關性以及與時間序列的關系等不同方面出發(fā),對行缺失數(shù)據(jù)進行填補。主要變量類型可分為以下三種:

      (1)輻射劑量率數(shù)據(jù):由于輻射劑量率與其他變量間存在關系,且與時序變動有很強的趨勢,因此我們可以優(yōu)先采用冷卡填充的方法,選擇與缺失對象特征最為相似的第一個對象并進行填充,即在所有樣本中測量不同特征值之間的歐式距離進行分類,選擇與待填充樣本在特征空間中的1個最近鄰,再對剩余劑量率數(shù)據(jù)采用線性插值法進行填充。

      (2)監(jiān)測器數(shù)據(jù):監(jiān)測器數(shù)據(jù)由γ 輻射監(jiān)測儀高壓及電池電壓組成。由于監(jiān)測器數(shù)據(jù)與其他變量相關性較弱,因此基于電壓本身隨時間變化的特性,我們根據(jù)缺失時間點前后時段相鄰最近的數(shù)據(jù),采用線性插值法對缺失時間點處的γ 輻射監(jiān)測儀高壓及電池電壓進行填充。

      (3) 氣象數(shù)據(jù):氣象數(shù)據(jù)由溫度、氣壓、濕度、雨量、感雨、風向、風速組成。由于變量間相關性較強,且隨時間波動,我們采用時序中最基本的就近插補法,替換缺失值為缺失時間點之前或之后最近的觀測值,對溫度、氣壓、濕度、雨量、感雨、風向、風速進行填充,再對剩余氣象數(shù)據(jù)采用線性插值法進行填充。

      1. 4 數(shù)據(jù)變換

      為了解決可能存在的站點數(shù)據(jù)采樣周期不統(tǒng)一、采樣周期過小而導致數(shù)據(jù)量巨大、采樣周期過大而研究過程需要更小采樣周期等問題,須依具研究需求將數(shù)據(jù)變頻為高級別或低級別周期,即降采樣或增采樣。為了控制數(shù)據(jù)規(guī)模,降低模型訓練開銷,提高運算效率,通常選用降采樣的方式。一般情況下降采樣有最大值采樣、平均值采樣和區(qū)域采樣及隨其區(qū)域采樣等。我們通過對比30 秒頻率數(shù)據(jù)采用平均值求采及最大值求采至5分鐘頻率數(shù)據(jù)后輻射劑量率的數(shù)據(jù)變化曲線,發(fā)現(xiàn)若劃分5 分鐘長度時間窗口進行數(shù)據(jù)平均會造成單點極大值在臨近時間段的平均,降低數(shù)據(jù)的明顯差異,因此,我們需要采用劃分5 分鐘長度時間窗口進行數(shù)據(jù)最大值的采樣方法以保證檢測長時間段內(nèi)持續(xù)的特殊情況。

      1. 5 數(shù)據(jù)轉換

      由于不同變量的評價指標不同,具有不同的量綱,數(shù)據(jù)數(shù)值間的差別可能很大,為了消除指標之間的量綱和取值范圍差異對數(shù)據(jù)分析結果的影響,需要對數(shù)據(jù)進行標準化處理,即將數(shù)據(jù)按照比例縮放,使之落入一個特定的區(qū)間,以便于后期對數(shù)據(jù)的分析及處理。根據(jù)算法及模型的選擇,通常我們需要在數(shù)據(jù)預處理中或者模型中選擇不同標準化方法對數(shù)據(jù)進行標準化處理。常用的標準化方法主要有離差標準化,z-score 標準化等。

      2 特殊數(shù)據(jù)檢測

      LSTM 是一種特殊的遞歸神經(jīng)網(wǎng)絡[9] ,由于具有長期學習依賴關系的能力,非常適合預測時間序列數(shù)據(jù),也常被用于監(jiān)測變量集體水平上的特殊數(shù)據(jù)檢測。LSTM 通過對訓練集數(shù)據(jù)進行訓練,按照固定時間步長生成預測器,來預測下一時間點的輻射劑量率特征,對預測誤差信號的分布概率進行估計,選取閾值,按照預測誤差區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù)[10] 。

      如圖1 所示,LSTM 架構由LSTM 單元組成,每個LSTM 單元包含輸入節(jié)點、輸出節(jié)點及由許多智能節(jié)點組成的隱藏層。A 代表一個完整的LSTM 單元,接受序列當前時間節(jié)點的輸入向量xt ,輸出當前隱藏狀態(tài)向量ht , 并傳遞至下一單元[11] 。

      每個LSTM 單元包含三個門,即遺忘門、輸入門和輸出門。這些門使 LSTM 網(wǎng)絡能夠不斷地重置、寫入和讀取單元格,可被表示為式(4):

      3 性能評估指標

      為了評估特殊數(shù)據(jù)檢測算法的性能,我們以算法檢測出來的正確樣本為主,平衡正負樣本關系,主要評估算法的準確率、精確率和召回率以及F1 分數(shù)。TP (True Positive) 表示真正樣本數(shù),TN(True Negative ) 表示真負樣本數(shù), FP ( FalsePositive)表示假正樣本數(shù),F(xiàn)N (False Negative) 表示假負樣本數(shù)[8] 。

      準確率(Accuracy) 是最為常見及直觀的評價指標,是全部樣本中被預測正確的樣本概率,對全部正負樣本結果中的預測準確程度,表達式為式(5):

      4 實驗結果及評估

      4. 1 數(shù)據(jù)集簡介

      本文所用到的輻射劑量率及相關監(jiān)測數(shù)據(jù)均由監(jiān)測站點提供,所有站點均布設輻射劑量率連續(xù)監(jiān)測設備及微型氣象站,提供γ 輻射劑量率數(shù)據(jù)及風向、風速、溫度、濕度、氣壓、雨量和感雨等氣象數(shù)據(jù)。數(shù)據(jù)時間范圍為2019 年1 月1 日0 時到2020 年1 月1 日0 時。另外,在特殊數(shù)據(jù)檢測實驗中,用到的測試數(shù)據(jù)來源于A 站帶人工標注標簽數(shù)據(jù),數(shù)據(jù)時間范圍為2019 年1 月1 日0 時到2021 年1 月1 日0 時。

      由于監(jiān)測站點間地理位置差距較大,各監(jiān)測站點本底劑量率數(shù)據(jù)存在明顯差異,某時段逐時輻射劑量率如圖2 所示。因此本論文對不同站點的數(shù)據(jù)分布狀態(tài)及數(shù)據(jù)情況進行了統(tǒng)計分析,表1為其中5 個監(jiān)測站點輻射劑量率的分布情況,從中可以看出各站輻射劑量率監(jiān)測數(shù)據(jù)偏度均大于1. 5,分布不對稱、形態(tài)偏斜、高峰陡峭,呈偏態(tài)分布。其中B 站輻射劑量率統(tǒng)計分布示例如圖3所示。

      4. 2 數(shù)據(jù)降噪結果

      小波分析庫PyWavelets 提供了眾多可供選擇的小波族, 例如Haar ( haar)、Daubechies ( db)、Symlets (sym)、Coiflets (coif)、Biorthogonal (bior)等。每個小波族下有不同的系數(shù),共127 個小波基函數(shù)。其中多貝西小波(Daubechies Wavelet)是最常使用到的小波轉換,主要應用在離散型的小波轉換,通常使用在信號分析、信號壓縮跟噪聲去除。為保證通過離散小波變換(DWT)后的去噪結果仍保留原始時序數(shù)據(jù)的規(guī)律性等特性以及特殊數(shù)據(jù)的突出部分,我們選用db38 的結果進行去噪。圖4 展示出A 站某時段進行離散小波變換降噪后的劑量率變化與原始時序數(shù)據(jù)對比??梢钥吹?,經(jīng)過降噪后的劑量率變化曲線變得更為平滑,噪聲數(shù)據(jù)減少,可以更加明顯地區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù),進而有效地避免了噪聲數(shù)據(jù)對特殊數(shù)據(jù)檢測效果的影響。

      4. 3 實驗設置

      在特殊數(shù)據(jù)檢測模型建模時使用A 站2019—2020 年帶人工標注標簽數(shù)據(jù)集(正常數(shù)據(jù)標簽為0,特殊數(shù)據(jù)標簽為1),按照0. 7、0. 15、0. 15 的比例將數(shù)據(jù)集隨機劃分為獨立的訓練集、測試集、驗證集。利用訓練集與驗證集建立模型并優(yōu)化,通過測試集預測標簽結果與實際標簽從準確率、精確率、召回率、F1-分數(shù)方面進行評估。

      LSTM 模型輸入數(shù)據(jù)為Z-score 標準化變換后的數(shù)據(jù),輸入維度為:(樣本數(shù)量,時間步長,特征數(shù)量),將每個時間點的輸入當作該點數(shù)據(jù)全部特征的集合,即7 維向量,包含劑量率值、氣壓值、溫度值、濕度值、雨量值、風向值、風速值;時間步長設置為1,表示每個時間點的結果由前1 個時間點來進行預測。因此,模型的輸入維度為:(樣本數(shù)量,1,7)。

      LSTM 模型激活函數(shù)為tanh,循環(huán)激活函數(shù)為sigmoid。通過RMSprop 優(yōu)化器進行模型優(yōu)化。為了讓模型可以快速收斂到最優(yōu)解,且在訓練后期更加穩(wěn)定,采用動態(tài)學習率在學習中進行調(diào)整。初始學習率設置為0. 1,當評價指標F1-分數(shù)在連續(xù)10 個epoch 后不再提升時,則減少學習率至原學習率的0. 1 倍, 直到學習率降低到最小值0. 001。

      基于A 站預處理后帶標簽的數(shù)據(jù)訓練模型,通過網(wǎng)格搜索對RMSprop 學習效率等模型參數(shù)進行選擇。在實驗過程中,我們對模型的超參數(shù)進行調(diào)優(yōu),選擇隱藏層大小為256,設置batch 尺寸為128,epoch 數(shù)量為50。在模型對訓練數(shù)據(jù)進行訓練過程中,對每個epoch 通過F1-分數(shù)來評估模型在訓練集和驗證集上的性能,如圖5 所示。對訓練好的模型通過準確率、精確率、召回率、F1-分數(shù)來對模型進行評估。并且進行更精細的調(diào)優(yōu),例如嘗試不同數(shù)量的LSTM 隱藏單元等方法,進一步提高模型的檢測性能。

      4. 4 性能評估

      A 站2019 年某時段及該時段部分放大輻射劑量率數(shù)據(jù)預處理可視化如圖6 所示,可以看到,預處理后的數(shù)據(jù)對缺失數(shù)據(jù)進行了有效填充,且保留了原頻率時序數(shù)據(jù)波動特征,平滑了劑量率時間序列曲線。

      同時,基于A 站2019—2020 年帶人工標注標簽數(shù)據(jù),我們通過對特殊數(shù)據(jù)算法的評估,研究數(shù)據(jù)預處理步驟對基于LSTM 特殊數(shù)據(jù)檢測算法性能的影響,實驗結果列于表2。該表為LSTM 二分類模型5 次運行結果的平均表現(xiàn),通過表2 可以得出,原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)變換后,應用LSTM 模型后的準確率、精確率、召回率及F1-分數(shù)均存在提升,其中精確率、召回率與F1-分數(shù)提升幅度較大, 分別提高了58. 8%、237. 3%、176. 6%。

      為了進一步探究數(shù)據(jù)預處理是否會對特殊數(shù)據(jù)的預警產(chǎn)生影響,實驗將原始數(shù)據(jù)及預處理后數(shù)據(jù)分別通過檢測模型,對比得到的特殊數(shù)據(jù)與實際人工標注的特殊數(shù)據(jù),并基于時間序列繪制經(jīng)模型檢測出的輻射劑量率特殊數(shù)據(jù)散點圖,如圖7 所示。圖中,以測試集中人工標注的特殊數(shù)據(jù)為標準,對模型檢測出的特殊數(shù)據(jù)與人工標注的特殊數(shù)據(jù)重合點比例進行放大,可以更直觀的展示出,經(jīng)預處理后的數(shù)據(jù)相較于原數(shù)據(jù)帶入模型后,檢測出的正確特殊數(shù)據(jù)更多,更為精確。我們不失一般性地選取一組不同輸入的模型檢測結果(即測試集的原數(shù)據(jù)與預處理數(shù)據(jù)分別輸入模型后檢測出的特殊數(shù)據(jù)),并將它們與測試集中的人工標注特殊數(shù)據(jù)進行比較,檢測出的特殊數(shù)據(jù)關系如圖8 韋恩圖所示。在測試集30 711 條數(shù)據(jù)中,人工標注的特殊數(shù)據(jù)數(shù)量為3 967 條,原數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)數(shù)量為2 338 條,正確檢測出特殊數(shù)據(jù)共1 140 條,精確率為28. 74%,召回率為48. 76%;預處理數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)數(shù)量為4 329 條,正確檢測出特殊數(shù)據(jù)共2 492 條,精確率為62. 82%,召回率為57. 57%,明顯優(yōu)于原數(shù)據(jù)作為模型輸入數(shù)據(jù)得到的檢測結果, 通過評估此組模型不同輸入的檢測結果,可以看出經(jīng)預處理后的數(shù)據(jù)更適合作為檢測模型的輸入數(shù)據(jù),檢測效果更好。另外,預處理數(shù)據(jù)與原數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)重合率占原數(shù)據(jù)檢測結果的64. 97%,其中88. 51%為正確檢測出的特殊數(shù)據(jù),表明數(shù)據(jù)預處理并不會降低預警的靈敏度。因此,我們得出結論,數(shù)據(jù)預處理可以有效地提高數(shù)據(jù)質(zhì)量,且數(shù)據(jù)預處理并不會對特殊數(shù)據(jù)的預警產(chǎn)生影響。

      5 結論

      本文介紹了基于時間序列分析的數(shù)據(jù)預處理步驟,包括數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)清洗、數(shù)據(jù)變換及轉換處理,并對環(huán)境輻射劑量率數(shù)據(jù)集進行了數(shù)據(jù)預處理及特殊數(shù)據(jù)檢測實驗研究,通過無預處理的原始數(shù)據(jù)及預處理后的輻射劑量率特殊數(shù)據(jù)檢測結果進行評估,結果表明,經(jīng)過預處理后的數(shù)據(jù)應用于LSTM 特殊數(shù)據(jù)檢測模型后,在準確率、精確率、召回率及F1-分數(shù)方面都有所提高,這說明應用適當?shù)念A處理可以有效提高特殊數(shù)據(jù)檢測結果及數(shù)據(jù)質(zhì)量,為后續(xù)數(shù)據(jù)挖掘及特殊數(shù)據(jù)分析提供有力幫助。在后續(xù)研究中,我們可以通過多個方面對數(shù)據(jù)預處理方法進行優(yōu)化,其中,對缺失值的處理是影響數(shù)據(jù)預處理效果的重要部分,我們可以根據(jù)經(jīng)驗及多次實驗增加更為細化的填充規(guī)則,例如,設置更為準確的缺失值填充方法的時間間隔限制,采用不同的機器學習及時間序列預測方法等。

      猜你喜歡
      數(shù)據(jù)預處理時間序列環(huán)境
      長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
      一種用于自主學習的虛擬仿真環(huán)境
      孕期遠離容易致畸的環(huán)境
      環(huán)境
      芻議電力系統(tǒng)規(guī)劃設計在電力工程設計中的應用
      中國市場(2016年41期)2016-11-28 05:30:48
      基于時間序列的我國人均GDP分析與預測
      商(2016年32期)2016-11-24 16:20:57
      基于線性散列索引的時間序列查詢方法研究
      軟件工程(2016年8期)2016-10-25 15:43:57
      慢性乙肝癥狀與生物信息相關性的數(shù)據(jù)挖掘研究
      基于組合模型的能源需求預測
      公眾預期與不良貸款
      商情(2016年11期)2016-04-15 20:25:31
      泗水县| 那曲县| 乌拉特中旗| 年辖:市辖区| 天门市| 虹口区| 武鸣县| 东阳市| 丰都县| 乌拉特前旗| 武义县| 凤冈县| 阿拉善左旗| 革吉县| 呼伦贝尔市| 乐亭县| 涟源市| 华阴市| 响水县| 宜君县| 女性| 广丰县| 旬邑县| 手游| 建德市| 遂川县| 瑞丽市| 晋州市| 东乌| 大田县| 偃师市| 凤山县| 津市市| 封丘县| 岳阳市| 宜章县| 保靖县| 吉水县| 鄢陵县| 沅江市| 祁连县|