基于時間序列分析的環(huán)境γ輻射劑量率數(shù)據(jù)預處理方法研究及評估

2023-04-29 00:44:03白帆李雪貞馬國學等

輻射防護 2023年2期

白帆　李雪貞　馬國學等

關鍵詞：數(shù)據(jù)預處理;環(huán)境γ 輻射劑量率;時間序列;特殊數(shù)據(jù)檢測;LSTM

中圖分類號：X830. 3 文獻標識碼：A

輻射環(huán)境質(zhì)量數(shù)據(jù)來源于多種監(jiān)測設備，由環(huán)境γ 輻射劑量率數(shù)據(jù)、氣象數(shù)據(jù)及各類監(jiān)測數(shù)據(jù)等共同組成時序多元數(shù)據(jù)集。這些傳感器連續(xù)數(shù)據(jù)間隔時間短，因此在短期內(nèi)數(shù)據(jù)規(guī)模極大且含有噪音，由于傳統(tǒng)的手工數(shù)據(jù)清洗方法成本高、效率慢，因此基于時間序列的數(shù)據(jù)預處理方法成為研究的熱點。

與此同時，特殊數(shù)據(jù)檢測也是數(shù)據(jù)挖掘的重要部分。特殊數(shù)據(jù)是指與其他數(shù)據(jù)分布有較為顯著不同的數(shù)據(jù)對象，也被稱作離群點，我們通常可以通過檢測離群點得知離群點產(chǎn)生的因素，精確的數(shù)據(jù)可以幫助我們更有效地對特殊數(shù)據(jù)進行檢測及分析，提高檢測效率。

早在19 世紀，統(tǒng)計學家就已經(jīng)對檢測數(shù)據(jù)中的特殊數(shù)據(jù)值展開了研究，并隨著時間的推移，研究出多種基于統(tǒng)計的特殊數(shù)據(jù)檢測技術。常見的有3 倍標準差準則、箱線圖等傳統(tǒng)統(tǒng)計方法，以及由Box 和Jenkins 于20 世紀70 年代初提出的自回歸移動平均模型、由Facebook 提出的Prophet 模型等時間序列預測方法[1] 。隨著機器學習的不斷發(fā)展，許多基于傳統(tǒng)機器學習的方法被提出，例如基于二元線性的支持向量機、基于決策樹的隨機森林、基于距離的K-最近鄰、具有噪聲的基于密度的聚類方法、局部離群因子檢測方法等聚類模型[2] ，Dorothy Denning 在1986年提出了第一個入侵檢測系統(tǒng)的特殊數(shù)據(jù)檢測模型，通過機器學習來進行特殊數(shù)據(jù)檢測的方法被廣泛應用。而當前主流的特殊數(shù)據(jù)檢測算法通?；谏疃葘W習技術，按照使用的監(jiān)督信息可以分為有監(jiān)督方法、無監(jiān)督方法、半監(jiān)督方法。例如自動編碼器、生成式對抗網(wǎng)絡[3] ，長短期記憶網(wǎng)絡[4] （LSTM）等。有監(jiān)督模型通常根據(jù)現(xiàn)有特殊數(shù)據(jù)標簽學習，對數(shù)據(jù)更為精確地進行預測分類。由于LSTM 具有學習長期依賴關系的能力，可以更好地適應多元時間序列數(shù)據(jù)，本文主要探究有監(jiān)督LSTM 的特殊數(shù)據(jù)檢測模型。

本文涉及的數(shù)據(jù)類型包括γ 輻射劑量率數(shù)據(jù)及氣象數(shù)據(jù)，以某地區(qū)某時段γ 輻射劑量率的逐時數(shù)據(jù)為例，研究數(shù)據(jù)預處理方法對特殊檢測結果帶來的影響，將詳細介紹使用到的數(shù)據(jù)預處理技術，包括：輻射劑量率數(shù)據(jù)和氣象數(shù)據(jù)的解析、數(shù)據(jù)頻率的轉換、時序數(shù)據(jù)去噪、劑量率數(shù)據(jù)及氣象數(shù)據(jù)的完善、數(shù)據(jù)標準化處理等，并利用基于LSTM 的有監(jiān)督特殊數(shù)據(jù)檢測算法對數(shù)據(jù)預處理的結果從準確率、精確率、召回率、F1-分數(shù)方面進行評估，進一步提升輻射自動監(jiān)測數(shù)據(jù)的篩選與優(yōu)化。

1 數(shù)據(jù)預處理

為確保γ 輻射劑量率數(shù)據(jù)反饋的準確性，更加可靠真實地反應地區(qū)輻射環(huán)境水平，我們從數(shù)據(jù)的分析目標出發(fā)，通過探究數(shù)據(jù)分布、應用數(shù)據(jù)去噪、數(shù)據(jù)清洗及數(shù)據(jù)變換等數(shù)據(jù)預處理方法[5-6]消除原始數(shù)據(jù)中可能存在的測量噪聲等造成的誤導監(jiān)測，為最終算法提供優(yōu)質(zhì)數(shù)據(jù)，使得其成為使算法發(fā)揮最佳性能的必要部分。

1. 1 數(shù)據(jù)分析

監(jiān)測傳感器數(shù)據(jù)是時間序列數(shù)據(jù)的典型實例。對數(shù)據(jù)進行統(tǒng)計學分析，通過計算平均值、標準差、峰值、偏度等統(tǒng)計值和數(shù)據(jù)正態(tài)分布的擬合情況來了解輻射劑量率數(shù)據(jù)的統(tǒng)計特征及分布狀態(tài)，以便于根據(jù)數(shù)據(jù)特性選擇合適的數(shù)據(jù)預處理方法，并分析時間序列數(shù)據(jù)背后隱藏的信息，理解序列模式的行為。

1. 2 數(shù)據(jù)集成

1. 2. 1 合并劑量率數(shù)據(jù)與氣象數(shù)據(jù) 根據(jù)氣象探測器與劑量率探測器地理位置坐標，將同一區(qū)域的氣象監(jiān)測數(shù)據(jù)與劑量率監(jiān)測數(shù)據(jù)對應時間索引相結合，完善數(shù)據(jù)，便于結合劑量率與氣象數(shù)據(jù)相關性進行分析及數(shù)據(jù)挖掘。

1. 2. 2 填充時間序列

檢查時序數(shù)據(jù)是否為等間隔數(shù)據(jù)，依據(jù)原始數(shù)據(jù)時間索引間隔（30 s）填充時間戳，缺失數(shù)據(jù)用空值暫時填充，刪除重復時間戳。

1. 3 數(shù)據(jù)清洗

1. 3. 1 改變變量類型

時間序列是一組按照時間發(fā)生先后順序進行排列的數(shù)據(jù)點序列。本文所處理的數(shù)據(jù)均基于時間序列，這里將原始數(shù)據(jù)索引規(guī)范為時間序列，并對變量（劑量率、電池電壓、γ 輻射監(jiān)測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨）的數(shù)據(jù)類型進行轉換，其中濕度與風向屬于離散變量、感雨為分類變量（二值變量）、其他均為連續(xù)變量，為便于對數(shù)據(jù)進行分析及后續(xù)檢測工作，統(tǒng)一轉換為浮點數(shù)。

1. 3. 2 規(guī)定數(shù)據(jù)范圍

本文所使用到的數(shù)據(jù)集為輻射劑量率數(shù)據(jù)與對應同步時間的氣象數(shù)據(jù)，由于人為因素及自然因素均會引起劑量率數(shù)值的變化，因此在對于劑量率變化的分析研究中，可以將監(jiān)測器數(shù)據(jù)及氣象數(shù)據(jù)視作變量，即電池電壓、γ 輻射監(jiān)測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨等。由于來源不同，因此獲取的時間無法簡單地同步，數(shù)據(jù)中可能會存在數(shù)據(jù)范圍不統(tǒng)一、數(shù)據(jù)存在少量缺失值等問題。因此，針對變量單位不統(tǒng)一造成的數(shù)值范圍不統(tǒng)一，需要依具數(shù)據(jù)變量的固定單位，對數(shù)據(jù)的數(shù)值范圍進行調(diào)整。

1. 3. 3 數(shù)據(jù)去噪

時間序列本身具有非線性和信噪比高的特點，采用傳統(tǒng)的高斯去噪、中值濾波等方法往往存在諸多缺陷。由于離散小波變換（DWT）在高頻信號降噪方面的應用廣泛，因此通常采用離散小波變換，選擇緊支撐、具有對稱性、與信號波形相似的小波對時序數(shù)據(jù)進行降噪[7] 。離散小波變換公式如下[8] ：

式中， α 代表比例因子， β 代表定位因子， e（λ）為連續(xù)時間信號并非離散信號。根據(jù)設定閾值，保留大于閾值的系數(shù)，再進行反向離散小波變換來重建信號，獲得降噪后的信號。

1. 3. 4 數(shù)據(jù)缺失值處理

根據(jù)本文實驗數(shù)據(jù)集的特性，對于部分相關性不強以及無關的特征值列，為保證分析的準確性，可以通過刪除法將其去除。對于剩余特征值的行缺失數(shù)據(jù)，若通過刪除缺失值的方式對缺失值進行處理，對原始數(shù)據(jù)的子集進行挖掘，很可能造成分析結果由于基于局部產(chǎn)生偏差。因此，我們主要采用基于填充技術的插補法，避免了刪除法的弊端，使得數(shù)據(jù)集中的重要信息得以保留。為保證插補值的準確性，從缺失數(shù)據(jù)時間間隔的限制、變量自身特性、變量間的相關性以及與時間序列的關系等不同方面出發(fā)，對行缺失數(shù)據(jù)進行填補。主要變量類型可分為以下三種：

（1）輻射劑量率數(shù)據(jù)：由于輻射劑量率與其他變量間存在關系，且與時序變動有很強的趨勢，因此我們可以優(yōu)先采用冷卡填充的方法，選擇與缺失對象特征最為相似的第一個對象并進行填充，即在所有樣本中測量不同特征值之間的歐式距離進行分類，選擇與待填充樣本在特征空間中的1個最近鄰，再對剩余劑量率數(shù)據(jù)采用線性插值法進行填充。

（2）監(jiān)測器數(shù)據(jù)：監(jiān)測器數(shù)據(jù)由γ 輻射監(jiān)測儀高壓及電池電壓組成。由于監(jiān)測器數(shù)據(jù)與其他變量相關性較弱，因此基于電壓本身隨時間變化的特性，我們根據(jù)缺失時間點前后時段相鄰最近的數(shù)據(jù)，采用線性插值法對缺失時間點處的γ 輻射監(jiān)測儀高壓及電池電壓進行填充。

（3）氣象數(shù)據(jù)：氣象數(shù)據(jù)由溫度、氣壓、濕度、雨量、感雨、風向、風速組成。由于變量間相關性較強，且隨時間波動，我們采用時序中最基本的就近插補法，替換缺失值為缺失時間點之前或之后最近的觀測值，對溫度、氣壓、濕度、雨量、感雨、風向、風速進行填充，再對剩余氣象數(shù)據(jù)采用線性插值法進行填充。

1. 4 數(shù)據(jù)變換

為了解決可能存在的站點數(shù)據(jù)采樣周期不統(tǒng)一、采樣周期過小而導致數(shù)據(jù)量巨大、采樣周期過大而研究過程需要更小采樣周期等問題，須依具研究需求將數(shù)據(jù)變頻為高級別或低級別周期，即降采樣或增采樣。為了控制數(shù)據(jù)規(guī)模，降低模型訓練開銷，提高運算效率，通常選用降采樣的方式。一般情況下降采樣有最大值采樣、平均值采樣和區(qū)域采樣及隨其區(qū)域采樣等。我們通過對比30 秒頻率數(shù)據(jù)采用平均值求采及最大值求采至5分鐘頻率數(shù)據(jù)后輻射劑量率的數(shù)據(jù)變化曲線，發(fā)現(xiàn)若劃分5 分鐘長度時間窗口進行數(shù)據(jù)平均會造成單點極大值在臨近時間段的平均，降低數(shù)據(jù)的明顯差異，因此，我們需要采用劃分5 分鐘長度時間窗口進行數(shù)據(jù)最大值的采樣方法以保證檢測長時間段內(nèi)持續(xù)的特殊情況。

1. 5 數(shù)據(jù)轉換

由于不同變量的評價指標不同，具有不同的量綱，數(shù)據(jù)數(shù)值間的差別可能很大，為了消除指標之間的量綱和取值范圍差異對數(shù)據(jù)分析結果的影響，需要對數(shù)據(jù)進行標準化處理，即將數(shù)據(jù)按照比例縮放，使之落入一個特定的區(qū)間，以便于后期對數(shù)據(jù)的分析及處理。根據(jù)算法及模型的選擇，通常我們需要在數(shù)據(jù)預處理中或者模型中選擇不同標準化方法對數(shù)據(jù)進行標準化處理。常用的標準化方法主要有離差標準化，z-score 標準化等。

2 特殊數(shù)據(jù)檢測

LSTM 是一種特殊的遞歸神經(jīng)網(wǎng)絡[9] ，由于具有長期學習依賴關系的能力，非常適合預測時間序列數(shù)據(jù)，也常被用于監(jiān)測變量集體水平上的特殊數(shù)據(jù)檢測。LSTM 通過對訓練集數(shù)據(jù)進行訓練，按照固定時間步長生成預測器，來預測下一時間點的輻射劑量率特征，對預測誤差信號的分布概率進行估計，選取閾值，按照預測誤差區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù)[10] 。

如圖1 所示，LSTM 架構由LSTM 單元組成，每個LSTM 單元包含輸入節(jié)點、輸出節(jié)點及由許多智能節(jié)點組成的隱藏層。A 代表一個完整的LSTM 單元，接受序列當前時間節(jié)點的輸入向量xt ，輸出當前隱藏狀態(tài)向量ht ，并傳遞至下一單元[11] 。

每個LSTM 單元包含三個門，即遺忘門、輸入門和輸出門。這些門使 LSTM 網(wǎng)絡能夠不斷地重置、寫入和讀取單元格，可被表示為式（4）：

3 性能評估指標

為了評估特殊數(shù)據(jù)檢測算法的性能，我們以算法檢測出來的正確樣本為主，平衡正負樣本關系，主要評估算法的準確率、精確率和召回率以及F1 分數(shù)。TP （True Positive）表示真正樣本數(shù)，TN（True Negative ）表示真負樣本數(shù)， FP （ FalsePositive）表示假正樣本數(shù)，F(xiàn)N （False Negative）表示假負樣本數(shù)[8] 。

準確率（Accuracy）是最為常見及直觀的評價指標，是全部樣本中被預測正確的樣本概率，對全部正負樣本結果中的預測準確程度，表達式為式（5）：

4 實驗結果及評估

4. 1 數(shù)據(jù)集簡介

本文所用到的輻射劑量率及相關監(jiān)測數(shù)據(jù)均由監(jiān)測站點提供，所有站點均布設輻射劑量率連續(xù)監(jiān)測設備及微型氣象站，提供γ 輻射劑量率數(shù)據(jù)及風向、風速、溫度、濕度、氣壓、雨量和感雨等氣象數(shù)據(jù)。數(shù)據(jù)時間范圍為2019 年1 月1 日0 時到2020 年1 月1 日0 時。另外，在特殊數(shù)據(jù)檢測實驗中，用到的測試數(shù)據(jù)來源于A 站帶人工標注標簽數(shù)據(jù)，數(shù)據(jù)時間范圍為2019 年1 月1 日0 時到2021 年1 月1 日0 時。

由于監(jiān)測站點間地理位置差距較大，各監(jiān)測站點本底劑量率數(shù)據(jù)存在明顯差異，某時段逐時輻射劑量率如圖2 所示。因此本論文對不同站點的數(shù)據(jù)分布狀態(tài)及數(shù)據(jù)情況進行了統(tǒng)計分析，表1為其中5 個監(jiān)測站點輻射劑量率的分布情況，從中可以看出各站輻射劑量率監(jiān)測數(shù)據(jù)偏度均大于1. 5，分布不對稱、形態(tài)偏斜、高峰陡峭，呈偏態(tài)分布。其中B 站輻射劑量率統(tǒng)計分布示例如圖3所示。

4. 2 數(shù)據(jù)降噪結果

小波分析庫PyWavelets 提供了眾多可供選擇的小波族，例如Haar （ haar）、Daubechies （ db）、Symlets （sym）、Coiflets （coif）、Biorthogonal （bior）等。每個小波族下有不同的系數(shù)，共127 個小波基函數(shù)。其中多貝西小波（Daubechies Wavelet）是最常使用到的小波轉換，主要應用在離散型的小波轉換，通常使用在信號分析、信號壓縮跟噪聲去除。為保證通過離散小波變換（DWT）后的去噪結果仍保留原始時序數(shù)據(jù)的規(guī)律性等特性以及特殊數(shù)據(jù)的突出部分，我們選用db38 的結果進行去噪。圖4 展示出A 站某時段進行離散小波變換降噪后的劑量率變化與原始時序數(shù)據(jù)對比?？梢钥吹?，經(jīng)過降噪后的劑量率變化曲線變得更為平滑，噪聲數(shù)據(jù)減少，可以更加明顯地區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù)，進而有效地避免了噪聲數(shù)據(jù)對特殊數(shù)據(jù)檢測效果的影響。

4. 3 實驗設置

在特殊數(shù)據(jù)檢測模型建模時使用A 站2019—2020 年帶人工標注標簽數(shù)據(jù)集（正常數(shù)據(jù)標簽為0，特殊數(shù)據(jù)標簽為1），按照0. 7、0. 15、0. 15 的比例將數(shù)據(jù)集隨機劃分為獨立的訓練集、測試集、驗證集。利用訓練集與驗證集建立模型并優(yōu)化，通過測試集預測標簽結果與實際標簽從準確率、精確率、召回率、F1-分數(shù)方面進行評估。

LSTM 模型輸入數(shù)據(jù)為Z-score 標準化變換后的數(shù)據(jù)，輸入維度為：（樣本數(shù)量，時間步長，特征數(shù)量），將每個時間點的輸入當作該點數(shù)據(jù)全部特征的集合，即7 維向量，包含劑量率值、氣壓值、溫度值、濕度值、雨量值、風向值、風速值;時間步長設置為1，表示每個時間點的結果由前1 個時間點來進行預測。因此，模型的輸入維度為：（樣本數(shù)量，1，7）。

LSTM 模型激活函數(shù)為tanh，循環(huán)激活函數(shù)為sigmoid。通過RMSprop 優(yōu)化器進行模型優(yōu)化。為了讓模型可以快速收斂到最優(yōu)解，且在訓練后期更加穩(wěn)定，采用動態(tài)學習率在學習中進行調(diào)整。初始學習率設置為0. 1，當評價指標F1-分數(shù)在連續(xù)10 個epoch 后不再提升時，則減少學習率至原學習率的0. 1 倍，直到學習率降低到最小值0. 001。

基于A 站預處理后帶標簽的數(shù)據(jù)訓練模型，通過網(wǎng)格搜索對RMSprop 學習效率等模型參數(shù)進行選擇。在實驗過程中，我們對模型的超參數(shù)進行調(diào)優(yōu)，選擇隱藏層大小為256，設置batch 尺寸為128，epoch 數(shù)量為50。在模型對訓練數(shù)據(jù)進行訓練過程中，對每個epoch 通過F1-分數(shù)來評估模型在訓練集和驗證集上的性能，如圖5 所示。對訓練好的模型通過準確率、精確率、召回率、F1-分數(shù)來對模型進行評估。并且進行更精細的調(diào)優(yōu)，例如嘗試不同數(shù)量的LSTM 隱藏單元等方法，進一步提高模型的檢測性能。

4. 4 性能評估

A 站2019 年某時段及該時段部分放大輻射劑量率數(shù)據(jù)預處理可視化如圖6 所示，可以看到，預處理后的數(shù)據(jù)對缺失數(shù)據(jù)進行了有效填充，且保留了原頻率時序數(shù)據(jù)波動特征，平滑了劑量率時間序列曲線。

同時，基于A 站2019—2020 年帶人工標注標簽數(shù)據(jù)，我們通過對特殊數(shù)據(jù)算法的評估，研究數(shù)據(jù)預處理步驟對基于LSTM 特殊數(shù)據(jù)檢測算法性能的影響，實驗結果列于表2。該表為LSTM 二分類模型5 次運行結果的平均表現(xiàn)，通過表2 可以得出，原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)變換后，應用LSTM 模型后的準確率、精確率、召回率及F1-分數(shù)均存在提升，其中精確率、召回率與F1-分數(shù)提升幅度較大，分別提高了58. 8%、237. 3%、176. 6%。

為了進一步探究數(shù)據(jù)預處理是否會對特殊數(shù)據(jù)的預警產(chǎn)生影響，實驗將原始數(shù)據(jù)及預處理后數(shù)據(jù)分別通過檢測模型，對比得到的特殊數(shù)據(jù)與實際人工標注的特殊數(shù)據(jù)，并基于時間序列繪制經(jīng)模型檢測出的輻射劑量率特殊數(shù)據(jù)散點圖，如圖7 所示。圖中，以測試集中人工標注的特殊數(shù)據(jù)為標準，對模型檢測出的特殊數(shù)據(jù)與人工標注的特殊數(shù)據(jù)重合點比例進行放大，可以更直觀的展示出，經(jīng)預處理后的數(shù)據(jù)相較于原數(shù)據(jù)帶入模型后，檢測出的正確特殊數(shù)據(jù)更多，更為精確。我們不失一般性地選取一組不同輸入的模型檢測結果（即測試集的原數(shù)據(jù)與預處理數(shù)據(jù)分別輸入模型后檢測出的特殊數(shù)據(jù)），并將它們與測試集中的人工標注特殊數(shù)據(jù)進行比較，檢測出的特殊數(shù)據(jù)關系如圖8 韋恩圖所示。在測試集30 711 條數(shù)據(jù)中，人工標注的特殊數(shù)據(jù)數(shù)量為3 967 條，原數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)數(shù)量為2 338 條，正確檢測出特殊數(shù)據(jù)共1 140 條，精確率為28. 74%，召回率為48. 76%;預處理數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)數(shù)量為4 329 條，正確檢測出特殊數(shù)據(jù)共2 492 條，精確率為62. 82%，召回率為57. 57%，明顯優(yōu)于原數(shù)據(jù)作為模型輸入數(shù)據(jù)得到的檢測結果，通過評估此組模型不同輸入的檢測結果，可以看出經(jīng)預處理后的數(shù)據(jù)更適合作為檢測模型的輸入數(shù)據(jù)，檢測效果更好。另外，預處理數(shù)據(jù)與原數(shù)據(jù)輸入模型后檢測出的特殊數(shù)據(jù)重合率占原數(shù)據(jù)檢測結果的64. 97%，其中88. 51%為正確檢測出的特殊數(shù)據(jù)，表明數(shù)據(jù)預處理并不會降低預警的靈敏度。因此，我們得出結論，數(shù)據(jù)預處理可以有效地提高數(shù)據(jù)質(zhì)量，且數(shù)據(jù)預處理并不會對特殊數(shù)據(jù)的預警產(chǎn)生影響。

5 結論

本文介紹了基于時間序列分析的數(shù)據(jù)預處理步驟，包括數(shù)據(jù)統(tǒng)計分析、數(shù)據(jù)清洗、數(shù)據(jù)變換及轉換處理，并對環(huán)境輻射劑量率數(shù)據(jù)集進行了數(shù)據(jù)預處理及特殊數(shù)據(jù)檢測實驗研究，通過無預處理的原始數(shù)據(jù)及預處理后的輻射劑量率特殊數(shù)據(jù)檢測結果進行評估，結果表明，經(jīng)過預處理后的數(shù)據(jù)應用于LSTM 特殊數(shù)據(jù)檢測模型后，在準確率、精確率、召回率及F1-分數(shù)方面都有所提高，這說明應用適當?shù)念A處理可以有效提高特殊數(shù)據(jù)檢測結果及數(shù)據(jù)質(zhì)量，為后續(xù)數(shù)據(jù)挖掘及特殊數(shù)據(jù)分析提供有力幫助。在后續(xù)研究中，我們可以通過多個方面對數(shù)據(jù)預處理方法進行優(yōu)化，其中，對缺失值的處理是影響數(shù)據(jù)預處理效果的重要部分，我們可以根據(jù)經(jīng)驗及多次實驗增加更為細化的填充規(guī)則，例如，設置更為準確的缺失值填充方法的時間間隔限制，采用不同的機器學習及時間序列預測方法等。