李晶晶,張永敏,田桂林,崔勝勝,嚴(yán)潔
(國網(wǎng)青海省電力公司營銷服務(wù)中心,青海西寧 810000)
數(shù)據(jù)驅(qū)動是實(shí)現(xiàn)數(shù)據(jù)監(jiān)測、分析、研究的重要手段,目前網(wǎng)絡(luò)用戶的數(shù)據(jù)量大幅度上升,數(shù)據(jù)驅(qū)動空間的負(fù)荷預(yù)測對于保證數(shù)據(jù)的安全可靠分析、降低數(shù)據(jù)分析成本、提高數(shù)據(jù)分析效率、合理規(guī)劃數(shù)據(jù)使用領(lǐng)域具有關(guān)鍵性作用。針對數(shù)據(jù)的數(shù)量大、種類多、隨機(jī)性強(qiáng)等特性,傳統(tǒng)的基于CNN 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法采用誤差傳播算法確定數(shù)據(jù)訓(xùn)練層次,不斷調(diào)整數(shù)據(jù)權(quán)值,預(yù)測數(shù)據(jù)內(nèi)部空間負(fù)荷。但由于缺少對采集數(shù)據(jù)的處理步驟,且計(jì)算流程復(fù)雜,導(dǎo)致該模型的預(yù)測精度低、速度慢,不能滿足當(dāng)前社會的應(yīng)用需求[1-3]。
基于以上模型的應(yīng)用弊端,該文提出了基于LSTM 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法,在構(gòu)建LSTM 神經(jīng)網(wǎng)絡(luò)預(yù)測模型的基礎(chǔ)上分析處理數(shù)據(jù),確定模型內(nèi)部的輸出量,確定LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),從而對數(shù)據(jù)驅(qū)動空間負(fù)荷進(jìn)行精準(zhǔn)預(yù)測。經(jīng)過對比實(shí)驗(yàn)驗(yàn)證,該方法可以提高預(yù)測能力,減小預(yù)測誤差。
神經(jīng)網(wǎng)絡(luò)的本質(zhì)是通過模擬人腦的神經(jīng)元在相應(yīng)的網(wǎng)絡(luò)架構(gòu)中設(shè)置算法節(jié)點(diǎn),從而利用計(jì)算機(jī)模擬人腦進(jìn)行數(shù)據(jù)學(xué)習(xí),采用不同的算法解決不同的問題。LSTM 神經(jīng)網(wǎng)絡(luò)是以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行優(yōu)化改進(jìn)的算法,能夠更完善地解決數(shù)據(jù)訓(xùn)練中的梯度消失問題[4-5]。
利用LSTM 神經(jīng)網(wǎng)絡(luò)建立數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測模型的優(yōu)勢在于能夠在短時間內(nèi)處理序列,通過預(yù)測模型確定隱藏單元,通過多個神經(jīng)元的合力分析隱藏單元之間的關(guān)系,從而確定訓(xùn)練數(shù)據(jù)間隱含的映射關(guān)系,且輸入特殊的時序促使該模型具有較高的訓(xùn)練速度的同時,對長周期依賴型數(shù)據(jù)也具有較好的學(xué)習(xí)能力。
針對長周期的數(shù)據(jù)驅(qū)動空間負(fù)荷數(shù)據(jù),基于LSTM 神經(jīng)網(wǎng)絡(luò)的預(yù)測模型采用循環(huán)機(jī)理,前一層神經(jīng)元輸出的時間點(diǎn)保持與下一層神經(jīng)元輸入的時間點(diǎn)相同,在預(yù)測歷史數(shù)據(jù)的同時,也能避免發(fā)生隨著時間延遲導(dǎo)致忘記歷史數(shù)據(jù)規(guī)律的問題[6]。各層次的神經(jīng)元以鏈?zhǔn)浇Y(jié)構(gòu)相連接,使各神經(jīng)元的分析數(shù)據(jù)能夠在網(wǎng)絡(luò)結(jié)構(gòu)中相互傳遞,且為解決梯度下劃問題,采用特定的“門結(jié)構(gòu)”保證各神經(jīng)元數(shù)據(jù)傳遞的穩(wěn)定性和完整性。即采用輸入門和輸出門控制數(shù)據(jù)的輸入和輸出,利用遺忘門記錄數(shù)據(jù)訓(xùn)練規(guī)律,保證模型訓(xùn)練的可持續(xù)性,基于LSTM 神經(jīng)網(wǎng)絡(luò)的預(yù)測模型結(jié)構(gòu)示意圖如圖1 所示。
對基于LSTM 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法而言,數(shù)據(jù)預(yù)處理和分析是保障數(shù)據(jù)真實(shí)性和可靠性的關(guān)鍵步驟。在數(shù)據(jù)采集過程中,由于采集設(shè)備參數(shù)錯誤或人為操作誤差,可能導(dǎo)致采集數(shù)據(jù)殘缺、重復(fù)等情況,一旦需要處理數(shù)據(jù)與實(shí)際數(shù)據(jù)存在一定的偏差,最終的預(yù)測結(jié)果則不具有代表性[7-8]。該文為了保證數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測的準(zhǔn)確性,在數(shù)據(jù)訓(xùn)練前,通過數(shù)據(jù)預(yù)處理,確定內(nèi)部的殘缺數(shù)據(jù),去除重復(fù)數(shù)據(jù)。
數(shù)據(jù)驅(qū)動空間數(shù)據(jù)具有周期性特征,根據(jù)數(shù)據(jù)的此項(xiàng)特征,該文的數(shù)據(jù)預(yù)處理操作不僅更新了數(shù)據(jù)處理的流程,而且也擴(kuò)展了數(shù)據(jù)采集的范圍。在數(shù)據(jù)采集前,需要獲取數(shù)據(jù)驅(qū)動空間負(fù)荷數(shù)據(jù)100 s 前和100 s 后兩個不同時刻的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)??紤]到LSTM 神經(jīng)網(wǎng)絡(luò)模型對于尺度數(shù)據(jù)具有敏感性,因此該文會將初次采集到的數(shù)據(jù)進(jìn)行歸一化處理,保證采集數(shù)據(jù)的完整性,降低數(shù)據(jù)輸入輸出量選擇的難度,以提高數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測的準(zhǔn)確性。具體的歸一化處理公式如式(1)所示:
式(1)中,X表示初次采集到的數(shù)據(jù)驅(qū)動空間負(fù)荷數(shù)據(jù);Xmin表示采集到網(wǎng)絡(luò)數(shù)據(jù)的最小值;Xmax表示原始單個數(shù)據(jù)的最大值;Xnorm表示歸一化處理后單個數(shù)據(jù)的中間值;h表示歸一化處理的尺度大小。
為了保證數(shù)據(jù)預(yù)處理操作的公平性和科學(xué)性,使數(shù)據(jù)計(jì)算的收斂速度保持穩(wěn)定,該文設(shè)計(jì)的數(shù)據(jù)預(yù)處理操作頻率為10分鐘處理一個數(shù)據(jù),并且將48個數(shù)據(jù)作為一個單位矩陣[9-10]。數(shù)據(jù)預(yù)處理操作的準(zhǔn)備工作完成后,具體的數(shù)據(jù)預(yù)處理流程如下所示:
步驟一:將采集到的數(shù)據(jù)進(jìn)行有效性檢驗(yàn),檢驗(yàn)公式如式(2)所示:
式(2)中,p表示檢驗(yàn)閾值;Xn,j表示采集數(shù)據(jù)時數(shù)據(jù)的修正數(shù)據(jù);j表示數(shù)據(jù)關(guān)聯(lián)的兩個橫向負(fù)荷點(diǎn);ε表示與數(shù)據(jù)相關(guān)聯(lián)的兩個日負(fù)荷點(diǎn);Xˉ表示數(shù)據(jù)整體的規(guī)范平均值。
步驟二:若數(shù)據(jù)元素的計(jì)算結(jié)果不滿足式(2),則此數(shù)據(jù)不具有計(jì)算意義,拋出并重新訓(xùn)練,直至全部輸出滿足式(2)的計(jì)算結(jié)果,進(jìn)行步驟三。
姐姐先把消息截屏下來,再把消息刪除,然后把消息截屏發(fā)到她的手機(jī)上并刪除消息,最后再把媽手機(jī)上的截屏給刪掉,整件事看不出一點(diǎn)破綻。
步驟三:將完成所有檢驗(yàn)的有效數(shù)據(jù),以數(shù)據(jù)量為單位隨機(jī)分成若干組,然后進(jìn)行數(shù)據(jù)量的排序。
步驟四:排序后,按照序列將所有數(shù)據(jù)變換處理為矩陣的形式,為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的確定奠定計(jì)算基礎(chǔ)[11]。
數(shù)據(jù)輸入輸出量選擇的目的是提供數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的對象,達(dá)到確定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的目的。數(shù)據(jù)輸入輸出量的選擇與數(shù)據(jù)的負(fù)荷值和時間曲線有關(guān),時間曲線表現(xiàn)出數(shù)據(jù)的可變化性,數(shù)據(jù)的負(fù)荷值表現(xiàn)出數(shù)據(jù)的可用性[12-13]。
對于LSTM 數(shù)據(jù)輸入輸出量的確定,首先兩個數(shù)據(jù)必須要滿足一定的時間間隔,對于網(wǎng)絡(luò)數(shù)據(jù)的訓(xùn)練才具有意義。輸入輸出量的選擇要經(jīng)過兩個階段的選擇訓(xùn)練,第一次數(shù)據(jù)的選擇通過時間序列模型進(jìn)行計(jì)算,主要目的是選擇出具有時間間隔的輸入輸出變量;第二次數(shù)據(jù)的選擇通過自相關(guān)模型,借用單一維度理論思想,即僅從一個角度選擇自相關(guān)模型,以選擇出滿足負(fù)荷相關(guān)性的輸入輸出變量,LSTM 的單元結(jié)構(gòu)如圖2 所示。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定方法的原理是在基礎(chǔ)上嵌套多個網(wǎng)絡(luò)完成計(jì)算,為了打破此計(jì)算模型,該文設(shè)計(jì)的兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都是在一個網(wǎng)絡(luò)的層次上完成計(jì)算,在保證結(jié)果準(zhǔn)確度的基礎(chǔ)上,確定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。因?yàn)閿?shù)據(jù)的格式不同,為了保證LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的精密度,該文根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的規(guī)范,對應(yīng)不同的輸入輸出變量分別采用多模型單變量預(yù)測方法和單模型多變量預(yù)測方法完成。
主要操作流程如圖3 所示。
2)確定數(shù)據(jù)輸入輸出節(jié)點(diǎn)的數(shù)量,根據(jù)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)量,確定執(zhí)行哪一種LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測方法,提高預(yù)測的效率和準(zhǔn)確性。
3)按照需求調(diào)用多模型單變量預(yù)測方法或者單模型多變量預(yù)測方法,經(jīng)過計(jì)算確定出最終的LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸出即可。其中,多模型單變量預(yù)測方法的原理是不斷地重新擬合每個數(shù)據(jù)變量的網(wǎng)絡(luò),將所有數(shù)據(jù)遍歷完成后,輸出LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)果[14-16]。多模型單變量預(yù)測方法可以面向所有類型的數(shù)據(jù),此方法的優(yōu)點(diǎn)是所構(gòu)建的計(jì)算網(wǎng)絡(luò)較小,對于參數(shù)計(jì)算的收斂速度較小,反應(yīng)速度較快。單模型多變量預(yù)測方法的原理是將數(shù)據(jù)每個時刻的值作為關(guān)聯(lián)因素,確定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),所面向的對象是具有鮮明時刻特征的網(wǎng)絡(luò)數(shù)據(jù)。此方法的優(yōu)點(diǎn)是確定過程簡單,容易分析。
為驗(yàn)證該文研究的基于LSTM 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法的實(shí)際預(yù)測效果,選取2019年EUNIT 負(fù)荷數(shù)據(jù)競賽中競賽數(shù)據(jù)為訓(xùn)練數(shù)據(jù)樣本,共計(jì)8 784(24×366)個數(shù)據(jù)樣本,根據(jù)模型運(yùn)行需求設(shè)置實(shí)驗(yàn)參數(shù)和實(shí)驗(yàn)環(huán)境,同時采用該文研究的預(yù)測方法和傳統(tǒng)基于CNN 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法進(jìn)行數(shù)據(jù)訓(xùn)練,對比兩種預(yù)測方法的預(yù)測精度和預(yù)測效率。
實(shí)際數(shù)據(jù)訓(xùn)練過程中,采用損失值表示兩種預(yù)測方法的預(yù)測精度。在某種程度上,數(shù)據(jù)訓(xùn)練損失值等價于訓(xùn)練誤差,在數(shù)值上表示預(yù)測值與真實(shí)值之間的預(yù)測均方差,實(shí)驗(yàn)中,將設(shè)置的訓(xùn)練數(shù)據(jù)樣本輸入兩種預(yù)測模型中進(jìn)行3 000 次數(shù)據(jù)迭代訓(xùn)練,隨著數(shù)據(jù)迭代訓(xùn)練次數(shù)的增加,分析模型預(yù)測過程損失的數(shù)據(jù),實(shí)驗(yàn)結(jié)果如圖4 和圖5 所示。
從對兩種預(yù)測模型的損失值分析結(jié)果中可以看出,在前500 次數(shù)據(jù)迭代訓(xùn)練中,兩種模型的損失值處于快速下降狀態(tài),當(dāng)數(shù)據(jù)迭代訓(xùn)練達(dá)到1 000 次后,兩種模型的損失值趨于穩(wěn)定狀態(tài)。對比兩種模型的損失值差異可知,傳統(tǒng)基于CNN 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法的損失值的穩(wěn)定值為0.4,而該文提出的基于LSTM 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法的損失值的穩(wěn)定值為0.2,且在預(yù)測過程中,該文提出的預(yù)測方法的預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)的吻合度較高,由此可以得出結(jié)論,該文提出的預(yù)測方法的預(yù)測精度更高。原因在于,該文提出的預(yù)測方法針對采集數(shù)據(jù)進(jìn)行了一系列的數(shù)據(jù)預(yù)處理,除去重復(fù)數(shù)據(jù),保證訓(xùn)練數(shù)據(jù)的完整性,控制神經(jīng)元的輸入輸出量,結(jié)合相應(yīng)的LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇合適的預(yù)測方法,提升預(yù)測精度。
經(jīng)過預(yù)測精度對比后,對比兩種預(yù)測方法的訓(xùn)練速度,得到的預(yù)測速度對比結(jié)果如圖6 所示。
從圖6 可以看出,針對該次實(shí)驗(yàn)設(shè)置的8 000(20×400)個數(shù)據(jù)樣本,該文提出的基于LSTM 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法完成8 000 個數(shù)據(jù)迭代訓(xùn)練的時間為1.23 s,而傳統(tǒng)基于CNN 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法完成8 000 個數(shù)據(jù)迭代訓(xùn)練的時間為3.56 s,由此可以看出,該文提出的預(yù)測方法預(yù)測效率更高。區(qū)別在于該文提出的方法引入神經(jīng)網(wǎng)絡(luò),對數(shù)據(jù)模型能夠很好地進(jìn)行關(guān)聯(lián)分析,具有較高的時間序列控制,且支持多種算法的融合計(jì)算,提升了數(shù)據(jù)處理能力,加快了預(yù)測速度。
為了解決現(xiàn)有方法針對長周期的數(shù)據(jù)驅(qū)動空間數(shù)據(jù),在計(jì)算過程中,由于時間間隔較長,易遺忘上一步驟的預(yù)測結(jié)果,往往需要進(jìn)行多次計(jì)算,導(dǎo)致預(yù)測時間較長的問題,該文基于LSTM 神經(jīng)網(wǎng)絡(luò)提出了一種用于長周期數(shù)據(jù)驅(qū)動空間負(fù)荷預(yù)測方法,經(jīng)過對比實(shí)驗(yàn)分析,利用LSTM 神經(jīng)網(wǎng)絡(luò),分析內(nèi)部驅(qū)動數(shù)據(jù),提高處理性能,有效降低訓(xùn)練數(shù)據(jù)的空間維度,深入挖掘數(shù)據(jù)價值,相較于對比方法,具有更好的預(yù)測性能。