李業(yè)鋒 劉彤
(國網山東省電力公司棗莊供電公司 山東省棗莊市 277100)
多個層疊加形成深度學習思想,每一層均以上一層的輸出作為輸入,最終以分層的形式描述輸入信息[1]。深度學習在學術研究與工業(yè)應用中廣泛推廣使用,多層神經網絡具備突出的特征學習能力,能夠獲取表達數(shù)據(jù)本質的特征學習結果,為數(shù)據(jù)分類以及可視化研究提供精準的數(shù)據(jù)基礎。為此,本文對深度學習網絡模型加以改進,利用變分自編碼代替經典深度學習算法中的自編碼器,優(yōu)化數(shù)據(jù)時間屬性推薦結果,為電網工程建設提供高效率的信息推薦方式。
變分自編碼是深度學習生成模型的一個支路,圖像特征提取領域使用變分自編碼較為頻繁,提取文檔數(shù)據(jù)特征的研究相對較少,本次基于深度學習思想研究數(shù)據(jù)時間屬性推薦研究過程中,利用變分自編碼提取時間屬性的潛在電力特征。因此采用變分自編碼代替深度學習模型中的自編碼器得到變分自編碼深度學習網絡,即改進深度學習網絡模型,據(jù)此優(yōu)化深度學習算法推薦數(shù)據(jù)時間屬性的效果。
1.1.1 變分自編碼架構
在數(shù)據(jù)時間屬性信息中獲取潛在向量是變分自編碼的關鍵目標,潛在向量模型即由潛在向量構成[2]。變分自編碼結構如圖1所示。
編碼器與解碼器是變分自編碼結構與傳統(tǒng)自編碼器的共同結構[3],變分自編碼的隱藏層和傳統(tǒng)自編碼器存在差異,結果無限接近于概率分布取決于損失函數(shù)的定義。初始輸入(即時間屬性數(shù)據(jù)集合)與重構后的輸入分別用x 與x'表示,h、h'是隱藏層,概率分布用α、 表示,噪聲變量ε 的維數(shù)和隱藏層相同。
結合變分自編碼目標函數(shù)實現(xiàn)數(shù)據(jù)提取,設置噪聲變量服從高斯分布且定義均值為0。分別為參數(shù)α 的均值與方差。基于輸入文本向量的實值性,則存在:
公式中,W 與d 是權重矩陣與偏置量。
相同道理,σ2、λ 為參數(shù) 的方差與均值,計算方法為:
圖1:變分自編碼結構
基于上述定義得到目標函數(shù)如公式(8)所示:
1.1.2 變分自編碼的特征提取方法
變分自編碼在只有標簽文本中獲取時間屬性特征,變分自編碼在原始編碼器結構中增加sotfmax 分類器,作用是評定時間屬性預測分數(shù)[9],同時采用電力評分合理反饋特征的有效性。
變分自編碼器網絡是改進深度學習網絡模型的組成部分,降維壓縮與升維還原由x1與x2、x3與x4完成。變分自編碼深度學習網絡逐層訓練過程中,第i 層變分自編碼器訓練完成后則將第i層網絡權重設置為定值,第i+1 層的輸入即為變分自編碼的輸出fi;變分自編碼深度學習網絡的初始權重即為變分自編碼器全部訓練完成獲取的權重參數(shù)集合[4],形式如下:
變分自編碼深度學習網絡提取的特征不能正確體現(xiàn)電力用戶對時間屬性推薦的偏好,因此在末層網絡中增加sotfmax 分類器,以通過分數(shù)評定方式保障時間特征提取的質量。時間屬性的標簽特征包含五個類別,采用電網分制評分標準,小幅度調整深度學習網絡參數(shù)時,同時調整預測評分與真實評分數(shù)據(jù),調整后的對應目標函數(shù)為:
表1:數(shù)據(jù)集信息
表2:新增信息延遲推薦量分析
圖2:差異性參數(shù)G 對應的約簡區(qū)分度
公式中,pi與 分別表示時間屬性數(shù)據(jù)與重構的特征;qi與 分別為項目真實評分與sotfmax 分類器給出的預測評分,sotfmax 分類器預測評分基于特征 獲?。?表示評分的反饋修正因子。
在電網中展開數(shù)據(jù)時間屬性推薦實驗,驗證本文提出的基于深度學習的數(shù)據(jù)時間屬性實時推薦算法的可行性與優(yōu)越性。將Tensor Flow 1.4 作為電網實驗研究的深度學習計算架構,在Windows 10,32GB RAM,GTXI080 計算機系統(tǒng)中展開實驗研究。表1 為實驗采用的數(shù)據(jù)集,由電網工程自動竣工決算與工程造價全過程智能一體化管控項目獲取。其中Construction cost 為電網工程施工階段工程造價信息,Completion cost 為電網工程竣工階段工程造價信息,Investment budget 為電網工程投資預算信息。
區(qū)分度與約簡大小和時間屬性選擇算法中參數(shù)G 存在如下關聯(lián):參數(shù)G 與區(qū)分度、約簡大小成正比,但是隨著參數(shù)G 增加,約簡的區(qū)分度增加幅度逐漸降低。圖2 為差異性參數(shù)G 對應的約簡區(qū)分度散點圖。
由圖2 可知,參數(shù)G 達到120 時,不同數(shù)據(jù)集的近似約簡區(qū)分度在0.97 以上;參數(shù)G 達到240 時,不同數(shù)據(jù)集的近似約簡區(qū)分度在0.99 以上,其中Construction cost 與Completion cost 數(shù)據(jù)集時間屬性約簡的區(qū)分度為1,相對而言,Investment budget 數(shù)據(jù)集的時間屬性約簡區(qū)分度相對較低,參數(shù)G 達到240 時,區(qū)分度仍高于0.99。
所以本文采用的時間屬性選擇算法約簡的區(qū)分度足夠大,能夠準確得到電力數(shù)據(jù)的時間屬性,將準確選取的數(shù)據(jù)時間屬性作為深度學習算法的輸入數(shù)據(jù),利于改善數(shù)據(jù)實時推薦效果。
選定Investment budget 作為本文推薦算法延遲效果分析的數(shù)據(jù)集,以3s/次的頻率向數(shù)據(jù)集中增加1000 條對象信息,10min 后終止,記錄此過程中本文算法推薦新增信息的數(shù)量與延遲推薦數(shù)量,如表2 所示。
表2 顯示,即使電力數(shù)據(jù)集不斷更新,本文算法仍可確保推薦精度,新增信息延遲推薦量較低,實現(xiàn)了電力數(shù)據(jù)時間屬性的實時推薦。
深度學習算法在數(shù)據(jù)推薦中的應用研究較多,本文創(chuàng)新點在于對深度學習網絡的自編碼器加以改進,采用變分自編碼代替?zhèn)鹘y(tǒng)自編碼結構,且在變分自編碼提取時間屬性特征時在傳統(tǒng)結構中增加sotfmax 分類器,用于時間屬性預測評分,保障時間屬性特征提取精度,進一步優(yōu)化數(shù)據(jù)時間屬性推薦效果,提升電力用戶查詢電網工程施工費用與預算的體驗感。