李翔宇, 程坤, 黃濤, 余霖, 譚思超
(1.黑龍江省核動力裝置性能與設(shè)備重點實驗室,黑龍江 哈爾濱 150001; 2.哈爾濱工程大學(xué) 核科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001; 3.核反應(yīng)堆系統(tǒng)設(shè)計技術(shù)重點實驗室,四川 成都 610213)
特征工程是一種工程化方法[1],該方法可以從原始數(shù)據(jù)集選擇一組具有明顯物理或統(tǒng)計意義的數(shù)據(jù)子集,并將該數(shù)據(jù)子集作為后續(xù)算法或模型的經(jīng)驗數(shù)據(jù),為建立自動化的數(shù)據(jù)分析方法提供數(shù)據(jù)支持[2]。通常特征工程方法利用機器學(xué)習(xí)、隨機信號、小波分析等算法最大限度的增強原始數(shù)據(jù)集中的有效數(shù)據(jù)特征,弱化或簡化冗余的數(shù)據(jù)信息[3-5]。經(jīng)該方法預(yù)處理后的數(shù)據(jù)集,可從源數(shù)據(jù)的角度優(yōu)化和精簡后續(xù)算法或模型的結(jié)構(gòu),提高算法或模型訓(xùn)練以及分析效率。
在核電站運行狀態(tài)分析與預(yù)測方面,為準(zhǔn)確判斷核電站運行狀態(tài)以及發(fā)生故障時診斷故障類型,核電站布置了大量的傳感器實時監(jiān)測各項瞬態(tài)運行參數(shù)。而種類多、總量大的瞬態(tài)運行參數(shù)在網(wǎng)絡(luò)傳輸、數(shù)據(jù)存儲和算法訓(xùn)練過程中,將導(dǎo)致數(shù)據(jù)傳輸速度慢,占據(jù)存儲空間大,以及算法拓?fù)浣Y(jié)構(gòu)復(fù)雜、訓(xùn)練速度慢等問題。因此可利用特征工程技術(shù)壓縮瞬態(tài)運行參數(shù),提取數(shù)據(jù)特征并精簡數(shù)據(jù)集。特征工程包括特征構(gòu)建、特征提取和特征選擇3個部分[6],但在數(shù)據(jù)分析過程中,可根據(jù)實際需求自由選擇或組合的3種方法搭建特征工程分析模型。特征構(gòu)建是指通過人工手段,利用物理、自然規(guī)律,人類知識和經(jīng)驗,從數(shù)據(jù)集中構(gòu)建數(shù)據(jù)特征[7]。Zhang等[8]設(shè)計了一種蒙特卡洛與點核法耦合的計算模型,用于快速估計核電站退役設(shè)備的輻射劑量。該方法可平衡蒙特卡洛算法和點核法的計算結(jié)果,避免點核法對相鄰源的計算缺陷;特征提取是指利用統(tǒng)計學(xué)習(xí)、時頻分析等方法計算一組物理或統(tǒng)計意義明顯,且數(shù)據(jù)非冗余的數(shù)據(jù)特征[9]。Wang等[10]利用卷積自編碼器和長短期記憶神經(jīng)網(wǎng)絡(luò)設(shè)計了一種可用于預(yù)測核電站電動閥門剩余壽命的聯(lián)合算法模型,該算法模型進(jìn)一步提高了對電動閥門故障預(yù)測的準(zhǔn)確率,從而有效減低核電系統(tǒng)運行成本和減少停機維護(hù)時間;特征選擇是指剔除原始數(shù)據(jù)集中與目標(biāo)問題不相關(guān)或冗余的數(shù)據(jù)特征[11]。Peng等[12]設(shè)計了一種核電站混合智能狀態(tài)檢測方法,該方法利用稀疏自編碼器對運行數(shù)據(jù)進(jìn)行降維和特征提取,利用孤立森林方法檢測核電站異常運行狀態(tài),并通過對比實驗證明混合智能狀態(tài)檢測方法可以有效提升核電站故障檢測能力,進(jìn)一步提升核電站的安全性。
綜上所述,特征工程方法的應(yīng)用目前主要集中在核電站事故分析與故障診斷領(lǐng)域,在數(shù)值分析的基礎(chǔ)上配合特征工程方法,可有效提高核電站控制系統(tǒng)對設(shè)備狀態(tài)和故障類型的感知能力,合理區(qū)分算法本身未知事故類型,進(jìn)而保證核電站安全運行。
為了實現(xiàn)壓縮和復(fù)原瞬態(tài)運行參數(shù),本文基于特征工程方法建立了一種核電站瞬態(tài)運行參數(shù)數(shù)據(jù)壓縮和數(shù)據(jù)復(fù)原方法。該方法利用主成分分析方法提取瞬態(tài)運行參數(shù)的特征向量,可最大限度保留原有數(shù)據(jù)特征,減少瞬態(tài)運行參數(shù)的數(shù)據(jù)維度;同時配合高斯過程回歸方法可對降維后的瞬態(tài)運行數(shù)據(jù)實現(xiàn)高精度的復(fù)原。
特征工程由數(shù)據(jù)壓縮和數(shù)據(jù)復(fù)原2個模塊組成。數(shù)據(jù)壓縮模塊基于主成分分析(principal component analysis,PCA)方法,該方法通過提取瞬態(tài)運行數(shù)據(jù)中的特征向量組成新的數(shù)據(jù)組,從而可以最大限度保留瞬態(tài)運行數(shù)據(jù)中的數(shù)據(jù)特征。數(shù)據(jù)復(fù)原模塊基于高斯過程回歸(Gaussian process regression,GPR)方法,該方法利用壓縮數(shù)據(jù)集中的數(shù)據(jù)特征復(fù)原核電站瞬態(tài)運行參數(shù)。
令D為核電站正常運行時的瞬態(tài)運行參數(shù)數(shù)據(jù)集(以下簡稱運行數(shù)據(jù)集),D={Y,X}。其中Y為待分析的目標(biāo)參數(shù),X為目標(biāo)參數(shù)對應(yīng)的瞬態(tài)運行參數(shù)的參數(shù)矩陣。Y=[yi],且yi∈R;i=1,2,…,M。M為運行數(shù)據(jù)集D的瞬態(tài)運行參數(shù)的數(shù)據(jù)總量,且M∈N。X=[xij],且xij∈R;i=1,2,…,M;j=1,2,…,P。P為一組瞬態(tài)運行參數(shù)包含的核電站運行參數(shù)的種類數(shù),P也為X的維度。
假設(shè)運行數(shù)據(jù)集降維后的維度為P′,PCA數(shù)據(jù)降維方法要求降維后的數(shù)據(jù)集D′和原運行數(shù)據(jù)集D2個數(shù)據(jù)集之間,應(yīng)當(dāng)具有最大投影方差和最小重構(gòu)代價。因此假設(shè)W為空間內(nèi)的一組標(biāo)準(zhǔn)正交基向量,且S=[w1w2…wP′]T,‖S‖2=1;Z為運行參數(shù)矩陣X在P′維空間中的投影,且Z=[zij]。其中i=1,2,…,M;j=1,2,…,P′。則運行數(shù)據(jù)集D中的運行參數(shù)xi與其在P′維空間的投影x′i·之間的歐拉距離,以及D和D′之間的最大投影方差和最小重構(gòu)代價的目標(biāo)優(yōu)化函數(shù)[13]為:
(1)
利用等式(1)構(gòu)造拉格朗日函數(shù)L(X,S,λ)=tr(STXXTS)-λ(I-STS)并求導(dǎo)可得:
(2)
GPR是利用高斯過程擬合目標(biāo)參數(shù)的機器學(xué)習(xí)算法。其本質(zhì)是在連續(xù)域上利用無限多個高斯分布組成目標(biāo)參數(shù)。高斯過程回歸可分別從權(quán)重空間角度和函數(shù)空間角度進(jìn)行推導(dǎo),本節(jié)從權(quán)重空間角度說明GPR的原理。則計算GPR算法權(quán)值矩陣W=[wij]的概率表達(dá)式為[14]:
(3)
(4)
根據(jù)核函數(shù)定義κ(X,X*)=σ-2φ(X)Tφ(X*),等式(4)可改寫為:
p(Y*|X,Y,X*,σ2)=N(k(X*,X)(K+
σ2I)-1Y,cov(Y*))
(5)
綜上所述,可利用PCA和GPR算法建立核電站瞬態(tài)運行參數(shù)數(shù)據(jù)壓縮與復(fù)原模型。其中PCA方法用于數(shù)據(jù)壓縮,提取運行數(shù)據(jù)集D中的有效數(shù)據(jù)特征,減少運行數(shù)據(jù)集D中的參數(shù)總量。GPR算法用于數(shù)據(jù)復(fù)原,即利用現(xiàn)有的數(shù)據(jù)特征計算各項瞬態(tài)運行參數(shù),從而復(fù)原運行數(shù)據(jù)集D。
通過本文對PCA和GPR算法的理論分析,建立了可用于壓縮和復(fù)原核電站瞬態(tài)運行參數(shù)的算法模型,并利用核電站瞬態(tài)運行參數(shù)對算法模型進(jìn)行驗證。
本文所采用的瞬態(tài)運行參數(shù)運行數(shù)據(jù)集來源于秦山300 MWe全范圍仿真機,該仿真機主要用于模擬正常運行或事故工況下核電站的運行狀態(tài),并計算各個時刻各項瞬態(tài)運行參數(shù)[15]。若利用機器學(xué)習(xí)方法分析核電站穩(wěn)態(tài)運行的測量數(shù)據(jù)時,模型的泛化性能較弱。因此本文運行數(shù)據(jù)集D所采用的數(shù)據(jù)來源于核電站降功率工況的瞬態(tài)運行參數(shù)。
瞬態(tài)運行數(shù)據(jù)集D降功率工況最終的目標(biāo)功率和降功率速率劃分為22個子數(shù)據(jù)集,每個子數(shù)據(jù)集的瞬態(tài)運行參數(shù)都是從降功率工況開始時刻起300 s內(nèi),仿真機計算的瞬態(tài)運行參數(shù),且仿真機數(shù)據(jù)采樣時間間隔為1 s。因此每個子數(shù)據(jù)集包括300組降功率工況的瞬態(tài)運行參數(shù),而且每組瞬態(tài)運行參數(shù)包括反應(yīng)堆堆芯功率、一回路冷卻劑流量等25種參數(shù)值。運行數(shù)據(jù)集D共包括6 600組降功率工況的瞬態(tài)運行參數(shù),其中5 000組運行參數(shù)作為訓(xùn)練樣本,1 600組參數(shù)作為測試樣本。對于超大瞬態(tài)運行參數(shù)的數(shù)據(jù)集而言,若對每組瞬態(tài)運行參數(shù)都進(jìn)行數(shù)據(jù)壓縮和復(fù)原的驗證,工作量較大。因此,可通過計算運行數(shù)據(jù)集D中的協(xié)方差矩陣,選擇協(xié)方差平均值最大和最小的瞬態(tài)運行參數(shù)作為驗證對象。若PCA和GPR算法對上述2組瞬態(tài)參數(shù)的數(shù)據(jù)壓縮和復(fù)原效果都較好,則可說明特征工程技術(shù)對數(shù)據(jù)集中其他瞬態(tài)運行參數(shù)進(jìn)行壓縮和復(fù)原同樣有效。運行數(shù)據(jù)集D中第i個參數(shù)和第j個參數(shù)的協(xié)方差cij可表示為:
(6)
圖1為運行數(shù)據(jù)集D歸一化后的協(xié)方差矩陣的熱力圖。圖1中顏色越深代表2組瞬態(tài)運行參數(shù)相關(guān)性越強,顏色越淺代表相關(guān)性越弱。圖中編號17對應(yīng)蒸汽發(fā)生器主蒸汽管道蒸汽出口質(zhì)量流速(以下簡稱蒸汽出口流速),其在25組瞬態(tài)運行參數(shù)中協(xié)方差的平均值最大,為0.625 2;編號25對應(yīng)穩(wěn)壓器底部水溫,其在25組瞬態(tài)運行參數(shù)中協(xié)方差的平均值最小,為0.002 3。因此選擇蒸汽出口流速和穩(wěn)壓器底部水溫作為數(shù)據(jù)壓縮和復(fù)原的驗證參數(shù)。
圖1 運行數(shù)據(jù)集D協(xié)方差矩陣的熱力圖Fig.1 The heat map of the covariance matrix of the operation data set D
由2.1節(jié)可知,利用主成分分析對運行數(shù)據(jù)集D數(shù)據(jù)壓縮的實質(zhì)是通過選擇運行數(shù)據(jù)集D前P′個較大的特征值對應(yīng)的特征向量,并組成P′維的運行數(shù)據(jù)集D′。通過對比等度量映射、自編碼器等其他幾個常用的數(shù)據(jù)降維方法,證明了主成分分析方法對運行數(shù)據(jù)集D的有效性。
圖2為當(dāng)驗證參數(shù)為蒸汽出口流速時,利用5種不同數(shù)據(jù)降維方法,先將運行數(shù)據(jù)集D降低到不同維度,再利用降維后的運行數(shù)據(jù)集D′訓(xùn)練4種機器學(xué)習(xí)回歸算法模型,算法模型計算的蒸汽出口流速和原運行數(shù)據(jù)集D中蒸汽出口流速的均方根誤差(mean square error,MSE)的對數(shù)值log(MSE)。
在圖2和圖3中,4種回歸算法包括高斯過程回歸、前饋神經(jīng)網(wǎng)絡(luò)(deep feedforward neural network,DNN)、支持向量回歸(support vector regression,SVR)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)。5種數(shù)據(jù)降維方法包括主成分分析(principal component analysis,PCA)、等度量映射(isometric mapping,Isomap)、局部線性嵌入(locally linear embedding,LLE)、自編碼器(auto encoder,AE)和變分自編碼器(variational auto encoder,VAE)。
圖2 4種回歸模型對蒸汽出口流速的計算誤差曲線Fig.2 The calculation error curves of the steam mass flow rate by four regression models
圖3為當(dāng)驗證參數(shù)為穩(wěn)壓器底部水溫時,4種回歸模型在利用不同方法降維后的運行數(shù)據(jù)集訓(xùn)練時,算法模型計算的穩(wěn)壓器底部水溫和原運行數(shù)據(jù)集D中穩(wěn)壓器底部水溫的MSE的對數(shù)值log(MSE)。
圖3 4種回歸模型對穩(wěn)壓器底部水溫的計算誤差曲線Fig.3 The calculation error curves of the water temperature at the bottom of the pressurizer by four regression models
通過將圖2(a)和圖3(a)與其他圖進(jìn)行對比可知,先利用PCA算法對運行數(shù)據(jù)集D進(jìn)行降維,然后利用降維后的運行數(shù)據(jù)集D′訓(xùn)練GPR算法模型對運行數(shù)據(jù)集D進(jìn)行數(shù)據(jù)復(fù)原的方法,蒸汽出口流速和穩(wěn)壓器水空間溫度的計算值與運行數(shù)據(jù)集D中原值的MSE最小。當(dāng)將運行數(shù)據(jù)集D的維度降低到20維時,GPR算法模型對蒸汽出口流速的計算誤差與原數(shù)據(jù)集訓(xùn)練GPR算法模型的計算誤差大致相同,降維后的運行數(shù)據(jù)集D′訓(xùn)練的GPR算法模型的計算值和原值MSE的對數(shù)值大約為-7,即計算值和原值的計算誤差大約為10-9。而且即使PCA算法將運行數(shù)據(jù)集D的維度降低至4維時,計算值和原值MSE的對數(shù)值仍在-1左右,計算誤差大約為0.1%。因此可以證明,PCA和GPR算法可以有效的對運行數(shù)據(jù)集D降維并復(fù)原,且復(fù)原后的瞬態(tài)運行參數(shù)和原數(shù)據(jù)之間的誤差較小。
圖4和圖5分別為當(dāng)利用PCA算法將運行數(shù)據(jù)集D降低到20維,運行數(shù)據(jù)集D中蒸汽出口流速和穩(wěn)壓器水空間溫度的原值,GPR算法的復(fù)原值,以及二者之間的計算誤差隨時間變化曲線圖。
圖4 高斯過程回歸模型計算蒸汽出口流速的復(fù)原值隨時間變化曲線Fig.4 The changing curves of the restored values of the steam mass flow rate calculated by Gaussian process regression
圖5 高斯過程回歸算法計算穩(wěn)壓器水空間溫度的復(fù)原值隨時間變化曲線Fig.5 The changing curves of the restored values of the water temperature of the pressurizer calculated by Gaussian process regression
圖4和圖5中,實際值為運行數(shù)據(jù)集D中蒸汽出口流速和穩(wěn)壓器底部水溫隨時間變化曲線;復(fù)原值為GPR算法復(fù)原的蒸汽出口流速和穩(wěn)壓器底部水溫隨時間變化曲線。誤差為復(fù)原值和運行數(shù)據(jù)集D中原值的誤差曲線。
由圖4和圖5可知,GPR算法對蒸汽出口流速和穩(wěn)壓器水空間溫度在各個時刻的復(fù)原值和原值的最大誤差不超過0.000 002。因此可說明當(dāng)利用PCA算法將運行數(shù)據(jù)集D的維度降低到20維后,GPR算法可有效的復(fù)原蒸汽出口流速和穩(wěn)壓器水空間溫度。然后通過圖1和式(6)可知,在瞬態(tài)運行數(shù)據(jù)集D中,可利用PCA算法對瞬態(tài)運行參數(shù)進(jìn)行壓縮,減少數(shù)據(jù)體積;也可利用GPR算法對壓縮后的數(shù)據(jù)進(jìn)行復(fù)原,且復(fù)原值和原值的計算誤差不超0.000 002。
綜上所述,由PCA和GPR算法組成的算法組合,可實現(xiàn)對核電站瞬態(tài)運行參數(shù)數(shù)據(jù)集的數(shù)據(jù)壓縮和數(shù)據(jù)復(fù)原,從而減少數(shù)據(jù)大小,提高數(shù)據(jù)傳輸效率,減少存儲空間。同時PCA算法提取的數(shù)據(jù)特征可作為數(shù)據(jù)特征項加速各類機器學(xué)習(xí)算法模型訓(xùn)練速度,減少算法模型復(fù)雜度。
1)當(dāng)將具有25種瞬態(tài)運行參數(shù)的運行數(shù)據(jù)集的維度降低至20維和4維時,高斯過程回歸算法對各項瞬態(tài)運行參數(shù)的復(fù)原值和運行數(shù)據(jù)集中原始值的誤差分別不超過0.002%和0.1%。特征工況技術(shù)可有效降低核電站瞬態(tài)運行參數(shù)數(shù)據(jù)集的維度,并實現(xiàn)高精度的數(shù)據(jù)復(fù)原。
2)在數(shù)據(jù)傳輸和存儲過程中,計算機只需要傳送和存儲壓縮后的數(shù)據(jù),從而降低數(shù)據(jù)傳輸和存儲量,提高數(shù)據(jù)傳輸效率,節(jié)約存儲空間。
3)當(dāng)使用各瞬態(tài)運行參數(shù)時,可對壓縮后的數(shù)據(jù)進(jìn)行復(fù)原。同時主成分分析算法壓縮后的數(shù)據(jù)也可作為數(shù)據(jù)特征補充核電站瞬態(tài)運行數(shù)據(jù)集,從而進(jìn)一步增強數(shù)據(jù)集,為后續(xù)核電站故障診斷算法提供判斷依據(jù),提高故障診斷算法對故障的識別類型精度,從而進(jìn)一步提升核電站運行的安全和可靠性。