宋霄森 余 刃 毛 偉 殷少軒
(海軍工程大學(xué) 武漢 430033)
熱管冷卻核反應(yīng)堆的設(shè)計理念最早于20 世紀(jì)60 年代提出,是通過將熱管和燃料棒交替排列,通過熱管非能動的將堆芯熱量傳遞給二回路的固態(tài)反應(yīng)堆[1~2]。因其模塊化的設(shè)計思想、簡化的反應(yīng)堆結(jié)構(gòu)設(shè)計、良好的固有安全特性與瞬態(tài)響應(yīng)特性等特點,迅速受到核科學(xué)家的關(guān)注[3]。
目前核動力裝置采用的功率控制技術(shù)仍然是以經(jīng)典控制理論為基礎(chǔ)的傳統(tǒng)控制技術(shù)。建立在經(jīng)典控制理論基礎(chǔ)上的PI(D)控制方法,因其易于設(shè)計和實現(xiàn),并具有良好的魯棒性,是核動力裝置功率控制中常用的方法。但是傳統(tǒng)的PI(D)控制方法也存在一些缺點,如PI(D)控制器的參數(shù)一般是固定的且難以在線整定,難以在整個運行工況范圍內(nèi)始終保持最優(yōu)的控制效果。隨著計算機技術(shù)和控制理論的發(fā)展,在傳統(tǒng)的PI(D)控制方法的基礎(chǔ)上,研究設(shè)計了多種新型PI(D)控制方法,如模糊PI 控制[4~5]、自適應(yīng)PI 控制[6]、神經(jīng)網(wǎng)絡(luò)PI 控制[7]、變參數(shù)PID控制算法[8]等。這些新型PI(D)控制方法在一定程度上彌補了傳統(tǒng)PI(D)控制方法的不足。為實現(xiàn)熱管冷卻核反應(yīng)堆在全工況范圍內(nèi)的功率優(yōu)化控制,本文研究了采用深度強化學(xué)習(xí)TD3(Twin delayed deep deterministic policy gradient)算法進(jìn)行PID控制器參數(shù)尋優(yōu)的方法。
假設(shè)堆內(nèi)的中子分布不隨空間的變化而變化,堆內(nèi)各處的中子密度分布是均勻的,采用點堆方程建立堆芯的中子動力學(xué)模型。將六組緩發(fā)中子點堆方程簡化為單組后得到的方程為式(1)所示[9]:
式中:nr為相對中子通量密度,即相對功率;β為緩發(fā)中子總份額;λ為衰變常數(shù);l為快中子一代平均壽命;ρ為堆芯引入總反應(yīng)性。
堆芯中的傳熱過程包括兩部分:1)燃料芯塊產(chǎn)熱,加熱自身并向氣隙傳熱;2)基體接收氣隙傳遞的熱量,加熱自身并向熱管傳熱。依據(jù)熱平衡原理,建立堆芯熱動力學(xué)模型如式(2)所示:
式中:Tf為燃料溫度;Tm為基體溫度;Tg_aν為布雷頓循環(huán)冷卻氣體平均溫度;Rg為熱管冷凝段與冷卻氣體間的傳熱熱阻;R?p為熱管總熱阻;單根燃料的穩(wěn)態(tài)初始功率。
熱管冷卻核反應(yīng)堆的反應(yīng)性反饋主要考慮燃料和基體的多普勒效應(yīng)以及燃料和基體的膨脹效應(yīng)。忽略熱管內(nèi)部的空泡效應(yīng)產(chǎn)生的反應(yīng)性反饋,以及反射層膨脹產(chǎn)生的反應(yīng)性反饋。使用αf與αm分別表示燃料和基體的總反饋系數(shù),它們均包含了多普勒效應(yīng)和膨脹效應(yīng),反應(yīng)性反饋方程如式(3)所示:
式中:ρr表示外部控制鼓轉(zhuǎn)動輸入的反應(yīng)性,ρf表示燃料反饋的反應(yīng)性,ρm表示基體反饋的反應(yīng)性;Tf0表示燃料初始溫度,Tm0表示基體初始溫度。
熱管冷卻核反應(yīng)堆在堆芯外圍布置有控制鼓,控制鼓可在0°~180°范圍內(nèi)水平轉(zhuǎn)動,向反應(yīng)堆引入反應(yīng)性,控制反應(yīng)堆功率變化??刂乒囊敕磻?yīng)性的速率與控制鼓轉(zhuǎn)動的角速度及其控制鼓微分價值有關(guān),控制鼓引入反應(yīng)性的微分表達(dá)式為
式中:Gr為控制鼓微分價值,Wr為控制鼓轉(zhuǎn)動角速度。
結(jié)合上述式(1)~(4),得到堆芯熱動力學(xué)模型的方程組,如式(5)所示:
對式(5)采用微擾法進(jìn)行線性處理后的系統(tǒng)表達(dá)式如式(6)所示:
通過狀態(tài)空間法來描述該模型如式(7)所示:
設(shè)狀態(tài)向量x、輸入向量u 和輸出向量y 分別:
狀態(tài)矩陣A、輸入矩陣B、輸出矩陣C 和前饋矩陣D分別為
PID 控制器由比例單元、積分單元、微分單元三部分組成,如式(8)所示[10],e(t)一般選取被控量與設(shè)定量的差值作為輸入信號。
熱管冷卻核反應(yīng)堆的輸出值和需求值得偏差值作為PID 控制器的輸入,PID 控制器輸出控制鼓的轉(zhuǎn)動角速度,控制鼓轉(zhuǎn)動,從而實現(xiàn)反應(yīng)堆功率的閉環(huán)控制,如圖1所示。
圖1 PID控制流程圖
PID 控制器的性能取決于KP、KI、KD 的選取。從所建立的熱管冷卻核反應(yīng)堆堆芯模型可以看出,反應(yīng)堆功率隨反應(yīng)性變化的特性與反應(yīng)堆所處的初始功率水平是密切相關(guān)的,采用一套固定的PID參數(shù)通常難以在整個運行工況范圍內(nèi)始終保持最優(yōu)的控制效果。
深度強化學(xué)習(xí)TD3 算法是基于Actor-Critic 框架來實現(xiàn)的,學(xué)習(xí)流程如圖2 所示。演員網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)都是由兩部分組成:1)演員網(wǎng)絡(luò)分為Actor網(wǎng)絡(luò)μ(S|?μ)和Target Actor網(wǎng)絡(luò)μ'(S|?μ');2)評論家網(wǎng)絡(luò)由Critic網(wǎng)絡(luò)-1Q1(S,A|θQ1)、Critic網(wǎng)絡(luò)-2Q2(S,A|θQ2)、Target Critic 網(wǎng)絡(luò)-1Q1'(S,A|θQ1')和Target Critic 網(wǎng)絡(luò)-2Q2'(S,A|θQ2')組成[11~12]。其中,S為系統(tǒng)狀態(tài)向量、A 為動作向量。?μ、?μ'、θQ1、θQ2、θQ1'和θQ2'分別為上述六個神經(jīng)網(wǎng)絡(luò)的參數(shù)值?;赥D3算法的強化學(xué)習(xí)步驟如下。
圖2 TD3算法學(xué)習(xí)流程圖
1)神經(jīng)網(wǎng)絡(luò)參數(shù)初始化:首先分別初始化Actor 網(wǎng)絡(luò)、Critic 網(wǎng)絡(luò)-1 和Critic 網(wǎng)絡(luò)-2 的初值為μ?、Qθ1和Qθ2,參數(shù)值分別為?、θ1和θ2;然后對Target Actor 網(wǎng)絡(luò)、Target Critic 網(wǎng)絡(luò)-1 和Target Critic 網(wǎng)絡(luò)-2 三個神經(jīng)網(wǎng)絡(luò)進(jìn)行初始化,此時將參數(shù)?、θ1和θ2復(fù)制給?'、θ1' 和θ2',以完成Target Actor網(wǎng)絡(luò)和Target Critic網(wǎng)絡(luò)參數(shù)的初始化。
2)初始化動作-狀態(tài)經(jīng)驗回放池(Replay Buffer),該回放池作為一個集合(S、A、R、S'、done)存放歷史信息。其中,經(jīng)驗回放池的目的是為了消除強化學(xué)習(xí)前后動作的相關(guān)性,從訓(xùn)練池中選取狀態(tài)可以加強對模型的訓(xùn)練效果。
3)Critic 網(wǎng)絡(luò)-1 和Critic 網(wǎng)絡(luò)-2 更新:在訓(xùn)練過程中,從Replay Buffer 選取一組數(shù)據(jù)為(S、A、R、S'、done),利用Target Actor 網(wǎng)絡(luò)計算出狀態(tài)S'下的動作如式(9)所示。
在迭代過程中,為了平滑策略期望值,對Target Actor 網(wǎng)絡(luò)中獲得的目標(biāo)動作A'加上一個噪聲,如式(10)所示。
在TD3 算法中,由于采用基于雙Critic 神經(jīng)網(wǎng)絡(luò)的思想,計算目標(biāo)值時需要選取Target Critic 神經(jīng)網(wǎng)絡(luò)中的最小值,如式(11)所示。
針對Critic 網(wǎng)絡(luò)-1 和Critic 網(wǎng)絡(luò)-2 的更新,利用Critic 網(wǎng)絡(luò)的評估值和Target Critic 的目標(biāo)值之間的誤差Lci,基于梯度下降算法求取最小化誤差,此時可得到更新的Critic網(wǎng)絡(luò)參數(shù),如式(12)所示。
4)Actor 網(wǎng)絡(luò)更新:Actor 網(wǎng)絡(luò)采取延遲更新策略,即當(dāng)Critic 進(jìn)行多次更新后,完成一次對Actor網(wǎng)絡(luò)的更新(常采用Critic 更新兩次,Actor 更新一次)?;诋?dāng)前狀態(tài)S 通過Actor網(wǎng)絡(luò)可得到狀態(tài)S對應(yīng)的新動作A,如式(13)所示。通過Critic 網(wǎng)絡(luò)計算基于當(dāng)前狀態(tài)及動作(S,Anew)的評估值qnew,如式(14)所示。采用梯度上升算法使得qnew最大化,從而完成對Actor 網(wǎng)絡(luò)的更新。在更新qnew值過程中,基于Actor網(wǎng)絡(luò)目標(biāo)在于最大化累計期望價值,所以無需選取最小的評估值Q,即任意選取兩個Critic 網(wǎng)絡(luò)獲得的Q 值即可,此處選取了Critic 網(wǎng)絡(luò)-1。
5)Target Actor 和Target Critic 網(wǎng)絡(luò)更新:在網(wǎng)絡(luò)初始化時,通過復(fù)制Actor和Critic神經(jīng)網(wǎng)絡(luò)的參數(shù)值進(jìn)行Target Actor和Target Critic網(wǎng)絡(luò)參數(shù)的初始化。在訓(xùn)練過程中,則通過軟更新的方法代替通過直接復(fù)制網(wǎng)絡(luò)參數(shù)進(jìn)行目標(biāo)網(wǎng)絡(luò)的更新。通過引入一定的學(xué)習(xí)率τ,通過將舊的Target Actor 和Target Critic 網(wǎng)絡(luò)參數(shù)和對應(yīng)時刻Actor 和Critic 網(wǎng)絡(luò)參數(shù)進(jìn)行加權(quán)平均,并將求解的值賦予Target Actor和Target Critic,如式(15)和(16)所示。
通過Simulink 中的強化學(xué)習(xí)(RL)模塊來完成對Actor 和Critic 網(wǎng)絡(luò)的搭建,Actor 和Critic 網(wǎng)絡(luò)均由輸入層、輸出層和一層全連接層構(gòu)成,全連接層包含128 個神經(jīng)元。在RL 神經(jīng)網(wǎng)絡(luò)模塊外部還需要設(shè)計獎勵函數(shù)、終止函數(shù)、觀測器模塊。
獎勵函數(shù)模塊是Critic網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)選取對應(yīng)價值最大的動作,使得相對功率輸出可以跟蹤輸入的階躍信號變化,并且使得相對功率和階躍信號的偏差值盡可能的小或者為零,因此選取相對功率偏差值e(t)和控制鼓轉(zhuǎn)動角速度W(t-1)作為獎勵函數(shù)模塊的輸入,設(shè)計的獎勵函數(shù)如式(17)所示。
終止函數(shù)模塊是為了信號終止訓(xùn)練,可以用來終止一段進(jìn)展順利或者不順利的訓(xùn)練過程。針對該模型基于在階躍信號下進(jìn)行訓(xùn)練,在Q值得以收斂的區(qū)域并具有較好的控制效果來決定訓(xùn)練終止信號。
觀測器模塊是為了選取系統(tǒng)模型合適的狀態(tài)輸入到Actor網(wǎng)絡(luò)中。為了使TD3算法模型訓(xùn)練結(jié)束后可以輸出PID 控制器的三個最優(yōu)控制參數(shù)KP、KI、KD,系統(tǒng)選取相對功率偏差值e的比例、積分、微分三個值作為觀測狀態(tài)向量輸入到Actor 網(wǎng)絡(luò)中,Actor 網(wǎng)絡(luò)執(zhí)行的動作輸出為控制鼓的轉(zhuǎn)動角速度,并將其作為堆芯模型的輸入,由此構(gòu)建了可以替代PID 控制器的具有觀測誤差、誤差積分、誤差微分的全連接層Actor神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的權(quán)重值則為PID控制器的控制參數(shù)KP、KI、KD。
以熱管冷卻核反應(yīng)堆在相對功率從0.4階躍到0.5 的運行工況為例,對比通過試湊法選取的PID控制參數(shù)和基于TD3進(jìn)行PID參數(shù)尋優(yōu)后的PID控制器控制效果。
圖3是通過試湊法選取PID控制參數(shù)的控制效果,仿真總時間為t=100s,在相對功率從0.4 階躍到0.5過程中,控制器使反應(yīng)堆功率在28s后重新到達(dá)穩(wěn)態(tài),上升時間為5s,達(dá)到峰值時間為10s,超調(diào)的持續(xù)時間為23s,超調(diào)量為3.8%。
圖3 基于試湊法選取的PID參數(shù)的控制效果圖
圖4 是基于TD3 算法的控制參數(shù)尋優(yōu)的模型訓(xùn)練圖,相對功率從0.4 階躍到0.5 運行工況下,模型訓(xùn)練了將近325 個時間步后停止,此時基于每一步動作的價值和平均價值以及Q0均完成收斂,表明針對0.4~0.5 階躍工況的模型訓(xùn)練完成。如圖5所示,為通過參數(shù)尋優(yōu)后的PID 控制器控制效果,仿真時間共計200s,在相對功率從0.4階躍到0.5過程中,采用參數(shù)尋優(yōu)設(shè)計的PID 控制器使反應(yīng)堆系統(tǒng)在22s 后重新到達(dá)穩(wěn)態(tài),系統(tǒng)上升時間為2s,達(dá)到峰值時間為4s,產(chǎn)生超調(diào)的時間為20s,超調(diào)量為0.93%。
圖4 基于TD3算法在0.4~0.5階躍工況下的模型訓(xùn)練圖
圖5 基于TD3參數(shù)尋優(yōu)的控制效果圖
為驗證通過參數(shù)尋優(yōu)設(shè)計的PID 控制器具有全工況最優(yōu)控制,本文對熱管冷卻核反應(yīng)堆的四種不同運行工況進(jìn)行了PID 參數(shù)尋優(yōu),并和基于試湊法選取的在滿功率運行工況下具有較好控制效果的傳統(tǒng)PID 控制器的控制效果作對比,控制效果對比如表1所示。
表1 控制效果對比表
由表1 可知,基于參數(shù)尋優(yōu)設(shè)計的PID 控制器相較于傳統(tǒng)PID 控制器,在相同運行工況下具有更優(yōu)秀的控制效果,且在全工況范圍內(nèi)均可實現(xiàn)優(yōu)化控制。
本文針對熱管冷卻核反應(yīng)堆的功率控制設(shè)計PID 控制器,并提出了一種基于TD3 算法的PID 參數(shù)尋優(yōu)控制。由仿真結(jié)果可知,基于TD3參數(shù)尋優(yōu)設(shè)計的PID 控制器具有更快的響應(yīng)速度,更小的超調(diào)量。該算法可以有效避免通過試湊法選取PID控制參數(shù)存在的偶然性,實現(xiàn)熱管冷卻核反應(yīng)堆全工況運行范圍內(nèi)的優(yōu)化控制。