鄧紹斌,朱軍,周曉鋒*,李帥,劉舒銳
(1.中國科學(xué)院 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽 110016; 2.中國科學(xué)院 沈陽自動化研究所,沈陽 110169;3.中國科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,沈陽 110169; 4.中國科學(xué)院大學(xué),北京 100049)(?通信作者電子郵箱zhouxf@sia.cn)
基于局部策略交互探索的深度確定性策略梯度的工業(yè)過程控制方法
鄧紹斌1,2,3,4,朱軍1,2,3,周曉鋒1,2,3*,李帥1,2,3,4,劉舒銳1,2,3
(1.中國科學(xué)院 網(wǎng)絡(luò)化控制系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,沈陽 110016; 2.中國科學(xué)院 沈陽自動化研究所,沈陽 110169;3.中國科學(xué)院 機(jī)器人與智能制造創(chuàng)新研究院,沈陽 110169; 4.中國科學(xué)院大學(xué),北京 100049)(?通信作者電子郵箱zhouxf@sia.cn)
為了實(shí)現(xiàn)對非線性、滯后性和強(qiáng)耦合的工業(yè)過程穩(wěn)定精確的控制,提出了一種基于局部策略交互探索的深度確定性策略梯度(LPIE-DDPG)的控制方法用于深度強(qiáng)化學(xué)習(xí)的連續(xù)控制。首先,使用深度確定性策略梯度(DDPG)算法作為控制策略,從而極大地減小控制過程中的超調(diào)和振蕩現(xiàn)象;同時(shí),使用原控制器的控制策略作為局部策略進(jìn)行搜索,并以交互探索規(guī)則進(jìn)行學(xué)習(xí),提高了學(xué)習(xí)效率和學(xué)習(xí)穩(wěn)定性;最后,在Gym框架下搭建青霉素發(fā)酵過程仿真平臺并進(jìn)行實(shí)驗(yàn)。仿真結(jié)果表明,相較于DDPG,LPIE-DDPG在收斂效率上提升了27.3%;相較于比例-積分-微分(PID),LPIE-DDPG在溫度控制效果上有更少的超調(diào)和振蕩現(xiàn)象,在產(chǎn)量上青霉素濃度提高了3.8%??梢娝岱椒苡行嵘?xùn)練效率,同時(shí)提高工業(yè)過程控制的穩(wěn)定性。
工業(yè)過程控制;深度強(qiáng)化學(xué)習(xí);深度確定性策略梯度;局部策略交互探索;青霉素發(fā)酵過程
隨著現(xiàn)代化工業(yè)過程集成化加深,動態(tài)控制性能要求越來越高。精準(zhǔn)有效的控制可以促進(jìn)工業(yè)過程的穩(wěn)定、產(chǎn)品質(zhì)量的提高和經(jīng)濟(jì)效益的增長,因此控制策略扮演著越來越重要的角色。
大多數(shù)工業(yè)過程是非線性、滯后性和強(qiáng)耦合的多輸入單輸出過程,青霉素發(fā)酵過程是典型之一,面對不同的工業(yè)要求,往往需要制定不同的控制策略。針對受時(shí)變干擾和時(shí)不變不確定的蒸餾塔過程,Bansal等[1]使用單變量比例-積分-微分(Proportion-Integration-Differentiation, PID)控制器對蒸餾塔過程進(jìn)行控制,取得了較好的經(jīng)濟(jì)效益,但面對多目標(biāo)的情況存在控制不足的問題;Asteasuain等[2]提出了使用多變量PID控制器對連續(xù)攪拌釜反應(yīng)器進(jìn)行控制,實(shí)現(xiàn)了單變量到多變量的控制,但未考慮到控制系統(tǒng)的自適應(yīng)性;趙海丞等[3]提出變調(diào)節(jié)周期PID方法來控制溫度系統(tǒng),解決了溫控系統(tǒng)精度受限的問題,一定程度上提高了系統(tǒng)自適應(yīng)性;包元興等[4]提出模糊PID與跟隨控制相結(jié)合的控制策略,實(shí)現(xiàn)了對具有純滯后、大慣性及通道間強(qiáng)耦合特性爐溫的準(zhǔn)確控制,進(jìn)一步提高了系統(tǒng)自適應(yīng)性。PID參數(shù)少、便于掌握,但隨著控制過程復(fù)雜化,參數(shù)調(diào)整往往需要專家長時(shí)間的調(diào)整。
為了提高復(fù)雜工業(yè)系統(tǒng)的控制性能,研究者們引入了不同的控制方法。吳鵬松等[5]采用多變量解耦和內(nèi)??刂?,實(shí)現(xiàn)了對具有大滯后、強(qiáng)耦合特性系統(tǒng)的穩(wěn)定控制;張惠琳等[6]針對復(fù)雜的浮標(biāo)控制系統(tǒng),提出了基于雙閉環(huán)反饋回路的模糊PID定深控制,實(shí)現(xiàn)了對浮標(biāo)良好的控制和穩(wěn)定;莊緒君等[7]通過遺傳算法和迭代動態(tài)規(guī)劃結(jié)合的混合優(yōu)化控制策略,解決了青霉素發(fā)酵模型的不確定性敏感的問題。但上述方法都無法實(shí)現(xiàn)在線學(xué)習(xí),造成控制系統(tǒng)設(shè)計(jì)過程復(fù)雜,同時(shí)無法滿足最優(yōu)控制。
深度強(qiáng)化學(xué)習(xí)是一種利用數(shù)據(jù)驅(qū)動,通過與系統(tǒng)交互實(shí)現(xiàn)端到端控制的方法,將深度強(qiáng)化學(xué)習(xí)應(yīng)用到這類工業(yè)控制過程中,可以有效實(shí)現(xiàn)最優(yōu)控制,再進(jìn)一步通過對不同場景進(jìn)行設(shè)定,能夠有效地提高算法的自適應(yīng)性。郝鵑等[8]針對車間不確定環(huán)境調(diào)度問題,提出了使用平均強(qiáng)化學(xué)習(xí)進(jìn)行控制,實(shí)現(xiàn)了車間的自適應(yīng)控制,但該方法的應(yīng)用局限于離散動作的工業(yè)環(huán)境;王建平等[9]針對工業(yè)制造中傳統(tǒng)二連桿控制效率低和適用性低等缺點(diǎn),提出了使用基于深度強(qiáng)化學(xué)習(xí)的方法,實(shí)現(xiàn)了連續(xù)控制穩(wěn)定性和適用性的提高,但忽略了復(fù)雜工業(yè)數(shù)據(jù)導(dǎo)致訓(xùn)練困難的問題。
針對非線性、滯后性和強(qiáng)耦合的工業(yè)過程難以滿足控制器的在線穩(wěn)定訓(xùn)練需求和精準(zhǔn)穩(wěn)定的連續(xù)控制需求,本文提出了基于局部策略交互探索的深度確定性策略梯度(Local Policy Interaction Exploration-based Deep Deterministic Policy Gradient, LPIE-DDPG)的控制方法。一方面,深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)有很強(qiáng)的自我學(xué)習(xí)能力,可以根據(jù)不同環(huán)境學(xué)習(xí)最優(yōu)控制策略,在最優(yōu)控制中展現(xiàn)出直接自適應(yīng)性。另一方面,針對DDPG學(xué)習(xí)效率不足,引入PID在工業(yè)控制中的控制邏輯,將PID的控制策略以專家經(jīng)驗(yàn)的形式作為局部策略,并通過交互規(guī)則學(xué)習(xí)PID的控制策略,最后進(jìn)行再探索和再利用,完成最優(yōu)策略的學(xué)習(xí)。其中,交互規(guī)則保證了代理在強(qiáng)相似的工業(yè)數(shù)據(jù)中正常學(xué)習(xí),在線局部策略提高了代理的收斂速度,再探索和再利用保留了代理的尋優(yōu)能力,使得DDPG能收斂于最優(yōu)策略。最后,本文通過具有代表性的多輸出單輸出過程——青霉素發(fā)酵過程進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種以系統(tǒng)狀態(tài)為輸入、以策略函數(shù)為輸出的方法,作為自監(jiān)督的學(xué)習(xí)方式,一方面基于行動和獎勵(lì)數(shù)據(jù)進(jìn)行反復(fù)訓(xùn)練,優(yōu)化行動策略,另一方面自主地與環(huán)境互動,觀測并獲取環(huán)境反饋[10]。
深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合,深度神經(jīng)網(wǎng)絡(luò)克服了強(qiáng)化學(xué)習(xí)方法只能應(yīng)用于非凸策略函數(shù)的局限,解決了強(qiáng)化學(xué)習(xí)算法不能應(yīng)用到非常復(fù)雜的決策情景的問題,實(shí)現(xiàn)了端到端的學(xué)習(xí)。
DDPG是深度強(qiáng)化學(xué)習(xí)中一種基于策略的強(qiáng)化學(xué)習(xí)方法,可以在連續(xù)行為空間中尋找最優(yōu)策略[11]。
對行動價(jià)值網(wǎng)絡(luò)的訓(xùn)練是基于最小化損失函數(shù):
而現(xiàn)實(shí)網(wǎng)絡(luò)中演說家網(wǎng)絡(luò)使用策略梯度算法更新的參數(shù)為:
網(wǎng)絡(luò)參數(shù)復(fù)制采用軟更新方式:
DDPG仍然存在如何權(quán)衡探索和利用的矛盾,學(xué)習(xí)過程中樣本效率低,學(xué)習(xí)成本高。針對學(xué)習(xí)效率不足的問題,Hou等[12]使用優(yōu)先經(jīng)驗(yàn)重放池代替經(jīng)驗(yàn)重放緩沖池,可以極大縮短網(wǎng)絡(luò)總訓(xùn)練時(shí)間。但采用比例優(yōu)先性定義時(shí),經(jīng)驗(yàn)被抽取的概率正比于經(jīng)驗(yàn)時(shí)序誤差值,時(shí)序誤差值越大,經(jīng)驗(yàn)被回放的概率更大。因此在工業(yè)過程中,非良性控制經(jīng)驗(yàn)將在回放經(jīng)驗(yàn)池被一直回放,良性控制的經(jīng)驗(yàn)得不到回放,代理的學(xué)習(xí)效果受時(shí)序誤差離群值的不利影響,優(yōu)先經(jīng)驗(yàn)重放池失效。
在模仿學(xué)習(xí)中,代理像人類專家那樣執(zhí)行一種行為,最大化預(yù)期總回報(bào),可以有效地解決探索的問題,但是由于代理通常只模仿專家的標(biāo)注行為,代理的表現(xiàn)不能超過主題專家或主管[13]。
本文將專家知識應(yīng)用到探索和策略估計(jì)中,提出了基于局部策略交互探索的深度確定性策略梯度算法,通過在線收集原控制器的控制經(jīng)驗(yàn),以模仿學(xué)習(xí)的方式,加快訓(xùn)練智能體,LPIE-DDPG的結(jié)構(gòu)如圖1所示。
圖1 LPIE-DDPG的結(jié)構(gòu)Fig. 1 Structure of LPIE-DDPG
Agent內(nèi)部結(jié)構(gòu)(DDPG):現(xiàn)實(shí)網(wǎng)絡(luò)中演說家Actor從經(jīng)驗(yàn)池中取出作為輸入,并輸出一個(gè)表示從連續(xù)動作空間中選擇的動作的單一實(shí)值,經(jīng)過環(huán)境得到當(dāng)前獎勵(lì),隨后目標(biāo)網(wǎng)絡(luò)中演說家Actor根據(jù)下一個(gè)狀態(tài)輸出動作并傳給目標(biāo)網(wǎng)絡(luò)中評論家Critic。
基于局部策略交互探索(Local Policy Interaction Exploration, LPIE)的流程結(jié)構(gòu)包括以下兩部分。
策略更新 隨機(jī)地從經(jīng)驗(yàn)池取出經(jīng)驗(yàn)進(jìn)行網(wǎng)絡(luò)更新。
探索階段 使用Agent網(wǎng)絡(luò)進(jìn)行自主探索,通過試錯(cuò)的形式完成搜索和經(jīng)驗(yàn)獲取。
策略更新 從經(jīng)驗(yàn)池取出經(jīng)驗(yàn)進(jìn)行網(wǎng)絡(luò)更新。
自由探索保證了Agent網(wǎng)絡(luò)更新不會陷入局部策略,朝著最優(yōu)策略探索和學(xué)習(xí)。
LPIE-DDPG算法的具體步驟如算法1所示。
算法1 基于局部策略交互探索的深度確定性策略梯度。
3) 獲取初始狀態(tài)
7) else
9) end if
13) if 達(dá)到網(wǎng)絡(luò)的策略優(yōu)化更新條件then:
15) 評論家根據(jù)式(1)更新網(wǎng)絡(luò)參數(shù)
16) 演說家根據(jù)式(2)更新網(wǎng)絡(luò)參數(shù)
18) end if
19) end for
20) end for
將深度強(qiáng)化學(xué)習(xí)控制應(yīng)用到多輸入單輸出的工業(yè)過程的控制流程如下:
1)建立實(shí)際系統(tǒng)交互模型。
2)根據(jù)實(shí)際系統(tǒng)模型建立馬爾可夫模型。
3)驗(yàn)證實(shí)際系統(tǒng)交互模型的準(zhǔn)確性和馬爾可夫模型的可行性。
4)根據(jù)馬爾可夫模型設(shè)置模型參數(shù),如狀態(tài)空間、動作空間、獎勵(lì)函數(shù)等。
5)借鑒原控制器的控制策略,對代理進(jìn)行多次訓(xùn)練。
6)將代理應(yīng)用到控制過程,實(shí)現(xiàn)對系統(tǒng)的有效控制。
青霉素仿真過程是青霉素發(fā)酵的一系列過程:青霉素菌種在合適的培養(yǎng)基、PH、溫度和通氣攪拌等發(fā)酵條件下進(jìn)行生長和合成青霉素的代謝活動[14]。青霉素發(fā)酵過程用到發(fā)酵罐、冷水調(diào)節(jié)器、熱水調(diào)節(jié)器、攪拌器和酸堿液調(diào)節(jié)器,青霉素生產(chǎn)發(fā)酵過程的流程如圖2所示。
圖2 青霉素發(fā)酵過程Fig. 2 Penicillin fermentation process
青霉素發(fā)酵過程是一個(gè)典型的非線性、強(qiáng)耦合和滯后性的間歇過程。青霉素發(fā)酵過程被劃分為兩個(gè)階段:菌體生長期和青霉素合成期[15]。青霉素發(fā)酵過程是一個(gè)長時(shí)間持續(xù)的生產(chǎn)過程,其總過程大約在400 h。前一個(gè)階段是菌種生長階段,持續(xù)50 h~60 h,后兩個(gè)階段是青霉素合成和菌體衰老階段,持續(xù)340 h~350 h。在不同時(shí)期,菌體的生長環(huán)境又受諸多因素影響,在前兩個(gè)階段,青霉素生長的最佳溫度是303 K,最佳PH是6.2~6.5,在后兩個(gè)階段,青霉素合成的最佳溫度是298 K,最佳PH是6.5~6.9。這使得青霉素發(fā)酵過程是一個(gè)非線性和多動態(tài)的過程,并且發(fā)酵過程有9個(gè)初始變量、7個(gè)過程變量,這使得青霉素發(fā)酵過程是一個(gè)多輸入和強(qiáng)耦合過程。
本文選取的研究對象是青霉素發(fā)酵過程,青霉素發(fā)酵過程的控制與強(qiáng)化學(xué)習(xí)結(jié)合的前提就是建立青霉素發(fā)酵的馬爾可夫模型。定義青霉素發(fā)酵的馬爾可夫模型如圖3所示:是由青霉素發(fā)酵過程的初始狀態(tài)和可變的操縱變量組成的狀態(tài)空間,是由青霉素發(fā)酵過程的可控變量組成的動作空間,是青霉素發(fā)酵過程不同狀態(tài)之間的轉(zhuǎn)移概率,是在當(dāng)前狀態(tài)執(zhí)行策略獲得的即時(shí)獎勵(lì)。
圖3 青霉素發(fā)酵馬爾可夫模型Fig. 3 Markov model of penicillin fermentation
青霉素合成期和菌體自溶期是青霉素合成的關(guān)鍵時(shí)期,溫度和PH是青霉素合成的關(guān)鍵影響因素,因此本文選取青霉素合成期和菌體自溶期作為實(shí)驗(yàn)的背景,青霉素合成過程中以溫度控制作為實(shí)驗(yàn)內(nèi)容。針對選取實(shí)驗(yàn)內(nèi)容的實(shí)際控制情況,青霉素發(fā)酵過程馬爾可夫模型的具體參數(shù)規(guī)定如下:
在保證PH穩(wěn)定控制的情況下,基于生化反應(yīng)各個(gè)狀態(tài)值的強(qiáng)耦合性和強(qiáng)相關(guān)性,選擇當(dāng)前時(shí)刻的氧氣濃度、菌體濃度、青霉素濃度(g/L)、培養(yǎng)基體積(L)、二氧化碳濃度、發(fā)酵器反應(yīng)溫度和溫度差作為狀態(tài)空間參數(shù)。
根據(jù)實(shí)際控制原則,選擇實(shí)際控制過程中的被控變量-冷水值作為控制動作。
轉(zhuǎn)移概率取決于當(dāng)前狀態(tài)執(zhí)行動作策略后的新狀態(tài)。
由于青霉素合成的需要,溫度應(yīng)保持在298 K,因此,獎勵(lì)函數(shù)定義如下:
本文的仿真環(huán)境是基于Matlab/Simulink環(huán)境的青霉素發(fā)酵過程仿真平臺[16],使用Python語言,在Gym框架下完成了青霉素仿真模型的遷移。
部分主要狀態(tài)方程如生物質(zhì)濃度的計(jì)算式為:
溫度對微生物比生長速率的影響為:
青霉素濃度的生產(chǎn)用非生長伴隨產(chǎn)物形成動力學(xué)模型表示:
考慮到溫度對發(fā)酵過程的影響,本文對完成控制過程的目標(biāo)設(shè)定為:在PH穩(wěn)定控制的情況下,實(shí)現(xiàn)溫度值調(diào)控的低超調(diào)和低振蕩。
1)神經(jīng)網(wǎng)絡(luò)參數(shù)。
LPIE-DDPG網(wǎng)絡(luò)分為演說家網(wǎng)絡(luò)(Actor)和評論家網(wǎng)絡(luò)(Critic),輸入神經(jīng)元數(shù)和輸出神經(jīng)元數(shù)分別對應(yīng)狀態(tài)個(gè)數(shù)和動作個(gè)數(shù),隱含神經(jīng)元數(shù)由實(shí)驗(yàn)測試所得,根據(jù)損失函數(shù)的下降趨勢,分別確定學(xué)習(xí)率的大小,激活函數(shù)選擇能使模型收斂速度穩(wěn)定的ReLU(Rectified Linear Unit)函數(shù),具體神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。
表1 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置Tab. 1 Neural network parameter setting
2)仿真平臺初始參數(shù)。
在仿真模型中,故障變量包含通風(fēng)率、攪拌機(jī)功率和底物的喂養(yǎng)速率。通風(fēng)率噪聲設(shè)置為1 L/h,攪拌功率噪聲設(shè)置為0.06 W,底物的喂養(yǎng)速率不變。仿真平臺其他初始參數(shù)如表2所示,其中青霉素濃度指青霉素產(chǎn)量在培養(yǎng)基中的占比,發(fā)酵器反應(yīng)溫度是在發(fā)酵過程中受外界環(huán)境和產(chǎn)生熱影響的溫度值。
3)算法超參數(shù)。
訓(xùn)練總集數(shù)為2 000,總步數(shù)為200步,折扣因子和經(jīng)驗(yàn)池容量等超參數(shù)的設(shè)置如表3所示。
本文規(guī)定3個(gè)指標(biāo)來對控制策略進(jìn)行評價(jià),分別為溫度變化、青霉素產(chǎn)量和抗干擾能力。其中,溫度變化指控制溫度和目標(biāo)溫度298 K的差值大小,青霉素產(chǎn)量為在培養(yǎng)基中的青霉素濃度,抗干擾能力為在干擾信號下對溫度的穩(wěn)定控制能力(相同條件下,溫度變化差值越小,青霉素產(chǎn)量越高,抗干擾能力越強(qiáng),控制策略越優(yōu))。
訓(xùn)練過程如圖4所示,其中15 000為PID控制情況下每集的獎勵(lì)累加,并將其作為局部策略引入到DDPG。此外,還將LPIE引入到DQN(Deep Q-learning Network)中,形成局部策略交互探索DQN(Local Policy Interaction Exploration-based Deep Q-learning Network, LPIE-DQN)。軸是訓(xùn)練集數(shù),軸是平均獎勵(lì),考慮到獎勵(lì)受訓(xùn)練過程中探索的影響,本文采用9∶1的獎勵(lì)累加形式,具體如式(12)所示:
表2 青霉素發(fā)酵過程變量的初始值Tab. 2 Initial values of penicillin fermentation process variables
表3 算法超參數(shù)設(shè)置Tab. 3 Algorithm hyperparameter setting
圖4 不同算法隨迭代次數(shù)變化的獎勵(lì)值Fig. 4 Reward values of different algorithms changing with number of iterations
相較于DDPG,LPIE-DDPG迅速地在100集左右達(dá)到局部收斂,并在800集處達(dá)到最優(yōu),收斂總平均獎勵(lì)達(dá)到18 000,收斂效率提升了27.3%。此外,還對比了DQN和LPIE-DQN的學(xué)習(xí)效率,LPIE-DQN相較DQN更早達(dá)到收斂,在100集就完成了局部收斂,具體結(jié)果如表4所示。
通過對代理進(jìn)行仿真訓(xùn)練,生成最優(yōu)代理。最優(yōu)代理對青霉素發(fā)酵過程的控制結(jié)果如下3個(gè)指標(biāo)所示。
1)溫度變化指標(biāo)。在初始溫度為299 K和無干擾的條件下,不同方法的溫度變化如圖5所示。從圖5可以看出,相較于PID和LPIE-DQN,LPIE-DDPG的溫度控制表現(xiàn)出無超調(diào)和無振蕩。
表4 不同方法的學(xué)習(xí)效率對比Tab. 4 Comparison of learning efficiency of different methods
2)青霉素產(chǎn)量指標(biāo)。在同等初始條件下,青霉素發(fā)酵過程的產(chǎn)量結(jié)果如圖6所示。由圖6可以看出,相較于PID控制,使用LPIE-DDPG控制的青霉素產(chǎn)量濃度值提高了3.8%;相較于LPIE-DQN,LPIE-DDPG具有穩(wěn)定持續(xù)的高青霉素濃度值產(chǎn)量。
圖5 LPIE-DDPG、LPIE-DQN和PID的溫度控制效果對比Fig. 5 Comparison of temperature control effect of LPIE-DDPG, LPIE-DQN and PID
圖6 LPIE-DDPG、LPIE-DQN和PID控制下的青霉素產(chǎn)量對比Fig. 6 Comparison of penicillin yield under LPIE-DDPG,LPIE-DQN and PID control
3)抗干擾能力指標(biāo)。為了檢驗(yàn)系統(tǒng)的抗干擾能力,分別在20 h時(shí)刻和120 h時(shí)刻引入正向脈沖干擾和負(fù)向脈沖干擾,結(jié)果如圖7所示。由圖7可以看出,相較于PID和LPIE-DQN,LPIE-DDPG對含有干擾信號的環(huán)境具有更加平緩穩(wěn)定的控制性能。
圖7 LPIE-DDPG、LPIE-DQN和PID的抗干擾性對比Fig. 7 Comparison of interference resistance of LPIE-DDPG, LPIE-DQN and PID
針對工業(yè)控制過程的非線性、強(qiáng)耦合、滯后性等特點(diǎn), 本文提出了基于局部策略交互探索深度確定性策略梯度的控制方法。該方法以DDPG為框架,使用原控制器的控制策略進(jìn)行學(xué)習(xí),以交互探索的方式保證經(jīng)驗(yàn)回放的可行性,通過自由探索的形式從環(huán)境中直接學(xué)習(xí),最后通過與工業(yè)系統(tǒng)直接交互,完成精準(zhǔn)、穩(wěn)定的控制。基于青霉素仿真模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文方法有更高的學(xué)習(xí)效率和更快速的收斂性能,同時(shí)提高了工業(yè)過程控制的穩(wěn)定性。
未來的工作將研究在實(shí)際生產(chǎn)中應(yīng)用LPIE-DDPG,通過在探索過程中添加相關(guān)安全措施和優(yōu)化獎勵(lì)函數(shù)來滿足實(shí)際生產(chǎn)需求、降低生產(chǎn)成本。
[1] BANSAL V, PERKINS J D, PISTIKOPOULOS E N. A case study in simultaneous design and control using rigorous, mixed-integer dynamic optimization models [J]. Industrial and Engineering Chemistry Research, 2002, 41(4): 760-778.
[2] ASTEASUAIN M, BANDONI A, SARMORIA C, et al. Simultaneous process and control system design for grade transition in styrene polymerization [J]. Chemical Engineering Science, 2006, 61(10): 3362-3378.
[3] 趙海丞,鄒應(yīng)全,劉睿佳,等.溫控系統(tǒng)中變調(diào)節(jié)周期PID算法[J].計(jì)算機(jī)應(yīng)用,2016,36(S2):116-119.(ZHAO H C,ZOU Y Q, LIU R J, et al. PID algorithm of variable adjustment period based on temperature control system [J]. Journal of Computer Applications, 2016, 36(S2): 116-119.)
[4] 包元興,丁炯,楊遂軍,等.強(qiáng)耦合雙通道熱分析爐溫度跟隨控制策略研究[J].測控技術(shù),2016,35(5):70-74.(BAO Y X, DING J,YANG S J, et al. Study on temperature following control strategy for strong-coupled dual-channel thermal analysis furnace [J]. Measurement and Control Technology, 2016, 35(5): 70-74.)
[5] 吳鵬松,吳朝野,周東華.大純滯后信號解耦內(nèi)模控制系統(tǒng)研究[J].化工自動化及儀表,2012,39(9):1115-1117,1176.(WU P S, WU C Y, ZHOU D H. Research on signal-decoupling internal mode control system with big time lag [J]. Control and Instruments in Chemical Industry, 2012, 39(9): 1115-1117, 1176.)
[6] 張惠琳,李醒飛,楊少波,等.深海自持式智能浮標(biāo)雙閉環(huán)模糊PID定深控制[J].信息與控制,2019,48(2):202-208,216.(ZHANG H L, LI X F, YANG S B, et al. Dual closed-loop fuzzy PID depth control for deep-sea self-holding intelligent buoy [J]. Information and Control, 2019, 48(2): 202-208, 216.)
[7] 莊緒君,李宏光.基于遺傳算法與迭代動態(tài)規(guī)劃混合策略的青霉素發(fā)酵過程優(yōu)化控制[J].計(jì)算機(jī)與應(yīng)用化學(xué),2013,30(9):1051-1054.(ZHUANG X J, LI H G. Optimization control strategies combined genetic algorithms and iterative dynamic programming for penicillin fermentation processes [J]. Computers and Applied Chemistry, 2013, 30(9): 1051-1054.)
[8] 郝鵑,余建軍,周文慧.基于平均強(qiáng)化學(xué)習(xí)的訂單生產(chǎn)方式企業(yè)訂單接受策略[J].計(jì)算機(jī)應(yīng)用,2013,33(4):976-979.(HAO J, YU J J, ZHOU W H. Order acceptance policy in make-to-order manufacturing based on average-reward reinforcement learning [J]. Journal of Computer Applications, 2013, 33(4): 976-979.)
[9] 王建平,王剛,毛曉彬,等.基于深度強(qiáng)化學(xué)習(xí)的二連桿機(jī)械臂運(yùn)動控制方法[J].計(jì)算機(jī)應(yīng)用,2021,41(6):1799-1804.(WANG J P, WANG G,MAO X B, et al. Motion control method of two-link manipulator based on deep reinforcement learning [J]. Journal of Computer Applications, 2021, 41(6): 1799-1804.)
[10] 多南訊,呂強(qiáng),林輝燦,等.邁進(jìn)高維連續(xù)空間:深度強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域中的應(yīng)用[J].機(jī)器人,2019,41(2):276-288.(DUO N X, LYU Q, LIN H C, et al. Step into high-dimensional and continuous action space: a survey on applications of deep reinforcement learning to robotics [J]. Robot, 2019, 41(2): 276-288.)
[11] 劉洋,李建軍.深度確定性策略梯度算法優(yōu)化[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,39(6):545-549.(LIU Y, LI J J. Optimization of deep deterministic policy gradient algorithm [J]. Journal of Liaoning Technical University (Natural Science), 2020, 39(6):545-549.)
[12] HOU Y N, LIU L F, WEI Q, et al. A novel DDPG method with prioritized experience replay [C]// Proceedings of the 2017 IEEE International Conference on Systems, Man, and Cybernetics. Piscataway: IEEE, 2017:316-321.
[13] NIAN R, LIU J F, HUANG B. A review on reinforcement learning: Introduction and applications in industrial process control [J]. Computers and Chemical Engineering, 2020, 139: Article No.106886.
[14] 李云龍,唐文俊,白成海,等.青霉素生產(chǎn)工藝優(yōu)化及代謝分析提高產(chǎn)量[J].中國抗生素雜志,2019,44(6):679-686.(LI Y L, TANG W J,BAI C H, et al. Optimization of the feeding process and metabolism analysis to improve the yield of penicillin [J]. Chinese Journal of Antibiotics, 2019, 44(6): 679-686.)
[15] 王蕾,陳進(jìn)東,潘豐.引力搜索算法在青霉素發(fā)酵模型參數(shù)估計(jì)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2013,33(11):3296-3299,3304.(WANG L, CHEN J D, PAN F. Applications of gravitational search algorithm in parameters estimation of penicillin fermentation process model [J]. Journal of Computer Applications, 2013, 33(11): 3296-3299, 3304.)
[16] 葉凌箭,程江華.基于Matlab/Simulink的青霉素發(fā)酵過程仿真平臺[J].系統(tǒng)仿真學(xué)報(bào),2015,27(3):515-520.(YE L J, CHENG J H. Simulation platform of penicillin fermentation process based on Matlab/Simulink [J]. Journal of System Simulation, 2015, 27(3): 515-520.)
Industrial process control method based on local policy interaction exploration-based deep deterministic policy gradient
DENG Shaobin1,2,3,4,ZHU Jun1,2,3, ZHOU Xiaofeng1,2,3*, LI Shuai1,2,3,4, LIU Shurui1,2,3
(1.Key Laboratory of Networked Control System,Chinese Academy of Sciences,Shenyang Liaoning110016,China;2.Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang Liaoning110169,China;3.Institutes for Robotics and Intelligent Manufacturing Innovation,Chinese Academy of Sciences,Shenyang Liaoning110169,China;4.University of Chinese Academy of Sciences,Beijing100049,China)
In order to achieve the stable and precise control of industrial processes with non-linearity, hysteresis, and strong coupling, a new control method based on Local Policy Interaction Exploration-based Deep Deterministic Policy Gradient (LPIE-DDPG) was proposed for the continuous control of deep reinforcement learning. Firstly, the Deep Deterministic Policy Gradient (DDPG) algorithm was used as the control strategy to greatly reduce the phenomena of overshoot and oscillation in the control process. At the same time,the control strategy of original controller was used as the local strategy for searching, and interactive exploration was used as the rule for learning, thereby improving the learning efficiency and stability. Finally, a penicillin fermentation process simulation platform was built under the framework of Gym and the experiments were carried out. Simulation results show that, compared with DDPG, the proposed LPIE-DDPG improves the convergence efficiency by 27.3%; compared with Proportion-Integration-Differentiation (PID), the proposed LPIE-DDPG has fewer overshoot and oscillation phenomena on temperature control effect, and has the penicillin concentration increased by 3.8% in yield. In conclusion, the proposed method can effectively improve the training efficiency and improve the stability of industrial process control.
industrial process control; deep reinforcement learning; Deep Deterministic Policy Gradient (DDPG); Local Policy Interaction Exploration (LPIE); penicillin fermentation process
TP273.2
A
1001-9081(2022)05-1642-07
10.11772/j.issn.1001-9081.2021050716
2021?05?07;
2021?09?27;
2021?11?26。
遼寧省“興遼英才計(jì)劃”項(xiàng)目(XLYC1808009)。
鄧紹斌(1997—),男,江西贛州人,碩士研究生,主要研究方向:強(qiáng)化學(xué)習(xí)、工業(yè)過程控制; 朱軍(1964—),男,遼寧沈陽人,研究員,碩士,主要研究方向:自動控制、工業(yè)自動化; 周曉鋒(1978—),女,遼寧本溪人,副研究員,博士,主要研究方向:機(jī)器學(xué)習(xí)、工業(yè)過程優(yōu)化; 李帥(1988—)男,遼寧錦州人,副研究員,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 劉舒銳(1993—)男,湖北襄陽人,助理研究員,碩士,主要研究方向:工業(yè)過程建模與控制、機(jī)器學(xué)習(xí)。
This work is partially supported by Program of Liaoning Province “Xingliao Talents Plan” (XLYC1808009).
DENG Shaobin, born in 1997, M. S. candidate. His research interests include reinforcement learning,industrial process control.
ZHU Jun, born in 1964, M. S., research follow. His research interests include automatic control, industrial automation.
ZHOU Xiaofeng, born in 1978, Ph. D., associate research fellow. Her research interests include machine learning, industrial process optimization.
LI Shuai, born in 1988, Ph. D. candidate, associate research fellow. His research interests include machine learning, data mining.
LIU Shurui, born in 1993, M. S., assistant research fellow. His research interests include industrial process modeling and control, machine learning.