梁俊朗,高 健
(廣東工業(yè)大學(xué)省部共建精密電子制造技術(shù)與裝備國(guó)家重點(diǎn)實(shí)驗(yàn)室,廣州 510006)
隨著微電子封裝制造領(lǐng)域的快速發(fā)展,高速精密運(yùn)動(dòng)平臺(tái)是封裝制造裝備的核心部件之一,其控制性能直接影響制造裝備整體的精度、效率等性能指標(biāo)的提升。為提高運(yùn)動(dòng)平臺(tái)的精密運(yùn)動(dòng)控制性能,許多學(xué)者在精密運(yùn)動(dòng)控制算法上開(kāi)展了深入研究[1-3]。目前,PID控制算法仍是工業(yè)界最為廣泛的控制算法,常用的參數(shù)整定方法有Ziegler-Nichols(Z-N)方法,Cohen-Coon(CC)方法,內(nèi)??刂品ǖ?受研究對(duì)象的結(jié)構(gòu)特性,復(fù)雜工況和非線(xiàn)性問(wèn)題顯著提升了控制的復(fù)雜性,使精準(zhǔn)的PID參數(shù)調(diào)節(jié)更加困難。針對(duì)PID參數(shù)整定的難題,丁榮樂(lè)等[4]提出了一種基于離散時(shí)域等價(jià)性的自適應(yīng)控制率,提高了有效載荷變化控制的魯棒性,蘇杰等[5]研究了一種基于自耦PID的控制方法,建立最速模型和絕對(duì)誤差模型,有效避免積分飽和引起的超調(diào)問(wèn)題,吳亞雄等[6]利用BP神經(jīng)網(wǎng)絡(luò)調(diào)節(jié)分?jǐn)?shù)階PID控制器,實(shí)時(shí)在線(xiàn)整定PID分?jǐn)?shù)階的5個(gè)參數(shù),提高了并網(wǎng)電流的跟蹤性能。因此,現(xiàn)有的控制方法可以結(jié)合研究對(duì)象各自的運(yùn)動(dòng)特性,實(shí)現(xiàn)PID參數(shù)的自適應(yīng)調(diào)節(jié)。
然而,如何適應(yīng)不同場(chǎng)合、運(yùn)動(dòng)條件和外載等變化,實(shí)現(xiàn)運(yùn)動(dòng)平臺(tái)的控制參數(shù)最優(yōu)快速調(diào)節(jié),仍然面臨著挑戰(zhàn)。目前,人工智能已成為學(xué)術(shù)界和工業(yè)領(lǐng)域研究的熱點(diǎn),強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域重要分支之一,可根據(jù)復(fù)雜環(huán)境試錯(cuò)尋找最優(yōu)策略。學(xué)者因此紛紛將強(qiáng)化學(xué)習(xí)用于不同領(lǐng)域,如將強(qiáng)化學(xué)習(xí)與傳統(tǒng)控制相結(jié)合,在無(wú)人機(jī)控制[7-9]、機(jī)器人控制[10]、自動(dòng)駕駛[11]等方面,取得了良好進(jìn)展和成果[4]。強(qiáng)化學(xué)習(xí)分為有模型強(qiáng)化學(xué)習(xí)和無(wú)模型強(qiáng)化學(xué)習(xí),一般而言,無(wú)模型強(qiáng)化學(xué)習(xí)的漸進(jìn)性能優(yōu)于有模型強(qiáng)化學(xué)習(xí),但需要同外界環(huán)境進(jìn)行多次交互,數(shù)據(jù)利用效率低,容易造成器械損耗,難以應(yīng)用于實(shí)際機(jī)械控制中。有模型強(qiáng)化學(xué)習(xí)控制算法通過(guò)部分?jǐn)?shù)據(jù)提前構(gòu)建虛擬模型,在后續(xù)交互過(guò)程中不斷修正模型,一定程度上提高了數(shù)據(jù)的利用效率。在實(shí)際應(yīng)用中,有模型的強(qiáng)化學(xué)習(xí)具有更好的應(yīng)用前景,其中,概率推理學(xué)習(xí)控制算法是一種經(jīng)典的強(qiáng)化學(xué)習(xí)控制算法,利用高斯過(guò)程建立輸入與輸出之間的概率動(dòng)力學(xué)模型,根據(jù)獎(jiǎng)懲設(shè)置優(yōu)化控制策略,提高收斂速度,已廣泛應(yīng)用于機(jī)器人控制。
傳統(tǒng)PID調(diào)參方法一般需要建立特定的數(shù)學(xué)函數(shù),難以保證控制方法的泛化性,而強(qiáng)化學(xué)習(xí)需要多次與環(huán)境交互,難以保證數(shù)據(jù)效率的有效性和收斂性,本文結(jié)合傳統(tǒng)內(nèi)模PID控制方法實(shí)現(xiàn)初步參數(shù)調(diào)節(jié),保證強(qiáng)化學(xué)習(xí)二次優(yōu)化的收斂特性和數(shù)據(jù)利用效率,基于 PILCO算法在線(xiàn)優(yōu)化內(nèi)模參數(shù),實(shí)現(xiàn)傳統(tǒng)控制方法和強(qiáng)化學(xué)習(xí)方法的有效結(jié)合,無(wú)需建立復(fù)雜準(zhǔn)確的數(shù)學(xué)方程,降低調(diào)參難度,與內(nèi)模PID控制器相比,所提方法具有更高的控制精度和任務(wù)泛化性能,因此,本文所提方法具有良好的先進(jìn)性,可廣泛應(yīng)用于自適應(yīng)精密運(yùn)動(dòng)控制領(lǐng)域。
本文研究的高速精密運(yùn)動(dòng)平臺(tái)結(jié)構(gòu)如圖1所示。主要由大理石基座、直線(xiàn)電機(jī)、運(yùn)動(dòng)平臺(tái)及直線(xiàn)光柵等組成。運(yùn)動(dòng)平臺(tái)與直線(xiàn)電機(jī)動(dòng)子固連,光柵編碼器安裝于平臺(tái)側(cè)面,在平臺(tái)運(yùn)動(dòng)過(guò)程中,直線(xiàn)電機(jī)驅(qū)動(dòng)運(yùn)動(dòng)平臺(tái),光柵尺實(shí)時(shí)反饋運(yùn)動(dòng)平臺(tái)位置信息,可針對(duì)性的設(shè)計(jì)智能閉環(huán)控制方法,實(shí)現(xiàn)平臺(tái)的精準(zhǔn)控制。
圖1 精密運(yùn)動(dòng)平臺(tái)結(jié)構(gòu)示意圖
根據(jù)上述結(jié)構(gòu)對(duì)其進(jìn)行剛?cè)狁詈辖?將平臺(tái)與導(dǎo)軌之間各種連接件的柔性環(huán)節(jié)考慮為等效彈簧,根據(jù)動(dòng)力學(xué)模型將其等效為質(zhì)量-彈簧-阻尼的二階系統(tǒng),如圖2所示,K為系統(tǒng)的等效剛度,C為系統(tǒng)等效阻尼系數(shù),M為整體運(yùn)動(dòng)部件的等效質(zhì)量,F為直線(xiàn)電機(jī)驅(qū)動(dòng)力,x為平臺(tái)的運(yùn)動(dòng)位移。
圖2 精密運(yùn)動(dòng)平臺(tái)動(dòng)力學(xué)模型
基于牛頓第二定律,獲取動(dòng)力學(xué)模型:
(1)
永磁同步直線(xiàn)電機(jī)的推力公式為:
F=KfIq
(2)
式中:Kf為永磁同步電機(jī)的推力公式,Iq為電機(jī)電流。
考慮位置環(huán)帶寬遠(yuǎn)低于電流環(huán)帶寬,可將電流Iq與電壓Uq考慮為線(xiàn)性關(guān)系:
Iq(s)=0.75Uq
(3)
通過(guò)拉普拉斯變換,電壓U到位移X的傳遞函數(shù)為:
(4)
采用正弦掃頻信號(hào)進(jìn)行系統(tǒng)辯識(shí),獲取(4)式系數(shù):
b1=3782;a1=8.44;a2=7.12e-6
(5)
相比于參數(shù)辨識(shí)后的系數(shù),a2項(xiàng)系數(shù)基本為0,為方便后續(xù)內(nèi)模PID的設(shè)計(jì),a2項(xiàng)系數(shù)忽略不計(jì),將根據(jù)系統(tǒng)辨識(shí)獲取的參數(shù)得到辨識(shí)模型:
(6)
根據(jù)系統(tǒng)辯識(shí)獲取的傳遞函數(shù)方程,通過(guò)DFT分析獲取系統(tǒng)開(kāi)環(huán)bode圖,如圖3所示,系統(tǒng)模型在低頻擬合是準(zhǔn)確的,高于100 Hz的頻率下模型擬合較差。
圖3 運(yùn)動(dòng)平臺(tái)開(kāi)環(huán)頻率響應(yīng)
內(nèi)模型控制器(IMC)假設(shè)一個(gè)與物理模型相同的理想模型,將理想模型與物理模型進(jìn)行相互抵消,實(shí)現(xiàn)等同于參考輸入的曲線(xiàn)輸出,系統(tǒng)框圖如圖4所示。
圖4 內(nèi)模控制器系統(tǒng)框圖
根據(jù)已有的二階模型,構(gòu)造濾波器:
(7)
式中:λ為濾波系數(shù),構(gòu)造濾波器設(shè)計(jì)PID參數(shù):
(8)
綜上所述,根據(jù)系統(tǒng)辯識(shí)的傳遞函數(shù),在頻率為100 Hz以?xún)?nèi)的系統(tǒng)擬合程度較高,選取濾波系數(shù)為100 Hz,因此,PID系數(shù)可確定為:
kp=3.090 4;ki=22.316 2;kd=0.052 9
(9)
內(nèi)模PID控制器參數(shù)調(diào)節(jié)參數(shù)簡(jiǎn)單,只需調(diào)節(jié)濾波系數(shù),即可獲取PID三個(gè)控制參數(shù),實(shí)現(xiàn)平臺(tái)精密運(yùn)動(dòng)控制,但是需要辯識(shí)的模型足夠精確,采用單一的傳遞函數(shù)模型難以涵蓋實(shí)際物理特性,強(qiáng)化學(xué)習(xí)作為一種數(shù)據(jù)驅(qū)動(dòng)控制算法,與環(huán)境進(jìn)行交互累計(jì)經(jīng)驗(yàn),一定程度上降低對(duì)模型的依賴(lài),為了提高數(shù)據(jù)利用效率和考慮模型誤差,本文將采用概率推理學(xué)習(xí)架構(gòu)(probabilistic inference for learning control,PILCO)作為強(qiáng)化學(xué)習(xí)控制算法。
PILCO算法屬于將整體架構(gòu)分為3層。底層利用高斯過(guò)程進(jìn)行數(shù)據(jù)擬合概率動(dòng)力學(xué),中間層根據(jù)已有的概率動(dòng)力學(xué)進(jìn)行策略評(píng)估,評(píng)價(jià)采取策略的明智性,最后,利用隨機(jī)梯度算法進(jìn)行策略?xún)?yōu)化,不斷根據(jù)策略評(píng)估修正后續(xù)策略,圖5為PILCO算法架構(gòu)圖。
圖5 PILCO算法結(jié)構(gòu)圖
根據(jù)馬爾可夫決策過(guò)程的定義,當(dāng)前時(shí)刻t的狀態(tài)與上一時(shí)刻t-1的狀態(tài)和動(dòng)作相關(guān),其關(guān)系表達(dá)為:
xt=f(xt-1,ut-1)
(10)
為了考慮模型的不確定性,采用高斯過(guò)程建立動(dòng)力學(xué)模型,以狀態(tài)和輸入集合作為數(shù)據(jù),即X=[(x1,u1),(x2,u2),(x3,u3),…,(xn,un)],標(biāo)簽值為Y=[y1,y2,…,yn],標(biāo)簽值與數(shù)據(jù)的關(guān)系為:
yt=xt-xt-1+ξt
(11)
式中:xt∈X,yt∈Y,ξt為高斯噪聲,為了在t-1時(shí)刻的狀態(tài)下預(yù)測(cè)t時(shí)刻,滿(mǎn)足如下高斯分布公式:
(12)
利用平方指數(shù)協(xié)方差作為內(nèi)核函數(shù):
(13)
(14)
式中:y*為預(yù)測(cè)值,k*=k(X,x*),k**=k(x*,x*)。
假設(shè)在策略π下的期望回報(bào)Vπ,初始狀態(tài)P(x0)滿(mǎn)足高斯分布,為強(qiáng)化學(xué)習(xí)的期望回報(bào)可表示為:
(15)
式中:c(x)為懲罰函數(shù),懲罰函數(shù)采用馬氏距離;w為加權(quán)系數(shù),σc為縮放系數(shù),懲罰函數(shù)表達(dá)式如下:
(16)
因此,獲取狀態(tài)分布p(xt)即可獲取得到當(dāng)前狀態(tài)價(jià)值,可用于后續(xù)策略?xún)?yōu)化,狀態(tài)分布p(xt)的推導(dǎo)較為復(fù)雜,可參考文獻(xiàn)[12]關(guān)于通過(guò)高斯過(guò)程建立強(qiáng)化學(xué)習(xí)論文的推導(dǎo),基本流程如圖6所示。
圖6 PILCO推導(dǎo)流程圖
根據(jù)上述流程,得到p(xt)的期望和方差:
(17)
基于上述推導(dǎo)的p(xt)和構(gòu)造的懲罰函數(shù)c(xt),可得到狀態(tài)價(jià)值函數(shù)Vπ,為了使策略達(dá)到最優(yōu),需要最小化價(jià)值函數(shù)Vπ:
π*∈argminVπ(x0)
(18)
利用共軛梯度法對(duì)狀態(tài)價(jià)值函數(shù)Vπ求梯度,獲取均值和方差梯度表達(dá)式:
(19)
前面介紹了PILCO的基本原理,若直接以PILCO作為控制器,根據(jù)當(dāng)前狀態(tài)變量直接輸出對(duì)平臺(tái)輸出電壓值,不僅收斂差,而且輸出電壓值不連續(xù),容易造成平臺(tái)的損壞,因此,需要通過(guò)傳統(tǒng)控制算法提前保證平臺(tái)的收斂性,利用PILCO優(yōu)化內(nèi)??刂破鞯臑V波系數(shù)λ。
本文利用以輸出誤差e作為狀態(tài)觀測(cè)量,濾波系數(shù)λ作為動(dòng)作輸出,懲罰函數(shù)采用式(16)的c(x),構(gòu)建強(qiáng)化學(xué)習(xí)智能體。控制系數(shù)框圖如圖7所示。
圖7 IMC-PILCO工作流程圖
首先需要定義初始化濾波系數(shù)λ的范圍,為了提高強(qiáng)化學(xué)習(xí)在動(dòng)作范圍取值的穩(wěn)定性,提前設(shè)置初始濾波系數(shù)λ0,設(shè)置濾波系數(shù)變化范圍Δλ,激勵(lì)函數(shù)采取在濾波變化范圍Δλ下隨機(jī)采樣,h,i為自定義設(shè)置范圍的上下限,濾波系數(shù)λ可通過(guò)下式計(jì)算:
λ=λ0+Δλ,Δλ∈(h,i)
(20)
將濾波系數(shù)λ代入式(8)中的PID系數(shù),從而獲取Kp,Ki,Kd數(shù)值大小,根據(jù)PID計(jì)算公式輸出相應(yīng)電壓值,本文采取的參考曲線(xiàn)為行程10 mm,速度0.06 m/s,加速度1g的梯形曲線(xiàn),將研究對(duì)象的位移值與參考曲線(xiàn)做差獲得誤差e,誤差e的差分為Δe。
通過(guò)將(e,Δλ)作為輸入數(shù)據(jù),Δe作為輸出標(biāo)簽,構(gòu)建數(shù)據(jù)集采用高斯過(guò)程擬合概率動(dòng)力學(xué)模型,通過(guò)共軛梯度最小化狀態(tài)價(jià)值函數(shù),根據(jù)式(20)在不同誤差狀態(tài)下自適應(yīng)輸出最優(yōu)的濾波系數(shù)λπ,再將最優(yōu)濾波系數(shù)λπ得到PID參數(shù),將PID參數(shù)得到的電壓輸入到研究對(duì)象得到跟隨誤差,以(eπ,Δλ)和Δe構(gòu)建數(shù)據(jù)集代入式(10)~式(12)進(jìn)行迭代,直至滿(mǎn)足需求。
為了驗(yàn)證算法的有效性,將PILCO內(nèi)模優(yōu)化算法應(yīng)用到實(shí)際精密運(yùn)動(dòng)平臺(tái),運(yùn)動(dòng)平臺(tái)放置于隔振基座上,Dspace控制器與直線(xiàn)光柵和直線(xiàn)電機(jī)驅(qū)動(dòng)器進(jìn)行連接,分別獲取平臺(tái)的實(shí)時(shí)數(shù)據(jù)和實(shí)時(shí)驅(qū)動(dòng)直線(xiàn)電機(jī),上位機(jī)將算法發(fā)送至Dspace控制器,Dspace控制器將算法的控制電壓輸入至直線(xiàn)電機(jī)驅(qū)動(dòng)器進(jìn)行智能閉環(huán)控制,平臺(tái)實(shí)際結(jié)構(gòu)圖8所示。
圖8 平臺(tái)實(shí)際結(jié)構(gòu)示意圖
Dspace將連續(xù)傳遞函數(shù)自動(dòng)轉(zhuǎn)化為離散傳遞函數(shù),因此,從式(8)可知,當(dāng)λ越小,PID三個(gè)系數(shù)越大,容易造成系統(tǒng)的不穩(wěn)定,因此,需要選擇合適的內(nèi)模濾波系數(shù),根據(jù)第3節(jié)得到的辨識(shí)模型和內(nèi)模PID參數(shù),依據(jù)bode圖選取初始濾波系數(shù)為λ0=0.01,定義PILCO的動(dòng)作范圍為Δλ=[-0.005,0.005],因此,可通過(guò)在此范圍內(nèi)隨機(jī)采樣得到動(dòng)作序列{Δλ1,Δλ2,Δλ3,…,Δλn},根據(jù)式(8)和式(20)代入PID參數(shù)從而得到電壓值{u1,u2,u3,…,un},將電壓值輸入至運(yùn)動(dòng)平臺(tái),輸入集和輸出集分別為:
(21)
根據(jù)已有的硬件系統(tǒng),離散時(shí)間設(shè)置為334 Hz,采樣頻率為1 s,即初始數(shù)據(jù)集內(nèi)含有334對(duì)輸入輸出對(duì),經(jīng)過(guò)4次迭代后,控制誤差基本收斂,如圖9所示。
圖9 迭代控制效果圖
將第4代的控制效果與使用濾波系數(shù)λ=0.01的內(nèi)??刂破髯鞅容^,可得到經(jīng)過(guò)PILCO優(yōu)化后的內(nèi)模PID控制器最大跟隨誤差減少了78.372%,誤差對(duì)比圖如圖10所示。
圖10 梯型曲線(xiàn)跟隨誤差比較圖
為了驗(yàn)證所提算法的泛化性,以第4次訓(xùn)練后的強(qiáng)化學(xué)習(xí)智能體作為內(nèi)模控制器的優(yōu)化方法,設(shè)置參考輸入為正弦信號(hào),正弦信號(hào)位移曲線(xiàn)R、速度曲線(xiàn)V如式(12)所示,正弦曲線(xiàn)的速度隨時(shí)間不斷變化。
(22)
設(shè)置離散時(shí)間為334 Hz,采樣頻率為1 s,通過(guò)實(shí)驗(yàn)獲得參考輸入輸出曲線(xiàn)如圖11所示。
圖11 正弦曲線(xiàn)位移輸出圖 圖12 正弦曲線(xiàn)跟隨誤差比較圖
與未優(yōu)化的內(nèi)??刂破餍Ч啾?通過(guò)PILCO優(yōu)化后的內(nèi)??刂破髅黠@降低跟隨誤差,最大跟隨誤差降低了80.188%,正弦曲線(xiàn)跟隨誤差對(duì)比如圖12所示。
綜合實(shí)驗(yàn)數(shù)據(jù)的比較結(jié)果,如表1和表2所示,在梯型曲線(xiàn)控制效果上,經(jīng)過(guò)PILCO優(yōu)化后的控制器在定位過(guò)程超調(diào)量與平均跟隨誤差分別降低了78.372%和86.667%,在正弦曲線(xiàn)的控制效果上,經(jīng)過(guò)PILCO優(yōu)化后的控制器在最大跟隨誤差與平均跟隨誤差分別降低了80.188%和85.950%,因此,對(duì)于跟蹤指標(biāo)要求較高的場(chǎng)合,本文所提算法具有一定的先進(jìn)性。
表1 梯型曲線(xiàn)控制效果比較
表2 正弦曲線(xiàn)控制效果比較
(1)提出了一種基于概率推理學(xué)習(xí)控制(PILCO)架構(gòu)的內(nèi)??刂破鲀?yōu)化方法,以?xún)?nèi)模控制保證強(qiáng)化學(xué)習(xí)優(yōu)化的收斂性,利用PILCO的高斯過(guò)程建立概率動(dòng)力學(xué)和數(shù)據(jù)交互補(bǔ)償內(nèi)??刂破鹘2痪_的誤差,從而達(dá)到自適應(yīng)調(diào)節(jié)濾波系數(shù)的目的,實(shí)現(xiàn)內(nèi)??刂破髋c強(qiáng)化學(xué)習(xí)的高效結(jié)合。
(2)以精密運(yùn)動(dòng)平臺(tái)為研究對(duì)象,與未優(yōu)化的內(nèi)??刂破?IMC)相比,在梯形曲線(xiàn)的控制效果上,本文所提方法在跟隨誤差上顯著降低,定位過(guò)程最大超調(diào)量降低了78.372%,平均誤差降低了86.667%,在正弦曲線(xiàn)的控制效果上,最大跟隨誤差降低了80.188%,平均跟隨誤差降低了85.950%,實(shí)驗(yàn)驗(yàn)證了所提優(yōu)化方法的有效性。
綜上所述,本文將PILCO算法框架與內(nèi)模控制器進(jìn)行結(jié)合,基于PILCO算法在線(xiàn)優(yōu)化內(nèi)模濾波參數(shù),具有良好的先進(jìn)性,可廣泛應(yīng)用于自適應(yīng)精密運(yùn)動(dòng)控制領(lǐng)域。