金哲豪 劉安東 俞 立
近年來,隨著機(jī)器人技術(shù)的高速發(fā)展,機(jī)器人在工業(yè)生產(chǎn)中替代了大量的人力資源.然而,對于一些復(fù)雜的任務(wù),機(jī)器人往往無法和人類一樣靈活的操作與控制.人機(jī)協(xié)作(Human-robot collaboration,HRC)研究如何利用人的靈活性與機(jī)器人的高效性,使機(jī)器人與人協(xié)同高效、精準(zhǔn)地完成復(fù)雜任務(wù),因此受到了國內(nèi)外學(xué)者的廣泛關(guān)注[1].
人機(jī)協(xié)作按機(jī)器人在協(xié)作過程中的角色可分為人主-機(jī)器人從、機(jī)器人主-人從、人機(jī)平等3 類.第1 類人機(jī)協(xié)作中機(jī)器人接收人發(fā)出的命令并執(zhí)行,主要完成一些負(fù)重類的任務(wù).如文獻(xiàn)[2]中人與機(jī)器人共同搬運一個物體,其中人決定了運動軌跡,而機(jī)器人作為跟隨者負(fù)責(zé)軌跡跟隨并承擔(dān)重物.在這一類人機(jī)協(xié)作任務(wù)中的一大難點是如何將人的想法正確的傳遞給機(jī)器人.文獻(xiàn)[3-4]研究了在人與機(jī)器人共同操作一個對象時,如何消除傳遞給機(jī)器人旋轉(zhuǎn)與平移命令之間歧義的方法.第2 類人機(jī)協(xié)作的研究相對較少,文獻(xiàn)[5]將人建模為一個被動的旋轉(zhuǎn)關(guān)節(jié)模型,并且用實驗證明了在機(jī)器人主導(dǎo)的情況下如何使用該模型將物體維持水平.以上兩類人機(jī)協(xié)作方法雖然能一定程度上結(jié)合人與機(jī)器人自身的優(yōu)點,但過于注重單方面的性能,如人類的靈活性或機(jī)器人的高效性,從而導(dǎo)致協(xié)作的整體效率不高.
人機(jī)平等形式的人機(jī)協(xié)作考慮人與機(jī)器人以平等的關(guān)系完成復(fù)雜任務(wù),這要求協(xié)作雙方對對方的操作規(guī)律有一定的了解.由于人的智能性,對于人而言這種能力可以很方便地獲得,但機(jī)器人無法自然獲取這種能力,因此如何為機(jī)器人建立有關(guān)人的運動規(guī)律模型是非常重要的.其中較為常用的方法假設(shè)是人的運動規(guī)律滿足最小抖動模型[6],并根據(jù)該模型預(yù)測人的運動軌跡.文獻(xiàn)[7]在人與機(jī)器人協(xié)作抬一根長桿的場景中,使用加權(quán)最小二乘實時估計最小抖動模型中的參數(shù),并利用變種阻抗控制器使機(jī)器人跟蹤最小抖動模型的預(yù)測值,從而達(dá)到使機(jī)器人主動跟隨人運動的效果.文獻(xiàn)[8]利用擴(kuò)展卡爾曼濾波估計最小抖動模型中的參數(shù),并在一維的點到點運動中證明該方法的有效性.文獻(xiàn)[7-8]均證明了在人機(jī)協(xié)作中使用以上基于最小抖動模型的方法能在一定程度提升人的舒適度.然而,基于最小抖動模型生成人的運動軌跡需要事先了解人運動軌跡起止時間與起止位置,這在一些任務(wù)中過于苛刻.文獻(xiàn)[9]表明最小抖動模型在一些特別的協(xié)作任務(wù)中會失效,如一些協(xié)作任務(wù)中人的軌跡存在大量的干擾與抖動,或者人在協(xié)作過程中多次決定改變其運動軌跡.文獻(xiàn)[10-11]假設(shè)人在運動過程中其加速度變化較小,利用卡爾曼濾波器預(yù)測人下一時刻的位置,并根據(jù)預(yù)測精度加權(quán)融合機(jī)器人主被動控制器,從而提高機(jī)器人協(xié)作時的主動性以及協(xié)作的魯棒性.該方法在人機(jī)協(xié)作抬桌子的場景中得到了驗證.文獻(xiàn)[12]使用基于與文獻(xiàn)[10-11]相同的運動模型的擴(kuò)展卡爾曼濾波預(yù)測人下一時刻的位置,但是其使用基于強(qiáng)化學(xué)習(xí)的方法設(shè)計機(jī)器人的速度控制律,并且利用擴(kuò)展卡爾曼濾波的預(yù)測值減小強(qiáng)化學(xué)習(xí)算法搜索的動作空間范圍,提升了機(jī)器人的協(xié)調(diào)能力,同時加強(qiáng)了機(jī)器人在協(xié)作任務(wù)中的主動性.也有一些工作[13-14]將人的控制量作擾動處理.
以上方法均屬于較為經(jīng)典的人運動軌跡建模方法,有較強(qiáng)的可解釋性.然而一些復(fù)雜的人機(jī)協(xié)作任務(wù)中,人的運動軌跡往往很不規(guī)律,如人手在3 維空間中到達(dá)某些不同目標(biāo)位置時形成的軌跡[15]、人在完成裝配任務(wù)時的運動軌跡[16]等.此時用概率分布去建模這些軌跡顯然更加合適,因此一些基于學(xué)習(xí)和統(tǒng)計的軌跡建模方法往往更加有效.文獻(xiàn)[15]利用高斯混合模型(Gaussian mixture model,GMM)與高斯混合回歸(Gaussian mixture regression,GMR)建立人手到達(dá)不同目標(biāo)位置所形成的軌跡概率分布模型,該模型被用來提升人機(jī)協(xié)作過程中的安全性以及機(jī)器人的自主性.文獻(xiàn)[16]通過人拖動機(jī)器人完成裝配任務(wù)的方式將人的運動軌跡轉(zhuǎn)化為機(jī)器人末端的軌跡,并利用GMM/GMR建立機(jī)器人末端的軌跡概率分布模型以達(dá)到示教學(xué)習(xí)的目的.文獻(xiàn)[17]利用高斯過程回歸(Gaussian process regression,GPR)擬合包含人在內(nèi)的球桿系統(tǒng)的前向傳播模型,并利用基于模型的RL 算法設(shè)計次優(yōu)控制律,極大地提升了對數(shù)據(jù)的利用率.文獻(xiàn)[18]使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人在完成零件裝配任務(wù)時的動作與意圖.文獻(xiàn)[19]使用觸覺數(shù)據(jù)作為輸入,利用基于隱馬爾科夫模型的高層控制器估計人的意圖并生成相應(yīng)的機(jī)器人參考軌跡,并在機(jī)器人與人握手的場景中驗證了該方法的有效性.另外,部分可觀馬爾科夫模型[20]以及貝葉斯神經(jīng)網(wǎng)絡(luò)[21]也被用來預(yù)測人下一時刻的行為.
然而,上述方法幾乎都是對人在一段時間內(nèi)的運動軌跡進(jìn)行建模,很少有文獻(xiàn)直接對人的控制策略建模.與人運動軌跡建模不同,針對人體控制策略建模主要為了預(yù)測人在遇到某個狀態(tài)時可能執(zhí)行的動作,從而為機(jī)器人對人的控制行為建立更加直觀的認(rèn)知模型.本文提出了一種基于GPR 與深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)的兩層人機(jī)協(xié)作控制方法,不僅設(shè)計了一種次優(yōu)的非線性控制律,還對人體控制策略建模,從而降低了人為不確定因素的不利影響,增強(qiáng)了協(xié)作系統(tǒng)的穩(wěn)定性,并解決了傳統(tǒng)主從式人機(jī)協(xié)作中效率較低的問題.本文以人機(jī)協(xié)作控制球桿系統(tǒng)為例驗證該方法的可行性.首先,針對頂層期望控制律的設(shè)計問題,利用深度確定性策略梯度算法(Deep deterministic policy gradients,DDPG)[22]得到了一種次優(yōu)的非線性控制器.其次,本文使用GPR 建立球桿系統(tǒng)的人體控制策略模型,解決了協(xié)作過程中由人為不確定因素所導(dǎo)致的系統(tǒng)不穩(wěn)定問題.然后,根據(jù)期望控制律和人體控制策略模型設(shè)計機(jī)器人的控制律以提升人機(jī)協(xié)作的效率.最后,通過實驗驗證了該方法的可行性與有效性.
本文以球桿系統(tǒng)為例設(shè)計分層人機(jī)協(xié)作控制方法,考慮如圖1 所示的人機(jī)協(xié)作球桿系統(tǒng).
圖1 中,人與機(jī)械臂各執(zhí)長桿一端以控制長桿傾角,使小球快速,平穩(wěn)地到達(dá)并停留在目標(biāo)位置(虛線小球位置).在人機(jī)協(xié)作環(huán)境下,由于長桿的傾角變化幅度較大,使得在平衡點附近線性化模型后設(shè)計相應(yīng)控制器的方法效果不佳.因此,如何針對該球桿系統(tǒng)設(shè)計一種有效的非線性控制器是本文的一大難點.然而,常規(guī)的非線性控制方法對模型精度依賴較高,而一些復(fù)雜協(xié)作任務(wù)往往很難精確建模,甚至無法建模.因此,本文基于DRL 算法設(shè)計球桿系統(tǒng)的控制器.DRL 算法不依賴環(huán)境模型,其通過不斷與環(huán)境交互,以尋找一種使累積獎勵最大化的控制策略.由于DRL 利用神經(jīng)網(wǎng)絡(luò)設(shè)計控制器,并通過迭代的方式更新參數(shù),易陷入局部最優(yōu).因此,基于DRL 的非線性控制器是一種次優(yōu)控制器.
圖1 人機(jī)協(xié)作控制球桿系統(tǒng)示意圖Fig.1 Schematic diagram of the human-robot collaboration task
使用DRL 設(shè)計控制器需要先將球桿系統(tǒng)建立成馬爾科夫決策模型.馬爾科夫決策模型由5 元組(S,A,P,r,γ)表示.其中S表示狀態(tài)空間,是對環(huán)境狀況的一種數(shù)學(xué)描述;A表示動作空間,是智能體影響環(huán)境的手段;P表示狀態(tài)轉(zhuǎn)移概率,表示在當(dāng)前狀態(tài)受到某個動作后下一個狀態(tài)的概率分布,也可以理解為環(huán)境模型;r表示獎勵函數(shù),是環(huán)境對當(dāng)前狀態(tài)施加某個動作后的一個獎懲反饋;γ表示折扣因子,是調(diào)節(jié)智能體關(guān)注長遠(yuǎn)利益程度的參數(shù).
控制器的設(shè)計問題可以轉(zhuǎn)化為解馬爾科夫決策模型問題,即設(shè)計一個最優(yōu)策略π*:使智能體獲得的累積獎勵最大化.對于任意的s∈S,π*(s)滿足:
式中,π*可以通過強(qiáng)化學(xué)習(xí)算法設(shè)計.由于球桿系統(tǒng)狀態(tài)空間連續(xù)的特性,使得處理離散狀態(tài)空間馬爾科夫決策模型的傳統(tǒng)強(qiáng)化學(xué)習(xí)算法無法為其設(shè)計最優(yōu)策略.因此,對于這類狀態(tài)空間連續(xù)的馬爾科夫決策模型常常使用基于估計的強(qiáng)化學(xué)習(xí)算法(如DRL).為了取得更好的控制效果,本文考慮連續(xù)的動作空間,這使處理離散動作空間的基于值函數(shù)的DRL 方法[23-24]失效.本文使用的DDPG 算法利用Actor-Critic 結(jié)構(gòu),能在連續(xù)的動作空間中尋找一種次優(yōu)控制策略.
另外,在主從式協(xié)作中,從方往往不做決策,只承擔(dān)跟隨或執(zhí)行主導(dǎo)方發(fā)出的命令的任務(wù).因此,該模式的協(xié)作效率往往較低,即系統(tǒng)進(jìn)入穩(wěn)態(tài)所需的控制時間較長.本文考慮人機(jī)平等的協(xié)作方式,即人與機(jī)器人均為完成任務(wù)作出控制決策,而人的高隨機(jī)性行為將為機(jī)器人控制器設(shè)計帶來極大的不確定性.因此,如何為機(jī)器人建立人體控制策略預(yù)測模型,增強(qiáng)機(jī)器人在協(xié)作過程中的主動性,從而提高協(xié)作效率與協(xié)作魯棒性是本文的第2 個難點.考慮到人體控制策略的隨機(jī)性(即使同一個人面對相同狀態(tài),其采取的控制行為也可能不同,本文假設(shè)該行為服從高斯分布),本文利用GPR 擬合人體控制策略.與傳統(tǒng)回歸算法不同的是,對于一個特定的輸入,GPR 模型的輸出并不是一個固定的值,而是一個高斯分布,即(s)~N(a,δ).并且,GPR是一種非參數(shù)估計方法,因此不會有過擬合的風(fēng)險.
由于協(xié)作過程中只有機(jī)械臂的行為是可控的,本文的目標(biāo)是為機(jī)械臂設(shè)計合適的末端速度控制律以使小球在人機(jī)協(xié)同控制下快速,平穩(wěn)地到達(dá)并停留在指定位置.本文以基于DRL 的次優(yōu)非線性控制策略為期望控制策略,以擬合的人體控制策略預(yù)測模型作為機(jī)器人對人控制行為的認(rèn)知模型,設(shè)計機(jī)器人的控制律,從而使人機(jī)協(xié)作的整體控制效果趨向于期望控制策略的控制效果.
本節(jié)將設(shè)計基于GPR 與DRL 的分層人機(jī)協(xié)作控制方法,具體分為頂層與底層的設(shè)計.其結(jié)構(gòu)如圖2 所示:
圖2 分層人機(jī)協(xié)作球桿結(jié)構(gòu)示意圖Fig.2 Schematic diagram of hierarchical human-robot collaboration
頂層利用DDPG 算法為非線性球桿系統(tǒng)設(shè)計一種次優(yōu)的高效控制律,并作為人機(jī)協(xié)作過程中的期望控制策略.底層主要分為兩部分: 1)基于GPR擬合人體控制策略,為機(jī)械臂建立人控制行為的認(rèn)知模型;2)根據(jù)期望控制策略以及認(rèn)知模型設(shè)計機(jī)械臂的末端速度控制律,從而使人機(jī)協(xié)作下的控制行為趨向于期望控制策略的控制行為.
本節(jié)主要介紹如何利用DDPG 設(shè)計球桿系統(tǒng)的期望控制策略.在此之前,必須先將球桿系統(tǒng)建立成馬爾科夫決策模型,主要包括狀態(tài)空間、動作空間和獎勵函數(shù)的設(shè)計.
1)狀態(tài)空間: 球桿系統(tǒng)的控制目的是使小球快速,穩(wěn)定地到達(dá)指定位置,因此位置誤差信號e被用來構(gòu)建狀態(tài).另外,據(jù)經(jīng)驗可知,人在控制球桿的時候還會關(guān)注小球的速度以及長桿的傾角θ.同時,為了不使小球離開長桿,小球的位置x也被用來構(gòu)建狀態(tài).因此,馬爾科夫決策模型狀態(tài)被定義為s=[e x]T.
2)動作空間: 本文以長桿的旋轉(zhuǎn)角速度作為控制量,因此,動作被定義為a=.
3)獎勵函數(shù): 為了使小球快速,穩(wěn)定地到達(dá)指定位置,本文設(shè)計的損失函數(shù)為,其中Wc為權(quán)重矩陣,令獎勵函數(shù)r=-c.另外,小球離開長桿被認(rèn)為是控制失敗,因此,一但檢測到小球離開長桿,環(huán)境將給予一個幅值較大的損失函數(shù)并重新開始實驗.
DDPG 算法可以用來為狀態(tài)以及動作空間連續(xù)的馬爾科夫決策模型尋找次優(yōu)策略,主要包含Actor、Actor 目標(biāo)網(wǎng)絡(luò)、Critic、Critic目標(biāo)網(wǎng)絡(luò)4個神經(jīng)網(wǎng)絡(luò).記這4 個神經(jīng)網(wǎng)絡(luò)的參數(shù)分別為Critic神經(jīng)網(wǎng)絡(luò)用來估計動作值函數(shù)Q(s,a),即對于馬爾科夫決策模型在狀態(tài)s執(zhí)行動作a的價值,并利用Bellman 方程來構(gòu)建其損失函數(shù):
式中,β是一種隨機(jī)策略,用來探索未知環(huán)境.Actor 神經(jīng)網(wǎng)絡(luò)以s作為輸入,以a作為輸出,負(fù)責(zé)學(xué)習(xí)控制策略,其參數(shù)更新規(guī)則較為復(fù)雜.根據(jù)文獻(xiàn)[25]給出的確定性策略梯度理論,Actor 網(wǎng)絡(luò)在策略μ下,目標(biāo)函數(shù)對θμ的梯度為:
設(shè)立目標(biāo)網(wǎng)絡(luò)是為了促進(jìn)神經(jīng)網(wǎng)絡(luò)收斂,目標(biāo)網(wǎng)絡(luò)與原網(wǎng)絡(luò)之間采用軟更新原則:
另外,受到深度Q 網(wǎng)絡(luò)(Deep Q network,DQN)的啟發(fā),DDPG 還設(shè)立的回放緩沖區(qū)M儲存過去的數(shù)據(jù),并從中隨機(jī)抽樣訓(xùn)練Actor 與Critic 神經(jīng)網(wǎng)絡(luò).使用DDPG 設(shè)計球桿系統(tǒng)期望控制策略的算法如下所示:
本節(jié)介紹如何利用GPR 擬合人體控制策略以及如何根據(jù)期望控制策略和人體控制策略模型設(shè)計機(jī)械臂的控制律.
2.2.1 人體控制策略感知
2.2.2 機(jī)械臂控制
本節(jié)在期望控制策略與人體控制策略預(yù)測模型的基礎(chǔ)上,設(shè)計機(jī)械臂末端速度的控制律.
機(jī)械臂的控制目標(biāo)是使長桿在機(jī)器人末端速度vR與人控制端速度vH的作用下,其旋轉(zhuǎn)角速度趨向于期望值其中可由頂層Actor 網(wǎng)絡(luò)前向傳播得到,vH的估計值可由人體控制策略預(yù)測模型預(yù)測得到,本文使用高
本節(jié)通過仿真與實驗驗證了所設(shè)計的人機(jī)協(xié)作控制方法的有效性,共分為3 個部分: 1)介紹DDPG 中各神經(jīng)網(wǎng)絡(luò)的架構(gòu)及超參數(shù)的設(shè)計,并在仿真環(huán)境中訓(xùn)練各神經(jīng)網(wǎng)絡(luò)以得到頂層期望控制策略.同時,通過與基于值函數(shù)的DRL 算法對比,證明了在實際控制任務(wù)中使用基于策略的DRL 算法(如本文使用的DDPG 算法)來設(shè)計頂層期望控制策略的必要性.2)通過相機(jī)采集人控制球桿系統(tǒng)的實驗數(shù)據(jù)以構(gòu)建訓(xùn)練集,介紹并分析了利用GPR 擬合人體控制策略預(yù)測模型的結(jié)果.基于得到的期望控制策略與人體控制策略預(yù)測模型.3)在實際場景中通過人機(jī)協(xié)作控制球桿系統(tǒng)與人單獨控制球桿系統(tǒng)的控制效果作對比,證明了所提控制方法確實能提升效率與控制精度.
本節(jié)分析DDPG 學(xué)習(xí)期望控制策略的過程與結(jié)果.首先介紹DDPG 中神經(jīng)網(wǎng)絡(luò)的架構(gòu)與超參設(shè)置.DDPG 共包含4 個神經(jīng)網(wǎng)絡(luò),由于球桿系統(tǒng)的復(fù)雜程度相對較低,本文將Actor 與Actor 目標(biāo)網(wǎng)絡(luò)設(shè)置成3 層全連接網(wǎng)絡(luò),隱藏層單元個數(shù)為30;將Critic 與Critic 目標(biāo)網(wǎng)絡(luò)設(shè)置為4 層全連接網(wǎng)絡(luò),隱藏層單元個數(shù)分別為30 和40.Actor與Critic 網(wǎng)絡(luò)的學(xué)習(xí)率均為0.001.回放緩沖區(qū)大小為10 000對 [sk ak rk sk+1],每次訓(xùn)練采樣64 對數(shù)據(jù).目標(biāo)網(wǎng)絡(luò)軟更新參數(shù)為τ=0.01.損失函數(shù)中的權(quán)重矩陣Wc取對角陣,對角元分別為{5,0.1,0.001}.神經(jīng)網(wǎng)絡(luò)優(yōu)化器使用Adam 優(yōu)化器.
仿真環(huán)境中忽略球桿系統(tǒng)摩擦力,具體模型參考文獻(xiàn)[26],控制周期設(shè)置為0.033 s (與第3.2 節(jié)中通過相機(jī)采樣志愿者控制數(shù)據(jù)的采樣周期保持一致),每次試驗最長為200 步.DDPG 的訓(xùn)練過程如圖3 所示.
圖3 DDPG 訓(xùn)練過程曲線圖Fig.3 Training process curves of DDPG
由于環(huán)境在每一步給智能體的獎勵均為負(fù)值,而球桿系統(tǒng)需要長久的運行,因此每一次試驗累積的獎勵值所代表的意義不鮮明.故本文統(tǒng)計了每次試驗在每一步的平均獎勵值隨訓(xùn)練時間的變化情況.另外,本文還統(tǒng)計了每次試驗運行的時間(步數(shù))以監(jiān)測球桿系統(tǒng)在訓(xùn)練過程中的穩(wěn)定性變化情況.由圖3(a)可見,平均每一步所累積的獎勵值隨著訓(xùn)練時間的增長逐漸增加,這說明以本文設(shè)置的獎勵函數(shù)為評價標(biāo)準(zhǔn),控制器的表現(xiàn)越來越好.最終,平均每一步所獲得的獎勵值收斂于一個接近0 的負(fù)值,這是由獎勵信號的設(shè)計方式所導(dǎo)致的.圖3(b)說明了隨訓(xùn)練時間的增加,球桿系統(tǒng)從開始的控制失敗(步數(shù)較少,因為小球離開長桿)逐漸變得更加穩(wěn)定(后期每次球桿系統(tǒng)控制時長都達(dá)到了最大值).由圖3 可以猜測,DDPG似乎習(xí)得了一個合適的控制器.
為了檢驗習(xí)得的期望控制策略的有效性,在仿真環(huán)境中用該控制策略控制球桿系統(tǒng)(隨機(jī)選擇了4 個初始狀態(tài)),結(jié)果如圖4 所示.其中分別表示在期望控制策略的控制下第i次仿真小球位置誤差,小球速度以及長干角度的變化軌跡.可以發(fā)現(xiàn),從任意的初始狀態(tài)出發(fā),基于DDPG 的期望控制策略都能高效,穩(wěn)定的完成控制任務(wù).另外,該期望控制策略并沒有將小球準(zhǔn)確無誤的停在目標(biāo)位置,而是存在著2 cm 左右的誤差,這可能是DRL 算法在學(xué)習(xí)過程中沒有完美的把握 “利用與探索之間的平衡”導(dǎo)致的.當(dāng)然,這也是DRL 中公認(rèn)的一大難點.但是,總體來說,該期望控制策略作為一種基于神經(jīng)網(wǎng)絡(luò)的非線性控制器,在本文設(shè)計的獎勵指標(biāo)上具有次優(yōu)性.
圖4 DDPG 控制效果圖Fig.4 The control result of DDPG
另外,本文在仿真中對比了基于DDPG 的控制策略與基于DQN 的控制策略的控制效果,結(jié)果如圖5 所示.DQN算法是一種經(jīng)典的基于值函數(shù)的DRL算法,其控制量是離散的.本次仿真中DQN的控制量屬于可以發(fā)現(xiàn),由于控制量是離散且其個數(shù)是有限的,如DQN 這種基于值函數(shù)的DRL 方法往往很難解決實際的控制問題.因此,使用基于策略的DRL 方法設(shè)計期望控制策略是必要的.
圖5 DDPG 與DQN 的控制效果對比圖Fig.5 The comparison of control effects between DDPG and DQN
本節(jié)分析利用GPR 學(xué)習(xí)人體控制策略預(yù)測模型的結(jié)果.本文通過相機(jī)檢測人機(jī)協(xié)作球桿系統(tǒng)的狀態(tài),具體檢測環(huán)境如圖6 所示.相機(jī)通過檢測長桿兩端的特征點(分別記人端和機(jī)器人端的特征點為p1 與p2)與小球的位置(記為p3),以確定球桿系統(tǒng)的實時狀態(tài).
圖6 人機(jī)協(xié)作實驗環(huán)境圖Fig.6 The environment of the human-robot collaboration task
據(jù)經(jīng)驗可知,人控制球桿系統(tǒng)時主要根據(jù)狀態(tài)s=[e x]T來決定旋轉(zhuǎn)長桿的速度vH.為了獲取訓(xùn)練數(shù)據(jù),本文邀請了10 位志愿者控制球桿系統(tǒng),并利用相機(jī)記錄了他們在控制過程中的控制策略數(shù)據(jù) (s,vH).由于相機(jī)檢測的是位置級信息,通過差分算法得到速度級信息時不可避免的引入高頻噪聲,因此本文使用低通濾波器對數(shù)據(jù)進(jìn)行濾波,效果如圖7 所示(本文只給出p1 點檢測信息,另外2 點的濾波效果相似).其中p1x,O、p1y,O、p1x,F和p1y,F分別表示p1 在濾波前后的橫縱像素坐標(biāo),v1x,O、v1y,O、v1x,F分別表示p1 在濾波前后的橫縱像素速度.雖然經(jīng)過濾波后的數(shù)據(jù)在位置級信息中有輕微的相位落后,但是速度級數(shù)據(jù)中的高頻噪聲被大幅抑制了.因此,利用濾波后3 點的位置數(shù)據(jù)可以較好得到數(shù)據(jù)集 (s,vH).圖8 可視化了一部分基于濾波后3 點構(gòu)建的志愿者控制球桿系統(tǒng)的狀態(tài)軌跡.
圖7 志愿者控制過程中產(chǎn)生數(shù)據(jù)的濾波結(jié)果圖Fig.7 Filtering results of the data generated by volunteers' control process
圖8 志愿者控制過程中產(chǎn)生的部分軌跡圖Fig.8 Some trajectories generated by the volunteers' control process
圖8 中的下標(biāo)H表示這些數(shù)據(jù)是由人的控制策略產(chǎn)生的.可以發(fā)現(xiàn),志愿者在控制球桿系統(tǒng)時并不會使小球最終嚴(yán)格地停在目標(biāo)位置處,而是在目標(biāo)位置附近徘徊.并且,人在控制球桿系統(tǒng)時往往伴隨較大的超調(diào)與一定程度的振蕩.本文認(rèn)為這種現(xiàn)象是很自然的,人的控制策略較為靈活與智能,這也是人相較于機(jī)器人最大的優(yōu)點.然而,人往往很難像數(shù)字控制器一樣做到高精度,高效率的控制.另外,進(jìn)一步發(fā)現(xiàn)人的速度分量vH,x相對于分量vH,z幅值較小,無明顯規(guī)律,更像是志愿者自己引入的隨機(jī)噪聲.本文利用GPR 在訓(xùn)練數(shù)據(jù)上擬合人體控制策略預(yù)測模型,即.結(jié)果圖9 所示.圖9 中陰影部分表示預(yù)測置信度為68.2%的區(qū)域(GPR 的輸出是1 個高斯分布),第1 行的2 幅子圖分別表示在訓(xùn)練集中1 條軌跡上的vH,x與vH,z的預(yù)測情況(上標(biāo)Tr表示).第2~ 4 行表示測試集中各速度分量的預(yù)測情況(上標(biāo)Te表示).由圖9 可以看出,無論是在訓(xùn)練集還是測試集中,vH,x的預(yù)測均較差,說明GPR 方法較難從訓(xùn)練數(shù)據(jù)中尋得一種普遍規(guī)律,這也證實了vH,x可能是志愿者自身引入的一種隨機(jī)噪聲的猜測.而對于速度分量vH,z,預(yù)測模型較為準(zhǔn)確地預(yù)測了變化趨勢.由于人控制策略的高隨機(jī)性與靈活性,精確的預(yù)測其具體的幅值是不現(xiàn)實的.本文得到的人體控制策略預(yù)測模型的預(yù)測值無論是在訓(xùn)練集還是測試集中,其預(yù)測幅值誤差均較小,故該預(yù)測模型可使機(jī)器人在一定程度上了解人的控制規(guī)律.
圖9 人體控制策略預(yù)測模型擬合結(jié)果圖Fig.9 The fitting results of human-control policy prediction model
本節(jié)在圖6 所示的平臺上對基于GPR 與DRL的分層人機(jī)協(xié)作控制方法進(jìn)行實驗驗證.
首先驗證頂層期望控制策略.由于頂層期望控制策略是只針對非線性球桿系統(tǒng)設(shè)計的,未考慮人引入的隨機(jī)因素.因此,在該部分實驗中保持p1 點固定不動,以期望控制策略控制機(jī)器人,即vR,x=0,vR,z=-θ˙L.其中θ˙ 由期望控制策略即Actor 網(wǎng)絡(luò)輸出得到.實驗結(jié)果如圖10 所示.
由圖10 可以發(fā)現(xiàn),無論小球從何初始位置出發(fā),該期望控制策略均能高效的完成控制任務(wù)(每一步時間為0.033 s,故期望控制策略約在6 s 內(nèi)完成控制任務(wù)).另外,可以發(fā)現(xiàn)該實驗結(jié)果與圖4 中的仿真結(jié)果非常相似,更進(jìn)一步的驗證了該期望控制策略的有效性.
圖10 期望控制策略的實驗驗證Fig.10 The experimental validation of the expected control policy
然而在實際人機(jī)協(xié)作任務(wù)中,人也參與到球桿系統(tǒng)的控制過程中.若仍以期望控制策略直接控制機(jī)器人,協(xié)作任務(wù)很可能在人與機(jī)器人協(xié)同的總控制量下失敗(如人的過激控制量加上機(jī)器人的期望控制量,使長桿的旋轉(zhuǎn)速度過快,從而使小球滾落長桿).故本文考慮使機(jī)器人與人的總控制量趨向于期望控制策略的控制量,即按第2.2.2 節(jié)所述設(shè)計機(jī)器人末端速度控制律.為了進(jìn)一步突出該方法的有效性,本文將人機(jī)協(xié)同控制的控制效果與期望控制策略和人單獨控制球桿系統(tǒng)的控制效果作對比.其實驗效果如圖11 所示.
考慮到傳統(tǒng)的主從式人機(jī)協(xié)作多為人主-機(jī)器人從模式,即在協(xié)作任務(wù)中控制策略完全由人產(chǎn)生,機(jī)器人多承擔(dān)負(fù)重任務(wù).因此本文考慮固定機(jī)器人端(即p2 點),由人單獨控制球桿系統(tǒng)來代表人主-機(jī)器人從的協(xié)作模式.單獨由人產(chǎn)生控制球桿系統(tǒng)的策略往往會帶來較大幅度的振蕩,延長了整體控制時間,降低了控制效率.本實驗的控制效率由使系統(tǒng)進(jìn)入穩(wěn)態(tài)區(qū)域的控制時間ts體現(xiàn),穩(wěn)態(tài)區(qū)域為穩(wěn)定值正負(fù)3 cm 所在的范圍(圖11 中的陰影部分).如圖11 所示,人單獨控制策略下的球桿系統(tǒng)在ts,H=9.57 s時進(jìn)入穩(wěn)態(tài)區(qū)域.與頂層期望控制策略相比,其效率明顯更低,并且最終較難精確地使小球停在目標(biāo)位置處.從振蕩的角度看,由于人在控制起始階段往往采取過激的控制量以達(dá)到快速降低誤差的目的,其并沒有考慮長遠(yuǎn)的系統(tǒng)變化.而基于DDPG 的頂層期望控制策略的目標(biāo)如式(1)所示,是使長遠(yuǎn)的累計獎勵最大化,其考慮到了系統(tǒng)的長遠(yuǎn)變化,并在快速性與穩(wěn)定性之間做出權(quán)衡,使系統(tǒng)不會有過大超調(diào).另外,如第3.2 節(jié)所述,人的控制精度相對于數(shù)字控制器較低是很自然的.因此,用人機(jī)協(xié)作來提高協(xié)作任務(wù)的控制效率與精度是有必要的.可以發(fā)現(xiàn),雖然人機(jī)協(xié)作的控制效果與期望控制策略的控制效果并不是理想情況下的完全一致,但是兩者的小球位置誤差與速度軌跡相差不大.單獨由人作控制決策相比,人機(jī)協(xié)作明顯提升了控制效率(ts,HRC=1.914 s),驗證了本文方法的高效性.
圖11 人機(jī)協(xié)作控制效果的實驗驗證Fig.11 The experimental validation of the HRC control
進(jìn)一步對比人機(jī)協(xié)作與期望控制策略之間的控制曲線可以發(fā)現(xiàn),人機(jī)協(xié)作的控制曲線存在一定的抖動,這在長桿的傾角變化軌跡中尤為明顯.顯然,這是人體控制策略預(yù)測模型的預(yù)測誤差造成的.如圖12 所示,可以發(fā)現(xiàn)雖然預(yù)測模型能較為準(zhǔn)確地預(yù)測vH,z的變化趨勢,但是對于其幅值的預(yù)測存在一定的誤差,使得機(jī)器人并未完全補(bǔ)償人的控制量,從而使人機(jī)協(xié)作的總控制量中仍然包含殘留著的人的控制量,因此造成了長桿傾角抖動.然而,長桿傾角的抖動對球桿系統(tǒng)的控制目的(使小球停在目標(biāo)位置處)并未造成較大的影響.
圖12 人體控制策略預(yù)測模型預(yù)測結(jié)果Fig.12 The prediction result of the human-control policy prediction model
本文針對主從式人機(jī)協(xié)作效率較低的問題設(shè)計了一種基于GPR 和DRL 的分層人機(jī)協(xié)作控制方法.頂層使用DRL 算法在模型未知的情況下設(shè)計了一種有效的次優(yōu)非線性控制策略,并將其作為期望控制策略以引導(dǎo)人機(jī)協(xié)作控制過程.底層使用GPR 方法擬合人體控制策略預(yù)測模型,為機(jī)器人建立人體行為認(rèn)知模型,從而提升機(jī)器人在協(xié)作過程中過的主動性,提高協(xié)作效率同時降低人未知隨機(jī)行為帶來的不利影響.進(jìn)而,基于期望控制策略與認(rèn)知模型設(shè)計機(jī)器人的末端速度控制律.最后由實驗對比發(fā)現(xiàn),本文所提的人機(jī)協(xié)作控制方法較人主-機(jī)器人從協(xié)作控制具有更高的協(xié)作效率,體現(xiàn)了本文方法的高效性.
本文用GPR 擬合人體控制策略之后只使用了輸出的均值來構(gòu)建機(jī)械臂的控制律,未利用協(xié)方差信息.如何利用協(xié)方差信息來構(gòu)建構(gòu)更加具有魯棒性的機(jī)械臂控制律是未來的一個研究要點.另外,如何提升在人體控制策略預(yù)測模型的預(yù)測精度也將是未來的工作之一.