黃海豐,劉培森,李 擎,于欣波
1) 北京科技大學自動化學院,北京 100083 2) 北京科技大學人工智能研究院,北京 100083 3) 北京科技大學順德研究生院,佛山 528399
近年來,協(xié)作機器人在高端制造、航空航天、醫(yī)療健康、社會服務等各個領域逐漸得到了應用和發(fā)展.在我國,人機協(xié)作已列入《智能制造2025》和《新一代人工智能發(fā)展規(guī)劃》重點支持研究計劃,并成為當前智能機器人領域的重要發(fā)展方向[1-3].
國際機器人聯(lián)合會定義了4種類型的人機協(xié)作:(1)共同存在:人和機器人存在協(xié)作,但工作空間相互隔離開;(2)順序協(xié)作:人和協(xié)作機器人共享工作空間的一部分或全部,但不同時在零件或機器上作業(yè);(3)共同作業(yè):協(xié)作機器人和人同時在同一零件上操作;(4)響應協(xié)作:協(xié)作機器人實時響應人的動作實現(xiàn)協(xié)作.當前人機協(xié)作的主要形式仍然停留在協(xié)作機器人和人共享工作空間,獨立地或順序地完成任務,實現(xiàn)共同存在或順序協(xié)作.響應協(xié)作以人的運動行為為中心,使協(xié)作機器人主動協(xié)作人類完成種類復雜的操作任務,是當下人機協(xié)作領域的研究重點和未來的發(fā)展趨勢.響應協(xié)作對協(xié)作機器人與人的共融性提出了較高的要求,為此,近年來圍繞協(xié)作機器人的智能控制方法與人機協(xié)作技術展開了廣泛的研究.
本文圍繞上述主題,對近年來協(xié)作機器人、協(xié)作機器人智能控制方法、人機協(xié)作技術的研究展開介紹.首先介紹常見協(xié)作機器人的基本情況;然后介紹協(xié)作機器人智能控制方法,包括視覺伺服控制、多模態(tài)融合控制、高精度跟蹤控制、交互力控制等;接著介紹人機協(xié)作關鍵技術,包括人類意圖估計和機器人技能學習技術;最后討論協(xié)作機器人的發(fā)展方向.
傳統(tǒng)工業(yè)機器人存在體型龐大、運行調試復雜、生產(chǎn)缺乏柔性的問題,并且出于安全考慮需要與人隔離開工作空間,這大大限制了機器人在高端制造和服務行業(yè)的應用.因此,協(xié)作機器人應運而生,協(xié)作機器人通常使用輕質材料并對速度和力進行了限制,具備良好的安全性,可以與人類在共享空間協(xié)同工作.協(xié)作機器人通常為6/7自由度(Degrees of freedom, DoF)的串聯(lián)型機器人,得益于協(xié)作機器人部署靈活、操作簡單、設計安全的特點,在智能制造、快遞物流、家庭服務、醫(yī)療健康等領域具備良好的應用前景.
近年來國內外的各大廠商開始陸續(xù)推出自己的協(xié)作機器人產(chǎn)品.優(yōu)傲(Universal robots, UR)公司在2008年推出的UR5是首款具有協(xié)作概念的商用機器人,并在隨后更新迭代了UR3、UR10.受益于輕質、與人交互安全和精度較高的特點,在高端制造業(yè)得到了廣泛應用,近年來UR公司又推出了控制精度更好,與人交互更安全的e系列機器人.KUKA、FANUC等知名工業(yè)機器人公司也推出了多款協(xié)作機器人,KINOVA公司的Jaco2、Gen3機器人在扶殘助老、家庭服務中得到了良好的應用,F(xiàn)ranka Emika推出的Panda協(xié)作機械臂在關節(jié)空間采用了全狀態(tài)反饋控制,可以在復雜環(huán)境下實現(xiàn)精確碰撞檢測,在安全協(xié)作方面性能優(yōu)越.
近年來在國家相關政策的大力支持下,國內協(xié)作機器人理論與應用得到了良好的發(fā)展,國內市場上也涌現(xiàn)出大批國產(chǎn)協(xié)作機器人.沈陽新松(SIASUN)于2015年推出了七軸協(xié)作機器人,支持拖動示教、碰撞檢測、視覺識別等功能,在工作空間緊湊、精度要求高的生產(chǎn)線中得到了有效的使用.近年珞石公司(ROKAE)推出了新一代xMate系列七自由度柔性協(xié)作機器人,具有高靈敏力感知,支持拖動示教、精準力控,在高端制造和輔助醫(yī)療行業(yè)具有良好的應用前景.艾利特(ELITE ROBOT)公司發(fā)布了全新的CS系列協(xié)作機器人,提供了可視化的交互界面的模塊化的編程方式.節(jié)卡(JAKA)公司推出了All-in-one系列共融協(xié)作機器人,深度融合了視覺信息.Elephant Robotics發(fā)布了世界上最小的6軸機器人手臂myCobot,具有良好的可用性和安全性,而且噪音低.
表1、表2中分別列出了國外、國內廠家的幾款協(xié)作機器人主要產(chǎn)品.協(xié)作機器人目前已經(jīng)在多個領域展現(xiàn)出良好的應用前景,受到國內外學者的廣泛關注,相信未來會有更多協(xié)作機器人出現(xiàn),應用在各種工業(yè)生產(chǎn)、生活服務中.
表1 幾款國外協(xié)作機器人Table 1 Introduction to collaborative robots from foreign manufacturers
表2 幾款國內協(xié)作機器人Table 2 Introduction to collaborative robots from domestic manufacturers
視覺伺服控制有效地拓展了協(xié)作機器人的應用領域.在協(xié)作機器人上安裝攝像頭,以實現(xiàn)機器人對目標的感知,進一步對目標特征信息進行處理,得到視覺反饋,并利用反饋信息對機器人進行實時控制,以實現(xiàn)精確的跟蹤或定位,完成相應的工作.根據(jù)反饋信息的不同,機器人視覺伺服可分為基于位置的視覺伺服(3D視覺伺服)、基于圖像的視覺伺服(2D視覺伺服)等.視覺伺服控制在機器人抓取任務中得到了重要的應用.基于位置的視覺伺服利用攝像機參數(shù)建立圖像信息,從而得到機器人當前位姿與目標位姿之間的映射關系,把計算出的映射關系指令反饋給機器人關節(jié)控制器,最后實現(xiàn)機器人運動[4-6].隨著Kinect等高性能深度相機的出現(xiàn),文獻[7]提出使用深度攝像機獲取目標點云,然后通過提取快速點特征直方圖描述子結合奇異值分解算法來估計目標位姿.基于圖像的視覺伺服通過提取圖像中的特征點,采用雅可比矩陣建立機器人運動與圖像特征點運動的動態(tài)控制模型,并基于該控制模型得到控制指令.方勇純等提出了一種基于二維三焦點張量的視覺伺服鎮(zhèn)定控制方法,在圖像特征識別方面體現(xiàn)出了更強的魯棒性[8].李智軍等開發(fā)了一種基于圖像的視覺伺服控制策略,可以避免同源算法和基于基本矩陣的算法的模糊性和退化問題[9].Zhang等提出了一種新型的基于圖像輸出反饋的機器人自適應視覺伺服方法,在速度估計的準確性、跟蹤精度和魯棒性等方面具有優(yōu)越性[10].Malis等提出的2.5D視覺伺服策略,成功地將圖像信號與從圖像中提取的位置/姿態(tài)信號相結合,并使用它們生成用于反饋的合成誤差信號,增強了系統(tǒng)的穩(wěn)定性[11].文獻[12]提出了一種新2.5D視覺伺服方法,用于抓取無紋理的平面零件,使用混合視覺特征,將圖像矩與笛卡爾空間中的三維旋轉結合控制機器人的運動.
協(xié)作機器人在執(zhí)行協(xié)作任務時,通常需要多種傳感器模態(tài)的信息輸入,協(xié)作機器人進行感知模態(tài)信息融合,尤其是視覺和觸覺,對提升協(xié)作機器人操作的柔順性和安全性具有顯著意義,國內外很多學者針對多模態(tài)融合控制展開了研究.
Prats等通過融合視覺、觸覺信息提出了基于感知信息的機器人控制框架,并設計完成了滑動門開關任務:機器人通過視覺信息可以定位到門把手位置,并通過觸覺反饋信息調整視覺誤差,實現(xiàn)最終位置匹配[13].Ilonen等釆用目標對稱約束將視、觸覺信息互補融合,通過狀態(tài)估計實現(xiàn)三維重建[14].文獻[15]將視覺-觸覺傳感器搭載于協(xié)作機器人系統(tǒng)并提出了基于圖形與外力反饋的導航和操作任務集成表示方法.文獻[16]提出使用視覺-觸覺融合的物體三維重建方法,解決了僅用視覺產(chǎn)生的物體三維重建過程中的遮擋等問題.在獲取全面、準確的信息后進行運動預測與意圖辨識,以加強人機協(xié)作中機械臂的主動性.Li等提出利用視覺和觸覺傳感器進行數(shù)據(jù)采集,并用深度神經(jīng)網(wǎng)絡(Deep neural network, DNN)進行滑覺檢測,服務于機器人實現(xiàn)穩(wěn)定抓取[17].Zhang等[18]提出了一個用于機器人材料感知的視覺-觸覺跨模式學習框架,在終身學習的背景下解決視覺-觸覺跨模態(tài)學習的問題,利于逐步提高機器人跨模態(tài)材料感知的能力.文獻[19]提出了一種基于視覺和力傳感信息融合的框架,用于人-機器人協(xié)作任務,使機器人能夠主動跟隨人類伙伴減小控制難度,并在不使用力傳感器的情況下,設計了一個力觀測器來估計人體的力,并通過最小化估計的力來獲得人體的運動意圖.
提升協(xié)作機器人的魯棒性和可靠性成為協(xié)作機器人應用和普及的關鍵難題,針對這一問題國內外學者開展了協(xié)作機器人高精度跟蹤控制中的關鍵問題研究.協(xié)作機器人的高精度控制主要面臨兩方面的難題:其一是約束問題,約束是指控制系統(tǒng)的輸入和狀態(tài)滿足一定的約束條件,它取決于實際物理器件限制、系統(tǒng)運行性能要求以及安全要求;其二是不確定性問題,協(xié)作機器人通常采用柔性關節(jié)作為驅動結構,柔性關節(jié)能夠實現(xiàn)柔順操作與碰撞保護,但柔性關節(jié)的引入會加大上層運動控制的復雜性,實際情況存在的因素會使柔性關節(jié)機器人出現(xiàn)模型不確定和受到未知擾動的情況,此時基于模型的非線性控制策略將失效.
2.3.1 機器人輸入約束控制
輸入約束是在實際工程應用中很重要的一個約束條件,包含有輸入飽和、回滯、輸入死區(qū)等.
在實際應用場景中,考慮到物理約束和安全性問題,機器人執(zhí)行機構通常存在輸出功率上限,即存在輸入飽和問題,從機器人系統(tǒng)的安全性與穩(wěn)定性出發(fā),考慮控制器設計輸入飽和非線性尤為重要,已經(jīng)有國內外學者對此問題展開了大量研究.針對輸入飽和通常有兩種處理方式:一種是通過調節(jié)給定的輸入信號解決輸入飽和[20-21];另一種是通過構造輔助系統(tǒng),基于輔助系統(tǒng)對跟蹤誤差進行修正,進而處理輸入飽和問題[22-25].
協(xié)作機器人系統(tǒng)是典型的復雜非線性系統(tǒng),本體與執(zhí)行器之間存在能量轉換會引起時滯現(xiàn)象.文獻[26]提出了時滯影響的數(shù)學模型.基于此,在文獻[27]中,作者設計了一類魯棒控制器,采用李雅普諾夫-克拉索夫斯基泛函(Lyapunov-Krasovskii Function, LKF)解決了時滯問題.文獻[28]針對含時滯的協(xié)作機器人系統(tǒng)設計了一類速度觀測器,同樣采用LKF來處理未知時滯問題.Li等[29]通過利用有限時間穩(wěn)定性理論、障礙李雅普諾夫函數(shù)(Barrier Lyapunov Function, BLF)和自適應反步法,提出了一種新型的自適應跟蹤控制策略,解決了有死區(qū)的非線性系統(tǒng)的有限時間控制問題.
2.3.2 機器人輸出約束控制
出于機器人系統(tǒng)安全性考慮,約束條件下通常需要對機器人位置、速度、加速度等狀態(tài)設限.用于多關節(jié)協(xié)作機器人的常見的解決約束問題的方法主要有兩種:
一種是基于函數(shù)變換的方法,即采用一類非線性函數(shù)將受限的系統(tǒng)直接轉換為等效的不受限的系統(tǒng),再針對不受限的系統(tǒng)進行控制設計.Zhang等[30]研究了一類帶輸出約束的不確定非線性系統(tǒng)的跟蹤問題,通過設計非線性狀態(tài)轉換器,進一步給出了一類魯棒控制器,實現(xiàn)了控制目標.文獻[31]采基于非線性函數(shù)變換的方法研究了輸出約束下的柔性關節(jié)機器人控制問題,基于該方法,許多學者通過結合自適應控制、神經(jīng)網(wǎng)絡控制等不同控制技術,解決了一類嚴格反饋系統(tǒng)的約束跟蹤控制問題[32-35].
另一種是基于BLF的控制方法.通過設計合理的控制器保證BLF在閉環(huán)系統(tǒng)中保持有界,從而實現(xiàn)目標變量始終不超出預設范圍.Tee等[36]提出在控制設計中采用障礙李雅普諾夫函數(shù),在不違反約束條件的情況下實現(xiàn)了漸進跟蹤.文獻[37]通過使用反步法和神經(jīng)網(wǎng)絡構建了一種新型的自適應控制策略,其中一種新穎的積分障礙李雅普諾夫函數(shù)被用來克服違反全狀態(tài)約束的問題.文獻[38]考慮了具有全狀態(tài)約束的機器人關節(jié)空間控制系統(tǒng),利用BLF保證系統(tǒng)狀態(tài)滿足約束條件,并利用神經(jīng)網(wǎng)絡估計系統(tǒng)中的不確定項,實現(xiàn)了全狀態(tài)約束下多關節(jié)機器人的關節(jié)空間軌跡跟蹤控制.Liu等基于偏微分方程,引入了非對稱障礙李雅普諾夫函數(shù)來處理非對稱約束,提出了新的干擾觀測器,以減弱邊界干擾的影響[39].
2.3.3 不確定系統(tǒng)控制
由于機器人系統(tǒng)和實際環(huán)境存在多種不確定因素,精確的機器人動力學模型難以獲取,會引起模型完全未知、模型不匹配、基于模型的非線性控制策略不適用于實際機器人系統(tǒng)等問題,針對如上問題,文獻[40]提出使一類使用最小二乘法估計機器人未知動力學參數(shù)的方法.另一類重要的解決動力學模型不確定性的方法是利用機器人系統(tǒng)的輸入輸出數(shù)據(jù)采用神經(jīng)網(wǎng)絡估計未知的模型參數(shù).
神經(jīng)網(wǎng)絡可以用于解決機器人系統(tǒng)的模型不確定性[41].文獻[42]將徑向基函數(shù)(Radial basis function, RBF)作為神經(jīng)網(wǎng)絡(Neural network, NN)隱含層激活函數(shù),通過RBF神經(jīng)網(wǎng)絡估計動力學模型不確定項,結合反步法和李雅普諾夫穩(wěn)定性理論,獲得神經(jīng)網(wǎng)絡權重的自適應律,基于系統(tǒng)輸入輸出數(shù)據(jù)構造神經(jīng)網(wǎng)絡結構,實現(xiàn)跟蹤誤差的半全局最終一致有界.文獻[43]結合反向傳播算法,對機器人系統(tǒng)參數(shù)進行了調整,使用動態(tài)系統(tǒng)神經(jīng)網(wǎng)絡估計了機器人動力學模型中的不確定項.文獻[44]利用自適應神經(jīng)網(wǎng)絡估計雙臂機器人閉鏈動力學模型中的非線性不確定項,進一步提高了雙臂機器人協(xié)調控制位置精度.文獻[45]將自適應神經(jīng)網(wǎng)絡與阻抗控制結合,提出了一種基于神經(jīng)網(wǎng)絡的自適應阻抗控制策略,在控制器作用下使交互力滿足理想阻抗模型.Ding等[46]提出了一種基于部分強化學習神經(jīng)網(wǎng)絡(Partial reinforcement learning neural network, PRLNN)的跟蹤算法,解決輪式移動機器人跟蹤控制的時變超前角問題.文獻[47]中神經(jīng)網(wǎng)絡被用來估計和補償系留空間機器人動態(tài)模型中的不確定性,并設計了一個自適應魯棒控制器來克服空間系繩的影響并跟蹤阻抗控制器產(chǎn)生的期望位置.文獻[48]提出使用阻抗學習的自適應模糊神經(jīng)網(wǎng)絡控制,用于受制于未知的系統(tǒng)動力學、狀態(tài)約束影響的機器人系統(tǒng),使之表現(xiàn)出對未知環(huán)境的順應性.Liu等[49]提出一種基于神經(jīng)網(wǎng)絡的滑模控制方法,可以用于參數(shù)不確定的機器人系統(tǒng),并解決了傳統(tǒng)滑??刂品椒ㄖ锌刂戚斎氲恼耦澓透咚偾袚Q問題.
除此之外,還有多種方法被用于解決系統(tǒng)不確定性問題.文獻[50]中,不確定性和干擾估計器(Uncertaintly and disturbance estimator, UDE)被用來在只知道部分信息的情況下對系統(tǒng)模型進行近似,所提出的可變阻抗控制可以幫助機器人完成與未知環(huán)境的交互任務,并提高系統(tǒng)的整體性能.文獻[51]針對不確定非線性系統(tǒng)提出了一個基于多項式參考軌跡的簡單線性滑膜面,使軌跡跟蹤誤差在有限時間內收斂為零.Zhang等[52]考慮具有未知干擾的非線性系統(tǒng)的事件觸發(fā)跟蹤控制問題.在控制器更新中考慮了事件觸發(fā)機制,這在實踐中減少了通信量,降低了控制器更新的頻率.Sun等[53]提出在控制器設計中使用自適應神經(jīng)網(wǎng)絡抑制柔性機器人的振動.文獻[54]提出一種摩擦力觀測器,將電機側的額定信號反饋到控制器中,在不使用摩擦模型的情況下解決了摩擦補償問題且會對失速進行過度補償.Chen等[55]提出了一種基于肌肉協(xié)同作用的神經(jīng)肌肉控制方法,所提出的方法不僅提高了運動學習的速度和準確性,而且還增強了運動泛化能力,促進了肌肉骨骼機器人系統(tǒng)的發(fā)展以及神經(jīng)科學和機器人學的融合.文獻[56]提出設計估計器重構機器人系統(tǒng)的未知動態(tài)和外部干擾,控制器設計中引入預設性能函數(shù),使系統(tǒng)跟蹤誤差限制在預先規(guī)定邊界內,保證機器人系統(tǒng)的性能和安全性.文獻[57]開發(fā)了一種雙環(huán)控制結構,在外環(huán)中,設計了一個在線軌跡重新規(guī)劃算法,在系統(tǒng)的動力學和動態(tài)約束下,迫使重新規(guī)劃的軌跡在最短的時間內并入期望的軌跡;在內環(huán)中,集成了一個自適應魯棒控制器,以有效地處理參數(shù)不確定性和不確定的非線性,從而保證高穩(wěn)態(tài)跟蹤精度.
協(xié)作機器人在工作中需要與外界環(huán)境和人進行物理交互,這要求機器人不僅能跟蹤規(guī)劃的運動軌跡,還要控制與外界交互的作用力,力/位混合控制的原理是在機器人末端沿著約束方向上進行力控制,在與約束方向相垂直的方向進行位置控制.Lozano和Brogliato[58]基于機器人雅可比和環(huán)境的特殊分解剛度矩陣,提出了一種自適應力/位置控制方案.
Hogan[59]將二階阻尼模型和機器人動力學模型結合,提出了機器人的阻抗控制理論,為機器人交互控制方法開辟了新的研究方向.與傳統(tǒng)混合力/位控制不同,阻抗控制通過調節(jié)期望阻抗模型的參數(shù)規(guī)劃機器人與外界環(huán)境交互過程中位置偏差和力偏差的關系,從而實現(xiàn)柔順交互.近年來,由于阻抗控制計算量小且具有較好的魯棒性等優(yōu)點,受到國內外學者廣泛重視.阻抗控制方法結合了傳統(tǒng)力位混合控制和阻抗控制的優(yōu)點,通過實時修正機器人末端的接觸力,實現(xiàn)了高精度的力跟蹤[60].然而機器人交互性能取決于阻抗控制中的預先搭建的期望阻抗模型搭建是否合適,并且由于交互過程中外界環(huán)境的擾動,固定阻抗模型的阻抗控制方法難以保持全程的最優(yōu)交互性能,因此,近年來廣大學者開始研究自適應的阻抗控制策略.Xu等[61]提出了一種基于進化動態(tài)遞歸模糊神經(jīng)網(wǎng)絡(Evolutionary dynamic recurrent fuzzy neural network, EDRFNN)的自適應阻抗控制器,可以根據(jù)受損肢體的身體恢復狀況,實時調節(jié)機器人和受損肢體之間的理想阻抗.Yang等[62]把阻抗控制與迭代學習相結合,借鑒人類神經(jīng)中樞系統(tǒng)(Central nervous system, CNS)對干擾運動的學習經(jīng)驗,提出了一套適用于不穩(wěn)定環(huán)境下的自適應阻抗控制理論.文獻[63]通過結合笛卡爾阻抗控制和冗余分辨率來提高人與協(xié)作機器人物理交互過程中的性能.近年來,又有多種方法被用于提升基于阻抗控制方法的機器人交互性能.文獻[64]提出了一種由串聯(lián)彈性致動器(Serial elastic actuator,SEA)驅動的康復機器人的迭代學習阻抗控制器.所需的阻抗模型是以迭代的方式實現(xiàn),這適合病人在康復過程中的重復性,也保證了機器人的瞬態(tài)性能.文獻[65]提出在寬松的激勵條件下,通過使用復合學習律,實現(xiàn)了阻抗誤差的收斂.Li等[66]通過提取人的肌電信號估計運動意圖,將運動意向估計整合到基于障礙物李亞普諾夫函數(shù)的自適應阻抗控制,在運動和力跟蹤方面達到了預期的良好性能.文獻[67]提出使用阻抗控制來處理人類主體的意圖以及機器人動力學中的未知慣性質量和力矩,使人類受試者能夠在外骨骼機器人上有效地執(zhí)行阻抗控制任務.
協(xié)作機器人當前已經(jīng)在協(xié)同裝配[68]、協(xié)作切割[69]、物體交接[70]等多種人機協(xié)作任務中展現(xiàn)出了良好的應用前景,雖然還未在工業(yè)界的實際生產(chǎn)中得到廣泛應用,但是國內外研究機構針對機器人執(zhí)行協(xié)作任務的關鍵問題已經(jīng)做出了大量研究,要使協(xié)作機器人在協(xié)作任務中進一步擁有更好的表現(xiàn),大體上涉及兩個關鍵問題:其一是如何估計人類意圖以便提高協(xié)作機器人對人類行為的響應的實施性;其二是如何使協(xié)作機器人掌握協(xié)作所需要的操作技能.需要說明的是,本章主要關注協(xié)作機器人人機協(xié)作的前沿關鍵技術,其中大部分關鍵技術尚處于學術研究階段,還未部署到現(xiàn)有的協(xié)作機器人產(chǎn)品中.
在人與人之間的協(xié)作任務中,人通常會估計對方的運動意圖并做出配合,以提高協(xié)作的流暢程度和效率.在人與機器人的協(xié)作任務中,如果機器人可以像人一樣估計對方的運動意圖,就可以實現(xiàn)提前對人的運動做出響應,實現(xiàn)更高效的協(xié)作,這也是人-機器人協(xié)作的研究重點之一.
文獻[71]提出了一種應用于快速點到點人機協(xié)作任務中的人類運動意圖估計方法.文獻[72]未使用力傳感器,僅依據(jù)控制器的變化量來估計人類運動意圖,通過獲取的運動意圖,提出一種轉換方法使系統(tǒng)在阻抗控制和隨動控制間任意轉換.文獻[73]提出了一個面向人形機器人執(zhí)行復雜任務的人機合作搬運控制架構,其中機器人可以有效估計人類的運動意圖.在文獻[74]中,人類步態(tài)估計方法被應用在移動手杖機器人中.文獻[75]設計了人機多模態(tài)接口,用來實時反饋人類運動意圖,完成人機協(xié)作任務.文獻[76]提出了一種基于示教的人類運動意圖估計方法,提出了一種基于迭代學習的控制策略并應用于人在回路的人機交互實驗中.文獻[77]提出了一種逆最優(yōu)控制和目標集迭代重規(guī)劃策略來預測人的運動.Li等[78]提出采用神經(jīng)網(wǎng)絡處理人的肢體模型的非線性和時變性,并基于此開發(fā)了一種人類運動意圖在線估計方法,估計的運動意圖被整合到自適應阻抗控制中,使機器人遵循理想的阻抗目標,能夠與人類伙伴積極協(xié)作.文獻[79]提出利用博弈論描述人-機協(xié)作系統(tǒng),并采用策略迭代來提供納什均衡的解決方案.人的控制目標是根據(jù)測量的交互力來估計的,并用于調整機器人的目標,從而實現(xiàn)人與機器人的協(xié)調.
由于人在同一協(xié)作任務中通常采取具有相似軌跡特點的運動路徑,利用概率建模的方法能夠對人類運動意圖進行建模和估計[80].概率建模的一種有效方法是利用隱馬爾可夫模型(Hidden Markov model, HMM)等圖形模型建模.馬爾可夫模型可以同時編碼時間和空間特征.國內外學者目前已提出了幾種可以根據(jù)新獲得的數(shù)據(jù)自適應修正模型的方法.雖然HMM可以隨機編碼空間和時間特征,但由于軌跡是離散和抽象的,因此要詳細解碼時間特征是很困難的.為了明確地將時間特征納入到模型中,國內外學者提出了使用顯性時間HMM[81]和自回歸HMM[82]的建模方法.但將它們擴展到在線算法是困難的,因為模型參數(shù)的學習并不能很好地收斂,除非事先設置好圖形模型的結構.另一種有效的概率方法是非線性回歸方法,如高斯過程回歸(Gaussian process regression, GPR)和高斯混合回歸(Gaussian process regression, GMR)[83-84].同樣,作為一種利用概率分布的模型,高斯過程動力學模型(Gaussian process dynamic model, GPDM)是一種對人類動力系統(tǒng)進行隨機建模的有效方法[85].除此之外,自回歸綜合移動平均(Autoregressive integrated moving average,ARIMA)模型[86]、遞歸神經(jīng)網(wǎng)絡(Recurrent neural network, RNN)[87]等也被用于人類意圖估計.
近年來,技能傳遞學習,即將人類技能傳遞給機器人,已成為協(xié)作機器人和人-機器人協(xié)作的研究熱點之一[88].技能傳遞學習具有以下顯著優(yōu)勢:技能傳遞學習使得機器人能夠在復雜動態(tài)的環(huán)境中學習和習得操作技能,可以克服傳統(tǒng)編程等傳統(tǒng)方法的不足,并且極大地提高了機器人對復雜環(huán)境的適應性;并且在技能傳遞過程中,可以采集到豐富人體生理信號從而提取出所需的多個維度的技能特征.
機器人技能傳遞學習受到人類學習操作技能過程的啟發(fā),與人類行為類似,機器人通常需要與環(huán)境或人類進行物理交互,同時執(zhí)行具有信息豐富的神經(jīng)生理學感官信號的協(xié)作任務,這些信號都與協(xié)作行為同時發(fā)生.技能傳遞學習使機器人能夠保留或利用觀察到的人類行為作為技能,通過實踐加以改進,然后將其應用到新的任務環(huán)境中.技能傳遞學習的主要思想是通過模仿和開發(fā)自然模型、系統(tǒng)和過程來形成技術解決方案.
3.2.1 技能示教
對于技能傳遞學習過程,通常需要人類導師對機器人進行技能示教,機器人收集并提取所需的運動信息,包括位置、速度、力/力矩,和一些協(xié)作任務中的人的肢體剛度,從而獲得了技能信息的數(shù)據(jù)集,數(shù)據(jù)集的構建應進一步考慮運動表示、演示對齊、運動分割和生成.示教學習通常有如表3所示的3種方法.
表3 三種常見的示教學習方法對比Table 3 Comparison of three common demonstration methods
動覺示教方法:動覺示教又稱物理交互示教,即人手動拖動機械臂進行示教并記錄運動過程.動覺教學利用協(xié)作機器人力觸感知能力.動覺教學可以連續(xù)進行記錄整個運動軌跡,也可以通過在單獨的時間實例中記錄機器人狀態(tài)的離散快照來進行,例如在關鍵幀的關鍵姿勢序列教學中.動覺示教無需額外設備,便于操作,然而這種示教方法通常只適用于慣性較小的輕量型機械臂,并且受到工作空間的限制,多自由度機器人的動覺示教較為困難.
遙操作示教:遙操作示教可以使用簡單的操縱桿或其他遠程控制裝置實現(xiàn)對協(xié)作機器人的遠程操作.機器人和人類導師不需要共享同一空間.遙操作示教的一個優(yōu)勢是通過主端的遙操作設備通??梢圆榭催\動信息,然而遙操作示教所能控制的自由度同樣有限,而且主端與從端設備之間存在通信延時問題.
通過視覺和可穿戴設備示教:通過攝像頭和可穿戴設備捕捉人體運動,使用這種方法示教,人類不受約束自由移動,人體四肢和關節(jié)的角位移可以通過這些外部手段精確測量.然而,人體與機器人的運動學對應問題是這種示教方式的一大挑戰(zhàn),并且也存在設備與機器人的通信問題.
3.2.2 機器人技能學習
獲得技能示教的數(shù)據(jù)集后,通過機器人技能學習,可以生成策略并映射到機器人控制器,此外,學習的技能策略可用于在新環(huán)境中復現(xiàn)并泛化機器人的技能.
(1)基于模型學習的技能學習.
當前機械臂技能大多通過人工預定義的規(guī)則實現(xiàn),受限于固化編程的特點,不具備良好的自主性、靈活性和自適應性,將機械臂的應用場景限制在結構化環(huán)境中.為使機械臂可以應用于更廣泛的場景,學者們提出將動態(tài)系統(tǒng)和統(tǒng)計學習方法應用于機器人技能表示.文獻[89]提出了基于GMM對技能特征編碼的框架,用于機械臂技能學習,但是這類方法泛化能力差,難以實時泛化于新的場景.文獻[90]結合了動態(tài)系統(tǒng)與統(tǒng)計學習方法,將概率運動原語用于機器人技能學習.然而這種方法通常需要大量的數(shù)據(jù)以保證生成軌跡的準確性.文獻[91]提出了一種結合概率學習、動態(tài)系統(tǒng)和剛度估計的方法,以編碼機器人在任務中的行為.提出的方法允許機器人不僅學習軌跡跟蹤技能,而且還學習阻抗行為.Wang等[92]等提出結合概率模型、阻抗系統(tǒng)和剛度估計對任務技能進行編碼,使機器人同時學習阻抗行為和軌跡跟蹤技能.動態(tài)運動基元(Dynamic movement primitives,DMPs)[93-94]是一種較簡潔的基于非線性動態(tài)系統(tǒng)的技能建模方法,能夠在時間和空間上對軌跡進行放縮并泛化到新的目標位置.動態(tài)運動基元算法的應用旨在允許人類通過示教的方式,傳遞給協(xié)作機器人執(zhí)行任務時應該產(chǎn)生的擬人運動,從而提升協(xié)作機器人的可交互性[95-96].文獻[97]引入了肌肉協(xié)同概念,將原始動態(tài)運動基元模型中的徑向基函數(shù)參數(shù)化,提出了參數(shù)化的動態(tài)原語模型,并通過實驗證明了其有效性.文獻[98]基于動態(tài)運動基元模型,使用徑向基函數(shù)對力矩信息進行編碼,提出了柔順運動基元模型,且對于柔順運動的學習不依賴于顯式的環(huán)境動力學模型,提升了協(xié)作機器人技能學習的柔順性.文獻[99]提出基于RBFNNs的復合DMPs,用于協(xié)作機器人從人類演示中學習的包含位置和方向信息的技能.Lu等[100]提出了一個帶有各種分類約束條件的通用DMPs框架.在BLFs的啟發(fā)下,推導出一般模型的額外加速項,以補償實際軌跡和期望軌跡之間的跟蹤誤差.
(2)基于強化學習的技能學習.
強化學習通過探索環(huán)境和機器人自身身體,從試錯(Trial-and-error)中學習[101].強化學習中的目標由獎勵函數(shù)指定,根據(jù)機器人相對于目標期望的表現(xiàn),獎勵函數(shù)起到正強化或負懲罰的作用.強化學習在機器人領域的應用創(chuàng)造了一個明確的利基市場[102-104].基于強化學習的機器人技能學習方法提供了3個傳統(tǒng)方法不具備的能力:學習人類教師無法實際示教或直接編程的任務,如舉起大重量重物[105];學習人類教師不確定最優(yōu)解的技能,通過使用已知的成本函數(shù)(例如,最小化執(zhí)行任務所用的能量或找到最快的步態(tài)等),實現(xiàn)沒有分析公式或已知封閉形式解的難題的優(yōu)化目標學習;使習得技能適應新的任務(例如學習從平地走到斜坡),強化學習還提供了一些額外的優(yōu)勢,例如可以從一次效果較好地的示教中學習技能并逐步完善.
(3)基于逆強化學習的技能學習.
學習一項技能對于復雜的機器人系統(tǒng)通常是困難且耗時的,而逆強化學習可以基于有限示教數(shù)據(jù)反推出獎勵函數(shù),并據(jù)此進行強化學習,從而提高學習策略的泛化性能.逆強化學習解決了學習什么和如何學習的問題.逆強化學習的本質是為任務找到一個獎勵函數(shù).為次,學者們提出了許多方法.在文獻[106]中,提出了基于示教數(shù)據(jù)的最大利潤原則,最小化了基于獎勵函數(shù)學習的最優(yōu)策略與其他次優(yōu)策略之間的差異.在文獻[107]中,提出了一種基于最大熵原理確定獎勵函數(shù)的方法,使機器人控制策略對示教數(shù)據(jù)噪聲表現(xiàn)出較好地魯棒性.近年來,許多非線性函數(shù)被用來設計獎勵函數(shù).文獻[108-109]提出了基于邊際的方法,通過特征構造來學習非線性獎勵函數(shù).文獻[110]提出了順序加窗逆向強化學習(Sequential windowed inverse reinforcement learning, SWIRL),將無監(jiān)督學習應用于少量的初始專家演示.SWIRL將一個長時間跨度的任務近似為一個局部獎勵函數(shù)和子任務過渡條件的序列.在這個近似值上,SWIRL應用Q-learning來計算一個使獎勵最大化的策略.在文獻[111]中,生成式對抗網(wǎng)絡被用來優(yōu)化獎勵函數(shù),與傳統(tǒng)的學習方法相比,在大型高維環(huán)境中獲得了顯著的性能提升.
為使協(xié)作機器人在協(xié)作任務中具備更好的靈活性自主性,協(xié)作機器人結構和驅動仿生化是重要的發(fā)展方向之一,具備仿生特點的剛柔耦合結構能夠使協(xié)作機器人集成具有剛性支撐結構與柔性自適應結構的優(yōu)勢,通過柔性材料進行機器人機構設計,能夠使協(xié)作機器人具備運動靈活、運動速度快、交互安全等特點.在驅動方面,協(xié)作機器人的驅動方式可以采用人工肌肉等仿生驅動形式,并實現(xiàn)驅動、結構、材料一體化,使仿生機器人與生物形態(tài)更加接近.并通過在感知信息融合、柔性結構振動控制方面取得突破,使協(xié)作機器人實現(xiàn)穩(wěn)定仿生運動、高效自主運動.
協(xié)作機器人的主要應用前景是在多個領域中代替人的作用,因而被期望可以具備類似人的高層次智能,可以基于現(xiàn)有經(jīng)驗和知識進行無監(jiān)督學習,而當前協(xié)作機器人的智能依賴于基于大量樣本進行有監(jiān)督學習,不具備類似人的高度的自主學習能力.協(xié)作機器人在工作中需要與人進行豐富的交互,人作為機器人的協(xié)作和服務對象,人的感受是協(xié)作機器人工作成效的重要依據(jù),因此協(xié)作機器人的智能需要與人的智能相協(xié)同,將人的認知模型或者人的作用引入?yún)f(xié)作機器人的智能,形成人在回路的混合增強智能,通過人的介入,調整協(xié)作機器人的技能策略,構成機器人智能水平提升的反饋回路,實現(xiàn)人的高度自主學習能力、分析能力、認知能力與機器人智能的運算能力與高精度特點的緊耦合,使協(xié)作機器人具備更高層級智能水平,勝任更加復雜的協(xié)作任務.