伍一鶴,張振寧,仇 棟,李蔚清,蘇智勇
基于深度強(qiáng)化學(xué)習(xí)的虛擬手自適應(yīng)抓取研究
伍一鶴1,張振寧2,仇 棟1,李蔚清2,蘇智勇1
(1. 南京理工大學(xué)自動化學(xué)院,江蘇 南京 210094;2. 南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210094)
在計(jì)算機(jī)角色動畫的抓取研究中,生成動作序列的自然性、穩(wěn)定性及自適應(yīng)能力三者難以同時(shí)得到保證,即自然又穩(wěn)定的抓取控制器往往泛化能力有限,無法適用于其他類型、尺寸物體的抓取任務(wù)。通過引入和抓取類型相對應(yīng)的手部示教數(shù)據(jù)、設(shè)計(jì)回報(bào)函數(shù),構(gòu)建了一種基于深度強(qiáng)化學(xué)習(xí)的虛擬手自適應(yīng)抓取控制器。實(shí)驗(yàn)結(jié)果表明,該控制器能夠生成兼具自然性和穩(wěn)定性的抓取運(yùn)動序列,同時(shí)對素材庫中不同尺寸、不同類型的基元物體也具備較好的自適應(yīng)能力。
深度強(qiáng)化學(xué)習(xí);示教學(xué)習(xí);運(yùn)動生成;虛擬手;動作捕捉數(shù)據(jù)
虛擬人手部的抓取運(yùn)動生成技術(shù)廣泛應(yīng)用在計(jì)算機(jī)角色動畫、機(jī)器人學(xué)、第一人稱虛擬現(xiàn)實(shí)(virtual reality,VR)等領(lǐng)域。由于人手是一個(gè)多自由度的復(fù)雜層次結(jié)構(gòu)[1]、是人體最靈活的部位,為了實(shí)現(xiàn)虛擬手對不同形狀、不同尺寸物體的自適應(yīng)抓握交互,并保證生成的運(yùn)動序列自然流暢,保證最終的抓取姿態(tài)穩(wěn)定牢固,對控制器的設(shè)計(jì)提出了較高的要求。
現(xiàn)有的研究方法主要分為2類:建模解析法和數(shù)據(jù)驅(qū)動法。建模解析法[2-7]需要對虛擬手及交互對象進(jìn)行嚴(yán)格的逆向工程,獲得描述抓取姿態(tài)的解析方程[4]。該方法的建模過程繁瑣,且難以泛化[5-7]。數(shù)據(jù)驅(qū)動法[8-13]需要動作捕捉數(shù)據(jù)[13]或大量如contact map[8]、抓握標(biāo)簽[9]等形式的先驗(yàn)數(shù)據(jù),再結(jié)合機(jī)器學(xué)習(xí)等方法訓(xùn)練抓取模型。目前數(shù)據(jù)驅(qū)動的方法泛化能力有限,僅對單一形狀物體能夠取得較自然、穩(wěn)定的抓取結(jié)果[8-13],此外的部分方法依賴預(yù)訓(xùn)練,無法直接作用于目標(biāo)物體[8-9]。
為了解決計(jì)算機(jī)角色動畫中虛擬手對不同形狀、尺寸物體難以生成自然、穩(wěn)定抓取運(yùn)動的問題,本文利用深度強(qiáng)化學(xué)習(xí)方法,設(shè)計(jì)了一種虛擬手抓取控制器。通過手部示教序列的引入,使得控制器能夠參考真人數(shù)據(jù),生成自然、擬人的抓取運(yùn)動,簡化了復(fù)雜的運(yùn)動機(jī)理建模;通過模仿獎勵(lì)和自適應(yīng)罰項(xiàng)的設(shè)置,該控制器能夠在模仿手部參考序列的同時(shí),對不同形狀、不同尺寸物體生成穩(wěn)定的自適應(yīng)抓取,并且對于不同的拓?fù)浣Y(jié)構(gòu)的手部,具備一定的重定向能力。
現(xiàn)有的建模解析法是指通過對虛擬手的幾何結(jié)構(gòu)及物理特性進(jìn)行分析,利用動力學(xué)或運(yùn)動學(xué)方法對抓取進(jìn)行建模優(yōu)化的方法。文獻(xiàn)[2]最早提出力閉合概念,即一種外力可以被抓取的力平衡,并保持在手中的抓取狀態(tài)。文獻(xiàn)[3]提出了度量抓取質(zhì)量的指標(biāo)和指標(biāo)。在此工作的基礎(chǔ)上,文獻(xiàn)[4]發(fā)布了開源機(jī)器人抓握模擬器GraspIt。文獻(xiàn)[5]度量手部預(yù)置點(diǎn)與物體距離,以此生成抓取姿態(tài)。文獻(xiàn)[6]通過手勢-特征映射的方法,利用三維鼠標(biāo),實(shí)現(xiàn)對不同物體的抓取操控。文獻(xiàn)[7]結(jié)合用戶的交互,對抓取對象進(jìn)行自定義的抓握。
數(shù)據(jù)驅(qū)動法是指以某種形式大量抓取數(shù)據(jù)作為樣本,來獲得抓取生成模型。該模型具備一定的泛化能力,即對于陌生的抓取測試樣本,其同樣能夠生成有效的抓取姿態(tài)。文獻(xiàn)[8]利用contact map作為輸入,獲得了既穩(wěn)定又符合該物體功能性的抓握姿態(tài)。文獻(xiàn)[9]利用支持向量機(jī)與粒子群算法,優(yōu)化了第一人稱VR中對物體的抓取操作體驗(yàn)。文獻(xiàn)[10]將不同物體所對應(yīng)的手部抓取位姿作為標(biāo)簽數(shù)據(jù)集,并設(shè)定映射損失函數(shù)和碰撞損失函數(shù),最終利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了虛擬手對物體的抓取。文獻(xiàn)[11]給定抓取的動作捕捉數(shù)據(jù),以此來訓(xùn)練自編碼器,生成新的抓取姿態(tài)。在示教學(xué)習(xí)方面,文獻(xiàn)[12]利用少樣本遷移學(xué)習(xí)方法,由深度相機(jī)記錄的手部運(yùn)動軌跡示范來學(xué)習(xí)抓取。文獻(xiàn)[13]利用基于超二次曲面模型的方法,將復(fù)雜物體分割成易于操作的物體元型,再利用模擬退火算法,結(jié)合參考示教數(shù)據(jù),求得最優(yōu)的抓取姿態(tài)。
總之,目前建模解析法的工作[2-7]需要復(fù)雜的物理建模,數(shù)據(jù)驅(qū)動法的工作[8-13]需要大量的先驗(yàn)數(shù)據(jù)。此外,這2種方法獲得的虛擬手控制器的抓取自適應(yīng)能力都較差。
隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展以及深度學(xué)習(xí)算法的突破,學(xué)界逐漸出現(xiàn)了利用深度強(qiáng)化學(xué)習(xí)模型控制虛擬人的研究工作[14]。文獻(xiàn)[15]利用PPO算法獲得控制器,結(jié)合動作捕捉數(shù)據(jù),實(shí)現(xiàn)了虛擬人的復(fù)雜運(yùn)動控制,且對于指定的任務(wù)具有一定的自適應(yīng)能力。在此基礎(chǔ)上,文獻(xiàn)[16]利用基于視頻姿態(tài)估計(jì)的方法,從RGB視頻中得到參考運(yùn)動序列,節(jié)省了動作捕捉數(shù)據(jù)的獲得成本。文獻(xiàn)[17]利用DQN方法實(shí)現(xiàn)了虛擬人復(fù)雜的運(yùn)動控制,甚至籃球的運(yùn)球控制[18]等。文獻(xiàn)[19]利用DQN方法,結(jié)合視頻恢復(fù)的參考運(yùn)動序列,生成了花樣滑冰運(yùn)動員的運(yùn)動控制器?;谌祟愖悴康慕?,文獻(xiàn)[20]利用PPO算法獲得了足部控制器,可以自動調(diào)節(jié)虛擬人足部與地面之間相互作用,重現(xiàn)在運(yùn)動作捕捉數(shù)據(jù)中無法獲得的足部姿勢。文獻(xiàn)[21]基于Spark實(shí)現(xiàn)了虛擬人強(qiáng)化學(xué)習(xí)訓(xùn)練框架。文獻(xiàn)[22]利用行為克隆算法,讓虛擬手可以完成預(yù)設(shè)的任務(wù)。
現(xiàn)有的虛擬人強(qiáng)化學(xué)習(xí)工作[15-21]雖然能夠取得較好的自適應(yīng)結(jié)果,但大多忽略了手部的運(yùn)動控制;少量的虛擬手強(qiáng)化學(xué)習(xí)工作[22]也僅是利用了任務(wù)驅(qū)動型的方法,即注重預(yù)設(shè)任務(wù)完成與否,而忽略了中間過程動畫生成的自然性與穩(wěn)定性。
虛擬手自適應(yīng)抓取系統(tǒng)的流程如圖1所示,可劃分為預(yù)處理階段、訓(xùn)練階段和推演階段。在預(yù)處理階段,先對虛擬手進(jìn)行物理建模,然后將動作捕捉數(shù)據(jù)綁定在用于示范的虛擬手上。在訓(xùn)練階段,針對抓取任務(wù)類型,引入對應(yīng)的訓(xùn)練物體,再進(jìn)行深度強(qiáng)化學(xué)習(xí)的離線訓(xùn)練。在推演階段,可將推演物體作為輸入,再利用訓(xùn)練階段獲得的強(qiáng)化學(xué)習(xí)模型,進(jìn)行在線實(shí)時(shí)的抓取運(yùn)動生成。
圖1 系統(tǒng)流程圖
作為強(qiáng)化學(xué)習(xí)智能體的虛擬手(淺色)需要與物體進(jìn)行交互,應(yīng)嚴(yán)格遵循物理定律,即應(yīng)包含關(guān)節(jié)鏈(Hinge Joint)屬性、質(zhì)量(Mass)屬性、碰撞體(Collider)屬性。通過對真實(shí)人手的解剖結(jié)構(gòu)分析[1],本文以右手為例,定義了滿足生理約束的虛擬手層次模型:每根手指的遠(yuǎn)指指段(指尖)連接并依附于中指指段;中指指段又依附于近指指段;手指根節(jié)點(diǎn)最終依附于手掌,如圖2(a)所示。
圖2 虛擬手模型((a)層次模型;(b)局部坐標(biāo)系)
本文將指段-關(guān)節(jié)所組成的結(jié)構(gòu)抽象為類桿-鉸鏈結(jié)構(gòu),其對應(yīng)的關(guān)節(jié)角度約束見表1。
表1 手部關(guān)節(jié)的角度約束(°)
表1中,,分別是沿手指關(guān)節(jié)軸方向、指段方向、以及二者平面的垂直向量方向,如圖2(b)所示。為了感知交互及避免穿透現(xiàn)象,可給虛擬手的每個(gè)指尖部位施加了球形碰撞體。
本文選用Mixamo角色公開數(shù)據(jù)集中的“Picking Up Object”動畫[23],并將其定義為“橫握”抓取運(yùn)動的參考序列模板,作用于素材庫中所有的目標(biāo)類型。將其綁定在用于記錄示教數(shù)據(jù)的虛擬手(深色)上的結(jié)果,如圖3所示。
圖3 參考運(yùn)動序列的綁定
該示教數(shù)據(jù)具體表示為由1至t時(shí)間內(nèi)、第i至i個(gè)手指關(guān)節(jié)關(guān)于,,軸的歐拉角r,r,r所組成的××3的張量,其中與分別表示當(dāng)前時(shí)刻幀數(shù)與手指關(guān)節(jié)的總數(shù)。
在該強(qiáng)化學(xué)習(xí)任務(wù)中,可定義智能體為第3節(jié)所述的虛擬手模型,環(huán)境中的交互對象為目標(biāo)物體。本文用分類法,將生活中物體的主體部分抽象為特定的基礎(chǔ)物體。并以球體、立方體、柱狀體為例,加入目標(biāo)物體素材庫,部分抽象結(jié)果如圖4所示。在推演階段,定義任務(wù)為對物體素材庫中的形狀特定、尺寸任意的物體進(jìn)行抓握,且要求生成的抓握運(yùn)動序列自然而穩(wěn)定。
圖4 素材庫中的基礎(chǔ)物體((a)球狀目標(biāo)物體的抽象模型;(b)柱狀目標(biāo)物體的抽象模型)
智能體模仿參考運(yùn)動序列的一個(gè)完整流程稱之為一幕(Episode)。在每一幕的每一時(shí)刻,智能體(淺色虛擬手,圖2)通過觀察參考運(yùn)動序列(深色虛擬手,圖3)和目標(biāo)物體,更新狀態(tài)信息。后根據(jù)訓(xùn)練階段習(xí)得的策略調(diào)整最合適的手部姿態(tài)與物體進(jìn)行交互,獲得反饋。重復(fù)觀察-交互-反饋的步驟,直至這一幕結(jié)束,即生成了一個(gè)完整的抓取序列。
本文采用近端策略優(yōu)化算法(proximal policy optimization,PPO)[24]將參數(shù)化的策略進(jìn)行迭代訓(xùn)練。使用了一個(gè)結(jié)構(gòu)如圖5所示的4層神經(jīng)網(wǎng)絡(luò)作為策略參數(shù)的逼近器。該網(wǎng)絡(luò)的輸入長度為199的向量,表示智能體的觀測值;輸出長度為20的向量,表示智能體的行為值。
圖5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在強(qiáng)化學(xué)習(xí)方法中,觀測值指智能體所感知的環(huán)境信息。在圖5所示神經(jīng)網(wǎng)絡(luò)中,輸入端表示的觀測值組為
,,,4組觀測值分別為時(shí)刻手部15個(gè)關(guān)節(jié)的坐標(biāo)、角度、速度、角速度矩陣。
行為值是智能體根據(jù)觀測值,結(jié)合訓(xùn)練階段所習(xí)得的策略,即行為的量化值。圖5中神經(jīng)網(wǎng)絡(luò)輸出的行為值用表示,指時(shí)刻15個(gè)指關(guān)節(jié)繞軸或軸的速度矩陣。
回報(bào)函數(shù)是強(qiáng)化學(xué)習(xí)策略在訓(xùn)練過程中需要最大化的指標(biāo)函數(shù)。本文在DeepMimic[15]的基礎(chǔ)上,設(shè)計(jì)了適用于手部自適應(yīng)抓取的回報(bào)函數(shù),即
其中,trans為過渡相位值。
4.5.1 模仿獎勵(lì)
模仿獎勵(lì)是通過逆向強(qiáng)化學(xué)習(xí)[26]的思想,使得智能體能夠模仿手部參考運(yùn)動序列的獎勵(lì)函數(shù)。相較于簡單地抓取完成任務(wù),該獎勵(lì)的引入使得生成的手部的抓取序列更接近于真人示范,更具自然性,有
其中,為時(shí)刻手指末端5個(gè)遠(yuǎn)指指段的坐標(biāo)矩陣,滿足?。末端坐標(biāo)獎勵(lì)使得在每個(gè)時(shí)刻內(nèi),手部5個(gè)指尖與參考運(yùn)動序列指尖在相對坐標(biāo)系內(nèi)位置盡可能接近。
4.5.2 自適應(yīng)罰項(xiàng)
自適應(yīng)罰項(xiàng)是為了在同一抓取任務(wù)下,滿足對不同形狀、不同尺寸的目標(biāo)物體都能做到穩(wěn)定抓取的罰函數(shù)。需要指出的是,若只采取上節(jié)中的模仿獎勵(lì),即單純地模仿參考運(yùn)動序列,最終生成的抓取姿態(tài)并不能滿足上述自適應(yīng)能力,具體為
時(shí)刻五指質(zhì)心的坐標(biāo)為
其中,m為第個(gè)指尖的質(zhì)量。
本文實(shí)驗(yàn)的硬件為一臺配置Intel i7-9700KF處理器、NVIDIA GTX 2070顯卡、16 GB內(nèi)存的服務(wù)器;軟件平臺為基于Unity3D及ML-Agents[27]插件所搭建的虛擬實(shí)驗(yàn)環(huán)境。在訓(xùn)練階段,設(shè)定訓(xùn)練物體的尺寸因子∈[0.5,1.0],并定義權(quán)值參數(shù)=0.4,=0.2,=0.4,=0.25,=0.25,=0.5,過渡相位值trans=0.4,定義手部每個(gè)指段質(zhì)量m為0.03 kg,手掌的質(zhì)量palm為0.5 kg。
下面通過消融實(shí)驗(yàn)(Ablation)、自適應(yīng)抓取實(shí)驗(yàn)和手部重定向?qū)嶒?yàn),對實(shí)驗(yàn)結(jié)果進(jìn)行定性和定量的分析。
消融實(shí)驗(yàn)用控制變量法,將實(shí)驗(yàn)因素逐一排除后再進(jìn)行的對比實(shí)驗(yàn)。以球體的抓取任務(wù)為例,對模仿獎勵(lì)和自適應(yīng)罰項(xiàng)兩者進(jìn)行變量控制。通過對“僅模仿”“僅自適應(yīng)”“DeepMimic”和“模仿加自適應(yīng)”4種不同的回報(bào)函數(shù)所得的訓(xùn)練模型分別進(jìn)行消融實(shí)驗(yàn),分析式(4)中總回報(bào)函數(shù)每項(xiàng)的作用。
在訓(xùn)練階段,4種模型所對應(yīng)的累計(jì)回報(bào)增長曲線如圖6所示?!皟H模仿”是指回報(bào)函數(shù)R中自適應(yīng)權(quán)值w取0,取1所對應(yīng)的情況。由于此時(shí)不存在罰項(xiàng),所以累積回報(bào)初始值為0,且累計(jì)回報(bào)上升空間較小?!皟H自適應(yīng)”指模仿權(quán)值為0,為1的情況,此階段只有罰項(xiàng),且累計(jì)回報(bào)理論最大值為0?!癉eepMimic”指為1,也為1情況,以此代表文獻(xiàn)[15]的學(xué)習(xí)策略。本文方法采用的“模仿+自適應(yīng)”指為1,且滿足式(5)的情況。后2種情況下訓(xùn)練初期罰項(xiàng)作用大,累計(jì)回報(bào)為負(fù)值;隨著迭代步數(shù)的增長,累計(jì)回報(bào)逐漸變?yōu)檎?;最后進(jìn)入緩慢增長的階段。相較于DeepMimic方法,由于式(5)中的動態(tài)權(quán)值緩解了初始手型罰項(xiàng)過大的問題,因此本文方法訓(xùn)練收斂速度更快。
圖6 訓(xùn)練階段的累積回報(bào)增長曲線
“僅模仿”“僅自適應(yīng)”“模仿加自適應(yīng)” 3種模型所對應(yīng)的抓取效果如圖7所示,其中的深色小立方體表示目標(biāo)物體的質(zhì)心,淺色小立方體表示虛擬手的5個(gè)指尖的質(zhì)心。由于“DeepMimic”和“模仿加自適應(yīng)”模型抓取效果區(qū)分度不大,這里省略該模型的后續(xù)結(jié)果分析。
圖7消融實(shí)驗(yàn)結(jié)果((a)“僅模仿”策略;(b)“僅自適應(yīng)”策略;(c) “模仿+自適應(yīng)”策略)
上述3種模型對應(yīng)的抓取結(jié)果指標(biāo)見表2。表中的Sim(,)為序列相似度[28]指標(biāo),本文以該指標(biāo)反映生成序列的自然性,即
其中,為智能體(淺色,圖1)生成的手部運(yùn)動序列;為示教數(shù)據(jù)(深色,圖2)參考運(yùn)動序列;和分別為兩者對應(yīng)的序列長度;為公共子序列長度。本文定義min=0.5為閾值,當(dāng)序列間某些幀的姿態(tài)的最小二乘距離小于min時(shí),由這些幀所構(gòu)成的序列即為2個(gè)序列的公共序列。為質(zhì)心離差比,有
其中,′為五指均接觸到物體的時(shí)刻。本文以該質(zhì)心偏差的相對值反映生成抓取姿態(tài)的牢固程度。每組實(shí)驗(yàn)結(jié)果的指標(biāo)取連續(xù)10幕的均值,后續(xù)實(shí)驗(yàn)將沿用上述實(shí)驗(yàn)量化指標(biāo)。
表2 消融實(shí)驗(yàn)結(jié)果表(%)
由分析易知,“僅模仿”情況下虛擬手會盡量逐幀地保持和參考運(yùn)動序列的同步性。該策略雖然能夠獲得較高的序列相似度,但抓取穩(wěn)定性指標(biāo)較差,有時(shí)甚至不能保證指尖接觸物體,如圖7(a)所示?!皟H自適應(yīng)”情況下的虛擬手具備較穩(wěn)定的抓取,但生成的抓取姿態(tài)自然性無法得到保障,如圖7(b)所示指段交錯(cuò)的情況。最適合的模型為“模仿+自適應(yīng)”的情況,此時(shí)生成的序列兼具較高的自然性和穩(wěn)定性,如圖7(c)所示。
為了探究虛擬手的抓取自適應(yīng)能力,需先對物體素材庫中的物體進(jìn)行變量控制,進(jìn)行形狀自適應(yīng)實(shí)驗(yàn);再對尺寸因子進(jìn)行變量控制,進(jìn)行尺寸自適應(yīng)實(shí)驗(yàn)。
5.2.1 形狀自適應(yīng)實(shí)驗(yàn)
本節(jié)將球體的訓(xùn)練模型分別作用于立方體、柱狀體和球體的抓取任務(wù),分析強(qiáng)化學(xué)習(xí)策略對不同形狀分類物體的自適應(yīng)能力。
3種物體所對應(yīng)的抓取效果如圖8所示,對應(yīng)的抓取結(jié)果見表3。為了生成最佳的抓取運(yùn)動序列,現(xiàn)有工作[6,13]通常按照嚴(yán)格的分類標(biāo)準(zhǔn),讓模型去抓取對應(yīng)形狀分類的物體;欲對不同類型、尺寸的物體進(jìn)行抓取,其效果較差。通過分析可知,本文方法生成的抓取運(yùn)動生成算法對于不同形狀分類的物體同樣能生成自然、穩(wěn)定的抓取姿態(tài),且量化指標(biāo)均較穩(wěn)定。
圖8 形狀自適應(yīng)實(shí)驗(yàn)結(jié)果((a)立方體抓取任務(wù);(b)柱狀體抓取任務(wù);(c)球體抓取任務(wù))
表3 形狀自適應(yīng)實(shí)驗(yàn)結(jié)果表(%)
5.2.2 尺寸自適應(yīng)實(shí)驗(yàn)
以球體的抓取任務(wù)為例,對物體的尺寸因子進(jìn)行變量控制,分析強(qiáng)化學(xué)習(xí)策略對訓(xùn)練階段外不同尺寸物體的抓取自適應(yīng)能力。在訓(xùn)練階段,訓(xùn)練物體的尺寸因子滿足?[0.5, 1.0];在推演階段,可分別將尺寸因子設(shè)置為0.3和1.2。
2種尺寸的球體抓取任務(wù)效果如圖9所示,對應(yīng)的抓取結(jié)果見表4。通過分析可知,本文方法生成的抓取運(yùn)動生成算法對于尺寸適中(=0.75)的物體具有較穩(wěn)定的抓取效果。對于較大尺寸(=1.20)或較小尺寸(=0.30)物體也能做到一定程度的抓取。由于此時(shí)生成的抓取姿態(tài)已經(jīng)和初始參考運(yùn)動序列差別較大,因此Sim(,)指標(biāo)偏低,指標(biāo)偏高。
圖9 尺寸自適應(yīng)實(shí)驗(yàn)結(jié)果
表4 尺寸自適應(yīng)實(shí)驗(yàn)結(jié)果表(%)
在正常比例的虛擬手策略的基礎(chǔ)上,將其直接作用于“較長指節(jié)”(1.3倍)和“較短指節(jié)”(0.7倍)2種不同拓?fù)浔壤奶摂M手模型上,探究該抓握算法的重定向能力。由于不同手部模型之間存在一定的拓?fù)洳町?,從最初的參考運(yùn)動序列到最終虛擬手抓握的整個(gè)過程中,對算法的重定向能力提出了較高的要求。
3種虛擬手模型所對應(yīng)的抓取效果如圖10所示,其中圖10(c)為正常手指的參考模型(1.0倍)。經(jīng)分析可知,對于手部拓?fù)浣Y(jié)構(gòu)的改變,本文提出的抓取運(yùn)動生成算法具備一定的重定向能力。
圖10 手部重定向?qū)嶒?yàn)結(jié)果((a)較長指節(jié);(b)較短指節(jié);(c)正常指節(jié))
本文提出了一種虛擬手的自適應(yīng)抓取運(yùn)動生成方法,設(shè)計(jì)了一種基于真人手部示教序列的離線深度強(qiáng)化學(xué)習(xí)控制器。結(jié)果表明,對于物體形狀、尺寸在訓(xùn)練數(shù)據(jù)集以外的目標(biāo)物體,該方法同樣能夠生成自然且穩(wěn)定的抓取運(yùn)動序列,并具備一定的重定向能力。
本文方法的局限性體現(xiàn)在虛擬手的運(yùn)動僅由運(yùn)動學(xué)算法生成,未考慮其與物體進(jìn)行交互時(shí)的力閉合屬性;此外該算法僅適用于物體主體部分抽象出的簡單基元。未來的工作可以考慮使用基于RGB視頻的手部姿態(tài)估計(jì)方法獲取參考運(yùn)動序列,減少動作捕捉數(shù)據(jù)的獲取成本。
[1] 付宜利, 劉誠. 虛擬裝配中基于生理約束的虛擬手建模與抓持規(guī)劃[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2009, 15(4): 681-684.
FU Y L, LIU C. Hand modeling and motion controlling based on lay figure in virtual assembly[J]. Computer Integrated Manufacturing Systems, 2009, 15(4): 681-684 (in Chinese).
[2] FERRARI C, CANNY J. Planning optimal grasps[C]//1992 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 1992: 2290-2295.
[3] MILLER A T, ALLEN P K. Examples of 3D grasp quality computations[C]//1999 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 1999: 1240-1246.
[4] MILLER A T, ALLEN P K. Graspit! a versatile simulator for robotic grasping[J]. IEEE Robotics & Automation Magazine, 2004, 11(4): 110-122.
[5] CIOCARLIE M, GOLDFEDER C, ALLEN P. Dimensionality reduction for hand-independent dexterous robotic grasping[C]//2007 IEEE/RSJ International Conference on Intelligent Robots and Systems. New York: IEEE Press, 2007: 3270-3275.
[6] 蔡嫻娟, 程成, MARWAH A, 等. 虛擬制造環(huán)境中虛擬手的行為構(gòu)造[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2015, 27(3): 499-507.
CAI X J, CHENG C, MARWAH A, et al. Research on behavior simulation of virtual hand in virtual manufacturing environment[J]. Journal of Computer-Aided Design & Computer Graphics, 2015, 27(3): 499-507 (in Chinese).
[7] SONG P, FU Z Q, LIU L G. Grasp planning via hand-object geometric fitting[J]. The Visual Computer, 2018, 34(2): 257-270.
[8] BRAHMBHATT S, HANDA A, HAYS J, et al. ContactGrasp: functional multi-finger grasp synthesis from contact[C]//2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2019: 2386-2393.
[9] TIAN H, WANG C B, MANOCHA D, et al. Realtime hand-object interaction using learned grasp space for virtual environments[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(8): 2623-2635.
[10] LIU M, PAN Z R, XU K, et al. Generating grasp poses for a high-DOF gripper using neural networks[C]//2019 IEEE International Conference on Intelligent Robots and Systems. New York: IEEE Press, 2019: 1518-1525.
[11] STARKE J, EICHMANN C, OTTENHAUS S, et al. Synergy-based, data-driven generation of object- specific grasps for anthropomorphic hands[C]//2018 IEEE-RAS 18th International Conference on Humanoid Robots. New York: IEEE Press, 2018: 327-333.
[12] KOPICKI M, DETRY R, ADJIGBLE M, et al. One-shot learning and generation of dexterous grasps for novel objects[J]. The International Journal of Robotics Research, 2016, 35(8): 959-976.
[13] 王曉媛, 田浩, 王長波. 虛擬手自然抓取動作生成研究[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2020, 32(9): 1502-1508.
WANG X Y, TIAN H, WANG C B. Research on natural grasp generation of the virtual hand[J]. Journal of Computer-Aided Design & Computer Graphics, 2020, 32(9): 1502-1508 (in Chinese).
[14] LIU L B, DE PANNE M V, YIN K K. Guided learning of control graphs for physics-based characters[J]. ACM Transactions on Graphics, 2016, 35(3): 1-14.
[15] PENG X B, ABBEEL P, LEVINE S, et al. DeepMimic: example-guided deep reinforcement learning of physics-based character skills[EB/OL]. [2020-07-01]. https: //arxiv.org/abs/ 1804.02717.
[16] PENG X B, KANAZAWA A, MALIK J, et al. SFV: reinforcement learning of physical skills from videos[J]. ACM Transactions on Graphics, 2018, 37(6): 1-14.
[17] LIU L B, HODGINS J. Learning to schedule control fragments for physics-based characters using deep Q-learning[J]. ACM Transactions on Graphics, 2017, 36(4): 1-14.
[18] LIU L B, HODGINS J. Learning basketball dribbling skills using trajectory optimization and deep reinforcement learning[J]. ACM Transactions on Graphics, 2018, 37(4).1-14.
[19] YU R, PARK H, LEE J. Figure skating simulation from video[J]. Computer Graphics Forum, 2019, 38(7): 225-234.
[20] PARK H, YU R, LEE J. Multi-segment foot for human modelling and simulation[J]. Computer Graphics Forum, 2020, 39(1): 637-649.
[21] 方偉, 黃增強(qiáng), 徐建斌, 等. 基于Spark的分布式機(jī)器人強(qiáng)化學(xué)習(xí)訓(xùn)練框架[J]. 圖學(xué)學(xué)報(bào), 2019, 40(5): 852-857.
FANG W, HUANG Z Q, XU J B, et al. Training framework of distributed robot reinforcement learning based on spark[J]. Journal of Graphics, 2019, 40(5): 852-857.
[22] RAJESWARAN A, KUMAR V, GUPTA A, et al. Learning complex dexterous manipulation with deep reinforcement learning and demonstrations[EB/OL]. [2020-07-19]. https:// arxiv.org/abs/1709.10087.
[23] Adobe. Mixamo[EB/OL].(2020-01-02) [2020-01-12]. https:// www.mixamo.com/#/?page=1&query=grab&type=Motion%2CMotionPack.
[24] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. [2019-09-15]. https:// arxiv.org/abs/1707.06347.
[25] ANTOTSIOU D, GARCIA-HERNANDO G, KIM T K. Task-oriented hand motion retargeting for dexterous manipulation imitation[C]//Computer Vision - European Conference on Computer Vision 2018 Workshops. Heidelberg: Springer, 2018: 287-301.
[26] 劉乃軍, 魯濤, 蔡瑩皓, 等. 機(jī)器人操作技能學(xué)習(xí)方法綜述[J]. 自動化學(xué)報(bào), 2019, 45(3): 458-470.
LIU N J, LU T, CAI Y H, et al. A review of robot manipulation skills learning methods[J]. Acta Automatica Sinica, 2019, 45(3): 458-470 (in Chinese).
[27] JULIANI A, BERGES V P, VCKAY E, et al. Unity: a general platform for intelligent agents[EB/OL]. [2020-09-15]. https:// arxiv.org/abs/1809.02627.
[28] 陳昌偉. 基于Kinect的人體動作比對分析及生物力學(xué)分析[D]. 天津: 天津大學(xué), 2014.
CHEN C W. Comparative analysis and biomechanical analysis of human motion based on kinect[D]. Tianjin: Tianjin University, 2014 (in Chinese).
Research on adaptive grasping of virtual hands based on deep reinforcement learning
WU Yi-he1, ZHANG Zhen-ning2, QIU Dong1, LI Wei-qing2, SU Zhi-yong1
(1. School of Automation, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China; 2. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China)
For the grasping of computer character animation, it is difficult to guarantee the naturalness, stability and adaptability of the generated action sequence at the same time. In other words, the natural and stable grasping controller are often limited in generalization and cannot be applied to other types of grabbing tasks. A virtual hand adaptive grasping controller was constructed based on deep reinforcement learning by introducing hand teaching data corresponding to the grasping types and by designing the reward function. Experimental results show that the designed controller can generate a grasping motion sequence with both naturalness and stability, and are also highly adaptive for different sizes and types of primitive objects in the material library.
deep reinforcement learning;demonstrationlearning; motion generation; virtual hands; mocap data
TP 391
10.11996/JG.j.2095-302X.2021030462
A
2095-302X(2021)03-0462-08
2020-09-30;
2020-12-24
30 September,2020;
24 December,2020
“十三五”裝備預(yù)研項(xiàng)目(61409230104,1017,315100104);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)(30918012203);上海航天科技創(chuàng)新基金(SAST2019009)
Thirteenth Five-Year Plan Equipment Pre-research Project (61409230104, 1017, 315100104); Fundamental Research Fund for Central Universities (30918012203); Shanghai Aerospace Science and Technology Innovation Fund (SAST2019009)
伍一鶴(1996-),男,新疆博州人,碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、增強(qiáng)現(xiàn)實(shí)。E-mail:yihewu@njust.edu.cn
WU Yi-he (1996-), male, master student. His main research interests cover computer graphics and AR. E-mail:yihewu@njust.edu.cn
蘇智勇(1981–),男,江蘇泰州人,副教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)等。E-mail:su@njust.edu.cn
SU Zhi-yong (1981–), male, associate professor, Ph.D. His main research interests covercomputer graphics and machine learning, etc. E-mail:su@njust.edu.cn