于建均,門玉森,阮曉鋼,趙少瓊
(北京工業(yè)大學(xué) 電子信息與控制工程學(xué)院,北京 100124)
?
基于Kinect的Nao機(jī)器人動(dòng)作模仿系統(tǒng)的研究與實(shí)現(xiàn)
于建均,門玉森,阮曉鋼,趙少瓊
(北京工業(yè)大學(xué) 電子信息與控制工程學(xué)院,北京 100124)
摘要:為避開復(fù)雜繁瑣的底層運(yùn)動(dòng)控制,使機(jī)器人能夠通過學(xué)習(xí)實(shí)現(xiàn)運(yùn)動(dòng)技能的獲取,有效提高其智能性,將體態(tài)感知技術(shù)與仿人機(jī)器人Nao相結(jié)合,以機(jī)器人的模仿學(xué)習(xí)框架為指導(dǎo),開發(fā)并實(shí)現(xiàn)了基于Kinect的Nao機(jī)器人動(dòng)作模仿系統(tǒng)。利用Kinect體感攝像機(jī)的骨骼跟蹤技術(shù),采集示教者骨骼點(diǎn)信息,經(jīng)預(yù)處理后得到示教數(shù)據(jù),通過高斯混合模型(GMM)對(duì)示教數(shù)據(jù)進(jìn)行表征學(xué)習(xí),經(jīng)高斯混合回歸(GMR)泛化處理后,映射到Nao機(jī)器人中,實(shí)現(xiàn)動(dòng)作的模仿。實(shí)驗(yàn)結(jié)果表明,Nao機(jī)器人能夠進(jìn)行實(shí)時(shí)和離線的動(dòng)作模仿,運(yùn)動(dòng)軌跡平滑而穩(wěn)定,動(dòng)作模仿的效果較好。
關(guān)鍵詞:模仿學(xué)習(xí);機(jī)器人控制;體態(tài)感知;概率模型;高斯混合模型;高斯混合回歸
中文引用格式:于建均,門玉森,阮曉鋼,等. 基于Kinect的Nao機(jī)器人動(dòng)作模仿系統(tǒng)的研究與實(shí)現(xiàn)[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(2): 180-1187.
英文引用格式:YU Jianjun, MEN Yusen, RUAN Xiaogang, et al. The research and implementation of behavior imitation system about Nao robot based on Kinect[J]. CAAI transactions on intelligent systems, 2016, 11(2): 180-187.
仿人機(jī)器人是研究人類智能的高級(jí)平臺(tái),它是集機(jī)械、電子、傳感技術(shù)、控制、人工智能、仿生學(xué)等多學(xué)科的復(fù)雜智能系統(tǒng)。在近50 年的發(fā)展歷程中,仿人機(jī)器人技術(shù)取得了飛速的發(fā)展,已成為機(jī)器人領(lǐng)域的重要研究方向之一。Nao機(jī)器人是Aldebaran Robotics公司開發(fā)的一款可編程類人機(jī)器人,在研究領(lǐng)域得到世界范圍的廣泛應(yīng)用,不僅應(yīng)用于機(jī)器人研究、人工智能、工程學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域,還運(yùn)用在社會(huì)學(xué)和醫(yī)療保健領(lǐng)域,其研究項(xiàng)目包括語(yǔ)音識(shí)別、視頻處理、模式識(shí)別、自閉癥治療、多智能體系統(tǒng)、路徑規(guī)劃等。是否具備學(xué)習(xí)的能力是機(jī)器人智能性的重要體現(xiàn),而模仿學(xué)習(xí)[1]作為機(jī)器人學(xué)習(xí)的重要方式,為避開繁瑣困難的底層運(yùn)動(dòng)控制實(shí)現(xiàn)復(fù)雜運(yùn)動(dòng)的生成提供了可能,在機(jī)器人仿生學(xué)中占有重要地位。
所謂模仿學(xué)習(xí)是指模仿者(機(jī)器人)通過“觀察”示教者(人或機(jī)器人)的運(yùn)動(dòng)行為,學(xué)習(xí)運(yùn)動(dòng)控制策略,泛化輸出,進(jìn)而獲取運(yùn)動(dòng)技能[2]。模仿學(xué)習(xí)的過程可分為3個(gè)過程:行為感知、行為表征、行為再現(xiàn),分別對(duì)應(yīng)示教數(shù)據(jù)獲取,特征編碼進(jìn)行表征學(xué)習(xí)和泛化輸出的過程。示教數(shù)據(jù)的獲取通過體態(tài)感知來實(shí)現(xiàn),體態(tài)感知作為一種自然的人機(jī)交互方式,以其傳達(dá)意圖的便捷性和豐富性,能夠有效實(shí)現(xiàn)人機(jī)對(duì)話,在智能識(shí)別與控制系統(tǒng)中應(yīng)用廣泛,常見的體感設(shè)備有慣性穿戴式系統(tǒng),如3DSuit、數(shù)據(jù)手套等,光學(xué)式動(dòng)作捕捉系統(tǒng),如微軟的Kinect體感攝影機(jī)等。表征學(xué)習(xí)是對(duì)示教數(shù)據(jù)的特征進(jìn)行編碼,基于概率模型的軌跡水平表征是將運(yùn)動(dòng)建模為隨機(jī)模型,如高斯混合模型(GMM)[3-5]、隱馬爾可夫模型(HMM)[6]等,具有較強(qiáng)的編碼和噪聲處理能力,抗干擾性強(qiáng),能夠處理高維問題。行為再現(xiàn)包括運(yùn)動(dòng)軌跡再現(xiàn)和運(yùn)動(dòng)控制再現(xiàn),軌跡再現(xiàn)是將編碼的數(shù)據(jù)通過回歸技術(shù),如高斯過程回歸(GPR)[7]、高斯混合回歸(GMR)[8]等,得到泛化輸出的過程,控制再現(xiàn)是將泛化的輸出映射到機(jī)器人底層運(yùn)動(dòng)控制中,實(shí)現(xiàn)動(dòng)作復(fù)現(xiàn),即行為動(dòng)作的模仿。
機(jī)器人動(dòng)作模仿系統(tǒng)的研究已取得一定進(jìn)展,但大多是在仿真環(huán)境下的實(shí)現(xiàn),見文獻(xiàn)[9-10];物理環(huán)境下的實(shí)現(xiàn)如文獻(xiàn)[11],利用穿戴式動(dòng)作捕捉系統(tǒng)Xsens MVN進(jìn)行數(shù)據(jù)的采集,實(shí)現(xiàn)機(jī)器人的動(dòng)作模仿,取得了良好的效果,但其數(shù)據(jù)采集所需的硬件代價(jià)較高,文獻(xiàn)[12]能夠?qū)崿F(xiàn)基本動(dòng)作的模仿,但對(duì)復(fù)雜動(dòng)作的再現(xiàn)可靠性和穩(wěn)定性不足。
本文以模仿學(xué)習(xí)的框架為指導(dǎo),將體態(tài)感知與Nao機(jī)器人相結(jié)合,構(gòu)建了機(jī)器人的動(dòng)作模仿系統(tǒng),實(shí)現(xiàn)了Nao機(jī)器人動(dòng)作模仿學(xué)習(xí)。利用Microsoft的Kinect體感攝像機(jī)進(jìn)行骨骼跟蹤,獲取示教者示教過程中人體節(jié)點(diǎn)的空間坐標(biāo)信息,經(jīng)預(yù)處理后得到模仿學(xué)習(xí)的示教數(shù)據(jù);通過高斯混合模型(GMM)對(duì)示教數(shù)據(jù)進(jìn)行編碼表征,利用高斯混合回歸(GMR)泛化輸出,映射到Nao機(jī)器人中,實(shí)現(xiàn)動(dòng)作的模仿。該系統(tǒng)可以實(shí)現(xiàn)在線和離線兩種模式的動(dòng)作模仿,在線模式下,可以進(jìn)行實(shí)時(shí)的復(fù)雜動(dòng)作模仿,運(yùn)動(dòng)軌跡平滑穩(wěn)定;離線模式下可以通過學(xué)習(xí)多次示教泛化出最佳軌跡,具有較強(qiáng)的噪聲處理能力,而且可以通過控制重采樣點(diǎn)數(shù)目,實(shí)現(xiàn)動(dòng)作執(zhí)行速度的控制,更主要的是一旦學(xué)會(huì),可以形成動(dòng)作記憶,實(shí)現(xiàn)示教動(dòng)作的重復(fù)執(zhí)行。
1Nao機(jī)器人模仿學(xué)習(xí)系統(tǒng)構(gòu)建
以機(jī)器人模仿學(xué)習(xí)的框架為指導(dǎo),構(gòu)建了Nao機(jī)器人動(dòng)作模仿的系統(tǒng)結(jié)構(gòu),如圖1所示。利用Kinect的骨骼跟蹤,采集示教者骨骼點(diǎn)三維空間坐標(biāo)信息,經(jīng)上位機(jī)預(yù)處理實(shí)現(xiàn)示教數(shù)據(jù)獲??;通過GMM對(duì)示教數(shù)據(jù)信息進(jìn)行編碼,利用GMR泛化輸出后,通過Ethernet(以太網(wǎng))與下位機(jī)通信,映射到Nao機(jī)器人的底層運(yùn)動(dòng)控制中,在Nao機(jī)器人的Linux內(nèi)核下進(jìn)行運(yùn)動(dòng)控制,實(shí)現(xiàn)動(dòng)作的模仿。
圖1 機(jī)器人動(dòng)作模仿的系統(tǒng)結(jié)構(gòu)Fig.1 The system structure of robot imitation
2示教數(shù)據(jù)的獲取
示教動(dòng)作信息的獲取是機(jī)器人模仿實(shí)現(xiàn)的基礎(chǔ),系統(tǒng)利用Kinect采集骨骼點(diǎn)信息,建立虛擬坐標(biāo)系,由節(jié)點(diǎn)信息得到各關(guān)節(jié)向量,計(jì)算向量間的夾角,進(jìn)而得到各關(guān)節(jié)控制角度,即可獲得各關(guān)節(jié)運(yùn)動(dòng)信息,為模仿的表征學(xué)習(xí)提供數(shù)據(jù)支持。
圖2 Kinect提取的人體骨骼點(diǎn)信息Fig.2 Skeleton point information of human body extracted from Kinect
2.1示教者骨骼點(diǎn)信息采集
Kinect for windows v2 是微軟專為開發(fā)者發(fā)布的一款3D體感攝影機(jī),包含RGB 彩色攝像機(jī)及由紅外線發(fā)射器和紅外線CMOS 攝像機(jī)所構(gòu)成的3D 深度傳感器,利用彩色攝像頭采集到的彩色圖像與紅外攝像頭采集到的深度圖像,導(dǎo)入即時(shí)動(dòng)態(tài)捕捉、影像辨識(shí)功能,能夠提取25個(gè)關(guān)節(jié)點(diǎn),從而得到人體的骨架信息,S=[s1,s2,…,si,…,s25],其中si=(xi,yi,zi),如圖2,Kinect的空間坐標(biāo)系如圖3。
圖3 Kinect的空間坐標(biāo)系Fig.3 The space coordinate system of Kinect
2.2Nao機(jī)器人關(guān)節(jié)自由度與骨骼點(diǎn)的映射關(guān)系推導(dǎo)
仿人機(jī)器人Nao是Aldebaran Robotics公司開發(fā)機(jī)器人平臺(tái),具有25個(gè)自由度,共13個(gè)關(guān)節(jié),右上肢的自由度如圖4所示。由于Kinect采集的骨骼信息中均認(rèn)定所有關(guān)節(jié)為質(zhì)點(diǎn),故末端關(guān)節(jié)的轉(zhuǎn)動(dòng)信息無法從Kinect提取的骨架信息中計(jì)算得到,因此忽略各關(guān)節(jié)的轉(zhuǎn)動(dòng)信息,推導(dǎo)出各關(guān)節(jié)對(duì)應(yīng)的自由度及所需的Kinect骨骼點(diǎn)如表1所示。
圖4 Nao機(jī)器人右上肢自由度Fig.4 The DOF of right upper limb of Nao robot
關(guān)節(jié)自由度Kinect骨骼點(diǎn)頭部(Head)HeadPitchHead、Neck、Spine_Shoulder手部(Hand)LHand、RHandNone左肩(LShoulder)LShoulderPitch、LShoulderRollElbow_L、Shoulder_L、Spine_Shoulder、Spine_Mid右肩(RShoulder)RShoulderPitch、RShoulderRollElbow_R、Shoulder_R、Spine_Shoulder、Spine_Mid左肘(LElbow)LElbowYaw、LElbowRollWrist_L、Elbow_L、Shoulder_L、Spine_Shoulder右肘(RElbow)RElbowYaw、RElbowRollWrist_R、Elbow_R、Shoulder_R、Spine_Shoulder左大腿(LHip)LHipPitch、LHipRollKnee_L、Hip_L、Spine_Base、Spine_Mid右大腿(RHip)RHipPitch、RHipRollKnee_R、Hip_R、Spine_Base、Spine_Mid左膝(LKnee)LKneePitchAnkle_L、Knee_L、Hip_L右膝(RKnee)RKneePitchAnkle_R、Knee_R、Hip_R
2.3關(guān)節(jié)示教信息的獲取
利用Kinect獲取骨骼點(diǎn)三維坐標(biāo)信息,生成關(guān)節(jié)向量,通過計(jì)算關(guān)節(jié)向量的夾角得到各關(guān)節(jié)控制角,以右肘翻滾角RElbowRoll和偏航角RElbowYaw(圖4中方框部分)為例,對(duì)關(guān)節(jié)角的計(jì)算過程進(jìn)行說明。由表1知,為求RElbowRoll和RElbowYaw的關(guān)節(jié)角需要Kinect提取的骨骼點(diǎn)有Wrist_R、Elbow_R、Shoulder_R,Spine_Shoulder,如圖2所示,分別用p1、p2、p3、p4表示,設(shè)其三維坐標(biāo)信息分別為(x1,y1,z1)、(x2,y2,z2)、(x3,y3,z3)、(x4,y4,z4)則有向量:
(1)
則關(guān)節(jié)角RElbowRoll為
((2)
記向量p3,4p2,3=p3p4×p2p3,則關(guān)節(jié)角RElbowYaw為
(3)
如表1所示,共15個(gè)自由度,其中,左肘偏航角LElbowYaw的計(jì)算與RElbowYaw類似,如式(3)所示,其余各自由度的計(jì)算與RElbowRoll類似,如式(2)所示,不同之處在于根據(jù)選取向量的方向不同,參照Nao機(jī)器人的各自由度角度變化范圍,作取負(fù)、加減π/2或π的校正,如此,即可得到各自由度一系列角度變化信息,也即模仿學(xué)習(xí)的示教數(shù)據(jù)。為得到平滑穩(wěn)定的運(yùn)動(dòng)軌跡,需對(duì)離散數(shù)據(jù)進(jìn)行表征學(xué)習(xí),作進(jìn)一步的泛化處理,得到連續(xù)的運(yùn)動(dòng)軌跡。
3示教數(shù)據(jù)的表征與泛化
將各關(guān)節(jié)角的運(yùn)動(dòng)信息,即示教數(shù)據(jù),分別利用GMM進(jìn)行編碼,實(shí)現(xiàn)表征學(xué)習(xí),通過GMR進(jìn)行數(shù)據(jù)重構(gòu),泛化輸出,以得到連續(xù)模仿運(yùn)動(dòng)軌跡[8]。
3.1示教數(shù)據(jù)的表征與泛化
對(duì)任一自由度,設(shè)其第j個(gè)示教數(shù)據(jù)點(diǎn)為ξj={ξs,j,ξt,j},j={1,2,…,N},其中,N是單次示教包含的數(shù)據(jù)點(diǎn)的個(gè)數(shù),ξs,j是關(guān)節(jié)角,ξt,j是時(shí)間值。假設(shè)每一個(gè)數(shù)據(jù)點(diǎn)ξj服從如下概率分布:
(4)
式中:p(k)是先驗(yàn)概率,p(ξj|k)是條件概率分布,服從高斯分布,于是,整個(gè)示教數(shù)據(jù)集合可以用高斯混合模型來表示,K即組成高斯混合模型的高斯分布的個(gè)數(shù)。
(5)
(6)
式中:D是編碼示教數(shù)據(jù)的GMM的維度。因此,高斯混合模型需要確定的參數(shù)是{πk,μk,Σk},分別表示第k個(gè)成分的先驗(yàn)概率,期望和方差。采用EM算法估計(jì)GMM的參數(shù),通過在概率模型中尋找參數(shù)最大似然估計(jì)進(jìn)行參數(shù)學(xué)習(xí)[13]。
(7)
(8)
(9)
(10)
(11)
3.2實(shí)驗(yàn)設(shè)計(jì)與分析
示教者(人)做一套連貫的動(dòng)作(包括抬臂、伸展、揮手等),經(jīng)預(yù)處理后得到的上肢的9個(gè)自由度(包括雙臂和頭部)的角度變化信息,如圖5所示。將這些數(shù)據(jù)加入到GMM進(jìn)行編碼,經(jīng)表征學(xué)習(xí)后,利用GMR泛化輸出,得到連續(xù)的運(yùn)動(dòng)軌跡,如圖6所示,可知,經(jīng)表征和泛化后,得到連續(xù)的運(yùn)動(dòng)軌跡,而且原始數(shù)據(jù)中的噪聲得到很好的處理,波動(dòng)性大大降低,穩(wěn)定性增強(qiáng)。
圖5 示教數(shù)據(jù)的角度變化信息Fig.5 Angle change information of demonstration data
圖6 經(jīng)表征和泛化后的角度變化信息Fig.6 The angle change information of demo data after representation and generalization
以RShoulderRoll、RElbowRoll、RShoulderPitch3個(gè)自由度為例,對(duì)單次示教的表征和泛化過程進(jìn)行說明,如圖7所示,每列表示一個(gè)自由度,第1行是原始數(shù)據(jù),第2行是GMM編碼的結(jié)果,第3行實(shí)線是GMR泛化的輸出,陰影表示協(xié)方差約束。
圖7 單次示教的GMM編碼和GMR泛化Fig.7 The output of single demonstration after encoding by GMM and generalization by GMR
在離線模式下,可以對(duì)多次示教進(jìn)行學(xué)習(xí),如圖8所示,是對(duì)擺臂動(dòng)作進(jìn)行三次示教,以RElbowRoll自由度為例進(jìn)行的說明,依次對(duì)應(yīng)示教數(shù)據(jù)獲取、表征編碼及泛化輸出的過程。對(duì)原始數(shù)據(jù)處理后得到示教數(shù)據(jù),由圖可知,GMM能對(duì)多次示教進(jìn)行編碼,利用GMR泛化出包含多次示教特征的輸出,具有較強(qiáng)的噪聲處理能力,如果某次示教過程中存在干擾或跳變,可編碼多次示教的特性可對(duì)噪聲進(jìn)行自動(dòng)過濾,泛化出最優(yōu)軌跡。
圖8 多次示教的GMM編碼和GMR泛化Fig.8 The output of multi-demonstration after encoding by GMM and generalization by GMR
4基于模仿學(xué)習(xí)的Nao機(jī)器人行為動(dòng)作的實(shí)現(xiàn)
Nao機(jī)器人的嵌入式軟件NAOqi包含一個(gè)跨平臺(tái)的分布式機(jī)器人框架,為開發(fā)人員提高、改進(jìn)Nao的各項(xiàng)功能提供了一個(gè)良好的基礎(chǔ)。本文構(gòu)建的Nao機(jī)器人動(dòng)作模仿系統(tǒng),骨骼點(diǎn)信息采集及示教數(shù)據(jù)的獲取采用C#語(yǔ)言開發(fā)實(shí)現(xiàn),示教數(shù)據(jù)的表征與泛化基于MATLAB環(huán)境開發(fā)實(shí)現(xiàn),將泛化得到的運(yùn)動(dòng)信息通過NAOqi進(jìn)行數(shù)據(jù)的更新,映射到Nao機(jī)器人的底層控制中,實(shí)現(xiàn)動(dòng)作模仿。
實(shí)驗(yàn)研究表明,構(gòu)建的基于Kinect的Nao機(jī)器人動(dòng)作模仿系統(tǒng)可以實(shí)現(xiàn)實(shí)時(shí)、離線兩種方式的動(dòng)作行為模仿,實(shí)時(shí)動(dòng)作模仿展示如圖9~12所示,對(duì)每一個(gè)子圖,左邊是示教者,右邊是模仿者(Nao機(jī)器人),中間是計(jì)算機(jī)界面,包括Kinect采集到的人體骨骼信息和運(yùn)用Nao機(jī)器人的開發(fā)套件NaoSim與Choregraphe,在虛擬環(huán)境下的動(dòng)作模擬測(cè)試結(jié)果,其中,圖9~11是基本動(dòng)作的模仿,圖9是雙臂伸展動(dòng)作,圖10是雙臂彎曲動(dòng)作,圖11分別表示頭部自由度動(dòng)作(低頭)和手的狀態(tài)模仿(右手閉合,左手張開),圖12是復(fù)合動(dòng)作,分別是揮手和武術(shù)起手式動(dòng)作。
圖9 雙臂伸展動(dòng)作Fig.9 The motion of stretching arms
圖10 雙臂彎曲動(dòng)作Fig.10 Motion of bending arms
圖11 低頭及手的狀態(tài)模仿Fig.11 Head drop and imitation of the state of hands
圖12 復(fù)合動(dòng)作Fig.12 Composite actions
基于模仿系統(tǒng)的靈活性和穩(wěn)定性,該系統(tǒng)可用于實(shí)際操作任務(wù),如圖13所示,控制機(jī)器人將彩筆放入筆筒中,其中A~C是左手抓取動(dòng)作,對(duì)應(yīng)的細(xì)節(jié)圖是a~c;D~E是將彩筆從左手交換到右手,細(xì)節(jié)對(duì)于d~e;F~H是右手將彩筆放入到右邊透明筆筒中,細(xì)節(jié)對(duì)應(yīng)f~h,整個(gè)過程較靈活穩(wěn)定?;谀7聦W(xué)習(xí)的框架,將Kinect與Nao機(jī)器人相結(jié)合實(shí)現(xiàn)的動(dòng)作模仿系統(tǒng),在上肢的動(dòng)作模仿中效果較好,如圖9~13所示,運(yùn)動(dòng)平滑穩(wěn)定,能夠用于執(zhí)行實(shí)際任務(wù)。在線模式下,示教過程中,實(shí)時(shí)更新數(shù)據(jù),動(dòng)作的模仿是實(shí)時(shí)的。本系統(tǒng)還可以實(shí)現(xiàn)離線模式下的行為動(dòng)作模仿,離線模式下,數(shù)據(jù)是在示教完成后,進(jìn)行數(shù)據(jù)的更新。離線模式下,可以通過記錄動(dòng)作執(zhí)行過程中各自由度角度的變化,實(shí)現(xiàn)動(dòng)作學(xué)習(xí)的記憶,在環(huán)境和任務(wù)不變的情況下,實(shí)現(xiàn)學(xué)習(xí)到的動(dòng)作(技能)重復(fù)執(zhí)行,可將其應(yīng)用于生產(chǎn)線上的重復(fù)性行為動(dòng)作,通過示教-模仿的機(jī)制,可有效避免機(jī)器人底層的復(fù)雜編程。
圖13 基于實(shí)時(shí)模仿的抓-放任務(wù)的實(shí)現(xiàn)Fig.13 The implementation of catch-put task based on real-time imitation
此外,可通過重采樣不同數(shù)目的泛化輸出點(diǎn),實(shí)現(xiàn)對(duì)運(yùn)動(dòng)速度的控制,對(duì)于圖6中的一套動(dòng)作,經(jīng)反復(fù)試驗(yàn),采樣500個(gè)數(shù)據(jù)點(diǎn)映射到機(jī)器人中時(shí),運(yùn)動(dòng)軌跡較平滑自然,若采樣200個(gè)點(diǎn)動(dòng)作較快,而800個(gè)點(diǎn),則動(dòng)作較慢,更多的點(diǎn)則顯得動(dòng)作遲鈍。
但是,目前該系統(tǒng)在下肢的動(dòng)作模仿中實(shí)際效果不太理想,其原因在于下肢存在平衡問題,而該系統(tǒng)本質(zhì)上是一開環(huán)系統(tǒng),為解決下肢模仿的平衡考
慮引入內(nèi)部傳感實(shí)現(xiàn)閉環(huán)的控制。
5結(jié)論
本文將體態(tài)感知與仿人機(jī)器人相結(jié)合,研究機(jī)器人的模仿學(xué)習(xí),并以該框架為指導(dǎo),開發(fā)實(shí)現(xiàn)了基于Kinect的Nao機(jī)器人動(dòng)作模仿系統(tǒng)。該系統(tǒng)在Nao機(jī)器人上肢的動(dòng)作模仿中效果較好,運(yùn)動(dòng)平滑而自然,實(shí)驗(yàn)結(jié)果表明:
1) 通過Kinect采集骨骼點(diǎn)空間坐標(biāo),用于計(jì)算示教者運(yùn)動(dòng)過程的關(guān)節(jié)角變化信息的方法是可行的,能夠?yàn)槟P陀?xùn)練提供較好的數(shù)據(jù)支持。
2) 經(jīng)GMM編碼和GMR泛化后,能夠得到連續(xù)的平滑運(yùn)動(dòng)軌跡,且原始數(shù)據(jù)中的噪聲得到很好的處理,波動(dòng)性大大降低,穩(wěn)定性較好。
3) 在上肢的動(dòng)作模仿中,運(yùn)動(dòng)較平滑穩(wěn)定,能夠用于復(fù)雜運(yùn)動(dòng)技能的學(xué)習(xí),能夠較靈活地執(zhí)行遙操作任務(wù),對(duì)面向搜救任務(wù)的機(jī)器人研究有一定的參考意義。
4) 在離線模式下,可實(shí)現(xiàn)動(dòng)作記憶,進(jìn)而實(shí)現(xiàn)動(dòng)作的重復(fù)執(zhí)行,而且可通過重采樣方法對(duì)運(yùn)動(dòng)速度進(jìn)行控制。
5) 不足之處在于,下肢存在平衡控制的問題,不能實(shí)現(xiàn)上下肢的協(xié)同運(yùn)動(dòng)。
下一步研究的方向是考慮引入閉環(huán)控制,解決下肢的平衡問題,實(shí)現(xiàn)上肢和下肢的協(xié)同動(dòng)作,將整個(gè)系統(tǒng)應(yīng)用于遠(yuǎn)程遙操作任務(wù),提高其實(shí)用性。
參考文獻(xiàn):
[1]SCHAAL S. Is imitation learning the route to humanoid robots?[J]. Trends in cognitive sciences, 1999, 3(6): 233-242.
[2]BILLARD A, CALINON S, DILLMANN R, et al. Robot programming by demonstration[M]//SICILIANO B, KHATIB O. Springer Handbook of Robotics. Berlin Heidelberg: Springer, 2008: 1371-1394.
[3]ENGLERT P, PARASCHOS A, DEISENROTH M P, et al. Probabilistic model-based imitation learning[J]. Adaptive behavior, 2013, 21(5): 388-403.
[4]GRIBOVSKAYA E, KHANSARI-ZADEH S M, BILLARD A. Learning non-linear multivariate dynamics of motion in robotic manipulators[J]. The international journal of robotics research, 2011, 30(1): 80-117.
[5]LEE Sang H L, SUH I H, CALINON S, et al. Autonomous framework for segmenting robot trajectories of manipulation task[J]. Autonomous robots, 2015, 38(2): 107-141.
[6]ASFOUR T, AZAD P, GYARFAS F, et al. Imitation learning of dual-arm manipulation tasks in humanoid robots[J]. International journal of humanoid robotics, 2008, 5(2): 183-202.
[7]于建均, 韓春曉, 阮曉鋼, 等. 基于高斯過程的機(jī)器人模仿學(xué)習(xí)研究與實(shí)現(xiàn)[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2015, 41(7): 1000-1004.
YU Jianjun , HAN Chunxiao , RUAN Xiaogang, et al. Robot imitation learning based on Gaussian processes[J]. Journal of Beijing university of technology, 2015, 41(7): 1000-1004.
[8]CALINON S. Robot programming by demonstration: a probabilistic approach[M]. Lausanne: EPFL Press, 2009: 75-100.
[9]趙姝穎, 徐文杰, 鄭雪林, 等. 基于體感的機(jī)器人展示系統(tǒng)研究與開發(fā)[J]. 機(jī)器人技術(shù)與應(yīng)用, 2012(6): 54-57.
ZHAO Shuying, XU Wenjie, ZHENG Xuelin, et al. research and development of display system of Nao humanoid robot based on posture perception[J]. Robot technique and application of robot, 2012 (6): 54-57.
[10]ALMETWALLY I, MALLEM M. Real-time tele-operation and tele-walking of humanoid Robot Nao using Kinect Depth Camera[C]//Proceedings of the 10th IEEE International Conference on Networking, Sensing and Control (ICNSC). 2013 10th IEEE International Conference on Evry, France: IEEE, 2013: 463-466.
[11]KOENEMANN J, BENNEWITZ M. Whole-body imitation of human motions with a Nao humanoid[C]//Proceedings of the 7th ACM/IEEE International Conference on Human-Robot Interaction (HRI).2012 7th ACM/IEEE International Conference onBoston, MA, USA: IEEE, 2012: 425-425.
[12]YANG Ningjia, DUAN Feng, WEI Yudi, et al. A study of the human-robot synchronous control system based on skeletal tracking technology[C]//Proceedings of IEEE International Conference on Robotics and Biomimetics (ROBIO), Shenzhen, China, 2013: 2191-2196.
[13]BISHOP C M. Pattern recognition and machine learning[M]. New York: Springer, 2006: 423-455.
于建均,女,1965年生,副教授。主要研究方向?yàn)橹悄軝C(jī)器人的仿生自主控制、智能計(jì)算與智能優(yōu)化控制、復(fù)雜過程建模、優(yōu)化與控制。主持或參與國(guó)家“863”計(jì)劃項(xiàng)目、國(guó)家自然科學(xué)基金等省部級(jí)科研項(xiàng)目以及橫向科研課題多項(xiàng);發(fā)表SCI、EI、ISTP收錄論文40余篇,獲國(guó)家發(fā)明專利、實(shí)用新型專利、國(guó)家軟件著作權(quán)等10余項(xiàng)。
門玉森,男,1991年生,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、機(jī)器人技術(shù)。參與國(guó)家自然基金項(xiàng)目,發(fā)表學(xué)術(shù)論文3篇,獲發(fā)明專利1項(xiàng)。
阮曉鋼,男,1960年生,教授,博士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄芘c認(rèn)知科學(xué)、機(jī)器人學(xué)與機(jī)器人技術(shù)、控制科學(xué)與工程等。主持科研課題20余項(xiàng),發(fā)表學(xué)術(shù)論文400余篇,其中,被SCI和EI和ISTP檢索200余次,獲得多項(xiàng)國(guó)家發(fā)明專利、實(shí)用新型專利等。
The research and implementation of behavior imitation system about Nao robot based on Kinect
YU Jianjun, MEN Yusen, RUAN Xiaogang, ZHAO Shaoqiong
(College of Electronic and Control Engineering,Beijing University of Technology, Beijing 100124, China)
Abstract:To avoid the complexity of the underlying motor control, make the robot realize motor skills through learning and improve its intelligence, Combining Somatosensory perception with humanoid robot Nao,this paper focuses on the research of robot imitation learning,constructs the behavior imitation system and implements Nao robot's motion imitation using kinect based on the framework of imitation learning.By means of the skeleton tracking technology of motion-sensing camera,the bone point information is collected,then be pre-processed into demonstration data.The demonstration data is encoded for representative learning through Gaussian mixture model (GMM),and then the output generalized by Gaussian mixture regression (GMR) is mapped to Nao robot to realize the imitation of action.The experiment results indicate that Nao robot is able to implement behavior imitation in real-time and offline mode and gives good effect owing to the fact that the motion trajectory is smooth and stable.
Keywords:imitation learning; robot control; somatosensory perception; probability model; GMM; GMR
作者簡(jiǎn)介:
中圖分類號(hào):TP242.6
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-4785(2016)02-0180-08
通信作者:門玉森. E-mail:menyusen0927@163.com.
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61375086);高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金項(xiàng)目(20101103110007).
收稿日期:2015-11-23. 網(wǎng)絡(luò)出版日期:2016-03-14.
DOI:10.11992/tis.201511020
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160314.1432.006.html