吳蓬勃,張金燕,李莉,孫會澤,王帆
基于多模態(tài)的無序堆疊快遞包裹機械臂視覺抓取系統(tǒng)
吳蓬勃1,張金燕2,李莉1,孫會澤1,王帆3
(1.石家莊郵電職業(yè)技術學院 智能工程系,石家莊 050021;2.河北工程技術學院 網(wǎng)絡與通信學院,石家莊 050091;3.石家莊郵電職業(yè)技術學院 速遞物流系,石家莊 050021)
為實現(xiàn)快遞交叉帶分揀機的自動供包,設計一款基于多模態(tài)的無序堆疊快遞包裹機械臂視覺抓取系統(tǒng)。將堆疊快遞包裹RGB圖像和深度圖多模態(tài)信息送入全卷積殘差網(wǎng)絡模型進行識別,經(jīng)過模型后處理、抓取策略設計、模型訓練與部署,實現(xiàn)快遞包裹抓取區(qū)域精確識別;結合包裹姿態(tài)估計,控制機械臂完成快遞包裹的抓取和搬運。實驗證明,文中提出的視覺識別方法實現(xiàn)了快遞包裹抓取區(qū)域的精確識別,測試準確率達到了95.73%?;谠摲椒嫿ǖ目爝f包裹機械臂視覺抓取系統(tǒng),可以完成快遞交叉帶分揀機的自動供包操作。
多模態(tài);堆疊;快遞包裹;機械臂視覺抓取
近年來,隨著電商和互聯(lián)網(wǎng)技術的飛速發(fā)展,快遞包裹的業(yè)務量與日俱增,這對快遞分揀效率提出了更高的要求[1-2]。交叉帶分揀機作為快遞分揀中心的核心設備,其分揀效率直接影響快遞的時限。目前,交叉帶分揀機的供包操作主要依靠人工完成,即人工將快遞包裹從傳輸帶上逐個取出,掃描條碼后,再逐個放置到交叉帶分揀機的入口,這極大地阻礙了分揀效率的提高。
隨著深度學習技術的快速發(fā)展[3-9]和機械臂智能化水平的不斷提高[10-11],基于視覺的機械臂抓取技術逐漸成為研究熱點之一。王棟[12]基于深度學習目標檢測技術,使用雙目相機識別物體并獲取其坐標,通過雙指夾具抓取傳輸帶上物體。秦志民等[13]采用YOLOv3進行目標分類檢測,采用DarkNet–53五參數(shù)法進行目標位姿的檢測,取得了較好的效果。隨著傳感器技術的發(fā)展,基于多種傳感器技術融合的多模態(tài)識別方法優(yōu)勢凸顯[14-16]。因為RGBD相機可同時采集物體的RGB圖像和深度圖像[17],可獲取物體的三維位置信息[18-19],所以RGBD相機逐漸被應用于機械臂視覺抓取領域。針對物體6D姿態(tài)識別問題,Zeng等[20]提出了基于多視角自監(jiān)督深度學習的6D姿態(tài)估計模型。該模型需要采集場景中每個物體15~18個視角的圖像,以獲取物體6D姿態(tài),使得基于該模型的機械臂視覺抓取效率較低。Song等[21]提出了一種利用關鍵點、邊緣向量和對稱對應關系的6D姿態(tài)估計方法。Qi等[22]采用2D RGB圖像與3D點云相結合的方式,通過投票方式縮小搜索空間,提高了3D目標檢測的精度。Zeng等[23]針對雜亂場景下未知物體的抓取問題,提出了“先抓取再識別”[23]的方法,將抓取后的物體進行識別,大大降低了識別的難度;將RGB圖像和深度圖多模態(tài)信息送入全卷積殘差網(wǎng)絡,輸出抓取區(qū)域標簽圖,同時將深度圖轉(zhuǎn)換為3D點云,計算抓取面法向量,輸出抓取角度信息。
針對交叉帶分揀機的自動供包問題,文中綜合運用RGB圖像和深度圖多模態(tài)信息,通過全卷積殘差網(wǎng)絡模型[23]提取圖像特征,結合模型后處理、抓取策略設計實現(xiàn)快遞包裹抓取區(qū)域精確識別;結合包裹姿態(tài)估計,控制機械臂完成快遞包裹的抓取和搬運。
系統(tǒng)以快遞交叉帶分揀機供件臺為適配對象,將位于送料傳輸帶和等待上車傳輸帶之間的人工供件裝置,替換為機械臂視覺抓取裝置,系統(tǒng)組成見圖1[24]。
綠色揀貨區(qū)左端的光電探測器可以檢測快遞包裹的進入。機械臂視覺抓取系統(tǒng)將快遞包裹逐個抓取、掃碼,并搬運到等待上車傳輸帶上,為快遞包裹逐個進入交叉帶分揀機小車做好準備。
機械臂視覺抓取系統(tǒng)以NVIDIA JETSON AGX XAVIER(以下簡稱AGX)平臺為控制與圖像處理單元;通過頂部的RGBD三維相機識別揀貨區(qū)中的快遞包裹,獲取包裹表面中心位置的三維坐標和包裹姿態(tài);通過變換矩陣將三維坐標轉(zhuǎn)換為機械臂坐標,控制機械臂運轉(zhuǎn)到相應位置抓取包裹,將包裹搬運到條碼掃描區(qū),完成條碼掃描;調(diào)整機械臂姿態(tài),將包裹面單向上擺放到等待上車傳輸帶上。
圖1 系統(tǒng)組成簡圖
快遞包裹的抓取策略見圖2。首先進行圖像數(shù)據(jù)采集,然后通過圖3的模型進行抓取區(qū)域識別,生成熱點區(qū)域(可抓取區(qū)域);通過輪廓提取,判斷當前區(qū)域是否存在熱點區(qū)域;如果沒有熱點區(qū)域,則控制送料傳輸帶送入包裹;如果有熱點區(qū)域,則將熱點區(qū)域按照RGBD相機到熱點區(qū)域中心的深度值()和面積進行排序,優(yōu)先抓取更小(包裹與RGBD相機距離最近,在堆積包裹的上側)、面積更大(更加適宜抓取的包裹)的快遞包裹。最后,將熱點區(qū)域坐標(0,0)和深度值轉(zhuǎn)化為機械臂坐標(,,);對待抓取區(qū)域包裹姿態(tài)進行估計,得出姿態(tài)角為(,);將三維坐標和姿態(tài)數(shù)據(jù)(,,,,)送入機械臂控制程序,完成包裹抓取。
圖2 快遞包裹抓取策略
無序堆疊快遞包裹抓取區(qū)域識別模型見圖3[23]。在進行分揀業(yè)務前,通過RGBD相機采集揀貨區(qū)背景的RGB圖和深度圖用于模型后端的背景濾除。在圖3的無序堆疊快遞包裹多模態(tài)識別模型中,分別將揀貨區(qū)包裹的RGBD圖像和深度圖像送入模型。模型首先使用微調(diào)的殘差網(wǎng)絡模型ResNet分別提取2個圖像特征;然后,經(jīng)過3次空間卷積、上采樣等操作后輸出結果圖。與普通的目標檢測有所不同,該模型的輸出結果為一幅灰度圖,白色區(qū)域為可抓取區(qū)域,黑色為背景區(qū)域。
這幅灰度圖中存在背景干擾,首先需要通過后面的BackgroundFilter結合背景RGB圖和深度圖進行背景濾除。然后,根據(jù)像素值生成相應的熱圖。在熱圖中,通過不同的像素值區(qū)間來標識可抓取區(qū)域、不可抓取區(qū)域和背景區(qū)域。通過這種方式,實現(xiàn)了標簽類別的泛化,即不去判斷目標物體為哪種類別的包裹,而是去判斷哪些區(qū)域為可抓取區(qū)域。最后,通過可抓取區(qū)域的輪廓提取方法FindContours、深度數(shù)據(jù)相似度判定方法DepthSimilar二次濾除背景,得到最終的待抓取區(qū)域圖。
圖3 無序堆疊快遞包裹多模態(tài)識別模型
原始圖像經(jīng)過圖3中的模型處理、背景過濾后,仍然會存在一些背景干擾,例如:光照變化、陰影、背景污漬等都會導致背景被判定為可抓取區(qū)域,因此,文中引入了深度數(shù)據(jù)相似度判定,以濾除這些干擾。
深度數(shù)據(jù)相似度判定在輪廓提取后進行,主要判斷當前輪廓區(qū)域深度數(shù)據(jù)與背景深度數(shù)據(jù)是否相似,如果相似,則判斷為背景,否則認定為可抓取區(qū)域。具體流程見圖4。
圖4 深度數(shù)據(jù)相似性判斷流程
首先,如果輪廓區(qū)域面積過小,則不適宜抓取,直接忽略掉。由于RGBD相機采集的深度數(shù)據(jù)存在一定的噪聲,所以需要對背景深度圖(DepthMap_ Background)和當前深度圖(DepthMap_Current)中的缺失數(shù)據(jù)進行處理,對零值數(shù)據(jù)不做比較。然后,求出DepthMap_Background和DepthMap_Current中的最小非零值(min),并減去min,實現(xiàn)數(shù)據(jù)的歸一化;對兩者的差值Diff1和Diff2分別進行中值濾波,消除孤立噪聲點;通過求Diff1減去Diff2的標準差,獲取Diff1和Diff2的偏離程度;如果標準差小于設定閾值,則判斷該區(qū)域為不可抓取的背景區(qū)域,否則,判定為抓取候選區(qū)域。表1列舉了在強光、陰影等干擾下,模型識別的結果和加入深度數(shù)據(jù)相似度處理后的結果??梢钥闯?,在強光或者陰影干擾下,在模型識別的熱圖中,背景區(qū)域出現(xiàn)了若干可抓取的深色區(qū)域,通過深度數(shù)據(jù)相似度處理后,這些背景的抓取區(qū)域被很好地過濾掉了,最終在RGB圖上通過方框顯示出可抓取的區(qū)域。
表1 加入深度數(shù)據(jù)相似度判定后的識別效果
Tab.1 Recognition effect after adding depth data similarity judgment
Zeng等[23]的數(shù)據(jù)集中包含1 837張經(jīng)過標注的圖像數(shù)據(jù),主要以料框中的各形態(tài)商品為主。文中系統(tǒng)對Zeng等[23]數(shù)據(jù)集進行了增擴,重新采集了17個種類(7種紙箱、3種氣泡扁平件、3種紙質(zhì)扁平件、4種軟包袋)的快遞包裹圖像,見圖5。通過快遞包裹不同數(shù)量、種類、姿態(tài)的組合,共計采集800張圖像(見圖6),并設計了圖像標注軟件進行圖像數(shù)據(jù)標注(見圖7)。
與傳統(tǒng)目標檢測的標注方法有所不同,文中模型的標注結果不是坐標位置,而是一幅灰度圖,通過3種顏色(黑、灰、白)來標識3種標簽(不可抓取區(qū)域、可抓取區(qū)域、背景區(qū)域)。其中,不可抓取區(qū)域一般為包裹邊沿或者不適合抓取的包裹,例如大部分埋在包裹堆下面的包裹。
將2 637張經(jīng)過標注的數(shù)據(jù)和對應的標簽按照8∶2的比例劃分成訓練集和測試集,送入模型進行訓練,在配有4塊英偉達RTX TITAN 24 G的GPU服務器上進行訓練。經(jīng)過3 001個批次訓練后,模型訓練的損失率降到了13%(見圖8),將測試集的527張圖片在訓練好的模型上進行測試,平均準確率達到了95.73%(見圖9,深色標識為判斷正確,白色標識為判斷錯誤)。
圖5 不同種類的快遞包裹
圖6 采集的圖像
圖7 標注后的圖像
圖8 模型損失率曲線
圖9 模型測試柱狀圖
由于快遞包裹是無序堆疊到一起的,為實現(xiàn)機械臂高效準確的抓取,系統(tǒng)采用3D點云方式獲取包裹抓取區(qū)域的3D姿態(tài)信息。首先通過RGB和深度圖像數(shù)據(jù)生成3D點云;然后根據(jù)包裹抓取區(qū)域熱點圖(圖10a)對點云進行裁剪,僅保留待抓取區(qū)域的3D點云(圖10b)。由于快遞包裹表面一般為平面或者有較少的凹凸面,同時考慮到機械臂抓取吸盤帶有緩沖裝置,所以,將快遞包裹表面按平面進行處理。將待抓取區(qū)域的3D點云進行主成分分析,獲取最小二乘擬合平面(圖10c),根據(jù)平面方程計算出待抓取區(qū)域的姿態(tài)角。
圖10 包裹姿態(tài)估計
將訓練好的快遞包裹抓取區(qū)域識別模型和姿態(tài)估計算法部署到AGX硬件平臺上,通過RealsSenseD435i攝像頭以640×480分辨率采集RGB圖像和深度圖像,并送入模型進行識別,模型的識別速率達到了每秒1.53幀。由于圖像識別與機械臂搬運可以并行進行,而機械臂的搬運時間遠大于1 s,所以模型的識別速率可以滿足系統(tǒng)實時性的要求。
通過機械臂和RGBD相機手眼標定,將抓取區(qū)域三維坐標轉(zhuǎn)換為機械臂運動坐標,結合包裹姿態(tài)角,控制機械臂完成包裹抓取動作??爝f包裹抓取與搬運的實際測試效果見圖11。
圖11 快遞包裹的抓取與搬運
面向交叉帶分揀機供件臺,設計了一款基于多模態(tài)的無序堆疊快遞包裹識別和抓取系統(tǒng)?;赗GBD相機采集的RGB圖像和深度圖像,在ResNet模型的基礎上,進行網(wǎng)絡微調(diào)、多級卷積和采樣獲取抓取區(qū)域圖;通過后端的背景過濾、深度數(shù)據(jù)相似性判別等處理,實現(xiàn)了堆疊快遞包裹抓取區(qū)域的識別;通過3D點云獲取包裹姿態(tài);通過數(shù)據(jù)集增擴、標注和模型訓練部署,在AGX嵌入式平臺上實現(xiàn)了每秒1.53幀的識別速度;通過坐標轉(zhuǎn)換,控制機械臂實現(xiàn)了快遞包裹的高效抓取。
[1] 白文杰. 基于快遞面單深度學習的物流分揀規(guī)劃系統(tǒng)研究[D]. 淮南: 安徽理工大學, 2021: 1-6.
BAI Wen-jie. Research on Logistics Sorting Planning System Based on Express Single Target Detection[D]. Huainan: Anhui University of Science & Technology, 2021: 1-6.
[2] 紀浩林. 交叉帶式物流快遞自動分揀系統(tǒng)設計與實現(xiàn)[D]. 阜新: 遼寧工程技術大學, 2016: 1-2.
JI Hao-lin. Implementation and Design of Logistics and Express Cross-Belt Automatic Sorting System[D]. Fuxin: Liaoning Technical University, 2016: 1-2.
[3] ZHANG Li-ping, LI Wei-jun, SUN Lin-jun, et al. GmFace: An Explicit Function for Face Image Representation[J]. Displays, 2021, 68(1): 102022.
[4] NING X, GONG K, LI W, et al. Feature Refinement and Filter Network for Person Re-Identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(9): 3391-3402.
[5] 吳蓬勃, 張金燕, 王帆, 等. 快遞暴力分揀行為視覺識別系統(tǒng)[J]. 包裝工程, 2021, 42(15): 245-252.
WU Peng-bo, ZHANG Jin-yan, WANG Fan, et al. Visual Recognition System of Violent Sorting Behavior in Express Delivery[J]. Packaging Engineering, 2021, 42(15): 245-252.
[6] ZHANG Jian-ming, XIE Zhi-peng, SUN Juan, et al. A Cascaded R-CNN with Multiscale Attention and Imbalanced Samples for Traffic Sign Detection[J]. IEEE Access, 2020, 8: 29742-29754.
[7] WANG C, BAI X, WANG X, et al. Self-Supervised Multiscale Adversarial Regression Network for Stereo Disparity Estimation[J]. IEEE Transactions on Cybernetics, 2021, 51(10): 4770-4783.
[8] WANG Chen, WANG Xiang, BAI Xiao, et al. Self-Supervised Deep Homography Estimation with Invertibility Constraints[J]. Pattern Recognition Letters, 2019, 128(1): 355-360.
[9] ZHOU Lei, BAI Xiao, LIU Xiang-long, et al. Learning Binary Code for Fast Nearest Subspace Search[J]. Pattern Recognition, 2020, 98(1): 107040.
[10] 房國棟, 高軍偉, 朱晨曦, 等. 基于機器視覺的機械臂智能分揀系統(tǒng)[J]. 儀表技術與傳感器, 2020(12): 72-76.
FANG Guo-dong, GAO Jun-wei, ZHU Chen-xi, et al. Intelligent Sorting System for Manipulator Based on Machine Vision[J]. Instrument Technique and Sensor, 2020(12): 72-76.
[11] 李恩宇. 基于單目視覺的六自由度機械臂分揀系統(tǒng)設計[D]. 撫順: 遼寧石油化工大學, 2019: 1-4.
LI En-yu. Design of a Six-Degree-of-Freedom Mechanical Arm Sorting System Based on Monocular Vision[D]. Fushun: LiaoNing Petrochemical University, 2019: 1-4.
[12] 王棟. 基于視覺的機械臂目標跟蹤與抓取方法研究[D]. 青島: 青島科技大學, 2021: 1-7.
WANG Dong. Research on Object Tracking and Grasping System of Robot Arm Based on Vision[D]. Qingdao: Qingdao University of Science & Technology, 2021: 1-7.
[13] 秦志民. 視覺機械臂目標識別與抓取技術研究及系統(tǒng)開發(fā)[D]. 北京: 北京印刷學院, 2021: 1-7.
QIN Zhi-min. Research on Target Recognition and Grasping Technology and System Development of Vision Machine Arm[D]. Beijing: Beijing Institute of Graphic Communication, 2021: 1-7.
[14] 甄軍平, 張平. 旅客多模態(tài)識別在機場安檢中的應用[J]. 現(xiàn)代計算機, 2021(13): 60-65.
ZHEN Jun-ping, ZHANG Ping. Application of Passenger Multimodal Identification in Airport Security Inspection[J]. Modern Computer, 2021(13): 60-65.
[15] 呂葛梁. 手指多模態(tài)識別技術的研究[D]. 杭州: 杭州電子科技大學, 2020: 1-6.
LYU Ge-liang. Research on Finger Multimode Identification Technology[D]. Hangzhou: Hangzhou Dianzi University, 2020: 1-6.
[16] 劉小雨. 基于多模態(tài)深度學習的駕駛行為識別方法研究[D]. 南京: 南京郵電大學, 2021: 1-6.
LIU Xiao-yu. Research on Driving Behavior Recognition Method Based on Multi-Modal Deep Learning[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2021: 1-6.
[17] WANG Yang-fan, WANG Chen, LONG Peng, et al. Recent Advances in 3D Object Detection Based on RGB-D: A Survey[J]. Displays, 2021, 70: 102077.
[18] RAHMAN M, TAN Y, XUE J, et al. Notice of Violation of IEEE Publication Principles: Recent Advances in 3D Object Detection in the Era of Deep Neural Networks: A Survey[J]. IEEE Transactions on Image Processing, 2020, 29(1): 2947-2962.
[19] ARNOLD E, AL-JARRAH O, DIANATI M. A Survey on 3d Object Detection Methods for Autonomous Driving Applications[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(10): 3782-3795.
[20] ZENG A, YU K T, SONG S, et al. Multi-View Self-Supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge[C]// 2017 IEEE International Conference on Robotics and Automation (ICRA), Singapore: 2017: 1386-1383.
[21] SONG C, SONG J, HUANG Q. Hybridpose: 6d Object Pose Estimation under Hybrid Representations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Online, 2020: 428-437.
[22] QI C R, CHEN XINLEI, LITANY O, et al. ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Online, 2020: 4403-4412.
[23] ZENG A, SONG Shu-ran, YU Kuan-ting, et al. Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching[C]// 2018 IEEE International Conference on Robotics and Automation (ICRA). Brisbane, 2017: 3750-3757.
[24] 高國亮, 鞏雪. 基于智能交叉帶分揀系統(tǒng)的機械臂設計[J]. 哈爾濱商業(yè)大學學報(自然科學版), 2021, 37(2): 195-199.
GAO Guo-liang, GONG Xue. Design of Manipulator Based on Intelligent Cross Belt Sorting System[J]. Journal of Harbin University of Commerce (Natural Sciences Edition), 2021, 37(2): 195-199.
Robot Arm Visual Grasping System of Disorderly Stacking Express Package Based on Multimode
WU Peng-bo1, ZHANG Jin-yan2, LI Li1, SUN Hui-ze1, WANG Fan3
(1. Department of Intelligent Engineering, Shijiazhuang Post & Communication Technology College, Shijiazhuang 050021, China; 2. School of Network and Communication, Hebei Polytechnic Institute, Shijiazhuang 050091, China; 3. Department of Express and Logistics, Shijiazhuang Post & Communication Technology College, Shijiazhuang 050021, China)
The work aims to design a robot arm visual grasping system of disorderly stacked express package based on multimode to realize the automatic package feeding of express cross belt sorter. The multi-modal information of RGB image and depth map of stacked express packages was sent to the residual network model of the full convolution for recognition. After model post-processing, grasping strategy design, model training and deployment, the accurate identification of the grasping area of express packages was realized. Combined with the package attitude estimation, the grasping and handling of express packages were completed through the robot arm. Experiments showed that the visual recognition method proposed in this paper realized the accurate recognition of the grab area of express package, and the test accuracy was 95.73%. The robot arm visual grasping system of express parcel based on this method can complete the automatic package feeding operation of express cross belt sorter.
multimodal; stacking; express package; robot arm visual grasping
TP391.0
A
1001-3563(2022)15-0068-09
10.19554/j.cnki.1001-3563.2022.15.008
2022–04–02
河北省大中學生科技創(chuàng)新能力培育專項(22E50226D);河北省高等學??茖W技術研究項目(ZC2021252)
吳蓬勃(1980—),男,碩士,石家莊郵電職業(yè)技術學院教授,主要研究方向為計算機視覺技術、機器人技術。
張金燕(1979—),女,本科,高級工程師,主要研究方向為物聯(lián)網(wǎng)技術和人工智能技術。
責任編輯:曾鈺嬋