劉宇,徐鋒,張丹,阮橋,左敦穩(wěn)
南京航空航天大學(xué) 江蘇南京 210016
在工業(yè)4.0時(shí)代,質(zhì)量和效率是制造業(yè)產(chǎn)品增值的關(guān)鍵因素。增強(qiáng)現(xiàn)實(shí)技術(shù)(AR)憑借其能夠幫助操作人員建立物理世界與數(shù)字信息環(huán)境連接的特性,在制造業(yè)中已經(jīng)被視為提高效率的強(qiáng)大技術(shù)工具。增強(qiáng)現(xiàn)實(shí)區(qū)別于虛擬現(xiàn)實(shí)(VR),它以交互的方式,實(shí)時(shí)地在真實(shí)環(huán)境中注冊虛擬對象,是對真實(shí)物理環(huán)境的補(bǔ)充,這顯著減少了其對硬件的依賴,提高了工業(yè)應(yīng)用能力。工業(yè)增強(qiáng)現(xiàn)實(shí)適用性分布研究報(bào)告中指出,在機(jī)器人操作、維護(hù)、制造等10個(gè)AR工業(yè)應(yīng)用類別中,增強(qiáng)現(xiàn)實(shí)技術(shù)在手動(dòng)裝配領(lǐng)域的應(yīng)用最廣,占比達(dá)到32%。基于增強(qiáng)現(xiàn)實(shí)的裝配引導(dǎo)技術(shù)已經(jīng)成為了智能制造研究的熱點(diǎn),其重要性得到了普遍認(rèn)可。
基于增強(qiáng)現(xiàn)實(shí)的裝配引導(dǎo)技術(shù)一般以系統(tǒng)平臺(tái)的形式進(jìn)行開發(fā)部署,將增強(qiáng)現(xiàn)實(shí)技術(shù)應(yīng)用于產(chǎn)品裝配引導(dǎo),以實(shí)現(xiàn)產(chǎn)品、真實(shí)環(huán)境和虛擬信息與操作人員實(shí)時(shí)交互。圖1所示為典型的視覺增強(qiáng)現(xiàn)實(shí)裝配引導(dǎo)系統(tǒng)運(yùn)行流程圖,主要分為視頻流采集、圖像處理、跟蹤注冊和信息交互4個(gè)步驟。其中圖像處理對采集的視頻幀進(jìn)行分析,為跟蹤注冊或信息交互提供響應(yīng)信號(hào)。
圖1 典型視覺增強(qiáng)現(xiàn)實(shí)裝配引導(dǎo)系統(tǒng)運(yùn)行流程
在國外,基于增強(qiáng)現(xiàn)實(shí)的裝配引導(dǎo)技術(shù)正趨于集成化與智能化,并已應(yīng)用于真實(shí)的裝配環(huán)境中。Zhl等研發(fā)出了面向機(jī)械裝配的智能增強(qiáng)現(xiàn)實(shí)裝配系統(tǒng),該系統(tǒng)的視覺模塊由兩個(gè)單目相機(jī)組成,其中AR相機(jī)基于人工標(biāo)識(shí)進(jìn)行跟蹤注冊,識(shí)別相機(jī)基于R-CNN神經(jīng)網(wǎng)絡(luò)對裝配工具或裝配部件進(jìn)行智能識(shí)別,并標(biāo)記其在視場的位置。此系統(tǒng)被應(yīng)用在數(shù)控雕刻機(jī)的裝配中,通過增強(qiáng)現(xiàn)實(shí)的指令引導(dǎo),操作人員裝配時(shí)間及錯(cuò)誤率顯著降低。Mura的研究團(tuán)隊(duì)開發(fā)了支持車身面板對準(zhǔn)裝配的增強(qiáng)現(xiàn)實(shí)原型系統(tǒng),它通過傳感器實(shí)時(shí)測量汽車所需裝配面板之間的間隙及其他公差信息,并與矩陣模板庫進(jìn)行對比,最后轉(zhuǎn)換成增強(qiáng)現(xiàn)實(shí)指令以校準(zhǔn)工人的裝配誤差。系統(tǒng)對裝配誤差的及時(shí)檢測與回饋,提高了裝配的精確度,極大減少了裝配過程對操作人員經(jīng)驗(yàn)的依賴。然而,此系統(tǒng)仍然存在部署繁瑣、矩陣模板測量困難等問題,還存在很大的改善空間。
在國內(nèi),此項(xiàng)技術(shù)的研究主要集中在高校,距離工業(yè)應(yīng)用還存在一定差距。南京航空航天大學(xué)的楊康康等針對跟蹤注冊流程提出一種基于RGB-D數(shù)據(jù)的配準(zhǔn)方法,基于此方法開發(fā)了增強(qiáng)現(xiàn)實(shí)裝配指導(dǎo)系統(tǒng),同時(shí)以發(fā)動(dòng)機(jī)模型的裝配為例,驗(yàn)證了配準(zhǔn)方法的穩(wěn)定性與準(zhǔn)確性。上海交通大學(xué)的劉然等以車門驅(qū)動(dòng)電動(dòng)機(jī)為裝配對象,使用基于自然特征和LINEMOD算法分別對裝配基體和安裝的零部件進(jìn)行識(shí)別、跟蹤注冊,最后根據(jù)增強(qiáng)指令進(jìn)行零部件裝配。此方法對大基體、小零部件的工業(yè)產(chǎn)品具有良好的適用性。
目前,國內(nèi)外對增強(qiáng)現(xiàn)實(shí)裝配引導(dǎo)技術(shù)的研究正處于如火如荼的關(guān)鍵時(shí)期,其整體的發(fā)展正向著集成化、智能化、普適化和精確化的目標(biāo)前進(jìn),但這仍然需要研究人員的艱苦攻關(guān)。
基于增強(qiáng)現(xiàn)實(shí)的裝配引導(dǎo)技術(shù)的關(guān)鍵是三維跟蹤注冊技術(shù),它直接影響虛擬信息的可讀性以及信息呈現(xiàn)在真實(shí)環(huán)境中的位姿。而信息顯示與交互技術(shù)是基于增強(qiáng)現(xiàn)實(shí)的裝配引導(dǎo)技術(shù)的重要組成部分,是聯(lián)系人機(jī)的紐帶。
三維跟蹤注冊是將虛擬信息實(shí)時(shí)地與真實(shí)環(huán)境進(jìn)行配準(zhǔn)融合,其中應(yīng)用最廣泛的是基于計(jì)算機(jī)視覺的跟蹤注冊技術(shù),根據(jù)環(huán)境中有無標(biāo)志物可再細(xì)分為基于人工標(biāo)識(shí)和無標(biāo)識(shí)的三維跟蹤注冊方法。
(1)基于人工標(biāo)識(shí)的三維跟蹤注冊方法 基于人工標(biāo)識(shí)的三維跟蹤注冊方法應(yīng)用最為廣泛,并且已開發(fā)出成熟的增強(qiáng)現(xiàn)實(shí)軟件開發(fā)工具包(SDK),如AR TOOL Kit。該方法(見圖2)預(yù)先在裝配場景中放置預(yù)定義的人工標(biāo)識(shí),相機(jī)對其捕捉識(shí)別后進(jìn)行配準(zhǔn),而這些標(biāo)識(shí)大多由黑白兩色組成,易被識(shí)別?;谌斯ぷR(shí)別的三維跟蹤注冊方法的工作流程為特征點(diǎn)提取、位姿矩陣計(jì)算、虛實(shí)融合3個(gè)步驟。該方法魯棒性、實(shí)時(shí)性好,受環(huán)境因素影響小,但還存在著如下問題:進(jìn)行裝配操作時(shí)標(biāo)識(shí)易被遮擋,使跟蹤注冊失效;對零部件造成二次污染;操作視野小。這些都制約著此方法在增強(qiáng)現(xiàn)實(shí)裝配引導(dǎo)技術(shù)中的發(fā)展和應(yīng)用。
圖2 基于人工標(biāo)識(shí)的三維跟蹤注冊方法
(2)無標(biāo)識(shí)的三維跟蹤注冊方法 有以下幾種。
1)基于自然特征的跟蹤注冊方法?;谧匀惶卣髋c基于人工標(biāo)識(shí)的方法,其工作流程類似,區(qū)別在于基于自然特征的方法以具有豐富特征的自然圖像作為計(jì)算位姿變換矩陣的依據(jù)。對自然場景圖像進(jìn)行特征點(diǎn)提取與匹配的相關(guān)算法已經(jīng)非常成熟,其中具有代表性的有SIFT(Scale- Invariant Feature Transform)、ORB(Oriented FAST and Rotated BRIEF)等,利用ORB算子進(jìn)行特征點(diǎn)匹配的效果如圖3所示。各個(gè)算法的側(cè)重點(diǎn)不同,其選取和改進(jìn)的方向依賴于自然場景的具體特征,否則將會(huì)影響增強(qiáng)現(xiàn)實(shí)系統(tǒng)的實(shí)時(shí)性與魯棒性。此方法避免了標(biāo)識(shí)對裝配環(huán)境的“污染”,但受環(huán)境影響較大且對弱紋理的工業(yè)零件識(shí)別效果差,具有一定的局限性。
圖3 利用ORB進(jìn)行特征點(diǎn)匹配
2)基于模型的跟蹤注冊方法。基于模型的跟蹤注冊方法是解決弱紋理零件跟蹤注冊的主要方法,其中邊跟蹤與基于點(diǎn)云配準(zhǔn)的方法發(fā)展最快。此類方法通過三維重建或Solidworks等繪圖軟件建立零件模型,并以此獲得零件的輪廓特征或點(diǎn)云數(shù)據(jù)作為先驗(yàn)知識(shí),最后在捕捉的視頻幀或RGB-D數(shù)據(jù)中尋找最優(yōu)關(guān)系,進(jìn)行配準(zhǔn)和注冊。目前,高通公司的Vuforia發(fā)布了model target插件,在Unity平臺(tái)實(shí)現(xiàn)了基于模型的跟蹤注冊技術(shù)(見圖4)的商業(yè)應(yīng)用,加快了增強(qiáng)現(xiàn)實(shí)裝配引導(dǎo)系統(tǒng)的開發(fā)流程?;谀P瓦M(jìn)行跟蹤注冊仍有很大的局限性,它依賴于零件本身:特征單一、輪廓簡單的零件誤識(shí)別率高;特征繁多,輪廓復(fù)雜的零件計(jì)算量大,實(shí)時(shí)性識(shí)別難以保證。
圖4 Vuforia中model target的跟蹤注冊
3)基于深度學(xué)習(xí)的跟蹤注冊方法。近幾年,深度學(xué)習(xí)快速發(fā)展,在增強(qiáng)現(xiàn)實(shí)領(lǐng)域中,各種深度學(xué)習(xí)的方法及體系結(jié)構(gòu)憑借其強(qiáng)大的計(jì)算能力可以更有效、更魯棒地執(zhí)行和解決跟蹤注冊的任務(wù),其中直接以RGB圖像為輸入,以目標(biāo)物體六自由度位姿為輸出的深度學(xué)習(xí)網(wǎng)絡(luò)模型發(fā)展最為迅猛。此類方法主要以李代數(shù)、四元數(shù)或控制點(diǎn)來表示目標(biāo)物體的旋轉(zhuǎn)和位移,將位姿估計(jì)問題轉(zhuǎn)化為回歸問題,主要流程如圖5所示。
圖5 基于深度學(xué)習(xí)的位姿估計(jì)方法主要流程
Tekin等基于YOLOv2網(wǎng)絡(luò)提出了YOLO-6D網(wǎng)絡(luò)模型。以光驅(qū)為識(shí)別對象的YOLO-6D位姿預(yù)測通過輸入的RGB圖像來實(shí)時(shí)預(yù)測目標(biāo)物體3D邊界框的8個(gè)角點(diǎn)及中心點(diǎn)的2D投影坐標(biāo),最后使用PnP(Perspective-n-Point)算法來計(jì)算目標(biāo)對象在三維空間的旋轉(zhuǎn)和平移矩陣(見圖6)。Kstner等基于YOLO-6D網(wǎng)絡(luò),在HoloLens上實(shí)時(shí)檢測和標(biāo)注移動(dòng)機(jī)器人的位姿,在實(shí)時(shí)性與預(yù)測準(zhǔn)確性方面都取得了不錯(cuò)的效果,張德等提出通過YOLO和關(guān)鍵點(diǎn)檢測器網(wǎng)絡(luò)(KPD),分別實(shí)現(xiàn)目標(biāo)檢測和標(biāo)記被訓(xùn)練關(guān)鍵點(diǎn)的2D投影位置的功能,然后根據(jù)關(guān)鍵點(diǎn)2D-3D關(guān)系,利用概率神經(jīng)網(wǎng)絡(luò)算法計(jì)算位姿,此方法無需再進(jìn)行位姿的二次優(yōu)化就能達(dá)到較高的精度。
圖6 基于YOLO-6D的位姿預(yù)測
基于深度學(xué)習(xí)的跟蹤注冊方法較于傳統(tǒng)方法具有較高的精度和魯棒性,但還存在所需數(shù)據(jù)龐大、數(shù)據(jù)集制作困難以及模型訓(xùn)練周期長等問題,限制了它的快速發(fā)展。
信息顯示與操作人員的裝配過程直接相關(guān),是引導(dǎo)裝配的重要一環(huán)。信息顯示取決于硬件設(shè)備,比較經(jīng)濟(jì)的方案是利用多目攝像頭和顯示器,來組成系統(tǒng)的場景信息收集和信息顯示模塊,但是此方案存在視野固定,調(diào)試部署周期長,設(shè)備零散等問題。目前較流行的還是Microsoft公司發(fā)布的HoloLens2,它集成了深度相機(jī)、磁力儀等多種傳感器,使操作人員可以更靈活地進(jìn)行裝配操作,具有較好的沉浸式體驗(yàn)。雖然HoloLens2因?yàn)榇嬖诔杀据^高、易致人眩暈等問題,而沒有在工業(yè)上廣泛應(yīng)用,但信息顯示的硬件載體將會(huì)繼續(xù)沿著集成化的方向發(fā)展。
信息管理是根據(jù)對裝配作業(yè)的認(rèn)知,對裝配工藝等信息進(jìn)行獲取、維護(hù)和管理。常見的方法是信息建模或運(yùn)用知識(shí)圖與語義網(wǎng)技術(shù)。華中科技大學(xué)的藍(lán)珊將基本的裝配工藝信息與裝配過程的多媒體信息進(jìn)行IDEF1X建模,將它們分類組織、轉(zhuǎn)換、關(guān)聯(lián),從而轉(zhuǎn)換成在增強(qiáng)現(xiàn)實(shí)裝配引導(dǎo)的數(shù)據(jù)信息庫,并在裝配過程中進(jìn)行調(diào)用。語義網(wǎng)技術(shù)主要是將各種文本格式的文件及其他非結(jié)構(gòu)化的信息編碼轉(zhuǎn)化成計(jì)算機(jī)能理解的結(jié)構(gòu)化信息和推理規(guī)則集,而知識(shí)圖更側(cè)重于數(shù)據(jù)和語義的圖形化結(jié)構(gòu)。知識(shí)圖與語義網(wǎng)技術(shù)相輔相成,通過上下文信息,極大地豐富了數(shù)據(jù)的內(nèi)容。Walczak等提出了一種分布式增強(qiáng)現(xiàn)實(shí)服務(wù)的體系結(jié)構(gòu),利用語義網(wǎng)技術(shù)有效地搜索上下文描述的分布式資源,構(gòu)成交互式增強(qiáng)現(xiàn)實(shí)演示,以提供搜索和反饋服務(wù)。
隨著傳感器技術(shù)的發(fā)展,人機(jī)交互的方式越來越多樣化。傳統(tǒng)的鍵鼠交互方式雖然穩(wěn)定,但是操作效率低,無法實(shí)現(xiàn)虛實(shí)場景的無縫銜接,已經(jīng)漸漸被摒棄。而基于深度學(xué)習(xí)和多傳感器的語音、手勢、眼控等交互方式具有簡單、自然、效率高等特點(diǎn),是目前人機(jī)交互研究的重點(diǎn)和熱點(diǎn)。董瓊等就在利用增強(qiáng)現(xiàn)實(shí)進(jìn)行裝配的場景中,通過提煉的關(guān)鍵語音命令搭建了指導(dǎo)裝配的語音交互系統(tǒng),提高了人機(jī)交互的效率和用戶體驗(yàn)。
基于增強(qiáng)現(xiàn)實(shí)的裝配引導(dǎo)技術(shù)為用戶提供了新的交流和獲取信息的方式,能夠有效提高產(chǎn)品裝配的效率。目前,此項(xiàng)技術(shù)正向著集成化和智能化方向發(fā)展,而深度學(xué)習(xí)是智能化的重要技術(shù)工具,它能夠提高整個(gè)系統(tǒng)的效率和有效性,并將“智能”灌輸?shù)较到y(tǒng)中,在跟蹤注冊、人工交互等技術(shù)領(lǐng)域相比于傳統(tǒng)方法,在效率和精確度方面取得了不錯(cuò)的應(yīng)用效果。同時(shí),科研人員提出使用虛擬合成數(shù)據(jù)來代替部分真實(shí)數(shù)據(jù)的方法來彌補(bǔ)訓(xùn)練深度學(xué)習(xí)模型時(shí)所需數(shù)據(jù)量大、數(shù)據(jù)集制作困難等問題,從而顯著降低了深度學(xué)習(xí)應(yīng)用的門檻。未來,基于增強(qiáng)現(xiàn)實(shí)的裝配引導(dǎo)技術(shù)的發(fā)展會(huì)與深度學(xué)習(xí)進(jìn)行更深層次的結(jié)合,將進(jìn)一步強(qiáng)化此項(xiàng)技術(shù)的功能、應(yīng)用和服務(wù),這還需要科研人員不斷的研究和創(chuàng)新。