周文惠
摘要:隨著計算機(jī)硬件技術(shù)的不斷發(fā)展,三維物體成為一項重要的信息載體,不同于聲音、文字、二維圖像等抽象的信息表現(xiàn)形式,三維模型承載的內(nèi)容更為豐富,使空間信息更加直觀,在日常生活中的應(yīng)用變得十分廣泛,因此我們?nèi)S模型的檢索需求也越來越廣泛。該文針對深度學(xué)習(xí)在跨域三維模型檢索工作的應(yīng)用進(jìn)行分析與總結(jié),并對未來的工作進(jìn)行展望。
關(guān)鍵詞:三維模型;檢索;深度學(xué)習(xí)
中圖分類號:TP3 ? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)31-0209-02
近年來,人工智能技術(shù)在我們的生活中應(yīng)用十分廣泛,不同于以往大眾印象中人工智能就是的機(jī)器人印象,實際上我們手機(jī)的智能語音助手、人臉識別的支付系統(tǒng)、醫(yī)院的智慧醫(yī)療系統(tǒng)等都是由人工智能技術(shù)進(jìn)行技術(shù)支持的,隨著科技的不斷發(fā)展,人工智能技術(shù)已經(jīng)在計算機(jī)科學(xué)領(lǐng)域、科技金融領(lǐng)域、游戲領(lǐng)域等取得了很大的進(jìn)展,給我們的生活帶來了巨大的便利,在無人超市場景,超市可以通過對顧客進(jìn)行人臉識別進(jìn)行收款并且可以判斷顧客是否來過這家超市并根據(jù)顧客的購買記錄給顧客進(jìn)行產(chǎn)品推薦,從而使顧客擁有更好的購物體驗。在停車場場景中,現(xiàn)在的人工智能車牌識別取代了原來需要管理員對車牌號進(jìn)行記錄收費。在家庭生活場景中,現(xiàn)有的人工智能技術(shù)已經(jīng)為掃地機(jī)器人添加了計算機(jī)視覺技術(shù),使其能夠在清掃過程中識別各項家具和常用生活物品從而在清掃過程中合理的避開障礙。
機(jī)器學(xué)習(xí)作為人工智能的實現(xiàn)方法由于其強大的學(xué)習(xí)能力受到了廣泛的應(yīng)用,機(jī)器學(xué)習(xí)可以通過現(xiàn)有的大量數(shù)據(jù)中不斷訓(xùn)練,最終完成對其設(shè)定的任務(wù)。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種實現(xiàn)技術(shù),其原理受啟發(fā)于人腦神經(jīng)網(wǎng)絡(luò)的原理,其對大量數(shù)據(jù)強大的處理能力和學(xué)習(xí)能力能夠完成許多任務(wù),使人工智能的應(yīng)用更加廣泛。本文將從深度學(xué)習(xí)對草圖跨域三維模型這一工作的應(yīng)用進(jìn)行介紹和總結(jié),并對未來的工作進(jìn)行展望。
1三維模型檢索背景
隨著計算機(jī)硬件技術(shù)的不斷發(fā)展,三維物體成為一項重要的信息載體,不同于聲音、文字、二維圖像等抽象的信息表現(xiàn)形式,三維模型承載的內(nèi)容更為豐富,使空間信息更加直觀,在日常生活中的應(yīng)用變得十分廣泛。在建筑行業(yè),三維建模已經(jīng)成為一項重要的使用技術(shù),工程師可以利用三維建模技術(shù)將提議的設(shè)計模型進(jìn)行展現(xiàn)。如何在現(xiàn)有的大量的三維數(shù)據(jù)中檢索需要的三維模型成為一項重要研究內(nèi)容。在三維模型檢索的工作中存在的基于文字的三維模型檢索工作和基于三維模型的三維模型檢索工作,這兩項研究工作雖然能實現(xiàn)對三維模型的檢索但仍然存在的一定的缺陷:1)在基于文字的三維模型檢索工作中,由于文字的表達(dá)能力有限,不能完整的表達(dá)三維模型造成檢索的準(zhǔn)確率下降。2)在基于三維模型的三維模型檢索工作中,由于用來檢索的三維模型獲取比較困難,給該項工作造成了一定的局限性。為了解決現(xiàn)有研究工作中存在的問題,研究者們在此基礎(chǔ)上提出了基于草圖的三維模型檢索,下圖1為基于三維模型的三維模型檢索過程。
由于草圖能夠克服使用文字信息進(jìn)行檢索的局限性,并且由于其繪畫簡單、容易獲取等特點能夠避免使用三維模型檢索中檢索樣本難獲取的問題,基于草圖的三維模型研究方法備受研究者們關(guān)注,但由于草圖和三維模型的特征差異性該項研究工作有以下難點:1)由于三維模型的空間特殊性,如何對三維模型準(zhǔn)確的描述成為一項有挑戰(zhàn)的任務(wù); 2)手繪草圖所包含的信息內(nèi)容較少,如何對草圖進(jìn)行有代表的特征表述也是研究者的探究的問題。在傳統(tǒng)的基于草圖的三維模型研究工作中,需要大量人力對草圖和三維模型進(jìn)行手工特征描述符的特征提取,再進(jìn)行特征比配進(jìn)行檢索,不僅耗費大量的人力并且由于手工特征描述符的局限性有時并不能完整的表達(dá)跨域的特征。而現(xiàn)有的基于深度學(xué)習(xí)的草圖三維模型研究工作能夠克服基于傳統(tǒng)方法帶來的問題,將檢索過程分為特征提取和跨域特征嵌入兩個部分,本文將從這深度學(xué)習(xí)的角度對這兩部分進(jìn)行分別介紹。
2 深度學(xué)習(xí)在跨域檢索中的應(yīng)用
(1)三維模型特征表征。三維模型的有效表示是計算機(jī)視覺、多媒體分析和計算機(jī)圖形學(xué)中的一個重要課題,它在形狀特征提取分析中起著基礎(chǔ)性作用,可以應(yīng)用于各種領(lǐng)域,如自動駕駛、AR/VR、智能機(jī)器人和醫(yī)療。三維物體的表征方法可以分為基于視圖的方法和基于體積的方法?;谝晥D的方法為將三維模型投影成多張二維視圖,使用二維視圖的處理方法對其進(jìn)行特征表示,其中二維視圖投影方法如下。
體積方法依賴于直接從本機(jī)3D表示中計算出的3D特性,包含mesh網(wǎng)格、體素化的三維網(wǎng)格和點云。本文對三維模型的兩種表示方法進(jìn)行對比和總結(jié),兩種方法的優(yōu)缺點如表1所示。
(2)跨域特征提取與度量學(xué)習(xí)。在基于深度學(xué)習(xí)的草圖跨域三維模型檢索的特征提取階段中,研究者們使用了模仿人腦神經(jīng)元的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并使用了度量學(xué)習(xí)對卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行學(xué)習(xí)使得特征空間中同類的特征距離近,不同類的特征距離遠(yuǎn)。由于草圖的特征比較稀疏,因此研究者們提出了將使用將卷積神經(jīng)網(wǎng)絡(luò)的卷積核改大,從而更好地提高網(wǎng)絡(luò)的特征性。Zhang[1]設(shè)計了針對草圖的網(wǎng)絡(luò),該作者認(rèn)為草圖缺少顏色和紋理的信息并且草圖的類間差異性因此提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的草圖特征表示學(xué)習(xí)方法并且使用了自定義的損失函數(shù)使得使類間距離大,類內(nèi)距離小。該網(wǎng)絡(luò)開發(fā)了一個由草圖、正、負(fù)實像組成的三元組作為神經(jīng)網(wǎng)絡(luò)的輸入。為了發(fā)現(xiàn)草圖與其正對之間的相干視覺結(jié)構(gòu),該作者引入了softmax作為損失函數(shù)。在此基礎(chǔ)上,該提出了一種排序機(jī)制,使正配對獲得比負(fù)配對更高的分?jǐn)?shù),從而實現(xiàn)魯棒表示。隨著深度學(xué)習(xí)的發(fā)展,殘差網(wǎng)絡(luò)、注意力機(jī)制等網(wǎng)絡(luò)模型的出現(xiàn),Song[2]等人體除了在深度神經(jīng)網(wǎng)絡(luò)上都添加了注意力模塊,使該網(wǎng)絡(luò)的特征的學(xué)習(xí)可以更多地關(guān)注顯著性區(qū)域?qū)崿F(xiàn)基于細(xì)粒度的檢索,為了在網(wǎng)絡(luò)經(jīng)過全連接后不丟失細(xì)節(jié)的細(xì)粒度特征,該網(wǎng)絡(luò)模塊在注意力機(jī)制模塊后使用shortcut連接,將粗粒度和細(xì)粒度特征進(jìn)行融合,在損失函數(shù)中使用了一個基于高階可學(xué)習(xí)的能量損失函數(shù),該損失函數(shù)建立了兩個模態(tài)特征之間的關(guān)聯(lián)關(guān)系,使其對不同模態(tài)未對齊的特征具有更好的魯棒性。
3總結(jié)與展望
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,三維模型檢索工作中大量基于卷積神經(jīng)網(wǎng)絡(luò)的方法被提出,在三維形狀識別和檢索方面具有良好的性能。目前,基于體積和多視圖的方法是兩種主流的基于卷積神經(jīng)網(wǎng)絡(luò)的三維形狀分析方法?;隗w積的方法直接利用三維卷積的三維體積模型所表示的信息,而基于多視圖的方法學(xué)習(xí)使用二維卷積神經(jīng)網(wǎng)絡(luò)從不同視點呈現(xiàn)的多個二維投影來表示三維形狀。基于多視圖的方法將三維視覺任務(wù)轉(zhuǎn)換為二維圖像域,可以直接利用圖像識別領(lǐng)域技術(shù)對三維模型進(jìn)行處理。本文針對了基于草圖的跨域三維模型檢索的工作方法進(jìn)行了一定的分析和總結(jié)。在未來的研究工作中,跨域三維模型檢索應(yīng)該充分利用現(xiàn)有的研究基礎(chǔ)在提高檢索效率的基礎(chǔ)上,提高一定的準(zhǔn)確率。
參考文獻(xiàn):
[1] Zhang H, Liu S, Zhang C, et al. SketchNet: Sketch Classification with Web Images[C]//IEEE Conference on Computer Vision & Pattern Recognition.IEEE Computer Society,2016.
[2] Song J, Yu Q, Song Y Z, et al. Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.
【通聯(lián)編輯:代影】