• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于視覺(jué)的相機(jī)位姿估計(jì)方法綜述

    2024-08-15 00:00:00王靜王一博郭鋮郭蘋(píng)葉星邢淑軍

    摘 要:相機(jī)位姿估計(jì)是通過(guò)估計(jì)相機(jī)的位置坐標(biāo)和環(huán)繞三個(gè)坐標(biāo)軸的角度偏轉(zhuǎn),來(lái)描述其相對(duì)于給定場(chǎng)景的方向和位置,是自動(dòng)駕駛、機(jī)器人技術(shù)等任務(wù)的重要組成部分。為幫助研究人員在相機(jī)位姿估計(jì)領(lǐng)域的研究,對(duì)相機(jī)位姿估計(jì)的研究現(xiàn)狀和最新進(jìn)展進(jìn)行梳理。首先介紹了相機(jī)位姿估計(jì)的基本原理、評(píng)價(jià)指標(biāo)和相關(guān)數(shù)據(jù)集;然后從場(chǎng)景關(guān)系搭建和相機(jī)姿態(tài)解算兩個(gè)關(guān)鍵技術(shù)出發(fā),對(duì)兩階段模型結(jié)構(gòu)方法和單通道模型結(jié)構(gòu)方法進(jìn)行闡述總結(jié),分別從核心算法和利用的場(chǎng)景信息不同上進(jìn)行分類歸納分析,并對(duì)室內(nèi)室外公開(kāi)數(shù)據(jù)集上的表現(xiàn)作對(duì)比;最后闡述了該領(lǐng)域當(dāng)前面對(duì)的挑戰(zhàn)和未來(lái)的發(fā)展趨勢(shì)。

    關(guān)鍵詞:相機(jī)位姿估計(jì); 深度學(xué)習(xí); 場(chǎng)景關(guān)系搭建; 姿態(tài)解算

    中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1001-3695(2024)08-001-2241-11

    doi:10.19734/j.issn.1001-3695.2023.11.0552

    Overview of vision-based camera pose estimation methods

    Wang Jing, Wang Yibo, Guo Cheng, Guo Ping, Ye Xing, Xing Shujun

    (College of Communication & Information Technology, Xi’an University of Science & Technology, Xi’an 710054, China)

    Abstract:Camera pose estimation plays a crucial role in tasks such as autonomous driving and robotics, elucidating the direction and position of the camera in relation to a given scene through the estimation of its positional coordinates and angular deviations around the three coordinate axes. To facilitate the understanding of researchers in the realm of camera pose estimation, this paper comprehensively reviewed the current research status and latest progress in this field will. Firstly,it introduced the fundamental principles, evaluation indicators, and pertinent datasets associated with camera pose estimation. Subsequently, the review elaborated and summarized the two-stage model structure method and single-channel model structure method from the two key technologies of scene relationship construction and camera pose calculation. It conducted classification and analysis based on the diverse core algorithms and scene information employed, with performance comparisons drawn from indoor and outdoor public datasets. Lastly, it expounded the current challenges in the field and future development trends.

    Key words:camera pose estimation; deep learning; scene relationship construction; pose calculation

    0 引言

    相機(jī)位姿估計(jì)是計(jì)算機(jī)視覺(jué)中的一個(gè)基本問(wèn)題,同時(shí)也是移動(dòng)機(jī)器人、SLAM[1]、增強(qiáng)現(xiàn)實(shí)(AR)[2,3]、自動(dòng)駕駛[4,5]的核心技術(shù)之一,準(zhǔn)確估計(jì)相機(jī)的位姿對(duì)于上述領(lǐng)域的應(yīng)用至關(guān)重要。相機(jī)位姿估計(jì)也被稱為相機(jī)定位,具體來(lái)講就是通過(guò)圖像或視頻來(lái)確定相機(jī)在世界坐標(biāo)系下的位置和朝向。在過(guò)去的幾十年中,相機(jī)位姿估計(jì)已經(jīng)得到了廣泛的研究和應(yīng)用,而隨著深度學(xué)習(xí)的發(fā)展,越來(lái)越多的方法開(kāi)始將其應(yīng)用于相機(jī)位姿估計(jì)中。

    回顧相機(jī)位姿估計(jì)的發(fā)展,從一開(kāi)始的幾何方法到圖像檢索方法,再到近幾年發(fā)展迅速的深度學(xué)習(xí)方法,估計(jì)的相機(jī)姿態(tài)在準(zhǔn)確性和魯棒性上有了很大的提升。幾何方法通過(guò)對(duì)從查詢圖像中提取出的關(guān)鍵點(diǎn)進(jìn)行描述得到特征,進(jìn)而與3D點(diǎn)云模型進(jìn)行匹配[6],得到查詢圖像和場(chǎng)景之間的關(guān)系[7,8],通過(guò)三角測(cè)量或PnP(perspective-n-point)[9]等方法進(jìn)行解算,求得相機(jī)位姿。該方法實(shí)現(xiàn)簡(jiǎn)單,但易受噪聲影響、場(chǎng)景變換導(dǎo)致魯棒性較差,且計(jì)算量大?;趫D像檢索法[10]主要是選擇最佳的匹配圖像,在圖像數(shù)據(jù)庫(kù)中檢索與查詢圖像相似的最近鄰圖像[11],利用該近鄰圖像的三維模型信息,計(jì)算出相機(jī)的位姿。但在實(shí)際情況中,檢索過(guò)程中往往不能得到相似度極高的近鄰圖,這會(huì)大大影響位姿估計(jì)的精度[12],且隨著場(chǎng)景尺寸的增大,圖像數(shù)據(jù)庫(kù)的占用量會(huì)隨之上升,這對(duì)模型實(shí)現(xiàn)實(shí)時(shí)性是一個(gè)相當(dāng)大的挑戰(zhàn)。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得的成功,受此啟發(fā),2015年,Kendall等人[13]提出了PoseNet,該模型是第一個(gè)從輸入查詢圖像直接輸出位姿的模型,由于其估計(jì)相機(jī)位姿的過(guò)程不依賴交叉幀或關(guān)鍵點(diǎn),令其相較于傳統(tǒng)基于結(jié)構(gòu)的方法有著很多優(yōu)勢(shì),如推理時(shí)間短、內(nèi)存占用少、人工成本低等,但該方法初期對(duì)場(chǎng)景信息的利用不充分,性能相較于傳統(tǒng)方法并沒(méi)有實(shí)現(xiàn)超越,后續(xù)眾多研究人員對(duì)其進(jìn)行研究,目前結(jié)合深度學(xué)習(xí)的方法成為了研究趨勢(shì)。

    本文根據(jù)模型結(jié)構(gòu)上的差異將相機(jī)位姿估計(jì)的方法進(jìn)行分類,在頂層分類為兩階段模型結(jié)構(gòu)方法和單通道模型結(jié)構(gòu)方法。在這兩個(gè)類別上,根據(jù)基于結(jié)構(gòu)的混合方法中核心算法不同,以及基于深度學(xué)習(xí)的場(chǎng)景信息利用上的不同,進(jìn)行更為具體的分類。其中基于深度學(xué)習(xí)的方法將關(guān)系搭建和位姿解算設(shè)計(jì)進(jìn)一個(gè)整體的模型里,只需輸入查詢圖像就能得到相機(jī)位姿?;诮Y(jié)構(gòu)的混合方法中,查詢圖像與場(chǎng)景之間的關(guān)系搭建和位姿解算是兩個(gè)分開(kāi)的階段。相較于陳宗海等人[14]的橫向分類方法以及Shavit等人[15]的端到端和混合位姿分類方法,本文在不同的類別上更能關(guān)注到算法核心點(diǎn),不再局限于2D-3D之間的映射[16~21],對(duì)于場(chǎng)景信息的利用上劃分更為細(xì)致。本文將對(duì)主流的相機(jī)位姿估計(jì)方法進(jìn)行綜述,并介紹最新基于深度學(xué)習(xí)的相機(jī)位姿估計(jì)方法,為相關(guān)領(lǐng)域的研究人員提供幫助。最后,總結(jié)當(dāng)前研究的局限和挑戰(zhàn),并得出未來(lái)的發(fā)展方向。

    1 基礎(chǔ)知識(shí)

    1.1 相機(jī)位姿估計(jì)

    相機(jī)采集圖像的本質(zhì)是將3D空間中的點(diǎn)映射為成像平面,使用相機(jī)中的光感傳感器記錄亮度信息,獲取像素點(diǎn),形成照片。相機(jī)成像模型為成像過(guò)程提供數(shù)學(xué)理論支持,其過(guò)程如圖1所示,整個(gè)過(guò)程包括相機(jī)坐標(biāo)系、世界坐標(biāo)系、圖像坐標(biāo)系和像素坐標(biāo)系間的轉(zhuǎn)換。相機(jī)成像過(guò)程中構(gòu)成相似三角形,通過(guò)相似三角形建立等比關(guān)系:

    Zcf=Xcx=Ycy(1)

    其中:f為相機(jī)焦距;(Xc,Yc,Zc)是相機(jī)坐標(biāo)系下的坐標(biāo);(x,y)是圖像坐標(biāo)系下的坐標(biāo)。投影后的坐標(biāo)為

    x=fXcZc(2)

    y=fYcZc(3)

    在相機(jī)位姿的表示上,目前有歐氏變換、歐拉角、四元數(shù)等表示方式。歐氏變換中使用旋轉(zhuǎn)矩陣來(lái)表示相機(jī)位姿過(guò)于冗余,而使用歐拉角來(lái)表示位姿時(shí)因其奇異性容易出現(xiàn)鎖死狀態(tài),四元數(shù)表示方法改善了前兩種表示方法的缺點(diǎn),表示不冗余,并且不會(huì)因奇異導(dǎo)致鎖死,其表示公式為

    p=p0+p1i+p2j+p3k(4)

    其中:i,j,k為虛部,具有以下約束:

    i2=j2=k2=1ij=k,ji=-kjk=i,kj=-iki=j,ik=-j(5)

    若相機(jī)繞著單位向量m旋轉(zhuǎn)了Φ度,則其旋轉(zhuǎn)向量表示為

    R=1-2p22-2p232p1p2-2p0p32p1p3+2p0p22p1p2+2p0p31-2p21-2p232p2p3-2p0p12p1p3-2p0p22p2p3+2p0p11-2p21-2p22(6)

    可將式(6)簡(jiǎn)化為

    R= b11b12b13b21b22b23b31b32b33(7)

    此時(shí)旋轉(zhuǎn)矩陣與四元數(shù)轉(zhuǎn)換關(guān)系為

    p0=tr(R)+12(8)

    p1=b23-b324p0(9)

    p2=b31-b134p0(10)

    p3=b12-b214p0(11)

    四元數(shù)表示的相機(jī)位姿為

    R=[x,y,z,p0,p1,p2,p3]T(12)

    1.2 評(píng)價(jià)指標(biāo)

    評(píng)價(jià)指標(biāo)是用來(lái)度量和比較不同算法或模型性能的標(biāo)準(zhǔn)。能夠量化不同方面的性能,幫助研究人員直觀地了解算法或模型的表現(xiàn),為后續(xù)算法的優(yōu)化和改進(jìn)提供指導(dǎo)。

    在測(cè)量評(píng)估相機(jī)位姿估計(jì)模型性能的過(guò)程中,需要將估計(jì)方法所計(jì)算的位姿與地面真實(shí)姿態(tài)進(jìn)行比較,所得到的誤差越小,說(shuō)明估計(jì)的結(jié)果與地面真實(shí)姿態(tài)越接近。地面真實(shí)姿態(tài)通過(guò)使用運(yùn)動(dòng)結(jié)構(gòu)(SfM)[22]工具或者由掃描設(shè)備(如Microsoft Kinect)直接提取三維場(chǎng)景中的坐標(biāo)。

    1.2.1 平移和旋轉(zhuǎn)誤差

    大部分的數(shù)據(jù)集提供地面真實(shí)姿態(tài)的6Dof信息。在使用估計(jì)的姿態(tài)來(lái)測(cè)量偏差時(shí),若輸入為單個(gè)圖像,誤差度量為絕對(duì)姿態(tài)誤差(APE),包含了絕對(duì)平移誤差和絕對(duì)旋轉(zhuǎn)誤差。絕對(duì)平移誤差為估計(jì)的平移分量和地面真實(shí)平移分量x之間的歐幾里德距離:

    tape=‖x-‖2(13)

    絕對(duì)旋轉(zhuǎn)誤差,以度為單位,可以計(jì)算得到對(duì)準(zhǔn)地面實(shí)況和估計(jì)取向所需最小旋轉(zhuǎn)角度。

    rape=α=2 arccosq180π(14)

    若輸入為序列圖像,誤差度量為相對(duì)姿態(tài)誤差(RPE),包含了相對(duì)水平誤差和相對(duì)旋轉(zhuǎn)誤差,與APE相同,使用四元數(shù)表示法,RPE主要度量視覺(jué)里程計(jì)相對(duì)運(yùn)動(dòng)姿態(tài)。

    1.2.2 采樣閾值誤差

    部分模型采用間接方法測(cè)量定位性能,如采樣閾值誤差百分比,即就是通過(guò)將估計(jì)的相機(jī)位姿與真實(shí)的相機(jī)位姿進(jìn)行比較,計(jì)算誤差(例如歐幾里德距離或角度差),并將其與給定的固定閾值進(jìn)行比較。如果誤差超過(guò)了固定閾值,就會(huì)被計(jì)入固定閾值錯(cuò)誤的數(shù)量中。固定閾值包括高精度(0.25 m,2°)、中等精度(0.5 m,5°)以及粗精度(5 m,10°)。使用百分比突出顯示總體的準(zhǔn)確性,百分比越高,性能越好。

    1.3 數(shù)據(jù)集介紹

    數(shù)據(jù)集是研究和實(shí)踐中不可或缺的元素,在衡量和驗(yàn)證模型算法、系統(tǒng)的性能等方面起著關(guān)鍵作用。數(shù)據(jù)集能夠更好地反映算法和模型適應(yīng)的場(chǎng)景,從而使得算法和模型在更廣泛的情境下得以驗(yàn)證和改進(jìn)。

    公開(kāi)的數(shù)據(jù)集能夠驗(yàn)證模型在當(dāng)前研究現(xiàn)狀中所處的水平,相機(jī)位姿估計(jì)的數(shù)據(jù)集按場(chǎng)景分為室內(nèi)數(shù)據(jù)集和室外數(shù)據(jù)集兩種。表1總結(jié)了相機(jī)位姿估計(jì)常用的數(shù)據(jù)集信息,室內(nèi)代表公開(kāi)數(shù)據(jù)集有7Scenes[23]等,室外代表公開(kāi)數(shù)據(jù)集有Cambridge landmarks[13]和Oxford robot car[24]等。本節(jié)對(duì)使用廣泛的數(shù)據(jù)集進(jìn)行了介紹,闡述了其數(shù)據(jù)集結(jié)構(gòu)和內(nèi)容,并指明了所介紹數(shù)據(jù)集應(yīng)用的視覺(jué)任務(wù)。

    7Scenes是相機(jī)位姿估計(jì)和場(chǎng)景重建的室內(nèi)公開(kāi)數(shù)據(jù)集,由劍橋大學(xué)研究人員創(chuàng)建,包含了chess、fire、heads、office、pumpkin、redkitchen、stairs七個(gè)不同的場(chǎng)景。該數(shù)據(jù)集特點(diǎn)為使用相機(jī)勻速拍攝成連續(xù)的序列圖像,數(shù)據(jù)集提供場(chǎng)景的RGB圖像、深度圖以及相機(jī)真值,圖像中包含了很多挑戰(zhàn)性元素,如重復(fù)性紋理、低紋理以及光照變化等情況。該數(shù)據(jù)集更加接近現(xiàn)實(shí)復(fù)雜的室內(nèi)情況,對(duì)相機(jī)位姿估計(jì)任務(wù)有很大的挑戰(zhàn)性,7Scenes是目前使用最為廣泛的室內(nèi)數(shù)據(jù)集。

    Cambridge landmarks是室外場(chǎng)景的數(shù)據(jù)集,使用智能手機(jī)拍攝劍橋大學(xué)周圍五個(gè)不同場(chǎng)景的圖像(K.College、Old Hospital、Shop Faade、St M.Church、Great Court),每個(gè)場(chǎng)景包含了超百幀的圖像數(shù)據(jù),且場(chǎng)景的距離跨度較大。該數(shù)據(jù)集也提供了相機(jī)真值,同時(shí)劃分好了訓(xùn)練集和測(cè)試集,數(shù)據(jù)集圖像中包含了大量干擾信息,有行人、車輛、光照變化、天氣變化以及物體快速變化導(dǎo)致的運(yùn)動(dòng)模糊,對(duì)模型性能有很大的挑戰(zhàn)。該數(shù)據(jù)集目前是相機(jī)位姿估計(jì)領(lǐng)域中使用最為廣泛的室外數(shù)據(jù)集。

    ApolloScape數(shù)據(jù)集[25]是由百度Apollo團(tuán)隊(duì)制作的室外場(chǎng)景數(shù)據(jù)集,該數(shù)據(jù)集除了提供場(chǎng)景RGB信息外,還涵蓋了其他的場(chǎng)景信息。首先,該數(shù)據(jù)集包含了高質(zhì)量的激光雷達(dá)數(shù)據(jù),提供了精準(zhǔn)的三維點(diǎn)云信息,更真實(shí)地還原了復(fù)雜的戶外場(chǎng)景;其次,該數(shù)據(jù)集還提供了豐富的像素級(jí)標(biāo)注,使研究者能夠進(jìn)行對(duì)語(yǔ)義理解和場(chǎng)景分析相關(guān)算法的研究。目前,該數(shù)據(jù)集依舊在不斷地更新發(fā)展,為視覺(jué)領(lǐng)域技術(shù)的研究提供有力的支持。

    InLoc數(shù)據(jù)集[26]是Tokyo Technology等單位為大規(guī)模室內(nèi)定位而設(shè)計(jì)的。數(shù)據(jù)集由一個(gè)RGB-D圖像數(shù)據(jù)庫(kù)組成,并通過(guò)移動(dòng)手機(jī)拍攝的一組單獨(dú)的RGB查詢圖像進(jìn)行增強(qiáng),以使其更適合于室內(nèi)定位。由于大的視點(diǎn)變化、移動(dòng)的家具、遮擋、照明變換和過(guò)道等因素存在,使得待定位的查詢圖像和數(shù)據(jù)庫(kù)圖像之間存在顯著的外觀變化。同時(shí)該數(shù)據(jù)集提供了相機(jī)真值以幫助研究人員更好地使用。

    CMU數(shù)據(jù)集[27]是卡內(nèi)基梅隆大學(xué)使用相機(jī)傳感器制作的室外數(shù)據(jù)集。此數(shù)據(jù)集包含了季節(jié)變化和天氣變化,并且采集城市內(nèi)和郊區(qū)兩處場(chǎng)景數(shù)據(jù),不僅在時(shí)間上跨度較大,場(chǎng)景的距離跨度也很大。數(shù)據(jù)集整體提供了17個(gè)序列場(chǎng)景,并為每個(gè)場(chǎng)景建立了3D模型,同時(shí)數(shù)據(jù)集提供了查詢圖像的6DoF真值姿態(tài),以幫助研究人員進(jìn)行算法的驗(yàn)證和實(shí)現(xiàn)。

    2 兩階段模型結(jié)構(gòu)方法

    兩階段的模型匹配方法在估計(jì)相機(jī)位姿時(shí)包含場(chǎng)景關(guān)系搭建和相機(jī)位姿解算兩個(gè)工作階段。場(chǎng)景關(guān)系搭建階段的目的是建立查詢圖像與場(chǎng)景模型之間的匹配關(guān)系。相機(jī)位姿解算階段對(duì)搭建的場(chǎng)景關(guān)系進(jìn)行約束解算,以恢復(fù)相機(jī)位姿,經(jīng)典的做法是應(yīng)用幾何約束下的PnP來(lái)計(jì)算位姿,并用RANSAC算法[30~33]來(lái)剔除離群值。

    兩階段模型結(jié)構(gòu)能夠清晰地了解到模型在當(dāng)前時(shí)刻的作用,整體結(jié)構(gòu)如圖2所示。場(chǎng)景關(guān)系搭建階段根據(jù)搭建方法不同,分為三種方法。特征點(diǎn)匹配方法主要是從查詢圖像中提取特征點(diǎn),然后與三維場(chǎng)景進(jìn)行特征匹配,因此需要重建三維點(diǎn)云模型以縮小特征匹配空間。采用SFM(structure from motion)技術(shù)對(duì)三維場(chǎng)景進(jìn)行重建,重建的點(diǎn)云模型存儲(chǔ)了場(chǎng)景圖像中的特征向量和關(guān)鍵點(diǎn),且能夠保存場(chǎng)景中的幾何信息。由于三維點(diǎn)云模型對(duì)幾何信息表達(dá)冗余,所以在解算過(guò)程中有更多的幾何約束信息去剔除離群值,提高精度?;趫D像檢索的方法是二維到二維之間進(jìn)行特征映射,該方法在搭建匹配關(guān)系時(shí)需要建立圖像匹配數(shù)據(jù)庫(kù)[34],其匹配關(guān)系搭建流程為,首先對(duì)查詢圖像的特征進(jìn)行編碼,獲得全局描述子,其次在圖像匹配數(shù)據(jù)庫(kù)里檢索最近鄰圖片,進(jìn)行特征點(diǎn)匹配,得到場(chǎng)景關(guān)系。坐標(biāo)回歸方法是直接估計(jì)三維場(chǎng)景的坐標(biāo),通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以從輸入查詢圖像直接得到三維場(chǎng)景的坐標(biāo),因此無(wú)須重建三維點(diǎn)云模型和建立圖像數(shù)據(jù)庫(kù)。

    2.1 特征點(diǎn)匹配+解算

    二維到三維的特征匹配算法對(duì)場(chǎng)景中的遮擋、光照變化有較好的魯棒性,且在相機(jī)與場(chǎng)景之間距離較遠(yuǎn)時(shí),依舊可以提供較高的位姿精度,但需要場(chǎng)景中具有足夠的3D點(diǎn)和2D特征點(diǎn)進(jìn)行匹配,對(duì)數(shù)據(jù)需求較高。目前,對(duì)于特征點(diǎn)匹配方法的改進(jìn)主要集中在特征點(diǎn)的提取和匹配上,提取查詢圖像中的特征點(diǎn)主要由關(guān)鍵點(diǎn)檢測(cè)器來(lái)完成,而將所有特征提取非常耗時(shí),特征點(diǎn)的匹配方法是否高效會(huì)直接影響解算后位姿的精度,因此很多模型將工作的重點(diǎn)放在了場(chǎng)景關(guān)系搭建階段,目的是為了提高效率和精度,部分研究人員將模型的改進(jìn)重心放在了匹配方法上。

    Sattler等人[35]探索了一種正交策略,將3D點(diǎn)量化為一種細(xì)分詞匯表[36]來(lái)隱式執(zhí)行特征匹配,通過(guò)一種簡(jiǎn)單的投票策略來(lái)找到局部唯一2D-3D點(diǎn)分配,該方法只需存儲(chǔ)單詞標(biāo)簽,因此內(nèi)存占用大大降低,從而加快了特征匹配速度。加速2D-3D匹配過(guò)程中會(huì)因?yàn)榱炕僮鲗?dǎo)致匹配損失,尤其是泛化到大場(chǎng)景中,相似或重復(fù)紋理的特征點(diǎn)總會(huì)影響位姿的精度。為此,Liu等人[37]提出了一種新的全局排序算法,利用了查詢圖像以及3D點(diǎn)之間展示的全局上下文信息,這樣做不僅考慮了每個(gè)2D-3D匹配之間的視覺(jué)相似性,還兼顧了匹配對(duì)之間的全局兼容性。

    除了在場(chǎng)景關(guān)系搭建階段改進(jìn)2D-3D匹配方法外,有效地提取局部健壯特征點(diǎn)不僅能夠提升匹配效率,同時(shí)能夠提升精度。特征點(diǎn)的提取依賴于關(guān)鍵點(diǎn)檢測(cè)器,而手工制作的關(guān)鍵點(diǎn)檢測(cè)器(SIFT[38]、SUSAN[39]等)對(duì)于實(shí)時(shí)性來(lái)說(shuō)并不理想,為了加快檢測(cè)器的效率。DeTone等人[40]提出了一個(gè)可以在完整大小的圖像上運(yùn)行的完全卷積模型,能夠訓(xùn)練出多視角幾何問(wèn)題的關(guān)鍵點(diǎn)檢測(cè)器,在關(guān)鍵點(diǎn)檢測(cè)上引入了一種多尺度、多單應(yīng)用(homographic adaptation)的方法,用來(lái)提升關(guān)鍵點(diǎn)檢測(cè)的重復(fù)性。Tian等人[41]將二階相似性(SOS)[42,43]應(yīng)用到局部描述符中,提出二階相似性正則化(SOSR),并將其納入訓(xùn)練中,學(xué)習(xí)描述符包含局部補(bǔ)丁到運(yùn)動(dòng)結(jié)構(gòu)的多種任務(wù)信息,實(shí)驗(yàn)表明,描述符匹配魯棒性得到顯著提升。Wang等人[44]提出了一個(gè)弱監(jiān)督框架,無(wú)須像素級(jí)地面實(shí)況,僅從圖像之間的相對(duì)位姿學(xué)習(xí)特征點(diǎn)描述符,性能優(yōu)于之前的完全監(jiān)督描述符。

    大部分特征點(diǎn)描述在關(guān)鍵點(diǎn)檢測(cè)器檢測(cè)完成后進(jìn)行提取,為獲取更為健壯的關(guān)鍵點(diǎn),部分研究人員將關(guān)鍵點(diǎn)檢測(cè)的階段向后推遲。Dusmanu等人[45]提出了一個(gè)可實(shí)現(xiàn)雙任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)D2Net,將關(guān)鍵點(diǎn)檢測(cè)推遲到特征點(diǎn)描述之后,所獲得的關(guān)鍵點(diǎn)更為穩(wěn)健。Luo等人[46]基于文獻(xiàn)[45]提出ASLFeat,提高了局部特征的提取能力,獲得了更強(qiáng)的幾何不變性。具有同樣的順序思想,Tian等人[47]在2020年提出D2D的描述符模型,先描述再檢測(cè)關(guān)鍵點(diǎn)位置,該模型無(wú)須任何額外的訓(xùn)練,通過(guò)相對(duì)或絕對(duì)的局部深度特征圖在空間和深度維度上去定義關(guān)鍵點(diǎn)。

    2.2 圖像檢索+解算

    特征點(diǎn)匹配方法泛化到大場(chǎng)景下,精度和魯棒性會(huì)受到很大的影響,且大場(chǎng)景下建立3D點(diǎn)云模型需要采集大量的圖像,尤其在大場(chǎng)景戶外環(huán)境下,會(huì)受到多種因素影響,例如光線變化、天氣變化、遮擋、動(dòng)態(tài)物體等。目前,利用圖像檢索的場(chǎng)景關(guān)系搭建方法來(lái)求解大場(chǎng)景下相機(jī)位姿,相較于特征點(diǎn)匹配有很大的優(yōu)勢(shì),該方法對(duì)于室外大場(chǎng)景的變化有較好的應(yīng)對(duì)表現(xiàn)?;趫D像檢索的方法無(wú)須建立3D點(diǎn)云模型,而是建立圖像匹配數(shù)據(jù)庫(kù),通過(guò)對(duì)場(chǎng)景中每個(gè)圖像提取特征點(diǎn),并將其存儲(chǔ)于數(shù)據(jù)庫(kù)。在位姿估計(jì)時(shí),在數(shù)據(jù)庫(kù)中對(duì)查詢圖像進(jìn)行檢索,得到最相似的圖像,建立場(chǎng)景關(guān)系并進(jìn)行解算。在進(jìn)行檢索的過(guò)程中,通過(guò)對(duì)局部特征進(jìn)行編碼來(lái)得到用于圖像檢索的全局描述子。傳統(tǒng)局部特征的圖像編碼方法有詞包(BoW)[48]、局部聚集描述符向量(VLAD)[49]等,后續(xù)在檢索過(guò)程中應(yīng)用CNN來(lái)進(jìn)行聚合局部特征。

    Revaud等人[50]提出一種通過(guò)列表排序損失直接優(yōu)化全局mAP的方法,以改善由于追求最小化本質(zhì)損失上界而導(dǎo)致平均準(zhǔn)確率無(wú)法達(dá)到最優(yōu)的問(wèn)題;針對(duì)大量高分辨率圖像會(huì)超出GPU內(nèi)存的問(wèn)題,引入新的優(yōu)化方案,可以處理任意圖像分辨率和網(wǎng)絡(luò)深度的訓(xùn)練批量。Teichmann等人[51]針對(duì)檢索基準(zhǔn)中缺乏邊界框數(shù)據(jù)集,提出了新的基于Google地表邊界框數(shù)據(jù)集,目的是利用索引圖像區(qū)域來(lái)提高檢索準(zhǔn)確性。同時(shí),為將檢測(cè)的區(qū)域信息組合成改進(jìn)的整體圖像,引入了新的區(qū)域聚合選擇匹配核(R-ASMK),在不增加維度的前提下,顯著提升了圖像檢索的準(zhǔn)確性。

    全局描述符在檢索中起到主要作用,健壯的全局描述符可以檢索出相似的最近鄰圖像,相似的最近鄰圖像是模型性能精度的保障。Husain等人[52]提出了新的基于CNN的全局描述符REMAP,其結(jié)構(gòu)如圖3所示。REMAP清晰地學(xué)習(xí)到不同語(yǔ)義級(jí)別的視覺(jué)區(qū)分性特征,在檢索語(yǔ)義有用的區(qū)域和層時(shí),通過(guò)使用Kullback-Leibler(KL)散度測(cè)量每個(gè)區(qū)域和層的信息增益,目的是能夠關(guān)注全局上下文信息,獲得更為健壯的全局特征描述符。

    相較于其他方法,圖像檢索的場(chǎng)景關(guān)系搭建方法在模型泛化性上有一定的優(yōu)越性,因?yàn)樵摲椒▽?duì)3D場(chǎng)景沒(méi)有很高的要求。為進(jìn)一步提高模型在變化場(chǎng)景中的泛化性,Sarlin等人[53]于2019年提出了HF-Net,在模型結(jié)構(gòu)上進(jìn)行了創(chuàng)新性的變化,使用由粗到細(xì)的分層結(jié)構(gòu),同時(shí)對(duì)局部特征和全局描述符進(jìn)行預(yù)測(cè),這種分層的結(jié)構(gòu)方法節(jié)省了大量運(yùn)行時(shí)間,因此,提高實(shí)時(shí)性的同時(shí)又保證了泛化性。2020年,Zhou等人[54]提出新的圖像檢索框架,首先檢索出與查詢圖像相同的場(chǎng)景圖像集合,計(jì)算其與查詢圖像的本質(zhì)矩陣,利用檢索圖像的基本矩陣得到查詢圖像位姿,該框架不依賴場(chǎng)景三維模型,在新場(chǎng)景中有很好的泛化性。

    2.3 坐標(biāo)回歸+解算

    基于特征點(diǎn)匹配或者基于圖像檢索等方式搭建場(chǎng)景關(guān)系,依賴于圖像中的特征點(diǎn),特征點(diǎn)的健壯性會(huì)直接影響估計(jì)位姿的精度。坐標(biāo)回歸的方法不再依賴于圖像中的特征點(diǎn),直接通過(guò)查詢圖像對(duì)3D場(chǎng)景的坐標(biāo)進(jìn)行回歸,無(wú)須建立3D點(diǎn)云模型或龐大的圖像檢索庫(kù),在無(wú)須特征點(diǎn)檢測(cè)和匹配的情況下就可以獲得二維到三維之間的對(duì)應(yīng)關(guān)系,通過(guò)PnP和RANSAC算法進(jìn)行相機(jī)位姿的解算,使其對(duì)場(chǎng)景中的不利因素和變化有很好的魯棒性。

    2017年,Brachmann等人[55]提出了DSAC,將場(chǎng)景關(guān)系搭建和相機(jī)位姿解算過(guò)程結(jié)合起來(lái),通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)查詢圖像像素和3D場(chǎng)景坐標(biāo)點(diǎn)之間的對(duì)應(yīng)關(guān)系,接著進(jìn)行RANSAC,得到模型假設(shè)集合,通過(guò)評(píng)分函數(shù)對(duì)模型假設(shè)集合打分,得到最優(yōu)模型,最終實(shí)現(xiàn)可微分的RANSAC。為提高DSAC訓(xùn)練時(shí)間和泛化能力,Brachmann等人[56]在文獻(xiàn)[55]的基礎(chǔ)上提出了DSAC++,先前預(yù)測(cè)場(chǎng)景坐標(biāo)會(huì)學(xué)習(xí)整個(gè)位姿估計(jì)的流程,而DSAC++證實(shí)學(xué)習(xí)單個(gè)組件就可以密集回歸場(chǎng)景坐標(biāo),大大減少了訓(xùn)練時(shí)間,使用了新的熵控制軟內(nèi)點(diǎn)計(jì)數(shù)的假設(shè)評(píng)分方法,大大提升了泛化能力,且DSAC++能夠自動(dòng)發(fā)現(xiàn)場(chǎng)景幾何。

    將多視角幾何約束添加進(jìn)場(chǎng)景坐標(biāo)網(wǎng)絡(luò)中是一種新的提升模型各種能力的手段。2020年,Cai等人[57]將時(shí)間序列圖像的多視角幾何約束用于對(duì)場(chǎng)景的坐標(biāo)預(yù)測(cè),不同視角下場(chǎng)景點(diǎn)的變形誤差信息能夠提高網(wǎng)絡(luò)回歸到正確的場(chǎng)景坐標(biāo)的能力,實(shí)驗(yàn)表明,多視角的網(wǎng)絡(luò)更容易收斂。Li等人[58]通過(guò)將回歸場(chǎng)景坐標(biāo)的網(wǎng)絡(luò)進(jìn)行分層,由一系列的輸出層組成,每個(gè)輸出層都受前一輸出層的約束,最后一個(gè)輸出層輸出預(yù)測(cè)的3D坐標(biāo),這種由粗到精的方式令該分層網(wǎng)絡(luò)實(shí)現(xiàn)了更精準(zhǔn)的3D場(chǎng)景坐標(biāo)預(yù)測(cè)。同年,Zhou等人[59]提出KFNet,將場(chǎng)景坐標(biāo)回歸的問(wèn)題拓展到時(shí)域上,通過(guò)將卡爾曼濾波結(jié)合進(jìn)回歸網(wǎng)絡(luò)中,解決了時(shí)間序列圖像上像素級(jí)的狀態(tài)推斷,該方法在時(shí)域位姿估計(jì)中有較高的精度。

    擴(kuò)展到時(shí)域可以提升估計(jì)位姿的精度,但如何處理大場(chǎng)景依舊是個(gè)難題。2021年,Tang等人[60]提出了新的預(yù)測(cè)場(chǎng)景坐標(biāo)方法,場(chǎng)景不可知的相機(jī)定位使用密集的場(chǎng)景匹配塊(DSM),結(jié)構(gòu)如圖4所示。DSM模塊接受查詢圖像的特征圖以及部分特征圖對(duì)應(yīng)的場(chǎng)景坐標(biāo),再利用DSM模塊接受的信息以一種由粗到細(xì)的方式預(yù)測(cè)場(chǎng)景坐標(biāo)。DSM在查詢圖像和場(chǎng)景之間構(gòu)建成本體素,匹配每個(gè)查詢圖像像素的場(chǎng)景通過(guò)成本量,使得網(wǎng)絡(luò)在有限的容量?jī)?nèi)處理大規(guī)模場(chǎng)景,該方法同樣可以擴(kuò)展到時(shí)域上。

    如何通過(guò)最少的信息挖掘場(chǎng)景中的幾何信息,以幫助估計(jì)位姿的精度,并且減少訓(xùn)練時(shí)間,為實(shí)時(shí)性的應(yīng)用作出鋪墊。2022年,Brachmann等人[61]提出DSAC*,結(jié)構(gòu)如圖4所示,總結(jié)了文獻(xiàn)[55,56]并進(jìn)行了擴(kuò)展。在訓(xùn)練DSAC*網(wǎng)絡(luò)時(shí),可以是RGB或RGB-D,也可以將3D模型加入訓(xùn)練,以減少信息的利用,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)減小內(nèi)存占用,簡(jiǎn)化訓(xùn)練過(guò)程,提高訓(xùn)練效率,改進(jìn)后的網(wǎng)絡(luò)可在訓(xùn)練時(shí)自動(dòng)發(fā)現(xiàn)場(chǎng)景中的三維幾何信息,有助于提高估計(jì)位姿精度。場(chǎng)景中的其他信息可以提升估計(jì)位姿的精度,因此添加場(chǎng)景其他信息以提高大場(chǎng)景環(huán)境下的定位精度,也是一種方法。2022年,Yan等人[62]提出了CrossLoc,該網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。其是一種自我監(jiān)督進(jìn)行多模態(tài)位姿估計(jì)的學(xué)習(xí)方法,通過(guò)使用幾何信息和場(chǎng)景結(jié)構(gòu)信息(如語(yǔ)義)來(lái)進(jìn)行場(chǎng)景坐標(biāo)的預(yù)測(cè),為得到大尺寸數(shù)據(jù)集的多模態(tài)合成數(shù)據(jù)集,提出TOPO-DataGen方法。實(shí)驗(yàn)表明,在空中場(chǎng)景環(huán)境定位時(shí),該方法使用多模態(tài)合成數(shù)據(jù)集進(jìn)行輔助達(dá)到了最先進(jìn)的基線。為提高模型魯棒性和精度,王靜等人[63]通過(guò)引入深度過(guò)參化卷積來(lái)取代網(wǎng)絡(luò)骨架中傳統(tǒng)的卷積層,并在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中增加細(xì)粒度信息,以解決空間信息丟失問(wèn)題,提高信息利用率。當(dāng)前使用場(chǎng)景坐標(biāo)方法來(lái)搭建場(chǎng)景關(guān)系已經(jīng)取得了很好的精度,但是模型在回歸3D場(chǎng)景坐標(biāo)時(shí)計(jì)算密集,較為耗時(shí),很難推廣到實(shí)時(shí)推理的環(huán)境中。2022年,Bui等人[64]提出了一種簡(jiǎn)單的場(chǎng)景坐標(biāo)回歸算法,使用多層感知網(wǎng)絡(luò)映射場(chǎng)景坐標(biāo),為減小模型尺寸,場(chǎng)景坐標(biāo)由稀疏描述符得到,而非RGB圖像像素?cái)?shù)據(jù)。

    3 單通道模型結(jié)構(gòu)方法

    不同于兩階段的場(chǎng)景關(guān)系搭建和相機(jī)位姿解算的位姿估計(jì)流程,單通道模型結(jié)構(gòu)方法將兩個(gè)工作融合進(jìn)一個(gè)神經(jīng)網(wǎng)絡(luò)中,通過(guò)場(chǎng)景數(shù)據(jù)集去訓(xùn)練優(yōu)化一個(gè)神經(jīng)網(wǎng)絡(luò),最終直接輸出估計(jì)的相機(jī)位姿。整個(gè)過(guò)程并不存儲(chǔ)場(chǎng)景中任何幾何關(guān)系,也無(wú)須搭建3D點(diǎn)云模型或圖像數(shù)據(jù)匹配庫(kù)。神經(jīng)網(wǎng)絡(luò)能夠提取數(shù)據(jù)集圖像中的特征,并將其向高維空間映射,最后通過(guò)線性映射層(如全連接FC層)得到位姿估計(jì)。整個(gè)過(guò)程通過(guò)數(shù)據(jù)集給出的相機(jī)位姿真值構(gòu)造損失函數(shù)對(duì)訓(xùn)練過(guò)程進(jìn)行監(jiān)督,使網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)場(chǎng)景信息的學(xué)習(xí)。

    單通道模型結(jié)構(gòu)方法是由一個(gè)整體神經(jīng)網(wǎng)絡(luò)去估計(jì)位姿的,該神經(jīng)網(wǎng)絡(luò)分為學(xué)習(xí)特征的編碼器和對(duì)位姿回歸的解碼器,整體結(jié)構(gòu)如圖5所示。編碼器的輸出是一個(gè)經(jīng)過(guò)學(xué)習(xí)的表示,其中包含了輸入圖像里的重要信息,解碼器對(duì)信息進(jìn)行特定的映射操作,逐步生成最終的位姿輸出。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),對(duì)學(xué)習(xí)過(guò)程中場(chǎng)景信息的使用上,有單一場(chǎng)景圖像信息和混合場(chǎng)景信息的使用,因此將其分為場(chǎng)景圖像信息位姿估計(jì)和場(chǎng)景混合信息位姿估計(jì)。

    在場(chǎng)景圖像信息位姿估計(jì)中,神經(jīng)網(wǎng)絡(luò)使用場(chǎng)景的RGB圖像進(jìn)行網(wǎng)絡(luò)訓(xùn)練,編碼器從輸入圖像中學(xué)習(xí)特征,解碼器回歸相機(jī)位姿。從當(dāng)前的研究現(xiàn)狀可知,在神經(jīng)網(wǎng)絡(luò)的編碼器中添加技術(shù)模塊和網(wǎng)絡(luò)單元,可使神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)圖像特征時(shí)能夠聚焦到局部特征和重要特征,并且能夠降低網(wǎng)絡(luò)計(jì)算復(fù)雜度,進(jìn)而提高網(wǎng)絡(luò)的效率和性能。編碼器學(xué)習(xí)到特征會(huì)將其輸入進(jìn)解碼器中,解碼器會(huì)將學(xué)習(xí)到的特征進(jìn)行映射轉(zhuǎn)換為最終的輸出,解碼器的具體設(shè)計(jì)取決于視覺(jué)任務(wù)的性質(zhì),一般估計(jì)的相機(jī)位姿會(huì)以6DoF表示,使用全連接FC層進(jìn)行特征映射。

    在場(chǎng)景混合信息位姿估計(jì)中,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練不再局限于場(chǎng)景的RGB圖像,場(chǎng)景中的其他信息會(huì)和RGB圖像共同訓(xùn)練網(wǎng)絡(luò),例如場(chǎng)景運(yùn)動(dòng)信息、場(chǎng)景結(jié)構(gòu)信息等。在神經(jīng)網(wǎng)絡(luò)的編碼器中,不僅要考慮高效提取圖像特征,更多地是如何應(yīng)對(duì)多種信息特征的融合或是信息之間的互補(bǔ)。場(chǎng)景混合信息位姿估計(jì)在神經(jīng)網(wǎng)絡(luò)的編碼器中同樣會(huì)有技術(shù)模塊的應(yīng)用,在獲取場(chǎng)景中的其他信息時(shí),會(huì)有相關(guān)算法應(yīng)用于神經(jīng)網(wǎng)絡(luò)中。解碼器的設(shè)計(jì)和場(chǎng)景圖像信息位姿估計(jì)一致,通過(guò)FC層進(jìn)行線性映射。

    3.1 場(chǎng)景圖像信息位姿估計(jì)

    通過(guò)將單個(gè)圖像作為輸入,直接去回歸相機(jī)6DoF,其輸出包括相機(jī)的平移分量和旋轉(zhuǎn)矩陣,僅對(duì)單個(gè)圖像進(jìn)行提取高維特征,最終由線性映射層表示出6維向量。2015年,Kendall等人[13]提出了PoseNet。PoseNet是第一個(gè)通過(guò)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)從單個(gè)RGB圖像中回歸相機(jī)位姿的網(wǎng)絡(luò)模型,使用固定的損失函數(shù)作為對(duì)相機(jī)位姿估計(jì)的監(jiān)督,公式如下:

    l=‖-x‖2+β‖-q‖q‖‖2(15)

    即在網(wǎng)絡(luò)訓(xùn)練過(guò)程中使用固定的超參數(shù)β去計(jì)算水平和角度誤差的加權(quán)和,與特征匹配的方法不同,PoseNet不依賴于手工設(shè)計(jì)特征,推理速度快、占用內(nèi)存小,表現(xiàn)出的魯棒性受到了很多研究人員的關(guān)注。PoseNet是第一個(gè)只通過(guò)神經(jīng)網(wǎng)絡(luò)就可以估計(jì)到相機(jī)位姿的網(wǎng)絡(luò),為了繼續(xù)提高其精度和魯棒性,眾多研究人員對(duì)其進(jìn)行了改進(jìn),目的是能夠通過(guò)單個(gè)圖像就獲得高精度的相機(jī)位姿。

    為應(yīng)對(duì)多個(gè)數(shù)據(jù)集中更換訓(xùn)練場(chǎng)景需重新訓(xùn)練的問(wèn)題。Naseer等人[65]根據(jù)PoseNet提出了一個(gè)分類網(wǎng)絡(luò)的新網(wǎng)絡(luò)SVSPoseNet。SVSPoseNet更換了網(wǎng)絡(luò)骨架,將GoogLeNet替換為VGG16[66],額外的兩個(gè)FC層進(jìn)行6DoF水平和角度預(yù)測(cè),在數(shù)據(jù)集的多個(gè)場(chǎng)景中使用相同參數(shù),不再根據(jù)不同的訓(xùn)練集進(jìn)行超參數(shù)優(yōu)化,減少了網(wǎng)絡(luò)訓(xùn)練時(shí)間,該算法在室外大場(chǎng)景環(huán)境下取得了較好的位姿精度。為增強(qiáng)網(wǎng)絡(luò)的魯棒性,以應(yīng)對(duì)在不同光照條件或運(yùn)動(dòng)模糊等不斷變換場(chǎng)景中精度下降的問(wèn)題,2017年Melekhov等人[67]提出了一種具有沙漏形狀的網(wǎng)絡(luò)Hourglass PoseNet,該網(wǎng)絡(luò)整體由編碼器、解碼器和回歸器組成,通過(guò)向解碼器引入上卷積層以恢復(fù)查詢圖像的細(xì)粒度信息,并補(bǔ)充深度卷積網(wǎng)絡(luò),其中編碼器和解碼器使用了修改后的ResNet34[68],相較于PoseNet,增強(qiáng)擴(kuò)展了原始架構(gòu)。

    在網(wǎng)絡(luò)訓(xùn)練中,固定的損失函數(shù)需要進(jìn)行手動(dòng)調(diào)節(jié)超參數(shù),這樣做會(huì)導(dǎo)致大量的人工成本,網(wǎng)絡(luò)模型性能對(duì)于超參數(shù)β很敏感,且在場(chǎng)景變化過(guò)程中,最佳性能的超參數(shù)β極難尋找。針對(duì)該問(wèn)題,2017年Kendall等人[69]提出了可學(xué)習(xí)的損失函數(shù)。可學(xué)習(xí)損失函數(shù)的超參數(shù)可以跟隨網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程不斷進(jìn)行變化,自動(dòng)學(xué)習(xí)最佳權(quán)重,新的損失函數(shù)使用同方差不確定性[70]來(lái)進(jìn)行表示,能夠?qū)W⒂谌蝿?wù)本身的不確定性,以概率的方式來(lái)聯(lián)合收割不同任務(wù)的損失。該可學(xué)習(xí)損失函數(shù)可添加進(jìn)多種模塊或功能進(jìn)行約束,以得到幾何約束。2019年,Bui等人[71]提出了新的網(wǎng)絡(luò)框架,加入判別器網(wǎng)絡(luò)和對(duì)抗學(xué)習(xí),這樣可以在估計(jì)位姿時(shí)將姿勢(shì)進(jìn)行細(xì)化,網(wǎng)絡(luò)在可學(xué)習(xí)損失函數(shù)加持下性能得到很大提升。目前利用CNN方法已經(jīng)表現(xiàn)出針對(duì)場(chǎng)景變化的可靠性了,但場(chǎng)景中動(dòng)態(tài)環(huán)境依舊是導(dǎo)致模型性能不高和不穩(wěn)定的因素。2019年,Huang等人[72]提出新的框架去解決動(dòng)態(tài)問(wèn)題,引入了預(yù)先引導(dǎo)的dropout模塊和一個(gè)自注意模塊。dropout模塊回歸時(shí)可輸出多個(gè)假設(shè),對(duì)動(dòng)態(tài)環(huán)境中動(dòng)態(tài)對(duì)象的不確定性進(jìn)行量化,從而提高魯棒性,自注意模塊能夠讓網(wǎng)絡(luò)忽略前景對(duì)象的干擾,專注于背景中的關(guān)鍵地標(biāo),以提升網(wǎng)絡(luò)估計(jì)精度。在利用單圖像進(jìn)行估計(jì)位姿時(shí),會(huì)有較多離群值,通過(guò)添加幾何約束能夠改善此問(wèn)題,研究人員通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),注意力機(jī)制對(duì)于提高估計(jì)精度、減小離群值也有很大的作用。2020年,Wang等人[73]提出一種自注意力引導(dǎo)的神經(jīng)網(wǎng)絡(luò)AtLoc,能夠在訓(xùn)練過(guò)程中專注于幾何上更為健壯有用的特征。AtLoc使用可學(xué)習(xí)的損失函數(shù),在網(wǎng)絡(luò)骨架上使用ResNet34作為編碼器網(wǎng)絡(luò),使得模型在輸入僅為單圖像時(shí),也能夠?qū)W習(xí)到更為魯棒的對(duì)象特征。

    當(dāng)前網(wǎng)絡(luò)模型的性能體現(xiàn)主要由數(shù)據(jù)集進(jìn)行評(píng)估,數(shù)據(jù)集中不同場(chǎng)景分開(kāi)進(jìn)行訓(xùn)練和評(píng)估,不同場(chǎng)景之間做遷移會(huì)導(dǎo)致精度嚴(yán)重下降,這對(duì)模型的泛化是一個(gè)很大的挑戰(zhàn)。Chidlovskii等人[74]提出了APANet,通過(guò)添加對(duì)抗學(xué)習(xí)來(lái)表示模型的遷移,同時(shí)修改分類領(lǐng)域的自適應(yīng)技術(shù),并將其加進(jìn)位姿估計(jì)網(wǎng)絡(luò)中,驗(yàn)證場(chǎng)景不變的圖像表示。為進(jìn)一步提升模型的泛化能力,2021年,Sarlin等人[75]提出PixLoc,通過(guò)輸入查詢圖像和場(chǎng)景3維模型,即可輸出得到圖像對(duì)應(yīng)相機(jī)位姿。PixLoc將相機(jī)位姿問(wèn)題轉(zhuǎn)換為度量學(xué)習(xí),端到端地學(xué)習(xí)了像素到位姿的數(shù)據(jù)先驗(yàn),算法著重于表征學(xué)習(xí),讓網(wǎng)絡(luò)很好地理解幾何原則并魯棒地應(yīng)對(duì)場(chǎng)景變化,固定LM優(yōu)化算法的參數(shù)可以使數(shù)據(jù)和優(yōu)化器解耦,達(dá)到與場(chǎng)景結(jié)構(gòu)無(wú)關(guān)適用于任何場(chǎng)景的效果,從而提升泛化能力。2022年,Chen等人[76]提出DFNet,引入一種比之前光度匹配更具健壯性的直接匹配方法,并與絕對(duì)姿態(tài)回歸結(jié)合,彌補(bǔ)真實(shí)圖像和合成圖像之間的特征級(jí)領(lǐng)域差距,在曝光自適應(yīng)的新視圖合成(NVS)的支持下,成功解決了室外環(huán)境中現(xiàn)有光度基準(zhǔn)方法無(wú)法處理的光度畸變問(wèn)題。該文還介紹了一種數(shù)據(jù)生成策略,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)軌跡進(jìn)行擴(kuò)充,使其對(duì)未知數(shù)據(jù)有了更好的泛化性。場(chǎng)景圖像信息位姿估計(jì)模型對(duì)比如圖6所示。

    3.2 場(chǎng)景混合信息位姿估計(jì)

    以往的方法在估計(jì)位姿時(shí),網(wǎng)絡(luò)模型僅根據(jù)場(chǎng)景圖像進(jìn)行訓(xùn)練和估計(jì)位姿,主要依賴輸入的圖像信息,但場(chǎng)景中所包含的信息并不單只有圖像中的特征,還有幾何信息(如視覺(jué)里程計(jì)[77~79])和結(jié)構(gòu)信息(如語(yǔ)義信息[80,81])等,僅使用圖像特征并不能充分利用場(chǎng)景中的信息。因此,很多研究人員在估計(jì)位姿網(wǎng)絡(luò)中添加了場(chǎng)景其他信息,目的是通過(guò)輔助任務(wù)約束[82~84]以減小位姿誤差,提高精度和魯棒性。

    2018年,Valada等人[85]提出了VLocNet,在位姿估計(jì)網(wǎng)絡(luò)中添加了幾何信息-視覺(jué)里程計(jì)作為輔助信息,以兩張序列圖像作為輸入,通過(guò)暹羅網(wǎng)絡(luò)對(duì)視覺(jué)里程計(jì)進(jìn)行回歸,使用可學(xué)習(xí)的損失函數(shù)進(jìn)行約束,并和全局損失函數(shù)進(jìn)行整合,以達(dá)到對(duì)整體網(wǎng)絡(luò)進(jìn)行約束,實(shí)驗(yàn)表明,位姿精度有了很大的提升。同年,該作者團(tuán)隊(duì)在文獻(xiàn)[85]的基礎(chǔ)上提出VLocNet++[86],在估計(jì)相機(jī)位姿網(wǎng)絡(luò)中添加了場(chǎng)景結(jié)構(gòu)信息,即場(chǎng)景的語(yǔ)義信息,提出自監(jiān)督扭曲技術(shù)以學(xué)習(xí)一致的語(yǔ)義信息,對(duì)于各個(gè)任務(wù)之間的依賴性提出了自適應(yīng)融合層,以進(jìn)行彼此之間的調(diào)節(jié),新的可學(xué)習(xí)損失函數(shù)將估計(jì)位姿、視覺(jué)里程計(jì)、語(yǔ)義結(jié)合在一起進(jìn)行網(wǎng)絡(luò)約束。實(shí)驗(yàn)結(jié)果表明,VlocNet++在感知變化、重復(fù)結(jié)構(gòu)和無(wú)紋理變化的場(chǎng)景中,表現(xiàn)出了很好的性能和魯棒性。在估計(jì)位姿的網(wǎng)絡(luò)中添加視覺(jué)里程計(jì)信息是提升精度的重要手段,且視覺(jué)里程計(jì)信息是場(chǎng)景中重要的幾何信息,但目前視覺(jué)里程計(jì)信息在預(yù)測(cè)時(shí)仍存在軌跡漂移現(xiàn)象。2019年,Lin等人[87]提出了DGRNet,該網(wǎng)絡(luò)可實(shí)現(xiàn)對(duì)視覺(jué)里程計(jì)進(jìn)行精準(zhǔn)預(yù)測(cè),并能夠和位姿估計(jì)網(wǎng)絡(luò)進(jìn)行融合。該方法在估計(jì)視覺(jué)里程計(jì)網(wǎng)絡(luò)和相機(jī)位姿網(wǎng)絡(luò)中均使用了LSTM單元,能夠挖掘長(zhǎng)距離圖像之間的關(guān)系,并存儲(chǔ)過(guò)去幾幀預(yù)測(cè)的相機(jī)位姿數(shù)據(jù),以減少視覺(jué)里程計(jì)軌跡漂移和提高位姿的估計(jì)精度,并使用CTC loss+MSE對(duì)整個(gè)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。

    2020年,Tian等人[88]在估計(jì)相機(jī)位姿時(shí)引入了三維場(chǎng)景幾何感知約束,進(jìn)一步融合了3D場(chǎng)景幾何信息,通過(guò)利用深度圖將約束公式化為光度差和SSIM。相比之下,3D場(chǎng)景幾何約束是像素級(jí)的,可以在估計(jì)位姿時(shí)利用更多的信息,包括相機(jī)運(yùn)動(dòng)、三維結(jié)構(gòu)和光度信息,在預(yù)測(cè)精度和收斂性能上都有明顯的提高。2021年,Chen等人[89]提出了語(yǔ)義信息增強(qiáng)的全局檢索方法,使用語(yǔ)義修復(fù)網(wǎng)絡(luò)(SI-GAN)將場(chǎng)景中動(dòng)態(tài)語(yǔ)義圖像轉(zhuǎn)換為完整的靜態(tài)對(duì)象,并使用SME將修復(fù)后的靜態(tài)語(yǔ)義圖像分割嵌入,生成語(yǔ)義檢索的歸一化向量。SI-GAN能夠減輕場(chǎng)景元素前后遮擋所造成的邊緣信息弱化問(wèn)題。最后將語(yǔ)義檢索和RGB圖像相結(jié)合,該方法在場(chǎng)景復(fù)雜、光照變化強(qiáng)的環(huán)境中有很好的性能表現(xiàn)。

    3.3 深度學(xué)習(xí)模型對(duì)比分析

    本節(jié)匯總了場(chǎng)景圖像信息位姿估計(jì)和場(chǎng)景混合信息位姿估計(jì)中的部分模型,對(duì)比了模型的網(wǎng)絡(luò)骨架(編碼器+解碼器)、損失函數(shù)類型、損失函數(shù)等,如表2所示。

    對(duì)于神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)骨架的選擇對(duì)特征的提取能力影響很大,深層網(wǎng)絡(luò)相較于淺層網(wǎng)絡(luò)表現(xiàn)更為出色。同時(shí)損失函數(shù)對(duì)于模型訓(xùn)練的約束是相當(dāng)重要的,設(shè)計(jì)合理的損失函數(shù)也是提高精度的重要手段。很多研究人員根據(jù)模型應(yīng)用的場(chǎng)景特性和表現(xiàn)出的缺點(diǎn),為模型添加技術(shù)模塊和網(wǎng)絡(luò)單元,不僅能夠解決網(wǎng)絡(luò)相關(guān)問(wèn)題,還能提升整體模型的魯棒性或泛化能力。

    4 性能對(duì)比分析

    前兩章總結(jié)性描述了近幾年的代表性方法,對(duì)兩階段模型結(jié)構(gòu)方法和單通道模型結(jié)構(gòu)方法進(jìn)行分析。依賴2D點(diǎn)和3D模型匹配的方法在相機(jī)位姿估計(jì)中已經(jīng)應(yīng)用得很成熟了。為應(yīng)對(duì)復(fù)雜場(chǎng)景和重復(fù)紋理的環(huán)境,深度學(xué)習(xí)成為了當(dāng)前解決該問(wèn)題的熱點(diǎn)方法。為了能夠比較上述方法,總結(jié)了它們?cè)诠_(kāi)數(shù)據(jù)集7Scenes和Cambridge Landmarks上的性能表現(xiàn)數(shù)據(jù),其中數(shù)據(jù)表示為相機(jī)位置的水平誤差(m)和相機(jī)姿態(tài)的角度誤差(°),如表3和4所示。

    4.1 模型解算方法對(duì)比

    兩階段模型結(jié)構(gòu)方法通過(guò)對(duì)特征點(diǎn)的匹配關(guān)系或3D場(chǎng)景中像素坐標(biāo)進(jìn)行解算,以確定相機(jī)在世界坐標(biāo)系中的位置和方向。兩階段方法在位姿解算的方法使用上層出不窮,目前使用頻率較多的方法有2D匹配對(duì)極幾何中的矩陣方法(本質(zhì)矩陣和單應(yīng)矩陣)以及3D-2D匹配求解的PnP等,這些解算方法在求解位姿時(shí)搭配相關(guān)算法以提升精度,例如BA調(diào)整、RANSAC等方法。對(duì)極幾何的矩陣方法中,本質(zhì)矩陣對(duì)于強(qiáng)幾何約束和視角小的相機(jī)位姿估計(jì)有很強(qiáng)的適用性,這兩種情況一般會(huì)發(fā)生于靜態(tài)場(chǎng)景中,靜態(tài)場(chǎng)景能夠通過(guò)三角化獲取到精確的三維結(jié)構(gòu),因此該方法對(duì)于穩(wěn)定精確的幾何關(guān)系有較為出色的可解釋性,但在動(dòng)態(tài)場(chǎng)景或場(chǎng)景運(yùn)動(dòng)信息豐富的情況下,該解算方法并不適用,且該方法對(duì)場(chǎng)景中的噪聲和物體遮擋相當(dāng)敏感。單應(yīng)矩陣解算相機(jī)位姿需要大量匹配的特征點(diǎn),這對(duì)于模型效率和實(shí)時(shí)性來(lái)說(shuō)并不友好,但單應(yīng)矩陣在解算平面場(chǎng)景的相機(jī)位姿時(shí)表現(xiàn)出色,同樣該方法易受噪聲和異常值的影響,目前使用一些魯棒方法去改善此情況,例如使用RANSAC剔除匹配中的離群值和異常值來(lái)提高解算相機(jī)位姿精度。

    利用坐標(biāo)回歸算法去估計(jì)相機(jī)位姿,通常使用PnP方法去解算位姿。PnP在已知一張3D特征點(diǎn)的情況下,只需3個(gè)點(diǎn)就可以解算相機(jī)位姿。因此,PnP方法簡(jiǎn)單且直接,特別適用于少量特征點(diǎn)的情況,并對(duì)噪聲和遮擋相對(duì)魯棒。PnP求解還有直接線性變換DTL方法,通過(guò)已知的空間坐標(biāo)和歸一化坐標(biāo)直接求解相機(jī)的位姿。目前,還可以把PnP構(gòu)建成一個(gè)重投影誤差的非線性最小二乘問(wèn)題,利用BA調(diào)整,將相機(jī)位姿和3D點(diǎn)位置看作優(yōu)化變量進(jìn)行優(yōu)化,這樣能夠?qū)θ诌M(jìn)行優(yōu)化,綜合考慮到多個(gè)視角和特征點(diǎn),非線性的方法使PnP可以處理大規(guī)模場(chǎng)景和大量特征點(diǎn)。

    單通道模型結(jié)構(gòu)方法在解算相機(jī)位姿時(shí),并不使用具體的解算算法,主要利用神經(jīng)網(wǎng)絡(luò)中的解碼器進(jìn)行估計(jì)。解算相機(jī)位姿的解碼器結(jié)構(gòu)較為簡(jiǎn)單,通常利用全連接FC層進(jìn)行位姿映射,F(xiàn)C層中的神經(jīng)元與前一層的所有神經(jīng)元相連接,將上一層網(wǎng)絡(luò)的特征數(shù)據(jù)作為其輸入,以進(jìn)行整合分類,最終直接輸出相機(jī)位姿。利用FC層解算出的相機(jī)位姿精度主要受神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力的影響,因此,如何提高神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到更為魯棒的場(chǎng)景特征,才是提升相機(jī)位姿精度的主要途徑。

    兩階段模型結(jié)構(gòu)方法在解算上依賴于場(chǎng)景匹配的特征點(diǎn),對(duì)于紋理豐富、有明顯特征的場(chǎng)景效果較好,單通道方法通過(guò)大規(guī)模數(shù)據(jù)學(xué)習(xí)更復(fù)雜的圖像表示,在解算一些缺乏明顯特征的場(chǎng)景也具有較強(qiáng)的適應(yīng)性。目前,兩種模型結(jié)構(gòu)中所使用的解算方法在多種場(chǎng)景中仍具有很大的應(yīng)用需求。

    4.2 模型性能分析對(duì)比

    從表3、4可以得出,坐標(biāo)回歸加解算的DSAC*精度是最好的。通過(guò)分類方法之間的對(duì)比,場(chǎng)景關(guān)系搭建階段使用的3D坐標(biāo)回歸的方法,在精度上優(yōu)于其他方法,并且在進(jìn)行估計(jì)相機(jī)位姿時(shí),使用場(chǎng)景中其他信息,會(huì)進(jìn)一步提升精度。DSAC++和DSAC*在估計(jì)位姿過(guò)程中會(huì)自動(dòng)發(fā)現(xiàn)場(chǎng)景中的幾何信息,并利用該幾何信息提升位姿精度。使用場(chǎng)景中的其他信息是提升精度的常用做法,同時(shí)也是一種發(fā)展趨勢(shì)。單通道模型結(jié)構(gòu)方法中,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中融合場(chǎng)景其他信息,精度都有較大的提升。VLocNet和DGRNet在網(wǎng)絡(luò)中融合視覺(jué)里程計(jì)信息,讓場(chǎng)景里元素前后變化在網(wǎng)絡(luò)中能夠更好地表達(dá)。VLocNet++在融合視覺(jué)里程計(jì)的基礎(chǔ)上加入了豐富的語(yǔ)義信息,在元素前后變化的軌跡上注意到輪廓邊緣結(jié)構(gòu),以提升場(chǎng)景在模型中的信息利用率,其估計(jì)位姿的精度與DSAC*性能相當(dāng)。KFNet和DSM通過(guò)將回歸3D場(chǎng)景坐標(biāo)的問(wèn)題引入到時(shí)域里,估計(jì)的位姿在角度誤差上降低了很多,角度誤差達(dá)到SOAT。

    場(chǎng)景坐標(biāo)回歸方法在室內(nèi)有很好的表現(xiàn),但在大場(chǎng)景戶外環(huán)境中表現(xiàn)不佳,盡管CrossLoc在泛化性上有了很大的改進(jìn),但大量的計(jì)算令其犧牲了實(shí)時(shí)性。模型良好的泛化性能夠應(yīng)對(duì)未知和不斷變化的場(chǎng)景。在場(chǎng)景關(guān)系搭建階段,基于圖像檢索的方法展現(xiàn)了較為突出的泛化能力,由于不建立3D場(chǎng)景模型,圖像檢索的方法能較好地實(shí)現(xiàn)遷移學(xué)習(xí),被查詢的圖像數(shù)據(jù)庫(kù)是龐大的,其預(yù)訓(xùn)練的模型可以在特定任務(wù)的小規(guī)模數(shù)據(jù)上進(jìn)行微調(diào),以應(yīng)對(duì)新的場(chǎng)景。表現(xiàn)較好的方法如HF-Net,在召回率上有很好的表現(xiàn)(見(jiàn)圖7),該方法同時(shí)對(duì)局部特征和全局描述符進(jìn)行預(yù)測(cè),實(shí)現(xiàn)了高精度定位,由粗到細(xì)的分層結(jié)構(gòu)節(jié)省了運(yùn)行時(shí)間,在大場(chǎng)景上有良好的實(shí)時(shí)性表現(xiàn)。其中由粗到細(xì)的分層結(jié)構(gòu)方法通過(guò)逐漸減小搜索空間,讓場(chǎng)景在模型中表達(dá)出更為精細(xì)的信息,不僅結(jié)合了全局和局部信息,還防止大規(guī)模場(chǎng)景在變化過(guò)程中信息混淆和丟失的問(wèn)題。使用該分層結(jié)構(gòu)的方法還有CamNet、HSC-Net等模型,在7Scenes和Cambridge Landmarks數(shù)據(jù)集上表現(xiàn)良好。分層結(jié)構(gòu)的優(yōu)點(diǎn)不僅滿足較好的位姿精度,而且很容易推廣到大規(guī)模戶外場(chǎng)景中。

    單通道模型的性能表現(xiàn)能力受網(wǎng)絡(luò)骨架和損失函數(shù)影響較大,網(wǎng)絡(luò)骨架的選擇和設(shè)計(jì)會(huì)直接影響整體模型的特征提取能力、表示能力以及運(yùn)算效率。當(dāng)前較多模型會(huì)選擇ResNet系列作為模型的網(wǎng)絡(luò)骨架,像Hourglass PoseNet、AtLoc、APANet等模型在編碼器結(jié)構(gòu)上使用了ResNet系列,在加深網(wǎng)絡(luò)層數(shù)以提高特征提取能力的同時(shí),ResNet能夠緩解梯度消失問(wèn)題和提高網(wǎng)絡(luò)收斂速度。損失函數(shù)直接反映出模型估計(jì)位姿與相機(jī)真值之間的差異,是模型優(yōu)化的目標(biāo)函數(shù)。傳統(tǒng)的損失函數(shù)需要微調(diào)超參數(shù)β,費(fèi)時(shí)費(fèi)力。PoseNet2提出了一種新的令超參數(shù)擁有學(xué)習(xí)能力的損失函數(shù),不再進(jìn)行手動(dòng)調(diào)節(jié),PoseNet2在新的損失函數(shù)里加入幾何約束,其表現(xiàn)出的性能相較于PoseNet有一定的提升。VLocNet和VLocNet++同樣使用該可學(xué)習(xí)損失函數(shù),在損失函數(shù)里加入了場(chǎng)景幾何約束和結(jié)構(gòu)約束進(jìn)行監(jiān)督,模型均表現(xiàn)出較好的結(jié)果。

    5 結(jié)束語(yǔ)

    1)挑戰(zhàn)

    通過(guò)對(duì)現(xiàn)有方法的研究和分析,相機(jī)進(jìn)行位姿估計(jì)時(shí),已不再局限于場(chǎng)景的RGB圖像數(shù)據(jù),融合場(chǎng)景的其他信息成為了主流,目的都是在提高場(chǎng)景信息利用率的同時(shí)提高精度。在滿足魯棒性的前提下,泛化性也是一個(gè)重要的模型性能,因此近幾年很多研究人員在泛化性上努力著。當(dāng)前相機(jī)位姿估計(jì)仍存在很多挑戰(zhàn):

    a)視覺(jué)特征匹配。準(zhǔn)確的相機(jī)位姿估計(jì)需要進(jìn)行準(zhǔn)確的特征匹配,但在復(fù)雜場(chǎng)景、低紋理區(qū)域或遮擋情況下,特征匹配可能變得困難。

    b)魯棒性。相機(jī)位姿估計(jì)需要在不同的環(huán)境條件下保持魯棒性,包括光照變化、動(dòng)態(tài)物體和噪聲等因素的干擾。

    c)尺度歧義。單個(gè)圖像無(wú)法提供絕對(duì)尺度信息,因此需要結(jié)合其他傳感器或利用先驗(yàn)知識(shí)來(lái)解決尺度歧義問(wèn)題。

    d)實(shí)時(shí)性。許多應(yīng)用場(chǎng)景需要實(shí)時(shí)的相機(jī)位姿估計(jì),因此需要在保持準(zhǔn)確性的同時(shí),保持較低的計(jì)算時(shí)間。

    2)展望

    a)深度學(xué)習(xí)方法。深度學(xué)習(xí)模型在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了巨大成功,將深度學(xué)習(xí)引入相機(jī)位姿估計(jì)任務(wù)可以進(jìn)一步提高性能和魯棒性。未來(lái)深度學(xué)習(xí)模型能夠更好地處理復(fù)雜、動(dòng)態(tài)的場(chǎng)景,包括城市環(huán)境、人群密集區(qū)域等。這將為實(shí)際應(yīng)用提供更多的可能性,尤其是在復(fù)雜環(huán)境中需要準(zhǔn)確估計(jì)相機(jī)位姿的場(chǎng)景下。

    b)多傳感器融合。結(jié)合多個(gè)傳感器(如慣性測(cè)量單元、GPS、激光雷達(dá)、視覺(jué)等)的數(shù)據(jù),不同傳感器對(duì)環(huán)境的感知方式各異,綜合利用這些信息可以獲得更全面的環(huán)境感知,僅單目相機(jī)傳感器的RGB圖像數(shù)據(jù)并不能包含場(chǎng)景太多的信息,多傳感器獲取場(chǎng)景數(shù)據(jù)進(jìn)行融合能夠降低某一傳感器對(duì)系統(tǒng)性能的影響,提高系統(tǒng)的魯棒性。同時(shí),通過(guò)融合多源信息,可以更好地抑制傳感器噪聲和誤差,提高位姿估計(jì)的穩(wěn)定性,并解決尺度歧義問(wèn)題。目前多傳感器數(shù)據(jù)融合需要克服數(shù)據(jù)異構(gòu)特性的挑戰(zhàn),因此該領(lǐng)域的主要工作集中在融合方法上,在前融合階段和后融合階段有很多研究。前融合階段對(duì)于多種傳感器數(shù)據(jù)融合方法眾多,對(duì)于不同信息處理方法各異,例如語(yǔ)義信息和點(diǎn)云數(shù)據(jù)的拼接操作,或是RGB圖像和激光點(diǎn)云進(jìn)行特征圖分層融合,同樣也有設(shè)置參數(shù)權(quán)重對(duì)特征值按比例融合,控制不同傳感器數(shù)據(jù)的貢獻(xiàn)率。后融合有匈牙利匹配和卡爾曼濾波等方法,此處融合在獲得傳感器的輸出后,就可以在觀測(cè)層面進(jìn)行融合,例如使用卡爾曼濾波對(duì)相機(jī)和雷達(dá)獲取數(shù)據(jù)進(jìn)行融合。當(dāng)前使用多種傳感器信息去提高相機(jī)位姿估計(jì)精度是重要的一種技術(shù)途徑。

    c)語(yǔ)義信息融合。語(yǔ)義信息是通過(guò)RGB圖像獲取的,包含了場(chǎng)景中物體元素的邊緣信息,同時(shí)也蘊(yùn)涵了物體元素之間的相對(duì)關(guān)系、布局結(jié)構(gòu),能夠?yàn)槟P凸烙?jì)相機(jī)位姿提供更多的幾何約束,因此語(yǔ)義信息的引入為相機(jī)位姿估計(jì)的準(zhǔn)確性、魯棒性和應(yīng)用范圍提供了更多可能性。然而,這也帶來(lái)了挑戰(zhàn),包括如何有效融合語(yǔ)義信息、處理復(fù)雜場(chǎng)景、解決不平衡類別和實(shí)時(shí)性等方面的問(wèn)題。未來(lái)的研究將集中在解決這些挑戰(zhàn),并進(jìn)一步推動(dòng)相機(jī)位姿估計(jì)技術(shù)的發(fā)展。

    d)自適應(yīng)方法。開(kāi)發(fā)自適應(yīng)的相機(jī)位姿估計(jì)方法,可以根據(jù)場(chǎng)景和任務(wù)的特點(diǎn),自動(dòng)調(diào)整算法參數(shù)和策略,能夠提高模型魯棒性、實(shí)現(xiàn)多模態(tài)融合、優(yōu)化實(shí)時(shí)性和效率,引入在線學(xué)習(xí)和遷移學(xué)習(xí),以及環(huán)境感知和交互性,增強(qiáng)模型的性能和泛化能力。

    e)增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)。相機(jī)位姿估計(jì)在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中具有重要作用,例如導(dǎo)航、教育、醫(yī)療、文化、手勢(shì)識(shí)別以及場(chǎng)景還原等。未來(lái)將聚焦于提高位姿估計(jì)的精度和實(shí)時(shí)性,以提供更逼真和流暢的增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)體驗(yàn)。

    參考文獻(xiàn):

    [1]Durrantwhyte H, Bailey T. Simultaneous localization and mapping[J]. IEEE Robotics & Automation Magazine, 2006,13(2): 99-110.

    [2]Middelberg S, Sattler T, Untzelmann O, et al. Scalable 6-DoF loca-lization on mobile devices[C]//Proc of European Conference on Computer Vision. Cham:Springer,2014:268-283.

    [3]Ventura J, Arth C, Reitmayr G, et al. Global localization from monocular slam on a mobile phone[J]. IEEE Trans on Visualization and Computer Graphics, 2014, 20(4): 531-539.

    [4]Kim K, Kim C, Jang C, et al. Deep learning-based dynamic object classification using LiDAR point cloud augmented by layer-based accumulation for intelligent vehicles[J]. Expert Systems with Applications, 2021,167: 113861.

    [5]Zermas D, Izzat I, Papanikolopoulos N. Fast segmentation of 3D point clouds: a paradigm on LiDAR data for autonomous vehicle app-lications[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE Press, 2017: 5067-5073.

    [6]Yu Tan, Meng Jingjing, Yuan Junson. Multiview harmonized bilinear network for 3D object recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018:186-194.

    [7]Siddharth C, Narayanan P. Visibility probability structure from SfM datasets and applications[C]//Proc of European Conference on Computer Vision. Berlin:Springer, 2012: 130-143.

    [8]Irschara A, Zach C, Frahm J M, et al. From structure-from-motion point clouds to fast location recognition[C]//Proc of IEEE Computer Society Conference.Piscataway, NJ: IEEE Press,2009:2599-2606.

    [9]Gao Xiaoshan, Hou Xiaorong, Tang Jingliang, et al. Complete solution classification for the perspective-three-point problem[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2003, 25(8): 930-943.

    [10]Radenovic F, Tolias G, Chum O. CNN image retrieval learns from BoW: unsupervised fine-tuning with hard examples[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:3-20.

    [11]Qiang Hao, Rui Cai, Zhi Weili, et al. 3D visual phrases for landmark recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2012: 214-223.

    [12]王靜, 金玉楚, 郭蘋(píng), 等. 基于深度學(xué)習(xí)的相機(jī)位姿估計(jì)方法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(7): 1-14. (Wang Jing, Jin Yuchu, Guo Ping, et al. Survey of camera pose estimation methods based on deep learning[J]. Computer Engineering and Applications, 2023, 59(7): 1-14.)

    [13]Kendall A, Grimes M, Cipolla R. PoseNet: a convolutional network for real-time 6-DoF camera relocalization[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press, 2015: 2938-2946.

    [14]陳宗海, 裴浩淵, 王紀(jì)凱, 等. 基于單目相機(jī)的視覺(jué)重定位方法綜述[J]. 機(jī)器人, 2021, 43(3): 373-384. (Chen Zonghai, Pei Haoyuan, Wang Jikai, et al. Survey of monocular camera based visual relocalization[J]. Robot, 2021, 43(3): 373-384.)

    [15]Shavit Y, Ferens R. Introduction to camera pose estimation with deep learning[EB/OL]. (2019-07-08). https://arxiv.org/abs/1907.05272.

    [16]Wu Zhirong, Song Shuran, Khosla A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 1912-1920.

    [17]Kalogerakis E, Averkiou M, Maji S, et al. 3D shape segmentation with projective convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 3779-3788.

    [18]Riegler G, Osman U A, Geiger A. OctNet: learning deep 3D representations at high resolutions[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 3577-3586.

    [19]Klokov R, Lempitsky V. Escape from cells: deep Kd-networks for the recognition of 3D point cloud models[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 863-872.

    [20]Su Hang, Maji S, Kalogerakis E, et al. Multiview convolutional neural networks for 3D shape recognition[C]//Proc of IEEE Internatio-nal Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 945-953.

    [21]Ma Chao, Guo Yulan, Yang Jungang, et al. Learning multiview representation with LSTM for 3D shape recognition and retrieval[J]. IEEE Trans on Multimedia, 2018, 21(5): 1169-1182.

    [22]Hartley R, Zisserman A. Multiple view geometry in computer vision[M]. Cambridge: Cambridge University Press, 2003.

    [23]Glocker B, Izadi S, Shotton J, et al. Realtime RGB-D camera relocalization[C]//Proc of IEEE International Symposium on Mixed and Augmented Reality. Piscataway,NJ:IEEE Press, 2013: 173-179.

    [24]Maddern W, Pascoe G, Linegar C, et al. 1 year, 1000 km: the Oxford RobotCar dataset[J]. International Journal of Robotics Research, 2017,36(1): 3-15.

    [25]Huang Xinyu, Wang Peng, Cheng Xinjing, et al. The ApolloScape open dataset for autonomous driving and its application[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2019, 42(10): 2702-2719.

    [26]Taira H, Okutomi M, Sattler T, et al. InLoc: indoor visual localization with dense matching and view synthesis[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 7199-7209.

    [27]Sattler T, Maddern W, Toft C, et al. Benchmarking 6DoF outdoor visual localization in changing conditions[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 8601-8610.

    [28]Walch F, Hazirbas C, Leal-Taixe L, et al. Image-based localization using LSTMs for structured feature correlation[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2017: 627-637.

    [29]Valentin J, Dai A, Niener M, et al. Learning to navigate the energy landscape[C]//Proc of the 4th International Conference on 3D Vision. Piscataway,NJ:IEEE Press, 2016: 323-332.

    [30]Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 6-8.

    [31]Fischler M A, Bolles R C. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography[J].Communications of the ACM, 1981,24(6):381-395.

    [32]Dániel B, Noskova J, Matas J. MAGSAC: marginalizing sample consensus[C]//Proc of Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 10197-10205.

    [33]Lebeda K, Matas J, Chum O. Fixing the locally optimized RANSAC[C]//Proc of British Machine Vision Conference. 2012.

    [34]Philbin J, Chum O, Isard M, et al. Lost in quantization:improving particular object retrieval in large scale image databases[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2008: 1-8.

    [35]Sattler T, Havlena M, Radenovic F, et al. Hyperpoints and fine vocabularies for large scale location recognition[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2015: 2102-2110.

    [36]Mikulik A, Perdoch M, Ondrˇej C, et al. Learning vocabularies over a fine quantization[J]. International Journal of Computer Vision, 2013, 103(1): 163-175.

    [37]Liu Liu, Li Hongdong, Dai Yuchao. Efficient global 2D-3D matching for camera localization in a larges-cale 3D map[C]//Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2017: 2372-2381.

    [38]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60: 91-110.

    [39]Bay H, Ess A, Tuytelaars T, et al. Speededup robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.

    [40]DeTone D, Malisiewicz T, Rabinovich A. SuperPoint: self-supervised interest point detection and description[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ:IEEE Press, 2018: 224-236.

    [41]Tian Yurun, Yu Xin, Fan Bin, et al. SoSNet: second order similarity regularization for local descryiptor learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 11008-11017.

    [42]Cho M, Lee J, Lee K M. Reweighted random walks for graph matching[C]//Proc of the 11th European Conference on Computer Vision. Berlin:Springer, 2010: 492-505.

    [43]Cho M, Lee K M. Progressive graph matching: making a move of graphs via probabilistic voting[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2012: 398-405.

    [44]Wang Qianqian, Zhou Xiaowei, Hariharan B, et al. Learning feature descriptors using camera pose supervision[C]//Proc of European Conference on Computer Vision.Berlin: Springer, 2020: 757-774.

    [45]Dusmanu M, Rocco I, Pajdla T, et al. D2-Net: a trainable CNN for joint description and detection of local features[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 8092-8101.

    [46]Luo Zixin, Zhou Lei, Bai Xuyang, et al. ASLFeat: learning local features of accurate shape and localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2020: 6589-6598.

    [47]Tian Yuren, Balntas V, Ng T, et al. D2D: keypoint extraction with describe to detect approach[C]//Proc of the 15th Asian Conference on Computer Vision.Berlin:Springer, 2020:223-240.

    [48]Kesorn K, Poslad S. An enhanced bag of visual word vector space model to represent visual content in athletics images[J]. IEEE Trans on Multimedia, 2011, 14(1): 211-222.

    [49]Amato G, Bolettieri P, Falchi F, et al. Large scale image retrieval using vector of locally aggregated descriptors[C]//Proc of Similarity Search and Applications: 6th International Conference. 2013: 245-256.

    [50]Revaud J, Almazán J, Rezende R S, et al. Learning with average precision: training image retrieval with a listwise loss[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2019: 5107-5116.

    [51]Teichmann M, Araujo A, Zhu Menglong, et al. Detect-to-retrieve: efficient regional aggregation for image search[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 5109-5118.

    [52]Husain S S, Bober M. REMAP: multi-layer entropy-guided pooling of dense CNN features for image retrieval[J]. IEEE Trans on Image Processing, 2019, 28(10): 5201-5213.

    [53]Sarlin P E, Cadena C, Siegwart R, et al. From coarse to fine: robust hierarchical localization at large scale[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019: 12708-12717.

    [54]Zhou Qunjie, Sattler T, Pollefeys M, et al. To learn or not to learn: visual localization from essential matrices[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2022: 3319-3326.

    [55]Brachmann E, Krull A, Nowozin S. et al. DSAC-differentiable RANSAC for camera localization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 6684-6692.

    [56]Brachmann E, Rother C. Learning less is more-6D camera localization via 3D surface regression[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 4654-4662.

    [57]Cai Ming, Zhan Huangying, Weerasejera W S, et al. Camera relocali-zation by exploiting multi view constraints for scene coordinates regression[C]//Proc of IEEE/CVF International Conference on Computer Vision Workshops. Piscataway,NJ:IEEE Press, 2019: 3769-3777.

    [58]Li Xiaotian, Wang Shuzhe, Zao Yi, et al. Hierarchical scene coordinate classification and regression for visual localization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2020: 11983-11992.

    [59]Zhou Lei, Luo Zixin, Shen Tianwei, et al. KFNet: Learning temporal camera relocalization using Kalman filtering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2020: 4919-4928.

    [60]Tang Shitao, Tang Chengzhou, Huang Rui, et al. Learning camera localization via dense scene matching[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2021: 1831-1841.

    [61]Brachmann E, Rother C. Visual camera relocalization from RGB and RGB-D images using DSAC[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 44(9): 5847-5865.

    [62]Yan Qi, Zheng Jianhao, Reding S, et al. CrossLoc: scalable aerial localization assisted by multi-modal synthetic data[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2022: 17358-17368.

    [63]王靜, 胡少毅, 郭蘋(píng), 等. 改進(jìn)場(chǎng)景坐標(biāo)回歸網(wǎng)絡(luò)的室內(nèi)相機(jī)重定位方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(15): 160-168. (Wang Jing, Hu Shaoyi, Guo Ping. et al. Indoor camera relocation method based on improved scene coordinate regression network[J]. Computer Engineering and Applications, 2023, 59(15): 160-168.)

    [64]Bui T B, Tran D T, Lee J H. Fast and light weight scene regressor for camera relocalization[EB/OL]. (2022).https://arxiv.org/abs/2212. 01830.

    [65]Naseer T, Burgard W. Deep regression for monocular camera-based 6-DoF global localization in outdoor environments[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press, 2017: 1525-1530.

    [66]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014). https://arxiv.org/abs/1409. 1556.

    [67]Melekhov I, Ylioinas J, Kannala J, et al. Image-based localization using hourglass networks[C]//Proc of IEEE International Conference on Computer Vision Workshops. Piscataway,NJ:IEEE Press, 2017: 879-886.

    [68]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 770-778.

    [69]Kendall A, Cipolla R. Geometric loss functions for camera pose regression with deep learning[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2017: 5974-5983.

    [70]Kendall A, Cipolla R. Modelling uncertainty in deep learning for camera relocalization[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2016: 4762-4769.

    [71]Bui M, Baur C, Navab N, et al. Adversarial networks for camera pose regression and refinement[C]//Proc of IEEE/CVF International Conference on Computer Vision Workshops. Piscataway,NJ:IEEE Press, 2019: 3778-3787.

    [72]Huang Zhaoyang, Xu Yan, Shi Jianping, et al. Prior guided dropout for robust visual localization in dynamic environments[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2019: 2791-2800.

    [73]Wang Bing, Chen Changhao, Lu C X, et al. AtLoc: attention guided camera localization[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA:AAAI Press, 2020: 10393-10401.

    [74]Chidlovskii B, Sadek A. Adversarial transfer of pose estimation regression[C]//Proc of European Conference on Computer Vision. Berlin:Springer-Varlag,2020: 646-661.

    [75]Sarlin P E, Unagar A, Larsson M, et al. Back to the feature: lear-ning robust camera localization from pixels to pose[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2021: 3247-3257.

    [76]Chen Shuai, Li Xinghui, Wang Zirui, et al. DFNet: enhance absolute pose regression with direct feature matching[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 1-17.

    [77]Melekhov I, Ylioinas J, Kannala J, et al. Relative camera pose estimation using convolutional neural networks[C]//Proc the 18th International Conference on of Advanced Concepts for Intelligent Vision Systems. Cham:Springer, 2017: 675-687.

    [78]Brahmbhatt S, Gu J, Kim K, et al. Geometry-aware learning of maps for camera localization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 2616-2625.

    [79]Balntas V, Li Shuda, Prisacariu V. RelocNet: continuous metric learning relocalisation using neural nets[C]//Proc of European Conference on Computer Vision.Cham:Springer, 2018: 751-767.

    [80]Rader N, Bausano M, Richards J E. On the nature of the visual-cliff-avoidance response in human infants[J]. Child Development, 1980,51(1): 61-68.

    [81]Toft C, Olsson C, Kahl F. Long-term 3D localization and pose from semantic labellings[C]//Proc of IEEE International Conference on Computer Vision Workshops. Piscataway,NJ:IEEE Press, 2017: 650-659.

    [82]Bilen H, Vedaldi A. Universal representation: the missing link between faces, text, planktons, and cat breeds[EB/OL]. (2017). https://arxiv.org/abs/1701. 07275.

    [83]Yu Bo, Lane I. Multi-task deep learning for image understanding[C]//Proc of the 6th International Conference of Soft Computing and Pattern Recognition. Piscataway,NJ:IEEE Press, 2014: 37-42.

    [84]Rahmatizadeh R, Abolghasemi P, Blni L, et al. Vision-based multi-task manipulation for inexpensive robots using end-to-end lear-ning from demonstration[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2018: 3758-3765.

    [85]Valada A, Radwan N, Burgard W. Deep auxiliary learning for visual localization and odometry[C]//Proc of IEEE International Confe-rence on Robotics and Automation. Piscataway,NJ:IEEE Press, 2018: 6939-6946.

    [86]Radwan N, Valada A, Burgard W. VlocNet+: deep multitask lear-ning for semantic visual localization and odometry[J]. IEEE Robo-tics and Automation Letters, 2018, 3(4): 4407-4414.

    [87]Lin Yimin, Liu Zhaoxiong, Huang Jianfeng, et al. Deep global-relative networks for end-to-end 6-DoF visual localization and odometry[EB/OL]. (2018). https://arxiv.org/abs/1812.07869.

    [88]Tian Mi, Nie Qiong, Shen Hao. 3D scene geometry-aware constraint for camera localization with deep learning[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press, 2020: 4211-4217.

    [89]Chen Hongrui, Xiong Yuan, Wang Jingru, et al. Long term visual localization with semantic enhanced global retrieval[C]//Proc of the 17th International Conference on Mobility, Sensing and Networking. Piscataway,NJ:IEEE Press, 2021: 319-326.

    [90]Ding Mingyu, Wang Zhe, Sun Jiankai, et al. CamNet: coarse-to-fine retrieval for camera relocalization[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press, 2019: 2871-2880.

    竹溪县| 启东市| 互助| 道真| 三江| 常山县| 磴口县| 宁夏| 汨罗市| 五大连池市| 定结县| 松江区| 福建省| 萨嘎县| 嘉善县| 龙胜| 宁夏| 砀山县| 临高县| 拜泉县| 龙泉市| 岳普湖县| 巨野县| 阳高县| 攀枝花市| 高密市| 班玛县| 天镇县| 开江县| 榆林市| 通化市| 农安县| 交城县| 乌鲁木齐市| 永康市| 来安县| 民县| 易门县| 图们市| 城固县| 屏边|