張 星,林 靜,李清泉,劉 濤,方志祥
1. 深圳大學(xué)廣東省城市空間信息工程重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518060; 2. 深圳大學(xué)自然資源部大灣區(qū)地理環(huán)境監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518060; 3. 深圳大學(xué)空間信息智能感知與服務(wù)深圳市重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518060; 4. 河南財(cái)經(jīng)政法大學(xué)資源與環(huán)境學(xué)院,河南 鄭州 450002; 5. 武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079
作為位置服務(wù)(location-based service, LBS)的關(guān)鍵技術(shù)之一,室內(nèi)定位在近年來(lái)引起了工業(yè)界和企業(yè)界的關(guān)注[1-2]。由于遮擋和反射效應(yīng)的影響,衛(wèi)星定位系統(tǒng),如北斗和GPS,在室內(nèi)或地下環(huán)境難以獲取準(zhǔn)確、連續(xù)的定位結(jié)果。在過(guò)去的10年中,各種室內(nèi)定位技術(shù)得到了快速發(fā)展,如Wi-Fi[3-4]、藍(lán)牙[5]、超聲波[6]、射頻識(shí)別(radio frequency identification,RFID)[7]、超寬帶(ultra wide band,UWB)[8]和地磁[9]等。其中,Wi-Fi、RFID等定位技術(shù)由于信號(hào)容易受到室內(nèi)復(fù)雜環(huán)境的干擾,定位精度和穩(wěn)定性存在不足。UWB和藍(lán)牙的定位精度較高,但對(duì)信號(hào)發(fā)射設(shè)備的布設(shè)要求同樣很高,限制了這些技術(shù)的應(yīng)用場(chǎng)景和范圍。
近年來(lái),隨著視覺感知技術(shù)、圖像處理技術(shù)和機(jī)器學(xué)習(xí)理論的發(fā)展,基于圖像視覺信息的位置計(jì)算和場(chǎng)景認(rèn)知技術(shù)受到廣泛關(guān)注[10-12]。視覺定位技術(shù)的主要原理是利用視覺傳感器(如智能手機(jī)的相機(jī))獲取當(dāng)前場(chǎng)景的圖像幀,將圖像幀與帶有地理標(biāo)簽(即具有位置信息)的數(shù)據(jù)庫(kù)圖像進(jìn)行圖像匹配,在匹配結(jié)果中查找匹配程度最高的數(shù)據(jù)庫(kù)圖像(即視覺相似),將其位置信息作為當(dāng)前圖像幀的視覺定位結(jié)果[13-19]。在兩幅圖像的匹配過(guò)程中通常采用圖像特征描述子,例如SIFT(scale-invariant feature transform)[20]、SURF(speeded up robust features)[21]或GIST(generalized search tree)[22],直觀地描述每張圖像的視覺特征,對(duì)這些圖像的描述參數(shù)進(jìn)行匹配,利用匹配結(jié)果評(píng)價(jià)兩幅圖像之間的相似程度。視覺定位的結(jié)果即是相機(jī)當(dāng)前的空間位置或軌跡。文獻(xiàn)[14]通過(guò)衡量當(dāng)前視覺輸入與數(shù)據(jù)庫(kù)圖像匹配的置信度確定最佳匹配結(jié)果。文獻(xiàn)[15—16]利用圖像匹配算法來(lái)識(shí)別照片中的參考對(duì)象,利用環(huán)境參考對(duì)象匹配進(jìn)行室內(nèi)定位。文獻(xiàn)[17—19]構(gòu)建了室內(nèi)圖像數(shù)據(jù)庫(kù)或場(chǎng)景視覺模型,通過(guò)相機(jī)探測(cè)到的視覺特征與室內(nèi)圖像數(shù)據(jù)庫(kù)或視覺模型的匹配進(jìn)行室內(nèi)定位。此外,也有研究通過(guò)SfM(structure from motion)方法實(shí)現(xiàn)相機(jī)軌跡的幾何恢復(fù)和相機(jī)位置的相對(duì)定位[23-24],結(jié)合其他方法確定軌跡的起點(diǎn)位置并消除累積定位誤差。對(duì)于數(shù)據(jù)庫(kù)圖像采集,文獻(xiàn)[24]提出了一種利用眾包軌跡進(jìn)行快速圖像采集及位置標(biāo)注的方法,能夠顯著提高數(shù)據(jù)庫(kù)圖像采集效率。室內(nèi)視覺定位具有定位精度相對(duì)較高、不依賴于額外設(shè)備、成本低等優(yōu)勢(shì)。然而,由于視覺匹配計(jì)算的時(shí)間較長(zhǎng),現(xiàn)有大部分方法只能實(shí)現(xiàn)定點(diǎn)的位置查詢或離線條件下的軌跡計(jì)算,難以實(shí)現(xiàn)高效率的在線視覺連續(xù)定位。如何實(shí)現(xiàn)連續(xù)定位條件下的高效率視覺匹配計(jì)算仍然是一個(gè)重要瓶頸問題。
圖像檢索技術(shù)是提高視覺匹配效率的有效方法,常用的圖像檢索技術(shù)包括詞袋模型 (bag of words)、指數(shù)權(quán)重(vector of locally aggregated descriptor)、感知哈希方法等。其中,詞袋模型通過(guò)統(tǒng)計(jì)單詞直方圖的相似性來(lái)度量圖像相似性,結(jié)合倒排索引等方法能有效減少圖像搜索過(guò)程中的計(jì)算量,但采用無(wú)序的單詞直方圖也會(huì)導(dǎo)致丟失大量圖像信息。指數(shù)權(quán)重方法需要手動(dòng)提取特征,且在向量量化的過(guò)程中會(huì)損失圖像特征的精度。感知哈希方法利用一段變換生成的哈希序列表示原圖像,通過(guò)度量?jī)煞煌瑘D像生成的哈希序列,能夠快速判斷出這兩幅圖像內(nèi)容的相似性[25-27],且圖像尺寸、亮度、顏色等特征的變化對(duì)相似性度量結(jié)果的影響較小。因此,感知哈希方法被廣泛應(yīng)用于視頻篡改檢測(cè)[28]、目標(biāo)跟蹤[29-30]、遙感影像認(rèn)證[31]、圖像場(chǎng)景主題分類[32]等問題。本文采用感知哈希方法提高視覺定位的圖像搜索效率。相似性度量是圖像檢索技術(shù)的組成部分,主要通過(guò)計(jì)算特征向量之間的距離來(lái)實(shí)現(xiàn)。常見的距離計(jì)算方法包括歐氏距離、曼哈頓距離、切比雪夫距離、余弦距離和漢明距離等。其中漢明距離常用于信號(hào)處理問題,在距離計(jì)算過(guò)程中通過(guò)比較向量每一位是否相同來(lái)計(jì)算,可以用于哈希指紋的快速匹配。
感知哈希方法能一定程度上減少圖像檢索耗時(shí),但仍然無(wú)法適用于對(duì)實(shí)時(shí)性和連續(xù)性要求較高的視覺定位場(chǎng)景。因此,本文提出一種結(jié)合感知哈希與空間約束的室內(nèi)連續(xù)視覺定位方法,建立了一種雙層次的圖像搜索策略:在全局層次上,構(gòu)建基于感知哈希方法的室內(nèi)場(chǎng)景圖像相似性度量和圖像搜索方法,從全局上減少圖像匹配計(jì)算量;在局部層次上,通過(guò)相機(jī)運(yùn)動(dòng)的空間連續(xù)性約束圖像搜索范圍,提高圖像匹配效率。在此基礎(chǔ)上,結(jié)合圖像匹配定位和SfM方法,提出一種室內(nèi)連續(xù)視覺定位算法。該算法利用雙層次圖像搜索和匹配確定行人全局位置,結(jié)合PDR(pedestrian dead reckoning)方法進(jìn)行連續(xù)的行人航向和位置推算,從而提高室內(nèi)視覺定位的連續(xù)性。由于PDR方法易受漂移誤差的影響,航向角估計(jì)誤差會(huì)快速累積,本文算法利用SfM方法進(jìn)行行人航向角的連續(xù)估計(jì),并利用全局圖像匹配持續(xù)減少航位推算方法的累積誤差,提高室內(nèi)視覺定位精度。最后,本文建立了一個(gè)帶有位置標(biāo)簽的室內(nèi)影像數(shù)據(jù)集,通過(guò)多組室內(nèi)定位試驗(yàn)對(duì)所提出方法的定位精度和計(jì)算效率進(jìn)行驗(yàn)證。
圖像匹配方法是本文室內(nèi)視覺定位的基礎(chǔ),通過(guò)相機(jī)圖像幀和數(shù)據(jù)庫(kù)圖像的匹配確定相機(jī)全局位置。本節(jié)首先介紹一種基于多約束條件的圖像匹配方法,然后提出雙層次圖像檢索策略:基于感知哈希方法的全局搜索策略和顧及運(yùn)動(dòng)連續(xù)性的局部搜索策略。
圖像的視覺特征提取和相似性匹配是圖像視覺定位方法的基礎(chǔ),相似性最高的數(shù)據(jù)庫(kù)圖像會(huì)作為相機(jī)查詢圖像的匹配結(jié)果。圖像匹配中常用的圖像特征描述子包含SIFT、SURF和GIST等。其中GIST使用全局特征描述圖像,算法穩(wěn)健性較弱,常用于目標(biāo)檢測(cè)和場(chǎng)景分類問題。SIFT和SURF使用局部特征描述圖像。相較于SURF算子,SIFT在圖像尺度和旋轉(zhuǎn)變換的情況下效果更好,穩(wěn)定性更高。在視覺匹配定位過(guò)程中,查詢圖像和數(shù)據(jù)庫(kù)圖像常存在尺度不一致、旋轉(zhuǎn)等問題,且匹配結(jié)果的準(zhǔn)確性對(duì)定位精度有較大影響。因此本文利用SIFT[33]算子提取圖像特征點(diǎn)。在查詢圖像和數(shù)據(jù)庫(kù)圖像匹配時(shí),找到兩幅圖像的所有對(duì)應(yīng)的特征點(diǎn)對(duì),利用成功匹配的特征點(diǎn)對(duì)數(shù)量評(píng)價(jià)兩者的相似程度。然而僅采用SIFT算法會(huì)存在大量錯(cuò)誤匹配結(jié)果(圖1(a))。因此,本文利用多種約束條件來(lái)減少錯(cuò)誤匹配的特征點(diǎn)對(duì),包括比率約束、對(duì)稱性約束和隨機(jī)抽樣一致性算法(random sample consensus,RANSAC)[34]。
(1) 比率約束。圖像a中的特征點(diǎn)P0與其在圖像b最佳匹配點(diǎn)的距離可以定義為
(1)
(2) 對(duì)稱性約束。對(duì)稱性約束是指對(duì)兩幅圖像的特征點(diǎn)進(jìn)行雙向特征匹配,只有兩次計(jì)算過(guò)程中都匹配成功的特征點(diǎn)對(duì)才會(huì)被保留。
(3) RANSAC約束:該方法首先隨機(jī)從樣本數(shù)據(jù)集中抽選一個(gè)隨機(jī)樣本,即4個(gè)匹配點(diǎn)對(duì);根據(jù)4個(gè)匹配點(diǎn)對(duì)計(jì)算單應(yīng)性矩陣M
(2)
用于描述坐標(biāo)變換信息,計(jì)算過(guò)程為
(3)
然后利用矩陣和匹配點(diǎn)坐標(biāo),迭代計(jì)算直至得到內(nèi)點(diǎn)數(shù)最多的單應(yīng)矩陣M,得到坐標(biāo)轉(zhuǎn)換誤差和異常值,剔除異常值從而提高匹配效率,計(jì)算過(guò)程為
(4)
為了分析多約束匹配方法的結(jié)果,采集了20組室內(nèi)場(chǎng)景測(cè)試圖像,將每組中的2幅圖像分別利用無(wú)約束匹配(SIFT)、比率約束匹配、比率約束及對(duì)稱性約束匹配、多約束匹配(包含3種約束策略)4種方法進(jìn)行圖像匹配。其中無(wú)約束匹配方法存在大量錯(cuò)誤匹配的特征點(diǎn)對(duì)(如圖1(a)所示)。比率約束匹配、比率約束及對(duì)稱性約束、多約束匹配的特征點(diǎn)對(duì)平均匹配正確率分別為88.09%、89.68%和95.80%??梢园l(fā)現(xiàn),在使用多種匹配策略后,室內(nèi)場(chǎng)景圖像匹配正確率逐漸提高。圖1顯示了不同約束策略下的圖像匹配結(jié)果,錯(cuò)誤匹配的特征點(diǎn)對(duì)數(shù)量隨著約束策略的增加不斷降低,多約束圖像匹配方法能很好地剔除錯(cuò)誤的匹配點(diǎn)對(duì),保留的特征點(diǎn)對(duì)將用于下文的視覺定位及基于SfM的航向角估計(jì)。
圖1 不同約束條件下的圖像匹配結(jié)果示例Fig.1 An example of image matching under different constraint condition
1.2.1 基于感知哈希方法的全局搜索策略
全局圖像搜索在視覺定位開始時(shí)(初始位置未知)或局部搜索匹配失敗時(shí)執(zhí)行。由于全圖像搜索的計(jì)算量較大,本文方法在全局搜索過(guò)程中利用感知哈希方法計(jì)算視頻幀與數(shù)據(jù)庫(kù)圖像的哈希指紋相似度,相似度低的圖像不進(jìn)行匹配,從而提高全局搜索效率。感知哈希方法的基本原理是從圖像中提取特征內(nèi)容,生成一串精簡(jiǎn)的數(shù)字或字符序列,通過(guò)度量?jī)煞煌瑘D像的哈希序列來(lái)度量圖像相似性,度量結(jié)果具有穩(wěn)健特性,可以有效快速地對(duì)兩幅圖像的相似度進(jìn)行判斷。在計(jì)算過(guò)程中,感知哈希方法利用離散余弦變換(discrete cosine transform,DCT)獲取圖片的低頻成分,生成圖像的指紋(finger print)字符串,比較不同圖像的指紋信息來(lái)判斷圖像相似度,具體過(guò)程如下:
(1) 圖像簡(jiǎn)化??s小圖像尺寸,并轉(zhuǎn)化為灰度圖像,只保留結(jié)構(gòu)、明暗等基本信息。
(2) 計(jì)算DCT。計(jì)算圖像的DCT變換,得到DCT系數(shù)矩陣,將圖像從像素域變換為頻率域。變換過(guò)程如式(5)、式(6)所示
(5)
(6)
式中,f(i)為原始信號(hào);F(u)是DCT變換后的系數(shù);N為原始信號(hào)的點(diǎn)數(shù);c(u)是補(bǔ)償系數(shù),使DCT變換矩陣轉(zhuǎn)化為正交矩陣。在此基礎(chǔ)上縮小DCT矩陣,只保留其中的最低頻率。計(jì)算DCT圖像像素點(diǎn)的均值。
(3) 計(jì)算哈希值。將每個(gè)DCT值與平均值進(jìn)行比較。大于或等于平均值則記為1,否則記為0,將生成的二進(jìn)制數(shù)組作為圖像指紋。圖2是4幅不同室內(nèi)圖像的哈希值計(jì)算示例。
圖2 4幅圖像的哈希值計(jì)算Fig.2 Hash calculation result of four images
(4) 指紋匹配。使用兩幅圖像哈希值的漢明距離進(jìn)行匹配。對(duì)于兩個(gè)哈希值k1和k2,其中k1∈{0,1}l、k2∈{0,1}l,其匹配方法為
(7)
式中,d(k1,k2)的取值范圍為[0,l],l是哈希指紋長(zhǎng)度。如果d(k1,k2)小于閾值H0,則兩幅圖像的哈希指紋判定為相似。
在圖像全局搜索過(guò)程中,首先將當(dāng)前圖像與數(shù)據(jù)庫(kù)圖像進(jìn)行哈希指紋匹配,將哈希指紋判定為相似的數(shù)據(jù)庫(kù)圖像列入候選圖像集合,利用1.1節(jié)介紹的多約束圖像匹配方法進(jìn)行進(jìn)一步匹配,得到相似性最高的匹配結(jié)果。由于哈希指紋匹配的時(shí)間少于圖像匹配,全局搜索策略能顯著提高全局匹配效率。
1.2.2 顧及運(yùn)動(dòng)連續(xù)性的局部搜索策略
由于全局搜索的計(jì)算量總體偏大,在連續(xù)定位過(guò)程中優(yōu)先使用局部搜索策略,其執(zhí)行判定條件為當(dāng)前位置和上一次成功圖像匹配位置的距離小于閾值D0。局部搜索策略的思路是利用行人運(yùn)動(dòng)的空間連續(xù)性特征,在圖像搜索時(shí)僅將當(dāng)前位置周圍局部范圍內(nèi)(搜索半徑為D0)的圖像列入候選圖像集合,從而顯著減少圖像匹配次數(shù)。定位算法中閾值D0的設(shè)置會(huì)影響到圖像匹配定位的精度和計(jì)算量:較大的D0值會(huì)導(dǎo)致待匹配的數(shù)據(jù)庫(kù)圖像數(shù)量過(guò)多,顯著增加計(jì)算時(shí)間;較小的D0值會(huì)使得數(shù)據(jù)庫(kù)圖像搜索域變小,可能會(huì)丟失最佳匹配圖像,從而影響定位精度。因此,對(duì)于閾值D0需要分析圖像匹配的距離因素和匹配結(jié)果(即圖像相似性)之間的關(guān)系。在室內(nèi)局部環(huán)境中,圖像的相似性在正常條件下會(huì)隨著空間距離的增加而逐漸降低。這里將兩幅圖像在局部搜索過(guò)程中的相似性定義為圖像匹配成功的特征點(diǎn)對(duì)數(shù)量。根據(jù)圖像匹配測(cè)試結(jié)果的分析,當(dāng)特征匹配點(diǎn)對(duì)數(shù)量大于20時(shí),兩幅圖像的匹配結(jié)果更可靠,視覺相似程度更高。為了分析圖像匹配結(jié)果和空間距離的關(guān)系,在房間、走廊和開放空間這些不同類型的室內(nèi)場(chǎng)景中各采集了5組圖像序列,每組圖像序列包含試驗(yàn)者手持智能手機(jī)沿著相同方向行走時(shí)采集的圖像幀序列。在數(shù)據(jù)采集后,將每組圖像序列中的每張圖像依次和序列的第1幅圖像進(jìn)行匹配,從而分析隨著距離的增加,圖像相似程度的變化情況。如圖3所示,試驗(yàn)發(fā)現(xiàn):空間距離相距越近,圖像匹配特征點(diǎn)對(duì)的數(shù)量越多;空間距離越遠(yuǎn),圖像匹配特征點(diǎn)對(duì)的數(shù)量越少,并且當(dāng)距離高于6~10 m時(shí),圖像匹配點(diǎn)對(duì)數(shù)量會(huì)變得非常少。因此,當(dāng)空間距離很遠(yuǎn)的兩幅圖像之間匹配點(diǎn)對(duì)數(shù)量很高時(shí),其可能的原因主要是室內(nèi)場(chǎng)景布局類似,導(dǎo)致視覺特征高度相似。但此種情況下,如果判定兩幅圖像是同一位置,會(huì)導(dǎo)致定位誤差顯著增加,是視覺定位的一個(gè)重要誤差來(lái)源。
圖3 不同類型場(chǎng)景中序列圖像相似性與距離的關(guān)系Fig.3 The relationship between distance and similarity of image sequences in three scenes
綜合以上因素,在本文試驗(yàn)中(數(shù)據(jù)庫(kù)圖像平均采樣間距約2 m),閾值D0的經(jīng)驗(yàn)值設(shè)置為5 m,從而在兼顧視覺定位計(jì)算效率的同時(shí),避免當(dāng)前圖像在局部搜索過(guò)程中被錯(cuò)誤匹配到相距很遠(yuǎn)的數(shù)據(jù)庫(kù)圖像位置,減少定位誤差。當(dāng)局部搜索失敗后,發(fā)現(xiàn)在當(dāng)前定位位置的周圍無(wú)法搜索到相似的數(shù)據(jù)庫(kù)圖像,再轉(zhuǎn)為全局搜索策略進(jìn)行全局匹配定位。對(duì)于圖像采樣間隔更大的室內(nèi)區(qū)域(例如3~4 m),閾值D0經(jīng)驗(yàn)值可適當(dāng)增加(如7~10 m),避免因?yàn)楫?dāng)前位置周圍搜索到的候選數(shù)據(jù)庫(kù)圖像數(shù)量過(guò)少而丟失最佳匹配結(jié)果。
在候選圖像集合生成后,可以對(duì)集合中候選圖像的匹配優(yōu)先級(jí)進(jìn)行排序,與行人當(dāng)前位置及方向相近的數(shù)據(jù)庫(kù)圖像具有更高的優(yōu)先級(jí),其計(jì)算方法為
(8)
式中,C(i)表示當(dāng)前圖像與數(shù)據(jù)庫(kù)圖像i之間的空間鄰近性;Ac表示當(dāng)前圖像的方位角;Ai表示數(shù)據(jù)庫(kù)圖像i的方位角;Di表示行人當(dāng)前位置與數(shù)據(jù)庫(kù)圖像i的位置之間的距離。在局部檢索過(guò)程中,具有較低C(i)值的圖像將被給予較高的匹配優(yōu)先級(jí)。
通過(guò)圖像搜索和匹配能夠得到準(zhǔn)確的室內(nèi)定位結(jié)果。然而考慮到室內(nèi)數(shù)據(jù)庫(kù)圖像的空間分布密度,單純依靠圖像匹配難以實(shí)現(xiàn)連續(xù)的行人軌跡定位。因此,本文結(jié)合圖像匹配和航位推算方法進(jìn)行連續(xù)視覺定位。由于慣性航向角估計(jì)的偏移誤差較大,因此利用SfM方法提高航向估計(jì)精度,結(jié)合PDR方法實(shí)現(xiàn)連續(xù)軌跡定位。最后建立了一種室內(nèi)連續(xù)視覺定位算法,利用視覺定位結(jié)果持續(xù)修正航位推算誤差。
1.3.1 基于SfM的航向角估計(jì)
基于SfM的航向角估計(jì)過(guò)程如圖4所示,其中灰色和白色圖像分別表示成功匹配的數(shù)據(jù)庫(kù)圖像和相機(jī)視頻幀。利用張正友標(biāo)定法對(duì)智能手機(jī)攝像頭進(jìn)行標(biāo)定,估算出相機(jī)內(nèi)參數(shù)矩陣。相鄰幀的基本矩陣F可通過(guò)匹配的關(guān)鍵點(diǎn)對(duì)進(jìn)行計(jì)算
圖4 基于SfM的航向角估計(jì)Fig.4 SfM-based heading angle estimation
(9)
(10)
式中,Δθ為相機(jī)在t時(shí)的航向角變化,為俯仰角變化。若初始航向角為θ0,則相機(jī)在t時(shí)的航向角可計(jì)算為
(11)
式中,θt為智能手機(jī)在t時(shí)刻的航向角。SfM方法能夠提高航向計(jì)算性能,然而航向誤差仍然會(huì)逐漸累積。本文方法進(jìn)一步利用成功匹配的數(shù)據(jù)庫(kù)圖像減少航向角累積誤差
(12)
式中,Δθ(t-1,t)為t-1到t時(shí)刻的航向角變化;θg(t)為t時(shí)刻成功匹配數(shù)據(jù)庫(kù)圖像的方位角;Δθg(t)為t時(shí)刻的圖像與數(shù)據(jù)庫(kù)圖像的方位角差,通過(guò)計(jì)算兩者的旋轉(zhuǎn)矩陣R進(jìn)行估計(jì)。
1.3.2 室內(nèi)連續(xù)視覺定位算法
在航向角估計(jì)的基礎(chǔ)上,結(jié)合PDR方法可以實(shí)現(xiàn)室內(nèi)連續(xù)定位。本文算法假設(shè)智能手機(jī)初始位置未知,通過(guò)航位推算進(jìn)行相對(duì)坐標(biāo)估計(jì)。當(dāng)智能手機(jī)視頻幀與數(shù)據(jù)庫(kù)圖像成功匹配后,即可為定位算法提供絕對(duì)坐標(biāo),如式(13)所示
(13)
式中,(xt,yt)為t時(shí)刻智能手機(jī)的坐標(biāo);(xg(t),yg(t))為t時(shí)刻之前最近匹配的數(shù)據(jù)庫(kù)圖像的坐標(biāo);θi為i時(shí)刻的航向角;di為智能手機(jī)在t-1時(shí)刻與t時(shí)刻之間的距離。因此,當(dāng)視頻幀與數(shù)據(jù)庫(kù)圖像成功匹配時(shí),定位結(jié)果可以得到校正,減小航位推算的累積誤差。同時(shí),當(dāng)前定位結(jié)果可以為圖像局部搜索提供空間約束信息,提高視覺定位效率。
結(jié)合以上介紹的方法,提出一種室內(nèi)連續(xù)視覺定位算法。算法的輸入包括數(shù)據(jù)庫(kù)圖像數(shù)據(jù)集D、智能手機(jī)視頻幀和慣性數(shù)據(jù),輸出為當(dāng)前定位結(jié)果,算法過(guò)程如圖5所示。
圖5 室內(nèi)連續(xù)視覺定位算法Fig.5 The indoor continuous visual localization algorithm
為驗(yàn)證所提出視覺定位方法,在深圳大學(xué)科技樓14層進(jìn)行了定位試驗(yàn),試驗(yàn)區(qū)域面積為52.5 m×40 m(圖6)。試驗(yàn)區(qū)域各采樣點(diǎn)(平均間距約為2 m)采集不同方向(間隔90°)的多幅圖像,構(gòu)建數(shù)據(jù)庫(kù)圖像數(shù)據(jù)集,屬性包含圖像、坐標(biāo)和方向,共484幅圖像。將所有圖像的分辨率調(diào)整為640×480,計(jì)算圖像的SIFT特征和哈希值。
在試驗(yàn)過(guò)程中,試驗(yàn)人員沿著3條測(cè)試軌跡正常行走,路徑長(zhǎng)度分別為55、79和80 m,具體軌跡見圖7,平均行進(jìn)速度分別為0.56、0.58和0.59 m/s。行走過(guò)程中使用智能手機(jī)(小米8)收集視頻幀和慣性數(shù)據(jù)(保持?jǐn)z像頭朝前),兩者的采樣頻率分別為30 FPS和100 Hz。路徑沿途已知坐標(biāo)處設(shè)置了標(biāo)記點(diǎn)以估計(jì)試驗(yàn)誤差。算法測(cè)試平臺(tái)為一臺(tái)i7 9750H CPU(2.6 GHz)的筆記本電腦。根據(jù)試驗(yàn)區(qū)域的圖像采樣點(diǎn)平均間距(2 m),試驗(yàn)中將D0的經(jīng)驗(yàn)值設(shè)置為5 m。在圖像采樣間距更大的室內(nèi)區(qū)域, 可以適當(dāng)設(shè)置更高的閾值D0。每條路徑的初始位置均設(shè)置為未知。以下共包括2組不同的試驗(yàn),分別是基于雙層次圖像搜索策略的室內(nèi)視覺匹配定位試驗(yàn)和室內(nèi)連續(xù)視覺定位試驗(yàn)。
本文利用3條軌跡采集的視頻幀作為試驗(yàn)數(shù)據(jù),通過(guò)視頻幀和數(shù)據(jù)庫(kù)圖像的匹配進(jìn)行定位,主要測(cè)試雙層次圖像搜索策略的定位精度與效率。視頻幀中每30幀(1 s)提取1幀圖像作為當(dāng)前圖像,利用雙層次圖像搜索策略將其與數(shù)據(jù)庫(kù)圖像進(jìn)行匹配,成功匹配的數(shù)據(jù)庫(kù)圖像的位置作為當(dāng)前定位結(jié)果。圖8顯示了分別利用常規(guī)匹配策略(將圖像幀與所有數(shù)據(jù)庫(kù)圖像進(jìn)行匹配)、全局搜索策略、雙層次搜索策略(即全局策略加上局部策略)的計(jì)算效率對(duì)比結(jié)果。當(dāng)采用常規(guī)匹配策略時(shí),3條軌跡的平均計(jì)算時(shí)間(即所有查詢影像的計(jì)算時(shí)間均值)分別為32.60、36.65和42.54 s。采用全局搜索策略時(shí),3條軌跡的平均計(jì)算時(shí)間降低到8.91、8.84和7.90 s。采用雙層次搜索策略時(shí),平均計(jì)算時(shí)間進(jìn)一步減少到1.89、1.65和1.27 s。可見,利用雙層次搜索策略可以優(yōu)化匹配圖像搜索的范圍和優(yōu)先級(jí),顯著提高匹配效率。
除了計(jì)算效率外,本文利用匹配準(zhǔn)確率和平均定位誤差兩個(gè)指標(biāo)來(lái)評(píng)估方法的精度。匹配準(zhǔn)確率是指軌跡上所有查詢圖像的總體匹配正確率;平均定位誤差是軌跡上所有查詢圖像定位誤差的均值。表1為3條軌跡平均視覺定位誤差對(duì)比,在利用雙層次圖像搜索策略時(shí),3條軌跡的匹配精度分別為73.33%、82.92%和64.44%,平均定位誤差分別為0.77、0.62和0.73 m,均高于常規(guī)匹配策略和單獨(dú)的全局搜索策略的匹配精度和平均定位誤差。結(jié)果表明,雙層次搜索策略的圖像搜索和匹配總體精度較高,錯(cuò)誤匹配的圖像大部分是匹配到了真實(shí)圖像的空間相鄰圖像,總體定位精度達(dá)到了亞米級(jí)。
表1 3條軌跡平均視覺定位誤差對(duì)比
2.2節(jié)試驗(yàn)僅利用視頻幀數(shù)據(jù),其定位結(jié)果的空間連續(xù)性取決于數(shù)據(jù)庫(kù)圖像的空間密度,因此,當(dāng)數(shù)據(jù)庫(kù)圖像空間密度較低時(shí),定位結(jié)果并非是連續(xù)的。因此,本文結(jié)合視頻幀和慣性數(shù)據(jù),利用第1.3節(jié)提出的算法進(jìn)行連續(xù)定位試驗(yàn),分別在離線模式(offline)和在線模式(online)兩種條件下對(duì)上述3條軌跡進(jìn)行定位測(cè)試。其中,離線模式是利用所有成功匹配的視頻幀對(duì)軌跡的位置進(jìn)行恢復(fù)。在線模式是在軌跡定位過(guò)程中,僅利用成功匹配的視頻幀定位當(dāng)前位置,而不用于糾正已行走軌跡部分的定位誤差,即更偏向?qū)嶋H導(dǎo)航過(guò)程。
離線定位結(jié)果如圖7所示,3條軌跡的平均離線定位誤差分別為0.97、0.71和0.91 m,利用視覺定位結(jié)果的校正次數(shù)分別為23、31和26次(校正點(diǎn)位置為圖中紅色圓點(diǎn)),總體平均誤差為0.86 m。該誤差略高于表1(圖像匹配方法)的結(jié)果。其原因是采用連續(xù)定位算法能夠得到連續(xù)性更好的定位結(jié)果,雖然精度略有降低,但軌跡中定位點(diǎn)的平均間距由2 m減小到0.5 m。如圖8所示,各軌跡的估計(jì)位置均接近于真實(shí)軌跡。
圖7 離線定位結(jié)果Fig.7 Offline localization results
圖8 3條軌跡的圖像匹配時(shí)間Fig.8 The computation time of each query image from three trajectories
在線定位試驗(yàn)中采用了不同的方法進(jìn)行對(duì)比,包括:①地圖約束修正的PDR方法;②基于PDR的連續(xù)視覺定位方法;③結(jié)合SfM和PDR的連續(xù)視覺定位方法;④相機(jī)隨機(jī)開啟條件下的方法3。其中,方法2和方法3均采用本文連續(xù)視覺定位方法,區(qū)別在于方法2僅利用慣性信息估計(jì)航向角。方法4用于模擬實(shí)際情況,即行人的智能手機(jī)相機(jī)不一定連續(xù)打開,用于測(cè)試相機(jī)隨機(jī)開啟條件下的定位精度,當(dāng)相機(jī)關(guān)閉時(shí)僅使用PDR定位結(jié)果直到相機(jī)再次打開。圖9顯示了不同方法的在線定位結(jié)果,4種方法的平均定位誤差依次為12.05、1.10、0.93和1.31 m。可見,采用視覺定位條件下(方法2—方法4)的定位誤差明顯小于方法1,能夠達(dá)到較好的定位精度。方法3的定位誤差小于方法2,表明利用SfM方法能夠減小航向角估計(jì)誤差。此外,即使在相機(jī)隨機(jī)開啟條件下(圖9下方黑色塊表示相機(jī)開啟,白色塊表示相機(jī)關(guān)閉),本文方法也能實(shí)現(xiàn)較好的定位精度。
圖9 不同方法條件下的在線定位誤差Fig.9 Average online localization error using four different methods
在上述在線定位試驗(yàn)中,本文方法(即方法3)對(duì)3條軌跡的總計(jì)算時(shí)間分別為67.17、45.15和54.80 s,少于對(duì)應(yīng)的軌跡行走時(shí)間(98、136和132 s)。為了進(jìn)一步評(píng)估該算法的效率,本文計(jì)算了在軌跡行走期間提供每個(gè)位置估計(jì)(即每一步)所需的平均計(jì)算時(shí)間:3條軌跡的總體平均計(jì)算時(shí)間為0.42 s。從時(shí)間角度分析,定位算法每秒能平均得到約2次定位反饋,滿足大眾化導(dǎo)航應(yīng)用的連續(xù)定位需求;從距離角度分析,軌跡的行進(jìn)速度在0.5~0.6 m/s之間,即測(cè)試者每行進(jìn)1 m可以得到約4次定位結(jié)果反饋,能夠支持連續(xù)視覺定位。
本文提出了一種結(jié)合感知哈希與空間約束的室內(nèi)連續(xù)視覺定位方法,構(gòu)建了一種雙層次的圖像搜索和匹配策略,包括基于感知哈希方法的全局搜索策略和顧及運(yùn)動(dòng)連續(xù)性的局部搜索策略,通過(guò)全局與局部策略的結(jié)合提高視覺定位效率。在此基礎(chǔ)上,提出了一種室內(nèi)連續(xù)視覺定位算法,將圖像匹配定位和航位推算相結(jié)合,利用SfM方法提高航位推算的航向角估計(jì)精度,并提高視覺定位的空間連續(xù)性。試驗(yàn)結(jié)果表明,本文方法在圖像匹配定位、連續(xù)離線定位、連續(xù)在線定位模式下的平均定位誤差分別為0.70、0.86和0.93 m,能夠達(dá)到亞米級(jí)定位精度。在線定位模式下的平均計(jì)算時(shí)間為0.42 s,能夠支持連續(xù)的視覺定位??梢姡Y(jié)合感知哈希方法和空間約束策略對(duì)提高視覺定位的精度和效率有顯著意義。