宋小璇,劉敬浩,唐小容
(天津大學 電子信息工程學院,天津 300072)
圖像檢索技術(shù)在生產(chǎn)生活中被廣泛應用。現(xiàn)存主流圖像檢索技術(shù)可大致分為基于文本檢索和基于內(nèi)容檢索兩種。基于文本的圖像檢索雖然可達到快速的檢索效果,但檢索準確性過度依賴于人工對圖像的文本標注等主觀因素[1]。相反,基于內(nèi)容圖像檢索則直接從圖像中提取特征信息,無需人工參與,保證了對圖像內(nèi)容理解的客觀性和檢索的準確性。文中提出了一種基于圖像內(nèi)容檢索技術(shù)的地標識別系統(tǒng),用戶只需輸入采集的地標圖片而不添加任何文本信息,系統(tǒng)就能檢索出與之對應的地標圖片并在相應的地圖中給出位置信息。系統(tǒng)具有魯棒性和高準確性。另外,系統(tǒng)采用層次化數(shù)據(jù)庫結(jié)構(gòu)和分級檢索方式,使得檢索效率大大提高。
系統(tǒng)通過提取的SURF特征搜尋地標在數(shù)據(jù)庫中的最優(yōu)匹配,然后根據(jù)最優(yōu)匹配結(jié)果給出輸入地標的定位信息。系統(tǒng)流程圖如圖1所示。
圖1 地標檢索系統(tǒng)框圖Fig.1 Block diagram of landmark recognition system
圖像的內(nèi)容可由圖像的局部特征很好地描述。高效的局部特征檢測算法主要包括Scale Invariant Feature Transform(SIFT),Speededuprobustfeatures(SURF)和 Affine-SIFT(ASIFT)。文中深入分析了3種算法的優(yōu)缺點并根據(jù)系統(tǒng)設(shè)計要求擇優(yōu)選擇,達到了準確檢索的目的。
1)SIFT算法 SIFT算法[2-4]首先檢測圖像DOG金字塔中的極值點來確定特征點位置,而后采用特征點4×4區(qū)域內(nèi)方向直方圖作為特征描述符。DOG金字塔[2]建立方式如下:
SIFT特征對尺度、旋轉(zhuǎn)和光照變化和一定程度的仿射變換不敏感。
2)SURF算法 SURF[5]算法在特征點檢測方面,將圖像與高斯二階微分模板的濾波轉(zhuǎn)化為對積分圖像的加減運算,使得檢測速度遠遠快于SIFT。另外,SURF采用6倍尺度大小的半徑范圍內(nèi)的哈爾小波響應的極值來表示主方向,生成64維的特征向量,比SIFT減少一半。SURF保持了對尺度、旋轉(zhuǎn)、光照和一定程度上的仿射變換的魯棒性,但在速度方面遠遠高于SIFT。
3)ASIFT算法 SIFT和SURF對具有較大仿射變換的圖像會失去檢測效果,Affine-SIFT(ASIFT)[6]則是一個對仿射變換具有完全魯棒性的特征。然而,構(gòu)建全仿射變換空間極大地增加了計算量使得檢測時間高于SIFT的2倍以上。
通過實驗比對,并綜合考慮了3種算法的檢測精度與檢測速度,系統(tǒng)折衷選擇了SURF算法。對比數(shù)據(jù)見實驗部分。
系統(tǒng)根據(jù)SURF匹配特征點的數(shù)目,檢索數(shù)據(jù)庫中與輸入圖像的最優(yōu)匹配,從而為用戶提供其所攝景物的清晰圖片、所攝景物位置等信息。圖像的匹配通過關(guān)鍵點的匹配實現(xiàn)。由于系統(tǒng)采用了由粗到精的匹配模式,大大增加了匹配的準確性。同時,系統(tǒng)對數(shù)據(jù)庫結(jié)構(gòu)及檢索方式也進行了優(yōu)化。
1.2.1 關(guān)鍵點由粗到精匹配
粗匹配采用閾值判別的方式篩選匹配的特征點。一幅圖像中關(guān)鍵點與另一幅圖像中的關(guān)鍵點的歐式距離低于某個經(jīng)驗性閾值,則接受這一對匹配點。而后,系統(tǒng)采用隨機取樣一致性算法[7](RANSAC:random sample consensus)去除粗匹配中的誤匹配點。效果如圖2所示。從圖中看出,精匹配有效地去除了誤匹配點,使匹配結(jié)果更加準確。
圖2 剔除誤匹配點過程Fig.2 Process of excluding mismatch-point
1.2.2 數(shù)據(jù)庫結(jié)構(gòu)及檢索方式優(yōu)化
為提高對數(shù)據(jù)庫的檢索效率,系統(tǒng)建立了一種層次化的數(shù)據(jù)庫結(jié)構(gòu),并采用分級的檢索方式。數(shù)據(jù)庫圖片分為2個優(yōu)先級。每個地標景點中根據(jù)拍攝角度和光照情況選取5張有代表性的作為第一級,其具有最高優(yōu)先級;其他圖片作為第二級,都分屬于第一級每個圖片的子類,其優(yōu)先級低于核心圖片。檢索時,先對第一優(yōu)先級檢索進行粗檢索,而后對其對應的子類進行精檢索。這樣的設(shè)計避過了輸入圖像和不可能的圖像匹配,檢索時間比采用遍歷數(shù)據(jù)庫檢索耗時減少30%以上。對比結(jié)果見實驗數(shù)據(jù)部分。
為測試文中提出的算法,筆者將算法應用在天津大學地標識別中。實驗測試了對天津大學校園內(nèi)30個地標的識別和精確定位。系統(tǒng)輸入為用戶在任意角度、光照條件下拍攝地標的圖片,輸出為地標及其所在地域平面俯視圖中的位置。
1)精確度 為測試SIFT、SURF、ASIFT 3種算法檢索精確度,實驗分別針對尺度縮放、平移旋轉(zhuǎn)、光照變換和仿射變換4種情況,從測試的圖片中抽取出有代表性的分為4組,每組圖片包含6張圖片。在每組圖片中選定一張為目標圖片,分別使用3種算法與其余5張進行匹配,得到的匹配點數(shù)目比較結(jié)果如圖3所示。其中橫坐標為待匹配的圖片編號,縱坐標為匹配點數(shù)目。從圖3中可以看出,實驗數(shù)據(jù)顯示的精確度與理論分析一致。
2)檢測速度 為了比較3種特征提取算法的速度,文中對數(shù)據(jù)庫中每一組地標任意選取一張圖片與該組其他圖片進行匹配,并對所有時間數(shù)據(jù),統(tǒng)計3種算法的均值和方差。結(jié)果如表1所示,從表中可以看出,SURF算法顯示出極大的速度優(yōu)勢,而ASIFT算法與其差距甚大。
為了測試提出的算法框架,文中把該系統(tǒng)應用在天津大學內(nèi)部地標識別中。系統(tǒng)數(shù)據(jù)庫包括天津大學校園內(nèi)標志性地標建筑物剪影共1 200張 (共有30處景點,每個景點40張),數(shù)據(jù)采集綜合考慮到光照、旋轉(zhuǎn)、仿射等因素影響,分別在不同時間點,不同角度進行數(shù)據(jù)的采集。文中通過魯棒性、檢索速度、準確性3個指標對系統(tǒng)性能進行評定。
圖3 3種算法的比較Fig.3 Comparison of three algorithms
表1 圖像匹配時間比較Tab.1 Contrast of matching time
1)系統(tǒng)魯棒性
系統(tǒng)的魯棒性表現(xiàn)在對圖片的尺度縮放、平移旋轉(zhuǎn)、光照變化、仿射變換不敏感。圖4中分別列舉出在這4種情況下系統(tǒng)的檢索性能。每一行的第一張圖片為目標圖片,其余4張為檢索結(jié)果。從圖中可以看出,系統(tǒng)對尺度變換、旋轉(zhuǎn)平移、光照變化和仿射變換都有很好的魯棒性,檢索結(jié)果準確。
2)系統(tǒng)檢索速度
由于采用了層次化的數(shù)據(jù)庫結(jié)構(gòu)及由粗到精的檢索方式,數(shù)據(jù)庫檢索時間比采用數(shù)據(jù)庫遍歷檢索所需時間提高了30%以上。表2給出了對比數(shù)據(jù),其中遍歷檢索使用的是耗時最少的SURF算法。
圖4 不同實驗條件下的系統(tǒng)檢索Fig.4 Searching result of the system under condition of different experiments
表2 系統(tǒng)檢索時間對比Tab.2 Contrast of the system retrieval time
3)系統(tǒng)的準確性
為了測試系統(tǒng)的準確性,對每一次檢索結(jié)果進行統(tǒng)計:系統(tǒng)界面中排在第1位的圖片 (即與目標圖片最相似的圖片)正確率為98.4%,排在第2位的正確率是93.5%,排在第3位的正確率是89.3%,排在第4位的正確率是84.5%。
文中設(shè)計實現(xiàn)了一個地標識別系統(tǒng),用戶任意輸入一張標志性建筑物圖片,該系統(tǒng)可以自動識別該地標,并在地圖上對地標進行精確定位。在校園內(nèi)實驗測試表明,該系統(tǒng)具有高準確性和魯棒性。此外,系統(tǒng)具有良好的擴展性,增大數(shù)據(jù)庫的規(guī)??梢詫崿F(xiàn)城市或全國的景點地標檢索。未來的工作將集中在使用k-d樹來進一步增加系統(tǒng)的速度,增加網(wǎng)絡(luò)支持及擴大數(shù)據(jù)庫到省級或全國范圍內(nèi)地標3個方面。
[1]李向陽,莊越挺,潘云鶴.基于內(nèi)容的圖像檢索技術(shù)與系統(tǒng)[J].計算機研究與發(fā)展,2001,28(3):344-354.LI Xiang-yang,ZHUANG Yue-ting,PAN Yun-he.The technique and systems of content-based image retrieval[J].Journal of Computer Research&Development,2001,28(3):344-354.
[2]Lowe D G.Object recognition from local scale-invariant features[C]//The Proceedings of the IEEE International Conference on Computer Vision,Corfu:IEEE,1999:1150-1157.
[3]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[4]吳銳航,李紹滋,鄒豐美.基于SIFT特征的圖像檢索[J].計算機應用研究,2008,25(2):478-481.WU Rui-hang,LI Shao-zi,ZOU Feng-mei.Image retrieval based on SIFT features[J].Application Research of Computer,2008,25(2):478-481.
[5]Bay H,Tuytelars T,Van G L.Speeded-Up Robust Features(SURF)[J].Computer Vision and Image Understanding,2008(110):346-359.
[6]Morel J M,Yu G.ASIFT:a new framework for fully affine invariant image comparison[J].SIAM Journal on Imaging Sciences,2009,2(2):438-469.
[7]Fishier M A,Bolles R C.Random sample consensus:a paradigm for model fitting with application to image analysis and automated cartorgraphy[J].Communication of the Association Machine,1981,24(6):381-395.