徐杰,金湘亮,白瑞廣
湘潭大學(xué)材料與光電物理學(xué)院,湖南湘潭 411105
一種改進的攝像頭視頻實時拼接方法
徐杰,金湘亮,白瑞廣
湘潭大學(xué)材料與光電物理學(xué)院,湖南湘潭 411105
隨著遠程視頻監(jiān)控、視頻會議和3D視頻生成等技術(shù)的發(fā)展,對攝像頭視頻的水平視角提出了更高的要求[1]。普通攝像頭的視角在40°左右,廣角攝像頭的視角可以達到130°,魚眼攝像頭甚至可以達到180°~230°。但隨著視角的增大,攝像頭所得到的視頻圖像失真就越嚴(yán)重,校正過程復(fù)雜,適用場合有很大的局限性。因此,攝像頭視頻拼接技術(shù)得到了越來越廣泛的應(yīng)用[2]。
攝像頭視頻拼接技術(shù),通過同時采集具有一定重疊區(qū)域的攝像頭視頻幀圖像,對幀圖像進行實時拼接融合處理,得到寬視角視頻[3-4]。近年來,SIFT特征點[5]依靠其在圖像平移、旋轉(zhuǎn)、縮放、甚至仿射變換中保持的不變性,在圖像配準(zhǔn)、拼接領(lǐng)域體現(xiàn)出了較明顯的優(yōu)勢,本文采用SIFT特征點用于幀圖像匹配。
在現(xiàn)有的視頻拼接方法中,文獻[6]基于SIFT特征跟蹤,用遍歷搜索算法進行匹配,實現(xiàn)了5幀/s的視頻拼接,還達不到實時性的要求。文獻[7]采取柱面投影變換,利用Best-Bin-First(BBF)搜索算法進行SIFT特征點匹配實現(xiàn)了視頻拼接,但在重疊區(qū)域較?。ǎ?0%)時方法失效。本文通過同時采集具有一定重疊區(qū)域的攝像頭視頻幀圖像,基于PC機,將DBH算法和RANSAC算法結(jié)合,提高了匹配精度,得到在重疊區(qū)域較小時的實時無縫拼接融合的攝像頭視頻。
2.1 SIFT特征向量生成
SIFT算法是一種提取局部特征的算法,在尺度空間尋找極值點,提取位置、尺度、旋轉(zhuǎn)不變量[5]。一幅圖像SIFT特征向量的生成可以分為以下4步:
(1)建立圖像金字塔。高斯卷積核是實現(xiàn)尺度變換過程的唯一變換核,也是唯一的線性核。為了有效實現(xiàn)尺度變換,采用不同尺度的高斯差分核對圖像進行卷積操作,得到高斯差分尺度空間,由此來檢測高斯差分空間特征點。
其中σ是尺度空間因子。
(2)檢測尺度空間極值。在檢測尺度空間的極值點過程中,通過將檢測點和它同尺度的8個相鄰點和上下相鄰尺度對應(yīng)的9×2個點共26個點比較,以確保在尺度空間和二維圖像空間都能檢測到極值點。
(3)確定關(guān)鍵點位置、尺度及方向。由于DoG算子會有較強的邊緣響應(yīng),確定關(guān)鍵點的位置和尺度(達到亞像素精度)需要擬和三維二次函數(shù),在這個過程中,同時也可以去除對比度較低的關(guān)鍵點和不穩(wěn)定的邊緣響應(yīng)點。利用關(guān)鍵點鄰域像素的梯度及方向分布的特性,可以得到梯度模值和方向如下:
(4)生成關(guān)鍵點描述子。用梯度方向直方圖的方法,對所得每一個關(guān)鍵點的位置、尺度以及方向信息,用4×4共16個種子點來描述,最終可以得到128維的SIFT特征描述子。
2.2 基于DBH算法的SIFT特征點匹配
采用關(guān)鍵點特征向量的歐式距離來作為兩幅圖像中關(guān)鍵點的相似性判定度量。SIFT特征描述子有128維,用于高維數(shù)據(jù)搜索的數(shù)據(jù)結(jié)構(gòu)主要有窮舉法、KD-tree,iDistance、BBF和LSH等[8]。在這些數(shù)據(jù)結(jié)構(gòu)中,窮舉法的精度接近100%,但完成時間較長,BBF基于最優(yōu)分區(qū)優(yōu)先方法,選擇那些在關(guān)鍵維上到分支節(jié)點有最小距離的子節(jié)點進行再搜索,被成功用于圖像匹配和物體識別中。但是,由于BBF保持KD-tree的索引結(jié)果,在重疊面積較小、匹配點較少的情況下,搜索精度不高,達不到理想的效果。因此,在特征匹配的過程中,本文選用匹配效果更好的DBH算法來完成最近鄰搜索。
DBH算法的基本思想是:假如兩個高維特征點是一對匹配點,則它們在某些維上一定相同或者相似。可以通過如下步驟來實現(xiàn):
(1)為高維特征點數(shù)據(jù)空間的每一維選擇一個關(guān)鍵值作為分割閾值,隨機選擇指定數(shù)量的維。
(2)對數(shù)據(jù)空間中的每一個點,計算其在各個隨機維上的數(shù)據(jù)分布情況,如果有兩個數(shù)據(jù)點在這些隨機維上的數(shù)據(jù)分布相同,就將它們散列到同一個桶中。
(3)將每一個查詢數(shù)據(jù)散列到某個特定桶中,計算該桶中的所有數(shù)據(jù)點的歐式距離情況并進行比較。
(4)在內(nèi)存中建立一個哈希函數(shù),進行循環(huán)的散列和查詢,以提高查詢精度。
(5)對于查詢得到的匹配關(guān)鍵點中,如果最近的距離除以次近的距離少于某個比例閾值,則接受這一對匹配點。如果降低這個比例閾值,SIFT匹配點數(shù)會減少,但會更加穩(wěn)定。
2.3 基于RANSAC算法消除誤匹配、建立透視變換矩陣
經(jīng)過DBH算法檢測到的特征點匹配對的集合中會有一定的誤配點對存在,可以用RANSAC消除誤匹配,以得到最優(yōu)透視變換矩陣[9]。RANSAC算法的具體步驟為:
(1)依據(jù)概率,求取最大采樣次數(shù)N,重復(fù)N次隨機采樣;
(2)隨機選取四對匹配點,使得樣本中的任意三點不共線,計算變換矩陣H;
(3)計算經(jīng)過矩陣變換后每個匹配點到對應(yīng)匹配點的距離;
(4)計算內(nèi)點距離小于距離閾值的內(nèi)點個數(shù),并比較,選擇包含內(nèi)點最多的點集,作為去錯匹配后角點對集合;
(5)利用消除誤匹配后的角點對集合,可以計算得到最優(yōu)透視變換矩陣。
實現(xiàn)幀圖像的拼接映射關(guān)系之后,在攝像頭相對位置不變的情況下,實時采集攝像頭視頻幀圖像,基于H矩陣,對幀圖像進行透視變換,經(jīng)過融合處理,即可得到實時拼接的攝像頭視頻。系統(tǒng)算法流程如圖1所示。
圖1 系統(tǒng)算法流程圖
實驗基于2.93 GHz,1.96 GB內(nèi)存,Window XP系統(tǒng)的PC機,谷客公司E6數(shù)碼高清攝像頭,其動態(tài)分辨率為640× 480,圖像速率為60幀/s,采用C語言編程,基于OpenCV2.1,在Microsoft Visual Studio 2008上編譯運行。
4.1 首幀圖像配準(zhǔn)
實驗中,通過對比DBH算法和BBF算法在不同的重疊面積下,利用檢測得到的SIFT特征點,所得的匹配點對數(shù)和匹配時間的情況,如表1所示??梢钥闯?,在重疊面積由30%減小到10%的過程中,BBF算法匹配對數(shù)逐漸減少,DBH算法在匹配對數(shù)上比較接近窮舉法,但時間上比窮舉法有明顯的優(yōu)勢。
表1 不同重疊面積下匹配對數(shù)和匹配時間比較
圖2為當(dāng)重疊面積為10%時,首幀圖像SIFT特征點示意圖。三種不同的配準(zhǔn)方法的匹配結(jié)果對比圖如圖3所示,DBH算法在重疊面積較小時匹配效果良好。圖4為用RANSAC算法消除誤匹配后匹配情況。
圖3 不同匹配方法的匹配結(jié)果對比圖
圖4 RANSAC算法消除誤匹配結(jié)果圖
4.2 攝像頭視頻拼接
利用消除誤匹配后的匹配點對,求取最優(yōu)透視變換矩陣H。分別從攝像頭讀取幀圖像,基于矩陣H進行透視變換,采用漸入漸出算法對重疊區(qū)域進行融合處理,得到拼接后的幀圖像,圖5為拼接后的攝像頭視頻的第10幀、第100幀和第150幀圖像,可以看出,視頻幀圖像拼接效果良好。
圖5 拼接成功的攝像頭視頻幀圖像
4.3 實時性分析
本文通過計算系統(tǒng)每秒處理的圖像幀數(shù)來驗證視頻拼接算法的實時性?;谏鲜龇椒?,第一幀圖像配準(zhǔn)時間不計入拼接總時間,從第二幀開始,分別計算不同時間內(nèi)系統(tǒng)成功處理的圖像幀數(shù),對每個不同時間,重復(fù)進行30次實驗,取其平均時間。如表2所示,每秒平均成功處理的圖像幀數(shù)在30~35幀之內(nèi),達到了實時性的要求。
表2 實時性分析
本文提出一種基于SIFT特征匹配的攝像頭視頻實時拼接方法,通過將DBH算法運用于特征點匹配過程,保證了匹配精度,有效實現(xiàn)了攝像頭視頻實時拼接,在重疊區(qū)域較小的情況下,有明顯的優(yōu)勢,具有較強的應(yīng)用價值。不過,從拼接后的視頻幀圖像上看,由于不同攝像頭圖像之間存在顏色、亮度等的視差,對總體效果有一定影響。下一步工作將解決攝像頭視差的問題,然后在DSP系統(tǒng)實現(xiàn)本方法。
[1]Chon J,F(xiàn)use T,Shimizu E,et al.Three-dimensional image mosaicing using multiple projection planes for 3-D visualization of roadside standing buildings[J].IEEE Transactions on Systems,Man,and Cybernetics,2007,37(4):771-783.
[2]Richard S.Video mosaics for virtual environments[J].IEEE Computer Graphics and Applications,1996,16(2):22-30.
[3]Yang Ping,Mao Zheng,Gao Anjie,et al.Video image mosaics in real-time based on SIFT[C]//2010 First International Conference on Pervasive Computing,Signal Processing and Applications,2010:879-882.
[4]鐘力,胡小鋒.重疊圖像拼接算法[J].中國圖象圖形學(xué)報,1998,3(3):365-369.
[5]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[6]張朝偉,周焰,王耀康,等.基于SIFT特征跟蹤匹配的視頻拼接方法[J].計算機工程與應(yīng)用,2008,44(10):169-172.
[7]王小強,陳臨強,梁旭.實時全自動視頻拼接方法[J].計算機工程,2011,37(5):291-293.
[8]He Zhoucan,Wang Qing.A fast and effective Dichotomy-Based Hash(DBH)algorithm for image matching[C]//Advances in Visual Computing,2008,5358:328-337.
[9]Fischler M A,Bolles R C.Random sample consensus:a paradigm for model fitting with applications to image analysis and automated cartography[J].Communication of ACM,1981,24(6):381-395.
XU Jie,JIN Xiangliang,BAI Ruiguang
Faculty of Materials,Optoelectronics and Physics,Xiangtan University,Xiangtan,Hunan 411105,China
Aiming at the problem that the general camera’s field of view is too small,by collecting two frame images from different cameras which have some overlap regions simultaneously,the SIFT algorithm is used to find the video frame image feature points;the Dichotomy Based Hash(DBH)algorithm is used to match the SIFT feature points;the Random Sample Consensus(RANSAC)algorithm is used to eliminate the false matches,and the mosaiced video can be obtained.Experiments show that this method can mosaic the video frame in real-time effectively.In addition,the method is feasible to low overlapped(even to 10%)video image.
Scale Invariant Feature Transform(SIFT)feature point;image registration;Dichotomy Based Hash(DBH);realtime;video mosaic
針對普通攝像頭水平視角較小的問題,通過同時采集具有一定重疊區(qū)域的攝像頭視頻幀圖像,基于尺度不變特征變換(Scale Invariant Feature Transform,SIFT)特征點,用二分哈希搜索算法(Dichotomy Based Hash,DBH)進行匹配,用隨機采樣一致(Random Sample Consensus,RANSAC)算法消除誤匹配,得到幀圖像拼接映射關(guān)系。實驗結(jié)果表明,該方法能有效地實現(xiàn)攝像頭視頻實時拼接,克服了既有方法在重疊區(qū)域小于20%時失效的不足,在重疊區(qū)域為10%左右時仍能取得有效的拼接。
尺度不變特征變換(SIFT)特征點;圖像匹配;二分哈希;實時;視頻拼接
A
TP393
10.3778/j.issn.1002-8331.1202-0338
XU Jie,JIN Xiangliang,BAI Ruiguang.Improved real-time camera video mosaic method.Computer Engineering and Applications,2013,49(24):179-181.
湖南省自然科學(xué)基金(No.11JJ2036);湖南省教育廳資助科研項目(No.11A116)。
徐杰(1985—),男,碩士研究生,主研方向:數(shù)字圖像處理和機器視覺;金湘亮(1974—),通訊作者,男,教授,博士生導(dǎo)師,主研方向:信號處理、CMOS傳感器與集成電路設(shè)計等;白瑞廣(1986—),男,碩士研究生,主研方向:數(shù)字圖像處理和機器視覺。E-mail:jinxl@xtu.edu.cn
2012-02-20
2012-04-19
1002-8331(2013)24-0179-03
CNKI出版日期:2012-06-15http://www.cnki.net/kcms/detail/11.2127.TP.20120615.1726.022.html