• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于立體視覺的一般物體識別方法

    2013-12-23 06:32:08李新德
    關(guān)鍵詞:攝像機(jī)物體單詞

    李新德 張 曉 朱 博

    (東南大學(xué)復(fù)雜工程系統(tǒng)測量與控制教育部重點實驗室,南京210096)(東南大學(xué)自動化學(xué)院,南京210096)

    所謂一般物體識別(generic object recognition),是指期望計算機(jī)像人類一樣,對于任意環(huán)境下的任意物體都具有較強(qiáng)的檢測、識別能力,要求在給定訓(xùn)練樣本的前提下,計算機(jī)能夠?qū)W習(xí)該物體類別的知識,并在觀察到同類但外觀和結(jié)構(gòu)等有所變化的新物體時,給出準(zhǔn)確的識別結(jié)果[1].當(dāng)前,物體識別技術(shù)仍然處在一個快速發(fā)展的初級階段,對于某些特定的應(yīng)用存在一些專門的解決方案,但是一個通用、魯棒的理論和算法框架尚未出現(xiàn).在物體識別過程中,背景雜物一直是影響物體識別性能的重要因素,往往導(dǎo)致有用信息被嚴(yán)重破壞,從而影響了后續(xù)的理解和判斷.

    根據(jù)識別方法是否對局部特征之間的關(guān)系建模,可以將識別方法分為基于統(tǒng)計的方法[2]與基于物體部件的方法[3].Kwon等[4]提出了一種基于小塊的動態(tài)外觀建模方法,以跟蹤高度柔性變形目標(biāo),但該方法還有待驗證其在復(fù)雜環(huán)境下對象受遮擋或者多個對象同時存在時的識別性能.Niu等[5]利用基于部件的視覺表示來擴(kuò)展DiscLDA物體識別模型,能夠同時對物體的部件形狀和位置進(jìn)行建模,但該方法較多依賴先驗知識.Wang等[6]定義了一種正定核(即結(jié)構(gòu)核),通過它來衡量2個對象之間的形狀與空間部件構(gòu)造的相似性,但該方法在結(jié)構(gòu)核訓(xùn)練參數(shù)調(diào)節(jié)方面仍然需要改進(jìn).Ren等[7]提出采用Kinect傳感器進(jìn)行基于部件的手姿勢識別,為人機(jī)交互提供了方便,但該方法的魯棒性有待進(jìn)一步改進(jìn).Felzenszwalb等[8]采用基于部件的區(qū)別訓(xùn)練模型進(jìn)行目標(biāo)檢測.相對于單目相機(jī),雙目相機(jī)除了可以拍攝環(huán)境的二維圖像外,還可以得到環(huán)境中物體的三維信息,這為一般物體識別提供了新的思路.Helmer等[9]利用立體視覺,根據(jù)物體的實際尺寸以及深度信息,計算出物體的圖像尺寸,并結(jié)合物體的外觀(shape)信息,進(jìn)行一般小物體的識別,但該方法注重依賴某些先驗知識(如目標(biāo)尺寸等).

    本文提出了一種面向復(fù)雜背景下的一般物體識別方法.該方法的核心在于融合二維圖像信息與雙目相機(jī)獲取的深度信息,對視野中的環(huán)境進(jìn)行物體定位、圖像分割、特征描述和物體識別.

    1 圖像信息獲取

    雙目立體視覺三維測量是基于視差原理的.將2個攝像機(jī)投影中心的距離定義為基線距B.利用這2個攝像機(jī)在同一時刻觀看空間物體的同一特征點P,以獲取點P的圖像,令左攝像機(jī)與右攝像機(jī)上點P的圖像坐標(biāo)分別為pl=(xl,yl),pr=(xr,yr).假定這2幅圖像在同一個平面上,則特征點P的縱坐標(biāo)相同,即yl=yr=yt.由三角幾何關(guān)系可得

    (1)

    式中,f為攝像機(jī)的焦距;xc,yc,zc為點P在攝像機(jī)坐標(biāo)系下的坐標(biāo).令視差Dv=xl-xr,則特征點P在攝像機(jī)坐標(biāo)系下的三維坐標(biāo)值為

    (2)

    因此,對于左攝像機(jī)成像平面上某一點,只要能在右攝像機(jī)成像平面上找到對應(yīng)點,就可以確定出該點的實際坐標(biāo).

    2 物體定位

    獲取環(huán)境的三維點云數(shù)據(jù)(x,y,z,u,v,fg).其中,(x,y,z)表示某一個三維點云相對于攝像機(jī)坐標(biāo)的三維物理坐標(biāo),(u,v)表示該點在二維圖像上的像素坐標(biāo),fg表示該點的標(biāo)志位.

    同一個物體上的點云具有連續(xù)性,且物體之間存在較大的間隔.可利用此特性進(jìn)行場景分析,從而實現(xiàn)物體的分割.

    選用mean-shift算法[10]實現(xiàn)對三維點云的場景聚類,并對潛在物體進(jìn)行定位.給定d維空間Rd中的n個樣本點ξi(i=1,2,…,n),點ξ的mean-shift向量的基本形式為

    (3)

    式中,k表示落入Sh區(qū)域中樣本點的個數(shù);Sh表示半徑為h的高維球區(qū)域內(nèi)滿足以下關(guān)系的ζ點的集合所在區(qū)域:

    Sh(ξ)={ζ:(ζ-ξ)T(ζ-ξ)≤h2}

    (4)

    由式(4)可以看出,所有落入興趣區(qū)域的采樣點對最終的概率密度函數(shù)Mh(ξ)的計算貢獻(xiàn)是一樣的.然而,事實上距離ξ越近的采樣點對估計ξ越有效.因此,這里引入核函數(shù),以便在計算Mh(ξ)時可以考慮距離對最終結(jié)果的影響.即基本mean-shift向量Mh(ξ)可擴(kuò)展為

    (5)

    式中,G(ξ)為單位核函數(shù);H為正定的對稱矩陣(即對帶寬矩陣);w(ξi)≥0為采樣點ξi的權(quán)重.對w(ξi)和G(ξ)進(jìn)行如下設(shè)定:

    (6)

    在實際處理過程中,待分析的物體都處于地平面上.為了減少運算數(shù)據(jù)量,進(jìn)行數(shù)據(jù)聚類前,需要剔除一些物理空間上不可能存在的點云.由于攝像機(jī)水平放置,且攝像機(jī)高度已知,故對(x,y,z,u,v,fg)中的高度y進(jìn)行限定.

    3 圖像分割

    點云信息是三維的,若兼顧深度方向上的聚類,單純從正面的二維圖像上描述并不完全符合客觀實際.但從二維圖像上看絕大多數(shù)圖像點是聚合在一起的,故可通過對每一類的點(u,v)進(jìn)行數(shù)據(jù)處理,實現(xiàn)去噪和物體分割.具體步驟如下:

    ③ 對于運算后得到的結(jié)果,重復(fù)步驟①和②一次.

    4 一般物體識別

    傳統(tǒng)的一般物體識別方法大部分采用詞袋BoW模型[11].在文獻(xiàn)[12]中,為了增加信息的冗余度,利用物體部件空間關(guān)系的統(tǒng)計信息來描述一幅圖像中所有特征點的空間(相對距離和角度)關(guān)系,增廣了原BoW模型中的特征向量,實現(xiàn)了日常家居環(huán)境下的一般物體識別.

    4.1 視覺詞典的構(gòu)建

    構(gòu)建視覺詞典的目的是希望通過詞典中的視覺單詞來盡可能多地描述某一類物體.鑒于同一類物體中物體和物體之間的差異性以及旋轉(zhuǎn)、縮放等其他因素的影響,視覺單詞應(yīng)具有較好的魯棒性.Lowe[13]提出的sift算法具有較好的特征描述效果,故本文將其作為特征檢測手段來構(gòu)建視覺詞典.經(jīng)過sift算法特征檢測后,每幅圖像都由一個128維特征向量集合來描述.如果直接利用這些高維向量進(jìn)行物體識別,冗余信息多,計算量太大,故需要對視覺詞庫中的視覺單詞進(jìn)行聚類分析.K均值聚類算法是一種迭代算法,在迭代過程中不斷更新各類的中心,并且移動各類的成員直至得到理想的集合為止.在利用該聚類算法得到的集合中,成員間的相似度很高,并且不同集合中成員之間的相異度也很高.經(jīng)過K均值聚類,將視覺詞庫限定為N個視覺單詞的規(guī)模,從而得出某一類物體的視覺詞典.

    4.2 圖像描述

    借鑒BoW模型對圖像的描述方法,用一個多維向量來表示一幅圖像.文獻(xiàn)[12]提出了一種新的圖像描述表達(dá)式.描述向量由視覺單詞的數(shù)量和視覺單詞之間的空間關(guān)系2個部分組成.

    視覺單詞的數(shù)量表征的是視覺單詞庫中某類視覺單詞出現(xiàn)的次數(shù).假設(shè)視覺詞庫中有E個視覺單詞,則該類物體的視覺單詞數(shù)量描述部分為E維,U={t0,t1,t2,…,tE-2,tE-1}表示視覺詞典中單詞統(tǒng)計構(gòu)成的視覺單詞直方圖,其中tp(p=0,1,…,E-1)表示第p個視覺單詞出現(xiàn)的次數(shù).

    每個視覺單詞的位置為其相對于特征點幾何中心的距離和角度.視覺單詞之間的空間關(guān)系是對所有特征點位置的統(tǒng)計.假設(shè)特征點的幾何中心為

    (7)

    式中,χ為處理后特征點的個數(shù).

    計算特征點與幾何中心(xo,yo)的歐式距離D1,D2,D3,…,Df-1,Df,取中值作為單位長度D,其他長度按照各自長度與D的比值劃分為4個區(qū)間,即0~0.5D,0.5D~D,D~1.5D,1.5D~Dm,其中Dm=max{D1,D2,D3,…,Df-1,Df}.

    將每個特征點與其逆時針方向的最近鄰點構(gòu)成的夾角記作該點對應(yīng)的角度.通過簡單的數(shù)學(xué)變換,可以得到特征點對應(yīng)的角度θ1,θ2,θ3,…,θf-1,θf.由于每一幅圖像都有上百個特征點,每2個特征點之間的角度不會很大,因此將特征點的分布角θ量化為如下5個區(qū)間:0°~30°,30°~60°,60°~90°,90°~120°,120°~θm,其中θm=max{θ1,θ2,θ3,…,θf-1,θf}.

    至此,任何一幅圖像都可以描述為

    Q=U+V

    (8)

    式中,V={q0,q1,…,q8}為視覺單詞相對于幾何中心的空間關(guān)系(包含距離和角度)直方圖.其中,qs(s=0,1,2,3)為第s個特征點相對于幾何中心(xo,yo)距離在可能的區(qū)間0~0.5D,0.5D~D,D~1.5D,1.5D~Dm出現(xiàn)的次數(shù);qr(r=4,5,6,7,8)為第r個特征點的分布角在可能的區(qū)間0~30°,30°~60°,60°~90°,90°~120°,120°~θm中出現(xiàn)的次數(shù).

    4.3 支持向量機(jī)分類器

    支持向量機(jī)(support vector machine,SVM)是一種基于結(jié)構(gòu)風(fēng)險最小化原理的、性能優(yōu)良的機(jī)器學(xué)習(xí)方法.

    對于一個給定的包含正例和反例的樣本集合,支持向量機(jī)的目的是尋找一個超平面來對樣本進(jìn)行分割,把樣本中的正例和反例用超平面分開,超平面是平面中的直線在高維空間中的推廣.SVM算法通過在特征空間中計算一個滿足最大間隔的超平面,來實現(xiàn)多維數(shù)據(jù)的劃分.對于一個變量X以及所屬類別標(biāo)簽Y=±1,可以獲得如下的分類函數(shù):

    Y=sign(wTX+b)

    (9)

    式中,w,b為超平面的參數(shù).訓(xùn)練過程中,用含有目標(biāo)物體的圖片作為正的圖片輸入時,Y=1;用不含有目標(biāo)物體作為負(fù)的圖片輸入時,Y=-1.由此便可離線訓(xùn)練出判別一般物體的支持向量機(jī)函數(shù).

    5 CUDA環(huán)境下的GPU加速處理

    GPU是相對于CPU的一個概念,在圖像處理性能上相對于傳統(tǒng)的CPU有很大的優(yōu)勢[14].針對CUDA運算的特點,本文將整個處理過程中的sift算法和mean-shift算法進(jìn)行了改寫,GPU加速前后算法效果對比見表1.系統(tǒng)配置如下:操作系統(tǒng)為32位win7,內(nèi)存為2 GB,CPU采用 Intel(R) Core(TM) 2Duo E7500@2.93 GHz,GPU采用 nVIDIA GeForce310,專用圖像內(nèi)存為512 MB,共用系統(tǒng)內(nèi)存為766 MB,編譯器環(huán)境為vs2010.

    表1 GPU加速前后算法效果對比

    6 實驗結(jié)果

    利用PointGrey公司生產(chǎn)的Bumblebee立體相機(jī),實時得到場景深度信息和三維模型,進(jìn)行一般物體識別,并從不同角度驗證本文方法的魯棒性和準(zhǔn)確性.

    6.1 不同物體的識別實驗

    本實驗主要測試方法的魯棒性能,針對實驗室中的風(fēng)扇、雨傘、紙簍等物品進(jìn)行識別.基于雙目相機(jī)得出的環(huán)境三維點云信息以及二維圖像信息,利用本文方法可以正確識別不同環(huán)境下的不同物體.圖1~圖3分別為風(fēng)扇、雨傘和紙簍的原始圖像和識別結(jié)果.圖中,虛框線表示判別的結(jié)果不是目標(biāo)物,實框線表示判別的結(jié)果是目標(biāo)物.

    圖1 風(fēng)扇識別

    圖2 雨傘識別

    圖3 紙簍識別

    6.2 同類物體的識別實驗

    由于本文方法具有圖像分割的作用,因此,即使場景中包含多個同樣物體,也可以進(jìn)行識別.圖4為實驗結(jié)果,場景中包含2把雨傘,實框線標(biāo)識的是識別出來的目標(biāo)物.

    圖4 同類多物體識別

    6.3 復(fù)雜背景下的物體識別實驗

    將待識別物體放置于背景相對較為復(fù)雜的環(huán)境中,采用純粹二維空間的一般物體識別方法[12]進(jìn)行識別時,無法辨識出目標(biāo)物;采用本文方法則可識別目標(biāo)物(見圖5).圖5中,虛框線表示判別的結(jié)果不是目標(biāo)物,實框線表示判別的結(jié)果是目標(biāo)物.

    圖5 復(fù)雜背景下的識別結(jié)果

    6.4 不同距離下的物體識別實驗

    在物體正面與相機(jī)夾角較小的情況下,通過改變相機(jī)與物體之間的距離,比較本文方法與文獻(xiàn)[12]方法的識別精度.將室內(nèi)常見的風(fēng)扇作為待識別物體,在真實實驗室環(huán)境下采集了216幅圖像以及點云數(shù)據(jù),結(jié)果見圖6.圖中,P表示識別精度,且

    (10)

    式中,Nr為正確識別的樣本數(shù);NT為總樣本數(shù).

    圖6 不同距離下的識別精度

    由圖6可知,在相機(jī)與物體距離較小的情況下,由于物體在圖像中所占比例較大,故2種方法的識別精度都很高并且相差不大.然而,在相機(jī)與物體距離較大的情況下,本文方法的識別精度明顯高于文獻(xiàn)[12]方法的識別精度.

    6.5 不同角度下的物體識別實驗

    在保持物體與相機(jī)距離基本固定(約0.6 m)的情況下,通過改變相機(jī)與物體正面之間的夾角,比較本文方法與文獻(xiàn)[12]方法的識別精度.同樣,將室內(nèi)常見的風(fēng)扇作為待識別物體,在真實實驗室環(huán)境下采集了224幅圖像以及點云數(shù)據(jù),結(jié)果如圖7所示.

    圖7 不同角度下的識別精度

    由圖7可知,隨著物體正面與相機(jī)夾角的增大,本文方法的識別精度較為穩(wěn)定,而文獻(xiàn)[12]方法的識別精度則下降較快,說明本文方法具有較好的魯棒性.

    7 結(jié)語

    本文提出了一種融合二維圖像信息與源自雙目相機(jī)的深度信息的一般物體識別方法.實驗結(jié)果證明了該算法的魯棒性與優(yōu)越性.但是,建立適用于任意環(huán)境的一般物體識別模型仍然是一大挑戰(zhàn).

    )

    [1] 田淵棟. 基于特征組合的一般物體識別相關(guān)算法研究[D].上海:上海交通大學(xué)計算機(jī)科學(xué)與工程系,2007.

    [2] 王利明. 機(jī)器視覺中物體識別方法的研究與探討[D]: 上海:復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,2009.

    [3] Felzenszwalb P F,Huttenlocher D P. Efficient matching of pictorial structures[C]//Proceedingsof2000IEEEConferenceonComputerVisionandPatternRecognition. Hilton Head,South Carolina,USA,2000:66-73.

    [4] Kwon J,Lee K M. Highly non-rigid object tracking via patch-based dynamic appearance modeling[J].IEEETransactiononPatternAnalysisandMachineIntelligence,2013.(to appear)

    [5] Niu Z X,Hua G,Gao X B,et al. Spatial-DiscLDA for visual recognition[C]//Proceedingsof2011IEEEConferenceonComputerVisionandPatternRecognition. Colorado Springs,CO,USA,2011:1769-1776.

    [6] Wang B T,Xiong H K,Jiang X Q,et al. Semi-supervised object recognition using structure kernel[C]//Proceedingsof2012IEEEInternationalConferenceonImageProcessing.Orlando,Florida,USA,2012: 2157-2160.

    [7] Ren Z,Yuan J S,Meng J J,et al. Robust part-based hand gesture recognition based on finger-earth mover’s distance[J].IEEETransactiononMultimedia,2013.(to appear)

    [8] Felzenszwalb P F,Girshick R B,McAllester D,et al. Object detection with discriminatively trained part-based models[J].IEEETransactiononPatternAnalysisandMachineIntelligence,2010,32(9):1627-1645.

    [9] Helmer S,Lowe D.Using stereo for object recognition[C]//Proceedingsof2012IEEEInternationalConferenceonRoboticsandAutomation. Anchorage,Alaska,USA,2010:3121-3127.

    [10] Fukunaga K,Hostetler L D. The estimation of the gradient of a density functions with applications in pattern recognition[J].IEEETransactionsonInformationTheory,1975,21(1):32-40.

    [11] Csurka G,Dance C R,Fan L,et al. Visual categorization with bags of keypoints[C]///ProceedingsofECCV’04WorkshoponStatisticalLearninginComputerVision. Prague,Czech Republic,2004:59-74.

    [12] 李新德,張曉,朱博,等.一種基于新奇GOR+GPU算法的機(jī)器人視覺導(dǎo)航方法[J].機(jī)器人,2012,34(4):466-475.

    Li Xinde,Zhang Xiao,Zhu Bo,et al. A visual navigation method for robot based on a GOR and GPU algorithm[J].Robot,2012,34(4):466-475. (in Chinese)

    [13] Lowe D G. Distinctive image features from scale-invariant key pints [J].InternationalJournalofComputerVision,2004,60(2):91-110.

    [14] 張舒,褚艷利.GPU高性能運算之CUDA[M].北京:中國水利水電出版社,2009.

    猜你喜歡
    攝像機(jī)物體單詞
    深刻理解物體的平衡
    單詞連一連
    我們是怎樣看到物體的
    看圖填單詞
    看監(jiān)控攝像機(jī)的4K之道
    看完這些單詞的翻譯,整個人都不好了
    攝像機(jī)低照成像的前世今生
    新安訊士Q6155-E PTZ攝像機(jī)
    為什么同一物體在世界各地重量不一樣?
    如何消除和緩解“攝像機(jī)恐懼癥”
    新聞前哨(2015年2期)2015-03-11 19:29:25
    徐闻县| 南宫市| 玉林市| 丹江口市| 雅安市| 昆明市| 水城县| 宝兴县| 秦安县| 蛟河市| 准格尔旗| 芮城县| 浮山县| 衡山县| 定陶县| 赤壁市| 曲靖市| 巴马| 都兰县| 禄丰县| 荥经县| 宾阳县| 阿克苏市| 珲春市| 浮山县| 九龙县| 盱眙县| 余干县| 高青县| 榕江县| 柳州市| 航空| 和龙市| 黄大仙区| 昌邑市| 房山区| 新闻| 富蕴县| 安宁市| 南漳县| 台东市|