繆 君,儲 珺,張桂梅
(1.南昌大學(xué)機(jī)電工程學(xué)院,江西 南昌 330031;2.南昌航空大學(xué)計算機(jī)視覺研究所,江西 南昌 330063)
隨著大場景重建、激光掃描等技術(shù)的迅速發(fā)展以及“智慧城市”概念的提出,基于圖像重建大規(guī)模虛擬城市場景在城市規(guī)劃、智能導(dǎo)航、城市監(jiān)控等方面具有廣泛地應(yīng)用前景[1-3]。窗戶是城市建筑物的一種典型表面結(jié)構(gòu),窗戶的識別與檢測不但對重建模型有很大的簡化作用,還能使模型更接近現(xiàn)實[4]。
常見的窗戶檢測方法可分為2類:
(1) 基于圖像處理的方法。這類方法通常針對特定輸入的單張圖像,利用圖像處理的技術(shù)來尋找窗戶的幾何屬性。常用的圖像處理技術(shù)包括梯度投影[5-7]和閾值分割[8]等。①梯度投影技術(shù),當(dāng)圖像中包括其他非建筑物物體(如樹木、行人)或建筑物表面紋理較豐富時,投影峰值區(qū)間常和窗戶的位置不一致。②閾值分割技術(shù),當(dāng)圖像不具有單峰灰度分布的目標(biāo)和背景組成時,很難通過直方圖的屬性尋找最佳分割閾值來定位窗戶位置。
(2) 基于機(jī)器學(xué)習(xí)的方法[9-11]。在這類方法中,窗戶識別經(jīng)常被作為建筑物圖像理解算法中的一部分內(nèi)容來處理。窗戶被視為組成建筑物各部分結(jié)構(gòu)的基元之一,其具有一定概率分布的隨機(jī)變量,用馬爾科夫隨機(jī)場(Markov random field, MRF)表示多個基元之間的相互關(guān)系,再利用貝葉斯規(guī)則,對窗戶的結(jié)構(gòu)參數(shù)(長、寬、縱橫比等)和位置進(jìn)行估計。這類方法需要對窗戶的組成結(jié)構(gòu)和分布有較強(qiáng)的先驗知識,窗戶的分布模型和上下文模型均須事先給定,因此模型的選擇會對識別結(jié)果產(chǎn)生決定性的影響,同時,因為每一類基元是用相同的參數(shù)模型進(jìn)行表述,對于不同結(jié)構(gòu)的窗戶來說,這往往不準(zhǔn)確。也有一些方法針對窗戶設(shè)計了模型,例如,Cech和Sara[12]利用正面圖像中窗戶呈規(guī)則矩形且外觀變化小的特點,建立了一種比傳統(tǒng)MRF更強(qiáng)的結(jié)構(gòu)模型。Ali等[13]利用樣本圖像的多尺度Haar特征進(jìn)行分類器訓(xùn)練,產(chǎn)生窗戶檢測的級聯(lián)Adaboost分類器。這些算法通常將窗戶檢測等同于圖像中完整矩形結(jié)構(gòu)的檢測,但一般來說建筑物圖像都包含大量邊緣,而且當(dāng)圖像中存在較多亮度、顏色、紋理的變化或局部遮擋時,提取的圖像邊緣會過于復(fù)雜,導(dǎo)致算法失效。
玻璃通常是窗戶包含的最主要部分,在圖像中,玻璃呈現(xiàn)的顏色和紋理與窗戶周圍的墻壁通常存在明顯差別,因此,本文利用窗戶中玻璃的屬性,提出一種先識別窗戶局部區(qū)域,然后再通過圖像分割提取完整窗戶區(qū)域的檢測方法。首先,將圖像的直線特征作為邊緣約束,從直線兩側(cè)提取圖像局部區(qū)域;然后從兩側(cè)區(qū)域提取顏色特征和紋理特征,利用其差異特征來識別圖像的含窗區(qū)域;最后結(jié)合圖像分割技術(shù),提取出整個窗戶。相比于其他算法,本文算法并不需要直接將窗戶的整體幾何形狀作為識別目標(biāo),而是僅需識別局部含窗區(qū)域,再利用窗戶玻璃紋理單一、顏色均勻易于分割的特點,分割出完整的窗戶。實驗表明,本文算法能夠準(zhǔn)確地檢測出圖像中的窗戶,而且檢測的窗戶形狀并不局限于矩形。
通常,單個建筑物外表面窗戶的結(jié)構(gòu)都相同或相似,窗戶的高和寬呈一定比例,且分布具有規(guī)律性、方向性的特點。窗戶的形狀以矩形居多,在圖像上,窗戶外框呈明顯的直線結(jié)構(gòu)。因此,從圖像中提取的直線可以作為窗戶檢測的定位約束,即使圖像包含其他直線特征(例如墻體、外掛物等),將直線特征作為檢測的初始約束仍可以大大提高檢測速度。
本文采用文獻(xiàn)[14]的方法提取圖像中的直線。該方法利用合并像素來檢測直線段,并在線性時間(linear-time)內(nèi)得到滿意的計算效率和提取準(zhǔn)確度。再采用文獻(xiàn)[15]的方法,利用滅點對圖像進(jìn)行自標(biāo)定,并將提取的直線按方向進(jìn)行分類。圖1的直線分類的結(jié)果顯示,在窗戶邊框提取的直線被按照實際空間的平行方向分成兩類。
圖1 已分類的直線特征
雖然圖像中提取并分類的直線特征對窗戶檢測提供了位置約束,但僅憑借這些建筑物的幾何結(jié)構(gòu)信息很難判斷直線特征為窗戶的邊緣,也就不能確定窗戶的位置。
通常,由于光線的反射或折射現(xiàn)象,窗戶的玻璃和墻體的顏色存在很大區(qū)別。光線照射在窗戶的玻璃上時,大部分光線發(fā)生折射進(jìn)入了室內(nèi),經(jīng)室內(nèi)多次反射后,從窗戶反射回室外的光線強(qiáng)度已經(jīng)變的很弱,加之室外的光照很強(qiáng),這些反射光很難被攝像機(jī)捕捉,這導(dǎo)致圖像上的窗戶通常呈現(xiàn)黑色或灰色。而光線照向墻壁時,由于墻壁的表面粗糙而發(fā)生漫反射,反射光線射入攝像機(jī)的光線多,因此從圖像上看到墻壁是亮的。另外,玻璃的材質(zhì)遠(yuǎn)比墻面光滑,這導(dǎo)致了二者圖像紋理的區(qū)別。
因此,本節(jié)首先在直線特征兩側(cè)提取局部窗口,然后分別在兩側(cè)窗口提取顏色和紋理的特征,接著將提取的特征進(jìn)行比較,并對二者的比較特征進(jìn)行學(xué)習(xí),最后通過特征分類的方式達(dá)到識別局部窗戶的目的。
假設(shè)局部窗口圖像為I(h,s,v),h為顏色的色調(diào)分量、s為飽和度分量、v為明度分量。由于黑色色調(diào)值等于160,這和其他一些顏色(例如淡藍(lán)色)的色調(diào)值接近,因此色調(diào)分量被忽略,只有直線特征兩側(cè)的飽和度和明度值被比較。考慮到窗戶內(nèi)通常存在一些用來支撐玻璃的梁,這些梁的面積遠(yuǎn)遠(yuǎn)小于玻璃面積,因此將橫梁看作是圖像噪聲。假設(shè)一側(cè)局部區(qū)域內(nèi)的顏色飽和度等級取0,1,…,L-1。為了消除此類噪聲影響,用“飽和度——鄰域均值”的直方圖來描述局部區(qū)域。
定義像素點(m,n)的飽和度值s(m,n),則在該像素點周圍3×3的鄰域D內(nèi)的平均飽和度值為:
式(1)中,k是鄰域內(nèi)像素點的個數(shù)。
局部區(qū)域的飽和度值的直方圖統(tǒng)計為:
此處,z1,z2=0,1,…,L-1,K是局部窗口中像素點的個數(shù)。
同理可得“明度——鄰域均值”直方圖統(tǒng)計:
在直線特征一側(cè)局部區(qū)域分別得到1×L的飽和度和明度的直方圖向量Hs1和Hv1。同理,在另一側(cè)得到直方圖向量Hs2和Hv2。計算向量歐氏距離將歐式距離作為顏色特征。
圖像的二階統(tǒng)計特征常作為紋理分析的工具,也被認(rèn)為最有效和可靠,常使用的有共生矩陣、差分統(tǒng)計、鄰域灰度依賴矩陣。鑒于常見墻壁和玻璃的材質(zhì)特點,本文使用圖像灰度共生矩陣作為紋理特征的提取工具。從考慮區(qū)域的平滑性、區(qū)域內(nèi)各像素位置對鄰域像素的依賴性、對比性與相關(guān)性出發(fā),利用直線特征單側(cè)區(qū)域的灰度共生矩陣向量導(dǎo)出紋理統(tǒng)計特征:能量、熵、對比度、同質(zhì)性、相關(guān)性。
假設(shè)區(qū)域灰度等級為Ng,在點對的灰度值為(i,j)處對應(yīng)的頻數(shù)為P(i,j)。頻數(shù)P(i,j)定義為從圖像灰度值為i的像元 (x,y)出發(fā),統(tǒng)計與其距離為d,與坐標(biāo)軸橫坐標(biāo)夾角為θ,灰度值為j的像元(x+a,y+b)出現(xiàn)的次數(shù),其數(shù)學(xué)表達(dá)式為:
其中,f表示灰度圖像矩陣,a和b為與出發(fā)點偏移的距離。
當(dāng)灰度共生矩陣P計算完畢后,通過矩陣P提取特征:
(1) 能量(energy)。用來度量圖像灰度分布均勻程度和紋理粗細(xì)度,能量值大表明當(dāng)前紋理是一種規(guī)則變化較為穩(wěn)定的紋理。從窗檢測的分析來看,含窗一側(cè)的區(qū)域內(nèi)玻璃的紋理更平滑,應(yīng)具有更大能量值。
(2) 熵(entropy)。熵值是對圖像信息量的度量,它可用來評價紋理信息的混亂程度。若圖像無任何紋理,則灰度共生矩陣幾乎都為零,那么熵值也接近于零。若圖像充滿細(xì)紋理,則圖像的熵值最大。從理論上分析,光滑的玻璃紋理區(qū)域的信息熵應(yīng)接近于零,而墻壁的粗糙紋理包含的信息熵更大。
(3) 對比度(contrast)。對比度矩陣的值用來度量圖像中灰度值局部變化的多少,反應(yīng)了圖像的清晰度和紋理的溝紋深淺。紋理的溝紋越深,反差越大,效果清晰;反之,對比值小,則溝紋淺,效果模糊。
(4) 同質(zhì)性(homogeneity)。度量圖像紋理局部變化的多少,反映圖像紋理的同質(zhì)性。從理論上分析,窗戶紋理的不同區(qū)域間比墻壁缺少變化,局部非常均勻,同質(zhì)性值更大。
(5) 相關(guān)性(correlation)。描述灰度共生矩陣中的元素在行或列的方向上的相似程度,其反應(yīng)了圖像紋理的一致性。
其中,xμ、yμ是均值,xσ、yσ為方差。
學(xué)習(xí)過程中,學(xué)習(xí)樣本為只有一側(cè)含玻璃紋理的直線特征局部圖像,提取其顏色特征和紋理特征,并計算其均值和協(xié)方差,為Mahalanobis距離分類器提供參數(shù)分析。具體過程如下:
(1) 給定含直線特征的k幅大小為2M×N的含玻璃紋理的局部圖像,計算每幅圖像的顏色及紋理特征向量
(2) 計算特征向量fwi的均值m和協(xié)方差矩陣C:
分類的目的是將待檢測圖像分為含玻璃圖像和不含玻璃圖像兩類。文中使用Mahalanobis距離分類器,分類步驟如下:
(1) 在待檢測圖像的每一直線特征處取大小為2M×N大小的局部區(qū)域,計算區(qū)域的特征向量fwi。
(2) 計算該區(qū)域特征向量和均值向量之間的Mahalanobis距離:
式(12)中,均值m和協(xié)方差矩陣C由學(xué)習(xí)階段確定。
(3) 若區(qū)域的特征向量與均值向量之間的距離小于某一閾值,則判定該區(qū)域含有玻璃,否則判斷其不含玻璃。
由于窗戶區(qū)域絕大部分為玻璃,紋理一致,顏色單一,而且常和墻壁顏色差別很大。另外,通常建筑物墻面紋理也是單一的,這給利用圖像分割技術(shù)提取出窗戶提供了很好的條件。本文利用測地星形凸集圖像分割的技術(shù)[16],將檢測窗口處于玻璃區(qū)域的部分作為前景,將處于非玻璃區(qū)域的部分和直線特征視為背景,實現(xiàn)對含玻璃的區(qū)域做前景與背景的自動標(biāo)記,再將窗戶區(qū)域分割出來。圖2為分割的前景和背景的標(biāo)記示例,白色實線為前景標(biāo)記,白色虛線是背景標(biāo)記。
圖2 圖像分割所有的前景和背景標(biāo)記
為了驗證算法的有效性和可行性,本文分別對兩種圖像集測試:圖像集1由某大學(xué)建筑物的白天圖像組成,圖像總數(shù)為20幅,其中人工選出5幅圖像作為樣本。圖像集2由ZuBuD圖像[17]集中的6個建筑物在5個不同視點下的30幅圖像構(gòu)成,其中人工選出6幅圖像,校正后作為樣本。
對于樣本的訓(xùn)練,首先提取圖像直線特征;然后手工截取直線兩側(cè)的局部含窗區(qū)域。局部窗口以直線中點為對稱中心,大小為(長×寬),其中,l為直線長度;最后提取區(qū)域的顏色和紋理特征。為降低計算量,在提取區(qū)域顏色特征階段,將飽和度和明度的等級都定義為20級,在提取區(qū)域紋理特征階段,將灰度等級定義為8級,并將所得向量歸一化處理。在灰度共生矩陣的計算中,點對與圖像橫坐標(biāo)夾角θ=0°,距離d=1像素。
在檢測階段注意到,當(dāng)建筑物表面和攝像機(jī)主軸不垂直時,其表面反映為成角透視或傾斜透視的圖像。如圖2所示,由于窗戶的形狀發(fā)生透視變形,窗框的矩形邊變的不垂直。為了彌補(bǔ)透視變形帶來的直線兩側(cè)信息不平衡,局部窗口使用已發(fā)生透視變形的矩形,將離直線端點最近的直線作為局部窗口寬的方向,如圖2所示,提取的局部窗口為窗框處白色長虛線兩側(cè)的封閉區(qū)域(白色短虛線和實線所包圍的區(qū)域),上、下兩條寬邊的方向分別和上、下窗框邊緣的方向一致,邊長為。
圖3為對圖像集1測試的部分結(jié)果。結(jié)果顯示,對于不同的建筑物圖像,其中的窗戶能被正確提取。圖像集1中的建筑物窗戶結(jié)構(gòu)近似,墻壁顏色、紋理相同,所以分類特征有較高的準(zhǔn)確度。
圖4顯示了從圖像集2挑選的經(jīng)過校正后的訓(xùn)練圖像。在對圖像集2進(jìn)行實驗時,為了量化評估結(jié)果,本文從完整率和正確率兩方面對每個建筑物圖像的測試結(jié)果進(jìn)行統(tǒng)計。
其中,實際窗戶總量通過人工統(tǒng)計的方法獲得,其只包含圖像中主要建筑物表面上的整體被顯示的窗戶。
為了比較評估,用文獻(xiàn)[8]的方法對圖像集2進(jìn)行了實驗,并將其實驗結(jié)果與本文算法進(jìn)行比較與分析。兩種方法的實驗結(jié)果如表1與圖5所示。
圖5顯示的測試圖像是和訓(xùn)練圖像對應(yīng)的同一建筑物的不同視點的部分圖像。本文算法結(jié)果如圖5第一行圖所示,在圖像透視變形不太大時,大部分的窗戶都能被正確檢測。另外,部分拱形的窗戶也能被檢測。這是因為本文算法是基于窗戶局部區(qū)域的檢測,當(dāng)判斷出局部區(qū)域為窗戶時,再通過圖像分割技術(shù)提取,而不用考慮窗戶的整體形狀。但是,在圖像透視變形嚴(yán)重的區(qū)域,窗戶很難被檢測。檢測失敗的原因主要有兩方面:一方面,變形過大,邊緣兩側(cè)的信息對比不明顯,導(dǎo)致顏色和紋理的特征差異?。涣硪环矫?,窗戶的玻璃區(qū)域被突出的窗框嚴(yán)重遮擋。
表1顯示了兩種算法的完整率與正確率的實驗統(tǒng)計。表1第一列字母分別對應(yīng)著圖5所屬的圖像組。表1顯示,本文算法在圖5圖像組(a)的完整率最高,圖5圖像組(f)最低。這是因為圖5圖像組(a)的窗戶大多和攝像機(jī)光軸垂直,透視變形最小,窗框直線的局部區(qū)域特征和訓(xùn)練的特征更相似。而圖5圖像組(f)的窗戶透視變形很大,圖像中很多窗戶的玻璃被突出墻壁的窗框遮擋,因此很難被檢測。從正確率可以看出,本文算法對每組圖像的窗戶整體定位具有高的精度,這體現(xiàn)了算法好的穩(wěn)定性。
本文算法的完整率比文獻(xiàn)[8]算法低,但正確率比其高很多。這是因為文獻(xiàn)[8]算法的檢測主要基于圖像亮度的閾值分割,由于玻璃區(qū)域的亮度值相近,當(dāng)閾值適當(dāng)時,這些連續(xù)的區(qū)域都能被檢測,因此這種方法的完整率更高。但當(dāng)圖像中的窗戶與其鄰域區(qū)域的亮度差異較小時,窗戶很難被準(zhǔn)確分割,如圖5第二行圖所示,文獻(xiàn)[8]算法檢測的窗戶包含了很多錯誤區(qū)域。而本文算法利用了圖像顏色與紋理特征的綜合比較,因此準(zhǔn)確率更高。
為了驗證提出的算法對訓(xùn)練集之外圖像的檢測效果,本文利用圖像集2的訓(xùn)練特征對ZuBuD圖像[17]集中的其他6個建筑物,分別在5個視點下的共30幅圖像進(jìn)行了識別,圖6第一行圖顯示了這些建筑物中最接近正面視點的圖像,圖6第二行圖顯示了其檢測結(jié)果。表2統(tǒng)計了檢測結(jié)果的正確率與完整率。檢測結(jié)果顯示,本文算法對訓(xùn)練集之外的建筑物也同樣適用,而且當(dāng)建筑物墻面顏色及紋理和玻璃相差較大時,檢測體現(xiàn)了好的正確性。但是,當(dāng)二者相差不大時,完整率不高,很多窗戶會被漏檢。其中的原因主要有2個:①窗戶邊緣處的直線兩側(cè)的統(tǒng)計特征區(qū)別性不強(qiáng),差異小,特別是當(dāng)窗戶被樹木或其他物體遮擋時,樣本存在的噪聲極大影響了完整率;②顏色和紋理屬于不同屬性的特征,雖然歸一化后可以減少不同屬性特征的量綱影響,但由于分類器仍是單一閾值的判斷方式,很難排除特征之間相關(guān)性的干擾,因此,算法在保持高準(zhǔn)確度的同時,很難具有高完整率。
圖3 對圖像集1的測試結(jié)果
圖4 圖像集2中校正后用來訓(xùn)練的測試圖像
圖5 測試圖像集2的窗戶檢測
表1 本文算法與文獻(xiàn)[8]算法的窗戶檢測統(tǒng)計(完整率(%)/正確率(%))
圖6 本文算法對訓(xùn)練集外圖像的檢測
表2 本文算法對訓(xùn)練集外圖像的檢測正確率和完整率
本文提出了一種針對城市建筑物窗戶的識別方法。該方法首先將圖像邊緣作為窗戶的初始定位;然后從邊緣的鄰域區(qū)域提取顏色與紋理的差異特征來識別窗戶;最后通過圖像分割的方法將窗戶準(zhǔn)確地分割。本文提出的方法不需將窗戶的形狀結(jié)構(gòu)或分布的概率作為先驗信息,從而簡化了識別算法,而且可以適用于非矩形的窗戶檢測。綜上,本文算法是一種對建筑物窗戶自動識別與提取的有效策略與方法,但由于樣本特征與分類器缺陷的存在,其在檢測的通用性和完整度方面要有待進(jìn)一步地研究予以提高。
[1]Prandi F, Soave M, Devigili F, et al.Services oriented smart city platform based on 3D city model visualization [J].ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2014, 1: 59-64.
[2]Heo J, Jeong S, Park H K.Productive high-complexity 3D city modeling with point clouds collected from terrestrial LiDAR [J].Computers, Environment and Urban Systems, 2013, 41: 26-38.
[3]王付新, 黃毓瑜, 孟 偲, 等.三維重建中特征點提取算法的研究與實現(xiàn)[J].工程圖學(xué)學(xué)報, 2007, 28(3):91-96.
[4]Wang Ruisheng, Bach J, Ferrie F P.Window detection from mobile LiDAR data [C]//IEEE Workshop on Applications of Computer Vision.Washington DC, USA,2011: 58-65.
[5]Lee S C, Nevatia R.Extraction and integration of windows in 3D building models from ground view images [C]//IEEE Proceedings of Computer Society Conference on Computer Vision and Pattern Recognition.Washington DC, USA, 2004: 113-120.
[6]Recky M, Leberl F.Window detection in complex facades [C]//IEEE the 2nd European Workshop on Visual Information Processing.Paris, France, 2010: 220-225.
[7]Kulkarni V, Nagesh R, Wu Hong.Window detection in frontal facades [R].Project Work at CS294-69 Image Manipulation and Computational Photography.California:University of Barkley, 2011.
[8]Miljanovic M, Eiter T, Egly U.Detection of windows in facades using image processing algorithms [J].Indian Journal of Computer Science and Engineering, 2012, 3(4):539-547.
[9]Tylecek R, Sara R.Stochastic recognition of regular structures in facade images [J].Information and Media Technologies, 2012, 7(3): 1109-1116.
[10]Martinovic A, Van Gool L.Bayesian grammar learning for inverse procedural modeling [C]//IEEE Conference on Computer Vision and Pattern Recognition.Portland,USA, 2013: 201-208.
[11]Serna A, Marcotegui B.Detection, segmentation and classification of 3D urban objects using mathematical morphology and supervised learning [J].ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 93:243-255.
[12]Cech J, Sara R.Windowpane detection based on maximum aposteriori probability labeling [C]//International Workshop on Combinatorial Image Analysis.Buffalo, USA, 2008: 3-11.
[13]Ali H, Seifert C, Jindal N, et al.Window detection in facades [C]//IEEE International Conference on Image Analysis and Processing.Modena, Italy, 2007: 837-842.
[14]Gioi R G V, Jakubowicz J, Morel J M, et al.LSD: a fast line segment detector with a false detection control [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(4): 722-732.
[15]Feng Chen, Deng Fei, Kamat V R.Semi-automatic 3D reconstruction of piecewise planar building models from single image [C]//10th International Conference on Construction Applications of Virtual Reality.Sendai,Japan, 2010: 309-318.
[16]Gulshan V, Rother C, Criminisi A, et al.Geodesic star convexity for interactive image segmentation [C]//IEEE Conference on Computer Vision and Pattern Recognition.Francisco, USA, 2010: 3129-3136.
[17]Griesser A.Zurich building image database [EB/OL].[2014-06-29].http://www.vision.ee.ethz.ch/showroom/zubud/index.en.html.