文/曾凡鋒 許博臣
版面分割是對版面內(nèi)的圖像、文本、表格等信息和位置關系所進行的自動分析、識別和理解的過程。其目標是將圖像劃分成若干個獨立的區(qū)域,使各區(qū)域內(nèi)的具有相同的特征,而不同區(qū)域間的特征在很大程度上是不同的。目前常使用的分割方法有:閾值分割法、邊緣檢測法、神經(jīng)網(wǎng)絡法、區(qū)域生長發(fā)等等。近年來,模式識別和機器學習中的許多算法逐漸被運用到了版面分割中,支持向量機(SVM)便是其中一個。
支持向量機(SVM)以結構風險最小化原則為理論基礎,避免了過擬合現(xiàn)象,學習機的泛化能力得到了進一步的提升。另外,其采用的核函數(shù)技術實現(xiàn)由低維到高維空間的非線性映射,能夠準確地處理復雜版面。采用SVM的關鍵步驟之一為圖像特征的提取。很多研究人員對此進行了相應的工作,如一些學者[2-4]提取圖像中每個像素的灰度值作為特征向量;瑞安等人[8]在上述方法的基礎上對這些像素進行了簡單的重組以作為新的特征向量;此外還有研究人員在特征提取中利加入了灰度統(tǒng)計特征來構成訓練特征向量,如歐宗瑛等人[5]將圖像的對比度、方向、頻率偏差作為特征向量;陳新建等人[7]將圖像的灰度均值、方差以及聚集度作為特征向量??傊鲜鲞@些方法在圖像的特征提取方面較為單一,當遇到諸如紋理信息較為豐富的版面,可能會使得版面分割的準確率下降。所以上述這些方法對處理具有復雜版面的圖像來說是較不適用的。
針對具有復雜版面的圖像,本文選取圖像的紋理特征和相位一致性統(tǒng)計特征,借助SVM對圖像進行版面分割,得到最終的分割結果。
相位一致性是指在圖像的頻率域中,邊緣相似的特征在同一階段出現(xiàn)的頻率較高,其理論基礎是圖像信號的相位。相較于基于灰度的邊緣特征提取方法,該方法是通過計算圖像的相位一致性來查找圖像的邊緣,并且它不受圖像光照不均所帶來的影響,能夠?qū)D像中的角、線、紋理等信息完整地反映出來。近年來,一些學者已將相位一致性統(tǒng)計特征應用在了圖像處理的課題中,如高分辨率遙感圖像分割。因此,本文對圖像的相位一致性特征進行了提取工作。
圖1:原始圖像
圖2:版面分割結果
首先,信號F(x)的傅里葉展開為:
相位一致性定義為:
其中,An是指局部幅值,即第n個余弦分量的幅度值;是指局部相位,后面的均值是指相位的加權平均值。
利用相位一致性計算出一幅圖像的相位一致性PC圖像,進而得到該圖像的一些統(tǒng)計量,它們分別為均值方差V、偏度SK、峰度BK、熵Ent,本文利用上述統(tǒng)計量作為特征向量,為后續(xù)SVM進行版面分割做準備。
在紋理特征提取方法中,灰度共生矩陣(GLCM)屬于最經(jīng)典的一個。這種算法的優(yōu)點是檢索紋理圖像的精度高,缺點是該陣為稀疏矩陣,導致計算量龐大,所占內(nèi)存也非常大。因此為了減少計算量和存儲量,本文對灰度共生矩陣做了一定的修改。
灰度共生矩陣是沿主對角線的對稱陣,將主對角線右上區(qū)域的值與左下區(qū)域?qū)膶ΨQ元素值進行求和,右上區(qū)域的值賦值為0,以形成下三角矩陣。接下來對新形成的矩陣計算和差向量,當相對位移沒有發(fā)生變化時,和與差的定義為:
和向量定義為:
差向量定義為:
正規(guī)化的和矢量與差矢量分別定義為:
其中:Hs和Hd分別表示和向量與差向量的長度。Haralick定義的常用紋理特征值中的四種可以由和差統(tǒng)計法直接計算出來,分別為角二階矩(UNI)、對比度(CON)、相關度(COR)、熵(ENT),將統(tǒng)計出的特征值作為特征向量,為后續(xù)SVM進行版面分割做準備。
支持向量機(SVM)是一種基于結構風險最小化原則建立起來的統(tǒng)計學習方法,該學習器具有較強的泛化能力,其本質(zhì)是一個分類器。版面分割的目標是根據(jù)人們的需要,將一幅圖像所需要的部分分割出來。顯然,SVM可以應用到版面分割中,它將圖像的像素劃分為兩類:一類是邊緣點像素、另一類是非邊緣點像素。
利用第二節(jié)提取出的相位一致性統(tǒng)計特征及紋理特征,本文構造了支持向量機(SVM)對圖像進行版面的分割。
分割過程如下:
首先,將一幅圖像的每個像素點構成特征向量xi。設A,B分別代表邊緣點與非邊緣點,則類別標志yi可以表示為:
線性判別函數(shù)須滿足如下條件:
其中,w為權重向量,b為常量。
兩類樣本的分類空隙(M)的間隔大小為:
此時,最優(yōu)分類面問題即在條件(3)的約束下,求公式(4)的最小值:
通過式(2)的須滿足的條件求解式(4)的最小值,得到全局最優(yōu)解則線性最優(yōu)分類判決函數(shù)為:
使用本文方法對如圖1所示圖像進行版面分割,分割結果如圖2所示。
為了檢測算法的分割效果,本文選取了包括文獻內(nèi)容、報紙、網(wǎng)頁等各類具有復雜版面的圖像。
利用傳統(tǒng)方法對圖像進行版面分割,具有復雜版面分割的準確率在75%左右,一般版面的準確率在85%左右;而本文算法的平均準確率達到了87.2%。實驗結果及與其他算法的比較表明,本文的算法對含有復雜內(nèi)容的版面具有較好的分割效果。
與傳統(tǒng)方法相比,時間復雜度偏高,這主要是由于在相位一致性統(tǒng)計特征的計算上所花時間較長,如果再對算法進行進一步的改進,相信算法在時間的花費上也會得到進一步的優(yōu)化。
本文提出了一種基于SVM的版面分割方法,即將圖像相位一致統(tǒng)計特征和紋理特征組合成訓練特征向量,再利用支持向量機對版面進行分割。實驗結果表明,該方法可以有效地進行復雜版面的分割工作。