傾斜文檔圖像的精確檢測與校正

2022-09-22 03:38:06夏莉麗劉一鋒彭家偉曾友徐則中

常州工學院學報 2022年4期

夏莉麗，劉一鋒，彭家偉，曾友，徐則中

(常州工學院計算機科學與技術(shù)系，江蘇常州 213032)

0 引言

隨著數(shù)字化技術(shù)的發(fā)展，基于文本文件的掃描圖像文字識別與處理技術(shù)目前已得到廣泛應用[1]。然而在將紙質(zhì)文件轉(zhuǎn)換為電子文檔的過程中，由于擺放不正或拍攝角度不正等原因，不可避免地會造成文檔圖像的傾斜。這種傾斜將對文本圖像的后續(xù)分析處理，如光學字符識別(OCR)[2]、版面分析[3]、電子作業(yè)自動批閱等產(chǎn)生不利的影響。因此，需要對傾斜的電子文檔圖像進行傾斜檢測與校正，以用于后續(xù)的文檔分析、識別。

文檔圖像傾斜角度的檢測是文檔圖像傾斜校正的前提。目前最常用的傾斜校正方法主要有投影法[4-5]、近鄰法[6]、傅里葉變換法[7]、Hough變換法[8-9]等。投影法選擇不同的角度進行投影測試，通過分析投影輪廓，選擇輪廓方差最大的測試角度作為文檔傾斜角，檢測精度依賴于測試角度的精度[10]。Hough變換法通過在參數(shù)空間里檢測最大值對應的角度，作為文檔的傾斜角。Hough變換法計算量大，且檢測精度與參數(shù)空間的離散度有關(guān)[11-12]。近鄰法的傾角檢測精度低。傅立葉變換法的計算量太大。

本文為了提高傾斜電子文檔的傾角檢測精度，通過計算對應每個測試角的水平投影方差，運用函數(shù)擬合技術(shù)將這些投影方差擬合，把函數(shù)取最小值所對應的角度作為文檔的傾斜角度，從而得到更高精度的文檔傾角。

1 傾斜文檔檢測與校正流程

對于掃描的印刷文檔圖像，其中都包含著大量具有相同方向和固定行間距的文字行，而對于拍照的手寫文檔圖像，雖然文字行之間沒有固定間距，但行與行之間總存在空隙。把文本區(qū)域向不同方向進行投影，通過分析投影點的分布情況確定文檔的傾斜角度。當投影方向與文本行方向一致時，投影點分布最為密集，也就是投影點的方差最小。

本文通過對傾斜的文檔圖像旋轉(zhuǎn)不同的角度，進行投影測試，計算對應不同角度的投影點方差。將這些方差擬合成二次函數(shù)，對函數(shù)求導，計算函數(shù)最小值對應的角，作為文檔的傾斜角度，進而對原始文檔進行旋轉(zhuǎn)變換，得到校正的電子文檔圖像。算法流程如圖1所示。

圖1 算法流程圖

2 文檔傾斜檢測

2.1 圖像預處理

首先對原始圖像進行灰度化處理，然后對圖片進行二值化處理。把原始文檔圖像轉(zhuǎn)換成灰度圖像如圖2(a)所示，再運用Otsu法進行閾值分割，得到二值化圖像，如圖 2(b)所示。

(a)灰度文檔圖像

2.2 投影測試

在每個測試角度時都將文檔圖像中的每個黑點像素向y軸進行水平投影，計算投影坐標，再根據(jù)投影坐標計算投影方差。步驟如下：

步驟一，選擇測試角度的范圍[-15°,15°]，測試角度的精度為1°。

步驟二，水平投影：對測試角度θ，把預處理后的傾斜文檔圖像中的每個黑點像素 (i,j)向y軸進行投影。投影坐標為

同時統(tǒng)計對應投影坐標y的投影數(shù)量H(y)。

把D(Y)記作對應該測試角度的投影方差σ2(θ)。

2.3 二次函數(shù)擬合

根據(jù)上述步驟得到每個測試角θ和其對應的方差σ2(θ)，以測試角θ為自變量，以方差σ2(θ)為因變量。擬合二次函數(shù)，表示為

σ2(θ)=a0+a1θ1+a2θ2。

通過投影測試得到的二次函數(shù)的數(shù)據(jù)如表1所示。

表1 測試角及其對應的方差

根據(jù)表1給出的數(shù)據(jù)擬合出一個二次函數(shù)，如圖3所示。

圖3 二次函數(shù)擬合圖像

2.4 傾角計算

根據(jù)方差最小化原則，最佳測試角對應的投影坐標方差應該最小，因此對擬合的二次函數(shù)σ2(θ)=a0+a1θ1+a2θ2求導數(shù)，求得其駐點，從而計算函數(shù)的局部最小值。

對上述擬合的二次函數(shù)求導，可得σ2(θ)=a1+2a2θ，令其等于0，得到函數(shù)最小值對應的角度，也就是文檔的傾斜角度：

3 文檔傾斜校正

得到圖像的傾斜角后，便可對圖像進行校正。對原始文檔進行旋轉(zhuǎn)變換，旋轉(zhuǎn)θ角。在進行旋轉(zhuǎn)變換時，采用雙線性插值算法計算校正圖像中每個像素點的灰度值。

基于雙線性插值算法，將圖2的傾斜文檔圖像進行旋轉(zhuǎn)變換，校正后的文檔圖像如圖4所示。

圖4 校正后的文檔圖像

4 實驗結(jié)果

4.1 傾斜檢測對比分析

為了評判本文校正方法的性能，首先選擇1幅掃描后沒有傾斜的印刷文檔圖像，分別旋轉(zhuǎn)變換不同的角度，并記作真值。然后用3種校正方法進行傾角檢測。測試角度選擇為[-15°，15°]，角度分辨率為1°。

采用投影輪廓方差最大法，進行水平投影測試，計算投影輪廓值的方差，選擇最大方差對應的角度為傾斜角度。采用Hough變換法進行變換，在參數(shù)空間中選擇值最大的10個單元格。把這10個單元格對應的角度進行平均，作為傾斜角度。采用本文提出的擬合方差最小法，計算投影坐標方差，進行二次函數(shù)擬合，把函數(shù)最小值對應的角度作為傾斜角度。檢測結(jié)果如表2所示。

表2 印刷文檔圖像的傾角檢測結(jié)果比較 (°)

根據(jù)表2的檢測結(jié)果可知，本文提出的方法較投影輪廓方差最大法和Hough變換法準確度更高。

再選取1幅拍照的手寫圖像，對其進行處理，分別用3種方法檢測傾斜角度，檢測精度如表3所示。

表3 手寫拍照文檔圖像的傾角檢測精度比較 (°)

根據(jù)表3的比較結(jié)果可知，通過本文提出的方法和Hough變換法都可以得到亞像素精度，檢測精度高，而輪廓方差最大法的檢測精度低。

4.2 傾斜校正

選取1幅掃描的印刷文檔圖像，該文檔圖像字字分明，運用本文提出的方法對其進行文本圖像傾角檢測和校正。掃描的印刷文檔圖像原圖和校正之后的對比圖如圖5所示。

(a)傾斜的文檔圖像

選取1幅拍照的手寫圖像，該圖像中不僅有純文字還有公式，因此具有一定的代表性。運用本文的方法，對其進行文本圖像傾斜的角度檢測和校正。拍照的手寫圖像原圖和校正之后的對比圖如圖6所示?？梢钥吹郊词箞D像中的文字沒有印刷文檔那么字字分明，并且還帶有公式，但運用本文提出的方法仍然可以根據(jù)檢測出的傾斜角度進行準確的校正。

(a)傾斜的文檔圖像

5 結(jié)語

通過分析文檔圖像的水平投影坐標點的分布，以水平投影方差最小化原則檢測傾斜文檔的傾斜角度。選擇一定范圍內(nèi)的離散角度進行投影測試，計算投影方差，把方差擬合成二次函數(shù)，對

擬合的二次函數(shù)求導，以計算出的函數(shù)最小值對應的角度作為文檔傾斜角度，進而對圖像進行旋轉(zhuǎn)校正。實驗證明，運用該方法計算出的傾斜角度具有較高的準確度和精度。