• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于投影輪廓分析的文本圖像版面分割算法研究

    2017-05-17 13:14:31王莉麗陳曄劉玲

    王莉麗++陳曄++劉玲

    摘要:本文提出了一種新的基于投影輪廓分析的版面有效分類;隨后詳細介紹了該方法的實現(xiàn)技術(shù)流程,給出了該方法進行版面分析所依據(jù)7個特征的含義及作用。實驗結(jié)果表明:提出的新方法,能夠?qū)?fù)雜版面文本圖像進行有效的版面分割及區(qū)域類型分類,并能夠準確的識別如頁眉這樣的特殊區(qū)域,版面分析結(jié)果準確。

    關(guān)鍵詞:文本圖像處理;版面分割;投影法

    中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2017)03-0164-02

    目前,信息采集的多樣化,已嚴重威脅到了信息存儲的安全性。僅用一部手機,就可獲取與泄露重要的信息。對文本數(shù)據(jù)信息安全性的擔憂,促使了紙質(zhì)文本圖像信息隱藏與提取方法的提出。這類方法的核心在于將安全標識信息,以特有的方式嵌入到文本圖像的文本區(qū)域中,這樣,如果發(fā)生信息泄露或者要找尋到泄露源,就可以通過分析文本區(qū)域中包含的安全標識信息,反向追蹤,查出泄漏源,或者通過安全標識信息,回收被泄露出去的信息。對于簡單的、只包含文本信息的文本圖像,目前的處理技術(shù)已比較成熟,能夠比較準確的將版面信息進行有效的分析,但是對于包含文本、圖形和圖像區(qū)域的復(fù)雜版面文本圖像,當前的處理技術(shù)尚不成熟,需要進一步提高。本文聚焦于復(fù)雜文本圖像分割方法研究。

    版面分割的方法,大體上可以分為兩大類:層次式和非層次式的。層次式分割算法,主要有自頂向下和自底向上兩種算法。非層次式算法則主要是利用復(fù)雜的圖形圖像處理技術(shù),根據(jù)其圖像特征,對文本圖像進行版面分割[1-4]。層次式方法中,游程平滑RLS(Run-length Smoothing)算法和投影輪廓切分PPC(Projection Profile Cut)算法是兩種有代表性且應(yīng)用較廣泛的算法。而基于紋理分析的版面分析算法,則是將版面分析和版面區(qū)域類型識別結(jié)合實現(xiàn)的一種算法。但上述方法時間消耗較大,為此本文提出了一種簡單有效的分割方法。

    1 提出的分類算法

    首先,讀入待分類文本圖像,并對其格式轉(zhuǎn)換,確保圖像數(shù)據(jù)完整性,以防止丟失圖像數(shù)據(jù);然后進行有效區(qū)域提取,剔除四周的空白無效區(qū)域,得到有效信息區(qū)。在此基礎(chǔ)上,對有效信息區(qū)進行二維坐標下的行投影,確定并統(tǒng)計、提取特征值,再根據(jù)統(tǒng)計得來的特征值,進行孤立行分析,并依據(jù)判定的孤立行,對文本圖像進行區(qū)域的粗分割,得到版面分析的粗分割結(jié)果。在上述過程中,可根據(jù)投影結(jié)果以及統(tǒng)計的特征值,完成對純文本區(qū)域、純圖像區(qū)域的分割工作。需要指出的是,本文著眼于復(fù)雜文本圖像,為此還須對區(qū)域粗分割得到的各個子區(qū)域,進行二維坐標下的列投影,再根據(jù)投影結(jié)果,判定子區(qū)域中是否存在分欄版面。完成以上步驟后,原本復(fù)雜的文本圖像版面就被分割為了多個簡單版面的文本圖像區(qū),在此基礎(chǔ)上,再進行行、列投影,根據(jù)所得特征值分析與分類,區(qū)分出文本區(qū)、圖像區(qū)和圖形圖表區(qū)域,完成分割任務(wù)。具體流程見圖1。

    本文采用特征7個特征統(tǒng)計分析文本圖像,各特征分別為:(1)行高,記錄投影行高度的值。本文對行進行投影,依據(jù)投影結(jié)果,計算二值化投影平均值發(fā)生改變的臨界點值,在臨界點值作運算,獲得行高值。 我們對各行高度值進行平均運算,在分別與各行高度作對比,進而初步確定異常區(qū)域;(2)行間距,行與行之間的間隔距離。此間距,由投影結(jié)果而得的下標值計算求得。在文本圖像中,行間距發(fā)生明顯變化的部分,往往為段落或者區(qū)域塊之間的分割標識,此處計算行間距,作為段落區(qū)分和區(qū)域塊區(qū)分的一個標識;(3)縮進率,文本與頁面邊界之間的距離。依據(jù)每一行的列投影結(jié)果,計算邊界至文本的距離占左右邊界之間距離的比率,求得縮進率。在文本圖像中,標題不同于其它文本行,往往存在較大縮進,或左縮進,或右縮進,或左右都有,為此可結(jié)合行高,完成對標題的判定。此外,段落中往往有首行縮進,段尾也常因字符無法填滿文本行而存在縮進,因此也可根據(jù)縮進率,判定段落區(qū)域;(4)行外接矩形填充率,在縮進的行區(qū)域塊中,有效信息區(qū)域占整個區(qū)域塊的比率。依據(jù)每一行的列投影結(jié)果值計算填充率。主要用來判斷一些特殊的文本行,如頁眉的判斷;(5)最大跳變位置,對文本行進行列投影時,坐標軸所示下標發(fā)生最大變化的區(qū)域位置。根據(jù)該特征,如果連續(xù)多行在相同位置都發(fā)生最大跳變,且跳變區(qū)內(nèi)像素點平均值為1,則可以判定在該位置處存在分欄,此外,還可以根據(jù)最大跳變,判定是否存在異常區(qū)域;(6)行內(nèi)信號跳變周期(頻率),對文本行進行列投影后,坐標軸上投影下標值發(fā)生周期性變化的周期或者頻率。根據(jù)此特征,可用來判定是否存在異常區(qū)域;(7)對齊方式,該特征用來衡量文本圖像中內(nèi)容距離左右邊界的距離,具體有居中,左對齊和右對齊三種方式,可用來輔助計算縮進率,進而分割區(qū)域塊。分割結(jié)果舉例見圖2。

    2 結(jié)語

    文本圖像版面分析是對文本圖像處理的關(guān)鍵環(huán)節(jié)。針對上述問題,本文以文本圖像二維坐標下行列投影結(jié)果為基礎(chǔ),提取并分析相關(guān)特征,提出了一種新的基于投影輪廓分析的版面有效分類方法。該方法通過對特征的綜合運算與分析完成復(fù)雜版面文本圖像的分析工作。驗證了方法的有效性及準確性。

    參考文獻

    [1]Kise K, Sato A, Iwata M. Segmentation of page images using the area Voronoi diagram[J]. Computer Vision Image Understanding,1998,70(3): 370-382.(8-4).

    [2]楊洋,平西建.復(fù)雜版面的文本圖像圖文分割算法[J].微計算機信息,2006,22(5):66-225.

    [3]劉仁金,高遠飆,郝祥根.文本圖像頁面分割算法研究[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2010,40(5):500-504.

    [4]Fletcher L A, Kasturi R A. A robust algorithm for text string separation from mixed text/graphic images[J]. IEEE Trans On Pattern Recognition and Machine Intelligence, 1998,10(6): 910~918.(9-5).

    咸阳市| 安顺市| 苗栗县| 松潘县| 贵德县| 莲花县| 措美县| 阿拉尔市| 万安县| 垫江县| 江城| 西乌珠穆沁旗| 凭祥市| 达孜县| 中江县| 常熟市| 勐海县| 玛纳斯县| 高陵县| 宿松县| 榕江县| 大城县| 九寨沟县| 吴堡县| 北流市| 洪雅县| 广平县| 宣恩县| 黑山县| 巴中市| 宜兴市| 洛隆县| 东光县| 宁远县| 凤城市| 建德市| 朝阳市| 鄂尔多斯市| 万宁市| 江孜县| 西盟|