◆郭 軍
(鐵道警察學(xué)院 河南 450000)
基于數(shù)字掃描儀性能的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略研究
◆郭 軍
(鐵道警察學(xué)院 河南 450000)
本文認(rèn)為,文本型數(shù)字圖像OCR識(shí)別的數(shù)字圖像生產(chǎn)階段,OCR識(shí)別準(zhǔn)確度的影響因素主要體現(xiàn)在數(shù)字掃描儀的選擇和使用兩個(gè)方面,進(jìn)而提出了針對(duì)性的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略。
OCR識(shí)別準(zhǔn)確度;文本型數(shù)字圖像;信息資源數(shù)字化
OCR(Optical Character Recognition,光學(xué)字符識(shí)別)這一概念最早于1929年由德國(guó)科學(xué)家Tausheck提出[1]。信息資源數(shù)字化實(shí)踐的廣泛開展,為OCR識(shí)別提供了廣泛的應(yīng)用空間。從操作環(huán)節(jié)方面來看,信息資源數(shù)字化中的OCR識(shí)別工作流程可以劃分為為數(shù)字掃描對(duì)象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理和OCR文本識(shí)別等四個(gè)階段[2]。針對(duì)文本型數(shù)字圖像OCR識(shí)別的數(shù)字圖像生產(chǎn)階段,筆者認(rèn)為應(yīng)主要從數(shù)字掃描儀的選擇和使用兩個(gè)方面入手提高OCR識(shí)別準(zhǔn)確度。
為確保文本型數(shù)字圖像的數(shù)字掃描質(zhì)量,筆者認(rèn)為應(yīng)主要圍繞圖像傳感器性能、掃描分辨率、對(duì)不同掃描對(duì)象的適應(yīng)能力和操作便捷性等4個(gè)方面著手選擇合適的數(shù)字掃描儀。
(1)圖像傳感器性能
圖像傳感器是數(shù)字掃描儀的核心部件,數(shù)字掃描儀的傳感器主要有光電耦合器(Charged Coupled Device,CCD)、互補(bǔ)金屬氧化物半導(dǎo)體(Complementary Metal-Oxide-Semiconductor, CMOS)、接觸式圖像傳感器(Contact Image Sensor,CIS)及光電倍增管(Photo Multiplier Tube,PMT)等4種類型。僅從圖像傳感性能方面來看,PMT在敏銳度、信噪比、動(dòng)態(tài)密度范圍、環(huán)境溫度適應(yīng)能力等方面,相較于其他3種圖像傳感器處于明顯優(yōu)勢(shì)地位。但是,PMT的價(jià)格昂貴,而且目前只適用于專業(yè)滾筒式掃描儀,在文本型數(shù)字圖像OCR識(shí)別領(lǐng)域應(yīng)用極少。20世紀(jì)90年代之前,CCD一直在數(shù)字成像裝置光電轉(zhuǎn)換元件市場(chǎng)上處于壟斷地位。相較于其他3種圖像傳感器,CCD具有數(shù)據(jù)傳輸標(biāo)準(zhǔn)性高、綜合技術(shù)發(fā)展成熟、對(duì)數(shù)字掃描設(shè)備適應(yīng)能力強(qiáng)、應(yīng)用領(lǐng)域廣泛等優(yōu)點(diǎn)。筆者認(rèn)為,為確保文本型數(shù)字圖像數(shù)字掃描質(zhì)量,信息資源數(shù)字化操作應(yīng)優(yōu)先選擇配有CCD的數(shù)字掃描儀。
(2)掃描分辨率大小
數(shù)字掃描儀的掃描效果,與掃描儀掃描分辨率中的光學(xué)分辨率大小密切相關(guān)。理論上講,數(shù)字掃描儀的掃描分辨率越高,所生成的數(shù)字掃描圖像清晰度越高,進(jìn)而越有利于OCR精確辨識(shí)。但是,過高的數(shù)字掃描分辨率不僅無法增強(qiáng)數(shù)字掃描圖像的清晰度,反而會(huì)增強(qiáng)數(shù)字圖像中的噪點(diǎn)進(jìn)而影響OCR識(shí)別準(zhǔn)確度。信息資源數(shù)字化實(shí)踐表明,針對(duì)文本型數(shù)字圖像OCR識(shí)別,數(shù)字掃描儀的最低光學(xué)分辨率應(yīng)在300 dpi以上,最高光學(xué)分辨率應(yīng)能夠達(dá)到600dpi。
(3)對(duì)不同掃描對(duì)象的適應(yīng)能力
面對(duì)相同的原始文獻(xiàn)資料,不同的數(shù)字掃描儀的掃描質(zhì)量往往不同。為確保掃描質(zhì)量,數(shù)字掃描儀應(yīng)能夠適應(yīng)各種類型的原始文獻(xiàn)資料。一方面,數(shù)字掃描儀應(yīng)能夠支持對(duì)不同類型、不同尺寸、不同厚度的原始文獻(xiàn)資料的數(shù)字掃描。另一方面,數(shù)字掃描儀應(yīng)確保在數(shù)字掃描過程中不對(duì)原始文獻(xiàn)資料(尤其是部分珍本、善本、孤本資料)造成損壞。
文本型數(shù)字圖像的原始文獻(xiàn)資料,主要有印刷體文本和縮微膠片資料兩種類型。信息資源數(shù)字化操作實(shí)踐表明,平臺(tái)式數(shù)字掃描儀適宜于對(duì)印刷體文獻(xiàn)資料的掃描,便于散頁(yè)掃描并便于原始文獻(xiàn)資料的拆分和裝訂;縮微膠片數(shù)字掃描儀適宜于對(duì)縮微膠卷、縮微膠片、普通縮微平片、套裝縮微平片及全幀縮微平片的數(shù)字掃描;滾筒式數(shù)字掃描儀適宜于對(duì)全幀縮微平片的數(shù)字掃描。
(4)操作便捷性
信息資源數(shù)字化工作工序繁雜,且部分環(huán)節(jié)存在大量的重復(fù)操作。在對(duì)原始文獻(xiàn)資料進(jìn)行數(shù)字掃描時(shí),應(yīng)盡量減少工作人員因使用數(shù)字掃描儀而產(chǎn)生的智力及體力負(fù)擔(dān)。數(shù)字掃描儀的操作界面應(yīng)簡(jiǎn)潔明了,功能按鈕及按鍵設(shè)置應(yīng)與實(shí)際操作緊密結(jié)合。對(duì)于能夠通過功能預(yù)設(shè)實(shí)現(xiàn)批量處理的操作環(huán)節(jié),應(yīng)盡量減少工作人員的手工操作次數(shù)與頻率。
2.1 掃描參數(shù)的合理設(shè)置2.1.1以黑白掃描模式為主
黑白掃描模式、灰色掃描模式和彩色掃描模式是各種類型的數(shù)字掃描儀均支持的3種掃描模式。信息資源數(shù)字化實(shí)踐中,常見的數(shù)字掃描對(duì)象主要包括印刷型文本、黑白線條圖、手稿資料、半色調(diào)型文獻(xiàn)資料、黑白照片、彩色照片、地圖等。數(shù)字掃描過程中,不同類型的原始文獻(xiàn)資料對(duì)數(shù)字掃描模式有著不同的要求。印刷型文本和黑白線條圖適宜黑白掃描模式,其中印刷型文本的最小掃描分辨率應(yīng)不低于600 dpi;黑白照片、半色調(diào)型文獻(xiàn)資料和一般手稿資料適宜灰色掃描模式,其中半色調(diào)型文獻(xiàn)資料和一般手稿資料的最小掃描分辨率應(yīng)不低于300 dpi;彩色照片、地圖、老舊手稿資料適宜彩色掃描模式,其中地圖和老舊手稿資料的最小掃描分辨率應(yīng)不低于600 dpi。
鑒于文本型數(shù)字圖像的原始文獻(xiàn)主要包括印刷型文本資料和縮微膠片資料,在對(duì)其進(jìn)行數(shù)字掃描時(shí)應(yīng)以黑白掃描模式為主。但是,對(duì)于頁(yè)面嚴(yán)重污損、頁(yè)面嚴(yán)重變色、頁(yè)面中包含繁雜信息(圖案、注釋、批注等)、頁(yè)面中的字符內(nèi)容色彩超過1種的文本型數(shù)字圖像,在對(duì)其進(jìn)行數(shù)字掃描時(shí)應(yīng)視情況采用灰色掃描模式或彩色掃描模式。
2.1.2 合理確定最佳掃描分辨率
在一定的數(shù)值范圍內(nèi),數(shù)字掃描儀的掃描清晰度與所設(shè)置的掃描分辨率成正比。超過一定的數(shù)值之后,掃描分辨率的提高不僅無助于增強(qiáng)掃描清晰度,還會(huì)在下列3個(gè)方面影響信息資源數(shù)字化工作:
(1)降低數(shù)字掃描速度。數(shù)字掃描分辨率提高,數(shù)字掃描儀針對(duì)單個(gè)原始文獻(xiàn)資源的掃描時(shí)間將會(huì)相應(yīng)提高,進(jìn)而影響整體數(shù)字掃描速度。
(2)增加數(shù)字圖像存儲(chǔ)負(fù)擔(dān)。數(shù)字掃描分辨率提高,單個(gè)數(shù)字掃描圖像所占存儲(chǔ)空間勢(shì)必增加,進(jìn)而增加整個(gè)信息資源數(shù)字化工作的數(shù)字圖像存儲(chǔ)負(fù)擔(dān)。
(3)降低OCR識(shí)別準(zhǔn)確度。數(shù)字掃描分辨率提高,在增強(qiáng)數(shù)字掃描圖像清晰度的同時(shí)也強(qiáng)化了數(shù)字圖像中所存在的噪聲的強(qiáng)度,勢(shì)必會(huì)降低文本型數(shù)字圖像的OCR識(shí)別準(zhǔn)確度。
可見,為確保數(shù)字掃描質(zhì)量和文本型數(shù)字圖像的OCR識(shí)別準(zhǔn)確度,客觀上存在著一個(gè)最佳分辨率。面對(duì)同類型原始文獻(xiàn)資源,同一數(shù)字掃描儀最佳掃描分辨率的確定基于多次的實(shí)驗(yàn)與對(duì)比。但是,信息資源數(shù)字化實(shí)踐中,通過實(shí)驗(yàn)與對(duì)比的方法確定大量甚至海量原始文獻(xiàn)資源的最佳掃描分辨率顯然不現(xiàn)實(shí)。實(shí)際操作中,可采用美國(guó)康奈爾大學(xué)圖書館提出的基于掃描等級(jí)參數(shù)值和字符高度值的最佳掃描分辨率計(jì)算方法[3]。該方法將數(shù)字掃描質(zhì)量劃分為優(yōu)、良、中、差4個(gè)等級(jí),并為每個(gè)質(zhì)量等級(jí)賦予相應(yīng)的等級(jí)數(shù)值(QI值)。中文印刷型文本數(shù)字圖像優(yōu)、良、中、差的QI值[4],依次為18.0、11.0、7.0、7.0以下;西文印刷型文本數(shù)字圖像優(yōu)、良、中、差的QI值[5],依次為8.0、5.0、3.6、3.6以下。在此基礎(chǔ)上,美國(guó)康奈爾大學(xué)圖書館提出了印刷型文獻(xiàn)資料最佳數(shù)字掃描儀的計(jì)算公式。適宜于黑白掃描模式的印刷型文獻(xiàn)資料,其最佳掃描分辨率計(jì)算公式[6]為:dpi=3QI/0.039h(QI取“優(yōu)”等級(jí)值,h為字符高度,單位為毫米);適宜于灰色掃描模式或彩色掃描模式的印刷型文獻(xiàn)資料,其最佳掃描分辨率計(jì)算公式[7]為:2QI/0.039h(QI取“優(yōu)”等級(jí)值,h為字符高度,單位為毫米)。
需要說明的是,美國(guó)康奈爾大學(xué)圖書館的最佳掃描分辨率計(jì)算公式僅是對(duì)其信息資源數(shù)字化操作實(shí)踐經(jīng)驗(yàn)的提煉與歸納,其意義在于為最佳掃描分辨率的確定提供參考。最終最佳掃描分辨率的確定,還應(yīng)結(jié)合具體的數(shù)字掃描對(duì)象,參考由該公式計(jì)算得出的掃描分辨率數(shù)值根據(jù)具體的實(shí)驗(yàn)與對(duì)比情況進(jìn)行優(yōu)化。
2.1.3 選擇合適的黑白掃描閾值
對(duì)于適宜于黑白掃描模式的文本型數(shù)字圖像,在對(duì)其進(jìn)行數(shù)字掃描之前應(yīng)設(shè)置一個(gè)合適的掃描閾值。確定黑白掃描閾值的目的在于,明確數(shù)字掃描結(jié)果中的哪些像素點(diǎn)被轉(zhuǎn)換為黑色,剩余的像素點(diǎn)則被轉(zhuǎn)換為白色。OCR軟件在對(duì)字符圖案進(jìn)行辨識(shí)時(shí),主要是依據(jù)字符圖案邊沿的特征信息??梢?,黑白掃描閾值的確定直接影響著文本型數(shù)字圖像的數(shù)字掃描效果,進(jìn)而影響OCR識(shí)別準(zhǔn)確度。信息資源數(shù)字化操作實(shí)踐中,應(yīng)根據(jù)被掃描對(duì)象的具體情況,在多次試驗(yàn)、調(diào)整的基礎(chǔ)上確定合適的黑白掃描閾值。
2.1.4 調(diào)試合適的亮度、對(duì)比度
數(shù)字掃描儀亮度、對(duì)比度的設(shè)置,直接影響著最終的數(shù)字掃描質(zhì)量。合適的亮度、對(duì)比度,應(yīng)保證數(shù)字掃描儀能夠清晰捕捉到原始文獻(xiàn)資料中最細(xì)微的字符特征信息。不同的原始文獻(xiàn)資料,其印刷質(zhì)量不同、在流通使用過程中的污損及破壞程度不同,對(duì)數(shù)字掃描亮度、對(duì)比度的條件要求也不同。因此,信息資源數(shù)字化過程中不能簡(jiǎn)單地為批量原始文獻(xiàn)資料設(shè)置唯一的掃描亮度和對(duì)比度。應(yīng)結(jié)合不同原始文獻(xiàn)資料的具體情況,在合理分類、多次試驗(yàn)調(diào)試的基礎(chǔ)上,分別選擇合適的掃描亮度及對(duì)比度。
2.1.5 選擇合適的文件格式保存數(shù)字掃描圖像
在對(duì)原始文獻(xiàn)資料進(jìn)行數(shù)字掃描之后,需將數(shù)字圖像以一定的文件格式進(jìn)行保存以便進(jìn)入后續(xù)的數(shù)字圖像處理及OCR文本識(shí)別環(huán)節(jié)。筆者認(rèn)為,應(yīng)從以下三個(gè)方面著手選擇數(shù)字掃描圖像的文件保存格式:
(1)能夠確保不數(shù)字掃描圖像的分辨率不受影響。為確保OCR識(shí)別準(zhǔn)確度,在對(duì)數(shù)字掃描圖像進(jìn)行保存時(shí),所選擇的文件保存格式應(yīng)確保數(shù)字掃描圖像的掃描分辨率不受影響。
(2)能夠支持無損壓縮保存。在對(duì)數(shù)字掃描圖像進(jìn)行壓縮保存時(shí),部分文件格式的數(shù)字掃描圖像可能會(huì)對(duì)數(shù)字圖像中的細(xì)節(jié)特征信息造成破壞。為確保OCR識(shí)別準(zhǔn)確度,所選擇的數(shù)字掃描圖像文件保存格式應(yīng)能夠支持無損壓縮保存。
(3)能夠適應(yīng)主流圖像編輯軟件和OCR識(shí)別軟件。為保證后續(xù)的數(shù)字圖像處理和OCR文本識(shí)別環(huán)節(jié)順利進(jìn)行,所選擇的數(shù)字掃描圖像文件保存格式應(yīng)能夠支持全部或主流數(shù)字圖像編輯軟件和OCR文本識(shí)別軟件。
根據(jù)國(guó)內(nèi)外現(xiàn)有的信息資源數(shù)字化實(shí)踐經(jīng)驗(yàn),筆者認(rèn)為數(shù)字掃描圖像保存應(yīng)選用Tiff文件格式。
2.2 采用正確的使用方法
(1)避免鏡頭成像組件松動(dòng)。數(shù)字掃描儀的鏡頭成像組件屬于精密設(shè)備,在使用過程中應(yīng)注意避免大幅度的顛簸與振動(dòng)。信息資源數(shù)字化過程中,如確實(shí)需要在物理空間上搬運(yùn)或挪動(dòng)數(shù)字掃描儀,應(yīng)確保數(shù)字掃描儀自身相應(yīng)的固定及防震動(dòng)功能開啟,并注意采取必要的外部防震動(dòng)、防撞擊措施。
(2)確保被掃描對(duì)象位置擺放到位。信息資源數(shù)字化實(shí)踐中,尤其是部分需要手動(dòng)造作進(jìn)行數(shù)字掃描的原始文獻(xiàn)資料,時(shí)常出現(xiàn)因原始文獻(xiàn)資料位置擺放不到位造成數(shù)字掃描圖像歪斜或不完整的現(xiàn)象??山柚鷶?shù)字掃描儀的圖像預(yù)覽功能,必要情況下需要多次手工調(diào)整,確保原始文獻(xiàn)資料位置擺放到位。
(3)保持清潔的周圍環(huán)境。數(shù)字掃描儀性能的正常發(fā)揮,對(duì)周圍環(huán)境的要求較高。信息資源數(shù)字化操作過程中,部分原始文獻(xiàn)資料中存在較多的塵土及紙張碎屑,必須異地進(jìn)行清理后再進(jìn)行數(shù)字掃描操作,避免對(duì)數(shù)字掃描儀的掃描與成像質(zhì)量造成干擾。平時(shí)使用過程中,應(yīng)經(jīng)常對(duì)數(shù)字掃描儀的數(shù)字玻板進(jìn)行擦拭,但注意應(yīng)使用柔軟不掉屑的布料輕輕擦拭以避免劃傷數(shù)字玻板。特別需要注意的是,禁止使用酒精類液體清洗數(shù)字玻板,否則會(huì)嚴(yán)重影響數(shù)字掃描儀的掃描質(zhì)量。工作間隙,應(yīng)使用整潔、不掉屑的蠟染布、絲綢等面料對(duì)數(shù)字掃描儀進(jìn)行覆蓋,避免灰塵和碎屑進(jìn)入數(shù)字掃描儀。
(4)對(duì)機(jī)器進(jìn)行充分預(yù)熱。數(shù)字掃描儀在正式掃描之前需要進(jìn)行預(yù)熱,受制造工藝、機(jī)器配置及周圍環(huán)境溫度等因素影響,不同的數(shù)字掃描儀對(duì)預(yù)熱的時(shí)間存在不同的要求。為確保數(shù)字掃描儀性能能夠正常發(fā)揮,信息資源數(shù)字化實(shí)踐中應(yīng)根據(jù)具體掃描對(duì)象的實(shí)際情況多次試驗(yàn),在確保數(shù)字掃描儀已經(jīng)預(yù)熱充分的前提下再進(jìn)行數(shù)字掃描操作。
(5)充分利用去網(wǎng)紋功能。在對(duì)原始文獻(xiàn)資料進(jìn)行數(shù)字掃描過程中,容易在數(shù)字掃描圖像中形成網(wǎng)紋,網(wǎng)紋對(duì)OCR精確識(shí)別有較大影響。去除數(shù)字圖像中的網(wǎng)紋,一方面可在后續(xù)的數(shù)字圖像處理階段實(shí)現(xiàn),一方面也可在數(shù)字掃描階段借助數(shù)字掃描儀的去網(wǎng)紋功能實(shí)現(xiàn)。鑒于數(shù)字掃描環(huán)節(jié)在信息資源數(shù)字化流程上處于數(shù)字圖像處理環(huán)節(jié)之前,筆者認(rèn)為應(yīng)根據(jù)原始文獻(xiàn)資料的具體情況,充分利用數(shù)字掃描儀的去網(wǎng)紋功能去除數(shù)字掃描圖像中的網(wǎng)紋。
信息資源數(shù)字化實(shí)踐的廣泛開展,為OCR識(shí)別提供了廣泛的應(yīng)用空間。針對(duì)文本型數(shù)字圖像OCR識(shí)別的數(shù)字圖像生產(chǎn)階段,本文認(rèn)為,OCR識(shí)別準(zhǔn)確度的影響因素主要體現(xiàn)在數(shù)字掃描儀的選擇和使用兩個(gè)方面,并且通過實(shí)驗(yàn)分析,提出了正確使用數(shù)字掃描儀,提高文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度的策略。
[1]Schantz, Herbert F. The History of OCR, Optical Character Recognition[J]. Recognition Technologies,1982.
[2]臧國(guó)全.文本數(shù)字化圖像OCR識(shí)別的準(zhǔn)確度測(cè)度實(shí)驗(yàn)與提高[J].圖書情報(bào)知識(shí),2010.
[3]Cornell University Library.Benchmarking for digital capture.[2017-3-27].http://www.library.cornell.edu/preservation /tutorial/conversion/conversion-04.html.
[4]查奕.文獻(xiàn)數(shù)字影像的制作與使用[J].數(shù)字與縮微影像,2006.
[5]Cornell University Library.Benchmarking for digital capture.[2017-3-27].http://www.library.cornell.edu/preservation /tutorial/conversion/conversion-04.html.
[6]Cornell University Library.Benchmarking Resolution Requirements For Printed Text.[2017-3-27].http://www.librar y.cornell.edu/preservation/tutorial/conversion/conversion-04.ht ml.
[7]Cornell University Library.BENCHMARKING RESOL UTION REQUIREMENTS FOR PRINTED TEXT.[2017-3-27 ].http://www.library.cornell.edu/preservation/tutorial/conversion /conversion-04.html.