王元媛
鞍山市民政事務服務中心 遼寧 鞍山 114010
采用OCR技術能使檔案信息資源進行全文的信息檢索,能使利用者在任何地方實現文件的檢索以及對其進行引用和復制等操作,方便利用者對所需檔案內容的查詢和利用,拓寬了利用檔案的范圍。
檔案數字化是檔案現代化管理工作發(fā)展的第二次突破,第一次突破是利用計算進行檔案目錄檢索,建立了檔案信息目錄數據庫。第二次突破實現了檔案信息數字化管理,將所需要的檔案信息進行電子化掃描,根據掃描的成果建立起包括檔案圖文信息和全文信息的數據庫,將傳統檔案信息管理中所利用的目錄檢索方法進行了改變,利用人工錄入、計算機掃描和OCR技術等方法將紙質檔案的信息通過數據庫或圖像的形式保存在計算機的儲存系統里,從而實現對檔案信息的全文查找、閱讀和檢索功能,提高了檔案工作的利用效率。
OCR技術是光學字符識別的英文縮寫,該技術的發(fā)展可分為三個階段:第一階段只能夠識別指定的字體、印刷形式下的數字、英文和小部分的符號;第二階段則可以進行手寫體字符的識別;第三階段主要針對的是解決技術方面問題的,例如對文字質量較差的文檔進行識別。
我國在OCR技術上的研究盡管起步較晚,但發(fā)展速度快,應用范圍廣,文字識別的正確率不斷提高,使全文檢索成為可能,為用戶解決了面對大篇幅的檔案目錄查找無從下手的情況。OCR技術應用的目的是減少大量的文字錄入和打印從而提高工作效率,運用OCR技術是代替手動輸入最適宜的方法之一。
OCR技術的原理是將操作對象利用光學儀器所產生的影像進行儲存,再利用計算機對其進行進一步的加工處理,將一些可能影響識別率的因素盡可能消除掉一些,然后對影像做出分割,將其轉化為可以進行獨立識別的模塊,對這些影像模塊中的形態(tài)特征進行提取并與標準數據庫中的數據相對比,最后從對比結果中來判定影像模塊所對應的識別結果。其工藝過程包括以下六個方面:
1.信息輸入:利用各種類型的光學儀器如:掃描儀、傳真機等將需要進行OCR處理的對象資料進行處理,形成影像材料并轉入計算機中。
2.影像前處理:包括從一個黑白或者彩色的影像到將單個的文字影像模塊獨立出來的整個過程,還包括影像標準化、消除噪音、影像矯正等處理以及文字圖片分析、文字間單個字或字行之間的分離等文件的前處理工作。
3.提取文字特征:在OCR技術的應用中如何抽取特征,一個是統計方面的特征另一個是結構方面的特征,抽取什么樣的特征能夠直接影響到識別效果程度的高低。
4.比較識別:利用統計特征和結構特征來進行文字特征的提取,要和數據庫進行對比的后處理工作,并根據所識別出的文字在可能與它相近的備選文字集合中找到與其字義最相近的文字或詞語進而達到對比識別結果。
5.人工校正:就是要求工作人員尋找和改正OCR技術可能出現和已經出現的錯誤,不僅需要擁有一個穩(wěn)定的識別和處理技術,還需要具備一系列合理奏效的人工校正工作流程來保證軟件的工作效率和精準性。
6.結果輸出:就是將利用OCR技術所得到的文件結果依照用戶的需求傳遞給用戶的過程。
(一)注重技術問題
信息識別領域的技術不再限于對識別對象單一特征進行操作,而是結合了OCR識別軟件、圖像處理、信息自動采集等相關技術,通過各類型的識別方法對多個識別對象進行處理工作,提高了識別的準確率,促使檔案數字化等相關領域的工作質量的提高。一些需要通過掃描技術進行輔助工作的OCR識別軟件很難對較繁瑣的信息以及手寫形式的信息進行識別,所以需要通過減少可識別部分的比例來達到減少出錯率的目的,OCR軟件系統中最基本的功能就是對文件進行大批量的自動識別。
(二)掃描和OCR操作應同步進行
有些單位將所需的檔案進行掃描并儲存下來,等積攢到一定程度再對其進行數字化加工。在OCR識別過程中對于一些相關對象標準的要求比較嚴格,掃描之后再進行OCR操作一方面是會引發(fā)部分工作上的重復,另一方面甚至還可能導致OCR操作不能順利進行,所以各企事業(yè)單位在進行檔案數字化的過程中一定要盡可能的保證掃描和OCR識別操作在同一時段進行,必須慎重處理以免為日后的進一步識別留下難題。
(三)數字化建設應循序漸進
檔案數字化管理工作是一個長期的、緩慢的過程。在這個過程中的前期處理、文件分類、中期操作、后期檢查、規(guī)范制定、OCR處理一直到成果的最終提供利用都是必不可少的環(huán)節(jié),在整個工作流程進行的過程中操作難易程度逐漸加深,工作人員和領導人員的職能水平也在同步的逐漸深入。因此,進行檔案數字化建設要循序漸進,不能操之過急。
(四)對手寫文件應細致處理
檔案數字化應用OCR技術對于手寫字體的文件尤其是對留存時間比較久遠的歷史檔案來說其識別的能力就會很低,嚴重時還有可能出現亂碼的形式,影響閱讀和進一步的利用工作。對于這種問題其解決方式一方面就是利用人工對掃描識別后的成果進行一一校對,以便達到準確檢索全文的目的,另一方面就是放棄全文檢索的功能轉變?yōu)橐揽磕夸洐z索的形式,在OCR識別效果極差的條件下,針對OCR技術操作中的一些弊端退而求其次,所以在檔案數字化中應用OCR技術對于手寫體檔案的識別尤其是留存時間長、質量差的檔案文件不適合識別。
OCR技術核心問題是識別率,OCR技術在識別率方面有相應的具體國家標準,如果識別率低于國家標準,就務必要加大后期校對修改的工作量,所以要想盡量縮減工作中所需要的人力和物力資源,提升工作效率,減少工作所需的成本就需要使用擁有較高識別率的OCR技術,因此必須做好提高OCR技術識別率的一系列工作。
(一)選擇較好的OCR軟件
當前市面上應用比較廣泛的OCR軟件有:清華紫光、漢王、百度OCR等。在互聯網上也可免費下載使用OCR軟件,通常功能少而且識別性較低,只能對圖像信息質量好的檔案材料有比較好的識別效果。還有一類在掃描系統中存在的例如丹青、蒙恬等技術軟件,這類軟件也具有功能少識別率低的缺陷。因此提倡使用正規(guī)的專業(yè)性強的OCR軟件系統,減少后期檢查的工作時間。
(二)設置合適的掃描參數
在利用OCR技術掃描操作之前就需要對相關的參數進行設置,以達到提高OCR技術識別率的目的。
1.分辨率的設定
影響OCR技術識別率的重要因素就是分辨率。分辨率較低,所得到的圖像信息就不夠完善,掃描時識別率并不隨著分辨率的提升而加大。如果分辨率過于高,應用在一些具有失真可能性的掃描設備上時就會因為文件原稿的字跡深淺不一而導致將本身是一體的文字拆裂開來,最終降低整體的識別度,還會使文件占據更多的內存影響到后續(xù)的儲存和傳遞工作。掃描的分辨率建議選擇大于或等于200dpi,但是在實際操作中發(fā)現200dpi數值相對較小,通過多次實踐證明設置為300dpi是最適宜的數值。
2.色彩模式的選擇
在OCR識別技術中對于色彩模式的選擇一般選用黑白兩種顏色的模式在識別快慢和準確程度效果好,因為在一般的文本文件中只需要利用黑、白兩種顏色,使用的顏色過于繁雜反而會影響識別的結果。對于灰度模式來說針對像一些因為原件老舊而導致的紙張變黃或者字跡變淡的材料來說應用的比較廣泛,在對這類文件進行掃描之后需要對圖像的一些方面進行修改,在修改中就可以通過灰度模式的設置利用系統的功能將一定灰度值以下的部分識別為白色,而其他的部分識別為黑色,最終形成黑白分明的效果。對于一些載體是比較輕薄透明的紙張形式的文件來說,在進行OCR識別的過程中識別率會受到一定的影響,這時可以在進行掃描的過程中,在掃描對象的下面鋪上一張白紙利用灰度模式進行掃描就可以在一定程度上提升掃描的質量。
3.亮度與對比度
在亮度調節(jié)方面要保證掃描后得到的圖像中的文字筆劃纖細但是不能斷開。針對部分原文字跡比較淺而且筆劃比較細的檔案來說,可以通過適當降低亮度來進行調節(jié);而對于字體比較小,筆劃卻比較粗的檔案來說要提高亮度來保證識別度的數值。掃描與上述情況相反檔案要利用灰度模式進行掃描,再利用各類修圖軟件通過提高亮度的方式盡量將底色轉變成白色,在這個過程中還可以修復一些原來存在的污點瑕疵。在對亮度進行修改的過程中會導致文字的顏色也同時變淡,通過對比度方面的調節(jié)把較淡的文字變暗,使文字凸顯的更加清晰,更加劇了文字與底色的明暗對比程度,從而達到提高OCR識別率的目的。
(三)對圖像進行糾偏去污處理
影響OCR技術的識別率的因素還有文字不規(guī)范、文字偏斜或存在污漬。首先與一張較為傾斜的圖像相比其經過糾正后的圖像識別率要高出原圖像至少10%,其次對于存在污漬的文字來說,在識別的過程中也會產生不好的影響導致識別率的下降。最可行的辦法就是在進行識別操作之前就對將要識別的圖像中的文字進行糾偏和去污處理,來保證最終識別率的滿意程度。
(四)仔細進行人工校對
現階段我國OCR技術仍然達不到100%的識別率,所以要通過人工校對來彌補這一不足。為方便校對,OCR在識別的過程中軟件自身發(fā)現的無法識別或其他情況通常會用突出的顏色進行標識,但也要注意有不準確的現象發(fā)生。
總之,要確保OCR技術具有較高的識別率,就要選擇合適的OCR軟件,掃描參數中分辨率、色彩模式、亮度和對比度等各數值的準確設定,圖像的糾偏和去污處理以及人工校對工作的嚴格把關,保證檔案數字化質量。