【摘 要】 本文闡述了光學字符識別概況和提高光學字符識別率應注意的問題,分析了光學字符識別技術的優(yōu)勢,探討了光學字符識別在博物館的應用問題。指出,在博物館數(shù)字化建設中,很多野外拍攝的文物古跡圖片、名人字畫、書籍等需要在網上展出,而圖片里面的文字卻不能被計算機索引,手工輸入又比較慢。借助光學字符識別后,這些困難就迎刃而解了,在保證錄入質量的同時還極大的提高了工作效率。
【關鍵詞】 博物館;數(shù)字化建設;光學字符;應用
在信息時代,數(shù)字博物館是傳統(tǒng)博物館面向新世紀、適應新發(fā)展要求的產物。要建立數(shù)字博物館,首先要使博物館數(shù)字化,很多紙張的文檔信息要轉變成數(shù)字化信息。然而,掃描所產生的電子文檔上只是以圖形文件出現(xiàn),不能直接引用、修改、查詢,非常不方便,而且利用率也很低。如果能得到文本文檔,以上的不足就能輕易地解決了。要得到文本文檔,便要應用到光學字符識別技術。
一、光學字符識別概況
光學字符識別是通過光學字符識別軟件,將含有文字的圖像的圖形文件,轉換成文本文件。光學字符識別的工作主要有:輸入影像、處理影像、文字特征抽取、比對識別、校正,輸出保存。
二、提高光學字符識別率應注意的問題
提高數(shù)字化過程中的光學字符識別率就意味著減少工作上的人力、物力和精力,提高文檔數(shù)字化工作的效率,降低了文檔數(shù)字化的成本。要提高光學字符識別率,關鍵應注意以下幾點:
1、光學字符識別軟件的選擇
光學字符識別的軟件有清華紫光、漢王、清華文通等。這些軟件可以從網上下載,但要選擇圖像質量好并且圖像中的文字都是標準字體的情況下識別率才能達到預想的效果,否則便錯誤百出。
2、掃描參數(shù)的設置
在使用光學字符識別處理圖形文件時,首先要設置掃描參數(shù),這樣光學字符識別率才會提高。
(1)設定分辨率。分辨率大時,一些存在掃描失真的掃描儀,容易造成錯誤的識別,識別率降低,文件變大,不便于存儲和傳輸。分辨率小,圖像的像素點就少,光學字符識別軟件得不到足夠圖像信息,識別率就不會高。因此分辨率的選擇很重要,要根據(jù)不同的情況選擇不同的分辨率。經驗表明,300dpi在光學字符識別中最為合適。
(2)設定色彩模式。一般來說,黑白模式掃描是進行光學字符識別普遍采用的方式,其正確率和速度比其它的掃描模式圖像要高,其原因是文本通常是黑白的,別的顏色會造成信息的干擾。其次是灰度模式的應用率,對于文字字跡較淡或紙張泛黃的文檔,對其掃描第一步將色彩模式設成灰度,按灰度不同的級別進行圖像劃分,再將其像素點定為白色,其它為黑色,達到黑白模式。
(3)設定亮度和對比度。文檔底色較淺或較深可設定為灰度模式,就需要通過設定亮度和對比度來進行調節(jié)。文檔較淺,可調低亮度;文檔較深則調高亮度,亮度和對比度的調整,使得圖像更加黑白分明。
3、校對
因為任何光學字符識別軟件的識別率都不能做到100%。因此,人員應該仔細校對。光學字符識別軟件識別完后,有兩行顯示,一個是識別結果,另一個是圖像。一些光學字符識別軟件還會用另一種顏色顯示出來加以區(qū)分,利于提醒用戶。
三、光學字符識別技術的優(yōu)勢
1、錄入速度快、準確率高、省時省力
光學字符識別技術與手工錄入相比較,有著很大的優(yōu)勢。其速度比手工錄入快;光學字符識別文字識別的質量也比手工錄入高,其出錯率也低。因此,光學字符識別既節(jié)省了人力,又優(yōu)化了資源配置。
2、拓寬文檔用戶利用面
采用光學字符識別,將紙質文檔數(shù)字化,能夠使文檔信息實現(xiàn)全文檢索、編輯修改、網絡傳輸,從而方便用戶對文檔內容的查詢與利用,拓寬其利用面,多方面地服務于公眾。
四、光學字符識別在博物館的應用
在博物館數(shù)字化過程,光學字符識別技術的運用主要是把紙質載體文案的信息內容利用高速掃描儀轉換成計算機能識別的圖像文件,如JPG、TIF或合成多頁的PDF文件,再利用光學字符識別軟件的字符識別功能把不能編輯的圖像文件和PDF文件中每個字符與標準的漢字數(shù)據(jù)庫中字符對比,截取相同形狀的字符并保存在文本編輯軟件中,保持能編輯的狀態(tài),并可以進行自動標引或運用各類數(shù)據(jù)庫軟件的搜索引擎針對字符搜索,以達到文檔信息的全文檢索。
在實際文檔全文數(shù)字化過程中,一般先把一份文件掃描成多頁JPG、TIF或PDF文件,再運用光學字符識別軟件識別并判斷識別效果,并進行必要的調整和修復才可以到達全文數(shù)字化的要求。
在掃描生成頁面后,光學字符識別技術針對印刷體的頁面文件一般識別率可達98%以上,在自動糾錯、人工校對后,基本符合文檔數(shù)字化的要求。從掃描和識別的速度分析,一般中檔掃描儀每分鐘掃描在40-60頁面左右,配合主流光學字符識別軟件以及處理、分析、校對每頁文檔全文數(shù)字化用時在1分鐘以內,裝訂50個頁面的案卷數(shù)字化時間在30分鐘左右。與人工單字符輸入法相比,工作效率提高近十倍,工作強度成倍減少。運用光學字符識別技術進行文檔全文數(shù)字化,工作人員可以長時間連續(xù)工作,而純人工輸入連續(xù)工作的后果是差錯率的居高不下,從而影響文檔信息全文的檢索和使用。
光學字符識別技術在文檔全文檢索技術中的運用主要在于實現(xiàn)文檔全文數(shù)據(jù)庫的輸入工作。如針對一卷50頁的文檔,文檔正文和目錄一般不超過51個,而全部目錄在數(shù)據(jù)庫著錄時,對于熟悉計算機輸入的人來講不費吹灰之力,幾分鐘或更長點時間就可以完成,但是如需做到全文任何關鍵詞檢索,必須把每個頁面上的漢字字符(可能超過500個)輸入計算機數(shù)據(jù)庫,50頁的文件可能有漢字字符25000個左右,以1分鐘輸入100個中文字符計算,連續(xù)不斷地輸入也需要4個多小時。所以面對浩瀚如海的館藏文物、文獻檔案以及每日俱增的新歸文檔,依賴單個字符的輸入法和數(shù)量相對較少的文物檔案和歷史文獻管理人員是無法完成如此巨大的全文輸入工作量的。在文檔管理工作中館藏量和增量一般很難縮小和控制,工作人員數(shù)量很難大幅度增加,所以唯有改變數(shù)據(jù)的輸入方式,提高輸入效率。光學字符識別技術正是彌補了單字符輸入速度慢的不足,光學字符識別率的大幅提高更是填補單字符輸入差錯率高的缺陷。因此,從當前文檔全文數(shù)字的工作量以及計算機輸入和各種文字識別技術的功效來判定,光學字符識別技術是比較適應文檔全文數(shù)字化的一種技術,是實現(xiàn)文檔全文數(shù)字化的技術基礎和實現(xiàn)途徑之一。
博物館需要將大量的文物信息在網上發(fā)布,如果僅僅是圖片,用掃描儀就可以了,但實際上大多需要的是文本信息,這是掃描儀所不能辦到的??咳斯や浫?,耗時耗力。借助光學字符識別后,這些困難就迎刃而解了,在保證錄入質量的同時極大的提高了工作效率。博物館有很多野外拍攝的文物古跡和名人字畫,圖片里面的文字不能被計算機索引,手工輸入又比較慢,光學字符識別技術就很好的解決了這個問題。
總之,光學字符識別不論在紙質文獻、圖書還是在文物檔案數(shù)字化過程中都有其獨特的應用。將光學字符識別技術恰當運用,既節(jié)省人力物力,又能發(fā)揮其最大價值。
【作者簡介】
葉永晟(1973.2-)男,漢族,陜西榆林人,內蒙古包頭博物館助理館員,本科學歷,研究方向:文博.