• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      信息資源數(shù)字化OCR識(shí)別生命周期探析

      2014-12-13 00:38:36郭軍
      關(guān)鍵詞:生命周期

      摘要:文章在對(duì)信息資源數(shù)字化工作中的OCR識(shí)別原理進(jìn)行闡述的基礎(chǔ)上,分析了OCR識(shí)別在信息資源數(shù)字化工作中的作用。隨后,文章將信息資源數(shù)字化工作中OCR識(shí)別的生命周期劃分為數(shù)字掃描對(duì)象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理、OCR文本識(shí)別和識(shí)別結(jié)果優(yōu)化等五個(gè)階段,并依次對(duì)各個(gè)階段的主要任務(wù)及主要特點(diǎn)展開(kāi)了介紹。

      關(guān)鍵詞:信息資源數(shù)字化 OCR識(shí)別 生命周期

      中圖分類號(hào):G250.7 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)08-0217-02

      信息資源數(shù)字化,是指把原先用紙張形式存貯的文獻(xiàn)信息轉(zhuǎn)化為用計(jì)算機(jī)存貯設(shè)備中的電、磁、光電信號(hào)存貯的信息,并實(shí)現(xiàn)對(duì)形式轉(zhuǎn)換后的信息的計(jì)算機(jī)管理、網(wǎng)絡(luò)傳輸和數(shù)字化存取[1]。具體實(shí)施過(guò)程中,通常采用數(shù)字掃描或數(shù)字拍照這兩種方式來(lái)實(shí)現(xiàn)信息資源載體形式的轉(zhuǎn)換,進(jìn)而生成諸如PDF、CAJ等格式的數(shù)字圖像。信息資源數(shù)字化工作的最終目的,是為了向用戶提供全面、快捷的數(shù)字化產(chǎn)品和服務(wù)[2]。基于此,將信息資源數(shù)字化工作的初級(jí)產(chǎn)品——數(shù)字圖像,進(jìn)一步轉(zhuǎn)化為易于編輯、深加工的諸如TXT、WORD等格式的文本信息就顯得尤為重要。目前,在這一領(lǐng)域應(yīng)用最廣泛的技術(shù)手段當(dāng)推OCR(Optical Character Recognition,光學(xué)字符識(shí)別)。

      1 信息資源數(shù)字化工作中的OCR識(shí)別原理

      OCR這一概念最早于1929年由德國(guó)科學(xué)家Tausheck提出[3]。隨后,美國(guó)科學(xué)家Handel對(duì)利用光學(xué)技術(shù)識(shí)別文字的工作模型展開(kāi)了描述,但因當(dāng)時(shí)計(jì)算機(jī)技術(shù)尚未問(wèn)世,這一模型一直停留在概念階段。計(jì)算機(jī)技術(shù)和掃描技術(shù)的相繼出現(xiàn),為OCR識(shí)別進(jìn)入實(shí)際應(yīng)用領(lǐng)域提供了必要條件,計(jì)算機(jī)設(shè)備和掃描設(shè)備應(yīng)能的迅猛提升與價(jià)格的不斷下降,促使OCR識(shí)別的性能逐步完善,應(yīng)用領(lǐng)域迅速擴(kuò)展。信息資源數(shù)字化工作中的OCR識(shí)別,其原理簡(jiǎn)單來(lái)說(shuō)就是利用光學(xué)技術(shù)對(duì)文字和字符信息進(jìn)行掃描識(shí)別,并將其轉(zhuǎn)化為計(jì)算機(jī)內(nèi)碼,進(jìn)而按照要求輸出相應(yīng)格式的文檔信息。

      2 OCR識(shí)別在信息資源數(shù)字化工作中的作用

      信息資源數(shù)字化工作的最終目的,是為向用戶提供方便、快捷的文獻(xiàn)信息資源和服務(wù)。在信息資源數(shù)字化工作過(guò)程中,OCR識(shí)別承擔(dān)著將信息資源數(shù)字化產(chǎn)品按照用戶利用需求進(jìn)一步優(yōu)化的任務(wù)。OCR識(shí)別實(shí)際上是一種字符轉(zhuǎn)換的過(guò)程,OCR識(shí)別工作的產(chǎn)品--文本文檔,一方面需要滿足用戶對(duì)信息資源數(shù)字化產(chǎn)品方便獲取、便于利用的需求,同時(shí)還必須忠于文獻(xiàn)信息資源的原始內(nèi)容。基于此,OCR識(shí)別是確保信息資源數(shù)字化產(chǎn)品質(zhì)量的重要因素,同時(shí)也是為信息資源數(shù)字化工作提供用戶保障的重要環(huán)節(jié)。

      3 信息資源數(shù)字化工作中OCR識(shí)別的生命周期

      根據(jù)信息資源數(shù)字化中OCR識(shí)別流程圖,結(jié)合已有學(xué)者的研究?jī)?nèi)容[4],筆者認(rèn)為可以將信息資源數(shù)字化OCR識(shí)別工作的生命周期劃分為數(shù)字掃描對(duì)象的獲取、數(shù)字圖像的生產(chǎn)、數(shù)字圖像的處理、OCR文本識(shí)別和識(shí)別結(jié)果優(yōu)化等五個(gè)階段。

      3.1 數(shù)字掃描對(duì)象的獲取階段

      從目前國(guó)內(nèi)外所開(kāi)展的大型信息資源數(shù)字化項(xiàng)目情況來(lái)看,該階段一般通過(guò)兩種途徑來(lái)獲取數(shù)字掃描對(duì)象。一種途徑是選擇原始文獻(xiàn)進(jìn)行數(shù)字掃描或數(shù)碼拍照,另一種途徑是先通過(guò)縮微技術(shù)制作原始文獻(xiàn)的縮微膠片,然后對(duì)縮微膠片進(jìn)行數(shù)字掃描或數(shù)碼拍照。

      當(dāng)選擇直接對(duì)原始文獻(xiàn)進(jìn)行數(shù)字掃描或數(shù)碼拍照時(shí),應(yīng)注意盡量避免拆分裝訂成冊(cè)的原始文獻(xiàn),尤其應(yīng)當(dāng)避免在操作過(guò)程中對(duì)部分珍稀文獻(xiàn)造成損傷。如果有若干可供選擇的原始文獻(xiàn)實(shí)體,應(yīng)選擇紙張平整、壓裝平滑、潔凈無(wú)污損的原始文獻(xiàn)進(jìn)行數(shù)字掃描或數(shù)碼拍照。當(dāng)選擇對(duì)原始文獻(xiàn)的縮微膠片進(jìn)行數(shù)字掃描或數(shù)碼拍照時(shí),首先應(yīng)采用以聚酯為片基、含有銀明膠涂層的膠片,避免采用相對(duì)容易老化的醋酸片基類縮微膠片。在縮微膠片沖洗過(guò)程中,應(yīng)將顯影液中的濃縮儲(chǔ)存液(阿克發(fā)藥液G231c)與清水的體積配比為1:3,同時(shí)將顯影液的溫度控制在35℃左右,以防止縮微膠片出現(xiàn)灰霧、污染和影像不清晰等現(xiàn)象;應(yīng)將殘留于縮微膠片表面的定影劑含量控制在1.4μg/cm2以下,以防止縮微膠片硫化變黃;應(yīng)對(duì)縮微膠片進(jìn)行充分水洗,以避免殘留在膠片乳劑層中的硫代硫酸鹽與空氣中的二氧化碳和水發(fā)生化學(xué)反應(yīng)所生成的硫化物與影像中的銀發(fā)生反應(yīng),造成亞硫酸被氧化,最終導(dǎo)致使影像變黃或褪色消失[5];應(yīng)對(duì)縮微膠片進(jìn)行合理干燥,避免因烘干溫度過(guò)高導(dǎo)致縮微膠片卷曲、發(fā)脆、甚至折裂,或因烘干溫度過(guò)低導(dǎo)致縮微膠片乳劑層粘連、滋生霉菌。

      3.2 數(shù)字圖像的生產(chǎn)階段

      該階段通過(guò)對(duì)原始文獻(xiàn)或原始文獻(xiàn)的縮微膠片進(jìn)行數(shù)字掃描或數(shù)碼拍照,進(jìn)而生成信息資源數(shù)字化工作的初級(jí)產(chǎn)品—數(shù)字圖像。信息資源數(shù)字化工作過(guò)程中,數(shù)碼相機(jī)一般用于對(duì)三維立體文獻(xiàn)載體進(jìn)行成像,因此在具體應(yīng)用中該階段一般采用數(shù)字掃描來(lái)形成原始文獻(xiàn)的數(shù)字圖像。

      為保證數(shù)字圖像的質(zhì)量,該階段應(yīng)選擇合適的數(shù)字掃描儀并采用正確的使用方法。在數(shù)字掃描儀的選擇方面,應(yīng)在相同條件下選擇配有光電耦合器(CCD,Charged Coupled Device)的掃描儀;數(shù)字掃描儀能夠提供的最低光學(xué)分辨率不應(yīng)低于300dpi,最高光學(xué)分辨率應(yīng)能夠達(dá)到600dpi;當(dāng)掃描對(duì)象是印刷型文本時(shí),應(yīng)首選平臺(tái)式數(shù)字掃描儀,當(dāng)掃描對(duì)象是縮微膠片時(shí),應(yīng)選用縮微膠片數(shù)字掃描儀或滾筒式數(shù)字掃描儀。在數(shù)字掃描儀的使用方面,應(yīng)根據(jù)被掃描對(duì)象的具體情況設(shè)置合適的掃描模式、掃描分辨率、掃描閾值、亮度/對(duì)比度及掃描文件的保存格式;正式使用前應(yīng)充分預(yù)熱,并開(kāi)啟去除網(wǎng)紋功能;使用過(guò)程中應(yīng)保持鏡頭組件的牢固性,正確擺放被掃描對(duì)象,并時(shí)刻保持清潔的工作環(huán)境。

      3.3 數(shù)字圖像的處理階段

      該階段的任務(wù)是對(duì)數(shù)字圖像進(jìn)行一系列針對(duì)性的增強(qiáng)處理,以滿足OCR識(shí)別軟件精準(zhǔn)識(shí)別的目的。圖像增強(qiáng)處理工作的直接目的是為了提高圖像的解譯力,把圖像中我們感興趣的特征強(qiáng)調(diào)出來(lái),同時(shí)抑制不感興趣的特征[6]。具體實(shí)施過(guò)程中,應(yīng)注意選擇合適的數(shù)字圖像處理軟件并采用正確的數(shù)字圖像增強(qiáng)處理操作。endprint

      在數(shù)字圖像處理軟件的選擇方面,應(yīng)在軟件的價(jià)格與性能之間做出妥善選擇。經(jīng)常出現(xiàn)的情況是,數(shù)字掃描儀自身附帶的圖像處理軟件價(jià)格低廉(在購(gòu)買掃描儀時(shí)由廠家免費(fèi)贈(zèng)送),但圖像處理功能有限;商業(yè)數(shù)字圖像處理軟件功能較為完善,但其市場(chǎng)價(jià)格昂貴。筆者認(rèn)為,為確保數(shù)字圖像增強(qiáng)處理質(zhì)量進(jìn)而為后續(xù)的OCR精確識(shí)別提供基礎(chǔ),應(yīng)選用性能完善的商業(yè)數(shù)字圖像處理軟件。

      在數(shù)字圖像增強(qiáng)處理操作過(guò)程中,應(yīng)注意合理調(diào)整數(shù)字圖像的幾何位置,以使數(shù)字圖像中的字符圖案恢復(fù)到水平與垂直方向上,為OCR軟件正確辨識(shí)字符提供基礎(chǔ);應(yīng)設(shè)置合適的閾值對(duì)數(shù)字圖像進(jìn)行二值化處理,以增強(qiáng)數(shù)字圖像的黑白對(duì)比效果,使其細(xì)節(jié)特征得以凸顯;應(yīng)在盡可能保留數(shù)字圖像細(xì)節(jié)特征的基礎(chǔ)上,有效抑制數(shù)字圖像中的噪聲;應(yīng)對(duì)數(shù)字圖像進(jìn)行合理銳化,以增強(qiáng)字符圖案輪廓邊緣部分的清晰度,便于工作人員及OCR識(shí)別軟件辨識(shí)。

      3.4 OCR文本識(shí)別階段

      該階段使用OCR軟件對(duì)經(jīng)過(guò)處理的數(shù)字圖像進(jìn)行識(shí)別,在信息資源數(shù)字化工作OCR識(shí)別生命周期中,OCR文本識(shí)別階段處于中心位置。具體實(shí)施過(guò)程中,應(yīng)注意選用合適的OCR軟件。以精確識(shí)別數(shù)字圖像、為信息資源數(shù)字化工作提供高質(zhì)量產(chǎn)品為衡量,筆者認(rèn)為該階段應(yīng)從對(duì)形近字符的識(shí)別能力、對(duì)數(shù)字圖像“噪聲”的適應(yīng)能力、對(duì)數(shù)字圖像中標(biāo)點(diǎn)符號(hào)的識(shí)別能力、對(duì)數(shù)字圖像的預(yù)處理能力、支持識(shí)別的項(xiàng)目類型、用戶界面友好型等六個(gè)方面入手來(lái)選用合適的OCR識(shí)別軟件。

      3.5 識(shí)別結(jié)果優(yōu)化階段

      信息資源數(shù)字化工作中,經(jīng)OCR軟件識(shí)別的文本材料并非整項(xiàng)工作的最終產(chǎn)品。實(shí)際操作過(guò)程中,經(jīng)OCR軟件識(shí)別的文本材料中常常存在亂碼字符、文本排列格式混亂等現(xiàn)象,這與用戶的使用需求尚存在差距。鑒于此,以原始文獻(xiàn)信息資源內(nèi)容作參照,對(duì)經(jīng)OCR軟件識(shí)別的文本材料進(jìn)行人工校正處理就顯得十分必要。在此基礎(chǔ)上,以用戶使用需求為考量,為經(jīng)人工校正的文本材料選用合適的格式進(jìn)行輸出、保存,是信息資源數(shù)字化OCR識(shí)別工作過(guò)程的最后一個(gè)環(huán)節(jié)。

      參考文獻(xiàn):

      [1]陳光祚、雷燕.中外信息資源數(shù)字化比較研究[J].情報(bào)科學(xué),2001(08).

      [2]郭軍.信息資源數(shù)字化文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度影響因素及提高策略研究.鄭州大學(xué)碩士畢業(yè)論文,2011(04).

      [3]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies,1982,(2):78-81.

      [4]臧國(guó)全.文本數(shù)字化圖像OCR識(shí)別的準(zhǔn)確度測(cè)度實(shí)驗(yàn)與提高[J].圖書(shū)情報(bào)知識(shí),2010(03):62-67.

      [5]徐杰.淺談縮微膠片沖洗[J].縮微技術(shù),2001(04):30-31.

      [6]王斐,王杰生,胡德永.三個(gè)商用遙感數(shù)字圖像處理軟件比較[J].遙感技術(shù)與應(yīng)用,1998(06):49-56.endprint

      猜你喜歡
      生命周期
      動(dòng)物的生命周期
      全生命周期下呼吸機(jī)質(zhì)量控制
      從生命周期視角看并購(gòu)保險(xiǎn)
      民用飛機(jī)全生命周期KPI的研究與應(yīng)用
      企業(yè)生命周期及其管理
      安徽:打造創(chuàng)新全生命周期的金融資本支撐體系
      綠色建筑全生命周期的成本控制
      塑料包裝生命周期綠色化淺論(四)
      塑料包裝(2015年2期)2015-12-20 08:08:43
      旅游地生命周期理論研究進(jìn)展
      塑料包裝生命周期綠色化的淺論(三)
      塑料包裝(2015年1期)2015-09-26 12:23:34
      延川县| 吉林市| 广昌县| 台江县| 阳东县| 永定县| 正定县| 天镇县| 宁国市| 康马县| 乌兰县| 泸州市| 安康市| 马尔康县| 北海市| 穆棱市| 壶关县| 绵竹市| 嘉峪关市| 旌德县| 辉县市| 江山市| 平遥县| 吴川市| 菏泽市| 涞源县| 青海省| 浮山县| 达尔| 镇沅| 仁寿县| 瓮安县| 通山县| 上思县| 安化县| 阳信县| 小金县| 阳泉市| 观塘区| 临沂市| 垫江县|