• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      利用雙層PDF技術(shù)實(shí)現(xiàn)地質(zhì)資料信息化管理

      2017-11-25 16:42:09李曉敏
      科技資訊 2017年28期
      關(guān)鍵詞:識(shí)別率雙層文檔

      李曉敏

      摘 要:本文介紹了雙層PDF技術(shù)的實(shí)現(xiàn)方法及操作技巧,旨在通過(guò)建立索引數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)地質(zhì)資料的信息化管理。在已掃描地質(zhì)資料數(shù)據(jù)基礎(chǔ)上,通過(guò)OCR識(shí)別生成文本與圖像相結(jié)合的可檢索PDF文件,100%保留原檔案資料版面效果,實(shí)現(xiàn)文檔的檢索、復(fù)制等功能,提高地質(zhì)文檔電子化發(fā)展。

      關(guān)鍵詞:雙層PDF OCR 地質(zhì)資料 信息化

      中圖分類號(hào):G27 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)10(a)-0014-02

      目前,河北省地質(zhì)檔案館的全部資料已經(jīng)完成了圖文掃描,數(shù)字化的數(shù)據(jù)為地質(zhì)資料信息化發(fā)展提供了重要的數(shù)據(jù)資源。數(shù)字化的地質(zhì)資料用于閱讀雖然極大地提高了效率,但是目前所有的數(shù)字圖文資料還不能夠進(jìn)行全文檢索,數(shù)字化資料深層化的利用和解析還沒(méi)有起到一定的作用。

      因此,在現(xiàn)有數(shù)字化數(shù)據(jù)的基礎(chǔ)上,開展OCR(Optical Character Recognition)識(shí)別,使之轉(zhuǎn)化為雙層PDF文件,并形成全文數(shù)據(jù)庫(kù),實(shí)現(xiàn)地質(zhì)資料和數(shù)據(jù)的全面檢索,促進(jìn)地質(zhì)資料由靜態(tài)查閱向數(shù)字化信息管理發(fā)展。

      1 雙層PDF轉(zhuǎn)換方法及流程

      目前國(guó)內(nèi)雙層PDF轉(zhuǎn)換技術(shù)已相對(duì)成熟,在現(xiàn)有技術(shù)條件下,大體可分為三種:軟件轉(zhuǎn)換、流程加工、識(shí)別重構(gòu)。地質(zhì)資料數(shù)字化雙層PDF轉(zhuǎn)換主要運(yùn)用第一種方法進(jìn)行軟件轉(zhuǎn)換,即經(jīng)過(guò)軟件自動(dòng)OCR處理后直接形成雙層PDF文件。

      1.1 圖像處理

      在圖文掃描數(shù)字化形成成果基礎(chǔ)上,對(duì)已有成果資料進(jìn)行加工處理,在進(jìn)行文件格式轉(zhuǎn)換之前對(duì)掃描圖像進(jìn)行“消藍(lán)去污”處理,消除影響識(shí)別圖像中的噪音、斑麻點(diǎn)和下劃線等因素,同時(shí)對(duì)柵格圖片進(jìn)行適當(dāng)?shù)募m斜處理,調(diào)整圖片整體的亮度和對(duì)比度。

      1.2 版面分析

      自動(dòng)進(jìn)行版面理解并定位,文字識(shí)別前要進(jìn)行識(shí)別范圍選擇,包括手動(dòng)和自動(dòng)選擇,其中正文、附表、附件、審批等文字類的資料采用自動(dòng)、手動(dòng)選擇相結(jié)合方式,通過(guò)OCR識(shí)別軟件進(jìn)行自動(dòng)判別識(shí)別區(qū)域,對(duì)比各級(jí)目錄按照內(nèi)容格式要手動(dòng)選擇識(shí)別區(qū)域,并標(biāo)出豎排區(qū)、表格區(qū)或圖像區(qū)。對(duì)于圖件中圖名、比例尺、責(zé)任簽需要識(shí)別區(qū)域則采用手動(dòng)選擇方式。

      1.3 文字識(shí)別和校正

      文字識(shí)別方式采用OCR自動(dòng)識(shí)別和人工識(shí)別兩種方式,對(duì)于正文、附表、附件、審批等文字類資料采用專業(yè)識(shí)別軟件進(jìn)行識(shí)別,通過(guò)人工校正使各級(jí)目錄中文字識(shí)別率達(dá)到100%,附圖中的圖名、責(zé)任簽、比例尺和老舊資料中的重要信息,采用人工識(shí)別方式,使用專業(yè)軟件對(duì)照文字內(nèi)容和位置,采集相關(guān)信息,將文字內(nèi)容置于底層,最終形成雙層PDF文檔。

      1.4 電子書制作

      正文、附件、附表等資料中的封面、目錄插回原位置,將分頁(yè)的PDF電子文件合并成冊(cè),同時(shí)刪除圖像中的空白頁(yè),最終形成多頁(yè)的PDF電子書文檔,并掛接章、節(jié)、條、款等目錄信息制作成可鏈接書簽,實(shí)現(xiàn)準(zhǔn)確定位與檢索。

      1.5 責(zé)任表制作

      責(zé)任表的作用就是記錄PDF文件的制作人以及與該文檔相關(guān)的制作單位、制作時(shí)間等信息。

      責(zé)任表作為單獨(dú)一頁(yè),建立PDF文件放于該檔資料的文件夾內(nèi),命名為“責(zé)任表_PDF”。

      1.6 文件組織

      文件組織包括文件命名和存放,按照電子文檔匯交格式要求,對(duì)每個(gè)PDF文件進(jìn)行命名,以檔案地質(zhì)資料為單元存儲(chǔ),將該檔中所有PDF電子文件存放于以“檔號(hào)_PDF”命名的文件夾中。

      2 雙層PDF轉(zhuǎn)換問(wèn)題

      雖然雙層PDF文件有很大的用途和作用,但是在實(shí)際的操作過(guò)程中,仍然存在著一些困難和問(wèn)題。

      (1)傳統(tǒng)紙質(zhì)的地質(zhì)資料紙張樣式、印刷方式是多種多樣的,并且還存在著大量手寫體和老舊資料中的數(shù)字公式、特殊符號(hào)等信息。受形成年代等因素影響,資料老舊、紙張質(zhì)量差,執(zhí)筆人手寫清晰度等因素嚴(yán)重影響了OCR識(shí)別結(jié)果,識(shí)別的率最低僅為30%,特殊符號(hào)、地層以及公式的識(shí)別率幾乎為0。

      (2)目前OCR識(shí)別技術(shù)不能夠?qū)崿F(xiàn)對(duì)文檔的整體掃描和完全識(shí)別,因此必須要根據(jù)實(shí)際需要的數(shù)據(jù)進(jìn)行人工介入和校對(duì),才能夠獲得相對(duì)完整的資料,滿足對(duì)全文檢索的要求。

      (3)地質(zhì)資料數(shù)據(jù)量大并且需要掃描的數(shù)據(jù)文檔較多,電子文檔轉(zhuǎn)換的效率還受到計(jì)算機(jī)實(shí)際的反應(yīng)速度和程序的流暢性等影響,因此在實(shí)際的轉(zhuǎn)換過(guò)程還需要配置能夠?qū)崿F(xiàn)快速反應(yīng)的高級(jí)計(jì)算機(jī)硬件設(shè)備。

      3 提高OCR識(shí)別率的方法

      為了提高工作效率,減輕橫向校對(duì)即人工校對(duì)的工作量,就要從根本上提高圖文識(shí)別率。經(jīng)過(guò)試驗(yàn),以下幾種方法可以提高柵格文件的OCR識(shí)別率。

      3.1 圖像色彩設(shè)定

      在實(shí)際的工作中灰度和彩色模式可實(shí)現(xiàn)紙質(zhì)資料數(shù)據(jù)的高度還原,也是提高數(shù)字化掃描工作效率的第一選擇,但是這兩種模式下的掃描結(jié)果會(huì)受到背景的噪聲影響,因此如果只是針對(duì)文字或者黑白插圖的資料進(jìn)行掃描,那么可以將程序直接設(shè)定為黑白,最大限度地提高識(shí)別率。最終的圖像彩色設(shè)定需要根據(jù)所需資料的工作性質(zhì)和規(guī)范進(jìn)行相應(yīng)的設(shè)置。

      3.2 分辨率設(shè)置

      分辨率的高低與掃描速度成反比,與成像質(zhì)量和識(shí)別率成正比,但并不是分辨率越高越好,當(dāng)分辨率設(shè)置過(guò)高,紙質(zhì)資料中的微小瑕疵也會(huì)被計(jì)算機(jī)誤讀為特殊的標(biāo)點(diǎn)符號(hào)或者記號(hào),反而降低了文字的識(shí)別效率,因此經(jīng)過(guò)反復(fù)的實(shí)驗(yàn)和操作,將掃描的分辨率設(shè)置為300dpi時(shí),掃描速度和識(shí)別效率能夠達(dá)到更好地平衡狀態(tài),同時(shí)滿足速度和結(jié)果的雙重要求。

      3.3 圖像處理

      為了保證電子文檔數(shù)據(jù)的有效性和正確性,在輸出前還需要進(jìn)行必要的圖像處理,主要是通過(guò)傾斜校正和去污去噪達(dá)到輸出圖像的保真,同時(shí)提高OCR識(shí)別效率。

      當(dāng)雙層PDF轉(zhuǎn)換完成后,可將所獲得的PDF文件與資料管理系統(tǒng)進(jìn)行關(guān)聯(lián),建立相應(yīng)的數(shù)據(jù)庫(kù),利用數(shù)據(jù)庫(kù)目錄文件的調(diào)用,實(shí)現(xiàn)全文數(shù)據(jù)的檢索。通過(guò)OCR數(shù)字加工形成的雙層PDF文件,可以最高保真的實(shí)現(xiàn)原版紙質(zhì)資料的還原,同時(shí)在此基礎(chǔ)上,能夠滿足全文檢索和直接復(fù)制的需求,并且檢索信息能夠精準(zhǔn)定位到特殊符號(hào)和字符,實(shí)現(xiàn)了地質(zhì)資料的信息化、數(shù)字化管理,為地質(zhì)資料數(shù)據(jù)信息的聚合研究和深度分析打下良好的數(shù)據(jù)基礎(chǔ)。

      參考文獻(xiàn)

      [1] 王勵(lì)著.雙層PDF技術(shù)在檔案管理中的具體應(yīng)用[J].現(xiàn)代商貿(mào)工業(yè),2014(22):168-169.

      [2] 郭金光.雙層PDF技術(shù)及在檔案數(shù)字化中的應(yīng)用[J].陜西檔案,2013(1):26-27.

      [3] 周雪瑩.采用雙層PDF形式將方正版文件制作為可檢索式PDF文件[J].編輯學(xué)報(bào),2012(6):592-594.

      [4] 艾紅,徐澤智,章麗萍.方正書版大樣轉(zhuǎn)雙層PDF文件的實(shí)現(xiàn)方法[J].武漢理工大學(xué)學(xué)報(bào):信息與管理工程版,2011(2):241-216.endprint

      猜你喜歡
      識(shí)別率雙層文檔
      有人一聲不吭向你扔了個(gè)文檔
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      墨爾本Fitzroy雙層住宅
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      次級(jí)通道在線辨識(shí)的雙層隔振系統(tǒng)振動(dòng)主動(dòng)控制
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      傳統(tǒng)Halbach列和雙層Halbach列的比較
      潢川县| 都兰县| 鱼台县| 祥云县| 乌什县| 乌兰浩特市| 长汀县| 来凤县| 扶风县| 河津市| 沭阳县| 吉安市| 丹江口市| 潜山县| 嵊泗县| 乌拉特后旗| 霍山县| 佛教| 岗巴县| 泸州市| 沐川县| 大名县| 浮山县| 岳阳市| 峨眉山市| 中江县| 亳州市| 股票| 射阳县| 体育| 石台县| 柳江县| 南昌市| 怀安县| 华蓥市| 黄山市| 湖南省| 家居| 大冶市| 新巴尔虎左旗| 吉首市|