• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多種類型文檔的數(shù)據(jù)處理

      2017-03-19 20:00:16張繼琛
      科學(xué)與財富 2017年6期
      關(guān)鍵詞:類庫中間件數(shù)據(jù)處理

      張繼琛

      摘 要:pdf、word、txt等類型文檔在學(xué)習(xí)和辦公中的使用越來普遍,為了方便對這些文檔進(jìn)行統(tǒng)一歸類、整理等必要的處理,在處理文檔的時候,那么就需要把文檔轉(zhuǎn)換成統(tǒng)一的格式進(jìn)行處理,這就涉及到各種類型文檔的相互轉(zhuǎn)換。還需要提取關(guān)鍵詞等功能來幫助用戶對文檔分類或了解文檔的大概內(nèi)容。

      本文會講解在多種類型文檔進(jìn)行數(shù)據(jù)處理時所采用的關(guān)鍵詞抽取的相關(guān)技術(shù)和數(shù)據(jù)格式轉(zhuǎn)換技術(shù)的調(diào)研和使用。擬用C/S結(jié)構(gòu)開發(fā),采用JAVA作為開發(fā)工具,在Eclipse環(huán)境下,實(shí)現(xiàn)對多種類型文檔進(jìn)行數(shù)據(jù)處理的模擬。

      關(guān)鍵詞:格式轉(zhuǎn)換;關(guān)鍵詞抽取

      1 設(shè)計方案

      1.1文檔格式轉(zhuǎn)換方案

      因各類文檔的轉(zhuǎn)換方法類似,而word文檔轉(zhuǎn)換為pdf文檔是最常用的。所以設(shè)計方案用實(shí)現(xiàn)word文檔轉(zhuǎn)換為pdf文檔的作為例子,詳細(xì)方案如下。

      方案1:

      首先利用程序直接打開Word文檔,從原文檔中獲取文字和圖像的內(nèi)容以及它們的相關(guān)屬性(因word文檔對文字和圖像的屬性設(shè)置過多,只能獲取部分關(guān)鍵屬性),再直接生成PDF文檔并按照Word文檔的對應(yīng)屬性把對應(yīng)的文字內(nèi)容和圖像內(nèi)容分別輸入到相應(yīng)的位置上,最后關(guān)閉文件。

      但是,因為需要從文檔中直接獲取其中的內(nèi)容和對應(yīng)屬性,如果要采用此方案,就必須精通Word以及PDF的文檔的結(jié)構(gòu)。但是Word和PDF的文檔的結(jié)構(gòu)非常復(fù)雜(單單文檔的規(guī)則就有幾千條,時間會浪費(fèi)在閱讀和使用規(guī)則上)。這就意味著,在讀取Word文檔的時候不但要獲取Word文檔的文本內(nèi)容,而且還要獲取到對應(yīng)的字體格式、顏色、背景圖像以及表格的位置等等。又因為微軟的office軟件和Adobe Acrobat Professional都不是開源軟件,沒有它們的源代碼,就很難保證在定義Word和PDF文檔對應(yīng)屬性、設(shè)置文檔格式時不會遇到非開源的部分。綜上所述,此方案體實(shí)現(xiàn)困難。

      方案2:

      對于方案1中存在的問題,微軟公司和第三方公司提供了操作Word、Excel和PDF的類庫、接口和組件,這就有了解決方案。第二種方案就是先制作一個中間件,即將word文檔先轉(zhuǎn)換成Ps文檔,然后再把Ps文檔轉(zhuǎn)換成PDF文檔。最終編寫圖形界面,上傳文檔并利用代碼使用這個中間件完成文檔轉(zhuǎn)換。

      方案3:

      為了提高多種類型文檔的數(shù)據(jù)處理的穩(wěn)定性和安全性,本方案對方案2進(jìn)行修改,取消使用件。方案2調(diào)用提供的相應(yīng)組件和類庫的使用是在中間件中實(shí)現(xiàn)的,每當(dāng)對中間件打包處理時,只能把中間件打包,而對于其中所調(diào)用的組件和類庫等無法打包,若用方案2開發(fā)模擬數(shù)據(jù)處理的模擬程序必受到軟件環(huán)境的制約。所以方案3放棄使用中間件,采用PDFBOX、POI類庫??紤]到需轉(zhuǎn)換的文檔具有很多的規(guī)范,且不易直接操作的特點(diǎn),同時為了數(shù)據(jù)處理模擬程序的通用性,因此決定使用方案3進(jìn)行模擬。

      1.2關(guān)鍵詞抽取方案

      在文檔被統(tǒng)一的轉(zhuǎn)換為同一類文檔后,接下來就需要對文檔進(jìn)行關(guān)鍵詞抽取。

      1.利用ANSJ中文分詞對轉(zhuǎn)換后文檔進(jìn)行處理,將文檔中所有詞匯和詞性放入數(shù)組中存儲。

      2.統(tǒng)計特征值。創(chuàng)建一個哈希表。里面需要有詞匯所在位置(標(biāo)題,摘要,正文,句首,句尾)和出現(xiàn)總次數(shù)等等。

      3.從正文的開始處,若開頭不是虛詞也不是符號,若相連的兩個詞都不是,計算這兩個詞連續(xù)出現(xiàn)的次數(shù)。如果計算的次數(shù)大于設(shè)定的閾值,就把這兩個詞或者合并到一起并修正詞性為new(表示為名詞),再從這個重新組成的詞作為開始,循環(huán)以上操作;若相連兩個詞的出現(xiàn)的次數(shù)小于設(shè)定的閾值,或有虛詞、符號,則跳過。然后尋找下一個不是虛詞或者符號的實(shí)詞。直至正文內(nèi)容的結(jié)尾。

      4.根據(jù)修改的數(shù)組重新遍歷。重新整理哈希表的信息。修改原來的新詞匯new和里面的特征值。

      以上步驟能夠重新切分出一些新詞。這些新詞可以作為關(guān)鍵詞提取的一個特征值,它們會起很大的作用。

      2 程序模擬

      按照方案3進(jìn)行程序模擬的結(jié)果如下圖所示:

      參考文獻(xiàn)

      [1] 田學(xué)軍.PDF文件格式及其轉(zhuǎn)化方法探討[J],荊門職業(yè)技術(shù)學(xué)院學(xué)報,2005,(3):5-31.

      [2] 鄭家恒,盧嬌麗,關(guān)鍵詞抽取方法的研究[J].計算機(jī)工程,2005,18(9):194-196.

      [3] 宋艷娟,李金銘,陳振標(biāo).基于XSLT的PDF信息抽取技術(shù)的研究[J].計算機(jī)與數(shù)字工程,2008,36(5):156-159.

      猜你喜歡
      類庫中間件數(shù)據(jù)處理
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
      用Java編寫客戶機(jī)/服務(wù)器端應(yīng)用程序
      Python在數(shù)據(jù)可視化中的應(yīng)用
      RFID中間件技術(shù)及其應(yīng)用研究
      電子制作(2018年14期)2018-08-21 01:38:10
      基于VanConnect中間件的設(shè)計與開發(fā)
      電子測試(2018年10期)2018-06-26 05:54:02
      數(shù)據(jù)結(jié)構(gòu)課程教學(xué)改革方案和應(yīng)用效果
      軟件工程(2017年12期)2018-01-29 17:35:55
      數(shù)據(jù)結(jié)構(gòu)可視化類庫的設(shè)計與實(shí)現(xiàn)
      基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
      中間件在高速公路領(lǐng)域的應(yīng)用
      商河县| 永和县| 安达市| 新巴尔虎右旗| 绵阳市| 新晃| 化德县| 达孜县| 盘山县| 噶尔县| 肇庆市| 察雅县| 松江区| 白河县| 景德镇市| 宜君县| 贵南县| 无棣县| 博兴县| 柳江县| 务川| 册亨县| 贵溪市| 铜川市| 莎车县| 安徽省| 门头沟区| 密云县| 景宁| 碌曲县| 崇州市| 尼木县| 兴城市| 共和县| 成武县| 甘谷县| 于都县| 南平市| 彩票| 耿马| 进贤县|