• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于可信的電子文件自動分類關(guān)鍵技術(shù)研究*

    2018-08-20 08:13:44李娟張慎武夏敏捷
    檔案管理 2018年4期
    關(guān)鍵詞:分詞特征提取分類器

    李娟 張慎武 夏敏捷

    摘? 要:如今以虛擬聯(lián)結(jié)為依托的信任對電子文件的可信性帶來巨大的挑戰(zhàn)。本文以InterPARES提出的“可信”理念為前提,在機(jī)器學(xué)習(xí)和自然語言處理等技術(shù)和方法論的支撐下,針對電子文件分類的特點(diǎn),分析研究分類器、特征提取等關(guān)鍵技術(shù),以期滿足各個領(lǐng)域在電子文件捕獲、存儲、處置等階段的需要,為探索電子文件自動分類帶來指導(dǎo)意義。

    關(guān)鍵詞:電子文件;可信;InterPARES;自動分類

    1 引言

    信息技術(shù)的快速發(fā)展使得各個領(lǐng)域的數(shù)據(jù)文件急劇膨脹,給檔案工作者帶來了前所未有的挑戰(zhàn)。文件的易改性、軟件的升級、硬件的更新等都會對電子文件的真實(shí)性、可讀性和長期保存造成威脅。在這種前提下InterPARES[1]提出“可信”概念,是對電子文件“四性”的進(jìn)一步拓展。

    傳統(tǒng)的人工分類費(fèi)時費(fèi)力,而采用機(jī)器學(xué)習(xí)的方法對電子文件進(jìn)行自動分類可以有效地查詢到數(shù)據(jù)信息,也方便了數(shù)據(jù)存儲。因此,在保證“可信”的前提下,本文通過結(jié)合機(jī)器學(xué)習(xí)、自然語言處理等相關(guān)算法,研究如何對電子文件的內(nèi)容實(shí)現(xiàn)自動化分類管理。除傳統(tǒng)的電子文件(文書文件等)之外,各種社交媒體和在線資源應(yīng)用(微信和微博等)的內(nèi)容,都將成為有效證據(jù)的電子文件,這也將成為信息的分類和提取中一個新興的探索領(lǐng)域。

    2 InterPARES 項目概述

    “電子系統(tǒng)中文件真實(shí)性永久保障國際合作項目”(InterPARES)始終圍繞著數(shù)字文件管理與保存的問題展開研究與探索。截至目前InterPARES已經(jīng)完成了第四個階段(2013-2018)計劃的一半,即研究“網(wǎng)絡(luò)化社會中數(shù)字文件的可信性”?!翱尚牛╰rustworthiness)”理念的提出,為我們進(jìn)一步探尋電子文件的管理提供了新的視角。

    國外研究中,Ronald Jantz[2]認(rèn)為真實(shí)性和可靠性是確保電子文件“可信”的關(guān)鍵因素,可信的過程、傳統(tǒng)角色的重新定義以及支持真實(shí)性技術(shù)的實(shí)現(xiàn)都需要滿足數(shù)字學(xué)術(shù)的需要,并提出了可信的概念框架。國內(nèi)劉家真指出,“可信賴的文件是指文件內(nèi)容可信賴,真實(shí)準(zhǔn)確地反映了它所描述的事實(shí)與事件” [3];李澤鋒在國內(nèi)第一個全面探索電子文件可信管理的問題,并梳理了電子文件可信管理的關(guān)鍵問題等[4]。

    InterPARES明確指出“可信”是“文件的準(zhǔn)確性、可靠性和真實(shí)性”。由此,InterPARES實(shí)際是對電子文件“四性”做了更細(xì)致更深入的拓展,同時在探索電子文件質(zhì)量的基礎(chǔ)上,第四階段更關(guān)注網(wǎng)絡(luò)數(shù)字文件和數(shù)據(jù)問題、關(guān)注用戶的主觀認(rèn)知,以確保公眾信任建立在良好治理、強(qiáng)勁數(shù)字經(jīng)濟(jì)和持續(xù)數(shù)字記憶的證據(jù)之上。

    3 電子文件自動分類及其關(guān)鍵技術(shù)

    電子文件的分類,就是根據(jù)電子文件內(nèi)容的屬性或特征,將其按一定原則和方法進(jìn)行區(qū)分和歸類,并建立起一定的分類體系和排列順序[5]。它能夠揭示文件與文件之間的有機(jī)聯(lián)系,更重要的是可以方便進(jìn)行查詢與檢索。

    在大數(shù)據(jù)時代,電子文件數(shù)目的海量增長,使得傳統(tǒng)的人工分類顯得力不從心,利用計算機(jī)進(jìn)行自動文檔分類顯得尤為重要。近年來,文本挖掘、機(jī)器學(xué)習(xí)、自然語言處理、深度學(xué)習(xí)等進(jìn)行文檔自動分類成為一個多學(xué)科交叉研究的熱點(diǎn),并非常具有應(yīng)用價值。要實(shí)現(xiàn)電子文件自動分類,如何對文件進(jìn)行預(yù)處理、特征提取、分類器設(shè)計以及良好的算法等都關(guān)系到分類的準(zhǔn)確性和效率。本文以文書文件為例,需要著重解決的關(guān)鍵問題如下:

    3.1 電子文件預(yù)處理。由于電子文件的來源異構(gòu)、格式各異,不但不利于長期保存和有效利用,也不便于對電子文件進(jìn)行自動分類操作,因此待分類的文件必須經(jīng)過預(yù)處理。

    ①格式轉(zhuǎn)換。為保證文件始終如一的顯示效果,擺脫軟硬件支持和長期的有效利用,依據(jù)國家檔案局發(fā)布的DA/T 47-2009《版式電子文件長期保存格式需求》行業(yè)標(biāo)準(zhǔn),需要將不同格式的文件進(jìn)行統(tǒng)一類型的轉(zhuǎn)換。

    ②分詞。分詞是預(yù)處理過程中最重要的一步,西文文本單詞與單詞之間有空格,可以自然地分隔、切詞,而中文文本不能簡單地使用空格進(jìn)行分詞,且同一個詞語在不同的語境下能夠表達(dá)不同的意思,這樣也就加大了中文文本的處理難度和詞語切分的精度。分詞技術(shù)的好處直接影響到自動分類的效果。本文使用開源的IKAnalyzer分詞器。

    ③降噪處理。分詞后的文本信息,可能會包含標(biāo)點(diǎn)符號、停用詞、亂碼等,這些標(biāo)記的一個顯著的共同特點(diǎn)是與文本的內(nèi)容無關(guān),對文本的分類沒有作用,屬于噪聲數(shù)據(jù),應(yīng)在自動分類之前將其去除掉。

    ④文本表示。目前的計算機(jī)無法智能到讀懂人類的文字,所以必須把文本轉(zhuǎn)換成計算機(jī)能夠理解的形式,即進(jìn)行文本表示。本文主要采用向量空間模型(VSM),即是把文檔簡化為特征項的權(quán)重為分量的向量表示:(w1,w2,...,wn),其中wi 為第i 個特征項的權(quán)重,一般選取詞作為特征項,權(quán)重用詞頻表示。

    3.2 電子文件的特征提取。當(dāng)使用特征向量對文件進(jìn)行表示時,特征向量通常會達(dá)到幾萬維甚至幾十萬維,隨著維數(shù)的增大,分類算法的實(shí)現(xiàn)復(fù)雜度也必然增大。所以必須進(jìn)行特征提取,特征提取的基本思想是通過對原始向量空間的處理,得到一個空間維數(shù)更小,維與維之間關(guān)聯(lián)更少的向量空間,盡可能多地識別和刪除不相關(guān)特征和冗余特征,同時保留一些類別區(qū)分度較高的文本特征,從而有效提升分類的效率和準(zhǔn)確性[6]。

    3.3 分類器模型選擇。對于電子文件的自動分類,屬于有監(jiān)督的學(xué)習(xí)過程,也就是必須有大量的訓(xùn)練樣本(文件)進(jìn)行預(yù)先訓(xùn)練,而對于不同類型、不同職能的電子文件還需要建立不同的分類器模型。確定分類器模型以后,才可以將未分類的電子文件傳入該分類器,劃分到概率最大的類別得到分類結(jié)果。目前常見的分類算法很多,如貝葉斯算法、決策樹、K近鄰(KNN)算法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、回歸模型、最大熵模型等。

    4 電子文件自動分類流程

    電子文件自動分類流程可概括為兩個階段:第一個階段是分類器的訓(xùn)練學(xué)習(xí)階段,第二個階段為分類階段,利用第一個階段得到的分類器對分類文件進(jìn)行分類處理。

    在訓(xùn)練階段,首先需要對訓(xùn)練電子文件數(shù)據(jù)集進(jìn)行統(tǒng)一的格式轉(zhuǎn)換,如轉(zhuǎn)換為PDF/A格式,然后利用IKAnalyzer分詞器進(jìn)行文本分詞、降噪等一系列預(yù)處理操作。為了能使計算機(jī)表示為計算機(jī)可識別形式,按照向量模型空間的基本思想,將分詞后的內(nèi)容進(jìn)行特征向量描述,通過特征降維得到一個特征項集合,最后利用較簡單的機(jī)器學(xué)習(xí)算法——KNN算法,獲得分類器模型。

    分類器模型確定之后,便可對未知文本進(jìn)行分類處理,同樣需要進(jìn)行文件的預(yù)處理、文本表示、特征提取等一系列操作,最后將特征項的集合傳輸給分類器模型,從而得到文件的分類結(jié)果。

    5 基于“可信”的電子文件自動分類系統(tǒng)框架設(shè)計

    本文嘗試建立一種“可信”的電子文件自動分類系統(tǒng)。該框架最終將與ERMS(電子文件管理系統(tǒng))或者移交接收平臺相結(jié)合,因此必須考慮所采用的數(shù)據(jù)庫系統(tǒng),且需要對電子文件的元數(shù)據(jù)元素進(jìn)行采集。

    整個框架都基于“可信”理念設(shè)計,對各個步驟進(jìn)行安全管控,如:為了保證電子文件的長期有效利用,根據(jù)相關(guān)行業(yè)標(biāo)準(zhǔn),將原生文件進(jìn)行統(tǒng)一的文件格式轉(zhuǎn)換(PDF/A格式);在進(jìn)行元數(shù)據(jù)采集之前需要進(jìn)行“四性”檢測,有效地保證了數(shù)據(jù)的完整性、安全性、真實(shí)性及可用性;利用非結(jié)構(gòu)化數(shù)據(jù)庫設(shè)置“權(quán)限管理”“分發(fā)管理”“數(shù)字簽名”“數(shù)據(jù)備份”等安全控制技術(shù)。

    6 結(jié)束語

    電子文件的自動分類是對電子信息進(jìn)行自動化處理的重要研究方向,它可以通過給定的分類標(biāo)準(zhǔn),由電子文件的內(nèi)容自動判別其文本類別,在學(xué)術(shù)上具有重要的研究價值和意義。該研究涉及多種技術(shù),如,信息安全技術(shù)、元數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)算法、自然語言處理等。下一步將繼續(xù)考慮圖像、社交媒體信息等各個類型的電子文件的自動分類問題,及如何與電子文件的移交與接收、ERMS等相結(jié)合的問題,并為后續(xù)的長期保存與利用提供有力的支持。

    參考文獻(xiàn):

    [1]InterPARES 2 Project. Glossary,Dictionary&Ontologies[EB/OL].(2014- 1-1)[2014-1-2].http://www.interpares.org/ip2/ip2_terminology_db.cfm.

    [2]Jantz R. An institutional framework for creating authentic digital objects[J]. International Journal of Digital Curation, 2009, 4(1): 71-83.

    [3]劉家真.在傳統(tǒng)環(huán)境與電子環(huán)境中文件的可信度與真實(shí)性比較[J].四川檔案,1998(6):13.

    [4]李澤鋒.電子文件可信管理關(guān)鍵問題分析[J].檔案學(xué)研究,2012 (6):52-55.

    [5]王芳.基于J2EE的信息分類編碼標(biāo)準(zhǔn)管理系統(tǒng)的研究[D].大連:大連海事大學(xué),2006.

    [6]毛嘉莉.文本聚類中的特征降維方法研究[J].西華師范大學(xué)學(xué)報(自然科學(xué)版),2009(4):365-368.

    猜你喜歡
    分詞特征提取分類器
    基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
    電子制作(2019年15期)2019-08-27 01:12:00
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    BP-GA光照分類器在車道線識別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    一種基于LBP 特征提取和稀疏表示的肝病識別算法
    值得重視的分詞的特殊用法
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    泾川县| 武隆县| 蚌埠市| 临桂县| 丰顺县| 萝北县| 吉隆县| 乐陵市| 托里县| 齐齐哈尔市| 三亚市| 哈巴河县| 徐州市| 双柏县| 郁南县| 五华县| 山丹县| 聂拉木县| 额敏县| 崇州市| 寻甸| 和静县| 贵港市| 广元市| 大兴区| 晋中市| 中西区| 元谋县| 吉林省| 贵阳市| 区。| 镇雄县| 耿马| 渝北区| 金秀| 察隅县| 隆子县| 珠海市| 尚志市| 阿鲁科尔沁旗| 清丰县|