陳 巖
吉林省梨樹(shù)縣廉政教育培訓(xùn)中心
大數(shù)據(jù)時(shí)代背景下的檔案利用服務(wù)分析
陳 巖
吉林省梨樹(shù)縣廉政教育培訓(xùn)中心
大數(shù)據(jù)時(shí)代的到來(lái)為人們的工作與生活帶來(lái)了極大的影響,并且這一影響更多是來(lái)自于好的一面,我國(guó)很多行業(yè)在大數(shù)據(jù)時(shí)代的背景下都發(fā)生了重要的變革,其中檔案行業(yè)的變化就十分明顯。對(duì)于大數(shù)據(jù)的定義,目前并不具備一個(gè)明確的定義,但是其主要的特點(diǎn)是信息數(shù)量大,具有實(shí)時(shí)性,并且有著多樣化的發(fā)展特點(diǎn),蘊(yùn)含著極大的社會(huì)價(jià)值,所以在檔案館的發(fā)展建設(shè)過(guò)程中,因?yàn)橛辛舜髷?shù)據(jù)這一重要的背景,相應(yīng)的利用服務(wù)產(chǎn)生了很大的變革,對(duì)于社會(huì)的發(fā)展具有積極的意義。
大數(shù)據(jù)背景;檔案利用服務(wù);數(shù)據(jù)挖掘;文本挖掘
隨著大數(shù)據(jù)時(shí)代的到來(lái),檔案館的信息利用以及服務(wù)工作產(chǎn)生了巨大的變化,現(xiàn)如今的檔案館檔案目錄正在采用集中化的管理方式,將其進(jìn)行統(tǒng)一的展現(xiàn),并且提高了館藏的存儲(chǔ)量,并且電子文件的出現(xiàn)節(jié)省了很大一部分空間,采用數(shù)字檔案的方式讓檔案管理變得更加高效與快捷,此外,現(xiàn)如今的檔案館還采用了非結(jié)構(gòu)化的數(shù)據(jù),諸如掃描圖像、演示文稿等方式,這樣人們?cè)诓殚啓n案資料的過(guò)程中變得更加方便了,同時(shí)也減輕了檔案管理工作者的工作負(fù)擔(dān),是一種十分高效的檔案處理方式。
在大數(shù)據(jù)時(shí)代的發(fā)展背景下,采用數(shù)據(jù)挖掘的方式是檔案館利用服務(wù)的一個(gè)重要選擇,因?yàn)闄n案的數(shù)量會(huì)隨著時(shí)代的發(fā)展變得越來(lái)越大,形式也會(huì)變得更加豐富,所以在這種情況下,就會(huì)造成需要的材料無(wú)法在第一時(shí)間找到的問(wèn)題,所以令服務(wù)質(zhì)量下降,在大數(shù)據(jù)的環(huán)境下,可以建立起一個(gè)IT架構(gòu),這樣就可以有效的提高性能,然后采用數(shù)據(jù)挖掘的方式能夠從大量的文本中找到所需要的檔案。在傳統(tǒng)的檔案管理過(guò)程中,主要包含了收集、管理以及保存和利用四個(gè)不同的方面,要想直接使用原始數(shù)據(jù)會(huì)存在一定的難度,此時(shí)就更加需要采用數(shù)據(jù)挖掘技術(shù)來(lái)找出所需要的數(shù)據(jù),這樣對(duì)檔案服務(wù)質(zhì)量的提升具有重要的幫助。
在應(yīng)用數(shù)據(jù)挖掘技術(shù)的過(guò)程中,可以滿足不同用戶對(duì)檔案信息的需要,所以可以將這一技術(shù)得到進(jìn)一步的推廣,在實(shí)際應(yīng)用的過(guò)程中這一技術(shù)是具有顯著意義的,采用數(shù)據(jù)挖掘技術(shù)就是在大量的應(yīng)用數(shù)據(jù)中,將具有價(jià)值的數(shù)據(jù)尋找出來(lái),其價(jià)值可以是真實(shí)存在的,也可以是潛在的,在這一過(guò)程中,包含了很多方面,例如結(jié)構(gòu)型的數(shù)據(jù)挖掘,或者是文本數(shù)據(jù)挖掘等,但是最常見(jiàn)的挖掘技術(shù)還是文本數(shù)據(jù)挖掘技術(shù),這一技術(shù)也可以稱之為是文字探勘或者是文本的數(shù)據(jù)挖掘等,與文字分析是等同的,在對(duì)文字加以進(jìn)一步處理的基礎(chǔ)上,就能獲得具有高質(zhì)量的信息,在本文處理的過(guò)程中,可以產(chǎn)生結(jié)構(gòu)化的數(shù)據(jù)類型,從而得到最終的評(píng)價(jià),并且能夠進(jìn)行解釋輸出?!案咂焚|(zhì)”的文本挖掘通常是指某種組合的相關(guān)性,新穎性和趣味性。文本數(shù)據(jù)挖掘的基礎(chǔ)領(lǐng)域,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、自然語(yǔ)言處理;在此基礎(chǔ)上是文本數(shù)據(jù)挖掘的基本技術(shù),包括文本信息抽取、文本分類、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理;文本挖掘有兩個(gè)主要應(yīng)用領(lǐng)域,信息訪問(wèn)和知識(shí)發(fā)現(xiàn),信息訪問(wèn)包括信息檢索、信息瀏覽、信息過(guò)濾、信息報(bào)告,知識(shí)發(fā)現(xiàn)包括數(shù)據(jù)分析、數(shù)據(jù)預(yù)測(cè)。
總之,我們可以把對(duì)文本數(shù)據(jù)的分類、融合、壓縮、摘要、以及從文本中抽取發(fā)現(xiàn)知識(shí)與信息都看作是文本數(shù)據(jù)挖掘。通過(guò)這些技術(shù)使得我們?cè)谒阉鳈n案時(shí)從大數(shù)據(jù)范圍變成從小范圍,從而提高了效率和準(zhǔn)確度。如,文本信息抽取是從文本數(shù)據(jù)中抽取人們關(guān)注的特定的信息。文本數(shù)據(jù)可以以句、段落、篇章為單位;抽取信息既可以以字、詞、詞組、句、或段落為單位,也可以是以上基本單位的組合。抽取信息可以是關(guān)于個(gè)體的(比如,人、組織、時(shí)間、地點(diǎn)),也可以是關(guān)于事實(shí)、事件、或個(gè)體間關(guān)系的。抽取的信息還可以作為文本數(shù)據(jù)的特征,用于其它數(shù)據(jù)挖掘處理。
在大數(shù)據(jù)時(shí)代發(fā)展的過(guò)程中,檔案利用以及服務(wù)應(yīng)該滿足大數(shù)據(jù)時(shí)代的特點(diǎn),為其帶來(lái)更加積極的影響,在新形勢(shì)的發(fā)展過(guò)程中,采用數(shù)據(jù)挖掘技術(shù)可以促進(jìn)檔案服務(wù)質(zhì)量水平的進(jìn)一步提高,其主要的應(yīng)用主要體現(xiàn)在以下幾點(diǎn)。首先是在音視頻內(nèi)容的基礎(chǔ)上展開(kāi)檢索,這種檢索的方式具有自動(dòng)識(shí)別關(guān)鍵幀的功能,可以將同一個(gè)視頻中不同的內(nèi)容進(jìn)行定位,這樣就可以進(jìn)一步的縮小人工量,讓視頻的處理能力得到進(jìn)一步的提高。其次是基于語(yǔ)義檢索。提供計(jì)算機(jī)可以理解人類語(yǔ)言后的一種搜索模式。還有就是檔案智能化輔助分類??蓮臍v史分類中智能提取檔案分類,提高用戶整編效率,實(shí)現(xiàn)文獻(xiàn)的自動(dòng)分類;系統(tǒng)可自主根據(jù)已有檔案分類進(jìn)行學(xué)習(xí),促進(jìn)以后輔助分類的準(zhǔn)確度;支持多維度的動(dòng)態(tài)分類;支持用戶自定義分類展示。
數(shù)據(jù)挖掘管理平臺(tái)架構(gòu)于文本智能數(shù)據(jù)處理層上,其核心是建立在獨(dú)特的信息論和概率論的基礎(chǔ)之上的模式識(shí)別技術(shù)以及音視頻識(shí)別技術(shù),抽取概念和內(nèi)容挖掘后,為外圍提供多種的搜索應(yīng)用服務(wù)。因此,系統(tǒng)總體架構(gòu)也是按照實(shí)際內(nèi)容應(yīng)用的流程實(shí)現(xiàn),即從數(shù)據(jù)的采集、智能處理、數(shù)據(jù)挖掘及智能搜索應(yīng)用平臺(tái)三個(gè)層次實(shí)現(xiàn),通過(guò)多類型數(shù)據(jù)采集平臺(tái)進(jìn)行數(shù)據(jù)采集,在智能數(shù)據(jù)處理平臺(tái)上對(duì)這些非結(jié)構(gòu)化信息、多媒體信息和用戶信息進(jìn)行分析,最后在應(yīng)用平臺(tái)上提供數(shù)據(jù)挖掘結(jié)果的搜索平臺(tái)和多媒體自動(dòng)編研平臺(tái)。
大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)的量大、形式多等特點(diǎn)帶來(lái)的無(wú)法找到、查詢性能急劇下降、甚至無(wú)法響應(yīng)等問(wèn)題,利用傳統(tǒng)的簡(jiǎn)單查詢服務(wù)模式已經(jīng)無(wú)法適應(yīng)大數(shù)據(jù)時(shí)代的要求。在此情況下,只有通過(guò)數(shù)據(jù)挖掘和文本挖掘,深層次發(fā)掘檔案之間的關(guān)聯(lián),開(kāi)發(fā)檔案信息中蘊(yùn)藏的知識(shí),通過(guò)智能化處理平臺(tái)主動(dòng)推送給用戶,才能不斷滿足用戶日益增長(zhǎng)的高層次、個(gè)性化的需求。
[1]張建.檔案數(shù)據(jù)庫(kù)“脹庫(kù)”問(wèn)題研究[J].檔案學(xué)通訊,2012(5).
[2]李航.機(jī)器學(xué)習(xí)及其應(yīng)用(文本數(shù)據(jù)挖掘)[M].北京:清華大學(xué)出版社,2006.
[3]邵峰晶,于忠清.?dāng)?shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2003.