• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      檔案部門大數(shù)據(jù)初探

      2014-12-04 12:29:30鐘奕思
      辦公室業(yè)務(wù) 2014年16期
      關(guān)鍵詞:數(shù)據(jù)量結(jié)構(gòu)化檔案館

      文/鐘奕思

      2010 年,全球數(shù)據(jù)量跨入了ZB時代,根據(jù)國際數(shù)據(jù)資訊(IDC)公司監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番,預(yù)計到2020 年,全球?qū)碛?5ZB的數(shù)據(jù)量,信息數(shù)據(jù)以驚人的速度爆炸式地增長。同時,信息數(shù)據(jù)已經(jīng)滲透到社會生活的方方面面,深刻影響著我們的生活工作乃至國家經(jīng)濟、社會發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。

      一、大數(shù)據(jù)的概念、內(nèi)涵

      大數(shù)據(jù)是以目前的工具和信息處理能力無法有效采集、管理、處理和分析的信息或數(shù)據(jù)集合。一般認為,大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)和交互數(shù)據(jù)。大數(shù)據(jù)是數(shù)字化信息時代的產(chǎn)物。伴隨著信息數(shù)據(jù)爆炸性增長、數(shù)據(jù)類型增加、信息流動速度增快,人們面臨著信息數(shù)據(jù)處理難度增大的狀況。

      大數(shù)據(jù)的特點可用“4V”來描述:(1)Volume(體量),數(shù)據(jù)量龐大是大數(shù)據(jù)最明顯的特征,數(shù)據(jù)規(guī)模往往達到PB 級。(2)Variety(多樣化),大數(shù)據(jù)包括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)以及交互數(shù)據(jù),而且以非結(jié)構(gòu)化數(shù)據(jù)為主;不同類型數(shù)據(jù)在數(shù)據(jù)來源、編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個方面存在差異。(3)Velocity(速度),大數(shù)據(jù)快速動態(tài)變化,形成流式數(shù)據(jù),要求實時處理,快速反應(yīng)。(4)Vitality(密度),大數(shù)據(jù)規(guī)模龐大、增長速度快,但信息價值密度反而降低,隱藏在海量數(shù)據(jù)中的有用信息并沒有隨著數(shù)據(jù)量的增長相應(yīng)增長,反而使我們獲取有用信息的難度加大。

      二、檔案部門的大數(shù)據(jù)

      在大數(shù)據(jù)時代背景下,檔案部門、檔案管理工作也受到“大數(shù)據(jù)”洪潮的影響,出現(xiàn)了新變化。檔案部門面臨著大數(shù)據(jù)帶來的挑戰(zhàn)。

      (一)檔案部門大數(shù)據(jù)的來源。檔案部門保管的數(shù)據(jù)信息主要來源于兩方面:一是檔案館(室)收集的檔案資源,包括檔案館(室)接收的電子文件、數(shù)碼照片、音頻、視頻,以及紙質(zhì)檔案、傳統(tǒng)載體聲像檔案數(shù)字化轉(zhuǎn)換形成的數(shù)字資源等。二是檔案部門管理檔案、開展業(yè)務(wù)過程中產(chǎn)生的數(shù)據(jù),包括檔案管理系統(tǒng)數(shù)據(jù)庫文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對接形成的交換數(shù)據(jù),智能庫房傳感器收集到的庫房監(jiān)控數(shù)據(jù),檔案網(wǎng)站、官方微博數(shù)據(jù)等。在大數(shù)據(jù)時代,各種機構(gòu)在業(yè)務(wù)活動中產(chǎn)生的數(shù)據(jù)和信息大量增長,導(dǎo)致最終作為檔案保存下來的文件及信息數(shù)據(jù)相應(yīng)增多;檔案館(室)收集的檔案資源增加,進而導(dǎo)致檔案部門在管理活動中產(chǎn)生的信息數(shù)據(jù)也隨之增加。檔案部門保管的檔案資源和檔案管理信息數(shù)據(jù)增長迅速、數(shù)量巨大,這些構(gòu)成了檔案部門的大數(shù)據(jù)。

      (二)檔案部門大數(shù)據(jù)的特征。

      1.信息數(shù)據(jù)量劇增。各機構(gòu)在業(yè)務(wù)活動中產(chǎn)生的信息數(shù)據(jù)急劇增長,導(dǎo)致檔案部門收集保管的檔案資源快速增加。據(jù)統(tǒng)計,2008年,全國各級國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達10%,而到2011 年,各級國家檔案館館藏已達3.3億卷,到2020 年,各級國家檔案館館藏將達到6 億多卷。檔案數(shù)字資源和信息化檔案數(shù)據(jù)增長更是迅速。在“十一五”期間,某特大型企業(yè)檔案館在信息化規(guī)劃項目中統(tǒng)一推廣實施檔案管理系統(tǒng),目前已建成的檔案目錄中心覆蓋集團各單位,保存數(shù)據(jù)量高達400余萬卷案卷、4000 余萬件檔案,館藏存儲量已由GB 向TB 級和PB級轉(zhuǎn)變。隨著檔案信息化的開展、數(shù)字檔案館(室)的建設(shè)以及檔案信息資源整合,各地各級檔案館(室)保存的檔案目錄信息和全文數(shù)據(jù)呈幾何級數(shù)增長,存儲數(shù)據(jù)量達到海量規(guī)模,形成一個巨大的檔案資源庫。

      2.信息數(shù)據(jù)類型多樣化。一方面,就檔案部門管理的檔案資源而言:傳統(tǒng)的檔案管理,管理對象以紙質(zhì)檔案為主,檔案部門對檔案信息的管理也是對檔案實體的管理。而在現(xiàn)今大數(shù)據(jù)時代,檔案部門管理的檔案類型多樣化,不但有傳統(tǒng)的紙質(zhì)檔案,還有大量的數(shù)字資源。檔案部門保管的信息數(shù)據(jù)范圍不僅包括數(shù)字資源本身的信息內(nèi)容,還包括其結(jié)構(gòu)、背景信息、元數(shù)據(jù)。檔案部門保管的檔案信息數(shù)據(jù)范圍擴大了。另一方面,從檔案部門日常管理、提供服務(wù)產(chǎn)生的信息數(shù)據(jù)而言:隨著檔案信息化的開展,檔案部門日常管理活動形成大量的信息數(shù)據(jù),如檔案管理系統(tǒng)數(shù)據(jù)庫文件、備份數(shù)據(jù),檔案管理系統(tǒng)與各業(yè)務(wù)系統(tǒng)對接形成的交換數(shù)據(jù),智能庫房傳感器收集到的庫房監(jiān)控數(shù)據(jù)等;檔案部門通過網(wǎng)站建設(shè)、官方微博等渠道開展網(wǎng)絡(luò)服務(wù),與利用者進行交互交流,從中搜集到的利用者信息(如利用者的地理位置、搜索歷史、搜索時間、瀏覽記錄等數(shù)據(jù))也越來越多。檔案部門管理的信息數(shù)據(jù)來源拓寬,類型多樣化。而且,檔案部門管理的信息數(shù)據(jù)結(jié)構(gòu)也在逐漸發(fā)生變化,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)類型增多。網(wǎng)頁、音頻、圖像和視頻等數(shù)字資源在檔案館(室)藏中的比重逐漸增加,成為未來館藏的重要來源。大量增加的利用者信息數(shù)據(jù)也將在利用服務(wù)中發(fā)揮重要作用。

      3.信息數(shù)據(jù)流動速度快。以紙質(zhì)檔案為主的傳統(tǒng)檔案管理中,信息數(shù)據(jù)的流動往往與紙質(zhì)檔案實體的傳遞同步,信息數(shù)據(jù)的流動基本依附于實體,因此信息數(shù)據(jù)的流動速度受到限制。而在大數(shù)據(jù)時代,檔案信息數(shù)據(jù)的傳播、傳遞并不依附于載體,尤其對于數(shù)字化的檔案資源,借助計算機網(wǎng)絡(luò)傳播,信息數(shù)據(jù)流動速度大大加快,甚至可以實現(xiàn)網(wǎng)絡(luò)上的實時交互。

      4.信息價值密度降低,有用信息獲取難度增大。隨著檔案信息數(shù)據(jù)急劇增長、類型多樣化,隱藏在海量數(shù)據(jù)中的有用信息卻沒有隨著數(shù)據(jù)量的增長而相應(yīng)增長,反而使我們獲取有用信息的難度加大。我們感受最為明顯的是,隨著檔案管理系統(tǒng)數(shù)據(jù)量的增大,在進行檔案查詢時,需要的信息容易埋沒在大量的不需要的數(shù)據(jù)中,增加了查詢的時間,降低檢索性能。單一檔案館(室)內(nèi)保存的檔案信息數(shù)據(jù)格式、編碼方式、應(yīng)用特征等形式多樣化,各館(室)之間更是差異明顯,從而形成了大量的異構(gòu)數(shù)據(jù),使得“信息孤島”問題突出,檔案信息數(shù)據(jù)共享、異構(gòu)數(shù)據(jù)信息整合面臨困難。檔案部門與利用者網(wǎng)絡(luò)交互產(chǎn)生的大量數(shù)據(jù),以非結(jié)構(gòu)化、半結(jié)構(gòu)化的形式存在,如何從中提取出有用的信息、提升檔案服務(wù)質(zhì)量,也是我們面臨的難題。

      三、大數(shù)據(jù)給檔案部門帶來的挑戰(zhàn)

      檔案部門收集管理的檔案資源以及管理檔案、開展業(yè)務(wù)活動過程中產(chǎn)生的龐大數(shù)據(jù)信息,構(gòu)成了檔案部門大數(shù)據(jù)的來源。這些數(shù)據(jù)信息增長迅速、類型多樣化、流動速度加快、價值密度降低的特點和變化,給檔案部門在檔案保管、鑒定、利用等環(huán)節(jié)帶來了新的挑戰(zhàn)。

      (一)大數(shù)據(jù)帶來的檔案保管壓力。與檔案信息數(shù)據(jù)急劇增長伴隨而來的是檔案保管的壓力。目前,不僅傳統(tǒng)檔案管理會出現(xiàn)“脹庫”,即由于庫房容量有限導(dǎo)致新增加的檔案無法正常存儲到庫房中,而且數(shù)字資源的保存也面臨著類似的問題,常常會碰到無法向數(shù)據(jù)庫中增加新的檔案數(shù)據(jù)的情況。近年來,在各級檔案工作評估檢查中,由于檔案庫房緊張導(dǎo)致檔案未能集中統(tǒng)一管理、整理質(zhì)量不夠規(guī)范的問題已時有出現(xiàn)。隨著電子文件的廣泛應(yīng)用、數(shù)字檔案館(室)建設(shè)的逐步推進,各級各類檔案館(室)保管的數(shù)字資源急劇增長,存儲數(shù)據(jù)量達到海量規(guī)模,對檔案信息數(shù)據(jù)存儲設(shè)備的存儲空間、運算速度提出了更高的要求。伴隨著檔案管理大數(shù)據(jù)時代的到來,檔案信息數(shù)據(jù)存儲空間的問題日益嚴峻。

      (二)大數(shù)據(jù)帶來的鑒定難題。在大數(shù)據(jù)時代,檔案信息數(shù)據(jù)總量大,而且增長速度快,尤其是電子文件以指數(shù)級的驚人速度增長。雖然我們知道這些浩瀚的信息數(shù)據(jù)中蘊藏著巨大的“金礦”,但我們想要從中“淘金”比以往針對紙質(zhì)文件的傳統(tǒng)檔案鑒定更為困難。一方面,各機構(gòu)業(yè)務(wù)活動形成的信息數(shù)據(jù)增加,在歸檔保存時,檔案人員需要鑒定判斷的文件量隨之增大。面對著巨量的電子文件,檔案人員逐一閱讀每一份電子文件的原文恐怕實在是無能為力。而另一方面,大數(shù)據(jù)時代檔案信息數(shù)據(jù)存儲空間緊張,合理準確判斷文件的去留顯得更為重要。只有把好鑒定這一關(guān),將有保存價值的文件留存下來、不具備保存價值的文件剔除掉,才能保障有限的儲存空間用于保存真正具有價值的信息數(shù)據(jù),最大限度地發(fā)揮檔案信息數(shù)據(jù)存儲空間的作用。因此,怎樣讓有限的存儲空間得到更為有效的利用,也對檔案人員的鑒定提出了更高的要求。合理、準確、快速地鑒定檔案文件、信息數(shù)據(jù)的存毀,成為檔案部門和檔案人員在大數(shù)據(jù)時代面臨的嚴峻挑戰(zhàn)。

      (三)大數(shù)據(jù)帶來的信息有效利用挑戰(zhàn)。檔案作為一種原始信息記錄,是國家、社會、機構(gòu)歷史的重要見證,在大數(shù)據(jù)時代,其價值與作用更加凸顯。信息的價值在于利用,面對海量的檔案信息數(shù)據(jù),只有通過開發(fā)和利用,才能使檔案信息的價值得以體現(xiàn)和發(fā)揮。但數(shù)據(jù)爆炸式增長和數(shù)據(jù)類型多樣化,給檔案利用開發(fā)帶來檢索難題和開發(fā)困境。

      隨著機構(gòu)保存檔案數(shù)據(jù)量的增長,在進行檔案查詢時,需要的信息容易被淹沒在大量不需要的數(shù)據(jù)中。運用過去傳統(tǒng)的檔案檢索手段,依靠手工著錄、卡片檢索已經(jīng)難以實現(xiàn)海量信息檢索的要求;即使借助于現(xiàn)代化的檔案管理系統(tǒng),面對海量數(shù)據(jù)時,檢索性能常常急劇下降,容易出現(xiàn)查詢時間長、響應(yīng)速度慢的情況,甚至無法響應(yīng)。因此,如何在大量的檔案中快速而準確地找到所需的信息,是大數(shù)據(jù)時代檔案利用中需要解決的首要問題。

      更進一步講,目前知識管理已經(jīng)成為檔案管理發(fā)展的趨勢和方向,檔案利用者的利用需求已不僅限于數(shù)據(jù)或文件的利用,更希望能夠獲得數(shù)據(jù)背后的信息以及信息蘊藏的知識。因此,檔案利用服務(wù)也應(yīng)由提供數(shù)據(jù)、信息轉(zhuǎn)變?yōu)樘峁┲R。然而,知識不是自然生成的,也不會簡單地存在于信息集合中,需要經(jīng)過抽取和挖掘才能展示出來。在傳統(tǒng)紙質(zhì)檔案時代,檔案數(shù)量不多,依靠人工抽取、挖掘知識還可實行,但在大數(shù)據(jù)時代海量檔案存在、非結(jié)構(gòu)化數(shù)據(jù)、異構(gòu)數(shù)據(jù)盛行的狀況下,則會變得心有余而力不足。

      隨著檔案網(wǎng)絡(luò)服務(wù)、數(shù)字檔案館、社交網(wǎng)絡(luò)等興起,檔案部門收集到的利用者個人信息、檢索歷史、瀏覽記錄等數(shù)據(jù)將越來越多。通過對這些數(shù)據(jù)的分析,檔案部門可以更好地了解利用者偏好,推測其利用需求,這對于檔案部門以利用者需求為導(dǎo)向、提高服務(wù)質(zhì)量具有重要意義。但這些數(shù)據(jù)信息大多以非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)形式存在。相對于結(jié)構(gòu)化數(shù)據(jù),非機構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的開發(fā)挖掘難度更大。要對利用者數(shù)據(jù)進行分析挖掘,檔案部門需要足夠的技術(shù)支持。而且,對于這些數(shù)據(jù)的應(yīng)用,還會涉及到利用者的隱私問題,例如個人數(shù)據(jù)能夠保存多久,保存后被用于何種用途,怎樣保證個人數(shù)據(jù)不會泄露等,這些都是檔案部門需要考慮和注意的問題。

      因此,如何合理利用大數(shù)據(jù),分析推測利用者需求,在海量數(shù)據(jù)中抽取和挖掘有用的信息和知識,整合異構(gòu)信息,共享館際間資源,有針對性地為利用者提供深層次的信息和知識,是大數(shù)據(jù)時代檔案利用服務(wù)工作需要努力解決的問題。

      檔案管理迎來了大數(shù)據(jù)時代。檔案部門保管和保存的信息數(shù)據(jù)數(shù)量劇增、類型多樣化、流動速度加快、有用信息提取難度增大,這些給檔案工作帶來挑戰(zhàn)。檔案部門必須增強信息意識,重視蘊藏在海量檔案信息數(shù)據(jù)中的“寶藏”,積極采取有效策略,做好基礎(chǔ)平臺建設(shè),重視技術(shù)研發(fā)與應(yīng)用,提高檔案信息數(shù)據(jù)有效保存、快速鑒定、合理開發(fā)的能力,應(yīng)對大數(shù)據(jù)給檔案部門帶來的挑戰(zhàn),讓檔案資源和檔案工作在大數(shù)據(jù)時代實現(xiàn)價值,煥發(fā)活力。

      猜你喜歡
      數(shù)據(jù)量結(jié)構(gòu)化檔案館
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標準帶寬
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      關(guān)于縣級檔案館館藏檔案開發(fā)利用的思考
      全省部分檔案館新館掠影
      浙江檔案(2017年10期)2017-03-31 06:27:31
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      when與while檔案館
      桑植县| 永胜县| 隆昌县| 高邮市| 荥经县| 道真| 榆林市| 建平县| 桐乡市| 梁平县| 昌吉市| 桂林市| 大丰市| 宜昌市| 太保市| 景宁| 澄城县| 广河县| 绥江县| 石屏县| 伽师县| 格尔木市| 拜城县| 湛江市| 呈贡县| 康定县| 上蔡县| 堆龙德庆县| 平凉市| 九寨沟县| 朝阳区| 乐平市| 浙江省| 淮北市| 仁化县| 泽州县| 西峡县| 应城市| 东明县| 右玉县| 泰和县|