• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      檔案大數(shù)據(jù)挖掘流程與技術(shù)研究

      2017-03-11 18:32:05張偉
      蘭臺(tái)世界 2017年17期
      關(guān)鍵詞:數(shù)據(jù)挖掘分類資源

      張偉

      (遼寧省檔案局(館)沈陽(yáng)110167)

      檔案大數(shù)據(jù)挖掘流程與技術(shù)研究

      張偉

      (遼寧省檔案局(館)沈陽(yáng)110167)

      當(dāng)前,海量數(shù)據(jù)挖掘技術(shù)誕生相比其他信息技術(shù)更加契合檔案管理工作的需要,尤其是在大數(shù)據(jù)時(shí)代下,通過數(shù)據(jù)挖掘技術(shù)將海量檔案資源轉(zhuǎn)化為知識(shí)資源,會(huì)成為今后檔案管理工作一個(gè)必然發(fā)展趨勢(shì)。因此研究探索大數(shù)據(jù)挖掘技術(shù)在檔案工作中如何應(yīng)用是檔案工作者的重要課題。

      大數(shù)據(jù)技術(shù)數(shù)據(jù)挖掘檔案管理檔案大數(shù)據(jù)

      檔案信息資源挖掘?qū)嶋H上就是要在維護(hù)黨和國(guó)家根本利益的前提下,將潛在的檔案信息盡可能地挖掘出來、傳遞出去,發(fā)揮其應(yīng)有的作用,從而最大限度地發(fā)揮檔案信息的經(jīng)濟(jì)效益和社會(huì)效益[1]5。從知識(shí)管理的角度分析,檔案信息資源挖掘即開發(fā)主體(檔案工作者)采用一定的方法和手段將客體(檔案信息資源)更加系統(tǒng)化、有序化,以滿足不同利用者的需求并從利用者對(duì)客體的利用中獲得收益的過程。

      但目前不存在針對(duì)檔案行業(yè)開發(fā)的系統(tǒng)性專門挖掘技術(shù),理論研究方面也需要我們檔案人在實(shí)踐中不斷研究探索,而數(shù)據(jù)挖掘是門專業(yè)性較強(qiáng)的學(xué)科,其技術(shù)方法與理論基礎(chǔ)不斷延伸,我們無(wú)法全部掌握并加以實(shí)施,而是應(yīng)根據(jù)檔案管理自身情況,研究具有可行性的并被廣泛應(yīng)用的普適性數(shù)據(jù)挖掘技術(shù)。

      檔案信息資源的挖掘過程簡(jiǎn)單的說就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)的過程,此過程通常包括六個(gè)基本步驟:定義主題、準(zhǔn)備數(shù)據(jù)、瀏覽數(shù)據(jù)、生成模型、瀏覽和驗(yàn)證模型、部署和更新模型。從檔案信息挖掘角度來講就是對(duì)現(xiàn)有檔案數(shù)據(jù)信息進(jìn)行分析,將檔案信息內(nèi)在之間及內(nèi)與外在所包含的信息進(jìn)行組合提煉,最終將所需要的結(jié)果呈現(xiàn)出來。此過程并非現(xiàn)成軟件系統(tǒng)自行匹配就能夠完成的,需要在館藏檔案有足夠的了解的基礎(chǔ)上,精心制定方案,準(zhǔn)備整理資源、指導(dǎo)技術(shù)實(shí)施、部署應(yīng)用等一系列程序,關(guān)鍵流程應(yīng)包括以下幾點(diǎn)。

      一、檔案大數(shù)據(jù)挖掘前期規(guī)劃

      首先要確定數(shù)據(jù)挖掘的預(yù)期目標(biāo)與最終效果。檔案部門開展海量數(shù)據(jù)挖掘與現(xiàn)有商業(yè)性數(shù)據(jù)挖掘主要目標(biāo)定位是有所差別的;數(shù)據(jù)挖掘技術(shù)實(shí)施與平臺(tái)建立需要投入大量的人力物力,籌集大量資金,目標(biāo)定位不準(zhǔn)確,可能造成的資源浪費(fèi)。因此檔案部門應(yīng)對(duì)數(shù)據(jù)挖掘應(yīng)與國(guó)家信息化事業(yè)的戰(zhàn)略取向保持一致,應(yīng)該圍繞“社會(huì)效益最大化”的目標(biāo),充分了解政府、公眾及當(dāng)前檔案工作的需求,預(yù)定哪些資源需要進(jìn)行數(shù)據(jù)挖掘,需要到達(dá)怎樣的質(zhì)量指標(biāo),而不是盲目開展。

      其次要制定方案。通常包括:確定指導(dǎo)思想、任務(wù)目標(biāo)和階段目標(biāo)等;制定項(xiàng)目詳細(xì)工作內(nèi)容。確定資源范圍、類別、規(guī)模、技術(shù)要求等。采用技術(shù)路線。確定實(shí)施或遵循的標(biāo)準(zhǔn)、使用的設(shè)備、操作方法和技術(shù)手段等。預(yù)期成果。說明項(xiàng)目完成總體目標(biāo),預(yù)期達(dá)到的有形或無(wú)形成果和社會(huì)效益等;風(fēng)險(xiǎn)控制。制定安全管理的實(shí)施策略和實(shí)現(xiàn)方法;實(shí)施組織形式。詳細(xì)說明本部門和承擔(dān)企業(yè)的各自分工的主要內(nèi)容,確定責(zé)任與人員;項(xiàng)目實(shí)施預(yù)算表。項(xiàng)目實(shí)施所需的費(fèi)用分類匯總。

      再次方案論證。對(duì)方案的先進(jìn)性、適用性,資金投入上的合理性、實(shí)用性,實(shí)施上的可能性、標(biāo)準(zhǔn)及制度的可操作性、風(fēng)險(xiǎn)性進(jìn)行全面科學(xué)的綜合分析。

      然后建立組織機(jī)構(gòu)開始實(shí)施。根據(jù)確定的項(xiàng)目目標(biāo),明確劃分分解目標(biāo),列出所要進(jìn)行的工作的內(nèi)容,制定崗位職責(zé)標(biāo)準(zhǔn)與考核要求,使之成為有秩序、高效率、部門合理分工、密切協(xié)作的數(shù)據(jù)挖掘管理組織體系。

      二、檔案大數(shù)據(jù)資源收集

      1.數(shù)字檔案信息來源和采集范圍。數(shù)據(jù)的挖掘首先是搜集有用數(shù)據(jù),數(shù)據(jù)越豐富越好,數(shù)據(jù)量越大越好,只有獲得足夠的數(shù)據(jù),才能獲得確定的判斷,才能產(chǎn)生認(rèn)知模型,這是量變到質(zhì)變的過程。經(jīng)驗(yàn)由此產(chǎn)生,經(jīng)驗(yàn)的積累就能產(chǎn)生有價(jià)值的判斷,數(shù)字檔案來源和采集范圍主要包括以下幾方面:一是傳統(tǒng)館藏檔案數(shù)字化。是數(shù)字檔案館信息資源的最主要來源,館藏各類載體的檔案資料進(jìn)行數(shù)字化處理,建設(shè)的數(shù)字化檔案信息資源池。二是立檔單位的數(shù)字化進(jìn)館的檔案文件資料。三是具有檔案性質(zhì)的行業(yè)、專題信息資源庫(kù)。如時(shí)事專題、科技專題會(huì)議專題、人物專題等。四是社會(huì)征集進(jìn)館的檔案文件資料。五是互聯(lián)網(wǎng)上其他具有檔案價(jià)值和參考的信息。將互聯(lián)網(wǎng)上一些零散、無(wú)序的、具有檔案價(jià)值的信息征集或收集到本地,經(jīng)過一定的整理、組織、加工并納入數(shù)字檔案館資源庫(kù)。

      2.檔案信息資源挖掘的原則。一是遵從法律和法規(guī)。館藏檔案信息很多內(nèi)容涉及國(guó)家、外交、疆界、民族等方面,敏感且未解密檔案信息,有信息還可能涉及商業(yè)機(jī)密、著作權(quán)、個(gè)人隱私信息等。因此開展檔案大數(shù)據(jù)挖掘必須遵守國(guó)家、行業(yè)以及本地區(qū)的相關(guān)法律、法規(guī)及各種標(biāo)準(zhǔn)規(guī)范,避免失泄密。二是平臺(tái)可擴(kuò)展。數(shù)據(jù)是無(wú)時(shí)無(wú)刻不在擴(kuò)展的,特別是網(wǎng)絡(luò)信息資源,擴(kuò)展速度超乎想象,所以數(shù)據(jù)挖掘管理必須保證自身功能的可擴(kuò)展性以及容量的可擴(kuò)展性,以滿足數(shù)據(jù)類型的多變性和迅速增長(zhǎng)的數(shù)據(jù)量的要求。同時(shí),檔案信息挖掘也是一個(gè)龐大而長(zhǎng)期的工程,不能一蹴而就,需要系統(tǒng)規(guī)劃,循序漸進(jìn),不斷完善,常抓不懈的工作。不但要依靠新技術(shù)來推進(jìn),更要靈活的將數(shù)據(jù)挖掘技術(shù)與檔案學(xué)理論動(dòng)態(tài)結(jié)合,掌握好工作重心和檔案工作的發(fā)展趨勢(shì),使檔案數(shù)據(jù)挖掘工作始終處于不斷完善發(fā)展之中,實(shí)現(xiàn)此項(xiàng)工作的可持續(xù)發(fā)展。三是選擇性原則。館藏信息資源數(shù)量巨大,有選擇性地獲取和挖掘此部分資源不僅可以節(jié)省人力、物力和財(cái)務(wù),也可無(wú)用信息帶來的負(fù)面影響。檔案大數(shù)據(jù)挖掘的對(duì)象的選擇應(yīng)從幾點(diǎn)著手:①特色資源。針對(duì)自身的館藏特點(diǎn),形成檔案大數(shù)據(jù)資源特色。②針對(duì)性資源。挖掘檔案信息要有針對(duì)性,要密切關(guān)注和分析社會(huì)動(dòng)態(tài),把握社會(huì)熱點(diǎn),有針對(duì)性地開發(fā)社會(huì)需要的檔案信息產(chǎn)品。④規(guī)模化資源。檔案信息資源應(yīng)成系統(tǒng)化、規(guī)?;?。小規(guī)模、零散的、單項(xiàng)資源通常不利于信息挖掘的準(zhǔn)確性。③需求量大資源。檔案大數(shù)據(jù)挖掘必須緊緊圍繞信息利用者的活動(dòng),隨時(shí)根據(jù)檔案信息利用者提出的要求,以最快的速度加工處理檔案信息。四是確保挖掘結(jié)果準(zhǔn)確性。即對(duì)數(shù)據(jù)挖掘質(zhì)量的控制問題。數(shù)字檔案館數(shù)據(jù)庫(kù)中涉及大量的數(shù)據(jù)信息,在這些海量數(shù)據(jù)中,不可避免會(huì)存在冗長(zhǎng)甚至錯(cuò)誤的數(shù)據(jù),在進(jìn)行數(shù)據(jù)挖掘時(shí),應(yīng)選擇適合的挖掘類型和算法,并對(duì)出現(xiàn)的錯(cuò)誤數(shù)據(jù)進(jìn)行修正、處理、加工。

      三、檔案大數(shù)字信息存儲(chǔ)與預(yù)整理

      1.檔案大數(shù)據(jù)存儲(chǔ)架構(gòu)。根據(jù)前期制定的目標(biāo)和規(guī)劃,建立的檔案信息資源倉(cāng)庫(kù),通常這些數(shù)據(jù)量巨大且結(jié)構(gòu)復(fù)雜多樣,需要有足夠的空間和選擇適合的存儲(chǔ)解決方案。而現(xiàn)有傳統(tǒng)數(shù)字檔案存儲(chǔ)設(shè)備、機(jī)制及技術(shù)手段等很難滿足大數(shù)據(jù)挖掘的需求,在傳統(tǒng)的檔案存儲(chǔ)通常都在單獨(dú)的存儲(chǔ)設(shè)備上進(jìn)行或采用傳統(tǒng)網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)集中用服務(wù)器存儲(chǔ)。這些存儲(chǔ)形式是檔案大數(shù)據(jù)挖掘的系統(tǒng)性能的瓶頸,也是可靠性和安全性的焦點(diǎn),對(duì)大數(shù)據(jù)處理技術(shù)和存儲(chǔ)容量的可擴(kuò)展性來說也已經(jīng)不是最佳選擇。需要考慮對(duì)整個(gè)存儲(chǔ)架構(gòu)與數(shù)字檔案管理模式進(jìn)行革命性的重構(gòu),并且要適當(dāng)超前考慮,使存儲(chǔ)能力的能夠滿足檔案數(shù)據(jù)量的增長(zhǎng)。

      當(dāng)前大數(shù)據(jù)存儲(chǔ)架構(gòu)通常采用分布式存儲(chǔ)體系,分布式存儲(chǔ)體系將大規(guī)模海量數(shù)據(jù)用文件的形式保存在不同的存儲(chǔ)節(jié)點(diǎn)中,并用分布式系統(tǒng)進(jìn)行管理。其技術(shù)特點(diǎn)將大的任務(wù)分解為多個(gè)小任務(wù),通過讓多個(gè)處理器或多個(gè)計(jì)算機(jī)節(jié)點(diǎn)參與計(jì)算來解決問題。分布式文件系統(tǒng)能夠支持多臺(tái)主機(jī)通過網(wǎng)絡(luò)同時(shí)訪問共享文件和存儲(chǔ)目錄,能夠更好地支持海量數(shù)據(jù)的存儲(chǔ)和處理。目前典型的分布式文件系統(tǒng)產(chǎn)品有GFS(GoogleFile System可擴(kuò)展的分布式文件系統(tǒng))、HDFS(Hadoop DistributedFileSystem,分布式文件系統(tǒng),簡(jiǎn)稱HDFS))等。

      傳統(tǒng)檔案數(shù)據(jù)以結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)為主,包括文本、音視頻、動(dòng)畫、圖像各類文件格式紛繁復(fù)雜,特別是在網(wǎng)絡(luò)中采集的檔案信息資源,格式類型更為復(fù)雜,包括公務(wù)郵件、網(wǎng)頁(yè)、博客、微博等,格式類型有XML、HTML、各類報(bào)表等。因此應(yīng)改變以結(jié)構(gòu)化為主體的單一存儲(chǔ)方案,采用分而治之的思想,使用分布式文件系統(tǒng)進(jìn)行存儲(chǔ),更為適合,方便增加節(jié)點(diǎn)實(shí)現(xiàn)大數(shù)據(jù)穩(wěn)步處理。

      2.檔案大數(shù)據(jù)信息預(yù)整理。檔案大數(shù)據(jù)信息預(yù)整理主要指在數(shù)據(jù)挖掘以前對(duì)數(shù)據(jù)進(jìn)行的一些前期整理。現(xiàn)實(shí)中檔案數(shù)據(jù)有些是不完整的或冗余的,或與數(shù)據(jù)挖掘目的不一致的,或有些數(shù)據(jù)是影響挖掘結(jié)果正確性的,甚至有些信息是有害的信息,如網(wǎng)絡(luò)中的不當(dāng)言論、反動(dòng)信息等。為了提高數(shù)據(jù)挖掘的質(zhì)量和效率,需對(duì)這些檔案大數(shù)據(jù)資源進(jìn)行預(yù)整理,包括根據(jù)既定主題對(duì)現(xiàn)有資源進(jìn)行分類、剔除冗余、填補(bǔ)關(guān)鍵信息、數(shù)據(jù)格式轉(zhuǎn)換等。具體如下。

      檔案資源分類。大數(shù)據(jù)挖掘整理分類與檔案業(yè)務(wù)管理中的分類有所不同,一般有固定模式,如文書檔案、人事檔案、會(huì)計(jì)檔案等;進(jìn)行檔案大數(shù)據(jù)分析整理時(shí)的分類可以更為廣泛、更多角度、更多維度進(jìn)行多重分類,例如:重大事件、統(tǒng)計(jì)資料、人文、地理、歷史等,分類方式可以更為豐富多樣。檔案大數(shù)據(jù)資源分類的依據(jù)主要取決于分類對(duì)象的屬性或特征。

      數(shù)據(jù)清理。通過填寫缺失關(guān)鍵信息值、識(shí)別或刪除偏離目標(biāo)信息并解決不一致性來“清理”數(shù)據(jù)。主要是達(dá)到如下目標(biāo):格式標(biāo)準(zhǔn)化、無(wú)用或重復(fù)數(shù)據(jù)清除、錯(cuò)誤糾正等。

      數(shù)據(jù)集成。把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù)的過程實(shí)際上就是數(shù)據(jù)集成。

      數(shù)據(jù)變換。規(guī)范化數(shù)據(jù)使其適用于數(shù)據(jù)挖掘的形式,使得信息數(shù)據(jù)能夠快速、高效、準(zhǔn)確地被計(jì)算機(jī)所識(shí)別,從而使得采集上來的數(shù)據(jù)能夠更好的為應(yīng)用服務(wù)。

      數(shù)據(jù)歸約。數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長(zhǎng)的時(shí)間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。

      四、檔案大數(shù)據(jù)分析模型建立

      挖掘算法建立是對(duì)檔案隱形和顯性知識(shí)的內(nèi)在和彼此關(guān)聯(lián)因素的分析基礎(chǔ)上,通常是復(fù)雜的非線性關(guān)系。主要解決要從哪些方面或角度開展檔案數(shù)據(jù)分析,各方面包含什么內(nèi)容或者指標(biāo),要建立怎樣的數(shù)據(jù)關(guān)聯(lián)等[2]4。數(shù)據(jù)分析模式建立方法也有多種,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。

      1.分類。分類是找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到檔案的分類、檔案的屬性和特征分析、公眾需求熱度或興趣分析及公眾利用檔案資源趨勢(shì)預(yù)測(cè)等,如檔案館可根據(jù)利用人群利用檔案情況進(jìn)行分析,據(jù)此進(jìn)行檔案分類定向提供服務(wù),更能提高檔案利用率以及利用者的利用興趣。

      2.回歸分析?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到檔案管理的各個(gè)方面,如根據(jù)檔案資源尋找和探索歷史事件產(chǎn)生原因、發(fā)展過程、及發(fā)展趨勢(shì)等,還可以用于研究檔案保存環(huán)境對(duì)檔案存儲(chǔ)介質(zhì)的影響,檔案載體在生命周期內(nèi)的階段性變化,利用方面可以用于某類研究檔案什么時(shí)間段利用最頻繁等。

      3.聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到檔案信息資源的分類工作方面,檔案資源紛繁復(fù)雜,傳統(tǒng)的分類方法需要大量的人力物力和時(shí)間,通過聚類分析可根據(jù)資源特征進(jìn)行特定事件細(xì)化分類。

      4.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。檔案資源之間具有千絲萬(wàn)縷關(guān)聯(lián)關(guān)系,加之?dāng)?shù)量巨大,不容易被我們發(fā)現(xiàn)和縷清,通過對(duì)檔案數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的檔案記載中發(fā)現(xiàn)事物必然或間接的關(guān)聯(lián)關(guān)系,找出事物內(nèi)部之間與外在的關(guān)聯(lián)因素,通過歷史事件的分析甚至可以預(yù)測(cè)同類事物發(fā)展規(guī)則和趨勢(shì),據(jù)此可為經(jīng)濟(jì)社會(huì)發(fā)展提供數(shù)據(jù)參考依據(jù),為政府、企業(yè)決策提供信息支持。

      5.特征分析。是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征,特征分析正確程度決定于原始數(shù)據(jù)的完備程度和精確程度??梢詰?yīng)用與檔案的鑒定工作,通過定義涉密、敏感信息特點(diǎn),提取含有此類信息的檔案資源,并進(jìn)行精確劃控,從而有效確保檔案資源的安全、保密。

      6.變化和偏差分析。偏差包括很大一類潛在知識(shí)或信息,如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。如檔案館可對(duì)采集的網(wǎng)絡(luò)信息資源進(jìn)行輿情分析,針對(duì)突發(fā)事件、熱點(diǎn)事件、重大活動(dòng)等信息進(jìn)行提取分析,預(yù)測(cè)事件發(fā)展方向、大眾關(guān)注度、輿論導(dǎo)向等,進(jìn)而可對(duì)事件進(jìn)行客觀評(píng)價(jià)、正確識(shí)別,對(duì)政府決策提供信息支持,預(yù)測(cè)潛在的異常情況并及時(shí)預(yù)警等。

      7.Web頁(yè)挖掘。Web信息資源量無(wú)比豐富,通過對(duì)采集Web資源建立的Web檔案信息資源庫(kù),進(jìn)行數(shù)據(jù)挖掘分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)等有關(guān)的信息來豐富館藏,并進(jìn)行數(shù)據(jù)挖掘分析和處理,形成各類專題資源庫(kù),為大眾提供歷史網(wǎng)絡(luò)信息資源服務(wù)。

      綜上,建立分析模型是一個(gè)螺旋上升,不斷優(yōu)化的過程,通過數(shù)據(jù)挖掘結(jié)果來判斷分析模型是否有效,如果結(jié)果不理想,則需要調(diào)整分析模型,對(duì)模型進(jìn)行優(yōu)化。

      五、檔案大數(shù)據(jù)挖掘平臺(tái)建設(shè)

      我們可以把數(shù)據(jù)的分類、融合、壓縮、摘要以及數(shù)據(jù)中抽取發(fā)現(xiàn)知識(shí)與信息都看作是文本數(shù)據(jù)挖掘。通過這些技術(shù)使得我們?cè)谒阉鳈n案時(shí)從大數(shù)據(jù)范圍變成小范圍,從而提高其效率和準(zhǔn)確度。檔案大數(shù)據(jù)系統(tǒng)平臺(tái)總體架構(gòu)應(yīng)按照實(shí)際內(nèi)容應(yīng)用的流程實(shí)現(xiàn),通過多類型數(shù)據(jù)采集平臺(tái)進(jìn)行數(shù)據(jù)采集,在智能數(shù)據(jù)處理平臺(tái)上分析這些非結(jié)構(gòu)化信息,最后在應(yīng)用平臺(tái)上提供數(shù)據(jù)挖掘結(jié)果供應(yīng)搜索平臺(tái)和自動(dòng)編研平臺(tái)等。以下兩種主流大數(shù)據(jù)挖掘平臺(tái)可以作為檔案數(shù)據(jù)挖掘平臺(tái)建設(shè)的參考。

      1.面向服務(wù)的體系結(jié)構(gòu)(SOA)。SOA(Service-orientedArchitecture,面向服務(wù)的體系結(jié)構(gòu))是近年來軟件規(guī)劃和構(gòu)建的一種新方法,以“服務(wù)”為基本元素和核心。SOA是大數(shù)據(jù)的重要支撐技術(shù),通過“服務(wù)”的方式支撐實(shí)現(xiàn)大數(shù)據(jù)的跨系統(tǒng)匯聚、共享、交換、分析、管理和訪問。我國(guó)在SOA廣泛應(yīng)用實(shí)踐的基礎(chǔ)上推動(dòng)了標(biāo)準(zhǔn)化工作,形成了支撐各類應(yīng)用的服務(wù)技術(shù)架構(gòu)系列標(biāo)準(zhǔn),并在智慧城市、電子政務(wù)等眾多信息化領(lǐng)域取得了成功實(shí)踐,具備了支撐大數(shù)據(jù)發(fā)展的良好基礎(chǔ)。

      2.MapReduce框架。MapReduce是一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。MapReduce框架是Hadoop的核心,但是除了Hadoop,MapReduce上還可以有MPP(列數(shù)據(jù)庫(kù))或NoSQL。當(dāng)處理一個(gè)大數(shù)據(jù)集查詢時(shí),MapReduce會(huì)將任務(wù)分解并在運(yùn)行的多個(gè)節(jié)點(diǎn)處理。當(dāng)數(shù)據(jù)量很大時(shí),一臺(tái)服務(wù)器無(wú)法滿足需求,分布式計(jì)算優(yōu)勢(shì)體現(xiàn)出來。MapReduce將任務(wù)分發(fā)到多個(gè)服務(wù)器上處理大數(shù)據(jù),HDFS的重要內(nèi)容就是對(duì)于分布式計(jì)算,每個(gè)服務(wù)器都具備對(duì)數(shù)據(jù)的訪問能力。Hadoop高效性是因?yàn)樗圆⑿械姆绞焦ぷ?,通過并行處理加快處理速度;Hadoop還是可伸縮的,能夠處理PB級(jí)數(shù)據(jù)。

      六、檔案大數(shù)據(jù)挖掘結(jié)果評(píng)價(jià)

      實(shí)施數(shù)據(jù)挖掘所獲得的挖掘結(jié)果,需要進(jìn)行評(píng)估分析,以便有效發(fā)現(xiàn)有意義的知識(shí)模式。數(shù)據(jù)挖掘所獲得初始結(jié)果中可能存在冗余或者無(wú)意義的模式,這是就需要退回到前面的挖掘階段,重新選擇數(shù)據(jù)、采用新的數(shù)據(jù)變換方法,甚至換一種挖掘算法。

      檔案大數(shù)據(jù)挖掘的過程是將信息庫(kù)轉(zhuǎn)化為知識(shí)庫(kù)的過程,是將檔案信息資源轉(zhuǎn)化為有形資產(chǎn)的過程。經(jīng)過這一過程,檔案就不至于在庫(kù)中“死去”,而會(huì)在社會(huì)快捷方便的使用中實(shí)現(xiàn)其應(yīng)有的價(jià)值。

      [1]許桂清.大數(shù)據(jù)背景下的檔案行業(yè)發(fā)展[J].中國(guó)檔案,2015(6).

      [2]陳永生.大數(shù)據(jù)背景下的數(shù)字檔案館與檔案數(shù)字化建設(shè)[J].廣東檔案,2013(4).

      10.16565/j.cnki.1006-7744.2017.17.07

      G270.7

      A

      2017-05-15

      猜你喜歡
      數(shù)據(jù)挖掘分類資源
      基礎(chǔ)教育資源展示
      分類算一算
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      一樣的資源,不一樣的收獲
      分類討論求坐標(biāo)
      資源回收
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      克拉玛依市| 镇安县| 麟游县| 北碚区| 凌云县| 兴城市| 隆化县| 宣恩县| 洞口县| 平塘县| 虹口区| 井陉县| 金溪县| 德阳市| 志丹县| 和林格尔县| 内乡县| 牡丹江市| 韶关市| 亳州市| 高唐县| 遵化市| 安泽县| 乌兰浩特市| 东至县| 甘孜县| 铜梁县| 琼海市| 亳州市| 武鸣县| 嵊泗县| 铜陵市| 桦川县| 新河县| 彰化市| 罗平县| 平江县| 绥阳县| 绍兴市| 古交市| 武功县|