鄒彩霞
(單縣社會(huì)保險(xiǎn)事業(yè)服務(wù)中心,山東 菏澤 274300)
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)在文件管理中的應(yīng)用將進(jìn)入一個(gè)新的發(fā)展時(shí)期。檔案學(xué)界早就提出了知識(shí)管理和知識(shí)發(fā)掘,但知識(shí)發(fā)掘仍然停留在概念和理論研究階段。大數(shù)據(jù)挖掘,即從大數(shù)據(jù)挖掘知識(shí)的大數(shù)據(jù)挖掘技術(shù),有效地解決數(shù)據(jù)與知識(shí)之間的差距,是將數(shù)據(jù)轉(zhuǎn)化為知識(shí)的有效途徑。因此,檔案學(xué)研究者認(rèn)為,“檔案的現(xiàn)有工作將轉(zhuǎn)移到檔案資源的數(shù)據(jù)分析、數(shù)據(jù)挖掘方向,對(duì)大量數(shù)據(jù)的分析處理將成為檔案的主要工作”,“檔案信息服務(wù)的基本基礎(chǔ)不再是搜索,而是智能化的數(shù)據(jù)挖掘”。
大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)挖掘技術(shù)的根本性變化使數(shù)據(jù)的深度挖掘成為可能,對(duì)大量數(shù)據(jù)進(jìn)行分析和智能挖掘,從管理角度得到最佳結(jié)果,數(shù)據(jù)必須全面、穩(wěn)定、有價(jià)值,對(duì)數(shù)據(jù)進(jìn)行深度挖掘是必要的。
數(shù)據(jù)挖掘是對(duì)大量數(shù)據(jù)建模,通過(guò)數(shù)學(xué)模型整理和分析企業(yè)海量數(shù)據(jù),使企業(yè)能夠理解不同的客戶(hù)或不同的市場(chǎng)部門(mén)的技術(shù)。從海量數(shù)據(jù)中找到企業(yè)所需知識(shí)的技術(shù)方法是相同的。數(shù)據(jù)深度挖掘是對(duì)數(shù)據(jù)建模、數(shù)據(jù)分類(lèi)、統(tǒng)計(jì)分類(lèi)、尋找數(shù)據(jù)分布相關(guān)生的過(guò)程,也是探索規(guī)律的過(guò)程。例如,檔案管理員想做好文件編制研究主題。不僅需要對(duì)用戶(hù)進(jìn)行深入挖掘,包括文件卷數(shù)、文件使用次數(shù)、復(fù)制文件數(shù)、文件發(fā)行證明數(shù),還需要用戶(hù)訪(fǎng)問(wèn)記錄,包括網(wǎng)頁(yè)上使用的關(guān)鍵字、下載記錄等。用戶(hù)應(yīng)利用網(wǎng)頁(yè)時(shí)間和頻率等信息進(jìn)行深度挖掘后再利用。其次,根據(jù)檔案用戶(hù)需求特點(diǎn)預(yù)測(cè)未來(lái)趨勢(shì),結(jié)合社會(huì)熱點(diǎn)選定文件編輯標(biāo)題,讓文件編輯部門(mén)拿出用戶(hù)滿(mǎn)意度的編輯成果。對(duì)于文件利用,可以深入挖掘文件使用登記數(shù)據(jù)庫(kù),分別選擇不同方面的數(shù)據(jù)進(jìn)行建模,掌握不同文件利用形式的變化趨勢(shì),分析和預(yù)測(cè)文件利用趨勢(shì),將高頻率文件的全文數(shù)字化,提高文件利用效率,起到保護(hù)文件原件的作用。
因此,檔案數(shù)據(jù)的深度挖掘是大數(shù)據(jù)時(shí)代的主要特征,檔案學(xué)的發(fā)展過(guò)程告訴我們,所有主要技術(shù)變化都必然會(huì)影響檔案學(xué)的發(fā)展,例如計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的引進(jìn)。引起了文件管理理念和實(shí)踐的變化,改變了文件和檔案的處理過(guò)程。大數(shù)據(jù)技術(shù)對(duì)歸檔數(shù)據(jù)的深入挖掘?yàn)槲募芾磉^(guò)程從粗放到精細(xì)化提供了可能性。
大數(shù)據(jù)挖掘技術(shù)以傳統(tǒng)數(shù)據(jù)挖掘?yàn)榛A(chǔ),利用數(shù)據(jù)倉(cāng)庫(kù),建立“泛關(guān)系”聚合分類(lèi)模型,采用海量數(shù)據(jù)分析方法,機(jī)器和人類(lèi)一樣本具有意義的知識(shí),提供公開(kāi)信息的視覺(jué)視圖,可以說(shuō)是傳統(tǒng)數(shù)據(jù)挖掘方法的深化。由中國(guó)人民大學(xué)網(wǎng)絡(luò)和移動(dòng)數(shù)據(jù)管理研究所開(kāi)發(fā)的ScholarSpace,大型數(shù)據(jù)處理的最基本流程包括數(shù)據(jù)源、數(shù)據(jù)提取和集成、數(shù)據(jù)分析、數(shù)據(jù)解釋等流程。大型數(shù)據(jù)技術(shù)對(duì)存檔數(shù)據(jù)挖掘由數(shù)據(jù)收集層、數(shù)據(jù)整理層、數(shù)據(jù)分析層、數(shù)據(jù)展示層組成。
1)數(shù)據(jù)收集層收集高質(zhì)量的存檔數(shù)據(jù),為文件管理細(xì)分奠定基礎(chǔ)。數(shù)據(jù)收集是大容量數(shù)據(jù)技術(shù)處理過(guò)程中最基本的步驟,高質(zhì)量數(shù)據(jù)是大容量數(shù)據(jù)技術(shù)發(fā)揮性能的前提,大容量數(shù)據(jù)技術(shù)只能在高質(zhì)量、大容量的數(shù)據(jù)環(huán)境中提取隱含和有用的信息。大容量數(shù)據(jù)具有實(shí)時(shí)和動(dòng)態(tài)特性,因此“在線(xiàn)”、“近線(xiàn)”和“離線(xiàn)”的各種數(shù)字資源都是收集對(duì)象。為了使獲得的數(shù)據(jù)更具代表性,獲取數(shù)據(jù)信息的方法尤為重要。數(shù)據(jù)收集層收集來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),準(zhǔn)備歸檔數(shù)據(jù)挖掘的后續(xù)工作[1]。
2)數(shù)據(jù)清理層將更改現(xiàn)有的數(shù)據(jù)處理方式,以突出文件管理微調(diào)過(guò)程。通過(guò)多種渠道獲得的存檔數(shù)據(jù)種類(lèi)復(fù)雜,結(jié)構(gòu)多樣,可以通過(guò)處理、合并和存儲(chǔ)實(shí)現(xiàn),首先,將結(jié)構(gòu)復(fù)雜的數(shù)據(jù)轉(zhuǎn)換為單個(gè)或容易處理的數(shù)據(jù)?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)大幅增長(zhǎng)的趨勢(shì),這些資源將成為關(guān)口的重要來(lái)源。例如,文件系統(tǒng)的日志數(shù)據(jù)運(yùn)行等數(shù)據(jù)需要轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),形成文件集成語(yǔ)言。二是對(duì)收集到的數(shù)據(jù)進(jìn)行“去噪”和“清洗”,以確保數(shù)據(jù)的質(zhì)量和可靠性。因?yàn)樵紨?shù)據(jù)有噪音數(shù)據(jù)、重復(fù)數(shù)據(jù)等句子,所以為了提高要發(fā)掘的數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行分析、清理和重組。第三,存儲(chǔ)整理后的數(shù)據(jù),按類(lèi)別放置專(zhuān)業(yè)的數(shù)據(jù)群,減少數(shù)據(jù)查詢(xún)和訪(fǎng)問(wèn)時(shí)間,加快數(shù)據(jù)提取。三大數(shù)據(jù)技術(shù):從橫看檔案數(shù)據(jù)的深度挖掘、文件管理微調(diào)、最大數(shù)據(jù)技術(shù)在文件管理中的應(yīng)用兩個(gè)方向。以大型數(shù)據(jù)挖掘技術(shù)為中心,從數(shù)據(jù)收集、整理、分析、展示等技術(shù)解決方案縱向來(lái)看,以數(shù)據(jù)產(chǎn)品為中心,逐步進(jìn)行檔案資源挖掘、用戶(hù)數(shù)據(jù)挖掘和關(guān)系洞察力及趨勢(shì)預(yù)測(cè)。大容量數(shù)據(jù)技術(shù)通過(guò)對(duì)檔案數(shù)據(jù)的深度挖掘,優(yōu)化對(duì)檔案資源和用戶(hù)需求的雙向控制,強(qiáng)調(diào)管理精細(xì)化趨勢(shì)。
由于缺乏全面的數(shù)據(jù)挖掘和深度集成,歸檔資源存儲(chǔ)集中在缺乏輕量級(jí)深度挖掘的問(wèn)題上,因此,通過(guò)對(duì)歸檔資源數(shù)據(jù)的深度挖掘,證明數(shù)據(jù)價(jià)值,創(chuàng)造新的價(jià)值。第一,大數(shù)據(jù)時(shí)代要樹(shù)立“大檔案”工作理念,重視數(shù)據(jù)積累,不僅要建立檔案資源體系,還要建立數(shù)據(jù)資源體系概念。其次,創(chuàng)建共享歸檔數(shù)據(jù)庫(kù)。以省為單位建立集中、規(guī)范、共享的存檔數(shù)據(jù)存儲(chǔ)庫(kù),使每個(gè)存檔集合相互連接。成為內(nèi)容豐富、不受物理存儲(chǔ)限制的信息互聯(lián)共享、歸檔、數(shù)據(jù)資源網(wǎng)絡(luò)。最后,利用云計(jì)算:計(jì)算平臺(tái)和處理技術(shù),建立可用于實(shí)時(shí)接收歸檔數(shù)據(jù)或?qū)Ψ菍?shí)時(shí)數(shù)據(jù)進(jìn)行分類(lèi),作為歸檔用戶(hù)提供服務(wù)的平臺(tái)的歸檔數(shù)據(jù)資源網(wǎng)絡(luò)[2-3]。
1)用戶(hù)數(shù)據(jù)挖掘。用戶(hù)數(shù)據(jù)挖掘的準(zhǔn)確洞察力、準(zhǔn)確的服務(wù)、提高檔案用戶(hù)身份,實(shí)現(xiàn)檔案服務(wù)價(jià)值用戶(hù)數(shù)據(jù)挖掘包括以下幾個(gè)方面: 首先是對(duì)用戶(hù)信息的數(shù)據(jù)挖掘。要提取用戶(hù)的信息,必須查看用戶(hù)訪(fǎng)問(wèn)服務(wù)器時(shí)留下的日志文件,跟蹤用戶(hù)行為,推測(cè)用戶(hù)的興趣,提供個(gè)性化的利用服務(wù)。其次挖掘用戶(hù)統(tǒng)計(jì)搜索和瀏覽記錄。例如,通過(guò)統(tǒng)計(jì)分析,用戶(hù)可以分析對(duì)文件目錄的點(diǎn)擊率,選擇點(diǎn)擊率高的文件進(jìn)行數(shù)字化。分析用戶(hù)搜索時(shí)使用的文件搜索詞,補(bǔ)充和補(bǔ)充數(shù)據(jù)倉(cāng)庫(kù)的搜索關(guān)鍵詞,提高準(zhǔn)確性。通過(guò)統(tǒng)計(jì)分析,分析用戶(hù)訪(fǎng)問(wèn)網(wǎng)頁(yè)的頻率,展開(kāi)深入的信息服務(wù)。
2)關(guān)系洞察及趨勢(shì)分析。存檔資源和用戶(hù)數(shù)據(jù)都是通過(guò)挖掘獲得的數(shù)據(jù)往往是孤立的數(shù)據(jù)點(diǎn),因此,要使這些數(shù)據(jù)集成為完整的網(wǎng)絡(luò),必須對(duì)數(shù)據(jù)網(wǎng)絡(luò)背后的數(shù)據(jù)關(guān)系進(jìn)行深入分析。例如,如果只挖掘文件收集情況,就只能得到檔案人員和文件之間的關(guān)系;如果挖掘文件利用,就只能得到文件和用戶(hù)之間的數(shù)據(jù)關(guān)系。但是,要準(zhǔn)確地掌握文件之間、用戶(hù)之間、檔案和用戶(hù)之間的關(guān)系,必須整合這些孤立的數(shù)據(jù)點(diǎn),確保整個(gè)檔案網(wǎng)絡(luò),才能預(yù)測(cè)文件開(kāi)發(fā)、社會(huì)服務(wù)等 趨勢(shì)[4-5]。
大數(shù)據(jù)時(shí)代、大存檔、大服務(wù)、智能存檔等已成為存檔工作的新發(fā)展,隨著存檔管理創(chuàng)新的深化,大數(shù)據(jù)技術(shù)將實(shí)際落實(shí)到文件管理的各個(gè)環(huán)節(jié),數(shù)據(jù)挖掘技術(shù)將更加熟練地用于文件管理。