蔣紅健
(華南理工大學(xué)檔案館 廣州 510641)
大數(shù)據(jù)挖掘技術(shù)在現(xiàn)實(shí)社會中已經(jīng)得到初步的運(yùn)用,并處在快速發(fā)展的過程中。Google翻譯就是有說服力的例子,它運(yùn)用大數(shù)據(jù)挖掘技術(shù)訓(xùn)練數(shù)據(jù),訓(xùn)練的數(shù)據(jù)量達(dá)到數(shù)十億個,改變了根據(jù)語言規(guī)則分析判斷的傳統(tǒng)翻譯軟件的運(yùn)行模式。通過對比這兩種翻譯模式,我們可以看出Google翻譯無論是速度還是精度遠(yuǎn)超過傳統(tǒng)翻譯軟件,這從一個側(cè)面反映出大數(shù)據(jù)挖掘技術(shù)具有快速、高效、精準(zhǔn)的優(yōu)點(diǎn)。正因?yàn)槿绱耍髷?shù)據(jù)挖掘技術(shù)受到了各行各業(yè)信息技術(shù)人員的關(guān)注和重視。
萬事萬物都是由一系列數(shù)據(jù)所構(gòu)成的,社會生活對信息技術(shù)應(yīng)用的需求催生了大數(shù)據(jù)挖掘技術(shù)的發(fā)展。我們可以用數(shù)據(jù)對任何事件、任何物體進(jìn)行描述,即使作為單一事件、單一物體,其蘊(yùn)含的數(shù)據(jù)量都已經(jīng)極其龐大,更何況社會是由無數(shù)事件和物體構(gòu)成。事件和物體內(nèi)部之間和相互之間存在著千絲萬縷的聯(lián)系。可以說,社會就是一個數(shù)據(jù)總集,大數(shù)據(jù)挖掘技術(shù)就是要挖掘出這個數(shù)據(jù)總集中數(shù)據(jù)的有機(jī)聯(lián)系,通過分析數(shù)據(jù)總集的全貌推斷出精準(zhǔn)的結(jié)論,而不是采用隨機(jī)抽樣的方式片面了解。
檔案管理之所以存在和發(fā)展,是與其存史、資政、育人的重大價值分不開的,而大數(shù)據(jù)挖掘技術(shù)則是實(shí)現(xiàn)檔案管理內(nèi)在價值的最新和極其重要的技術(shù)工具。我們收集、保管、管理檔案的實(shí)質(zhì)就是存史。把檔案保護(hù)好是檔案管理必備的前期工作,通過存史提供檔案有效利用的物質(zhì)基礎(chǔ),進(jìn)而衍生到資政育人更高層次的目的,使得檔案價值得以最大化地體現(xiàn),實(shí)現(xiàn)檔案管理的終極意義。
要實(shí)現(xiàn)檔案管理資政育人的目的,必須有效管好、用好前期產(chǎn)生的數(shù)量多種類繁雜的大數(shù)據(jù)。高校檔案館存量檔案多達(dá)幾十萬卷,通過數(shù)字化工作,海量的紙質(zhì)檔案已轉(zhuǎn)化為PDF文件,而這些PDF文件多是半結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)。除了這些數(shù)字化工作產(chǎn)生的電子文件,高校檔案館還接收了各類圖像、音頻及電子文檔。據(jù)統(tǒng)計,許多綜合性院校電子檔案容量已達(dá)幾十TB。隨著高校檔案館電子文件管理系統(tǒng)的開發(fā)、應(yīng)用和發(fā)展,可以預(yù)見電子文件總量將以幾何級數(shù)增長。因此,投入必要的人力、物力研究大數(shù)據(jù)挖掘技術(shù)已經(jīng)是一件迫在眉睫的事情。
高校檔案大數(shù)據(jù)是數(shù)據(jù)價值的富集地。相比較其它數(shù)據(jù)源,檔案大數(shù)據(jù)之間的有機(jī)聯(lián)系更為密切,具有高度相關(guān)性。其它數(shù)據(jù)源如網(wǎng)站、社交網(wǎng)絡(luò)、微信、微博、移動通信等,其數(shù)據(jù)之間的關(guān)聯(lián)是松散的,而檔案則是有組織有條理地收集歸納的,其蘊(yùn)藏的內(nèi)在價值更大??梢哉f,檔案大數(shù)據(jù)就是價值富礦。因此,有必要在檔案管理領(lǐng)域率先運(yùn)用大數(shù)據(jù)挖掘技術(shù),采用泛化、動態(tài)、深入的方式,把檔案大數(shù)據(jù)中的有機(jī)聯(lián)系找出來、理清楚,并以親民化的方式呈現(xiàn)出來,如以數(shù)據(jù)、表單或圖形等可視化的方式發(fā)送給用戶。
檔案大數(shù)據(jù)倉庫的構(gòu)建可以把眼界放寬一些,首先要立足檔案館自身,做好最有價值數(shù)據(jù)的收集,把檔案館各門類的數(shù)據(jù)收集工作做扎實(shí),打好基本功;其次要跳出檔案館的圈子,把與檔案有關(guān)的數(shù)據(jù)納入進(jìn)來,實(shí)現(xiàn)大數(shù)據(jù)互聯(lián)互通,形成大格局、大整合、大服務(wù)的大檔案觀。
高校檔案館首先要把眼光向內(nèi)看,做到應(yīng)歸盡歸、真實(shí)完整。要加強(qiáng)檔案從業(yè)人員和兼職檔案員的管理,做好檔案收集前端介入工作。在保證檔案從業(yè)人員業(yè)務(wù)熟練的基礎(chǔ)上,提高二級單位負(fù)責(zé)人對檔案資源的重視程度;加大對二級單位兼職檔案員的培訓(xùn)力度,提高兼職檔案員的業(yè)務(wù)專業(yè)度和檔案收集流程的熟悉度,保證檔案免于流失和遺失。同時,要從制度上保障檔案大數(shù)據(jù)的收集,建立起兼職檔案員的考核制度及相應(yīng)激勵制度,提高檔案管理業(yè)績在考核分值中的權(quán)重,形成檔案數(shù)據(jù)收集的長期推動力。
其次,要分門別類地細(xì)化檔案數(shù)據(jù)收集范圍,消除檔案數(shù)據(jù)收集容易忽略的死角。高校檔案館可以通過劃分的綜合文書、學(xué)籍學(xué)位、科研、基建、出版、設(shè)備、產(chǎn)品、實(shí)物、聲像、人物等檔案門類,根據(jù)以往收集的經(jīng)驗(yàn),判斷出尚余哪些門類檔案尚未收集,及時進(jìn)行催辦和補(bǔ)充,要熟悉每一門類檔案的歸檔范圍,根據(jù)歸檔范圍推斷尚未及時收集的檔案,及時跟蹤反饋,從而把高校人才培養(yǎng)、科學(xué)研究、社會服務(wù)等社會實(shí)踐過程中形成的檔案數(shù)據(jù)及時、完整地進(jìn)行收集,謹(jǐn)防散失、遺漏造成檔案數(shù)據(jù)不全面、不系統(tǒng)。檔案數(shù)據(jù)有各種載體、各種格式,要確保檔案的全媒介收集,除了常規(guī)的紙質(zhì)檔案,還有光盤、移動硬盤、磁帶、錄像帶等各種媒介。對包括文本、表單、圖像、音視頻等各種媒介的檔案數(shù)據(jù)及時進(jìn)行格式轉(zhuǎn)換,保存好高校發(fā)展歷程的記憶點(diǎn)和值得傳承的歷史文化,使之成為大數(shù)據(jù)挖掘的策源地。
高校檔案館要順應(yīng)信息技術(shù)的發(fā)展,突破部門界限,打通校內(nèi)各信息系統(tǒng),把檔案數(shù)據(jù)倉庫從檔案館的店面格局?jǐn)U展到整個學(xué)校的商城格局。高校檔案館在做好檔案信息管理系統(tǒng)特別是電子文件管理系統(tǒng)的同時,應(yīng)在校辦與網(wǎng)絡(luò)中心牽頭下,積極與各二級單位加強(qiáng)聯(lián)系,以檔案管理信息系統(tǒng)作為切入點(diǎn),以點(diǎn)帶面,使檔案信息管理系統(tǒng)與OA、人事、教務(wù)、科研、資產(chǎn)設(shè)備等系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)共享及互聯(lián)互通,積極拓展各信息系統(tǒng)能夠開放利用的信息容量,實(shí)現(xiàn)檔案數(shù)據(jù)擴(kuò)容和檔案價值增值,使用戶通過檔案管理信息系統(tǒng)可以搜索到更大更廣范圍的、有價值的數(shù)據(jù)信息,滿足用戶多方位的查檔需求。
檔案數(shù)據(jù)擴(kuò)容突破了原先的檔案收集渠道,擴(kuò)大了檔案數(shù)據(jù)總量,必須利用大數(shù)據(jù)挖掘技術(shù)進(jìn)行有效利用。高校檔案館要充分利用信息革命的成果,利用大數(shù)據(jù)挖掘技術(shù)管理海量的數(shù)字資源,找出這些數(shù)字資源的有機(jī)聯(lián)系,把檔案大數(shù)據(jù)的內(nèi)在價值充分挖掘出來,使處于休眠或半休眠狀態(tài)的檔案通過挖掘得到價值復(fù)蘇;把死檔案變成活檔案、檔案數(shù)據(jù)變成檔案資源,最大程度地提高檔案利用服務(wù)的廣度和深度,使大數(shù)據(jù)挖掘技術(shù)成為檔案利用服務(wù)的新運(yùn)行模式。
信息系統(tǒng)的互聯(lián)互通,需要檔案從業(yè)人員進(jìn)行前端介入,使得檔案資源體系集中有序、規(guī)范齊整。信息系統(tǒng)的對接需要多部門參與,包括檔案館、二級單位、校辦、網(wǎng)絡(luò)中心及各系統(tǒng)的開發(fā)商,經(jīng)過齊心協(xié)力、通力合作才能順利實(shí)現(xiàn)。在信息系統(tǒng)對接過程中,高校檔案館除了重視機(jī)關(guān)單位的檔案資源收集外,也要注重二級學(xué)院、直屬單位的檔案資源收集,及廣大校友提供的有收藏利用價值的學(xué)校史料。這些數(shù)據(jù)源都是檔案編研的重要依據(jù),這些信息資源集合體將構(gòu)建起內(nèi)容豐富多彩的校內(nèi)檔案大數(shù)據(jù)倉庫。
值得一提的是,注重信息系統(tǒng)的互聯(lián)互通,還可以極大程度上緩解目前高校檔案館普遍存在的庫房飽和問題。信息系統(tǒng)的互聯(lián)互通,不僅能充分保障檔案大數(shù)據(jù)的質(zhì)和量,還能有效解決高校檔案館經(jīng)過長期積累庫房容量有限的難題。高校基建增量有限,各二級單位用房需求較大,檔案庫房需求難以得到滿足,是制約高校檔案館發(fā)展的瓶頸。檔案根據(jù)規(guī)定需要鑒定保管期限,許多檔案根據(jù)屬性保管期限為永久保存或長期保存,而長期保存需要30年時限,導(dǎo)致檔案銷毀速度有限,檔案進(jìn)多出少,需要不斷增加庫房面積。另一個現(xiàn)實(shí)問題是,近年來檔案進(jìn)館量激增,遠(yuǎn)非往年可比,導(dǎo)致庫房余量劇減。表面上庫房容量暫時可以應(yīng)對,但庫房容量很快就會告急。信息系統(tǒng)的互聯(lián)互通是實(shí)現(xiàn)檔案增量電子化的具體表現(xiàn),通過吸收信息系統(tǒng)的電子資源,從技術(shù)層面強(qiáng)化電子檔案管理,是解決館舍面積和館藏總量之間矛盾的最佳選擇。
高校檔案館的管理對象是檔案,檔案數(shù)據(jù)具有育人價值;校史館、博物館管理的是實(shí)物,實(shí)物信息也具有育人價值;圖書館管理的是圖書,同樣具有育人價值。因此,四者具有高度的性質(zhì)相似性,都具有育人育才的文化特征。有的高校對檔案館、校史館、博物館及圖書館進(jìn)行統(tǒng)籌管理,使其合而為一,充分整合,展現(xiàn)其育人功能;而有的高校即使各自行政獨(dú)立,但之間仍存在著密不可分的聯(lián)系。例如,很多圖書的素材來自于史料,需要查考檔案和校史館、博物館的實(shí)物,需要尋找歷史記憶,在此基礎(chǔ)上經(jīng)過二次加工打磨而成。[1]集中統(tǒng)管高校檔案館、校史館、博物館和圖書館,將其存量信息融入到檔案大數(shù)據(jù)倉庫中來,用戶就可以從這些價值密度高的數(shù)據(jù)資源中集中找尋有用信息。當(dāng)圖書作為檔案大數(shù)據(jù)的供給主體之一時,將極大程度上豐富檔案大數(shù)據(jù)倉庫。經(jīng)過集中管理,統(tǒng)籌利用服務(wù),各類信息將互相補(bǔ)充、互為旁證,融合成大檔案館的數(shù)據(jù)供應(yīng)倉庫。
各高校檔案館之間、甚至不同行業(yè)檔案館之間可以協(xié)同建立搜索引擎,共建、共享檔案大數(shù)據(jù)建設(shè)成果。在實(shí)際情況中,高校檔案館信息交流的渠道有限,各自建設(shè)、各自為政,限制了檔案大數(shù)據(jù)倉庫的進(jìn)一步發(fā)展。雖然高校檔案館間有交流有互訪,相互學(xué)習(xí)取經(jīng),但時間有限,頻次低。此外,各檔案館獨(dú)立建設(shè)檔案信息管理系統(tǒng),資源得不到共享,成為事實(shí)上的信息孤島。因此,有必要建立檔案館館際信息檢索系統(tǒng),通過聯(lián)合檢索使分散存在的檔案信息連接成有機(jī)的整體;打破部門壁壘,使檔案數(shù)據(jù)量達(dá)到一個更新的高度,使檔案大數(shù)據(jù)的內(nèi)涵涉及到更大的層面。
檔案大數(shù)據(jù)由于數(shù)據(jù)量大,超出了單一服務(wù)器或現(xiàn)有數(shù)據(jù)庫軟件的管理分析能力,因此不能用傳統(tǒng)數(shù)據(jù)管理方式運(yùn)作,必須借助大數(shù)據(jù)挖掘技術(shù)。檔案大數(shù)據(jù)雖然價值含量高,但所蘊(yùn)含的價值在眾多檔案數(shù)據(jù)中隨機(jī)分布,并具有動態(tài)更新的特征,需要通過大數(shù)據(jù)挖掘技術(shù)找出檔案數(shù)據(jù)中的相關(guān)性,采集出用戶需要的適用、有效的信息。[2]數(shù)據(jù)關(guān)聯(lián)的實(shí)質(zhì)就是優(yōu)化,提煉出檔案利用的規(guī)律、偏好和熱點(diǎn),建立分類標(biāo)簽和分類模型,從而簡化挖掘流程,修正挖掘行為,避免挖掘負(fù)荷過大,保障挖掘操作的正常運(yùn)轉(zhuǎn)。
首先,可以從檔案的形成過程中找出關(guān)聯(lián)規(guī)律。檔案數(shù)據(jù)雖然結(jié)構(gòu)各異,既有結(jié)構(gòu)化數(shù)據(jù),又有半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),但是檔案的形成過程是可以跟蹤的,檔案的形成單位和形成人、檔案收集整理人、檔案用戶與檔案門類之間的關(guān)系、檔案用戶相互之間的關(guān)系,這些相關(guān)性把看似獨(dú)立的檔案文件聯(lián)系起來,組成一個關(guān)聯(lián)整體,對這些提煉出來的檔案進(jìn)行整理、分析、判斷,就可以有針對性地為用戶提供檔案數(shù)據(jù)信息。其次,可以從檔案元數(shù)據(jù)中找出關(guān)聯(lián)規(guī)律。檔案元數(shù)據(jù)包含著大量有價值的信息,可以折射出檔案之間的相互聯(lián)系,案卷或文件題名中的高頻詞可以歸類出檔案數(shù)據(jù)表達(dá)的信息要點(diǎn),檔案元數(shù)據(jù)表現(xiàn)出來的特征和因果關(guān)系可以作為大數(shù)據(jù)相關(guān)分析的依據(jù),只要找出檔案元數(shù)據(jù)中存在著的相同、相似、相關(guān)性,就可以把隱秘潛藏的檔案價值挖掘出來,成為可加以利用的檔案信息。此外,可以從用戶信息和行為特征找出關(guān)聯(lián)規(guī)律。用戶在注冊時將留下個人信息,包括姓名、性別、年齡、文化程度、專業(yè)類型、職業(yè)、所在地域等身份信息,這些都是檔案大數(shù)據(jù)合理分類的線索。用戶的行為特征包括檢索或?yàn)g覽特征、瀏覽時長、瀏覽檔案的門類、瀏覽量及下載量、瀏覽目的、反饋意見等??蓳?jù)此用統(tǒng)計學(xué)原理建立用戶行為偏好模型,預(yù)測用戶興趣點(diǎn)并匹配檔案數(shù)據(jù),形成個性化的推薦界面,使用戶更好地理解、評判、反饋實(shí)時挖掘結(jié)果,達(dá)到大數(shù)據(jù)挖掘精準(zhǔn)服務(wù)和知識推薦的功能。
首先,高校檔案館基本以各自為戰(zhàn)的方式開發(fā)檔案管理信息系統(tǒng),所借助的軟件公司不同,軟件公司技術(shù)力量和技術(shù)重心也不同,高校檔案館之間缺乏針對技術(shù)開發(fā)的信息交流,缺少借鑒和提升。正因?yàn)闆]有明確的設(shè)計規(guī)范,導(dǎo)致高校檔案館開發(fā)出的檔案信息管理系統(tǒng)形式和功能各異。因此,必須加強(qiáng)開發(fā)設(shè)計經(jīng)驗(yàn)的交流和推廣,避免人力和財力的浪費(fèi)。
其次,從檔案大數(shù)據(jù)角度來看,相關(guān)標(biāo)準(zhǔn)必須進(jìn)行有效整合。例如,不同的網(wǎng)絡(luò)通信協(xié)議、不同量綱或量綱單位的數(shù)據(jù)標(biāo)準(zhǔn)、不同的數(shù)據(jù)存儲格式之間必須進(jìn)行有效整合,也只有通過整合,才能保證檔案大數(shù)據(jù)順利實(shí)現(xiàn)共建、共享。高校網(wǎng)絡(luò)中心在配置云存儲時,應(yīng)有統(tǒng)一的邏輯和結(jié)構(gòu),各二級單位信息系統(tǒng)要遵循網(wǎng)絡(luò)中心對于數(shù)據(jù)信息的規(guī)定。校內(nèi)各業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)要統(tǒng)一,相關(guān)數(shù)據(jù)值要和基礎(chǔ)業(yè)務(wù)數(shù)據(jù)保持一致。這是一項比較艱巨耗時的工作,但可以層層推進(jìn),一步一步解決。這項工作推進(jìn)得好,才能開展各類信息的對接工作,拓展檔案大數(shù)據(jù)總量,真正建立起檔案大數(shù)據(jù)的資源庫。
大數(shù)據(jù)挖掘技術(shù)運(yùn)用于檔案大數(shù)據(jù)管理,取決于檔案數(shù)據(jù)的有效程度。檔案信息管理系統(tǒng)內(nèi)部及對接外部信息系統(tǒng)過程中都會產(chǎn)生大量的錯誤數(shù)據(jù)或沖突數(shù)據(jù),產(chǎn)生數(shù)據(jù)噪音和數(shù)據(jù)冗余,需要進(jìn)行清洗過濾和濃縮。比如,檔案數(shù)據(jù)之間可能前后不一致,根據(jù)規(guī)則可以判定某些數(shù)據(jù)是無效的,或者因?yàn)榉N種原因造成檔案數(shù)據(jù)缺失,或者檔案數(shù)據(jù)出現(xiàn)了許多重復(fù)值,需要進(jìn)行校驗(yàn)和處理。
具體處理方法建議如下:當(dāng)根據(jù)檔案業(yè)務(wù)規(guī)則或常規(guī)知識發(fā)現(xiàn)數(shù)據(jù)出現(xiàn)不一致性時,如屬于輸入方法、專門領(lǐng)域知識可判別等較容易糾正的問題,可由計算機(jī)自動識別糾正;如不能自動識別糾正,可歸類發(fā)送至相關(guān)業(yè)務(wù)部門修改相應(yīng)系統(tǒng)內(nèi)部數(shù)據(jù)。對于數(shù)據(jù)無效性問題,如確屬關(guān)鍵數(shù)據(jù),可采用整例刪除,否則建議采用刪除變量或用特殊碼代替,以保證檔案統(tǒng)計樣本的有效總量。數(shù)據(jù)缺失問題一般需要數(shù)據(jù)責(zé)任人進(jìn)行手工補(bǔ)充。數(shù)據(jù)重復(fù)性問題可以通過合并或清除的方式來處理。
數(shù)據(jù)清洗是一個長期的處理過程,需要檔案從業(yè)人員和業(yè)務(wù)系統(tǒng)責(zé)任人秉持責(zé)任心和恒心多角度反復(fù)清洗、反饋和處理,經(jīng)過持之以恒的努力,使檔案大數(shù)據(jù)的數(shù)據(jù)值保持有效可用。
檔案的安全保障除了防止自然災(zāi)害、環(huán)境影響、人為因素等造成高溫、高濕、蟲蛀、霉變等破壞檔案實(shí)體的安全風(fēng)險之外,網(wǎng)絡(luò)入侵、網(wǎng)絡(luò)泄密等行為成為大數(shù)據(jù)時代異常重要的安全隱患。對于這類安全隱患,除了采用傳統(tǒng)的防火墻、入侵檢測、防病毒方法以外,高校檔案館多采用數(shù)據(jù)完整性鑒別方法,即通過身份控制,根據(jù)用戶獨(dú)立的身份配置相應(yīng)權(quán)限。
根據(jù)數(shù)據(jù)加密技術(shù)的發(fā)展情況,很多數(shù)據(jù)加密技術(shù)可引起重視并加以運(yùn)用于檔案大數(shù)據(jù)信息管理系統(tǒng)。[3]例如,數(shù)據(jù)傳輸加密、數(shù)據(jù)存儲加密和密鑰管理等,這些數(shù)據(jù)加密技術(shù)是保護(hù)個人隱私和敏感數(shù)據(jù)的重要方法,確保免于暴露檔案數(shù)據(jù),免于違規(guī)使用有安全風(fēng)險的檔案數(shù)據(jù),支持用戶根據(jù)自身權(quán)限進(jìn)行選擇性訪問檔案數(shù)據(jù),確保檔案大數(shù)據(jù)既好用又安全。
檔案大數(shù)據(jù)挖掘由于數(shù)據(jù)量過大,單個服務(wù)器難以有效計算、處理,必須借助分布式計算方法。分布式算法的基本原理是將特征矩陣劃分成大量子矩陣等小單元,安排各服務(wù)器節(jié)點(diǎn)進(jìn)行子矩陣的計算,得到各個子矩陣的計算結(jié)果,迭代至上一矩陣中,匯總到全局矩陣,從而得出最后的總結(jié)果。因此,只要檔案大數(shù)據(jù)達(dá)到一定規(guī)模,必須采用分布式算法才能挖掘出有用的信息。
盡管分布式算法使大數(shù)據(jù)挖掘技術(shù)成為現(xiàn)實(shí),但不建議將所有屬性納入矩陣計算。必須對檔案的屬性進(jìn)行篩選,減少計算的工作量,減少處理時間。過高的屬性分散性實(shí)質(zhì)是過度地依賴大數(shù)據(jù)挖掘技術(shù),將導(dǎo)致計算速度過慢甚至難以得到想要的結(jié)果。因此,在進(jìn)行檔案大數(shù)據(jù)挖掘操作之前,有必要先對檔案屬性進(jìn)行整理、篩選,確保檔案大數(shù)據(jù)挖掘的速度和成效。
計算機(jī)只是一種機(jī)器,不可能做到與人類一樣擁有復(fù)雜的語義分析知識能力,但是計算機(jī)有別于其它機(jī)器,具有特有的計算速度快的優(yōu)勢。近年來,人工智能的發(fā)展使得計算機(jī)語義分析能力得到極大的增強(qiáng)??梢哉f,人類的自然語言具有語義關(guān)聯(lián)錯綜復(fù)雜的特點(diǎn),包括同義、近義、反義、相關(guān)等多種類型,但是人工智能可以超出單純使用語義規(guī)則的模式,對語義進(jìn)行聚類、統(tǒng)計和分析,進(jìn)而獲得詞語重組后的對應(yīng)關(guān)系,并進(jìn)行自動識別和標(biāo)注。[4]這些語義的關(guān)聯(lián)將被記錄、保存、更新、豐富,從而建立起既龐大又科學(xué)的語義數(shù)據(jù)庫。檔案大數(shù)據(jù)挖掘技術(shù)可以利用這些語義數(shù)據(jù)庫,保證挖掘過程中的準(zhǔn)確性和科學(xué)性,使得檔案大數(shù)據(jù)挖掘技術(shù)有依據(jù)、有保障。
目前,檔案大數(shù)據(jù)挖掘技術(shù)可采用許多現(xiàn)成的語義知識庫,比如各類主題詞表、知網(wǎng)、百度百科、維基百科等,在此基礎(chǔ)上再從網(wǎng)絡(luò)社會中提煉語義信息,進(jìn)行語義補(bǔ)充和更新。
MapReduce及基于此基礎(chǔ)上開發(fā)的開源計算平臺Hadoop是相當(dāng)成熟的大數(shù)據(jù)挖掘編程架構(gòu),平臺采用節(jié)點(diǎn)并發(fā)計算的方式進(jìn)行挖掘、提取關(guān)鍵信息,可將計算任務(wù)切割到多個節(jié)點(diǎn),極大地縮短了處理時間,其大數(shù)據(jù)處理規(guī)模達(dá)1TB以上,其高效處理大規(guī)模數(shù)據(jù)的能力已被世界所公認(rèn),足以滿足高校檔案館大數(shù)據(jù)處理能力的現(xiàn)實(shí)需求。同時,高校檔案館存有大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)平臺難以讀取和分析,而MapReduce及Hadoop的讀取范圍不僅僅包含關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),也包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)管理的重大突破,給廣大檔案從業(yè)人員帶來了福音。
MapReduce是由Google公司開發(fā)設(shè)計,應(yīng)用程序可在此平臺上分布式并行計算和處理,開發(fā)者不用在多線程同步程序的編寫和調(diào)試上花費(fèi)精力,從而免于在系統(tǒng)層設(shè)計方面投入時間。MapReduce主要分成Map映射功能和Reduce規(guī)約功能,Map函數(shù)解析無序的數(shù)據(jù),提取鍵值(key-value),通過對列表中的元素做計算,由Reduce函數(shù)進(jìn)行迭代規(guī)約,從而對列表元素進(jìn)行合并化簡,直至得出簡單結(jié)果。[5]
MapReduce服務(wù)器節(jié)點(diǎn)可高達(dá)數(shù)千個,計算性能隨節(jié)點(diǎn)數(shù)的增加呈線性增長關(guān)系,可將大數(shù)據(jù)劃分為較小的數(shù)據(jù)塊,計算任務(wù)將自動在各節(jié)點(diǎn)上分配、執(zhí)行,獲取最終計算結(jié)果。如果節(jié)點(diǎn)沉默時間超過預(yù)定值,則定位該節(jié)點(diǎn)狀態(tài)為死亡狀態(tài),如果節(jié)點(diǎn)數(shù)據(jù)因硬件或軟件故障發(fā)生出錯情況,該節(jié)點(diǎn)的數(shù)據(jù)將被遷移至其它節(jié)點(diǎn)。Reduce規(guī)約功能的并行性相對較差,因此將被盡可能安排在同一節(jié)點(diǎn)或鄰近節(jié)點(diǎn)。MapReduce通過代碼遷向數(shù)據(jù)的方式優(yōu)先處理本地存儲的數(shù)據(jù),否則將把數(shù)據(jù)遷向鄰近節(jié)點(diǎn),從而減少數(shù)據(jù)通信,提高處理速度。
Hadoop是在GFS和MapReduce的基礎(chǔ)上開發(fā)的,Hadoop的核心成分包括HDFS及MapReduce,通過HDFS存儲大數(shù)據(jù),而MapReduce則實(shí)現(xiàn)大數(shù)據(jù)的計算。HDFS支持以流的形式寫文件,NameNode管理文件系統(tǒng)名稱空間,并以DateNode標(biāo)識和目標(biāo)塊管理客戶機(jī)存取文件,使計算任務(wù)可在存儲節(jié)點(diǎn)上得以完成,工作任務(wù)的分配及數(shù)據(jù)通信工作則由JobTracker節(jié)點(diǎn)完成。Hadoop作為開源技術(shù),被許多大公司運(yùn)用于Web搜索、數(shù)據(jù)分析之中,一些企業(yè)通過二次開發(fā),成功開發(fā)出許多商業(yè)服務(wù),使得Hadoop被廣泛使用,受到大數(shù)據(jù)挖掘技術(shù)工作者的青睞。
如今,高校檔案館存有大量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),迫切需要成熟的非關(guān)系型數(shù)據(jù)庫,除了檔案館之外,其它領(lǐng)域同樣迫切需要運(yùn)用NoSQL。在這樣的背景下,NoSQL得到長足的發(fā)展,是數(shù)據(jù)庫發(fā)展史上歷史性的突破。NoSQL數(shù)據(jù)庫分鍵值存儲(如Tokyo Cabinet/Tyrant)、列存儲(如Cassandra)、文檔型(如CouchDB)及圖形(如Neo4J)四種,各有其優(yōu)勢和不足。NoSQL使用鍵值對應(yīng)數(shù)據(jù),不需要定義表結(jié)構(gòu),每條記錄屬性可以不同,因此結(jié)構(gòu)簡單而且靈活;同時NoSQL可分布存儲在多個服務(wù)器上,實(shí)現(xiàn)全共享架構(gòu);此外,NoSQL分布式節(jié)點(diǎn)可動態(tài)增刪,擴(kuò)展性較好,并可根據(jù)日志文件異步復(fù)制。NoSQL已被一些企業(yè)部署應(yīng)用于大數(shù)據(jù)管理中,檔案工作者可根據(jù)檔案大數(shù)據(jù)管理的實(shí)際需要。對照四類NoSQL性能并加以選取運(yùn)用,解決了長期以來困擾大家的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)籌管理問題。
高校檔案管理人員的專業(yè)范圍已經(jīng)在交叉融合,不僅有檔案學(xué)專業(yè)的,還有計算機(jī)、中文、傳媒、歷史、工程等多種專業(yè)的。檔案管理人員的實(shí)際專業(yè)配置情況證明高校檔案館確實(shí)需要復(fù)合型人才。同樣,檔案學(xué)也出現(xiàn)越來越多的交叉學(xué)科,主要偏向計算機(jī)應(yīng)用和網(wǎng)絡(luò)管理方面。隨著大數(shù)據(jù)挖掘技術(shù)的發(fā)展,高校檔案管理專業(yè)應(yīng)當(dāng)重視檔案學(xué)和大數(shù)據(jù)挖掘技術(shù)這一交叉學(xué)科的人才培養(yǎng)。[6]高校檔案館編制的使用應(yīng)逐步向云計算、大數(shù)據(jù)分析技術(shù)這類專業(yè)傾斜,檔案管理將更為需要大數(shù)據(jù)挖掘技術(shù)的專家,從而跟得上檔案信息化快速發(fā)展的步伐。
現(xiàn)有其它專業(yè)的檔案從業(yè)人員要積極通過繼續(xù)教育和自學(xué)鉆研等渠道涉獵大數(shù)據(jù)挖掘技術(shù),防止知識老化,努力成為既有檔案管理業(yè)務(wù)知識又有現(xiàn)代信息化技能的多面手,適應(yīng)新時代檔案管理的模式轉(zhuǎn)變,形成大數(shù)據(jù)管理的思維能力,在檔案管理發(fā)展過程中出現(xiàn)熱點(diǎn)和難點(diǎn)問題時能夠提出科學(xué)解決方案,提高檔案管理的實(shí)際水平。
檔案大數(shù)據(jù)挖掘技術(shù)是在檔案數(shù)據(jù)劇增的現(xiàn)實(shí)環(huán)境下,將檔案數(shù)據(jù)信息挖掘?yàn)橹R庫的有效方式,傳統(tǒng)檔案管理運(yùn)行模式無法有效收集、整理、存儲、分析、判斷海量數(shù)據(jù)源,從而加速了檔案大數(shù)據(jù)挖掘技術(shù)的發(fā)展。同時檔案管理也提出了處理儲量豐富的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的要求,要求檔案管理措施和技術(shù)策略同步更新,真正把大數(shù)據(jù)挖掘技術(shù)作為提升檔案利用服務(wù)功能的重要突破口。
作為提供知識服務(wù)的趨勢性技術(shù),大數(shù)據(jù)挖掘技術(shù)日益受到大家的關(guān)注。高校檔案館要密切聯(lián)系各二級單位,協(xié)作融合,共同把大數(shù)據(jù)挖掘技術(shù)運(yùn)用于日常管理工作中,不斷提高工作效率和服務(wù)質(zhì)量??梢哉f,大數(shù)據(jù)挖掘技術(shù)在高校的大規(guī)模使用是可以期待和預(yù)見的。