田偉+韓海濤+陳靜
摘?要:本文提出了一個(gè)檔案用戶(hù)數(shù)據(jù)分析引擎的總體框架模型。在此基礎(chǔ)上,探討了實(shí)現(xiàn)與部署該模型應(yīng)進(jìn)行的主要工作。集中對(duì)檔案用戶(hù)數(shù)據(jù)分析引擎的實(shí)現(xiàn)技術(shù)選擇以及典型功能的實(shí)現(xiàn)方案進(jìn)行了論述,并對(duì)檔案用戶(hù)數(shù)據(jù)分析引擎的優(yōu)化問(wèn)題及其配套制度建設(shè)進(jìn)行了探討。
關(guān)鍵詞:檔案用戶(hù);分析引擎;協(xié)同過(guò)濾;檔案模型;推薦系統(tǒng)
本文從分析用戶(hù)數(shù)據(jù)來(lái)提升檔案服務(wù)的目的出發(fā),立足于檔案館實(shí)踐需求和實(shí)際數(shù)據(jù)建設(shè)能力,提出一個(gè)檔案用戶(hù)數(shù)據(jù)分析引擎架構(gòu)模型方案。該方案的核心思想是,通過(guò)建立檔案館對(duì)用戶(hù)數(shù)據(jù)的分析機(jī)制,指導(dǎo)和促進(jìn)自身服務(wù)的提升。
1??檔案用戶(hù)數(shù)據(jù)分析引擎模型
本文所稱(chēng)的檔案用戶(hù)數(shù)據(jù),是指用戶(hù)在利用檔案過(guò)程中所形成的反映檔案利用行為、利用主體及客體特征的數(shù)據(jù)。要實(shí)現(xiàn)通過(guò)關(guān)注檔案用戶(hù)數(shù)據(jù)促進(jìn)檔案服務(wù)的提升,就要建立對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行分析、知識(shí)抽取以及采取相應(yīng)行動(dòng)的機(jī)制,這就是檔案用戶(hù)數(shù)據(jù)分析引擎。該分析引擎的意義在于,使得檔案部門(mén)可以利用對(duì)用戶(hù)行為數(shù)據(jù)分析的技術(shù)手段,將原本的“數(shù)據(jù)廢氣”[1]變廢為寶,為檔案部門(mén)的服務(wù)提升和管理進(jìn)步提供了現(xiàn)實(shí)支持。
為此,我們提出一個(gè)檔案用戶(hù)數(shù)據(jù)分析引擎模型,如圖1所示:
圖1?檔案用戶(hù)數(shù)據(jù)分析引擎模型
該引擎總體上分為五個(gè)層次:存儲(chǔ)層、知識(shí)提取層、知識(shí)表示層、行為層和反饋層。其中存儲(chǔ)層主要負(fù)責(zé)實(shí)施對(duì)檔案用戶(hù)數(shù)據(jù)收集、存儲(chǔ)和向上層調(diào)用控制。該層次中的檔案用戶(hù)數(shù)據(jù)收集模塊負(fù)責(zé)對(duì)檔案用戶(hù)特征、檔案利用行為、用戶(hù)對(duì)檔案評(píng)價(jià)等數(shù)據(jù)的收集,數(shù)據(jù)整理清洗模塊負(fù)責(zé)規(guī)整收集到的數(shù)據(jù)、消除數(shù)據(jù)噪聲等。隨后將收集到的數(shù)據(jù)存儲(chǔ)至檔案用戶(hù)數(shù)據(jù)庫(kù)中。隱私保護(hù)和密級(jí)保護(hù)規(guī)則模塊,負(fù)責(zé)防止數(shù)據(jù)向上層調(diào)用時(shí)違反隱私和保密規(guī)則。
存儲(chǔ)層之上是知識(shí)提取層,其根據(jù)收集存儲(chǔ)的用戶(hù)利用數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘工具提取出有用知識(shí)。主要包括以下的幾個(gè)功能單元:1.分類(lèi)模型。對(duì)檔案用戶(hù)和所利用檔案數(shù)據(jù)資源進(jìn)行分類(lèi)和聚類(lèi),按照用戶(hù)以及利用檔案資源之間的相似度判定其各自的所屬類(lèi)別,對(duì)用戶(hù)評(píng)價(jià)的原因進(jìn)行分類(lèi)。2.推薦引擎。主要根據(jù)檔案用戶(hù)的利用行為、身份屬性或檔案資源所獲得的評(píng)價(jià),為用戶(hù)推薦檔案數(shù)據(jù)資源,提供檔案數(shù)據(jù)個(gè)性化推薦的系統(tǒng)服務(wù)。3.評(píng)價(jià)分析。對(duì)檔案數(shù)據(jù)資源所獲得的評(píng)價(jià)進(jìn)行整理和統(tǒng)計(jì)分析,得出用戶(hù)對(duì)所利用的檔案資源、服務(wù)情況等方面的信息。4.關(guān)聯(lián)分析。對(duì)檔案用戶(hù)數(shù)據(jù)中所體現(xiàn)的規(guī)律和聯(lián)系進(jìn)行分析,如用戶(hù)利用目的與利用檔案類(lèi)型的關(guān)系,檔案數(shù)據(jù)信息之間在利用中的聯(lián)系,檔案利用行為與特定時(shí)間之間的關(guān)系,等等。5.異常檢測(cè)。識(shí)別檔案用戶(hù)數(shù)據(jù)中不常見(jiàn)的、反常的實(shí)例,包括異常的評(píng)價(jià)、利用行為、用戶(hù)屬性信息等,提供給分析引擎的上層進(jìn)行鑒別與決策,判定這是新的檔案利用趨勢(shì),還是需要特殊服務(wù)的用戶(hù),或是對(duì)檔案利用數(shù)據(jù)的惡意干擾等。
知識(shí)提取層之上是知識(shí)表示層,其將知識(shí)提取層所抽取的知識(shí),表達(dá)成為對(duì)于檔案服務(wù)提升、支持決策有用的、可理解的知識(shí)形態(tài)。主要包括:1.用戶(hù)特征表征。例如,對(duì)用戶(hù)的身份特征、利用目的等進(jìn)行分析和展現(xiàn),表征檔案用戶(hù)可以分為哪些類(lèi)型、用戶(hù)身份特征的變化情況等。2.檔案利用特征呈現(xiàn)。這一部分主要展現(xiàn)檔案數(shù)據(jù)資源獲得利用的情況、檔案資源所獲得的評(píng)價(jià)信息、用戶(hù)屬性與檔案利用項(xiàng)目和種類(lèi)的關(guān)系等。3.趨勢(shì)變動(dòng)及預(yù)估。主要表現(xiàn)隨時(shí)間變動(dòng)的檔案資源所獲評(píng)價(jià)、用戶(hù)利用檔案以及評(píng)價(jià)檔案的時(shí)間特點(diǎn)、對(duì)用戶(hù)未來(lái)檔案利用行為的預(yù)計(jì),等等。
知識(shí)表示層之上是行為層,是根據(jù)分析引擎所表示的知識(shí)規(guī)則,提示檔案館應(yīng)采取策略的功能層次。主要包括:1.服務(wù)提升。主要可包括:檔案資源個(gè)性化推薦、檔案數(shù)據(jù)智能檢索、檔案用戶(hù)間交流群建設(shè)及相應(yīng)好友推薦等內(nèi)容。2.資源建設(shè)。根據(jù)分析引擎提供的知識(shí)來(lái)改進(jìn)檔案數(shù)據(jù)資源的收集與構(gòu)成,如進(jìn)行以下工作:檔案資源評(píng)價(jià)分類(lèi)、用戶(hù)差評(píng)分析、檔案數(shù)據(jù)資源利用關(guān)聯(lián)分析、用戶(hù)未能檢索到的檔案資源分析等。3.支持決策。應(yīng)用分析引擎提取的知識(shí)支持檔案館的管理決策,實(shí)現(xiàn)循數(shù)管理[2]的思想。如通過(guò)對(duì)檔案用戶(hù)進(jìn)行分類(lèi)與聚類(lèi)、實(shí)現(xiàn)小眾化服務(wù);通過(guò)對(duì)檔案用戶(hù)數(shù)據(jù)中異常實(shí)例的感知和分析,確定檔案館應(yīng)采取的相應(yīng)措施;通過(guò)檔案項(xiàng)目所獲評(píng)價(jià)的趨勢(shì)分析,實(shí)施檔案開(kāi)放以及利用工作的前瞻性安排等。
用戶(hù)滿(mǎn)意度是對(duì)分析引擎效能的最終極評(píng)價(jià)指標(biāo),用戶(hù)的反饋意見(jiàn)是引擎優(yōu)化的根本依據(jù)。因此本引擎在設(shè)計(jì)上設(shè)置了反饋層,用以收集檔案用戶(hù)對(duì)于引擎驅(qū)動(dòng)的檔案服務(wù)提升的滿(mǎn)意度信息,根據(jù)用戶(hù)實(shí)際滿(mǎn)意度來(lái)調(diào)整和完善分析引擎的架構(gòu)與技術(shù)方案。
2??檔案用戶(hù)數(shù)據(jù)分析引擎的實(shí)施與部署
以上我們所提出的分析引擎,從概念模型的角度闡釋了引擎總體架構(gòu)和所包含的功能。下面,我們結(jié)合當(dāng)前檔案館的實(shí)際,探討一下對(duì)該引擎進(jìn)行實(shí)施和部署應(yīng)采取的幾方面工作措施:
2.1??完善當(dāng)前檔案信息系統(tǒng)用戶(hù)數(shù)據(jù)采集功能。目前在開(kāi)展了檔案信息化的檔案部門(mén),一般均采用了基于數(shù)據(jù)庫(kù)系統(tǒng)加管理軟件的檔案信息系統(tǒng)(典型的如“南大之星”系統(tǒng)),大多數(shù)檔案部門(mén)所用到這類(lèi)系統(tǒng)的主要功能是存儲(chǔ)和檢索檔案數(shù)據(jù)文件,而較少關(guān)注和利用這些信息系統(tǒng)所具有的用戶(hù)數(shù)據(jù)采集功能。而且在一些型號(hào)的檔案信息系統(tǒng)中,對(duì)該類(lèi)別數(shù)據(jù)的采集功能支持度也不夠。所以,檔案部門(mén)應(yīng)當(dāng)從現(xiàn)在起,除了重視檔案數(shù)據(jù)本身,還要重視對(duì)檔案用戶(hù)數(shù)據(jù)的采集與存儲(chǔ)工作。要充分將自身已有的檔案信息系統(tǒng)用戶(hù)數(shù)據(jù)采集功能利用起來(lái),或是依托相關(guān)技術(shù)力量來(lái)開(kāi)發(fā)與完善此部分?jǐn)?shù)據(jù)的采集功能,為部署分析引擎提供必要的數(shù)據(jù)基礎(chǔ)。
2.2??選擇適用于檔案館自身的分析引擎實(shí)現(xiàn)技術(shù)。檔案館要充分考慮到自身的現(xiàn)實(shí)數(shù)據(jù)分析需求、技術(shù)力量和館藏資源特點(diǎn),選擇恰當(dāng)?shù)男畔⒓夹g(shù)來(lái)實(shí)現(xiàn)分析引擎的主要功能。正如選擇軟件的一種原則一樣:功能強(qiáng)大的傻瓜軟件才是最好的。因此,檔案部門(mén)為了實(shí)際部署檔案用戶(hù)數(shù)據(jù)分析引擎,所選擇的具體數(shù)據(jù)技術(shù)應(yīng)當(dāng)是對(duì)于自身易于實(shí)現(xiàn)、功能較強(qiáng),既符合檔案部門(mén)實(shí)際應(yīng)用需求又不超越自身的技術(shù)力量。這樣,使分析引擎既發(fā)揮積極作用,又不使檔案部門(mén)陷入“技術(shù)泥潭”。
2.3??結(jié)合自身情況實(shí)現(xiàn)分析引擎的具體功能。所提出的檔案用戶(hù)數(shù)據(jù)分析引擎所具有的實(shí)際功能包含很多種,每種功能面對(duì)檔案部門(mén)的實(shí)際環(huán)境也會(huì)具有不同的表現(xiàn)形式。因此,檔案部門(mén)可根據(jù)自身所面對(duì)的用戶(hù)群體與檔案資源狀況,應(yīng)用自身所選擇的引擎實(shí)現(xiàn)技術(shù),實(shí)現(xiàn)符合自身服務(wù)需要的分析引擎功能。例如,可以根據(jù)自身所面對(duì)用戶(hù)的身份特征信息,開(kāi)展對(duì)檔案數(shù)據(jù)資源的個(gè)性化推薦;建立對(duì)檔案用戶(hù)屬性的多維分析資源庫(kù);開(kāi)發(fā)對(duì)檔案數(shù)據(jù)資源的輔助檢索系統(tǒng),應(yīng)對(duì)用戶(hù)檢索多樣化的應(yīng)用環(huán)境;為了防止檔案資源流失,通過(guò)異常檢測(cè)分析潛在的不守信用用戶(hù)并進(jìn)行預(yù)警;通過(guò)趨勢(shì)變動(dòng)及預(yù)估來(lái)感知用戶(hù)對(duì)檔案需求或反饋意見(jiàn)的變化趨勢(shì)等。從總體講,這些具體功能的根本目的,就是為了將用戶(hù)數(shù)據(jù)驅(qū)動(dòng)服務(wù)提升與管理進(jìn)步的宗旨落到實(shí)處。
2.4??建立與完善分析引擎的配套制度。對(duì)于檔案部門(mén)來(lái)說(shuō),信息技術(shù)要與配套制度相結(jié)合,才能實(shí)現(xiàn)檔案服務(wù)與管理的真正進(jìn)步。用戶(hù)數(shù)據(jù)分析引擎在檔案館部署運(yùn)行的過(guò)程中,檔案部門(mén)要制定有效的管理制度和使用規(guī)范,確保其發(fā)揮良好的作用。例如,應(yīng)研究建立檔案數(shù)據(jù)個(gè)性化推薦系統(tǒng)使用規(guī)則、用戶(hù)數(shù)據(jù)收集實(shí)施辦法、用戶(hù)數(shù)據(jù)安全性責(zé)任規(guī)范、用戶(hù)意見(jiàn)反饋收集實(shí)施辦法等。通過(guò)這一系列的工作制度和紀(jì)律規(guī)范,明確用戶(hù)數(shù)據(jù)分析引擎運(yùn)行過(guò)程中檔案工作人員的任務(wù)職責(zé),以制度的形式確保分析引擎的良好運(yùn)行以及對(duì)檔案部門(mén)進(jìn)步的促進(jìn)作用。
3??檔案用戶(hù)數(shù)據(jù)分析引擎實(shí)現(xiàn)技術(shù)選擇的探討
基于以上分析,我們以下探討對(duì)分析引擎實(shí)現(xiàn)技術(shù)的選擇問(wèn)題。從總體上說(shuō),數(shù)據(jù)挖掘領(lǐng)域的關(guān)聯(lián)規(guī)則(Association?Rule)、協(xié)同過(guò)濾(Collaborative?Filter)、對(duì)項(xiàng)目的向量建模是與該分析引擎相關(guān)的幾項(xiàng)技術(shù)。其中,關(guān)聯(lián)規(guī)則技術(shù)的優(yōu)點(diǎn)是:對(duì)其的研究比較深入、技術(shù)較成熟,其實(shí)現(xiàn)的軟件產(chǎn)品與技術(shù)人員等也比較豐富。其缺點(diǎn)在于:1.在模型建立的階段計(jì)算量往往很大,難以實(shí)時(shí)完成。關(guān)聯(lián)規(guī)則的模型建立、存儲(chǔ)后,也一般不能做到經(jīng)常修改模型、進(jìn)行關(guān)聯(lián)規(guī)則集的更新,應(yīng)變度不好。2.對(duì)于所產(chǎn)生的關(guān)聯(lián)規(guī)則的解釋和應(yīng)用,本身就是一個(gè)復(fù)雜的、在很大程度上具有超技術(shù)特征的哲學(xué)式任務(wù)。且誤導(dǎo)的關(guān)聯(lián)規(guī)則和負(fù)相關(guān)問(wèn)題需要額外的處理關(guān)注。3.關(guān)聯(lián)規(guī)則對(duì)于用戶(hù)個(gè)性化特征體現(xiàn)和服務(wù)支持不足。關(guān)聯(lián)規(guī)則方法在于從整體上了解數(shù)據(jù)庫(kù)事務(wù)較為普遍的、宏觀的發(fā)生規(guī)律,是在考察整體,而非“關(guān)照個(gè)體”。例如,其應(yīng)用在資源個(gè)性化推薦的場(chǎng)景中,除非目標(biāo)用戶(hù)與大多數(shù)人行為模式相似,否則難以得到滿(mǎn)意的推薦。
協(xié)同過(guò)濾技術(shù)[3]的基本原理是基于最近鄰居的評(píng)分?jǐn)?shù)據(jù)對(duì)目標(biāo)用戶(hù)產(chǎn)生推薦。協(xié)同過(guò)濾技術(shù)的核心是用戶(hù)—評(píng)分矩陣,用來(lái)表示用戶(hù)對(duì)每個(gè)項(xiàng)目的評(píng)價(jià)?;镜耐扑]步驟是用戶(hù)評(píng)價(jià)、最近鄰查找、推薦結(jié)果生成。
項(xiàng)目的向量建模技術(shù)主要思想是,將目標(biāo)項(xiàng)目提取為特征向量,用于匹配計(jì)算等場(chǎng)景。這項(xiàng)技術(shù)的個(gè)性化程度較高,但其難點(diǎn)在于對(duì)推薦項(xiàng)目(如文檔)特征的提取,如文獻(xiàn)[4]中介紹了對(duì)于文本的特征提取公式等。而對(duì)于那些難以提取特征、準(zhǔn)確表達(dá)成向量形式的推薦項(xiàng)目(如音像檔案等)則較難應(yīng)用。
考慮到目前我國(guó)檔案館的現(xiàn)實(shí)數(shù)據(jù)分析需求、技術(shù)力量以及館藏資源特點(diǎn),在此我們提出主要選擇協(xié)同過(guò)濾技術(shù)作為用戶(hù)分析引擎的實(shí)現(xiàn)技術(shù),并輔以向量建模技術(shù)以提高分析效果。
基于本節(jié)的分析,以下我們闡述幾種分析引擎典型功能的技術(shù)實(shí)現(xiàn)方案。
4???檔案用戶(hù)數(shù)據(jù)分析引擎若干典型功能技術(shù)方案
4.1??檔案數(shù)據(jù)資源個(gè)性化推薦。當(dāng)前用戶(hù)對(duì)檔案資源的需求主要屬于因辦理某事務(wù)而對(duì)檔案資料的剛性需求。所以在實(shí)際應(yīng)用場(chǎng)景中,用戶(hù)的檔案需求往往在檔案類(lèi)別上有共性、在具體文件上有個(gè)性,因此,我們提出如下的推薦方案:
①對(duì)檔案用戶(hù)進(jìn)行建模,采用向量形式描述用戶(hù)屬性集合。將檔案文件按照所屬全宗類(lèi)別進(jìn)行建模,每一類(lèi)別作為協(xié)同過(guò)濾矩陣中的一個(gè)項(xiàng)目。
②根據(jù)檔案利用數(shù)據(jù),建立“用戶(hù)屬性-檔案文件類(lèi)別”二值觀測(cè)值矩陣,其中以0、1數(shù)值的形式記錄具有某屬性的用戶(hù)利用過(guò)某類(lèi)檔案文件的情況。
③當(dāng)目標(biāo)用戶(hù)在檔案利用中輸入自身屬性信息,分析引擎的推薦引擎模塊即根據(jù)其屬性信息在用戶(hù)向量模型空間中計(jì)算查找最相似用戶(hù),然后檢索這些最相似用戶(hù)在“用戶(hù)屬性-檔案文件類(lèi)別”矩陣中利用過(guò)什么類(lèi)別的檔案文件。
④將檢索到的文件類(lèi)別(并集)與目標(biāo)用戶(hù)自身屬性相結(jié)合,在檔案系統(tǒng)數(shù)據(jù)庫(kù)中檢索到具體的檔案數(shù)據(jù)文件推薦給用戶(hù)。
該方案實(shí)際上是對(duì)經(jīng)典協(xié)同過(guò)濾技術(shù)的一種變形,主要是將其“用戶(hù)-項(xiàng)目”矩陣變?yōu)椤坝脩?hù)屬性-檔案文件類(lèi)別”矩陣,并結(jié)合用戶(hù)屬性向量實(shí)施推薦。對(duì)于目標(biāo)用戶(hù)的最近鄰查找是在用戶(hù)屬性向量模型空間中完成的,而推薦結(jié)果的生成則劃分為兩步:一是在矩陣中直接讀取最近鄰用戶(hù)的檔案文件類(lèi)別,二是結(jié)合目標(biāo)用戶(hù)自身屬性檢索具體檔案文件。這種策略大大緩解了傳統(tǒng)協(xié)同過(guò)濾的稀疏性與冷啟動(dòng)問(wèn)題。更為重要的是,其更加適用于檔案領(lǐng)域的實(shí)際場(chǎng)景。
4.2??檔案利用關(guān)聯(lián)分析。檔案利用關(guān)聯(lián)分析的目的是要揭示用戶(hù)屬性(如身份信息、利用目的等)與所利用檔案類(lèi)別集合之間的關(guān)系。這種分析得出的結(jié)果主要有兩個(gè)方面的重要用途:一是為檔案館識(shí)別用戶(hù)、安排與優(yōu)化檔案資源提供決策依據(jù);二是為實(shí)現(xiàn)上述的檔案數(shù)據(jù)資源個(gè)性化提供建模支持。
基于4.1節(jié)中所提出的協(xié)同過(guò)濾矩陣,建立利用分析模型。重點(diǎn)是根據(jù)檔案館實(shí)際情況分別建立檔案用戶(hù)模型與檔案資源類(lèi)別模型。其中用戶(hù)模型的建模目的是將檔案用戶(hù)映射為不同的特征向量。例如,在檔案資源個(gè)性化推薦中,使得目標(biāo)用戶(hù)能通過(guò)模型映射找到與其特征相似近鄰用戶(hù);而對(duì)于檔案項(xiàng)目的建模,目標(biāo)是使資源模型可以準(zhǔn)確刻畫(huà)檔案數(shù)據(jù)文件從屬于何種類(lèi)別,該類(lèi)別的劃分有助于揭示此類(lèi)文件的共性,且有助于其與用戶(hù)屬性結(jié)合后準(zhǔn)確地直接檢索到用戶(hù)所需的具體文件。
具體的建模策略實(shí)際可視為一個(gè)分類(lèi)模型(classification?model)問(wèn)題,即將“用戶(hù)屬性-檔案文件類(lèi)別”二值觀測(cè)值矩陣中的每一行視為一個(gè)獨(dú)特狀態(tài)。檔案館通過(guò)分析總結(jié)檔案利用數(shù)據(jù)與館藏檔案類(lèi)別,首先歸納得出若干不同的利用狀態(tài)(矩陣行),然后利用分類(lèi)模型技術(shù),將檔案用戶(hù)身份屬性信息映射到各自唯一對(duì)應(yīng)的檔案利用狀態(tài)(也就是分類(lèi)決策樹(shù)的葉節(jié)點(diǎn))。如圖2所示:
圖2??用戶(hù)利用檔案類(lèi)別分析模型
所建立的分類(lèi)決策樹(shù)模型,每個(gè)葉節(jié)點(diǎn)應(yīng)對(duì)應(yīng)“用戶(hù)屬性-檔案文件類(lèi)別”矩陣中的一行,決策樹(shù)中的每個(gè)非葉節(jié)點(diǎn)代表一個(gè)應(yīng)當(dāng)體現(xiàn)在用戶(hù)向量模型中的用戶(hù)屬性項(xiàng)目。從而以此指導(dǎo)建立檔案用戶(hù)向量模型。而之所以不將該決策樹(shù)直接用于推薦引擎,是因?yàn)闆Q策樹(shù)模型往往存在誤差,且直接在樹(shù)上查詢(xún)至葉節(jié)點(diǎn)也往往存在效率上的問(wèn)題。因此,以協(xié)同過(guò)濾技術(shù)實(shí)現(xiàn)推薦服務(wù)可具有更好的容錯(cuò)性和運(yùn)行效率。
在建立分類(lèi)模型過(guò)程中,可以應(yīng)用諸如C4.5等[5]分類(lèi)模型技術(shù),通過(guò)信息增益率來(lái)確定用戶(hù)屬性項(xiàng)目的價(jià)值(即屬性選擇度量),這對(duì)于完善檔案用戶(hù)向量模型是一種直接而有效的方法。而建立分類(lèi)模型需要訓(xùn)練集(training?set)與檢驗(yàn)集(test?set)。對(duì)此可以將檔案館人員分析得出的用戶(hù)屬性-利用檔案文件類(lèi)別數(shù)據(jù)集,分為訓(xùn)練集與檢驗(yàn)集兩部分,前者建立決策樹(shù),后者進(jìn)行模型的驗(yàn)證和完善。而且,這個(gè)過(guò)程在實(shí)踐中可以通過(guò)新得出的數(shù)據(jù)定期進(jìn)行,以完善和優(yōu)化所建立的分類(lèi)模型。
4.3??檔案未命中檢索詞分析。用戶(hù)檢索檔案數(shù)據(jù)所使用的關(guān)鍵詞,體現(xiàn)出用戶(hù)對(duì)檔案資源的實(shí)際需求以及自身表達(dá)特點(diǎn)。若是用戶(hù)在檔案信息系統(tǒng)中經(jīng)過(guò)一系列嘗試后未檢索到所需的檔案文件,那么,檔案館應(yīng)該定期對(duì)這些“未命中檢索關(guān)鍵詞”進(jìn)行分析(通過(guò)操作日志等),找出檢索未命中的原因。該原因一般可歸結(jié)為三類(lèi):資源不存在、檢索詞筆誤、資源命名不匹配。在經(jīng)過(guò)認(rèn)真分析確定原因后,檔案館應(yīng)分別采取如下的處理措施:對(duì)于資源不存在,應(yīng)在對(duì)檢索詞統(tǒng)計(jì)匯總后,研究加強(qiáng)今后的檔案資源建設(shè),調(diào)整所需檔案收集的項(xiàng)目,以使館藏檔案資源的擴(kuò)充向用戶(hù)實(shí)際需求方向發(fā)展;對(duì)于檢索詞筆誤,可將用戶(hù)輸入有誤的檢索詞作為“規(guī)則”與其應(yīng)該命中的文件建立鏈接,今后系統(tǒng)再遇到該錯(cuò)誤時(shí),即可將正確的文件推送到用戶(hù),增強(qiáng)檔案檢索系統(tǒng)的容錯(cuò)性;對(duì)于資源命名不匹配問(wèn)題,也可按照該方式,將用戶(hù)所用檢索詞與應(yīng)命中文件鏈接,增強(qiáng)檔案檢索系統(tǒng)的適應(yīng)性。在此提出的技術(shù)策略,實(shí)際上是通過(guò)倒排文件的思想,來(lái)提升檔案信息系統(tǒng)檢索的智能化水平。
5??檔案用戶(hù)數(shù)據(jù)分析引擎的優(yōu)化及制度建設(shè)
任何成功的制度設(shè)計(jì),都應(yīng)具備有效的自我完善機(jī)制。因此,我們提出的檔案用戶(hù)數(shù)據(jù)分析引擎設(shè)置了反饋層,用以收集分析引擎運(yùn)行后用戶(hù)對(duì)檔案服務(wù)的滿(mǎn)意度和反饋意見(jiàn)等信息。以此為依據(jù),對(duì)分析引擎的功能、實(shí)現(xiàn)機(jī)制、技術(shù)方案等做出優(yōu)化調(diào)整。
對(duì)于分析引擎在實(shí)踐中的優(yōu)化,一方面,需要根據(jù)實(shí)際運(yùn)行中的用戶(hù)反饋對(duì)引擎進(jìn)行改進(jìn),另一方面,也需要測(cè)試基準(zhǔn)(benchmark)對(duì)其進(jìn)行有效驗(yàn)證,這種測(cè)試基準(zhǔn)就是典型檔案用戶(hù)案例。建立這種用戶(hù)案例的主要考慮原則包括:1.代表性。典型檔案用戶(hù)案例主要特點(diǎn)在于“典型”,即用相對(duì)可行的用戶(hù)數(shù)量,全面反映各種類(lèi)的檔案用戶(hù)特點(diǎn)。2.反饋性。組成典型檔案用戶(hù)案例的用戶(hù)應(yīng)與檔案館之間建立有充分的、及時(shí)的信息反饋機(jī)制,將檔案服務(wù)的實(shí)際質(zhì)量、存在的問(wèn)題等及時(shí)、真實(shí)有效地反饋給檔案館。3.可控性。典型檔案用戶(hù)案例相對(duì)于檔案館應(yīng)是可控的,這意味著雙方彼此間應(yīng)建立良好的互信關(guān)系,對(duì)于檔案服務(wù)引擎可能存在的問(wèn)題與不足進(jìn)行友好的溝通與探討,而不致因某些不足造成不可控的影響。通過(guò)在典型用戶(hù)案例上的實(shí)際測(cè)試和完善,面向?qū)嶋H提高檔案用戶(hù)數(shù)據(jù)分析引擎的效能。
對(duì)于檔案數(shù)據(jù)分析引擎的配套制度建設(shè),目前我們應(yīng)該重點(diǎn)關(guān)注兩點(diǎn):一是有效收集檔案用戶(hù)數(shù)據(jù)的問(wèn)題,二是對(duì)系統(tǒng)中檔案用戶(hù)隱私保護(hù)問(wèn)題。
對(duì)于有效收集檔案用戶(hù)數(shù)據(jù)的問(wèn)題,檔案用戶(hù)數(shù)據(jù)的主要內(nèi)容包括對(duì)檔案利用行為的數(shù)據(jù)、檔案用戶(hù)自身屬性的數(shù)據(jù)、所利用檔案具有屬性的數(shù)據(jù)三個(gè)主要的部分。對(duì)于它們的收集要本著準(zhǔn)確、及時(shí)、全面的原則,因?yàn)樗鼈兪钦麄€(gè)檔案用戶(hù)數(shù)據(jù)分析引擎運(yùn)行的基石。對(duì)于檔案利用行為數(shù)據(jù),在數(shù)字化檔案館條件下,可基于檔案信息系統(tǒng)自動(dòng)完成。檔案部門(mén)也可對(duì)以往檔案利用登記數(shù)據(jù)進(jìn)行匯總,獲得更為全面的利用規(guī)律。對(duì)于檔案具有屬性的數(shù)據(jù),應(yīng)基于檔案元數(shù)據(jù)來(lái)獲得,這就要求檔案部門(mén)今后要更加重視檔案元數(shù)據(jù)的收集、存儲(chǔ)和利用。
對(duì)于檔案用戶(hù)自身屬性的數(shù)據(jù),相關(guān)研究中[6]亦稱(chēng)為用戶(hù)人口統(tǒng)計(jì)信息(Demographic?Information)等。對(duì)于其的收集,檔案部門(mén)首先是調(diào)查搞清:哪些信息項(xiàng)目對(duì)于分析引擎的功能是需要的,要收集加以考慮,而哪些信息項(xiàng)目不重要,不可盲目收集。另外還要注意哪些是用戶(hù)“最不愿意填寫(xiě)”的信息項(xiàng)目,這些項(xiàng)目用戶(hù)要么就不會(huì)提供、要么即使填寫(xiě)也是不真實(shí)的信息,從而影響引擎的分析功能正常發(fā)揮。對(duì)此,檔案館要充分地向用戶(hù)宣傳與溝通,積極促進(jìn)用戶(hù)提供自身真實(shí)有效的屬性信息。
例如,4.2節(jié)中所提出的分類(lèi)模型,其在建模過(guò)程中就會(huì)逐步篩選出對(duì)于分析有意義的用戶(hù)屬性項(xiàng)目,因此在實(shí)踐中應(yīng)對(duì)用戶(hù)的這些屬性加以重點(diǎn)收集、確保其正確和真實(shí),這就意味著檔案部門(mén)要通過(guò)有效的策略鼓勵(lì)用戶(hù)提供這些信息項(xiàng)目的真實(shí)信息。
對(duì)于分析引擎中用戶(hù)隱私保護(hù)問(wèn)題,當(dāng)前相關(guān)研究中[7]提出了一系列的用戶(hù)隱私保護(hù)措施,如收集主體的合法性、隱私管理者的保密及忠實(shí)義務(wù)、貫徹落實(shí)相關(guān)的法律規(guī)定等,在分析引擎實(shí)際運(yùn)行中可以參照這些措施對(duì)用戶(hù)的信息實(shí)施保護(hù)。這實(shí)際與有效收集用戶(hù)屬性信息問(wèn)題是相輔相成的,只有用戶(hù)的信息受到良好的保護(hù)、進(jìn)行正確的利用,才能促使用戶(hù)更加順暢地提供自身屬性數(shù)據(jù)供分析引擎正常運(yùn)行,從而形成檔案用戶(hù)、檔案部門(mén)與分析引擎之間的良性互動(dòng)。
6??總結(jié)
本文重點(diǎn)關(guān)注了如何通過(guò)對(duì)用戶(hù)數(shù)據(jù)的分析來(lái)驅(qū)動(dòng)檔案服務(wù)提升的問(wèn)題。提出了檔案用戶(hù)數(shù)據(jù)分析引擎的模型架構(gòu),并基于協(xié)同過(guò)濾和向量建模等技術(shù)提出了若干具體的功能實(shí)現(xiàn)策略。在設(shè)計(jì)和部署數(shù)字化以及智慧檔案館的信息系統(tǒng)時(shí),可將本文提出的策略作為設(shè)計(jì)要求和實(shí)現(xiàn)說(shuō)明,將對(duì)用戶(hù)數(shù)據(jù)的感知及分析功能融入檔案系統(tǒng)中加以實(shí)現(xiàn)。
*本文系2014年度國(guó)家檔案局科技項(xiàng)目“大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新與發(fā)展趨勢(shì)研究”(課題編號(hào):2014-X-16)的階段性研究成果之一。
參考文獻(xiàn):
[1]張倩.?高校檔案用戶(hù)行為大數(shù)據(jù)分析技術(shù)應(yīng)用研究[J].?檔案與建設(shè).2014(08):16~21.
[2]周楓.?資源.技術(shù).思維——大數(shù)據(jù)時(shí)代檔案館的三維詮釋[J].?檔案學(xué)研究.2013(06):61~64.
[3]孔維梁.?協(xié)同過(guò)濾推薦系統(tǒng)關(guān)鍵問(wèn)題研究[D].博士學(xué)位論文.華中師范大學(xué).2013.
[4]林鴻飛,姚天順.基于示例的中文文本過(guò)濾模型[J].大連理工大學(xué)學(xué)報(bào),2000,40(03):375~378.
[5]徐鵬,林森.?基于C4.5決策樹(shù)的流量分類(lèi)方法[J].軟件學(xué)報(bào),?2009,20(10):2692~2704.
[6]袁先虎.?基于混合用戶(hù)模型的協(xié)同過(guò)濾推薦算法研究[D].碩士學(xué)位論文.重慶大學(xué).2010.
[7]孫強(qiáng).?檔案利用中的個(gè)人隱私保護(hù)問(wèn)題探析[J].檔案學(xué)研究,2014,(04):40~43.
(作者單位:天津工業(yè)大學(xué)檔案館??來(lái)稿日期:2014-10-16)