文/中原工學(xué)院計(jì)算機(jī)學(xué)院 高艷霞 李娟
新時(shí)代背景下,實(shí)現(xiàn)“互聯(lián)網(wǎng)+智能+檔案”成為我國檔案行業(yè)的戰(zhàn)略目標(biāo)?!度珖鴻n案事業(yè)發(fā)展“十三五”規(guī)劃綱要》明確指出,要深化和拓展檔案利用服務(wù),提高檔案公共服務(wù)能力,提高檔案館公共服務(wù)的認(rèn)知度和用戶滿意度,檔案利用服務(wù)模式創(chuàng)新和檔案信息開放要取得實(shí)質(zhì)性進(jìn)展。這給傳統(tǒng)的檔案利用管理提出了新的挑戰(zhàn)。
(一)服務(wù)觀念相對陳舊。當(dāng)前,隨著檔案信息化的持續(xù)進(jìn)行,各大檔案館的硬件設(shè)備已有很大改進(jìn),也基本完成了紙質(zhì)檔案的數(shù)字化,加之原本的電子檔案,數(shù)字檔案館的雛形基本具備,但是由于檔案管理人員受傳統(tǒng)檔案服務(wù)影響根深蒂固,還停留在“以檔案信息為中心”的“等客上門”的被動(dòng)服務(wù)模式階段,沒有主動(dòng)對海量的檔案數(shù)據(jù)進(jìn)行挖掘研究,沒有切實(shí)從用戶的角度研究其真實(shí)需求,因此存在用戶需要的檔案資源得不到,檔案館里卻存有海量的檔案資源,但大多都成為沉積海底的“死檔案”的現(xiàn)象。
(二)對檔案資源的挖掘力度不夠。各大檔案館基本都對檔案資源編排索引,可以提供目錄查詢,少部分可以原文查詢,但缺少檔案資源的編研產(chǎn)品,沒有形成知識(shí)單元,因此檔案資源質(zhì)量不高。而現(xiàn)在用戶對檔案的需求已不僅僅是原始檔案,更需要進(jìn)行深度加工和分析后的檔案知識(shí)單元,因此陷入檔案資源豐富,但知識(shí)匱乏的境地。
(三)對用戶需求研究不夠。數(shù)字檔案館建設(shè)的目的是利用先進(jìn)的數(shù)字化技術(shù)為用戶利用提供方便,毋庸置疑,應(yīng)該以用戶為中心,但長期以來受“重館藏,輕利用”的影響,雖然數(shù)字檔案館建設(shè)取得了長足的發(fā)展,積累了海量的數(shù)字檔案資源,但缺少對用戶的研究,例如,用戶的分類過于簡單,沒有根據(jù)用戶的需求組織檔案知識(shí)單元,造成了檔案資源與用戶需求的嚴(yán)重脫節(jié)?!盎ヂ?lián)網(wǎng)+時(shí)代”,人們已不滿足于傳統(tǒng)的檔案資源呈現(xiàn)方式和獲取手段,因此數(shù)字檔案館要把“以人為本”作為檔案工作的核心,根據(jù)用戶需求、量體裁衣,提高用戶效率,增強(qiáng)服務(wù)效果。
(一)檔案信息個(gè)性化服務(wù)的概念。關(guān)于檔案信息個(gè)性化服務(wù)的概念,黃夏基定義為“根據(jù)用戶的特性提供具有針對性的信息內(nèi)容”。廖倩概括為“根據(jù)利用者的特定需求為目標(biāo),借助各種渠道對館藏資源進(jìn)行加工、整合、優(yōu)化,為客戶推送相關(guān)信息,以滿足其特殊需求”。田偉更是將檔案個(gè)性化服務(wù)的基本特征形象地比喻成“量體裁衣”。綜合來說,檔案信息的個(gè)性化服務(wù)是檔案館通過各種途徑對資源進(jìn)行收集、整理和分類,主動(dòng)向用戶提供和推薦滿足用戶個(gè)性化需求的相關(guān)信息。
(二)檔案信息個(gè)性化服務(wù)的特征。檔案信息的個(gè)性化服務(wù)是“互聯(lián)網(wǎng)+智能”時(shí)代的必然產(chǎn)物,能夠促進(jìn)檔案服務(wù)轉(zhuǎn)變服務(wù)理念,也為數(shù)字檔案館的建設(shè)指明了方向。具有如下明顯的特征:
1.主動(dòng)性。與傳統(tǒng)“人找檔案”的被動(dòng)服務(wù)相比,個(gè)性化服務(wù)是“檔案找人”,體現(xiàn)的是檔案服務(wù)部門主動(dòng)服務(wù)于檔案需求者。根據(jù)收集到的用戶的基本特征及用戶的瀏覽歷史和行為,感知用戶的信息需求,從檔案數(shù)據(jù)庫中檢索出用戶需要的檔案信息及時(shí)主動(dòng)地推送給用戶。
2.可定制性。對檔案用戶的基本信息和瀏覽行為進(jìn)行深度加工挖掘,分析用戶的特征、興趣、愛好、行為、習(xí)慣等信息,不斷細(xì)化檔案用戶,有針對性地提供更符合用戶心理傾向、知識(shí)結(jié)構(gòu)和行為方式的信息需求框架和內(nèi)容,建造“量身定制”的個(gè)性化服務(wù)。
3.智能性。對于有檔案需求但不具備檢索經(jīng)驗(yàn)和專業(yè)知識(shí)的用戶,要準(zhǔn)確檢索到自己需要的檔案信息往往非常困難,經(jīng)常出現(xiàn)“提供的不需要,需要的找不到”的尷尬境地,智能性可以很好地解決這個(gè)問題。運(yùn)用智能算法通過跟蹤和捕獲用戶的興趣偏好,獲取用戶的真實(shí)需求,構(gòu)建用戶模型,結(jié)合智能過濾和推薦算法提升檔案信息的推送質(zhì)量,真正做到按需服務(wù)。
(三)獲取檔案用戶需求。深入分析用戶的信息需求是檔案個(gè)性化服務(wù)的關(guān)鍵,本質(zhì)上來說,只有精準(zhǔn)分析用戶的特征、需求和行為,才能結(jié)合用戶需求設(shè)計(jì)高效的檔案個(gè)性化服務(wù)模式,因此準(zhǔn)確獲取用戶需求是檔案個(gè)性化服務(wù)的核心問題。主要從以下幾方面開展:
1.用戶注冊信息。因?yàn)闄n案信息不是公開性的網(wǎng)絡(luò)資源,只有注冊用戶才可以獲取檔案信息,在設(shè)計(jì)用戶注冊信息時(shí),除用戶名、密碼、郵箱等基本信息外,可以包含能夠刻畫用戶基本特征的信息,如年齡、職業(yè)、學(xué)歷、關(guān)注主題等。
2.用戶瀏覽信息。用戶在瀏覽網(wǎng)頁時(shí)會(huì)產(chǎn)生很多數(shù)據(jù),如在瀏覽某一頁面時(shí)哪些超鏈接點(diǎn)擊了哪些沒有點(diǎn)擊,哪些頁面停留的時(shí)間長,哪些頁面被用戶多次重復(fù)訪問,這些瀏覽頁面的操作行為反映了用戶的興趣和關(guān)注度,可以運(yùn)用WEB挖掘技術(shù),挖掘用戶的瀏覽日志等相關(guān)信息,準(zhǔn)確了解用戶的喜好、行為,建立用戶興趣模型。
3.用戶交互行為。用戶在檔案信息服務(wù)平臺(tái)可以人機(jī)互動(dòng)查閱資料,也可以參與話題討論,還可以在利用檔案過程中進(jìn)行討論、分享和反饋等,用戶輸入的查閱主題、參與討論的觀點(diǎn)等這些信息可以反映用戶的特征、偏好、需求,有利于精準(zhǔn)把握用戶的實(shí)際需求,是建立推薦模型的基礎(chǔ)。
4.用戶收藏、分享等行為。用戶在瀏覽檔案網(wǎng)頁信息結(jié)束時(shí),沒有直接關(guān)閉網(wǎng)頁,而是將網(wǎng)頁鏈接收藏,甚至將鏈接轉(zhuǎn)發(fā)給別的用戶,形成信息分享行為,反映出用戶對相關(guān)檔案主題內(nèi)容興趣濃厚,認(rèn)為非常有用。通過收集用戶的收藏、分享信息,有利于了解用戶的信息需求及偏好、專業(yè)等信息,便于構(gòu)建用戶信息需求模型。
對檔案用戶群進(jìn)行精準(zhǔn)細(xì)分。根據(jù)用戶的注冊信息、瀏覽歷史、交互行為和收藏分享行為,收集用戶的特征、需求偏好、檔案利用次數(shù)、頻率分布,以及對檔案利用的內(nèi)容等方面進(jìn)行分析,深入挖掘了解用戶的需求,建立用戶的分群模型和多維度分析知識(shí)庫。
對檔案數(shù)據(jù)按照內(nèi)容主題和分類進(jìn)行標(biāo)識(shí)。運(yùn)用主題模型進(jìn)行分類處理,發(fā)掘檔案知識(shí)單元之間的鏈接關(guān)系,并進(jìn)行深度加工編研,通過知識(shí)單元的關(guān)聯(lián)聚合將不同主題屬性、不同類別的檔案資源形成可供用戶利用的知識(shí)網(wǎng)絡(luò)。
運(yùn)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)及自然語言處理技術(shù),構(gòu)建基于用戶需求的檔案信息個(gè)性化服務(wù)模型,為用戶量身定制個(gè)性化的數(shù)據(jù)服務(wù),主動(dòng)向用戶推薦其感興趣或者需要的檔案對象。
在檔案個(gè)性化服務(wù)模型中,推薦引擎是其中的核心,可以采用關(guān)聯(lián)規(guī)則、協(xié)同過濾等相關(guān)技術(shù),其中協(xié)同過濾技術(shù)最為常用。協(xié)同過濾技術(shù)是個(gè)性化推薦的一種實(shí)現(xiàn)方式,通過對用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好,基于不同的偏好對用戶進(jìn)行群組劃分并推薦品位相似的物品。協(xié)同過濾推薦算法分為兩類,分別是基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。當(dāng)前,協(xié)同過濾在圖書、電影、音樂、電子商務(wù)等領(lǐng)域得到較好的應(yīng)用,很多領(lǐng)域已采用協(xié)同過濾技術(shù)來實(shí)現(xiàn)智能服務(wù)。這里可以將兩種算法結(jié)合使用,來提高推薦的精度。
圖1 檔案個(gè)性化服務(wù)模型
“互聯(lián)網(wǎng)+”環(huán)境下,各地檔案館都在嘗試檔案信息資源共享服務(wù),同時(shí)對檔案利用提出了更高的要求和挑戰(zhàn),如何從體量大、類型多、更新快的大數(shù)據(jù)資源中,為用戶提供智慧型、個(gè)性化的信息服務(wù),并能夠挖掘檔案資源的價(jià)值,推薦公眾感興趣的檔案信息,成為一大難題。本文探討了檔案個(gè)性化服務(wù)的概念、特征,提出了獲取用戶需求的方法及個(gè)性化服務(wù)的模型,使檔案工作更貼近檔案利用者的需求,為傳統(tǒng)檔案的服務(wù)模式改變提供了一定的參考。