李春秋
摘 ?要:對用戶的屬性和行為特征進行深入刻畫,構建用戶畫像應用于圖書館服務,可以提高圖書館服務的個性化、精準化。本文結合智慧圖書館的特點,探索智慧圖書館用戶畫像構建過程,從數(shù)據(jù)采集層、數(shù)據(jù)挖掘?qū)?、個性化服務層幾個方面搭建圖書館個性化服務框架,并針對智慧圖書館個性化服務過程中存在的問題提出相應對策。
關鍵詞:用戶畫像;智慧圖書館;個性化服務;大數(shù)據(jù)
中圖分類號:G252 ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? 文章編號:1672-4437(2020)04-0069-04
1 相關理論研究
1.1 智慧圖書館
智慧圖書館最早由芬蘭奧盧大學圖書館 Aittola 等人于2003年提出,被解釋為“能夠被用戶感知,且不受空間限制的移動圖書館”[1]。2009年IBM提出智慧地球理念后,智慧圖書館的實踐和理論研究才逐漸受到學者的重視。目前我國學者從不同角度對智慧圖書館進行研究,形成不同觀點。董曉霞[2]等認為智慧圖書館是數(shù)字圖書館和感知智慧化兩者相結合。曾子明[3]等認為情景感知能有效提高智慧圖書館移動視覺檢索準確率,提高查詢相關度和用戶滿意度。覃瑋境[4]等提出了重構智慧圖書館“智能服務”路徑,以滿足圖書館用戶“個性化”與“定制化”的知識服務需求。曹樹金[5]等總結了國內(nèi)外智慧圖書館的參考文獻,分析結果認為智慧圖書館應當以大數(shù)據(jù)、人工智能等技術為支撐,以精準識別讀者需求為起點,重視讀者體驗。
1.2 用戶畫像
用戶畫像是Alan Cooper最早提出的,他認為用戶畫像是建立在一系列真實數(shù)據(jù)之上的目標用戶模型[6]。余孟杰[7]認為用戶畫像就是利用大數(shù)據(jù)技術收集足夠的數(shù)據(jù),然后對用戶標簽化以形成一個虛擬用戶全貌。劉海[8]等根據(jù)用戶的理財偏好,消費層次以及個人財富等維度構建用戶畫像,為銀行理財產(chǎn)品進行精準營銷提供依據(jù)。王洋[9]等利用大數(shù)據(jù)技術對用戶的日常瀏覽日志進行數(shù)據(jù)挖掘分析,根據(jù)分析結果構建用戶畫像,在準確性方面有了很大提高。王順箐[10]利用讀者興趣偏好構建用戶畫像,并融入到圖書館推薦系統(tǒng)中,從而提高了推薦系統(tǒng)的服務準確度。
智慧圖書館的發(fā)展趨勢是以用戶的需求為根本,能夠為用戶快速、準確地提供個性化、定制化、智慧化服務??梢詮拈喿x推薦和檢索推薦兩個方面提升個性化服務水平。
2 智慧圖書館用戶畫像構建
2.1 用戶畫像數(shù)據(jù)獲取
在大數(shù)據(jù)時代,移動終端和物聯(lián)網(wǎng)技術的快速發(fā)展,用戶的大量數(shù)據(jù)得以有效保存,為我們采集用戶數(shù)據(jù)提供了基礎。利用這些數(shù)字資源可以了解用戶的特征屬性信息,進而對用戶群體進行畫像。用戶畫像數(shù)據(jù)一般情況下可以分為動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù)。用戶到館活動軌跡、圖書館相關系統(tǒng)的使用記錄、借還書的相關記錄等稱為動態(tài)數(shù)據(jù)。而靜態(tài)數(shù)據(jù)一般可以理解為用戶注冊時相關信息及家庭和職業(yè)等數(shù)據(jù),這些數(shù)據(jù)一般不會實時變動。
智慧圖書館應該采集讀者靜態(tài)數(shù)據(jù):基本屬性(姓名、性別、年齡、學歷……),社會屬性(家庭成員、工作單位、工作收入……);動態(tài)數(shù)據(jù):讀者的線下行為(借書記錄、預約記錄、還書記錄……),讀者線上行為(讀者ID、檢索記錄、下載記錄……)及情景信息(讀者的位置、移動終端設備、讀者的喜怒哀樂……)。并利用這兩方面數(shù)據(jù)構建用戶畫像。一般情況下,可以從讀者的靜態(tài)屬性中推測出讀者的潛在需求。利用讀者的動態(tài)數(shù)據(jù),如互動信息中的評價、建議和討論等信息,去調(diào)整推薦和檢索模型以便為讀者提供更加個性化的服務。
2.2 用戶畫像模型構建
用戶畫像模型構建就是對用戶進行標簽化的過程。用戶標簽就是對用戶特征信息進行高度總結和概括。完成標簽化處理后,對用戶進行分類,并標注不同類別的關系,從而形成不同群體的標簽體系。本文根據(jù)讀者的基本屬性,社會屬性,線下行為,線上行為,情景信息等進行分類整理,構建用戶畫像模型,如圖1所示。
雖然個體畫像能全面反映一個獨立個體的特征屬性,在知識推薦和檢索方面也更加精準,但是個體用戶數(shù)據(jù)一旦缺失或者關鍵屬性字段不完整,很難采取其他措施補全數(shù)據(jù),進而造成用戶畫像構建出現(xiàn)偏差。
根據(jù)共同興趣和近似偏好對用戶進行分類,構建群體用戶畫像,在個別用戶信息出現(xiàn)缺失時,就可以依據(jù)相同類別中的其他用戶數(shù)據(jù)進行評估補充數(shù)據(jù),從而完善用戶數(shù)據(jù)??梢韵扔嬎阌脩魧傩缘南嗨贫然蚓o密度,然后運用聚類算法對群體畫像聚類,形成不同類別的群體畫像。
3 基于用戶畫像的智慧圖書館個性化服務框架
可從數(shù)據(jù)采集層、數(shù)據(jù)挖掘?qū)?、個性化服務層三個方面構建智慧圖書館的個性化推薦和檢索服務框架,如圖2所示。
3.1 數(shù)據(jù)采集層
數(shù)據(jù)采集層是整個智慧圖書館個性化服務框架的基礎,只有完整地采集用戶的信息數(shù)據(jù),才能準確描述用戶特征。對于讀者的基本信息數(shù)據(jù),可以通過圖書館注冊信息獲取。線下行為數(shù)據(jù)可以通過圖書館后臺數(shù)據(jù)庫提取。同時,讀者參與圖書館組織的相關活動也能反映讀者的習慣和偏好等。線上行為數(shù)據(jù)可以通過網(wǎng)絡爬蟲技術對讀者經(jīng)常登錄的網(wǎng)頁、微博、微信等信息進行捕獲。情景信息數(shù)據(jù)可以通過定位系統(tǒng)、智能監(jiān)控、人臉識別等技術采集,實現(xiàn)對讀者情景內(nèi)容的描述。
3.2 數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘?qū)有枰獙?shù)據(jù)采集層采集到的原始數(shù)據(jù)進行預處理,也就是說需要對重復數(shù)據(jù)、缺失數(shù)據(jù)等情況進行處理。另外,由于讀者屬性較多,且對讀者影響不一。因此,需要對讀者屬性進行降維和加權處理,對提取的主要特征信息進行標簽化,形成讀者屬性標簽庫。從采集的數(shù)據(jù)來看,數(shù)字資源呈現(xiàn)數(shù)據(jù)量大、變化快、異構化、多來源等特點,這些數(shù)據(jù)在個性化推薦服務之前還需要進行語義標注和關聯(lián),形成標準語義庫。
魯棒性強的算法模型是實現(xiàn)智慧圖書館個性化服務的關鍵。根據(jù)提取的特征標簽庫初步形成個體用戶畫像,然后通過數(shù)據(jù)挖掘技術進行聚類分析,從而形成群體畫像。畫像模型可以快速地對用戶特征進行描述和表達,進而與檢索對象進行知識匹配關聯(lián)。關聯(lián)度越高,越能準確地鎖定知識目標。目前,常用的檢索模型和推薦模型有多種,如文本搜索、視覺搜索和協(xié)同過濾推薦、混合推薦等,在進行個性化檢索和推薦時,需要選擇合適的檢索和推薦模型。
3.3 個性化服務層
讀者在移動終端進行檢索查詢服務時,智慧圖書館后臺服務器會根據(jù)讀者畫像進行計算,從而選擇最適合讀者的推薦模型,對檢索的知識和內(nèi)容進行可視化處理后,推薦給讀者。同時,智慧圖書館還能夠感知讀者當前的情景信息,通過和讀者互動交流,實時調(diào)整用戶特征屬性,根據(jù)新的屬性數(shù)據(jù)來抽象新的標簽,并把新的標簽添加到標簽特征庫,從而不斷完善讀者畫像,調(diào)整推薦模型和檢索模型,提高讀者對智慧圖書館個性化服務的真實體驗。
4 存在的關鍵問題與應對策略
4.1 數(shù)據(jù)采集完整性及標簽粒度劃分方面
用戶畫像構建過程中,數(shù)據(jù)采集越全面,構建的用戶畫像就越精確。但是在搜集數(shù)據(jù)時會遇到一些問題,如個別讀者注冊信息不完整,或者填寫的信息有誤。盡管通過相似偏好對個人信息進行處理,在個性化推薦和檢索時也會出現(xiàn)一些誤差。這就要求后期必須強化數(shù)據(jù)采集的完整性。
標簽粒度劃分問題是用戶畫像構建過程中一定會遇到的問題。粒度劃分過于精細,會出現(xiàn)過度描述的現(xiàn)象,粒度劃分過于粗放,又難以精確描述用戶,這兩種情況都會出現(xiàn)推薦模型選擇使用度低的情況。一方面,有些特征屬性標簽重要程度低,對用戶影響較小,這些標簽如果留在用戶特征屬性標簽庫中,用于用戶畫像構建,會造成用戶畫像構建不夠精準,在進行知識推薦和檢索時,會導致推薦和檢索的知識非用戶所需知識,偏離用戶期望。另外,標簽數(shù)量太多,在選擇推薦模型時,會增加服務器端的計算工作量,進而影響推薦檢索內(nèi)容和知識的速度,降低讀者的閱讀體驗。因此,要客觀地對用戶畫像標簽粒度劃分??梢允紫确治鰳撕瀸τ脩舻闹匾潭?,將標簽進行分組,并計算不同組別對用戶決策的影響程度,進而設置合理的權重,刪除無關緊要的標簽,提高用戶畫像的精確度。
4.2 搜索和推薦算法優(yōu)化選擇方面
隨著計算機技術、人工智能的不斷發(fā)展,智慧圖書館檢索方式越來越多樣化。每種搜索方式和推薦算法都有各自的優(yōu)缺點和不同的特征,特別是針對新用戶的問題,以及在查詢準確率和完整性方面的問題。智慧圖書館的重要特征為用戶提供實時服務。因此,需要動態(tài)調(diào)整用戶的閱讀和檢索習慣,實時調(diào)整用戶畫像,并根據(jù)畫像及時調(diào)整檢索和推薦模型,向有共同偏好的群體進行知識推薦,提高推薦效率和準確率。
4.3 數(shù)據(jù)隱私安全方面
大部分用戶數(shù)據(jù)都涉及用戶的隱私。因此,在收集、使用用戶數(shù)據(jù)時,應及時做好信息的安全和隱私保護。數(shù)據(jù)采集前,最好征求讀者意見;采集時,盡量只收集一些關鍵信息和數(shù)據(jù),對用戶特征屬性影響較小的數(shù)據(jù),如身份證號盡量不要采集,以免影響信息安全;采集后,要注意用戶信息存儲安全問題、信息泄露問題及信息被竊取等問題。可利用區(qū)塊鏈技術增強智慧圖書館信息的安全性。此外,還需建立健全智慧圖書館管理制度,定期對圖書館館員進行培訓,提高圖書館館員的個人素質(zhì)和安全意識,把每個圖書館館員都培養(yǎng)成智慧型圖書館館員。
4.4 用戶畫像動態(tài)變化方面
用戶的偏好和需求特征不是固定不變的。因此,同一個用戶的畫像模型也要隨著時間推移不斷調(diào)整。但是用戶的行為特征信息和偏好何時變化,難以把握。如果實時更新數(shù)據(jù),并對用戶畫像實時調(diào)整,會大量增加終端服務器運算量,造成系統(tǒng)運行緩慢,延遲推薦時間,降低用戶使用體驗。如果每隔一個固定時間段調(diào)整,就需要對用戶群體偏好變化的周期性進行深入研究。
針對用戶畫像的動態(tài)變化,終端服務器難以高效的處理海量數(shù)據(jù)的問題,可以搭建云服務平臺,利用云服務器強大的數(shù)據(jù)處理和計算機能力,將用戶畫像模型構建以及檢索和推薦算法放在云端處理,并將結果通過云端傳輸,提高推薦系統(tǒng)的實時推薦速度和穩(wěn)定性,增強用戶體驗,提高智慧圖書館個性化服務水平。
參考文獻:
[1]Aittola M, Ryhanen T, Ojala T.Smart Library :Location Aware Mobile Library Service[J].International Symposium on Human Computer Interaction with Mobile Devices and Services,2003(5):411-415.
[2]董曉霞,龔向陽,張若林,等.智慧圖書館的定義、設計和實現(xiàn)[J].現(xiàn)代圖書情報技術,2011(2):76-80.
[3]曾子明,蔣琳. 融合情境的智慧圖書館移動視覺搜索服務研究[J].現(xiàn)代情報,2019(12):46-54.
[4]覃瑋境,向立文,左逸群.融合與重構:AI技術驅(qū)動下智慧圖書館服務邏輯與路徑[J].圖書館工作與研究,2019(3):29-33.
[5]曹樹金,劉慧云.以讀者為中心的智慧圖書館研究[J].圖書情報工作,2019(1):23-29.
[6]張小可,沈文明,杜翠鳳.貝葉斯網(wǎng)絡在用戶畫像構建中的研究[J].移動通信,2016(22):22-26.
[7]余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建模[J].設計藝術研究,2014,4(6):62-64.
[8]孫曄,楊照東,陳德華.大數(shù)據(jù)用戶畫像技術在商業(yè)銀行的應用[J].數(shù)字通信世界,2016(9):86-88.
[9]王洋,丁志剛,鄭樹泉,等.一種用戶畫像系統(tǒng)的設計與實現(xiàn) [J].計算機應用與軟件,2018(3):8-14.
[10]王順箐.以用戶畫像構建智慧閱讀推薦系統(tǒng)[J].圖書館學研究,2018(4):92-96.