遵義醫(yī)科大學(xué) 陳錦秋 狄思思
在大數(shù)據(jù)環(huán)境下,如何利用用戶數(shù)據(jù)提高服務(wù)質(zhì)量是圖書館面臨的重要課題。用戶畫像技術(shù)是挖掘用戶需求、實(shí)現(xiàn)精準(zhǔn)服務(wù)的重要技術(shù)手段。本文在圖書推薦中引入用戶畫像技術(shù),基于高校圖書館用戶數(shù)據(jù)構(gòu)建用戶畫像,將用戶畫像和協(xié)同過濾算法相結(jié)合,實(shí)現(xiàn)精準(zhǔn)的個(gè)性化圖書資源推薦。
隨著信息技術(shù)的高速發(fā)展,傳統(tǒng)的圖書館逐漸向智慧圖書館轉(zhuǎn)型。智慧圖書館將物聯(lián)網(wǎng)、云計(jì)算、人工智能等智能化技術(shù)運(yùn)用到圖書館的建設(shè)中,實(shí)現(xiàn)智慧化的服務(wù)和管理,為讀者提供更加高效、便捷、全面、精準(zhǔn)的資源獲取方式。
高校圖書館是學(xué)生和教師獲取信息資源的重要來源之一,是高校辦學(xué)的重要支柱。構(gòu)建順應(yīng)信息時(shí)代發(fā)展和讀者需求變化的高校圖書館智慧服務(wù)體系是高校圖書館建設(shè)面臨的新挑戰(zhàn)。在圖書推薦和資源建設(shè)中引入智能化技術(shù),能為讀者提供更加精準(zhǔn)、快捷和個(gè)性化的服務(wù),能全方位提升用戶體驗(yàn),提高學(xué)習(xí)和工作效率,促進(jìn)教學(xué)和科研工作的開展。
用戶畫像這一概念最早由交互設(shè)計(jì)之父A.Cooper提出,他指出用戶畫像是基于與用戶相關(guān)的真實(shí)數(shù)據(jù)建立起來的虛擬模型,是對(duì)真實(shí)用戶的虛擬化。大數(shù)據(jù)時(shí)代背景下,用戶的上網(wǎng)行為數(shù)據(jù)、交易數(shù)據(jù)、偏好數(shù)據(jù)等信息數(shù)據(jù)被各種信息系統(tǒng)記錄、收集,利用這些數(shù)據(jù)信息去刻畫用戶的特征,挖掘不同類型用戶的需求,從而實(shí)現(xiàn)精準(zhǔn)的服務(wù)。圖書館的各種信息設(shè)備和信息平臺(tái)收集、存儲(chǔ)著讀者的數(shù)據(jù)信息,這些數(shù)據(jù)信息反映讀者閱讀習(xí)慣和閱讀需求等,利用這些讀者數(shù)據(jù)構(gòu)建虛擬用戶模型,將用戶標(biāo)簽化,從而實(shí)現(xiàn)智能化、個(gè)性化館內(nèi)服務(wù)。
目前,用戶畫像技術(shù)已被廣泛應(yīng)用于高校圖書館的智慧化服務(wù)領(lǐng)域。許鵬程等從自然維度、興趣維度和社交維度等3個(gè)維度構(gòu)建用戶畫像模型,并提出了圖書館用戶畫像的框架模型。劉漫等將用戶畫像模型與聚類、關(guān)聯(lián)算法結(jié)合,探索閱讀精準(zhǔn)推廣服務(wù)新模式。潘宇光從讀者的屬性信息、行為信息、興趣偏好、社交關(guān)系等4個(gè)方面刻畫用戶畫像模型,并生成可視化用戶畫像。
基于用戶畫像提升圖書館個(gè)性化服務(wù)的基本流程為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)特征分析、用戶畫像模型構(gòu)建、數(shù)據(jù)挖掘算法、服務(wù)應(yīng)用,即首先通過圖書館的信息設(shè)備、信息平臺(tái)和管理系統(tǒng)等采集讀者的基本屬性數(shù)據(jù)和行為數(shù)據(jù)。其中,基本屬性數(shù)據(jù)指讀者的年齡、性別、年級(jí)、專業(yè)、院系、借書證號(hào)、聯(lián)系方式、所屬校區(qū)等基本信息;行為數(shù)據(jù)指讀者的借閱信息,如借閱時(shí)長、圖書的書名、圖書作者、圖書分類等。收集數(shù)據(jù)后,需要對(duì)數(shù)據(jù)進(jìn)行一些預(yù)處理,對(duì)數(shù)據(jù)的準(zhǔn)確性、適用性進(jìn)行判斷和審核,篩選不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù),并予以清除。然后,基于用戶數(shù)據(jù)對(duì)用戶的自然屬性特征、興趣特征、社交關(guān)系等進(jìn)行分析,并構(gòu)建用戶畫像模型。最后,將用戶畫像模型應(yīng)用于具體的服務(wù)。
在構(gòu)建用戶畫像模型的過程中,需要利用數(shù)據(jù)挖掘算法對(duì)用戶間的潛在聯(lián)系進(jìn)行深入挖掘,常用的算法有協(xié)同過濾算法、聚類、關(guān)聯(lián)規(guī)則等。挖掘用戶間的聯(lián)系是分析用戶需求、實(shí)現(xiàn)精準(zhǔn)服務(wù)的關(guān)鍵。
圖書推薦是圖書館最重要的服務(wù)之一,本文基于協(xié)同過濾算法構(gòu)建用戶畫像模型,以期實(shí)現(xiàn)圖書個(gè)性化推薦。協(xié)同過濾算法分為基于用戶相似度協(xié)同過濾算法和基于物品相似度協(xié)同過濾算法,本文采用基于用戶相似度的協(xié)同過濾算法。其原理是通過對(duì)目標(biāo)用戶的興趣偏好進(jìn)行分析、挖掘,找到與目標(biāo)用戶具有相似愛好的相似用戶,根據(jù)相似用戶的喜好向目標(biāo)用戶進(jìn)行物品推薦。
本文選取西南地區(qū)某高校圖書館2019年圖書借閱量排名前300的讀者,通過圖書館的用戶管理系統(tǒng)和信息化設(shè)備獲取讀者的基本屬性數(shù)據(jù)和行為數(shù)據(jù),以及相關(guān)圖書的基本屬性數(shù)據(jù),從自然屬性、興趣屬性、社交屬性三個(gè)維度構(gòu)建用戶畫像模型。
2.1.1 自然屬性
用戶的自然屬性由基本屬性數(shù)據(jù)刻畫,本文選取性別、年齡、專業(yè)、讀者類型作為自然屬性模型構(gòu)建的基礎(chǔ)數(shù)據(jù)。如表1所示。
表1 部分讀者及其基本屬性數(shù)據(jù)
2.1.2 自然屬性相似度計(jì)算
本文將每個(gè)用戶的自然屬性看作一個(gè)n維的向量,該向量被稱為自然屬性向量,向量不同的分量代表著不同的屬性,第1和第2個(gè)分量代表用戶的性別屬性;由于用戶的年齡在17-55之間,筆者按照3歲一個(gè)年齡段將用戶年齡劃分為13個(gè)區(qū)間,向量的第3至15個(gè)分量代表年齡屬性;向量的第16至18個(gè)分量代表讀者類型屬性,分別為本科生、研究生和教師;向量的第19至n個(gè)分量代表專業(yè)屬性。用戶自然屬性對(duì)應(yīng)的分量值為1,其余的分量值為0。例如,向量的前2個(gè)分量代表用戶的性別屬性,如果用戶性別為男,則向量第1個(gè)分量值為1,第2個(gè)分量值為0,如果用戶的性別為女,則向量第1個(gè)分量值為0,第2個(gè)分量值為1。
本文采用余弦相似度方法計(jì)算自然屬性的相似度,其計(jì)算公式如下:
其中,A和B分別表示兩個(gè)用戶的自然屬性向量,Ai和Bi分別代表向量A和B的各分量。sim1代表兩個(gè)用戶間自然屬性的相似度,其范圍在0至1之間,其值越接近1,向量A和向量B間的夾角越接近0°,表明兩個(gè)用戶的自然屬性相似度越大。
根據(jù)公式(1)計(jì)算不同用戶間自然屬性的相似度,得到的結(jié)果如表2所示。
表2 部分讀者自然屬性相似度
用戶對(duì)圖書的常規(guī)操作有借閱、續(xù)借、歸還、預(yù)約等,這些操作會(huì)被圖書館的信息系統(tǒng)記錄,形成用戶行為數(shù)據(jù)。用戶的行為數(shù)據(jù)蘊(yùn)含著用戶對(duì)不同圖書的興趣偏好,本文對(duì)用戶的圖書借閱記錄進(jìn)行分析,基于興趣屬性特征計(jì)算用戶間的相似度,從興趣屬性維度構(gòu)建用戶畫像。
用戶進(jìn)行一次圖書借閱操作將會(huì)在系統(tǒng)中產(chǎn)生一條借閱記錄,如表3所示,每條借閱記錄包含的字段有讀者編號(hào)、題名、責(zé)任者、索書號(hào)等。300名讀者2019年共形成了6511條借閱記錄。
表3 部分讀者借閱記錄
筆者根據(jù)中國圖書館分類法將圖書館的藏書分為22大類,每本圖書依據(jù)索書號(hào)被歸為不同的類別,然后統(tǒng)計(jì)每個(gè)用戶借閱不同圖書類別的數(shù)量。將每個(gè)用戶的借閱情況用一個(gè)向量表示,該向量被稱為興趣屬性向量,該向量的維數(shù)為22,向量不同的分量代表著不同的圖書類別,分量的值表示用戶借閱該類別圖書的數(shù)量。采用余弦相似度方法計(jì)算興趣屬性的相似度,其計(jì)算公式如下:
其中,M和N分別表示兩個(gè)用戶的興趣屬性向量,Mi,Ni分別代表向量M和N的各分量。sim2代表兩個(gè)用戶興趣屬性的相似度,其范圍在0至1之間,其值越接近1,向量M和向量N間的夾角越接近0°,表明兩個(gè)用戶的興趣屬性相似度越大。
根據(jù)公式(2)計(jì)算不同用戶興趣屬性的相似度,得到的結(jié)果如表4所示。
表4 部分讀者興趣屬性相似度
社交屬性是指兩個(gè)用戶借閱行為的關(guān)聯(lián)性。通過觀察用戶行為數(shù)據(jù)可以發(fā)現(xiàn),不同的用戶之間可能存在著相似的借閱行為:不同的用戶借閱同一類別的圖書。若兩個(gè)用戶的借閱記錄中有同一類別的圖書就說明他們的借閱行為有著關(guān)聯(lián)性。社交屬性相似度刻畫了用戶借閱行為關(guān)聯(lián)性的高低。本文通過計(jì)算用戶社交屬性相似度來發(fā)掘用戶間的關(guān)聯(lián)性,從社交屬性維度構(gòu)建用戶畫像。采用Jaccard系數(shù)來計(jì)算用戶社交屬性相似度,其計(jì)算公式如下:
其中集合A表示讀者A的圖書借閱記錄,集合B表示讀者B的圖書借閱記錄,A∩B表示讀者A和讀者B借閱同一類別圖書的數(shù)量,A∪B表示讀者A和讀者B借閱圖書類別數(shù)的總和。
根據(jù)公式(3)計(jì)算不同用戶之間社交屬性的相似度,得到的結(jié)果如表5所示。
表5 部分讀者社交屬性相似度
在計(jì)算用戶的綜合相似度時(shí),為了能同時(shí)考慮用戶的自然屬性特征、興趣屬性特征和社交屬性特征,本文采用一種改進(jìn)的相似度度量方法,其計(jì)算公式如下:
其中,sim1是根據(jù)公式(1)計(jì)算得出的用戶自然屬性相似度,sim2是根據(jù)公式(2)計(jì)算得出的用戶興趣屬性相似度,sim3是根據(jù)公式(3)計(jì)算得出的用戶社交屬性相似度。參數(shù)α、β表示權(quán)重,取值范圍在0至1之間,本文認(rèn)為在計(jì)算用戶相似度時(shí),自然屬性的貢獻(xiàn)度小于興趣屬性和社交屬性,因此設(shè)定參數(shù)α的值為0.2,參數(shù)β的值為0.4。根據(jù)公式(4)計(jì)算得出用戶的相似度,如表6所示。
表6 部分讀者的綜合相似度
根據(jù)用戶相似度計(jì)算結(jié)果,得到目標(biāo)用戶與其他用戶的相似度集合U,然后將集合U中的相似度排序,找出與目標(biāo)用戶相似度最高的5個(gè)用戶。
在興趣屬性相似度計(jì)算過程中,對(duì)目標(biāo)用戶借閱不同圖書類別的數(shù)量進(jìn)行了統(tǒng)計(jì),選取數(shù)量排名前3名TOP-3的圖書類別作為目標(biāo)用戶最喜歡的前3類圖書。最后,找出與目標(biāo)用戶相似度最高的5個(gè)用戶的借閱記錄中屬于TOP-3類的圖書,并將這些圖書推薦給目標(biāo)用戶。
本文隨機(jī)選取編號(hào)為43的用戶為目標(biāo)用戶,展示基于用戶畫像的圖書推薦過程。
根據(jù)表6得到與目標(biāo)用戶相似度最高的5個(gè)用戶編號(hào)分別為268、257、35、297和107.目標(biāo)用戶借閱不同圖書類別數(shù)量排名前3名TOP-3的圖書類別為I(文學(xué))、B(哲學(xué)、宗教)、H(語言、文字)。相似度排名前5用戶的借閱記錄中屬于TOP-3類的圖書如表7所示。最后,將表中的圖書推薦給目標(biāo)用戶。
表7 推薦結(jié)果
在傳統(tǒng)基于協(xié)同過濾算法的圖書推薦研究中,大多數(shù)研究僅僅根據(jù)讀者的歷史行為數(shù)據(jù)計(jì)算用戶相似度,只利用了讀者的興趣屬性特征,而忽略了用戶的自然屬性特征和社交屬性特征。本文在構(gòu)建用戶畫像時(shí),使用一種改進(jìn)的用戶相似度計(jì)算方法,從不同的維度刻畫用戶畫像,旨在準(zhǔn)確把握用戶閱讀習(xí)慣和偏好,實(shí)現(xiàn)個(gè)性化圖書推薦。