陳如進(jìn)
(南京曉莊學(xué)院,江蘇南京 211171)
隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)以及各種智能設(shè)備的普及和運(yùn)用,人們面臨的信息和知識(shí)的種類和形式日漸豐富,海量數(shù)據(jù)程爆炸式增長(zhǎng)。大數(shù)據(jù)時(shí)代,數(shù)據(jù)更能準(zhǔn)確地描述人的需求和想法,高校圖書館的各類數(shù)據(jù)呈現(xiàn)多來(lái)源、海量化、異構(gòu)化、變化快的特點(diǎn)。圖書館的數(shù)字資源大數(shù)據(jù)、業(yè)務(wù)運(yùn)行大數(shù)據(jù)、讀者閱讀行為大數(shù)據(jù),統(tǒng)一構(gòu)成了圖書館大數(shù)據(jù),這些數(shù)據(jù)成了為讀者提供服務(wù)的最核心的支撐。如何使用這些大數(shù)據(jù),挖掘讀者的真實(shí)需求,為讀者提供智慧服務(wù),是近幾年圖書館行業(yè)研究的新熱點(diǎn)。近幾年智慧圖書館建設(shè)被提上日程,與傳統(tǒng)的圖書館相比,智慧圖書館可以為用戶提供更精準(zhǔn)的、個(gè)性化服務(wù)。
大數(shù)據(jù)技術(shù)環(huán)境下,互聯(lián)網(wǎng)公司聚焦于為用戶提供精準(zhǔn)營(yíng)銷,用戶畫像技術(shù)被廣泛地研究和應(yīng)用。用戶畫像是一個(gè)互聯(lián)網(wǎng)上的虛擬數(shù)據(jù)模型,是將一個(gè)人的基本屬性以及在在互聯(lián)網(wǎng)上的用戶行為、用戶偏好等主要信息數(shù)據(jù)進(jìn)行提取,虛擬化出的一個(gè)標(biāo)簽?zāi)P?,這個(gè)“畫像”能概括的描述出一個(gè)人的信息全貌,可以快速地、準(zhǔn)確地了解用戶,進(jìn)一步對(duì)用戶開展精準(zhǔn)營(yíng)銷、信息推送等個(gè)性化服務(wù)。
AlanCooper被稱為“交互設(shè)計(jì)之父”,他最早提出了用戶畫像的概念[1],他認(rèn)為用戶畫像(Persona)是真實(shí)用戶的虛擬表示。隨著互聯(lián)網(wǎng)各項(xiàng)技術(shù)的發(fā)展,現(xiàn)在研究者們所說(shuō)的用戶畫像通常是與大數(shù)據(jù)分析、數(shù)據(jù)挖掘相關(guān)的,被稱之為“UserProfile”。在圖書情報(bào)領(lǐng)域,運(yùn)用數(shù)據(jù)畫像技術(shù)可以對(duì)讀者的各項(xiàng)數(shù)據(jù)進(jìn)行挖掘分析和展示,實(shí)現(xiàn)智慧服務(wù)。根據(jù)用戶對(duì)數(shù)字資源的使用情況,如搜索、瀏覽、下載等行為,對(duì)讀者進(jìn)行用戶畫像,幫助圖書館員更全面了解用戶需求。在用戶畫像的基礎(chǔ)上,運(yùn)用推薦算法,為用戶提供有針對(duì)性的、個(gè)性化服務(wù),實(shí)現(xiàn)精準(zhǔn)服務(wù)。根據(jù)讀者的數(shù)據(jù)行為特征,通過(guò)個(gè)體畫像,關(guān)聯(lián)規(guī)則分析,個(gè)性化推薦,向用戶推薦“你感興趣”“學(xué)者動(dòng)態(tài)”“同行推薦”“最新資源”等,實(shí)現(xiàn)對(duì)不同學(xué)科用戶的個(gè)性化服務(wù)。通過(guò)群體畫像,數(shù)據(jù)挖掘和聚類分析把學(xué)科用戶分為具有相似需求的群體,對(duì)圖書館的用戶進(jìn)行有效的分類,能挖掘出各類用戶的真實(shí)需求。將用戶畫像應(yīng)用于“個(gè)性化服務(wù)”和“智能推薦”等系統(tǒng),是實(shí)現(xiàn)圖書館智慧服務(wù)的重要途徑。
很多學(xué)者對(duì)用戶畫像進(jìn)行了研究,有學(xué)者指出用戶畫像就是挖掘用戶的人口屬性、行為屬性、社交網(wǎng)絡(luò)、心理特征和興趣愛(ài)好等數(shù)據(jù),經(jīng)過(guò)疊加更新抽象出完整的信息標(biāo)簽,組合搭建出立體的用戶模型。陳丹、柳益君等著重從閱讀推廣、知識(shí)服務(wù)、主動(dòng)定制、場(chǎng)景推薦等幾個(gè)方面提出了基于用戶畫像的個(gè)性化智慧服務(wù)策略[2]。孫守強(qiáng)通過(guò)用戶畫像與智慧圖書館特點(diǎn)分析,探索基于本體的用戶畫像構(gòu)建過(guò)程[3]。劉速以天津圖書館為例,從多個(gè)方面闡述了用戶畫像的構(gòu)建和分析方法[4]。王慶和趙發(fā)珍從單用戶和多用戶角度提出了基于用戶畫像的館藏資源推薦模式[5]。文章提出了基于用戶畫像的高校圖書館智慧服務(wù)模型構(gòu)架,構(gòu)建讀者用戶畫像模型,并預(yù)測(cè)讀者的興趣和需求,以便為讀者提供智慧檢索、智能推送、個(gè)性化定制等服務(wù)。
用戶畫像的研究最早出現(xiàn)在美國(guó),是通過(guò)用戶調(diào)研,采用統(tǒng)計(jì)學(xué)的方法對(duì)用戶進(jìn)行描述和概括。隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的發(fā)展,人們通過(guò)采集用戶在互聯(lián)網(wǎng)上的各種行為數(shù)據(jù)預(yù)測(cè)用戶的隱性信息需求,并以此來(lái)構(gòu)建用戶畫像,建立用戶完整信息描述的可視化表示。用戶畫像構(gòu)建的流程分為數(shù)據(jù)采集、行為建模和用戶畫像構(gòu)建三個(gè)步驟,基本流程如圖1所示。
圖1 用戶畫像構(gòu)建流程
數(shù)據(jù)采集是用戶畫像的基礎(chǔ),數(shù)據(jù)越完整構(gòu)建畫像越能反映用戶的真實(shí)狀態(tài)和需求。用戶畫像的目的不同,數(shù)據(jù)采集的側(cè)重點(diǎn)不同,這里主要列出用戶的屬性數(shù)據(jù)、用戶行為數(shù)據(jù)和用戶偏好數(shù)據(jù)。用戶屬性數(shù)據(jù)指用戶的姓名、性別、年齡、愛(ài)好、專業(yè)特長(zhǎng)等基本信息,可以從用戶注冊(cè)的信息中獲得。用戶行為數(shù)據(jù)指用戶在互聯(lián)網(wǎng)的頁(yè)面訪問(wèn)、瀏覽、下載情況等,可以從互聯(lián)網(wǎng)的訪問(wèn)日志中分析獲得。用戶偏好數(shù)據(jù)指用戶的行為習(xí)慣或用戶評(píng)論、訂閱、收藏等相關(guān)內(nèi)容數(shù)據(jù),可以通過(guò)網(wǎng)絡(luò)爬蟲并通過(guò)特征提取和數(shù)據(jù)分析獲得。行為建模是構(gòu)建用戶畫像的核心,對(duì)第一階段采集到的數(shù)據(jù)進(jìn)行挖掘整理,利用機(jī)器學(xué)習(xí)算法對(duì)用戶行為、偏好等進(jìn)行相關(guān)的分析和預(yù)測(cè)。用戶畫像行為建模的核心是對(duì)用戶潛在的意圖和興趣進(jìn)行表示和存儲(chǔ),根據(jù)用戶的基礎(chǔ)信息、視頻信息、訪問(wèn)信息、行為偏好,以及隱式興趣等歸納出可讀取、可計(jì)算的用戶模型。通俗地來(lái)說(shuō),用戶畫像建模往往就是用戶信息的標(biāo)簽化,以便為后面的智慧服務(wù)提供更加精準(zhǔn)的數(shù)據(jù)模型。
隨著高校智慧校園的建設(shè)和發(fā)展,高校讀者的用戶信息與行為軌跡信息更加容易獲取[6]。高校圖書館可以以讀者需求為向?qū)?,在讀者用戶畫像的分析和挖掘的基礎(chǔ)上,結(jié)合個(gè)性化推薦技術(shù)構(gòu)建高校圖書館的智慧服務(wù)系統(tǒng)。圖2展示了基于用戶畫像的高校圖書館智慧服務(wù)模型構(gòu)架。模型以讀者為中心,通過(guò)讀者數(shù)據(jù)的采集和預(yù)處理、用戶行為建模和用戶畫像構(gòu)建、智慧服務(wù)模型算法、向用戶開展智慧服務(wù)。
圖2 基于用戶畫像的高校圖書館智慧服務(wù)模型
數(shù)據(jù)的采集階段通過(guò)各種途徑搜集讀者的各方面的數(shù)據(jù),包括讀者的基本屬性數(shù)據(jù)、數(shù)字資源平臺(tái)行為數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、終端感知數(shù)據(jù)等。用戶屬性數(shù)據(jù)可以直接從各管理系統(tǒng)如科研管理系統(tǒng)數(shù)據(jù)、教務(wù)系統(tǒng)數(shù)據(jù)、館藏資源管理系統(tǒng)等直接獲取,并進(jìn)行數(shù)據(jù)關(guān)聯(lián)。采集數(shù)據(jù)包括顯式信息和隱式信息。顯式信息中圖書館讀者的基礎(chǔ)信息主要指姓名、性別、工號(hào)、部門、人員類別(教學(xué)、科研、管理)等,讀者學(xué)科信息主要包括學(xué)歷、所學(xué)專業(yè)、專業(yè)技術(shù)職稱、學(xué)科門類、學(xué)科專業(yè)。隱式信息中讀者行為信息主要是收集讀者的登陸、瀏覽、下載等行為信息,包括檢索主題詞、下載主題詞、瀏覽主題詞等,讀者偏好數(shù)據(jù)包括常用數(shù)據(jù)庫(kù)、訂閱主題詞、收藏主題詞、登錄次數(shù)、下載次數(shù)等。顯式信息會(huì)通過(guò)信息采集接口直接從管理系統(tǒng)進(jìn)行信息采集,隱式信息通過(guò)對(duì)數(shù)據(jù)資源系統(tǒng)、微信、APP等平臺(tái)的用戶訪問(wèn)日志進(jìn)行提取,數(shù)據(jù)采集后匯總到后臺(tái)服務(wù)器進(jìn)行分析和存儲(chǔ)。數(shù)據(jù)處理和存儲(chǔ)階段,將采集到的各種數(shù)據(jù)進(jìn)行預(yù)處理,包括特征選擇、數(shù)據(jù)轉(zhuǎn)換和分詞處理等。
高校圖書館讀者用戶畫像的構(gòu)建主要是將采集到的讀者各類數(shù)據(jù)進(jìn)行整合、挖掘分析、特征提取、聚類等,將用戶的信息映射到一定的標(biāo)簽體系中,構(gòu)建全方位的單個(gè)用戶的畫像。行為建模是對(duì)用戶的行為特征有效的表示和存儲(chǔ),將采集到的用戶信息數(shù)據(jù)表示成可讀取、可計(jì)算的用戶模型。用戶行為建模依賴于對(duì)用戶數(shù)據(jù)的挖掘戶外分析,利用聚類分析、關(guān)聯(lián)分析等手段,對(duì)海量的不同類型的數(shù)據(jù)進(jìn)行有效的整合,挖掘出用戶的信息需求特征。
行為建模的過(guò)程可以理解為用戶信息的標(biāo)簽化過(guò)程。不同的標(biāo)簽體現(xiàn)了描述用戶的不同視角,而用戶畫像是一個(gè)整體,各個(gè)維度、標(biāo)簽之間的聯(lián)系密切。陳臣將讀者標(biāo)簽分為7個(gè)標(biāo)簽類別,分別是讀者基本特征、讀者的閱讀行為、閱讀場(chǎng)景、閱讀社會(huì)關(guān)系、閱讀興趣與愛(ài)好、閱讀滿意度、讀者價(jià)值評(píng)估。陳丹、柳益君等在對(duì)用戶畫像進(jìn)行建模時(shí),將用戶標(biāo)簽分為事實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽。事實(shí)標(biāo)簽通過(guò)對(duì)讀者個(gè)人信息和讀者的借閱、收藏、下載等行為進(jìn)行統(tǒng)計(jì)分析得到。預(yù)測(cè)標(biāo)簽通過(guò)智能分析技術(shù),結(jié)合各種推薦算法,分析和預(yù)測(cè)用戶特征、興趣和需求等獲得。本文提出從基本屬性、行為屬性、偏好屬性三個(gè)維度對(duì)高校圖書館讀者建立標(biāo)簽識(shí)別體系。用戶屬性是對(duì)用戶基礎(chǔ)特征的描述,如姓名、性別、學(xué)號(hào)(工號(hào))、專業(yè)、院系等。行為屬性是指讀者對(duì)各種系統(tǒng)的行為操作信息,如數(shù)據(jù)庫(kù)的登陸、信息瀏覽、論文下載等等。偏好屬性是讀者的潛在興趣描述,如常用數(shù)據(jù)庫(kù)、訂閱主題詞、收藏主題詞等。
用戶畫像的構(gòu)建是用戶信息的完整描述和可視化表示,實(shí)現(xiàn)對(duì)讀者挖掘信息的精煉概括。從可視化的角度來(lái)看,用戶畫像將會(huì)開啟一個(gè)以用戶為核心的呈現(xiàn)模式。
當(dāng)用戶畫像在應(yīng)用于推薦系統(tǒng)等個(gè)性化服務(wù)時(shí),由于系統(tǒng)開銷等原因,系統(tǒng)不會(huì)對(duì)每個(gè)用戶進(jìn)行設(shè)計(jì),這時(shí)需要用到群體畫像。群體畫像代表了某一類用戶的信息化特征,通過(guò)聚類算法將具有相似特征的用戶群分為一類,按照各個(gè)類別用戶的特征有側(cè)重點(diǎn)的開展服務(wù)。群體畫像還可以發(fā)現(xiàn)核心用戶群的特征,在后面智慧服務(wù)階段,可以優(yōu)先考慮核心用戶的需求。
智慧服務(wù)模型算法構(gòu)建階段,采用相應(yīng)的數(shù)據(jù)挖掘算法,根據(jù)用戶的興趣偏好和用戶行為特征建立興趣模型,根據(jù)用戶畫像模型,分析和預(yù)測(cè)用戶的資源需求和行為偏好,然后通過(guò)有效的途徑將有價(jià)值的資源和信息推薦給用戶。圖書資源的推薦先根據(jù)讀者的歷史行為數(shù)據(jù)構(gòu)建讀者用戶畫像,對(duì)圖書館藏的資源的內(nèi)容特征數(shù)據(jù)進(jìn)行挖掘和分析,最終構(gòu)建基于用戶畫像和圖書資源的智能推薦模型,對(duì)每個(gè)使用的讀者計(jì)算推薦列表,定期發(fā)送給讀者。最常用的推薦算法是基于內(nèi)容的推薦算法,是根據(jù)用戶的偏好和擬推薦內(nèi)容的匹配程度向用戶提供推薦列表。
用戶畫像能夠隱式的追蹤和定位讀者的興趣愛(ài)好,通過(guò)分析讀者的行為軌跡數(shù)據(jù),建立讀者興趣模型,構(gòu)建讀者畫像,為讀者提供智慧檢索、智能推送、個(gè)性化定制等智慧服務(wù)。
(1)智慧檢索。通過(guò)采集讀者的屬性信息和用戶行為信息,構(gòu)建用戶畫像,當(dāng)讀者進(jìn)行信息檢索時(shí),根據(jù)讀者輸入的搜索關(guān)鍵字和構(gòu)建的用戶畫像,猜測(cè)讀者可能需要的信息,并根據(jù)讀者的潛在需求對(duì)檢索結(jié)果進(jìn)行排序,將用戶最可能需要的信息排在最前面,從而提高讀者的檢索體驗(yàn)??梢岳肐P、位置等定位信息建立不同規(guī)則的設(shè)置,為不同需求的讀者提供不同的檢索結(jié)果。
(2)智能推送。采用數(shù)據(jù)挖掘技術(shù)對(duì)用戶行為進(jìn)行分析,協(xié)同過(guò)濾推薦機(jī)制,找到與其有相似需求的讀者,從而進(jìn)行關(guān)聯(lián)推薦。根據(jù)近期的搜索或?yàn)g覽記錄,采集基于內(nèi)容的推薦機(jī)制,展示給用戶一個(gè)綜合推薦列表。例如豆瓣,以圖書、音樂(lè)、電影為服務(wù)內(nèi)容,通過(guò)“看過(guò)”和“想看”列表,同時(shí)結(jié)合用戶評(píng)論來(lái)獲得用戶的偏好信息,形成用戶的推薦列表??梢杂萌后w畫像,將具有相似需求的讀者分為一類,為需求不同的讀者推薦不同類別的信息。
(3)個(gè)性化定制服務(wù)。開展個(gè)性化閱讀,如新聞客戶端利用用戶畫像,根據(jù)讀者的行為習(xí)慣和閱讀經(jīng)歷為其定制新聞內(nèi)容,最大程度的滿足讀者的個(gè)性化閱讀需求。這種機(jī)制還可以根據(jù)用戶的實(shí)際行為反饋進(jìn)行調(diào)整,用戶還可以根據(jù)實(shí)際需求自行調(diào)整定制內(nèi)容,從而根據(jù)用戶的興趣變化動(dòng)態(tài)更新定制內(nèi)容。