文/王顯斌
現(xiàn)階段國內(nèi)外圖書館領域用戶畫像研究主要以技術為主,主要包括了兩個層次,即User Persona和User Profile,使用的算法模型大致可分為3大類:
(1)基于概率主題的用戶文本建模推斷模型;
(2)基于排序的啟發(fā)式函數(shù)推斷模型;
(3)基于分類器結合特征工程的預測模型。
Gauch S等將用戶畫像描述為一組加權標簽、概念層次結構或語義網(wǎng)的集合,包括用戶基本素養(yǎng)、文化水平、社會背景、社交情況、工作情況、可支配時間等因素[1]。Zaugg H認為圖書館的空間與服務的設計應該關注用戶需求,可以借鑒營銷領域和產(chǎn)品設計中用戶畫像的應用,進行圖書館空間與服務的設計[2]。國內(nèi)曾建勛認為圖書館精準服務需要用戶畫像,用戶畫像可以更好地認識網(wǎng)絡中的用戶、改善網(wǎng)絡信息組織、發(fā)現(xiàn)信息傳播規(guī)律[3]。胡媛認為數(shù)字圖書館知識社區(qū)用戶畫像可分為讀者基本信息、用戶興趣愛好、用戶活躍度三類標簽模型,提出了數(shù)字圖書館知識社區(qū)綜合服務能力評價指標體系[4]。
現(xiàn)階段國內(nèi)圖書館領域用戶畫像研究主要以個案研究為主,針對具體不同應用場景和目標,構建不同用戶畫像模型,針對科學數(shù)據(jù)管理場景的用戶畫像研究目前還非常少。本文綜合心理學、信息學等多學科知識,從科學數(shù)據(jù)用戶畫像概念和內(nèi)涵分析出發(fā),構建用戶數(shù)據(jù)驅(qū)動相結合的科學數(shù)據(jù)用戶畫像模型和系統(tǒng),深入探討用戶畫像在科學數(shù)據(jù)管理領域的應用。
用戶畫像的目的是通過對特定行為群體特征的總結和提煉,為精準化服務提供量化支撐。因此,用戶畫像對目標用戶群體邊界的界定越明確,畫像結果越有針對性。在科學數(shù)據(jù)管理中,學術行為和學科背景對科研用戶群體邊界的界定產(chǎn)生重要影響,導致科研用戶群體邊界處于動態(tài)變化中,原因有兩個:
(1)科研人員跨學科研究行為越來越頻繁,所跨學科對象也處于動態(tài)變化中;
(2)科研人員研究方向也處于變化當中。
用戶畫像關注的是“典型用戶”而不是“平均用戶”,其結果具有明顯的區(qū)分度和針對性,可以更精準地識別特定用戶的動機及行為偏好。在科學數(shù)據(jù)管理中,科研用戶畫像有效性體現(xiàn)在對目標用戶群體的用戶屬性特征的提煉與總結。
典型用戶畫像屬性包括靜態(tài)屬性和動態(tài)屬性。靜態(tài)屬性是相對穩(wěn)定的用戶信息,如人口屬性、職業(yè)等;動態(tài)屬性是用戶不斷變化的信息,如場景、媒介、路徑等。在科學數(shù)據(jù)管理中,科研用戶畫像解決的是知識服務的精準化問題,關注的焦點和最后的評價不是“我是否提供了您需要的信息”,而是“是否通過我的服務解決了您的問題”。因此,科學數(shù)據(jù)用戶屬性應突出知識的特性,可劃分為靜態(tài)屬性、動態(tài)屬性和知識屬性。
圖1
圖2
科研人員的學科背景一般相對固定,但是隨著跨學科研究的開展和研究方向的不斷變化,科研人員往往需要具備多學科知識,需要不斷了解新領域,補充新知識以支撐其研究活動。因此,科研用戶知識屬性的核心(學科背景)相對穩(wěn)定,但其外延一直處于動態(tài)變化中,即一種半動態(tài)化狀態(tài)。
科學數(shù)據(jù)用戶知識屬性可分為外知識屬性和內(nèi)知識屬性兩類。外知識屬性是指外部環(huán)境作用于個體身上的各種與知識有關的元素集合,包括:學歷學位、畢業(yè)院校、學術職務、學術兼職、參加學術團體、專業(yè)職稱、學術榮譽等。內(nèi)知識屬性是指個體自身具有的各種與知識有關的元素集合,參照顯性知識與隱性知識的概念,可分為內(nèi)在顯性知識屬性和內(nèi)在隱性知識屬性。內(nèi)在顯性知識屬性包括:研究領域、學術專長、著作論文、非正式成果等。內(nèi)在隱性知識屬性包括:心智水平、文化素養(yǎng)、學術思想、學術影響力等??蒲杏脩舻闹R屬性蘊含著較多的語義信息,需要在標簽基礎上引入語義表達。
不同的時間、地點、研究階段等知識場景下,用戶需求會有差異。例如:撰寫論文時,會關注當前研究熱點;而教學時,更想要梳理出該學科的知識體系。同時,用戶心理狀態(tài)不同,其知識需求也存在差異。例如:剛進入新研究領域時,一般對研究工作持樂觀心理;隨著研究的深入,會出現(xiàn)困惑或迷茫,心理上會變得焦慮,體現(xiàn)在行為上就是大量盲目地學習和收集資料;度過失望期之后,心理上才會逐步的平穩(wěn)。這種心理和情感上的變化可以通過社會心理學進行分析。
用戶畫像建模就是構建用戶標簽體系,可分為結構化標簽體系和非結構化標簽體系兩類。非結構化標簽體系彼此之間無層級關系,各個標簽反應各自的用戶興趣,不僅能夠涵蓋結構化標簽體系,更能細致地表達語義上的分類,如資源發(fā)現(xiàn)系統(tǒng)中的關鍵詞、學術社區(qū)中的文檔主題模型(Topic Model)等??茖W數(shù)據(jù)用戶非結構化標簽體系可分為四個層級:即事實標簽、模型標簽、預測標簽和業(yè)務標簽。每上層標簽都由下層標簽抽象計算組合生成,其中業(yè)務層標簽需要人工進行定義。如圖1所示。
用戶的靜態(tài)屬性反映著用戶的基本情況,是連接線上和線下的紐帶,定義函數(shù)表示其在一定場景下對標簽的影響權重,則公式如下:
同理,可以推導出用戶動態(tài)屬性在一定場景下對標簽的影響權重
本文從科學數(shù)據(jù)用戶畫像內(nèi)涵出發(fā),對科學數(shù)據(jù)用戶影響因素進行分析,最后構建了科學數(shù)據(jù)用戶畫像模型和系統(tǒng)。其中的重難點有兩個:
(1)多源異構數(shù)據(jù)導致數(shù)據(jù)融合困難,必須設計合適的降維方法、特征選擇方法、模型融合方法;
(2)數(shù)據(jù)稀疏性較高導致屬性特征組合困難。這將是下一步研究的重點。