陳曉玲李劍鋒付 強
(吉林省科學(xué)技術(shù)信息研究所a.信息資源中心;b.信息技術(shù)支撐中心,長春 130033)
隨著數(shù)字化科技文獻平臺的發(fā)展,對從事提供信息方面服務(wù)工作而言,其服務(wù)的模式和理念對管理者提出了新的要求,服務(wù)方式要以網(wǎng)絡(luò)平臺為主的信息化服務(wù)[1]。科技文獻服務(wù)于廣大用戶的工作存在服務(wù)內(nèi)容的深度和廣度不夠?qū)挿?缺乏用戶服務(wù)細節(jié)化,從而降低服務(wù)質(zhì)量,服務(wù)理念不夠創(chuàng)新,加強“人”的因素及數(shù)據(jù)素養(yǎng)的意識和理念,只有轉(zhuǎn)變和創(chuàng)新科技資源的服務(wù)思想,才能真正提高和完善服務(wù)質(zhì)量[2]?,F(xiàn)階段用戶在使用平臺過程中對數(shù)據(jù)庫的訪問次數(shù)、檢索次數(shù)、瀏覽次數(shù)和下載次數(shù)等方面留下海量的數(shù)據(jù)集,由于海量數(shù)據(jù)集以不同的結(jié)構(gòu)形式分散的存儲在服務(wù)器中,從而使大量的隱性的有價值的用戶信息無法得到有效的利用和挖掘[3]。上述問題直接導(dǎo)致管理部門無法進行高效的決策,管理人員無法為用戶提供高質(zhì)量的服務(wù),因此如何將這些用戶數(shù)據(jù)信息轉(zhuǎn)化為知識服務(wù),為管理部門提供決策依據(jù),科學(xué)指導(dǎo)管理,提高平臺的管理水平和服務(wù)質(zhì)量,將是迫切需要解決的問題。
將數(shù)據(jù)挖掘分析技術(shù)應(yīng)用于平臺共享服務(wù)領(lǐng)域,可根據(jù)用戶下載文獻的歷史數(shù)據(jù)發(fā)現(xiàn)、挖掘數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。挖掘數(shù)據(jù)背后隱藏的信息,預(yù)測用戶的信息需求,掌握用戶下載文獻類型規(guī)律,這是平臺開展個性化服務(wù)的基礎(chǔ)[4]。數(shù)據(jù)挖掘能為平臺管理者進行業(yè)務(wù)處理和信息服務(wù)提供先進的工具,平臺的信息及數(shù)據(jù)庫能得到更深層次的加工,平臺的工作能更有效率,價值管理人員能按照各個用戶的要求或習(xí)慣,為用戶組織更多、更好的有針對性的高質(zhì)量文獻類型信息,提供更多的個性化服務(wù)。進一步豐富平臺的功能,提升平臺信息服務(wù)、知識服務(wù)的績效,使其在助推吉林省創(chuàng)新驅(qū)動發(fā)展中發(fā)揮更大的作用。本研究是當(dāng)前科技文獻發(fā)展的熱點同時也是重點,是科技文獻資源建設(shè)、科技信息服務(wù)發(fā)展的趨勢和方向,其研究成果能立刻應(yīng)用到實際工作中,轉(zhuǎn)化效果顯著。筆者利用平臺的用戶數(shù)據(jù)進挖掘和建立用戶畫像,并在平臺進行功能的開發(fā)與實現(xiàn)。
對用戶行為數(shù)據(jù)集進行預(yù)處理,建立挖掘結(jié)構(gòu)模型,預(yù)測用戶行為,提升用戶服務(wù)績效和滿意度。突破基于用戶的固有數(shù)據(jù)、資源或系統(tǒng)服務(wù)的獲取,以用戶需求目標驅(qū)動,挖掘和發(fā)現(xiàn)知識,為用戶解決實際問題,實現(xiàn)知識的價值增值。為用戶提供高質(zhì)量、符合用戶真正需求的服務(wù)產(chǎn)品。1)根據(jù)用戶初步需求分析,不斷幫助用戶修改需要及用戶反饋,最終獲得知識服務(wù)需求[5];2)解決用戶基本問題,提出合理化的方案和決策;3)貫穿于用戶需求全過程的連續(xù)性、動態(tài)式的系統(tǒng)服務(wù)[6]。對用戶行為數(shù)據(jù)集進行預(yù)處理,建立挖掘結(jié)構(gòu)模型,預(yù)測用戶行為,提升用戶服務(wù)績效和滿意度。
首先采集用戶基本信息、交互信息以及行為信息數(shù)據(jù),進行數(shù)據(jù)預(yù)處理,建立用戶畫像。并經(jīng)過統(tǒng)計、分類、聚類等數(shù)據(jù)挖掘算法,給用戶建立標簽體系和用戶行為模型[7],進一步預(yù)測用戶行為(見圖1)。
圖1 數(shù)據(jù)挖掘在平臺科研用戶行為分析中的應(yīng)用技術(shù)路線圖Fig.1 Application technology roadmap of data mining in platform research user behavior analysis
依托于平臺,截止2020年活躍用戶約1 500人,通過平臺注冊用戶的基本信息以及后臺和日志記錄存儲的用戶行為數(shù)據(jù),從而形成用戶的基礎(chǔ)信息、交互信息和行為信息數(shù)據(jù)集?;A(chǔ)信息數(shù)據(jù)集主要包括性別、年齡、學(xué)歷、工作單位、機構(gòu)類型和學(xué)科領(lǐng)域、地區(qū)等;交互信息數(shù)據(jù)集主要包括對其他用戶資源的評價、收藏和分享等;行為數(shù)據(jù)集主要包括用戶對資源的瀏覽、閱讀、檢索、收藏和評論等產(chǎn)出的所有記錄。
用戶畫像的數(shù)據(jù)源于收集的用戶基本信息、交互信息和行為信息,第1步根據(jù)用戶基本信息、行為數(shù)據(jù)進行用戶“刻畫”[8];第2步對用戶的動態(tài)行為數(shù)據(jù)進行關(guān)聯(lián),完善用戶的畫像,從而達到修正標簽體系[9],這是一個漸近式的循環(huán)過程,最終為所有的用戶打上畫像標簽,進一步精、準、快地分析出用戶行為習(xí)慣、閱讀偏好和關(guān)注熱點等數(shù)據(jù)挖掘信息,以便提供平臺的用戶個性化服務(wù)。
平臺的后臺管理數(shù)據(jù)庫擁有用戶基本信息、交互信息、行為信息的所有數(shù)據(jù)集[10]。在平臺用戶細分過程中主要使用k均值聚類算法,其原理是隨機選取k個對象作為初始的聚類中心,計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離其最近的聚類中心。在對平臺用戶日志信息和文獻數(shù)據(jù)資源進行分析時,要用到文本挖掘相關(guān)算法。常用的文本挖掘算法有基于詞頻的TF-IDF(Term Frequency-Inverse Document Frequency)算法以及基于自然語言理解的LDA(Latent Dirichlet Allocation)算法。1)TF-IDF是一種統(tǒng)計方法,其基本原理是提取出單篇文本/文獻的對應(yīng)關(guān)鍵詞以及權(quán)重值,利于后續(xù)使用[11]。2)LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可用于識別大規(guī)模文檔集或語料庫中潛藏的主題信息。進而對文獻資源按主題及關(guān)鍵詞信息進行分類[12]。
利用上述聚類、文本挖掘等技術(shù)整合用戶數(shù)據(jù),包括注冊用戶基本信息、資源檢索、瀏覽、訪問、收藏、在線時間、資源下載量和資源收藏量等,按照一定的規(guī)則和標準對數(shù)據(jù)進行歸類并量化,對用戶數(shù)據(jù)打標簽處理。再運用歸一化算法,建立用戶標簽特征向量,完成用戶建模。
用戶模型包括單用戶畫像模型和群體用戶畫像模型[13]。群體用戶畫像模型是通過分析機構(gòu)用戶群體行為特征的相似度,如群體用戶的基本屬性、用戶之間交互、用戶對資源需求和服務(wù)評價等的相似度,以及群體用戶瀏覽資源、利用某類資源的相似度等計算得出。相似度度量(Similarity),即計算個體間的相似程度,相似度度量的值越小,說明個體間相似度越小,相似度的值越大說明個體差異越大。平臺用戶畫像框架模型如圖2所示。
圖2 平臺用戶畫像框架模型Fig.2 Platform user portrait framework model
通過上述用戶模型的建立,確定用戶模型特征向量,根據(jù)文獻資源建立特征向量模型,做相似度計算。計算文本相似性,常用的方法是計算向量空間余弦相似度(Cosine Similarity)。余弦相似度的原理是利用向量空間中兩個向量夾角的余弦值,把它作為衡量兩個個體間差異的大小[14]。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫余弦相似性。
通過計算用戶模型特征向量與文獻資源模型特征向量的余弦相似度,按照相似度值從大到小的順序?qū)⒋扑臀墨I資源進行排序,再加入時效性權(quán)值進行二次排序,完成用戶行為預(yù)測及個性化推送[15]。其中時效性權(quán)值計算公式如下
其中S為計算得到的相似度,ξ為時效性權(quán)值調(diào)整系數(shù),t為平臺當(dāng)前時間,t0為文獻資源進入數(shù)據(jù)庫的時間。
首先對平臺審核通過的實名注冊用戶基本屬性和關(guān)注信息進行過濾,其次對用戶在平臺瀏覽、檢索和下載科技資源過程中生成的大量瀏覽記錄進行數(shù)據(jù)挖掘和分析處理,同時剔除繁雜的和不相關(guān)的記錄,最終通過數(shù)據(jù)挖掘算法得出用戶的真正關(guān)注的科技資源信息,如平臺用戶的個人空間中的閱讀記錄實例(見圖3),以時間線的為軸羅列出用戶的文獻閱讀記錄。通過對用戶行為的數(shù)據(jù)挖掘分析,在平臺的首頁中猜你喜歡功能模塊推薦出關(guān)注的熱點文獻(見圖4)。
圖3 平臺用戶閱讀記錄展示Fig.3 Display of reading records of platform users
圖4 平臺首面的猜你喜歡功能Fig.4 Guess what you like from the first side of the platform
根據(jù)前期的需求分析和用戶畫像方法,對用戶行為數(shù)據(jù)集進行預(yù)處理,建立數(shù)據(jù)挖掘結(jié)構(gòu)模型,預(yù)測用戶行為,提升用戶服務(wù)績效和滿意度。同時,通過對用戶行為和特征的大數(shù)據(jù)整理、挖掘和分析,形成精準信息推送的內(nèi)容和推送規(guī)則,使用戶在使用平臺時能無縫融入精準推送服務(wù)中,本研究內(nèi)容在平臺V2.0版本中進行系統(tǒng)設(shè)計開發(fā)和實證運行,其效果已在平臺的使用中得到實證,轉(zhuǎn)化率達到100%。平臺的用戶檢索績效、用戶信息獲取績效,以及用戶科研績效都得到了極大的提升,平臺信息服務(wù)和知識服務(wù)能力切實得到了提升,平臺的支撐和保障作用進一步增強,平臺本身肩負著助推我省創(chuàng)新驅(qū)動發(fā)展、協(xié)同科研攻關(guān)和提升科研績效的使命,完善平臺功能,將更好地發(fā)揮平臺的科技資源支撐和保障作用。