• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)字圖書(shū)館用戶畫(huà)像建模與應(yīng)用實(shí)踐*

      2020-04-07 04:09:02張潔仲躋亮岳怡然寇遠(yuǎn)濤
      數(shù)字圖書(shū)館論壇 2020年3期
      關(guān)鍵詞:畫(huà)像標(biāo)簽數(shù)字

      張潔 仲躋亮 岳怡然 寇遠(yuǎn)濤,3

      用戶與服務(wù)

      數(shù)字圖書(shū)館用戶畫(huà)像建模與應(yīng)用實(shí)踐*

      張潔1仲躋亮1岳怡然2寇遠(yuǎn)濤1,3

      (1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 中國(guó)農(nóng)業(yè)科學(xué)院研究生院,北京 100081;3. 農(nóng)業(yè)農(nóng)村部大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)

      本文將用戶畫(huà)像引入數(shù)字圖書(shū)館各項(xiàng)服務(wù)的用戶興趣模型構(gòu)建過(guò)程中,在對(duì)比國(guó)內(nèi)外用戶畫(huà)像概念基礎(chǔ)上引申出數(shù)字圖書(shū)館領(lǐng)域用戶畫(huà)像概念,通過(guò)國(guó)內(nèi)外圖書(shū)館用戶畫(huà)像研究現(xiàn)狀歸納出數(shù)字圖書(shū)館用戶畫(huà)像建設(shè)思路。從理論層面詳細(xì)闡述模型設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘與標(biāo)簽映射3項(xiàng)關(guān)鍵步驟,之后遵循以上建設(shè)步驟以國(guó)家農(nóng)業(yè)圖書(shū)館知識(shí)服務(wù)用戶為研究對(duì)象開(kāi)展用戶畫(huà)像建模及管理實(shí)踐,以期為后續(xù)的研究探索提供參考。

      數(shù)字圖書(shū)館;用戶畫(huà)像;數(shù)據(jù)建模

      Edwards等[1]通過(guò)研究發(fā)現(xiàn),1945年以后,科研產(chǎn)出量每九年可翻一番,此外計(jì)算機(jī)、通信、網(wǎng)絡(luò)及存儲(chǔ)技術(shù)的高速發(fā)展,催生了科研產(chǎn)出數(shù)字出版的新業(yè)態(tài)。數(shù)字圖書(shū)館容納的電子資源數(shù)量、類(lèi)型和知識(shí)內(nèi)容空前增長(zhǎng)。海量資源衍生出知識(shí)冗余及知識(shí)迷航問(wèn)題,知識(shí)消費(fèi)者的獲得感低。新形勢(shì)下,通過(guò)對(duì)科研用戶精細(xì)刻畫(huà),實(shí)現(xiàn)用戶需求與館藏資源的精準(zhǔn)匹配,優(yōu)化數(shù)字圖書(shū)館知識(shí)服務(wù)形式成為突出問(wèn)題。用戶畫(huà)像作為數(shù)字化、虛擬化描述真實(shí)用戶的技術(shù)手段,可整合用戶資源,從動(dòng)態(tài)增長(zhǎng)的用戶行為日志中挖掘用戶的場(chǎng)景域、資源域及服務(wù)域需求。將其應(yīng)用于數(shù)字圖書(shū)館領(lǐng)域用戶建模,一方面可充分釋放館藏資源價(jià)值,促進(jìn)圖書(shū)館各項(xiàng)服務(wù)增值;另一方面,可準(zhǔn)確把握用戶脈搏,提升圖書(shū)館智能化、個(gè)性化服務(wù)水平。同時(shí),近年來(lái)用戶畫(huà)像在電商、智慧出行等智能信息服務(wù)領(lǐng)域的成功應(yīng)用,也為數(shù)字圖書(shū)館領(lǐng)域提供了相對(duì)成熟的技術(shù)應(yīng)用經(jīng)驗(yàn)及成功案例[2]。

      1 圖書(shū)館用戶畫(huà)像概述

      1.1 概念界定

      圖書(shū)館及信息學(xué)界對(duì)用戶畫(huà)像的概念界定目前尚不統(tǒng)一。用戶畫(huà)像這一概念最早源于交互設(shè)計(jì)/產(chǎn)品設(shè)計(jì)領(lǐng)域,交互設(shè)計(jì)之父Cooper[3]于2004年提出了用戶畫(huà)像概念,并指出用戶畫(huà)像是真實(shí)用戶的虛擬代表,是建立在真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型。陳慧香等[4]認(rèn)為用戶畫(huà)像是建立在一系列真實(shí)數(shù)據(jù)之前的描述用戶需求和偏好的目標(biāo)用戶模型,該模型可全方位、立體化地反映用戶特征。胡媛等[5]認(rèn)為數(shù)字圖書(shū)館將知識(shí)社區(qū)用戶信息抽象化并運(yùn)用聚類(lèi)、關(guān)聯(lián)規(guī)則及分類(lèi)等數(shù)據(jù)挖掘方法匯制所得的用戶可視化畫(huà)像即為用戶畫(huà)像。陳冬玲等[6]將用戶畫(huà)像稱(chēng)為“user profile”,認(rèn)為其是用戶興趣的描述文件,是用戶個(gè)性化需求的體現(xiàn),是個(gè)性化搜索的基礎(chǔ)設(shè)施。總之,由于總體設(shè)計(jì)思路及實(shí)現(xiàn)技術(shù)的不同,不同學(xué)者對(duì)用戶畫(huà)像的理解各有側(cè)重。

      筆者引入互聯(lián)網(wǎng)用戶行為分析領(lǐng)域用戶畫(huà)像概念,擬通過(guò)用戶行為信息標(biāo)簽化以實(shí)現(xiàn)數(shù)字圖書(shū)館用戶畫(huà)像的構(gòu)建。筆者認(rèn)為數(shù)字圖書(shū)館用戶畫(huà)像主要指面向真實(shí)讀者用戶,以用戶的靜態(tài)屬性(人口統(tǒng)計(jì)特征、科研屬性特征、空間和地理特征等)和動(dòng)態(tài)屬性(訪問(wèn)行為、資源檢索及獲取行為、學(xué)術(shù)社交行為、學(xué)術(shù)成果發(fā)表行為等)數(shù)據(jù)為基礎(chǔ),綜合應(yīng)用文本挖掘、機(jī)器學(xué)習(xí)等方法提煉出的具有顯著特征的用戶標(biāo)簽集合,該標(biāo)簽集合應(yīng)該是關(guān)聯(lián)、無(wú)歧義并且富含語(yǔ)義的。

      1.2 國(guó)內(nèi)外研究現(xiàn)狀

      以“圖書(shū)館用戶畫(huà)像”作為檢索詞搜索谷歌學(xué)術(shù)相關(guān)主題中文文獻(xiàn),得到800余條檢索結(jié)果,發(fā)文時(shí)間在2010年之后。以“l(fā)ibrary user profile”作為檢索詞搜索谷歌學(xué)術(shù)外文文獻(xiàn),檢索結(jié)果數(shù)達(dá)百萬(wàn)余條,最早文獻(xiàn)發(fā)表時(shí)間可追溯至20世紀(jì)50年代。由此可見(jiàn),國(guó)外相關(guān)研究起步較早,在理論及實(shí)踐探索層面已相對(duì)成熟和完善,國(guó)內(nèi)用戶畫(huà)像的研究在互聯(lián)網(wǎng)產(chǎn)業(yè)的帶動(dòng)下開(kāi)始成為熱點(diǎn),目前國(guó)內(nèi)發(fā)文主要處于理論研究和前期探索階段,實(shí)踐層面研究成果相對(duì)較少。按照建模的數(shù)據(jù)對(duì)象來(lái)劃分,用戶畫(huà)像包含基于用戶行為及基于科研產(chǎn)出兩類(lèi)方法。

      基于用戶行為的畫(huà)像構(gòu)建方面,Leung等[7]通過(guò)搜集搜索引擎日志中的正向與反向反饋為目標(biāo)用戶畫(huà)像并完成聚類(lèi)分析。國(guó)家圖書(shū)館在其大數(shù)據(jù)項(xiàng)目中通過(guò)匯總讀者的注冊(cè)、到館、搜索、借閱等系列行為數(shù)據(jù),搭建HadoopMap Reduce大數(shù)據(jù)管理與計(jì)算框架,構(gòu)建了包括三級(jí)標(biāo)簽的讀者畫(huà)像[8]。

      基于科研產(chǎn)出的畫(huà)像構(gòu)建方面,美國(guó)加州圣瑪麗學(xué)院圖書(shū)館研究并設(shè)計(jì)了PlumX管理工具,該工具以學(xué)者興趣領(lǐng)域的科研產(chǎn)出為對(duì)象,構(gòu)建可視化學(xué)者畫(huà)像以響應(yīng)本??蒲泄芾響?zhàn)略[9]。Gu等[10]以學(xué)者的研究成果為分析對(duì)象,設(shè)計(jì)MagicFG算法,以出版成果數(shù)據(jù)為對(duì)象從中抽取學(xué)者基本信息,挖掘?qū)W者研究興趣,并構(gòu)建了Aminer研究者學(xué)術(shù)搜索網(wǎng)站。

      綜上可知,基于用戶行為的建模方法受限于用戶行為數(shù)據(jù)的離散性;基于科研產(chǎn)出的建模方法則更聚焦于學(xué)術(shù)興趣,無(wú)法兼顧行為模式研究。筆者以國(guó)家農(nóng)業(yè)圖書(shū)館各項(xiàng)知識(shí)資源內(nèi)容及應(yīng)用服務(wù)用戶群體為研究對(duì)象,綜合使用基于用戶行為及興趣偏好的方法開(kāi)展學(xué)術(shù)用戶的畫(huà)像建模,以期從行為模式、使用場(chǎng)景及學(xué)術(shù)興趣多維度刻畫(huà)目標(biāo)用戶。

      2 數(shù)字圖書(shū)館用戶畫(huà)像建模

      數(shù)字圖書(shū)館用戶畫(huà)像建模是指面向各類(lèi)數(shù)字圖書(shū)館服務(wù)場(chǎng)景,抽象用戶描述標(biāo)簽體系,此外綜合使用多種渠道獲取可信用戶數(shù)據(jù)集,選取數(shù)據(jù)挖掘模型及算法實(shí)現(xiàn)標(biāo)簽抽取與映射,支撐對(duì)各類(lèi)用戶的精準(zhǔn)描述與可視化呈現(xiàn)。整體技術(shù)路線如圖1所示,主要包括模型設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘與標(biāo)簽映射3部分工作,用戶畫(huà)像可為開(kāi)展畫(huà)像可視化、資源評(píng)價(jià)、個(gè)性化推薦及精準(zhǔn)推送等系列個(gè)性化服務(wù)提供支持。

      2.1 用戶畫(huà)像模型設(shè)計(jì)

      信息識(shí)別是用戶畫(huà)像構(gòu)建的重要內(nèi)容,其核心工作就是給用戶貼“標(biāo)簽”,標(biāo)簽通常是高度凝練的用戶特征標(biāo)識(shí),將所有的標(biāo)簽綜合起來(lái),就可以勾勒出該用戶的畫(huà)像。

      根據(jù)數(shù)字圖書(shū)館業(yè)務(wù)特點(diǎn),筆者將畫(huà)像標(biāo)簽分為固定屬性、訪問(wèn)環(huán)境、忠誠(chéng)度及研究興趣4類(lèi),共計(jì)16個(gè)維度,具體標(biāo)簽體系如表1所示。其中,固定屬性是對(duì)用戶基礎(chǔ)特征的描述,該類(lèi)標(biāo)簽主要用于識(shí)別用戶身份,標(biāo)簽值可直接從用戶注冊(cè)信息或其成果署名信息中獲?。辉L問(wèn)環(huán)境類(lèi)是對(duì)用戶訪問(wèn)場(chǎng)景的描述,主要記錄時(shí)間、地點(diǎn)、硬件設(shè)備及軟件環(huán)境4個(gè)要素,這類(lèi)標(biāo)簽一般需要以多值字段形式來(lái)描述;忠誠(chéng)度類(lèi)描述科研用戶對(duì)數(shù)字圖書(shū)館服務(wù)的黏性及認(rèn)可度,通過(guò)訪問(wèn)頻率、訪問(wèn)深度及距離上次訪問(wèn)時(shí)間3個(gè)標(biāo)簽值來(lái)體現(xiàn);研究興趣類(lèi)是數(shù)字圖書(shū)館與其他領(lǐng)域建模不同之處的體現(xiàn),該類(lèi)標(biāo)簽描述用戶的學(xué)術(shù)屬性,從關(guān)注學(xué)科主題、資源類(lèi)型、作者及機(jī)構(gòu)多維度表征用戶對(duì)科技知識(shí)資源的偏好。

      2.2 用戶數(shù)據(jù)準(zhǔn)備

      圍繞用戶畫(huà)像標(biāo)簽體系的設(shè)計(jì)框架,搜集圖書(shū)館自身業(yè)務(wù)系統(tǒng)、三方業(yè)務(wù)系統(tǒng)等多種渠道的可信數(shù)據(jù),以此數(shù)據(jù)集作為下一步數(shù)據(jù)標(biāo)簽與標(biāo)簽映射的對(duì)象語(yǔ)料。具體來(lái)說(shuō),用戶數(shù)據(jù)準(zhǔn)備主要包括數(shù)據(jù)獲取及入庫(kù)存儲(chǔ)兩部分工作。

      用戶畫(huà)像基礎(chǔ)數(shù)據(jù)集由用戶靜態(tài)基本屬性、動(dòng)態(tài)行為數(shù)據(jù)和科研成果數(shù)據(jù)3部分組成,以上3類(lèi)數(shù)據(jù)均以結(jié)構(gòu)化數(shù)據(jù)為主。其中,用戶靜態(tài)基本屬性主要包括用戶標(biāo)識(shí)、姓名、電子郵箱、性別和工作機(jī)構(gòu)等信息,這些信息相對(duì)較好采集,通常采用系統(tǒng)直接導(dǎo)入的方式。動(dòng)態(tài)行為數(shù)據(jù)主要包括用戶紙質(zhì)與電子資源的查找、檢索及借閱行為,項(xiàng)目立項(xiàng)的查新查引需求、學(xué)術(shù)社交網(wǎng)站的互動(dòng)行為等數(shù)據(jù),這類(lèi)數(shù)據(jù)較為分散,主要通過(guò)鎖定信息來(lái)源后應(yīng)用網(wǎng)絡(luò)爬蟲(chóng)和日志記錄技術(shù)進(jìn)行提取。其中用戶日志記錄的采集主要包括WEB日志、JavaScript標(biāo)記(代碼埋點(diǎn)方式)和包嗅探器3種方式。相比而言,JavaScript標(biāo)記方式收集數(shù)據(jù)靈活,可定制性強(qiáng);可以記錄緩存、代理服務(wù)器訪問(wèn);對(duì)訪問(wèn)者行為追蹤更為準(zhǔn)確[11]。科研成果數(shù)據(jù)主要包括用戶作為科技創(chuàng)新主體的科研項(xiàng)目、論文、專(zhuān)利及獲獎(jiǎng)成果等各類(lèi)成果描述信息,該類(lèi)數(shù)據(jù)可從機(jī)構(gòu)知識(shí)庫(kù)及成果數(shù)據(jù)庫(kù)中對(duì)應(yīng)抽取。

      對(duì)應(yīng)數(shù)據(jù)類(lèi)型特點(diǎn)及標(biāo)簽描述需要,預(yù)先為上述3類(lèi)信息設(shè)計(jì)元數(shù)據(jù)描述與存儲(chǔ)規(guī)范。圖2展示了包括以上3類(lèi)數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)描述模型[12],該模型設(shè)計(jì)了通用容器和用戶描述容器兩類(lèi)數(shù)據(jù)描述集合,通用容器類(lèi)主要包括管理通用、主題、學(xué)科、責(zé)任機(jī)構(gòu)、責(zé)任者5類(lèi)公共描述元素,用戶描述容器類(lèi)主要包括用戶基本屬性、用戶行為、用戶行為情景及用戶成果4類(lèi)用戶描述元素。后者將在描述目標(biāo)對(duì)象時(shí)直接引用通用容器中各類(lèi)描述元素。遵循上述各類(lèi)元數(shù)據(jù)描述規(guī)范,綜合考慮數(shù)據(jù)管理工具的安全性及穩(wěn)定性,選取合適的數(shù)據(jù)庫(kù)管理工具并設(shè)計(jì)定時(shí)冷備份機(jī)制來(lái)完成原始數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫(kù)到大數(shù)據(jù)存儲(chǔ)工具的備份。

      2.3 數(shù)據(jù)挖掘與標(biāo)簽映射

      數(shù)據(jù)挖掘與標(biāo)簽映射階段主要以用戶描述模型為依據(jù),設(shè)計(jì)標(biāo)簽挖掘計(jì)算模型及規(guī)則,從各類(lèi)用戶數(shù)據(jù)集中對(duì)應(yīng)挖掘并抽取用戶標(biāo)簽值,設(shè)計(jì)標(biāo)簽管理流程,實(shí)現(xiàn)標(biāo)簽值提取、規(guī)范化、標(biāo)引及存儲(chǔ)等系列操作,并支持個(gè)性化服務(wù)對(duì)各類(lèi)畫(huà)像標(biāo)簽的靈活調(diào)用。該管理流程主要包括標(biāo)簽值提取、自動(dòng)映射及標(biāo)準(zhǔn)化存儲(chǔ)3個(gè)關(guān)鍵步驟,見(jiàn)圖3。具體來(lái)說(shuō),標(biāo)簽抽取是指按照標(biāo)簽值是否直接可見(jiàn)將用戶描述標(biāo)簽分為兩類(lèi),遵循對(duì)應(yīng)數(shù)據(jù)模型并基于ETL工具實(shí)現(xiàn)標(biāo)簽值抽取。自動(dòng)映射是指完成標(biāo)簽值的去重、合并、消歧歸一等系列規(guī)范化處理并生成最終標(biāo)簽值,以實(shí)現(xiàn)自動(dòng)化批量標(biāo)引的過(guò)程。需要去重及合并處理的主要為訪問(wèn)瀏覽器、設(shè)備、訪問(wèn)時(shí)段、訪問(wèn)地點(diǎn)等多值類(lèi)標(biāo)簽;需要消歧歸一的主要為研究領(lǐng)域、興趣作者及興趣機(jī)構(gòu)等可能存在同義詞、中外文對(duì)照詞及別名等多值類(lèi)標(biāo)簽。標(biāo)準(zhǔn)化存儲(chǔ)規(guī)范是為了兼顧單值標(biāo)簽與多值標(biāo)簽的存儲(chǔ)要求同時(shí)滿足前端多項(xiàng)個(gè)性化服務(wù)模式對(duì)畫(huà)像數(shù)據(jù)的靈活調(diào)用,設(shè)計(jì)了索引的存儲(chǔ)規(guī)范,并選擇以Solr、ES為代表的索引管理工具實(shí)現(xiàn)用戶畫(huà)像標(biāo)簽庫(kù)的索引構(gòu)建及調(diào)用響應(yīng)。

      4類(lèi)標(biāo)簽中,固定屬性類(lèi)、訪問(wèn)環(huán)境類(lèi)及忠誠(chéng)度類(lèi)標(biāo)簽大都屬于顯性標(biāo)簽,隱性標(biāo)簽則主要包括跨渠道用戶標(biāo)識(shí)、研究興趣及興趣實(shí)體的標(biāo)簽值確定,下面詳細(xì)介紹以上3項(xiàng)隱性標(biāo)簽挖掘的實(shí)現(xiàn)思路。

      (1)跨渠道用戶標(biāo)識(shí)打通。數(shù)字圖書(shū)館用戶在科技創(chuàng)新的全生命周期中會(huì)用到包括聯(lián)合檢索、參考咨詢、館際互借、查新查引及成果認(rèn)證等多個(gè)圖書(shū)館服務(wù)平臺(tái),此外,這些用戶也會(huì)使用包括Research Gate、LinkedIn等在內(nèi)的第三方學(xué)術(shù)社交平臺(tái)來(lái)跟蹤國(guó)內(nèi)外同行的最新研究和成果,因此用戶畫(huà)像的數(shù)據(jù)來(lái)源包括來(lái)自數(shù)字圖書(shū)館本地及第三方的多個(gè)平臺(tái),為實(shí)現(xiàn)對(duì)目標(biāo)用戶的數(shù)據(jù)化建模,需要集合多渠道用戶行為數(shù)據(jù),完成標(biāo)識(shí)間的打通串聯(lián),實(shí)現(xiàn)單用戶跨系統(tǒng)用戶行為的關(guān)聯(lián)。目前跨渠道用戶標(biāo)識(shí)打通主要基于id-mapping算法,以包括MAC(Media Access Control)、Android ID、IDFA、手機(jī)號(hào)碼及電子郵箱等終端訪問(wèn)及信息標(biāo)識(shí)為關(guān)聯(lián)依據(jù),為不同訪問(wèn)途徑下記錄下了不同ID?;贗D間的共現(xiàn)關(guān)系,該算法將不同ID進(jìn)行路徑鏈接,這些相連路徑則可被認(rèn)定為同一位用戶。

      (2)研究領(lǐng)域識(shí)別。研究領(lǐng)域識(shí)別是指綜合行為模式及科研成果,識(shí)別圖書(shū)館用戶所關(guān)注的研究主題。因此,該過(guò)程可轉(zhuǎn)化為對(duì)用戶歷史互動(dòng)數(shù)據(jù)的文本集合進(jìn)行主題挖掘,其中歷史互動(dòng)數(shù)據(jù)包括檢索詞、借閱書(shū)目及文獻(xiàn)等。目前文本主題挖掘的實(shí)現(xiàn)方法按照是否需要先驗(yàn)知識(shí)可以分為文獻(xiàn)計(jì)量及概率主題模型兩類(lèi)方法,前者以基于關(guān)鍵詞的詞頻分析方法和共詞分析方法為代表,后者以LDA、DMM、BTM、CTM等潛在主題信息挖掘方法為代表,此外隨著詞向量模型的應(yīng)用優(yōu)勢(shì),結(jié)合深度學(xué)習(xí)思想的概率主題模型也在近幾年嶄露頭角[13]。

      (3)興趣實(shí)體識(shí)別。同領(lǐng)域?qū)<覍W(xué)者和專(zhuān)業(yè)機(jī)構(gòu)也是用戶在使用數(shù)字圖書(shū)館各項(xiàng)信息與知識(shí)服務(wù)過(guò)程中重點(diǎn)關(guān)注的命名實(shí)體類(lèi)型。對(duì)于數(shù)字圖書(shū)館各項(xiàng)服務(wù)來(lái)說(shuō),用戶具有多角色屬性,一方面是各類(lèi)科技信息資源的消費(fèi)者,另一方面作為專(zhuān)家學(xué)者也是各類(lèi)科技信息資源的供應(yīng)者。故此,可以從用戶資源使用行為及成果發(fā)表行為兩類(lèi)數(shù)據(jù)中識(shí)別用戶興趣專(zhuān)家及機(jī)構(gòu)標(biāo)識(shí)。用戶資源使用行為中,根據(jù)用戶資源檢索、查閱各類(lèi)資源的描述文本,抽取責(zé)任作者、責(zé)任機(jī)構(gòu)等信息,根據(jù)不同操作行為的質(zhì)量權(quán)重,進(jìn)行加權(quán)求和。根據(jù)求和結(jié)果降序排列,抽取規(guī)定閾值數(shù)目的作者及機(jī)構(gòu)名單作為目標(biāo)用戶興趣專(zhuān)家及機(jī)構(gòu)標(biāo)簽值。用戶成果發(fā)表行為中,抽取目標(biāo)用戶的合作發(fā)文作者及機(jī)構(gòu)網(wǎng)絡(luò),將閾值范圍內(nèi)的合作專(zhuān)家及機(jī)構(gòu)補(bǔ)充作為該用戶的興趣作者和興趣機(jī)構(gòu)標(biāo)簽值。

      3 國(guó)家農(nóng)業(yè)圖書(shū)館用戶畫(huà)像實(shí)踐探索

      國(guó)家農(nóng)業(yè)圖書(shū)館研建了農(nóng)業(yè)科技信息資源共建共享平臺(tái),該平臺(tái)以整合知識(shí)檢索及獲取為核心,為農(nóng)業(yè)及相關(guān)學(xué)科的科研主體提供知識(shí)資源發(fā)現(xiàn)及多渠道全文供給。筆者以該系統(tǒng)及其用戶群體為對(duì)象,遵循第2章所述用戶畫(huà)像模型,完成用戶行為數(shù)據(jù)準(zhǔn)備工作,研發(fā)用戶畫(huà)像管理工具,該工具支持對(duì)用戶畫(huà)像的可視化展示及標(biāo)簽化維護(hù)。

      3.1 用戶數(shù)據(jù)準(zhǔn)備

      通過(guò)對(duì)系統(tǒng)用戶使用邏輯的分析梳理,筆者確定了該系統(tǒng)用戶畫(huà)像所需的基礎(chǔ)數(shù)據(jù)體系,主要包括用戶基本屬性、科研屬性、訪問(wèn)行為、知識(shí)資源檢索行為、知識(shí)資源獲取行為及知識(shí)資源瀏覽行為6類(lèi)信息,具體記錄字段如圖4所示。其中,右側(cè)2類(lèi)屬于靜態(tài)信息,可直接從用戶注冊(cè)信息表中獲得;左側(cè)4類(lèi)屬于動(dòng)態(tài)信息,使用JavaScript標(biāo)記方式實(shí)現(xiàn)對(duì)4類(lèi)動(dòng)態(tài)信息的記錄及實(shí)時(shí)入庫(kù)。

      適應(yīng)上述各類(lèi)數(shù)據(jù)的來(lái)源及數(shù)據(jù)規(guī)范,設(shè)計(jì)數(shù)據(jù)實(shí)時(shí)傳輸、解析及入庫(kù)規(guī)則,以結(jié)構(gòu)化形式存儲(chǔ)在數(shù)據(jù)表中,構(gòu)建完成的用戶行為數(shù)據(jù)集主要包括用戶屬性表、訪問(wèn)場(chǎng)景表、關(guān)鍵行為表,其中關(guān)鍵行為表又包含資源檢索、資源瀏覽及資源獲取3類(lèi)子表。以資源檢索為例,圖5展示了資源檢索行為中檢索時(shí)間、檢索詞及資源類(lèi)型等關(guān)鍵字段的記錄代碼及已記錄數(shù)據(jù)示例。

      3.2 畫(huà)像管理實(shí)踐

      以農(nóng)業(yè)科技信息資源共建共享平臺(tái)用戶行為數(shù)據(jù)集為基礎(chǔ)語(yǔ)料,對(duì)應(yīng)固定屬性、訪問(wèn)環(huán)境、忠誠(chéng)度和研究興趣4類(lèi)標(biāo)簽體系,完成對(duì)應(yīng)屬性值抽取及標(biāo)注。為實(shí)現(xiàn)對(duì)數(shù)字圖書(shū)館用戶畫(huà)像的可視化及標(biāo)簽體系管理,筆者構(gòu)建了用戶畫(huà)像管理工具,該工具為數(shù)字圖書(shū)館的用戶運(yùn)營(yíng)管理提供綜合看板、標(biāo)簽管理及用戶畫(huà)像呈現(xiàn)等系列功能。

      綜合看板以雷達(dá)圖標(biāo)形式集中展示所有用戶的農(nóng)業(yè)知識(shí)服務(wù)訪問(wèn)情況,并支持從PV、UV、搜索量、停留時(shí)間、下載量、注冊(cè)時(shí)間等多個(gè)維度自定義排序篩選用戶訪問(wèn)情況,頁(yè)面示例如圖6。

      標(biāo)簽管理是通過(guò)標(biāo)簽組定義、標(biāo)簽增刪改等功能提供對(duì)用戶畫(huà)像標(biāo)簽體系的維護(hù)及集中式管理。使用該管理功能,按照標(biāo)簽組添加、標(biāo)簽名添加、標(biāo)簽值管理的流程,實(shí)現(xiàn)農(nóng)業(yè)科技信息資源共建共享平臺(tái)用戶的畫(huà)像標(biāo)簽體系自定義維護(hù)與管理。

      用戶畫(huà)像呈現(xiàn)是基于數(shù)據(jù)建模及可視化技術(shù),實(shí)現(xiàn)對(duì)包括用戶基本情況、綜合訪問(wèn)表現(xiàn)、用戶標(biāo)簽及歷史搜索關(guān)鍵詞的整合顯示,以真實(shí)用戶為例,使用畫(huà)像管理工具對(duì)其畫(huà)像數(shù)據(jù)進(jìn)行可視化展示,頁(yè)面效果見(jiàn)圖7。

      4 結(jié)語(yǔ)

      用戶畫(huà)像為數(shù)字圖書(shū)館科研用戶的數(shù)字化建模提供了有效解決途徑,可有力支持?jǐn)?shù)字圖書(shū)館各項(xiàng)知識(shí)資源的采購(gòu)、編目及組織工作從粗放型運(yùn)營(yíng)逐漸過(guò)渡到精細(xì)化運(yùn)營(yíng),并在此基礎(chǔ)上為包括信息過(guò)濾、知識(shí)服務(wù)設(shè)計(jì)等系列個(gè)性化知識(shí)服務(wù)模式提供基礎(chǔ)數(shù)據(jù)及決策支撐。

      國(guó)家農(nóng)業(yè)圖書(shū)館引入用戶畫(huà)像思想,結(jié)合業(yè)務(wù)需求構(gòu)建了用戶畫(huà)像理論模型,基于已有用戶基礎(chǔ)初步實(shí)踐了用戶標(biāo)簽化建模,構(gòu)建了用戶畫(huà)像管理工具,支持對(duì)標(biāo)簽體系的維護(hù)及畫(huà)像的可視化呈現(xiàn),為數(shù)字圖書(shū)館用戶精細(xì)化管理提供抓手。然而標(biāo)簽批量標(biāo)引及隱性標(biāo)簽挖掘?qū)崿F(xiàn)等方面的研究相對(duì)薄弱,下一步應(yīng)針對(duì)性地開(kāi)展相應(yīng)工作,一方面提升用戶描述標(biāo)簽的準(zhǔn)確性,另一方面提升用戶畫(huà)像管理工具的易用性。

      [1] EDWARDS M A,ROY S. Academic research in the 21st century:Maintaining scientific integrity in a climate of perverse incentives and hypercompetition[J]. Environmental engineering science,2017,34(1):51-61.

      [2] 張銳. 基于動(dòng)態(tài)精準(zhǔn)畫(huà)像的圖書(shū)館個(gè)性化推薦服務(wù)研究[J]. 情報(bào)探索,2019,256(2):102-105.

      [3] COOPER A. The Inmates are Running the Asylum:Why High-Tech Products Drive Us Crazy and How to Restore the Sanity[M].Indianapolis:Sams Publishing,2004.

      [4] 陳慧香,邵波. 國(guó)外圖書(shū)館領(lǐng)域用戶畫(huà)像的研究現(xiàn)狀及啟示[J]. 圖書(shū)館學(xué)研究,2017(20):16-20.

      [5] 胡媛,毛寧. 基于用戶畫(huà)像的數(shù)字圖書(shū)館知識(shí)社區(qū)用戶模型構(gòu)建[J]. 圖書(shū)館理論與實(shí)踐,2017(4):82-85.

      [6] 陳冬玲,王大玲,于戈. 支持個(gè)性化檢索的User Profile研究綜述[J]. 小型微型計(jì)算機(jī)系統(tǒng),2008,29(10):1903-1907.

      [7] LEUNG K W,LEE D L. Deriving concept-based user profiles from search engine logs[J]. IEEE Transactions on Knowledge and Data Engineering,2010,22(7):969-982.

      [8] 楊帆. 畫(huà)像分析為基礎(chǔ)的圖書(shū)館大數(shù)據(jù)實(shí)踐——以國(guó)家圖書(shū)館大數(shù)據(jù)項(xiàng)目為例[J]. 圖書(shū)館論壇,2019,39(2):58-64.

      [9] WONG E Y,VITAL S M. PLUMX:a tool to showcase academic profile and distinction[J]. Oclc Systems & Services,2017,33(4):305-313.

      [10] GU X T,YANG H,TANG J,et al. Profiling web users using big data[J]. Social Network Analysis and Mining,2018,8(1):24.

      [11] zolalad. 網(wǎng)站分析數(shù)據(jù)(即用戶行為數(shù)據(jù))的三種收集方式詳解[EB/OL].[2019-07-15]. https://blog.csdn.net/zolalad/article/details/37809165.

      [12] 趙瑞雪,鮮國(guó)建,羅婷婷,等. 中國(guó)工程科技知識(shí)中心元數(shù)據(jù)規(guī)范(Ⅰ)[M]. 北京:中國(guó)農(nóng)業(yè)科學(xué)技術(shù)出版社,2017:16.

      [13] 黃佳佳,李鵬偉,彭敏,等. 基于深度學(xué)習(xí)的主題模型研究[J/OL]. 計(jì)算機(jī)學(xué)報(bào):1-30[2019-11-29]. http://kns.cnki.net/kcms/detail/11.1826.TP.20191030.1633.004.html.

      Digital Library User Profile Modeling and Application

      ZHANG Jie1ZHONG JiLiang1YUE YiRan2KOU YuanTao1,3

      ( 1. Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China; 2. Graduate School of Chinese Academy of Agricultural Sciences, Beijing 100081, China; 3. Key Laboratory of Big Agri-data of Ministry of Agriculture and Rural Areas, Beijing 100081, China )

      This paper introduces user profile into the digital library user interests modeling. Based on the comparison of domestic and foreign user profile concepts, it gives out the concept of user porfile in the field of digital library. Through the analysis of application status at home and abroad, it summarizes construction route of digital library user profile. The three key steps of model design, data preparation, data mining and label mapping are elaborated theoretically. Then taking the National Agricultural Library knowledge service user as an example, this paper carries out profile modeling and management practices in order to provide reference ideas for subsequent research and exploration.

      Digital Library; User Profile; Data Modeling

      G252

      10.3772/j.issn.1673-2286.2020.03.007

      (2020-03-13)

      *本研究得到中國(guó)農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程項(xiàng)目(編號(hào):CAAS-ASTIP-2016-AII)、中國(guó)工程科技知識(shí)中心建設(shè)子項(xiàng)目(編號(hào):CKCEST-2019-1-1)和中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所基本科研業(yè)務(wù)費(fèi)青年探索項(xiàng)目(編號(hào):JBYW-AII-2019-21)資助。

      張潔,女,1991年生,碩士,館員,并列第一作者,研究方向:數(shù)字圖書(shū)館構(gòu)建關(guān)鍵技術(shù)研究。

      仲躋亮,男,1980年生,碩士,助理研究員,并列第一作者,研究方向:信息系統(tǒng)和數(shù)字圖書(shū)館關(guān)鍵技術(shù)研究。

      岳怡然,女,1996年生,碩士研究生,研究方向:用戶畫(huà)像體系及其應(yīng)用場(chǎng)景構(gòu)建研究。

      通信作者,研究方向:信息系統(tǒng)和數(shù)字圖書(shū)館關(guān)鍵技術(shù)研究,E-mail:kouyuantao@caas.cn。

      猜你喜歡
      畫(huà)像標(biāo)簽數(shù)字
      威猛的畫(huà)像
      “00后”畫(huà)像
      畫(huà)像
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車(chē)迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      答數(shù)字
      數(shù)字看G20
      標(biāo)簽化傷害了誰(shuí)
      基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
      成雙成對(duì)
      邛崃市| 延边| 特克斯县| 赫章县| 金昌市| 什邡市| 赤峰市| 南开区| 连山| 湟中县| 叶城县| 松滋市| 延庆县| 习水县| 芜湖市| 乐陵市| 莎车县| 克东县| 额尔古纳市| 依安县| 深圳市| 龙南县| 古田县| 吉林省| 孟村| 彝良县| 寿宁县| 包头市| 冕宁县| 友谊县| 平远县| 武冈市| 清水河县| 大埔区| 丰城市| 兰州市| 浦江县| 黄大仙区| 汶上县| 交城县| 定结县|