• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于標(biāo)簽計(jì)算的高校圖書館學(xué)者畫像及知識(shí)推薦研究*

      2022-09-01 13:28:50熊太純吳智勤
      圖書館研究 2022年4期
      關(guān)鍵詞:畫像異構(gòu)學(xué)者

      何 勝,熊太純,吳智勤

      (1.江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院,江蘇 常州 213001;2.江蘇理工學(xué)院圖書館,江蘇 常州 213001)

      1 引言

      基于高校圖書館(以下簡(jiǎn)稱高校館)用戶行為數(shù)據(jù),開展學(xué)者畫像和知識(shí)推薦研究,以助力知識(shí)創(chuàng)新,全面促進(jìn)人工智能技術(shù)在高校館應(yīng)用的落地,對(duì)于高校館提升知識(shí)服務(wù)能力、踐行新時(shí)代圖書館人的知識(shí)服務(wù)使命具有重要意義[1]7。

      作為用戶畫像領(lǐng)域的分支,高校館學(xué)者畫像研究主要面向高校學(xué)者群體,依托高校館基礎(chǔ)數(shù)據(jù)庫,應(yīng)用語義計(jì)算等信息技術(shù)抽取學(xué)者人口和行為等特征標(biāo)簽,構(gòu)建學(xué)者畫像標(biāo)簽?zāi)P?,在此基礎(chǔ)上開展個(gè)性化知識(shí)推薦、群體行為分析和科研趨勢(shì)預(yù)測(cè)等服務(wù)[2]2。

      大數(shù)據(jù)背景下,有關(guān)學(xué)者特征建模、學(xué)者興趣標(biāo)簽庫合理構(gòu)建以及知識(shí)推薦過程中異構(gòu)模型有效融合成為學(xué)者畫像研究的熱點(diǎn)和難點(diǎn)[3]1903。學(xué)者畫像的主要任務(wù)是畫像標(biāo)簽體系構(gòu)建,即應(yīng)用語義計(jì)算技術(shù)開展標(biāo)簽提取、分類和對(duì)齊,構(gòu)建規(guī)范、統(tǒng)一的標(biāo)簽庫;知識(shí)推薦面臨的挑戰(zhàn)是異構(gòu)模型融合,即需要將學(xué)者畫像模型的興趣特征與知識(shí)畫像模型中的關(guān)鍵詞進(jìn)行準(zhǔn)確匹配,從而在學(xué)者興趣與知識(shí)關(guān)鍵詞兩種異構(gòu)標(biāo)簽之間搭建起有效的溝通橋梁,為精準(zhǔn)知識(shí)推薦提供堅(jiān)實(shí)的支撐。

      針對(duì)上述問題,本文提出貫穿畫像建模、標(biāo)簽庫構(gòu)建、異構(gòu)模型融合和畫像應(yīng)用等過程的高校館學(xué)者畫像構(gòu)建及知識(shí)推薦模式,在此基礎(chǔ)上依托高校館學(xué)者借閱數(shù)據(jù)和互聯(lián)網(wǎng)著名平臺(tái)“知乎”知識(shí)庫(https://www.zhihu.com/)進(jìn)行案例分析,著力解決標(biāo)簽庫構(gòu)建和異構(gòu)模型融合難點(diǎn),探索構(gòu)建高校館學(xué)者畫像的有效途徑。

      2 研究回顧

      現(xiàn)階段學(xué)界用戶畫像研究聚焦于畫像模型構(gòu)建和標(biāo)簽技術(shù)應(yīng)用兩個(gè)方面,以下密切結(jié)合圖情領(lǐng)域分析這兩部分研究現(xiàn)狀,總結(jié)近年來高校館學(xué)者畫像研究所取得的成果。

      2.1 用戶畫像模型構(gòu)建

      國內(nèi)外學(xué)界在不同領(lǐng)域的用戶畫像建模和應(yīng)用方面的研究非常踴躍,相關(guān)文獻(xiàn)及綜述較為豐富[1]13,[4]95。例如Son等[5]采用啟發(fā)式的分類模型構(gòu)建Twitter 用戶畫像,并分析用戶轉(zhuǎn)發(fā)決策機(jī)制;Sun 等[6]對(duì)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)中用戶的學(xué)習(xí)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析后,構(gòu)建學(xué)習(xí)者畫像模型,為在線學(xué)習(xí)平臺(tái)內(nèi)容開發(fā)提供指導(dǎo);在高校館用戶畫像建模方面也取得進(jìn)展,如Andres 等[7]將用戶畫像特征庫和專家知識(shí)相融合,開發(fā)學(xué)習(xí)管理系統(tǒng)OntoSakai;于興尚等[8]面向用戶認(rèn)知需求構(gòu)建圖書館用戶畫像模型,開展需求預(yù)測(cè)、個(gè)性化推薦分析應(yīng)用;馮齡萱等[9]應(yīng)用扎根理論構(gòu)建高校館流失用戶畫像模型,并分析高校館用戶流失形成機(jī)制,提出相關(guān)對(duì)策;彭程程等[2]4介紹了一種“智慧校園”學(xué)者畫像系統(tǒng),其數(shù)據(jù)源為某高校的碩博論文數(shù)據(jù)集,致力于分析學(xué)者的學(xué)術(shù)譜系和研究脈絡(luò)。

      2.2 用戶畫像標(biāo)簽技術(shù)應(yīng)用

      用戶畫像核心任務(wù)是用戶標(biāo)簽體系構(gòu)建,即應(yīng)用標(biāo)簽計(jì)算等語義分析技術(shù)開展標(biāo)簽提取、標(biāo)簽庫構(gòu)建和異構(gòu)模型融合等研究,其中標(biāo)簽庫的規(guī)范性有益于提升畫像的精準(zhǔn)度,異構(gòu)模型融合是溝通學(xué)者畫像建模和資源畫像的橋梁,能助力領(lǐng)域應(yīng)用落地。Middleton等[10]在研究學(xué)術(shù)論文推薦時(shí),采用將論文內(nèi)容轉(zhuǎn)化為對(duì)應(yīng)的詞向量標(biāo)簽的語義計(jì)算方法,以準(zhǔn)確匹配用戶畫像和推薦內(nèi)容;Calegari 等[11]融合YAGO 本體庫提取標(biāo)簽,標(biāo)記用戶特征,以提高用戶個(gè)性化檢索的精準(zhǔn)度;唐杰等[12]應(yīng)用分類方法從搜索引擎中檢索學(xué)者主頁,抽取文本信息開展用戶特征標(biāo)注;宋雪雁等[13]以在線網(wǎng)站用戶消費(fèi)行為為基礎(chǔ),構(gòu)建用戶畫像標(biāo)簽體系,提出一種在線網(wǎng)站用戶畫像模型;唐曉波等[14]將主題模型與用戶興趣相融合,構(gòu)建用戶畫像,實(shí)現(xiàn)社區(qū)主題畫像的動(dòng)態(tài)更新;王仁武等[15]在學(xué)術(shù)社區(qū)中抽取用戶的行為特征與興趣關(guān)聯(lián)關(guān)系,提出一種融合用戶行為與興趣傾向的標(biāo)簽構(gòu)建方法。

      國內(nèi)外學(xué)界在研究用戶畫像的過程中,以用戶個(gè)體或群體特征分析、個(gè)性化推薦為目標(biāo),采用語義計(jì)算方法構(gòu)建用戶畫像并開展應(yīng)用研究,取得很大的進(jìn)展,但也存在如下問題:(1)用戶畫像建模角度,主要集中在理論層面,有關(guān)高校館用戶畫像技術(shù)及系統(tǒng)實(shí)踐方面研究較少[4]99,尤其缺乏針對(duì)學(xué)者畫像的案例研究;(2)用戶畫像標(biāo)簽技術(shù)方面,學(xué)界注重研究標(biāo)簽抽取技術(shù),并提出各具特點(diǎn)的標(biāo)簽構(gòu)建方案,但是在如何構(gòu)建規(guī)范統(tǒng)一的標(biāo)簽庫,以及如何有效融合畫像異構(gòu)模型方面鮮有案例[3]1916。

      作為著名UGC 平臺(tái)(User Generated Content,即用戶生成內(nèi)容),“知乎”社區(qū)由于知識(shí)質(zhì)量高、互動(dòng)性強(qiáng),對(duì)專家學(xué)者產(chǎn)生越來越強(qiáng)的黏附力,該平臺(tái)開發(fā)了規(guī)范統(tǒng)一的標(biāo)簽庫,方便異構(gòu)畫像模型的融合。

      綜上所述,本文提出了一種新的學(xué)者畫像及知識(shí)推薦模式,并以高校館學(xué)者行為數(shù)據(jù)和互聯(lián)網(wǎng)“知乎”平臺(tái)的知識(shí)資源為例,充分利用“知乎”平臺(tái)的規(guī)范統(tǒng)一的標(biāo)簽庫,融合學(xué)者興趣特征和知識(shí)特征,開發(fā)了基于標(biāo)簽計(jì)算的高校館學(xué)者畫像及知識(shí)推薦系統(tǒng)。

      3 高校館學(xué)者畫像及知識(shí)推薦模式

      高校館學(xué)者畫像及知識(shí)推薦模式包括“畫像建?!薄皹?biāo)簽庫構(gòu)建”“異構(gòu)模型融合”和“畫像應(yīng)用”四個(gè)部分,如圖1所示。

      圖1 基于標(biāo)簽計(jì)算的高校館學(xué)者畫像及知識(shí)推薦模式

      3.1 畫像建模

      在描述學(xué)者和知識(shí)資源一般性特征的基礎(chǔ)上,以知識(shí)推薦為目標(biāo),畫像建模須突出展現(xiàn)“學(xué)者興趣”特征和“知識(shí)關(guān)鍵詞”特征,本文分別以“學(xué)者興趣”標(biāo)簽和“關(guān)鍵詞”標(biāo)簽作為兩類模型關(guān)聯(lián)的橋梁。

      3.1.1 “學(xué)者畫像”建模

      “學(xué)者畫像”是指對(duì)學(xué)者個(gè)性特征建模。以高校館學(xué)者行為數(shù)據(jù)庫為基礎(chǔ)庫,抽取學(xué)者個(gè)性特征,元數(shù)據(jù)包括“學(xué)者ID”“所屬單位”“學(xué)者專業(yè)”和“學(xué)者興趣”四個(gè)部分,其中“學(xué)者ID”“所屬單位”和“學(xué)者專業(yè)”從高校館學(xué)者行為數(shù)據(jù)庫直接抽取,而“學(xué)者興趣”則從學(xué)者所借閱或?yàn)g覽的書籍(或資料)的題名或分類號(hào)中應(yīng)用語義計(jì)算方法抽取。高校館借閱系統(tǒng)存儲(chǔ)了學(xué)者的個(gè)性化數(shù)據(jù)以及借閱行為數(shù)據(jù),包括“讀者證件號(hào)”“書名”“索書號(hào)”等,從中能夠方便地提取和解析學(xué)者的人口信息和興趣特征。

      3.1.2 “知識(shí)畫像”建模

      “知識(shí)畫像”是指對(duì)知識(shí)內(nèi)容建模。以互聯(lián)網(wǎng)知識(shí)資源為基礎(chǔ)庫,抽取知識(shí)特征,元數(shù)據(jù)包括“知識(shí)ID”“關(guān)鍵詞”“知識(shí)主題”和“知識(shí)創(chuàng)建者”4個(gè)部分,需要結(jié)合互聯(lián)網(wǎng)資源數(shù)據(jù)庫應(yīng)用語義計(jì)算的方法抽取。作為知識(shí)的不竭源泉,來自互聯(lián)網(wǎng)的大量資源為學(xué)者提供了海量的數(shù)據(jù):專業(yè)科研文獻(xiàn)數(shù)據(jù)庫如萬方、知網(wǎng)、國際ScienceDirect 等平臺(tái)上的結(jié)構(gòu)化數(shù)據(jù);搜索引擎如百度、谷歌,以及學(xué)者們常用的微博、微信朋友圈、知乎、科學(xué)網(wǎng)等社交平臺(tái)產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)等,這些數(shù)據(jù)能夠直接購買或利用開發(fā)爬蟲軟件獲取。

      3.2 標(biāo)簽庫構(gòu)建

      標(biāo)簽庫構(gòu)建是用戶畫像的主要內(nèi)容。標(biāo)簽庫是指用層次化且精煉的詞匯描述客體,對(duì)學(xué)科知識(shí)這一客體而言,標(biāo)簽庫須完整準(zhǔn)確地體現(xiàn)該學(xué)科的知識(shí)組織架構(gòu)。由于標(biāo)簽的專業(yè)性強(qiáng),一般可以利用規(guī)范成熟的標(biāo)簽庫(如權(quán)威機(jī)構(gòu)開發(fā)或經(jīng)領(lǐng)域?qū)<覍徍说臉?biāo)簽體系),或者基于海量的互聯(lián)網(wǎng)語料應(yīng)用語義計(jì)算方法(如實(shí)體抽取、分類和對(duì)齊等)構(gòu)建新標(biāo)簽庫,后者的靈活性好,但也存在技術(shù)難度高、工作量大的問題。

      3.3 異構(gòu)模型融合

      異構(gòu)模型融合是溝通學(xué)者畫像和知識(shí)資源畫像的關(guān)鍵環(huán)節(jié)。以底層的同一“畫像標(biāo)簽庫”為基礎(chǔ),對(duì)“學(xué)者畫像”與“知識(shí)畫像”異構(gòu)模型進(jìn)行標(biāo)注,實(shí)現(xiàn)異構(gòu)標(biāo)簽融合。

      一是結(jié)合學(xué)者畫像模型,對(duì)“學(xué)者興趣”元數(shù)據(jù)進(jìn)行標(biāo)注,將每個(gè)學(xué)者的興趣用“畫像標(biāo)簽庫”的術(shù)語進(jìn)行標(biāo)記,構(gòu)建“學(xué)者興趣標(biāo)簽庫”。二是結(jié)合知識(shí)畫像模型,對(duì)“知識(shí)關(guān)鍵詞”進(jìn)行標(biāo)注,將每一條知識(shí)的內(nèi)容用“畫像標(biāo)簽庫”的術(shù)語進(jìn)行標(biāo)記,構(gòu)建“知識(shí)關(guān)鍵詞標(biāo)簽庫”。由于“學(xué)者興趣標(biāo)簽庫”和“知識(shí)關(guān)鍵詞標(biāo)簽庫”擁有共同的“畫像標(biāo)簽庫”,二者的深度融合使得后續(xù)“知識(shí)推薦”應(yīng)用中的“相似度計(jì)算”具備技術(shù)可行性。

      3.4 畫像應(yīng)用

      利用標(biāo)簽相似度計(jì)算方法,對(duì)上述構(gòu)建的“學(xué)者興趣標(biāo)簽庫”和“知識(shí)關(guān)鍵詞標(biāo)簽庫”,計(jì)算“學(xué)者興趣標(biāo)簽”和“知識(shí)關(guān)鍵詞標(biāo)簽”的兩兩相似度,并依據(jù)相似度從高到低排序,開發(fā)知識(shí)推薦系統(tǒng)以展示推薦結(jié)果。

      知識(shí)推薦系統(tǒng)包括以下4 個(gè)模塊:(1)畫像標(biāo)簽管理,根據(jù)知識(shí)資源語義計(jì)算和分析結(jié)果存儲(chǔ)和更新畫像標(biāo)簽庫;(2)學(xué)者畫像管理,結(jié)合畫像標(biāo)簽庫,依托高校館系統(tǒng)數(shù)據(jù)庫的抽取結(jié)果和學(xué)者興趣的分類結(jié)果,自動(dòng)標(biāo)注并更新學(xué)者畫像標(biāo)簽;(3)知識(shí)畫像管理,結(jié)合畫像標(biāo)簽庫,依托知識(shí)資源庫自動(dòng)標(biāo)注并更新知識(shí)畫像標(biāo)簽;(4)知識(shí)推薦模塊,計(jì)算“學(xué)者興趣”和“知識(shí)關(guān)鍵詞”的兩兩相似度,對(duì)其排序并存儲(chǔ),以便將與學(xué)者興趣高相似度的知識(shí)展現(xiàn)給學(xué)者用戶。

      4 案例研究

      密切結(jié)合所提出的高校館學(xué)者畫像和知識(shí)推薦模式,應(yīng)用標(biāo)簽計(jì)算技術(shù)開展案例研究。

      4.1 畫像建模及標(biāo)簽庫構(gòu)建

      4.1.1 高校館學(xué)者數(shù)據(jù)收集

      利用某高校館2019年1月1日—2021年12月31 日共114 597 條借閱數(shù)據(jù),去除學(xué)生借閱數(shù)據(jù),得23 092 條借閱記錄,涉及1 017 位教師,作為學(xué)者畫像建模原始數(shù)據(jù)。

      4.1.2 互聯(lián)網(wǎng)知識(shí)資源收集

      通過自行開發(fā)的爬蟲軟件,選取“知乎”平臺(tái)一級(jí)話題“社會(huì)科學(xué)”中的所有子話題,爬取精華問答?!吧鐣?huì)科學(xué)”的話題包含情報(bào)學(xué)、歷史學(xué)、哲學(xué)、法律、金融學(xué)、心理學(xué)、政治學(xué)等32個(gè)二級(jí)子話題。對(duì)獲取的精華問答清洗并去重后得到522 943 條記錄,保存于Execl 表格,相關(guān)字段有“作者昵稱”“作者ID”“問題主題”“問題ID”“問題描述”“問題標(biāo)簽”“具體內(nèi)容”“回答數(shù)”“發(fā)表時(shí)間”“點(diǎn)贊數(shù)”“評(píng)論人數(shù)”“回答鏈接”等,作為知識(shí)畫像模型的原始數(shù)據(jù)。

      4.1.3 畫像標(biāo)簽庫構(gòu)建

      通過Python函數(shù)對(duì)“知乎”平臺(tái)上獲取的原始數(shù)據(jù)中的“知識(shí)關(guān)鍵詞”分類整理,形成本研究的畫像標(biāo)簽庫?!爸酢逼脚_(tái)及其標(biāo)簽庫具有以下特點(diǎn):(1)擁有海量且專業(yè)的知識(shí)內(nèi)容?!爸酢逼脚_(tái)以問題提出和互動(dòng)問答為主要方式,積聚了海量知識(shí)。由于其產(chǎn)生的知識(shí)質(zhì)量高、更新快、專業(yè)性強(qiáng),受到國內(nèi)學(xué)者的青睞。(2)開發(fā)了成熟且規(guī)范的話題主題詞庫,即本研究中“畫像標(biāo)簽庫”。經(jīng)過“知乎”平臺(tái)專家整體規(guī)劃、合理分類并嚴(yán)格遴選,主題詞庫能夠完整地呈現(xiàn)各領(lǐng)域知識(shí)的層次結(jié)構(gòu)和專業(yè)術(shù)語分類,經(jīng)過10多年的發(fā)展,“知乎”平臺(tái)已經(jīng)形成了較完備的“畫像標(biāo)簽庫”,每一標(biāo)簽都分配唯一的ID,如圖2所示。

      圖2中以“競(jìng)爭(zhēng)情報(bào)”“信息資源”和“數(shù)據(jù)科學(xué)”話題為例,列舉了部分畫像關(guān)鍵詞標(biāo)簽。如對(duì)于“競(jìng)爭(zhēng)情報(bào)”話題,對(duì)應(yīng)關(guān)鍵詞有“競(jìng)爭(zhēng)情報(bào)(20052199)”“情報(bào)機(jī)構(gòu)(19643868)”“情報(bào)學(xué)(19626490)”等,括號(hào)中的數(shù)字為該標(biāo)簽的ID。

      圖2 畫像標(biāo)簽庫構(gòu)建

      4.2 異構(gòu)模型融合

      由于學(xué)者畫像模型與知識(shí)畫像模型異構(gòu)性,基于同一畫像標(biāo)簽庫分別對(duì)“學(xué)者興趣”和“知識(shí)關(guān)鍵詞”進(jìn)行標(biāo)注,完成異構(gòu)模型融合。

      4.2.1 學(xué)者興趣標(biāo)注

      如圖3所示,從高校館借閱數(shù)據(jù)庫中抽取相關(guān)數(shù)據(jù),包括“證件號(hào)”“專業(yè)”“借閱書籍題名”等字段數(shù)據(jù)(見“學(xué)者原始數(shù)據(jù)”部分),對(duì)學(xué)者畫像模型的四個(gè)標(biāo)簽字段進(jìn)行標(biāo)注。其中:“學(xué)者ID”直接來源于“證件號(hào)”元數(shù)據(jù);“學(xué)者單位”是依據(jù)“證件號(hào)”的命名規(guī)則(第5~8位為學(xué)者單位編碼),抽取其中的第5~8 位匹配單位名稱;“學(xué)者專業(yè)”直接來源“專業(yè)”元數(shù)據(jù)。這三部分由Python函數(shù)自動(dòng)完成;“學(xué)者興趣”根據(jù)“借閱書籍題名”的書籍所在的類別,自動(dòng)匹配畫像標(biāo)簽庫的話題標(biāo)簽的類別。如學(xué)者ID 為“1998xxxx32”的用戶,其借閱的“競(jìng)爭(zhēng)情報(bào)與企業(yè)競(jìng)爭(zhēng)力”書籍,系統(tǒng)自動(dòng)分類為“競(jìng)爭(zhēng)情報(bào)”話題,因而將“畫像標(biāo)簽庫”中的“競(jìng)爭(zhēng)情報(bào)”“市場(chǎng)情報(bào)收集與分析”和“情報(bào)學(xué)”等標(biāo)簽標(biāo)注為該學(xué)者的“學(xué)者興趣”特征。

      圖3 學(xué)者興趣標(biāo)注

      4.2.2 知識(shí)關(guān)鍵詞抽取

      如圖4 所示,從“知乎”爬取的原始數(shù)據(jù)中,對(duì)知識(shí)畫像模型的4 個(gè)標(biāo)簽字段進(jìn)行標(biāo)注。其中:“知識(shí)ID”和“知識(shí)主題”分別直接來源于“問題ID”和“問題主題”元數(shù)據(jù);將“知識(shí)創(chuàng)建者”元數(shù)據(jù)標(biāo)注為“作者昵稱(作者ID)”的值;“知識(shí)關(guān)鍵詞”直接來源于“問題標(biāo)簽”元數(shù)據(jù)的值。因?yàn)橄嚓P(guān)標(biāo)簽已經(jīng)嚴(yán)格遴選,可以直接用于標(biāo)注,這也體現(xiàn)了“知乎”平臺(tái)標(biāo)簽庫所特有的應(yīng)用價(jià)值。一般而言,對(duì)某個(gè)知識(shí)體系進(jìn)行全面概括地描述(如構(gòu)建本體)非常費(fèi)時(shí)費(fèi)力,而利用“知乎”平臺(tái)標(biāo)簽庫的關(guān)鍵詞體系,既節(jié)省人力成本,又兼?zhèn)漭^高的可靠性和規(guī)范性。

      圖4 知識(shí)關(guān)鍵詞標(biāo)注

      4.3 標(biāo)簽相似度計(jì)算

      采用簡(jiǎn)明的余弦相似度方法計(jì)算“學(xué)者興趣標(biāo)簽庫”和“知識(shí)關(guān)鍵詞標(biāo)簽庫”的兩兩相似度,標(biāo)簽相似度計(jì)算方法見公式(1)。設(shè)有標(biāo)簽集合A1、A2,式中l(wèi) 為標(biāo)簽集合中對(duì)應(yīng)的標(biāo)簽列表長度,ti1、ti2分別為集合A1、A2中相關(guān)標(biāo)簽的權(quán)重,計(jì)算結(jié)果S(A1,A2)即為A1、A2相似度。

      計(jì)算流程如圖5 所示。 以學(xué)者ID 為1998xxxx32 的“學(xué)者興趣”標(biāo)簽和知識(shí)ID 為359261682的“知識(shí)關(guān)鍵詞”標(biāo)簽為例,計(jì)算二者相似度。首先,將二者標(biāo)簽集合元素唯一化,得到5個(gè)標(biāo)簽列表。其次,統(tǒng)計(jì)每類標(biāo)簽在原來集合中出現(xiàn)的次數(shù)(即詞頻)并寫出標(biāo)簽向量。最后,根據(jù)余弦相似度公式計(jì)算,結(jié)果顯示二者的相似度為0.577。系統(tǒng)對(duì)余弦相似度的值從大到小排序以后,存入數(shù)據(jù)庫。

      圖5 計(jì)算標(biāo)簽相似度

      4.4 知識(shí)推薦系統(tǒng)

      知識(shí)推薦系統(tǒng)如圖6所示。當(dāng)用戶登錄后,系統(tǒng)將與該用戶興趣具有高相似度的知識(shí)(問題)推薦給用戶,如ID 為“1998500032”的用戶登錄后將與其情報(bào)學(xué)領(lǐng)域感興趣的4個(gè)“知乎”問題的鏈接進(jìn)行推薦。由于該用戶標(biāo)簽涉及“競(jìng)爭(zhēng)情報(bào)”“情報(bào)學(xué)”等,知識(shí)推薦系統(tǒng)將“知乎”平臺(tái)上與情報(bào)學(xué)密切相關(guān)且標(biāo)簽相似度高的知識(shí)推薦給該用戶。

      圖6 知識(shí)推薦系統(tǒng)

      5 結(jié)束語

      在圖情領(lǐng)域的學(xué)者畫像和知識(shí)推薦研究中,畫像標(biāo)簽庫的規(guī)范性及學(xué)者畫像和知識(shí)資源畫像的異構(gòu)模型融合一直困擾著學(xué)界。本文抽取互聯(lián)網(wǎng)“知乎”平臺(tái)自行開發(fā)的標(biāo)簽庫,對(duì)學(xué)者興趣進(jìn)行標(biāo)注,從而搭建起高校館學(xué)者畫像和互聯(lián)網(wǎng)資源畫像模型融合的橋梁,借助“知乎”平臺(tái)標(biāo)簽規(guī)范性的優(yōu)勢(shì),以及利用標(biāo)簽相似度計(jì)算等技術(shù)實(shí)現(xiàn)知識(shí)推薦,為高校館大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的交叉融合及實(shí)施提供應(yīng)用案例。

      本文的不足之處及未來工作:(1)在實(shí)踐過程中,學(xué)者畫像的“學(xué)者興趣”存在多個(gè)主題現(xiàn)象。一種可行的解決方案是擴(kuò)充“學(xué)者興趣”標(biāo)簽,并對(duì)標(biāo)簽設(shè)置動(dòng)態(tài)權(quán)重,擴(kuò)充時(shí)考慮學(xué)者興趣多樣、興趣遷移、專業(yè)變化等因素。另外,通過動(dòng)態(tài)統(tǒng)計(jì)分析學(xué)者所借閱的書籍題名和借閱時(shí)間等數(shù)據(jù)確定標(biāo)簽權(quán)重,借此影響相似度計(jì)算結(jié)果,使得其他興趣主題進(jìn)入Top排序,從而在知識(shí)推薦中體現(xiàn)關(guān)聯(lián)多個(gè)興趣主題的推薦結(jié)果。(2)用戶數(shù)據(jù)的實(shí)時(shí)更新對(duì)知識(shí)推薦也將產(chǎn)生影響。這需要及時(shí)更新學(xué)者借閱和知識(shí)資源數(shù)據(jù),并對(duì)增量數(shù)據(jù)開展實(shí)時(shí)相似度計(jì)算,以實(shí)現(xiàn)知識(shí)資源的動(dòng)態(tài)精準(zhǔn)推薦,這些是本文下一步研究的方向。

      猜你喜歡
      畫像異構(gòu)學(xué)者
      威猛的畫像
      學(xué)者介紹
      學(xué)者簡(jiǎn)介
      試論同課異構(gòu)之“同”與“異”
      學(xué)者介紹
      “00后”畫像
      畫像
      學(xué)者介紹
      overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      巴彦淖尔市| 扶余县| 宣威市| 江阴市| 崇义县| 休宁县| 上犹县| 舟曲县| 南和县| 陆川县| 潜江市| 兰坪| 泸定县| 阿拉善左旗| 上林县| 郓城县| 阳城县| 湛江市| 开远市| 屏边| 文安县| 日土县| 合作市| 离岛区| 杭州市| 乌海市| 苗栗市| 望谟县| 蓬溪县| 灵武市| 澜沧| 宕昌县| 卓尼县| 巴中市| 尖扎县| 江门市| 汉寿县| 大厂| 于田县| 阳山县| 秭归县|