• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      高??蒲匈Y源的個性化融合推薦

      2022-07-28 06:19:56劉冬鄰
      重慶大學(xué)學(xué)報 2022年7期
      關(guān)鍵詞:文檔個性化資源

      劉冬鄰

      (四川外國語大學(xué) 網(wǎng)絡(luò)信息中心,重慶 400031)

      高??蒲幸巡饺搿按髷?shù)據(jù)時代”,各種科研管理系統(tǒng)、科研服務(wù)平臺收集、儲存了海量的科研數(shù)據(jù)和資源文檔[1]。在信息需求越來越個性化的今天,各行業(yè)都嘗試開發(fā)并應(yīng)用基于各種算法和模型的個性化推薦系統(tǒng)。Amazon通過在網(wǎng)站上使用推薦系統(tǒng),對用戶的瀏覽、購買行為進(jìn)行分析,進(jìn)而對曾經(jīng)在該網(wǎng)站有過瀏覽或購買行為的用戶進(jìn)行個性化推薦。據(jù)VentureBeat的統(tǒng)計,采用個性化推薦技術(shù),使得亞馬遜網(wǎng)站的銷售額提高了30%以上,個性化推薦技術(shù)的應(yīng)用也越來越廣[2-3]。

      高校師生在科研活動中檢索科研資源的時間,占整個科研用時的50%以上,相較其他類型用戶,個性化需求也更多樣化、更復(fù)雜[4]。目前,師生獲取科研數(shù)據(jù)和科研資源,主要還是使用基于關(guān)鍵字的信息查詢檢索方式,且國內(nèi)各類科研管理系統(tǒng)和科研數(shù)據(jù)服務(wù)平臺的功能還較單一,無法滿足科研用戶個性化數(shù)據(jù)服務(wù)需求[5-6]。一方面,科研資源信息過載,面對海量科研數(shù)據(jù)用戶卻束手無策,不能方便、快捷地獲得需要的科研資源;另一方面,用戶要清楚知道自己的資源需求并能明確表示出需求,才能使用搜索引擎查找想要的資源。現(xiàn)有的資源檢索或管理系統(tǒng)不能主動把用戶可能感興趣的科研資源推薦給用戶,使得寶貴的科研資源得不到充分利用。在大數(shù)據(jù)背景下,以某外國語大學(xué)為例,針對高校師生復(fù)雜多樣的個性化科研資源需求,探索基于融合推薦的個性化科研資源服務(wù)系統(tǒng)的設(shè)計。

      1 相關(guān)工作

      1.1 科研資源個性化服務(wù)需求

      通過對高??蒲杏脩暨M(jìn)行問卷調(diào)查,總結(jié)出師生們主要的個性化資源服務(wù)需求為:通過輸入自己的研究課題或者論文標(biāo)題,獲得類似的科研項目資源,為自己的科研提供有用的幫助;獲得當(dāng)前本專業(yè)相關(guān)研究方向的熱度值較高的科研資源、科研成果,進(jìn)而了解當(dāng)前學(xué)科的主要研究方向;了解學(xué)科同行當(dāng)前所從事的研究課題、研究動態(tài),特別是能獲得一些自己都不曾想到但又感興趣的相關(guān)資源,為自己的研究找尋參考的方向和可以借鑒的思想。

      1.2 融合推薦系統(tǒng)架構(gòu)

      任何單一的推薦策略都不能滿足高校用戶復(fù)雜多樣的個性化需求,因此為PSRSS設(shè)計了融合多種推薦策略的推薦系統(tǒng)架構(gòu),由數(shù)據(jù)層、融合推薦層、應(yīng)用呈現(xiàn)層組成[7-8]。

      數(shù)據(jù)層:由基礎(chǔ)數(shù)據(jù)和對數(shù)據(jù)的處理構(gòu)成?;A(chǔ)數(shù)據(jù)包括用戶信息數(shù)據(jù)、科研資源數(shù)據(jù)、用戶行為等源數(shù)據(jù),科研用戶數(shù)據(jù)主要來自于包含用戶個人基本信息的人事系統(tǒng)數(shù)據(jù)庫;科研資源數(shù)據(jù)主要來自于科研、教改管理系統(tǒng)的用戶科研成果數(shù)據(jù)如科研論文、專著、專利、研究報告、科研項目等;用戶行為數(shù)據(jù)是用戶在使用PSRSS或其他科研系統(tǒng)時的行為日志數(shù)據(jù)。數(shù)據(jù)處理是從業(yè)務(wù)數(shù)據(jù)庫中抽取所需數(shù)據(jù)并進(jìn)行轉(zhuǎn)換、清洗、標(biāo)準(zhǔn)化、融和等預(yù)處理,為推薦引擎提供所需數(shù)據(jù)。

      融合推薦層:該層是個性化服務(wù)系統(tǒng)的核心,在數(shù)據(jù)層提供的數(shù)據(jù)基礎(chǔ)上,構(gòu)建科研用戶特征、科研資源項目特征、用戶與項目、用戶與用戶、項目與項目間的關(guān)系特征。采用熱度推薦、基于User-CF推薦和使用IF-TDF方法的基于項目內(nèi)容的推薦算法,構(gòu)建系統(tǒng)融合推薦引擎,以滿足高??蒲杏脩魪?fù)雜多樣的個性化服務(wù)需求;該層還包括對系統(tǒng)召回項目進(jìn)行排序和過濾的模塊[9-10]。

      應(yīng)用呈現(xiàn)層:根據(jù)應(yīng)用需要,通過不同的形式向用戶呈現(xiàn)推薦的結(jié)果。

      1.3 科研資源大數(shù)據(jù)處理

      PSRSS要存儲和處理的數(shù)據(jù)量都是T級,同時基于對數(shù)據(jù)分布式計算和高吞吐量的處理要求,系統(tǒng)采用Apache的Hadoop大數(shù)據(jù)技術(shù)框架對科研資源大數(shù)據(jù)進(jìn)行存儲和處理,具體處理過程:

      建立數(shù)據(jù)列表:根據(jù)系統(tǒng)需求建立需要的數(shù)據(jù)列表包括數(shù)據(jù)的屬性、數(shù)據(jù)之間的關(guān)系等。

      建立原始數(shù)據(jù)存儲(RDS,raw data stores)和轉(zhuǎn)換后的數(shù)據(jù)存儲(TDS,transformed data strores):物理上通過在Hive上建立2個數(shù)據(jù)庫來實現(xiàn),使得所有數(shù)據(jù)都被分布存儲到HDFS上。

      數(shù)據(jù)抽取:RDS作為具體業(yè)務(wù)系統(tǒng)和PSRSS之間的過渡區(qū),它可以避免對源系統(tǒng)的侵入和性能影響,并為細(xì)節(jié)數(shù)據(jù)查詢提供支持。使用Sqoop把各業(yè)務(wù)系統(tǒng)相關(guān)數(shù)據(jù)抽取到RDS,使用Flume從日志文件中獲取用戶從外網(wǎng)使用科研資源的數(shù)據(jù)。

      數(shù)據(jù)轉(zhuǎn)換與裝載:建立數(shù)據(jù)列表到RDS的映射,根據(jù)融合推薦系統(tǒng)的需要,使用HiveQL腳本對數(shù)據(jù)進(jìn)行轉(zhuǎn)換和處理,包括對數(shù)據(jù)進(jìn)行去重、補(bǔ)全、查錯糾錯、標(biāo)準(zhǔn)化等處理,將數(shù)據(jù)從RDS裝載到TDS中。完成首次的數(shù)據(jù)抽取、轉(zhuǎn)換、裝載(ETL,Extract、Transform、Load)過程后,還需要根據(jù)系統(tǒng)需要定期執(zhí)行數(shù)據(jù)ETL過程,比如按照每天進(jìn)行一次自動化的增量數(shù)據(jù)ETL過程。

      2 科研用戶模型和資源項目模型的構(gòu)建

      建立科研用戶和科研資源項目之間的關(guān)聯(lián),實現(xiàn)個性化推薦服務(wù),推薦系統(tǒng)要經(jīng)過構(gòu)建科研用戶模型和科研資源模型、根據(jù)用戶特征運(yùn)用不同的推薦算法對資源項目進(jìn)行召回計算、向用戶呈現(xiàn)科研資源推薦列表這3個重要步驟[11-12]??蒲杏脩裟P秃涂蒲匈Y源模型決定著PSRSS的輸出。

      2.1 構(gòu)建科研用戶模型

      在PSRSS的用戶模型中包括用戶基本信息和用戶的資源興趣模型,即用戶在使用系統(tǒng)和資源時的一些行為信息,見表1所示。

      表1 個性化科研服務(wù)系統(tǒng)的用戶大數(shù)據(jù)Table 1 User big data of PSRSS

      PSRSS要向用戶推薦他們感興趣的各種科研資源,不僅要記錄用戶對資源項目的具體行為數(shù)據(jù),還要記錄用戶使用PSRSS的行為數(shù)據(jù),如用戶瀏覽某個資源項目內(nèi)容的具體時長,這些行為數(shù)據(jù)將用于項目熱度和用戶興趣模型的更新。

      由于高??蒲杏脩粼谑褂脗€性化科研服務(wù)系統(tǒng)時,往往只專注于所需資源項目的內(nèi)容本身,他們會查詢、瀏覽閱讀、下載獲取,不太會對相應(yīng)項目進(jìn)行主動評價,很難獲得用戶對資源項目的顯式行為記錄。因此,采用隱式的方式,記錄并利用用戶使用PSRSS和資源數(shù)據(jù)庫的行為日志,建立并更新用戶模型。表2為用戶對科研資源行為描述。

      表2 用戶對科研資源行為描述Table 2 Description of users’behavior towards scientific research resources

      本系統(tǒng)用戶模型使用20世紀(jì)70年代由Gerald Salton等提出的VSM(向量空間模型,Vector Space Model)表示,該模型最初用于處理文檔,通過識別并獲取文檔的N個關(guān)鍵字特征以表示文檔,分別為每個特征賦予合適的權(quán)值W,進(jìn)而構(gòu)造一個表示該文檔的特征向量。當(dāng)文檔被表示為文檔空間的向量后,就能計算不同文檔向量間的相似度并據(jù)此度量文檔間的相似性。在PSRSS中,當(dāng)用戶對某個科研資源項目做出某種行為時,其行為值為1,這些行為反映了用戶對資源項目的不同興趣度,賦予每種行為不同的權(quán)值,W1~W3的取值為0~1且權(quán)值總和為1。用戶對科研資源項目的特征行為如表3所示。

      表3 用戶對科研資源行為示例Table 3 Examples of user behavior towards scientific research resources

      根據(jù)用戶使用PSRSS的行為,建立用戶偏好(UP,user preference)模型,模型表達(dá)式為

      式中:rj是編號為j的科研資源項目;pj是用戶對rj的綜合行為偏好值[13-14],可根據(jù)表3設(shè)定的相應(yīng)行為的權(quán)值計算得到。

      2.2 構(gòu)建科研資源模型

      采用基于資源項目內(nèi)容主題模型的資源推薦策略,通過給能反映資源項目主要內(nèi)容特征的主題計算權(quán)值向量,從而使用該向量計算得到資源項目間的相似度,可以比較精確地向用戶推薦其可能感興趣的科研資源。

      高校的主要科研資源類型有科研論文、研究報告、著作、縱向和橫向課題、專利、各種比賽成果等。考慮到進(jìn)行基于科研資源項目內(nèi)容推薦的需要,特別是推薦算法中引入項目時間因素的改進(jìn)設(shè)計,在對科研資源進(jìn)行建模時設(shè)計了包括資源項目ID、資源建立時間、資源長度、資源類型、資源內(nèi)容關(guān)鍵字特征作為科研資源模型的元素,模型表達(dá)式為

      式中:

      1)rtype為科研資源項目的類型,在系統(tǒng)冷啟動階段向用戶做熱度推薦時,將根據(jù)用戶的專業(yè)、研究方向、資源類型提供初始的資源項目推薦,比如向英語學(xué)院研究英語國家文化的教師推薦相應(yīng)類型的論文或其他資源。

      2)rduration是資源項目在系統(tǒng)中發(fā)布后存在的時間,反應(yīng)了資源項目的新舊程度,在推薦過程中,我們要考慮時間因素對用戶興趣度的影響。

      3)rlength為資源項目內(nèi)容長度,目前主要的資源項目,其內(nèi)容形式主要以文本為主,用戶閱讀瀏覽的時間和項目內(nèi)容的長度,共同決定了用戶對該資源項目的興趣度。

      4)k[i]為資源項目標(biāo)題關(guān)鍵字列表,在進(jìn)行基于項目內(nèi)容的推薦時,使用TF-IDF方法從資源標(biāo)題計算得到該資源項目的關(guān)鍵字列表。

      3 算法選擇與優(yōu)化

      3.1 算法選擇

      個性化推薦算法是個性化科研服務(wù)的基礎(chǔ),主要的推薦算法有基于內(nèi)容(content-based)的推薦、基于協(xié)同過濾(collaborative filtering)的推薦、基于關(guān)聯(lián)規(guī)則(association rule-based)的推薦、基于效用(utilitybased)的推薦、基于知識(knowledge-based)的推薦和組合(hybrid)推薦等。

      基于內(nèi)容的推薦是在項目內(nèi)容信息上做出推薦,不需要用戶對項目進(jìn)行顯式評價操作,可通過使用機(jī)器學(xué)習(xí)的方法從描述內(nèi)容特征的事項中,獲取用戶的興趣特征并找到與用戶感興趣的相似內(nèi)容向用戶推薦,可通過增加特征維度的方法來提高該算法的推薦精度。基于內(nèi)容的推薦,不需要大量的用戶-項目評分記錄,可用于新建立的資源項目的推薦,解決項目冷啟動問題。

      協(xié)同過濾推薦算法包括基于用戶的協(xié)同過濾(User-CF)和基于項目的協(xié)同過濾(Item-CF),是一種基于近鄰的推薦算法[15]。在電商商品和圖書館資源推薦時多采用Item-CF,因為用戶在找尋這類物品時的興趣是比較穩(wěn)定的,因此可以向其推薦與當(dāng)前瀏覽物品相似的商品。在PSRSS中,當(dāng)要向用戶推薦有關(guān)本專業(yè)的同行當(dāng)前關(guān)注的科研資源時,科研資源的時效性、專業(yè)性和熱度,比根據(jù)用戶的系統(tǒng)使用日志學(xué)習(xí)得到的興趣更有用。基于用戶的協(xié)同過濾推薦策略還能向用戶推薦可能讓其驚喜的資源項目。

      根據(jù)PSRSS的應(yīng)用場景需要,融合推薦引擎在系統(tǒng)冷啟動階段,采用基于項目熱度的推薦算法,向用戶推薦相關(guān)專業(yè)和研究方向的各類熱度值較高的科研資源;在用戶有了較多的系統(tǒng)使用行為記錄后,選用基于用戶的協(xié)同過濾推薦算法,向用戶推薦有相似興趣的本學(xué)科專業(yè)的同行感興趣的科研資源;當(dāng)用戶收藏、閱讀或下載了某項科研資源時,選用基于內(nèi)容的推薦算法,向用戶推薦與其當(dāng)前感興趣的資源相似的科研資源。

      3.2 算法優(yōu)化

      3.2.1 項目熱度值計算

      用戶剛開始使用PSRSS時,系統(tǒng)是無法向用戶提供個性化服務(wù)的,面臨用戶冷啟動問題,此時采用基于項目熱度的推薦算法,對科研資源基于專業(yè)學(xué)科、研究方向等基本信息進(jìn)行劃分,然后按照項目熱度對科研資源進(jìn)行排序,將熱度值較高項目推薦給感興趣的用戶。

      當(dāng)一個資源項目錄入系統(tǒng)數(shù)據(jù)庫后,就為其初始化一個熱度分H0,項目也就同時進(jìn)入了推薦候選列表,不同科研資源的初始熱度分是不一樣的,可以根據(jù)資源類別并按照作者的專業(yè)水平如專業(yè)職稱等條件,賦予不同資源不同的初始熱度值。隨著資源項目不斷被用戶閱讀、收藏、下載,對應(yīng)地被用戶行為影響的熱度H1不斷增加。還有影響資源熱度的其他因素H2,他們會使資源熱度降低,比如時間因素。常用項目熱度值公式為

      考慮科研項目熱度隨時間呈指數(shù)增長的衰減趨勢,可采用結(jié)合牛頓冷卻定律改進(jìn)后的項目熱度計算公式,來計算資源項目的熱度,為

      式中:H0為項目初始熱度分;H1為用戶行為帶來的熱度增加;H2為隨時間衰減的熱度;T1-T0為項目資源發(fā)布至今的時間長度;k為冷卻系數(shù),根據(jù)具體應(yīng)用實驗調(diào)整。

      3.2.2 項目向量化

      PSRSS的主要推薦內(nèi)容是非結(jié)構(gòu)化的科研資源文檔,不能直接將其映射到向量空間,這些資源的標(biāo)題包含了關(guān)于該資源的核心關(guān)鍵信息,能反映資源的主要內(nèi)容特征,用戶也主要是利用各個資源項目的標(biāo)題信息來對下一步的動作如點(diǎn)開閱讀、收藏、下載或者直接略過,做出決定的。利用TF-IDF算法從項目標(biāo)題提取出項目關(guān)鍵詞,將關(guān)鍵詞的TF-IDF值作為該關(guān)鍵詞的權(quán)值,將包含項目核心特征信息的項目標(biāo)題映射為表示項目的特征向量,用以計算項目之間的相似度[16-17],進(jìn)行基于內(nèi)容的推薦。

      FTF為詞條在文檔中的出現(xiàn)頻率,詞條j在文檔Fi中的出現(xiàn)頻率為

      式中:Cj為詞條j在文檔Fi中出現(xiàn)的次數(shù);為文檔Fi中全部詞條的數(shù)目。

      FIDF為詞條在文檔集合中的區(qū)分能力,對于一個新建的資源項目,詞條j可能在其他文檔中一次也沒有出現(xiàn),因此采用進(jìn)行了平滑處理的FIDF為

      式中:N為所有文檔總數(shù);I(j,Fi)是表示文檔Fi是否包含詞條j的指示函數(shù),若包含則為1,不包含則為0。詞條j在文檔Fi中的FTF-IDF值為

      3.2.3 User-CF推薦的優(yōu)化

      User-CF推薦算法的核心是要構(gòu)建高??蒲杏脩艉涂蒲匈Y源項目的關(guān)系矩陣。根據(jù)用戶是否點(diǎn)擊瀏覽或收藏、下載資源文檔等行為構(gòu)建用戶特征向量,使用綜合用戶偏好值pi作為矩陣項的值,建立用戶和項目關(guān)系矩陣,并用于計算用戶相似度[18]。

      1)時間因素。

      用戶在點(diǎn)擊瀏覽項目內(nèi)容時,閱讀時間的長短反映了其對項目的興趣程度,打開資源一掠而過還是花時間仔細(xì)閱讀,反映出對項目截然不同的興趣程度。使用閱讀時間影響參數(shù)λ對用戶閱讀行為的評分進(jìn)行修正,將用戶u閱讀某個資源項目i的時間表示為Du,i,項目內(nèi)容長度為Si,用戶閱讀過的該類資源的平均長度為Su,用戶閱讀該類資源的平均閱讀耗時為Du,α為常系數(shù),可通過實驗取得合適數(shù)值。得到閱讀時間影響參數(shù)λ為

      2)熱點(diǎn)影響。

      知名專家、教授的科研項目和成果會成為大家都關(guān)注的熱門資源,但并不意味著這些用戶之間就有共同的興趣,因此采用對熱門項目進(jìn)行懲罰的興趣相似度為

      式中:N(u)、N(v)分別表示用戶u和用戶v瀏覽或下載過的科研資源集合;N(i)是對資源項目i有過行為的用戶集合,資源i越熱門,N(i)就越大。

      3)稀疏數(shù)據(jù)的計算。

      通常不同院系、專業(yè)的科研用戶之間并沒有什么交集,所以建立的用戶項目關(guān)系矩陣是一個稀疏矩陣,計算用戶相似度時,很多數(shù)據(jù)沒有必要計算。可通過建立項目到用戶的倒查表,進(jìn)行如下優(yōu)化:

      根據(jù)用戶行為表數(shù)據(jù),建立項目到用戶的倒查表M,表示該項目被哪些用戶產(chǎn)生過行為。

      根據(jù)倒查表M,建立用戶相似度矩陣H。在M中,對每個項目i,設(shè)其對應(yīng)的用戶為a、b,如果用戶a、b同時對項目i產(chǎn)生過行為,在H中更新對應(yīng)位置的元素,H[a,b]=H[a,b]+1,H[b,a]=H[b,a]+1。這樣掃描完一次倒查表M之后,就能計算得到完整的用戶相似度矩陣H。

      4 科研資源的Top-N推薦

      這個階段就是在優(yōu)化根據(jù)應(yīng)用場景需要選擇的推薦算法基礎(chǔ)上,計算用戶對還沒有使用過的科研資源的興趣度,基于用戶興趣度和其他的資源特征,對待推薦資源列表按降序進(jìn)行排序,將列表前面的N項資源推薦給用戶。

      4.1 用戶冷啟動階段

      這個階段,根據(jù)項目的熱度值為用戶進(jìn)行推薦,使用式(4)計算項目熱度值。可以根據(jù)作者專業(yè)職稱級別,為不同用戶設(shè)置不同的權(quán)值如:中級及以下作者權(quán)值為0.6,副高級作者權(quán)值為0.8,正高級及以上作者權(quán)值為1。根據(jù)H1=0.2×收藏次數(shù)+0.4×閱讀次數(shù)×λ+0.4×下載次數(shù),計算用戶行為對項目H1分值的更新。系統(tǒng)啟動階段,可以綜合考慮作者特征和資源特征為每類資源賦予不同的初始熱度值,系統(tǒng)運(yùn)行后,可以結(jié)合每類資源的平均熱度值計算新建項目初始熱度值H0。在此基礎(chǔ)上,結(jié)合項目作者的權(quán)值使用式(4)便可計算出每個資源項目的當(dāng)前熱度值,根據(jù)資源類別對每類資源按熱度降序排序,將與用戶專業(yè)和研究方向相關(guān)的排名靠前的N項各類資源推薦給用戶。

      4.2 用戶協(xié)同過濾推薦

      根據(jù)用戶使用科研資源項目產(chǎn)生的用戶行為數(shù)據(jù),構(gòu)建項目用戶行為倒查表,然后利用式(9)計算用戶相似度矩陣。

      接下來找到和目標(biāo)用戶最相近的K個用戶,同時找到他們喜歡的而用戶還沒有使用過的科研資源項目,根據(jù)用戶興趣度模型得到用戶對未使用過的資源的興趣度

      式中:n為和用戶u相似的用戶總數(shù);Wu,k為利用式(9)計算得到的用戶u和用戶k的相似度;Rk,i為用戶k對項目i的綜合評分,是使用時間影響參數(shù)進(jìn)行修正,計算得到的用戶對項目綜合評分;Pu,i為預(yù)估用戶u對項目i的評分。根據(jù)對候選項目按用戶興趣度值降序排序的結(jié)果,將前面N項資源推薦給用戶。

      4.3 相似資源項目推薦

      文中使用Python的jieba庫作為分詞工具,對資源文檔標(biāo)題進(jìn)行分詞處理,在此基礎(chǔ)上去除停用詞,然后使用TF-IDF方法計算單詞的TF-IDF值,構(gòu)造項目標(biāo)題關(guān)鍵詞向量。

      當(dāng)用戶對某個資源項目進(jìn)行了閱讀、下載等感興趣的操作,系統(tǒng)便根據(jù)當(dāng)前項目的關(guān)鍵詞向量,使用余弦相似度公式(11),計算其與其他該類項目的相似度,然后依據(jù)按項目相似度降序排序的結(jié)果,向用戶做Top-N推薦。

      式中:sim(q,s)為示資源項目q和s的相似度;qi為資源項目q的第i個特征;si為資源項目s的第i個特征;n為資源項目特征向量的維度。由于PSRSS中的科研資源項目一般會進(jìn)行集中更新,因此可以采取一定策略定期離線計算項目標(biāo)題特征向量,甚至提前計算每類科研資源項目間的內(nèi)容相似度,以提高系統(tǒng)運(yùn)行效率。

      5 系統(tǒng)效果評估

      針對系統(tǒng)的融合推薦引擎,使用推薦準(zhǔn)確率作為評價系統(tǒng)推薦效果的評估指標(biāo),主要以用戶使用PSRSS系統(tǒng)產(chǎn)生并存儲在用戶資源項目評分表user_res_items_score數(shù)據(jù)表的數(shù)據(jù)作為實驗數(shù)據(jù)見表4所示,這些數(shù)據(jù)是用戶對科研資源的各種操作記錄如內(nèi)容瀏覽、下載、收藏。該表有用戶數(shù)1 206,資源項目數(shù)8 124,表項即用戶對資源項目操作數(shù)35 215,將科研資源數(shù)據(jù)的80%用作訓(xùn)練集,20%用作測試集并計算系統(tǒng)融合推薦引擎的推薦準(zhǔn)確率。

      表4 用戶資源項目評分表的數(shù)據(jù)示例Table 4 Data example of table user_res_items_score

      針對基于項目熱度和基于項目內(nèi)容的推薦,分別計算了推薦列表長度N為5,8,10,12,15的推薦準(zhǔn)確率,如圖1所示。結(jié)果顯示,在推薦列表長度N為5時有較好準(zhǔn)確率,隨著N的增大,準(zhǔn)確率逐漸下降。當(dāng)N較小時,基于項目熱度的推薦效果更好,這反映出科研用戶對當(dāng)前熱點(diǎn)科研項目的關(guān)注度較高。當(dāng)N繼續(xù)增大后,基于內(nèi)容的推薦效果更好,反映出此時科研的學(xué)科專業(yè)性及用戶對與自己當(dāng)前研究內(nèi)容相關(guān)的科研資源的關(guān)注度,對推薦效果有更大的影響。

      圖1 基于熱度與內(nèi)容相似度推薦Fig.1 Recommendation based on popularity and content similarity

      針對基于User-CF的推薦,分別計算了相似用戶數(shù)K為3、5、8、10、15,N為5時的推薦準(zhǔn)確率如圖2所示,隨著近鄰的增加,推薦準(zhǔn)確率有較明顯改善,在K為8時最好,之后開始下降,反映出由于科研的專業(yè)性,能幫助有效協(xié)同過濾的用戶數(shù)是有限的。

      圖2 基于User-CF的推薦Fig.2 Recommendation based on User-CF

      6 結(jié)束語

      文中調(diào)研了高??蒲杏脩舻目蒲匈Y源個性化服務(wù)需求,設(shè)計了融合推薦系統(tǒng)架構(gòu)。根據(jù)應(yīng)用場景選擇合適的推薦算法并進(jìn)行了針對性的優(yōu)化,考慮閱讀時間長短對用戶興趣度的影響,加入閱讀時間影響因子以修正用戶興趣度值的計算;建立資源項目到用戶的倒查表,解決稀疏數(shù)據(jù)的計算效率問題;在進(jìn)行基于內(nèi)容的推薦時,利用科研用戶的專業(yè)、研究方向等特征進(jìn)行分類、排序,提高推薦的準(zhǔn)確性;利用用戶權(quán)值和時間影響因子計算項目熱度值,并解決了系統(tǒng)冷啟動問題。結(jié)合多種推薦策略,構(gòu)建了融合推薦引擎,提高了推薦效率和推薦準(zhǔn)確率,為個性化科研資源服務(wù)系統(tǒng)的建設(shè)提供了新的參考。

      本研究還可進(jìn)一步挖掘高校科研用戶的大數(shù)據(jù)資源服務(wù)需求,優(yōu)化系統(tǒng)架構(gòu),提高用戶推薦滿意度;為其他系統(tǒng)應(yīng)用設(shè)計API接口,拓展向師生主動推薦科研資源的渠道。

      猜你喜歡
      文檔個性化資源
      基礎(chǔ)教育資源展示
      有人一聲不吭向你扔了個文檔
      一樣的資源,不一樣的收獲
      堅持個性化的寫作
      文苑(2020年4期)2020-05-30 12:35:12
      資源回收
      新聞的個性化寫作
      新聞傳播(2018年12期)2018-09-19 06:27:10
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      上汽大通:C2B個性化定制未來
      基于RI碼計算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      吉林省| 古丈县| 乐陵市| 甘孜| 巴林左旗| 醴陵市| 乡城县| 佛坪县| 闵行区| 钟祥市| 普兰县| 麟游县| 乐亭县| 静安区| 栖霞市| 海丰县| 水富县| 阿图什市| 三江| 元阳县| 正安县| 高州市| 沭阳县| 梨树县| 霍州市| 崇礼县| 崇文区| 册亨县| 宜黄县| 密山市| 伊吾县| 崇左市| 抚松县| 宝鸡市| 阿克陶县| 邹平县| 新平| 枣庄市| 若尔盖县| 上犹县| 宜良县|