• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于學(xué)術(shù)論文的共同研究興趣人員的推薦

      2021-08-26 03:29:36張智強(qiáng)侯愛琴杜娜娜甘大廣
      物聯(lián)網(wǎng)技術(shù) 2021年8期
      關(guān)鍵詞:配置文件余弦相似性

      張智強(qiáng),侯愛琴,杜娜娜,甘大廣

      (1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127;2.北京萬方軟件股份有限公司,北京 100038)

      0 引 言

      目前海量文獻(xiàn)資料大多數(shù)是通過數(shù)字圖書、電子文檔的形式獲取,為信息共享提供方便的同時(shí),可能會(huì)導(dǎo)致信息過載。各種推薦系統(tǒng)是解決信息過載的一種有效方法。推薦系統(tǒng)根據(jù)用戶之前的行為信息發(fā)現(xiàn)其需求,從而對(duì)用戶感興趣的信息進(jìn)行推送[1]。其中,協(xié)同過濾推薦算法是目前應(yīng)用于各電商最廣泛的個(gè)性化推薦算法。基于用戶行為信息的協(xié)同過濾算法可有針對(duì)性地推薦新的項(xiàng)目,因此得到了廣泛應(yīng)用[2]。然而,該類算法僅考慮到用戶間評(píng)分信息,卻忽略了用戶本身的屬性特點(diǎn),存在很多局限性,很難保證推薦質(zhì)量。新用戶的冷啟動(dòng)、數(shù)據(jù)稀疏性和推薦準(zhǔn)確性依舊是目前亟待解決的難題。綜上,本文提出一種基于用戶特征的共同研究興趣人員的混合推薦算法。

      1 相關(guān)工作

      1.1 協(xié)同過濾

      在協(xié)同過濾領(lǐng)域,Herlocker[3]和Breese都為協(xié)同過濾(Collaborative Filtering, CF)算法的評(píng)估提供了概述和框架。除了原來的K近鄰算法[4]之外,還有很多算法被提出并用于協(xié)同過濾。其中包括基于項(xiàng)目的算法和基于模型的算法[5],如貝葉斯網(wǎng)絡(luò)和聚類。

      ReferralWeb將協(xié)同過濾、搜索、社交網(wǎng)絡(luò)相結(jié)合,創(chuàng)建了一個(gè)推薦系統(tǒng),在一個(gè)已經(jīng)存在的社交網(wǎng)絡(luò)中,將具有共同興趣的人推薦給彼此。筆者的工作是在ReferralWeb基礎(chǔ)上做了擴(kuò)展,探索了將CF直接應(yīng)用到社交網(wǎng)絡(luò)的方法。

      大多數(shù)CF應(yīng)用領(lǐng)域推薦的條目彼此之間的關(guān)系相關(guān)性不大,而研究論文方面的推薦,論文之間存在復(fù)雜的引用關(guān)系網(wǎng)絡(luò)。要成功地將CF應(yīng)用到這個(gè)領(lǐng)域,需要對(duì)算法進(jìn)行修改,以有效地解釋引文網(wǎng)絡(luò)數(shù)據(jù)。

      1.2 引文索引

      自動(dòng)引文索引可提供一種通過引文鏈接檢索文獻(xiàn)的方式,ResearchIndex能夠快速創(chuàng)建一個(gè)計(jì)算機(jī)科學(xué)論文的大型在線引文網(wǎng)絡(luò)。通過使用協(xié)同過濾等技術(shù),可以大大提高如ResearchIndex這樣的引文索引系統(tǒng)的檢索速度。

      Woodruf等人提出一種推薦算法,可以融合文本和引文數(shù)據(jù)進(jìn)行推薦。這種混合過濾算法結(jié)合了語義信息和協(xié)同信息,在研究論文領(lǐng)城有很大的應(yīng)用潛力。單獨(dú)使用研究論文引文,忽略研究論文的內(nèi)容進(jìn)行推薦,可能會(huì)導(dǎo)致不正確的結(jié)果。例如,一些研究人員在參考文獻(xiàn)部分引用了一篇論文,卻沒有在論文的主要內(nèi)容中實(shí)際使用它們。

      1.3 引文作者網(wǎng)絡(luò)

      利用學(xué)術(shù)論文的參考文獻(xiàn),可以創(chuàng)建反映學(xué)者之間研究興趣相關(guān)性的引文網(wǎng)絡(luò)。多年來,圖書館員和信息專業(yè)人員一直在研究學(xué)術(shù)論文作者之間關(guān)聯(lián)網(wǎng)絡(luò)的創(chuàng)建和索引方法[6-7]。

      Waleed Reafee等人提出一種推薦引用的方法。他們的方法是應(yīng)用協(xié)同過濾(CF)方法,通過研究論文之間的引用創(chuàng)建一個(gè)作者之間引用關(guān)系圖表。這些數(shù)據(jù)可以映射到CF的框架中,并用于克服冷啟動(dòng)問題。Caragea等在假設(shè)論文作者具有一定背景知識(shí)的前提下,使用奇異值分解(Singular Value Decomposition, SVD)來提供更好的引文推薦。然而,為了體現(xiàn)作者的背景知識(shí),用戶需要準(zhǔn)備與作者的研究主題相關(guān)的引文的初始集合。

      2 基于學(xué)術(shù)論文的共同研究興趣人員推薦算法

      為了更好地利用用戶本身的屬性特點(diǎn),本文使用用戶過去發(fā)表的論文及其引文以檔案的形式為用戶背景建模,并利用信任關(guān)系的可傳遞性,通過直接信任和間接信任兩種方式為研究人員推薦相似用戶,幫助其找到與自己研究興趣相同的研究者。其算法流程如圖1所示。

      圖1 基于學(xué)術(shù)論文的共同研究興趣人員推薦流程

      2.1 建立用戶配置文件向量

      首先將研究人員分為初級(jí)研究人員和高級(jí)研究人員,這是因?yàn)檫@兩種類型的研究人員的論文列表的特性不同。初級(jí)研究人員為只有少量發(fā)表的論文,尚未引證(即沒有引文);高級(jí)研究人員是指有大量論文發(fā)表且已被引證。

      本文利用論文的摘要及其引文網(wǎng)絡(luò),來建立該論文的引用文檔。用戶配置文件的表示是基于以特征向量表示的論文。每個(gè)研究人員發(fā)表的每一篇論文,都將轉(zhuǎn)化成一個(gè)個(gè)特征向量,如下:

      式中TF(tk, p)是p中tk項(xiàng)出現(xiàn)的頻率。因?yàn)檠芯咳藛T發(fā)表的論文數(shù)量較少,可能會(huì)對(duì)IDF評(píng)分的計(jì)算產(chǎn)生不利影響,所以采用TF而不采用標(biāo)準(zhǔn)的TF-IDF方案。

      基于論文特征向量fp的集合,可以通過每個(gè)研究人員發(fā)表的論文與其引文、參考文獻(xiàn)來構(gòu)建初級(jí)研究人員和高級(jí)研究人員的配置文件。

      本文采用余弦相似度作為論文之間的權(quán)重。根據(jù)式(1),分別讓fu和fv作為論文u和論文v的特征向量。然后根據(jù)式(3)可以計(jì)算出2個(gè)向量之間的相似性sim(fu, fv)作為論文之間的權(quán)重wpu→v。

      這種方法通過強(qiáng)調(diào)其引文與參考文獻(xiàn)之間的相似性增強(qiáng)了研究人員論文中的信息。

      (1)初級(jí)研究人員配置文件向量

      本文選取只有一篇論文發(fā)表的初級(jí)研究人員,且該論文尚未被引證(即沒有引文,只有參考文獻(xiàn))。根據(jù)文獻(xiàn)[8],初級(jí)研究人員配置文件向量Puser的定義如下:

      (2)高級(jí)研究人員配置文件向量

      根據(jù)以上分析,計(jì)算高級(jí)用戶配置文件向量Puser,公式如下:

      2.2 基于信任關(guān)系的相似興趣用戶推薦

      信任度是指在為用戶做推薦時(shí),其他用戶的參考程度。對(duì)一個(gè)用戶越信任,其參考程度越大;若兩個(gè)用戶屬性比較相近,則可以認(rèn)為其喜好具有較高的相似性。因此,本文考慮基于用戶信任關(guān)系的相似性構(gòu)建用戶信任網(wǎng)絡(luò)。結(jié)合信任關(guān)系的推薦系統(tǒng)可以有效地緩解傳統(tǒng)協(xié)同過濾算法中存在的數(shù)據(jù)稀疏問題,并為每個(gè)用戶提供可信且準(zhǔn)確的推薦。信任度分為直接信任度和間接信任度。直接信任度表示有直接關(guān)聯(lián)的用戶相似性,間接信任度表示沒有直接關(guān)聯(lián)卻存在相似度的用戶相似性[9]。

      2.2.1 直接信任推薦

      直接信任是指兩個(gè)用戶在某些行為方面表現(xiàn)為直接相關(guān),并且通過直接相關(guān)的行為對(duì)對(duì)方產(chǎn)生直接信任關(guān)系。具體過程為:利用二分K-Means算法對(duì)用戶聚類,可以得到所選用戶的候選用戶集群,再利用Top-K算法,選取與該用戶相似性較高的前K個(gè)用戶作為最佳用戶進(jìn)行推薦,如圖2所示。

      圖2 直接信任關(guān)系模型

      2.2.2 間接信任推薦

      間接信任是指兩個(gè)用戶沒有直接關(guān)系,而根據(jù)信任的傳遞性,信任從一個(gè)用戶傳遞到下一個(gè)用戶,經(jīng)過不止一次的傳遞到達(dá)指定的用戶,兩個(gè)用戶之間需要其他用戶的搭橋后才能信任傳遞。設(shè)用戶u和用戶v沒有直接信任度,但用戶u和用戶w有直接信任度,用戶w和用戶v有直接信任度,那么就可以說用戶u和用戶v通過用戶w建立了間接信任關(guān)系。

      圖3 間接信任關(guān)系模型

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本實(shí)驗(yàn)采用科技情報(bào)大數(shù)據(jù)挖掘與服務(wù)系統(tǒng)平臺(tái)AMiner中的數(shù)據(jù)集,選用其中的DBLP-Citation-network V11數(shù)據(jù)集,包含4 107 340篇論文和36 624 464條引用關(guān)系。為建立用戶配置文件、獲得準(zhǔn)確的推薦結(jié)果提供了保障。

      本文獲得萬方數(shù)據(jù)的支持,通過數(shù)據(jù)接口選取其中的30位用戶及其引文網(wǎng)絡(luò)作為本文的測(cè)試數(shù)據(jù)集并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。

      3.2 評(píng)價(jià)指標(biāo)

      本文研究人員相似度計(jì)算采用了余弦相似度計(jì)算公式,如下:

      式中Pu,Pv分別為用戶u、用戶v的配置文件向量。

      3.3 實(shí)驗(yàn)結(jié)果

      本文分別采用AMiner數(shù)據(jù)集和萬方數(shù)據(jù)進(jìn)行直接信任和間接信任兩種方式的推薦,兩個(gè)數(shù)據(jù)集實(shí)驗(yàn)結(jié)論一致。下面以AMiner數(shù)據(jù)集為例進(jìn)行實(shí)驗(yàn)說明。

      3.3.1 初級(jí)研究人員推薦

      (1)直接信任推薦

      隨機(jī)選取了數(shù)據(jù)集中的15位初級(jí)研究人員(只有一篇最近發(fā)表的論文,尚未引證,即沒有引文),并為其生成配置文件。對(duì)每一位研究者,采用直接信任方式分別計(jì)算了前3位、5位、7位、10位相似研究者的余弦相似度,如圖4所示。

      圖4 直接信任研究者(初級(jí))間余弦相似度

      從圖中可以看出,隨著推薦相似研究人員的增多,研究人員間的相似性也越來越低。研究者4推薦的前3位研究人員和前5位研究人員,經(jīng)過查證都只發(fā)表了一篇論文且均為這篇文章的共同作者,所以相似度為1。

      (2)間接信任推薦

      對(duì)間接信任方式,實(shí)驗(yàn)中仍采用上述直接信任實(shí)驗(yàn)選取的數(shù)據(jù)集中的15位初級(jí)研究人員,根據(jù)信任可以在信任網(wǎng)絡(luò)中傳播的原理,分別取傳遞距離為3,5,7,10,15,20進(jìn)行了對(duì)比實(shí)驗(yàn)。間接信任研究者間余弦相似度實(shí)驗(yàn)結(jié)果如圖5所示。

      圖5 間接信任研究者(初級(jí))間相似度

      從圖中可以看出,信任傳遞距離越遠(yuǎn),研究人員間的相似性越低。在推薦研究人員從3位增長(zhǎng)到5位時(shí),相似度驟減,這也是因?yàn)閷?duì)初級(jí)研究者推薦的研究人員中,前3位可能是同一篇文章的共同作者,前5位由于間接信任傳遞距離的增長(zhǎng)相似度降低。對(duì)任意一個(gè)用戶,間接信任與直接信任方式相比,推薦人數(shù)相同的情況下,間接信任研究人員間的相似性略低于直接信任。此外,隨著間接信任傳遞距離的增長(zhǎng),其相似性降低幅度較小。

      3.3.2 高級(jí)研究人員推薦

      本文選取數(shù)據(jù)集中發(fā)表文章相對(duì)較多的15位高級(jí)研究人員(有一系列論文,過去發(fā)表的論文有被引證),并根據(jù)研究人員最近5年論文列表為其生成配置文件并通過二分K-Means算法對(duì)用戶進(jìn)行聚類。大量研究指出:使用研究者最近5年的論文列表基本可代表該研究者的研究方向。如果使用該作者的全部論文列表,則向量會(huì)很大,而且其研究方向可能有改變;而如果使用較少的論文列表則不能更好地代表其研究方向。

      (1)直接信任推薦

      取數(shù)據(jù)集中發(fā)表文章相對(duì)較多的15位高級(jí)研究人員,根據(jù)研究者最近5年的出版物列表生成其配置文件進(jìn)行匹配,直接信任研究人員間的余弦相似度實(shí)驗(yàn)結(jié)果見表1和圖6所列。對(duì)于同一研究者,根據(jù)余弦相似度高低排序進(jìn)行推薦。從圖6中可以看出,隨著推薦人數(shù)的增多,雖然相似性有所下降,但下降的幅度很小??傮w來說,推薦前5位相似研究興趣人員時(shí),比推薦前3位時(shí)的相似度變化值平均僅為2.39%;推薦前7位時(shí),比推薦前3位時(shí)的相似度變化值平均為4.16%;推薦前10位時(shí),比推薦前3位時(shí)的相似度變化值平均為6.18%,其相似度也僅僅平均變化了0.044 2。

      表1 直接信任研究者間相似度表

      圖6 直接信任研究者(高級(jí))間余弦相似度

      (2)間接信任推薦

      仍取上述數(shù)據(jù)集中的15位高級(jí)研究人員,計(jì)算間接信任研究者間余弦相似度見表2及圖7所列。同樣地,對(duì)于同一研究者,按余弦相似度高低排序進(jìn)行推薦。從圖7可見,同一研究者信任傳遞距離越遠(yuǎn),相似性有所下降??傮w來說,推薦前5位相似研究興趣人員時(shí),比推薦前3位時(shí)的相似度變化值平均僅為5.77%;推薦前7位時(shí),比推薦前3位時(shí)相似度變化值平均為8.88%;推薦前10位時(shí),比推薦前3位時(shí)相似度變化值平均為12.4%,其相似度變化平均為0.203 3;推薦前15位時(shí),相似度變化值平均為15.8%,比推薦前3位時(shí)其相似度變化平均僅為0.232 2;推薦前20位時(shí),比推薦前3位時(shí)相似度變化值平均為18.9%,其相似度變化也平均僅為0.294 6。所以,隨著間接信任傳遞距離的增長(zhǎng),雖然相似性在減小,但減小的幅度并不大,這樣就極大地?cái)U(kuò)展了推薦用戶列表。

      表2 間接信任研究者間余弦相似度表

      圖7 間接信任研究者(高級(jí))間余弦相似度

      4 結(jié) 語

      本文使用研究人員過去的論文列表建立用戶配置文件,分別對(duì)初級(jí)研究人員和高級(jí)研究人員通過直接信任和間接信任的方式對(duì)其進(jìn)行相似研究人員的推薦。結(jié)果表明,通過直接信任方式和間接信任方式推薦均可找出相似度高的研究人員,直接信任方式比間接信任方式推薦相似度略高。通過間接信任方式不僅為該研究者找出相似度較高的研究人員,而且能夠極大可能地推薦更多相似興趣的人員。本文基于內(nèi)容的用戶興趣關(guān)系網(wǎng)的推薦方法也緩解了推薦系統(tǒng)的稀疏性和冷啟動(dòng)等問題。

      猜你喜歡
      配置文件余弦相似性
      一類上三角算子矩陣的相似性與酉相似性
      提示用戶配置文件錯(cuò)誤 這樣解決
      淺析當(dāng)代中西方繪畫的相似性
      搭建簡(jiǎn)單的Kubernetes集群
      互不干涉混用Chromium Edge
      忘記ESXi主機(jī)root密碼怎么辦
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      低滲透黏土中氯離子彌散作用離心模擬相似性
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      湘潭市| 新源县| 深泽县| 西华县| 涟源市| 枣庄市| 大余县| 大丰市| 克什克腾旗| 洞头县| 灌云县| 绥芬河市| 长治县| 庄浪县| 利辛县| 荃湾区| 廉江市| 望奎县| 宝鸡市| 乌苏市| 阿勒泰市| 衡山县| 平遥县| 巫山县| 乌兰察布市| 凤山市| 娄底市| 太仓市| 海丰县| 鹤岗市| 沅江市| 怀柔区| 金门县| 金阳县| 巴里| 长武县| 大厂| 建德市| 柳河县| 铁岭市| 昔阳县|