劉亞寧,嚴 睿,閆宏飛
(北京大學(xué) 網(wǎng)絡(luò)與信息系統(tǒng)研究所,北京 100871)
基于用戶偏好與語言模型的個性化引文推薦
劉亞寧,嚴 睿,閆宏飛
(北京大學(xué) 網(wǎng)絡(luò)與信息系統(tǒng)研究所,北京 100871)
根據(jù)引文上下文,自動為科研人員推薦備引用的論文列表具有很大的實用價值和研究意義。在科研人員寫作時,一個為引用符自動推薦引文的系統(tǒng),會為科研人員節(jié)省大量的時間。對于引文推薦問題,過去的工作均主要把注意力集中到基于內(nèi)容的研究上。該文認為引文推薦,不能只根據(jù)內(nèi)容進行通用推薦,還需要根據(jù)不同研究者的偏好進行個性化推薦。該文利用用戶的發(fā)表及引用歷史,結(jié)合語言模型,構(gòu)建出一個個性化引文推薦模型——PCR模型。在結(jié)合用戶引用傾向性與內(nèi)容相關(guān)性后,與傳統(tǒng)的基于內(nèi)容的語言模型相比,PCR模型在recall@10上獲得了71.01%的性能提升,在MAP上獲得了70.23%的性能提升。
引文推薦;個性化
我們將某個特定引用符附近,對所引文章進行描述的句子稱為引文上下文。圖1為引文上下文的一個示例??蒲泄ぷ髡叨加谢ㄙM大量時間找類似圖中“[10,6]”具體指向哪篇論文的經(jīng)歷。找到需要被引用的文章經(jīng)常需要花費大量的時間。其中非常矛盾的一點是,一個作者知道的論文越多,找到一種想法的來源就越顯困難。論文的總量非常龐大,而且仍以極快的速度逐年遞增。我們以計算機領(lǐng)域的論文為例,近年來,每年大約有16 000篇新的論文問世,而且在可預(yù)料的將來,論文數(shù)量仍然會以很快的速度持續(xù)增長。論文總量增大是必然的,論文增加的速度也在不斷提高。例如2009年,計算機領(lǐng)域新產(chǎn)生的論文總量幾乎是十年前的三倍[1]。論文領(lǐng)域的信息過載使得引文推薦工作不僅非常必要,而且很有挑戰(zhàn)性。找到某個用戶可能會引用的論文,會遇到很多問題,具有一定的難度。
圖1 一個引文上下文示例
如果存在一個系統(tǒng),可以針對每個引文符號推薦一個備引用的論文列表給科研人員,那么科研人員進行論文寫作時將會省時省力:科研人員只需關(guān)心所要寫作的內(nèi)容,而尋找引用相關(guān)的事宜可以交給系統(tǒng)去做。有些計算機領(lǐng)域的研究人員已經(jīng)意識到引文推薦的重要意義,并進行了一定量的研究,提出了解決引文推薦問題的若干算法。例如,將引文推薦問題看作信息檢索問題,把引文上下文看作查詢串,然后系統(tǒng)根據(jù)引文上下文這個“查詢串”來搜索相應(yīng)的論文并返回。這個過程和標(biāo)準(zhǔn)的搜索引擎進行檢索的步驟是很類似的。在這個框架下,可以用很多方法來衡量一個引文上下文和一篇論文的相關(guān)性,例如語言模型[2]和翻譯模型[3]。引文上下文也可以被用作錨文本,引文推薦系統(tǒng)通過對比當(dāng)前的引文上下文和其他已知指向的引文上下文,來決定該引文上下文的指向。
總之,所有之前的方法都只對論文及引文上下文的內(nèi)容進行分析。這些方法共同的缺點是,都沒有考慮用戶的引用偏好性。在現(xiàn)實中,不同的用戶具有不同的閱讀范圍和不同的引用習(xí)慣,這導(dǎo)致對于相同的論文和引文上下文,不同的用戶具有不同的引用傾向性。因此,引用推薦應(yīng)該考慮到用戶的偏好,進行個性化的推薦。在本文中,我們進行引文推薦時,不僅考慮了內(nèi)容,還考慮了用戶的偏好。我們將這種同時考慮了內(nèi)容和用戶偏好的引文推薦方法稱為“個性化引文推薦”。
個性化引文推薦是個新工作,因此會存在很多挑戰(zhàn):
? 如何得到用戶資料,并構(gòu)建用戶信息。
? 如何對用戶信息進行建模。
? 如何將用戶信息結(jié)合到已有的基于內(nèi)容的方法中。
據(jù)我們了解,本文是第一篇提出用個性化的方法來解決引文推薦問題的論文。由于之前工作存在沒有考慮用戶傾向性這一統(tǒng)一問題,我們的工作可以結(jié)合到之前所有基于內(nèi)容的工作中,并提高它們的效果。在本文中,我們將語言模型[2]結(jié)合進個性化引文推薦模型中,并使得推薦效果取得了顯著提高。
2.1 論文推薦
引文推薦首先是個論文推薦的任務(wù),在論文推薦這個大方向上,已經(jīng)有了不少的研究工作。D Blei等人[4]對網(wǎng)絡(luò)上的信息進行分析,得到審稿人信息,為審稿人推薦合適的論文。K Chandrasekaran等人[5]利用用戶在CiteSeer中的信息,為用戶推薦論文進行閱讀,他們將用戶以及文檔信息,用層次樹結(jié)構(gòu)進行表述,并用編輯距離描述用戶和文檔之間的相似度。B Shaparenko等人[6]利用語言模型和凸規(guī)劃來進行論文推薦,他們利用余弦相似度對全文進行計算,從而推薦最相似的前k篇論文。S McNee等人[7]利用已經(jīng)存在的研究者之間的引用關(guān)系、論文之間的引用關(guān)系等多種互聯(lián)信息為用戶推薦論文。K Sugiyamad等人[8]根據(jù)用戶最近的研究興趣,為用戶推薦其可能感興趣的論文,他們利用用戶自己論文的信息以及其引用信息,構(gòu)建用戶的個人信息,并通過用戶個人信息和其他文檔信息之間的相似度,作為推薦的主要依據(jù)。D Zhou等人[9],利用作者、文獻之間已有的多種關(guān)系,構(gòu)建成圖,以此為依據(jù)來為用戶推薦論文。T Tang等人[10]在一個在線學(xué)習(xí)系統(tǒng)中,針對了不同用戶的不同興趣和不同知識水平,為用戶推薦論文,并在用戶學(xué)習(xí)之后,相應(yīng)地更新了用戶的知識水平信息。
2.2 引文推薦
引文推薦是近幾年才興起的研究熱點。在引文推薦這個細化的方向上,目前的工作還不是很多,但是近幾年,大家也逐漸注意到引文推薦的意義。Trevor Strohman等人[11]首次將整篇手稿作為系統(tǒng)輸入,為整篇手稿推薦一個引文的列表。他們利用發(fā)表時間、整篇文檔相似度、共同引用、共同作者等若干簡單特征,將這些特征進行簡單整合,得到一份手稿的推薦文獻的列表。J Tang等人[12]利用Topic Model對引文上下文和其他文獻間的相似度進行描述,進而進行相似論文推薦。Y Lu等人[3]利用翻譯模型得到某個引文上下文“翻譯”到某論文的概率,并根據(jù)這個概率值進行引文推薦。Q He等人[13],利用引用符號附近的引文上下文,作為所引文獻的描述,以此描述作為推薦引文的主要依據(jù)。隨后,Q He等人又對文獻[13]中的工作進行了進一步擴展[14],他們不再需要引用符的位置信息,先進行引用位置預(yù)測,再進行引文預(yù)測。
本文需要以下信息作為系統(tǒng)輸入,并得到如下輸出:
輸入:1) 論文的元數(shù)據(jù)集合P,元數(shù)據(jù)需要包含論文的內(nèi)容信息、作者信息、會議信息及引用信息; 2) 一些沒有引用指向的引文上下文,及這些引文上下文的作者。
輸出:根據(jù)輸入,為每個引文上下文得到一個按照被引用概率排好序的論文列表。
為了方便起見,我們在此介紹后文中使用到的一些術(shù)語。
內(nèi)容相關(guān)度(Content Relevance Degree,CRD),用來衡量一個引文上下文和一篇文章之間只考慮內(nèi)容的相關(guān)程度。這個值可以通過前人提出的任意一種基于內(nèi)容的模型計算得來,例如,常用的語言模型。
用戶傾向度(User Tendency Degree,UTD),用來衡量一個用戶引用一篇文章的傾向性,是本文介紹的重點。
引用可能度(Cite Possibility Degree,CPD),用來衡量一個引文上下文引用一篇論文的可能性,即進行推薦的最終衡量標(biāo)準(zhǔn)。
總之,引文推薦要解決的問題是,輸入一個特定的引文上下文,輸出一個根據(jù)計算得到的CPD排序的論文列表。
我們將本文的模型稱為PCR(Personalized Citation Recommendation)模型。這個章節(jié)將對PCR模型進行詳細的介紹。
首先,我們設(shè)想一個用戶u引用一篇論文t的全過程。首先u必須知道t的存在,并對t感興趣,然后閱讀了它;之后,當(dāng)u寫作一篇論文p的時候,回憶到t是相關(guān)的;這時,用戶u可能會寫一段關(guān)于t的描述d并最終引用t。在寫p之前,與其他沒有被u閱讀過的論文相比,實際上t已經(jīng)有了一個更高的被引用的概率。
衡量d和t之間的值便是CRD,衡量u和t之間的值是UTD。在之前的工作中,往往CRD被用來當(dāng)作CPD,而UTD卻被忽視了,這很大程度上限制了推薦效果的進一步提升。實際上,用戶首先對不同的論文具有不同UTD,然后根據(jù)這些UTD產(chǎn)生一個個性化的引文行為。換句話來說,在引文推薦工作中,UTD實際上可以被認為是CPD的先驗。我們可以用式(1)來描述他們之間的關(guān)系。
(1)
4.1 UTD(用戶傾向度 User Tendency Degree)
正如前文所述,對于每一個“論文-用戶”對,我們需要計算UTD的值。首先,我們進行用戶信息的構(gòu)建。對于剛開始科研的初級研究人員,構(gòu)建他們的用戶信息是困難的,沒有用戶數(shù)據(jù)的有效支持,無法實現(xiàn)個性化,但是我們可以延用基于內(nèi)容的模型進行引文推薦。對于從事科研工作多年的高級研究人員,由于他們已經(jīng)發(fā)表過一些論文,這些已經(jīng)發(fā)表的論文便是建立他們用戶信息的關(guān)鍵,這正是PCR模型的著眼點。對于大部分從事研究工作若干年的研究人員來說,我們可以從他們的發(fā)表歷史中得到一切我們希望得到的信息:
1) 所有用戶發(fā)表的論文構(gòu)成的集合;
2) 所有曾經(jīng)同用戶合作過的作者構(gòu)成的集合;
3) 所有用戶曾經(jīng)引用過的作者構(gòu)成的集合。
在擁有以上這些用戶信息后,給定一個用戶u和一篇目標(biāo)論文t,我們?nèi)绾魏饬縰和t之間的UTD?本文認為,造成用戶對不同論文產(chǎn)生不同UTD的原因是,某些“推薦”和“擴展”關(guān)系。推薦來自三個級別的人:用戶自己、用戶的合作者和用戶引用過的作者。這三個級別的人會用寫作和引用兩種方式為用戶推薦論文,本文將這兩種方式都認為成推薦行為。例如,合作者寫作論文p或引用論文p一次,都認為成推薦論文p一次。在接受到三個級別人的推薦后,用戶會對這些推薦進行擴展,除了會注意到論文本身,用戶還會注意到論文的作者以及論文所發(fā)表的會議。根據(jù)三個級別人的推薦和三種擴展方式,我們可以得到3×3=9種可以用作UTD的先驗特征(表1)。
表1 不同級別的推薦和不同方式的擴展
接下來對每個UTD進行詳細的介紹,并列出每個UTD的計算公式。在后面的計算公式中,count(x,y)意為x推薦y的次數(shù)。其中x為某用戶,y可能為論文、作者或是會議。count(x) 意為用戶x推薦論文的總次數(shù)。count’(x) 意為用戶x推薦作者的總次數(shù)。例如,如果x只推薦過一篇論文,這篇論文有三個作者,那么count(x)就是1,count’(x)就是3。變量u代表當(dāng)前用戶,t代表目標(biāo)論文。A代表目標(biāo)論文的作者集合,v代表t所發(fā)表在的會議或是期刊。Aco代表u合作過的人構(gòu)成的集合,Aci代表u引用過的人構(gòu)成的集合。
首先是用戶自己的推薦行為,用戶明顯對自己的論文或是曾經(jīng)引用過的論文更加熟悉,具有更強的引用傾向性。高傾向性不僅會影響用戶對論文本身的引用行為,還會擴展到論文的作者和會議。由此可以得到UTD1_1到UTD1_3。
1)UTD1_1:用戶自己推薦論文t的次數(shù)占用戶總推薦次數(shù)的比例。這個特征考慮到兩種用戶行為:引用自己發(fā)表的論文、再次引用自己引用過的論文。首先,對于每位研究人員,其研究領(lǐng)域相對集中,即研究人員當(dāng)前的工作同過去的工作往往具有較大的關(guān)聯(lián)。因此,之前發(fā)表的論文或引用過的論文無疑有更大的概率與當(dāng)前的作品相關(guān);另一方面,用戶對自己的工作或曾經(jīng)引用的工作往往更加熟悉,這兩點因素,帶來了更高的引用傾向性。因此,給定一篇論文,用戶本身的推薦行為是首先要考慮的特征。計算公式如式(2)所示。
(2)
2)UTD1_2:用戶自己推薦論文t的作者集合A的次數(shù)占用戶總推薦作者次數(shù)的比例。這個特征考慮到這樣一種用戶行為:引用自己引用過作者的論文。用戶曾經(jīng)引用過某個作者多次,則說明用戶對該作者的工作較為熟悉和認可。那么用戶會有很大的概率熟悉該作者的大部分甚至是全部的論文。這個特征將注意力擴展到目標(biāo)論文的作者上,其公式如式(3)所示。
(3)
3)UTD1_3:用戶自己推薦論文t的會議v的次數(shù)占用戶總推薦次數(shù)的比例。這個特征考慮到一種用戶習(xí)慣:閱讀、引用自己熟悉會議的論文。用戶引用某個會議的論文的次數(shù)越多或用戶在某個會議發(fā)表的次數(shù)越多,則說明用戶越熟悉這個會議。那么,這個會議的論文就越有可能被用戶引用。該特征在會議的方向上進行擴展,計算公式如式(4)所示。
(4)
以上三個公式均考慮用戶自身的行為,除了用戶自身外,用戶的合作者同樣具有“推薦”力,并會對用戶未來的引用行為產(chǎn)生影響。因此用戶合作者發(fā)表或者引用的論文同樣在我們的模型中起到了作用。以下三個先驗特征均考慮用戶合作者的推薦行為。
4)UTD2_1:用戶的合作者集合Aco推薦論文t的次數(shù)占Aco總推薦次數(shù)的比例。這個特征考慮到這樣的用戶行為:熟悉合作者的工作、閱讀合作者的論文。用戶往往同合作者具有緊密的聯(lián)系,這導(dǎo)致用戶有很大的概率熟悉合作者的工作,并閱讀其論文。因此,合作者推薦的論文,會對用戶具有一定的影響力,UTD2_1用來衡量這個影響,公式如式(5)所示。
(5)
5)UTD2_2:用戶的合作者集合Aco推薦論文t的作者A的次數(shù)占Aco總推薦作者次數(shù)的比例。在Aco對論文的推薦行為對用戶產(chǎn)生影響之后,用戶可能會將這影響進一步擴展到這些推薦論文的作者上。因此用戶的合作者同樣對論文作者具有推薦作用,公式如式(6)所示。
(6)
6)UTD2_3,用戶的合作者集合Aco推薦論文t的會議v的次數(shù)占Aco推薦總次數(shù)的比例。類似UTD1_3,從用戶的合作者的角度來看,同樣可以進行會議維度的擴展。這個特征可以用式(7)進行描述。
(7)
除了用戶本身和用戶的合作者,用戶的引用者同樣具有向用戶推薦的能力。如果一篇文章、某作者或某個會議被用戶的引用者推薦多次,那么用戶就會有較高的概率對其進行引用,接下來的三個先驗特征從三種擴展方式(論文本身、論文的作者、論文所發(fā)表的會議),考慮用戶引用過作者的行為,這些特征與UTD2_1到UTD2_3的計算方式是類似的。
7)UTD3_1,用戶引用過的作者集合Aci推薦論文t的次數(shù)占其總推薦次數(shù)的比例。此特征僅考慮目標(biāo)論文本身,計算方法如式(8)所示。
(8)
8)UTD3_2,用戶引用過的作者集合Aci推薦論文t的作者集合A的次數(shù)占Aci推薦作者總次數(shù)的比例。此特征擴展到了作者維度,如式(9)所示。
(9)
9)UTD3_3,用戶引用過的作者集合Aci推薦論文t所發(fā)表的會議v的次數(shù)占Aci總推薦次數(shù)的比例。此特征在會議維度進行擴展,如式(10)所示。
(10)
這九個特征實際上是CPD在九個維度上的先驗,然后我們可以將這九個先驗同前人提出模型所計算出來的CRD相乘,得到九個不同的CPD。將這九個CPD結(jié)合,便可以得到最終用來在給定引文上下文的情況下對候選論文集進行排序的標(biāo)準(zhǔn)。
4.2 將多個UTD與單個CRD結(jié)合
在本論文中,我們將語言模型用作CRD,并用作對比算法。本章節(jié)介紹如何將4.1得到的九個UTD先驗與語言模型結(jié)合,得到最終結(jié)果。結(jié)合過程被分成以下兩個步驟,用來解決結(jié)合過程中存在的三個問題。
4.2.1 填平取值鴻溝
在式(1)中,我們需要將UTD和CRD相乘。但是相乘過程有一個問題,UTD和CRD之間有一個取值的鴻溝,不同點之間UTD的差別和CRD的差別不在一個數(shù)量級上。所以如果將兩個值直接相乘,其中某個值的影響會小到可以忽略。UTD的取值數(shù)量級主要取決于數(shù)據(jù)集的大小,CRD的取值數(shù)量級主要取決于引文上下文的長度。為了解決這個問題,我們引入一個收縮變量α,這樣式(1)最終的表示更新為式(11)。
(11)
4.2.2 結(jié)合多個分數(shù)
在本文的模型中,有九個不同的先驗,與CRD相乘之后,會有九個不同的分數(shù)。為了得到一個用來排序的最終分數(shù),我們需要將這九個分數(shù)進行結(jié)合。
引用推薦實際上是引用預(yù)測問題, 我們可以將其看成一個分類問題。對于每一個引文上下文和論文對c,實際上只有兩種關(guān)系:引用或沒有引用。我們可以用九個不同的分數(shù)來代表c。所以,每個引文上下文和論文對實際上是一個九維的點。所有這些點中,有些是正例(引文上下文引用了這篇論文),有些是反例。這正是一個SVM分類器解決的標(biāo)準(zhǔn)問題。給定一個引文上下文,將其與所有候選論文進行組合,得到多個分類點,對這些點進行分類后,我們可以根據(jù)SVM得出的分為正例的置信度對這些論文進行排序。
在SVM的訓(xùn)練過程中,會遇到正例點和負例點數(shù)量不均衡的問題。一個引文上下文只引用一篇論文,其他所有論文與該引文上下文結(jié)合后都會構(gòu)成負例點。所以訓(xùn)練過程中,負例點占了絕大多數(shù),這非常影響SVM的性能。我們用以下方法解決了該問題:
1) 將所有正例點加入到訓(xùn)練集中,隨機選取等量的負例點,加入到訓(xùn)練集中;
2) 訓(xùn)練一個SVM模型。這里我們利用C-Support向量分類器、徑向基核函數(shù);
3) 根據(jù)2) 中的模型得到一個結(jié)果;
4) 重復(fù)1)-3) 中的步驟n次,得到n個結(jié)果,然后計算平均結(jié)果作為最終分數(shù)。因為n為5時結(jié)果已穩(wěn)定,再增大n對結(jié)果基本無影響,所以此處我們將n設(shè)定為5。
這樣,考慮一個引文上下文和論文對時,對于這個引文上下文的每個作者,我們都可以得到一個分數(shù)。很多論文往往由多名作者合作而成,因此很多引文上下文有多個作者。對于有多個作者的引文上下文,相比于最大值或最小值,多個作者的平均值具有最好的效果。因此,我們?nèi)《鄠€作者的平均值作為該引文上下文、論文對的最終分數(shù)。
到達這個步驟,對于每個引文上下文和論文對,我們都可以得到一個唯一的分數(shù)。這樣,對于某個引文上下文,我們可以根據(jù)該分數(shù)對候選論文進行排序,然后輸出,即為引文推薦問題的最終輸出。
5.1 數(shù)據(jù)集
我們數(shù)據(jù)主要來自三個源:MAS(微軟學(xué)術(shù)搜索引擎 Microsoft Academic Search) API、 MAS網(wǎng)站*http://academic.research.microsoft.com/、互聯(lián)網(wǎng)中開放存取的論文資源。數(shù)據(jù)通過以下步驟獲取:
1) 挑選出十個種子會議:ACL、CIKM、EMNLP、ICDE、ICDM、KDD、SIGIR、VLDB、WSDM、WWW。
2) 從MAS API中獲得這十個會議從2000年至2012年的所有論文的元數(shù)據(jù),元數(shù)據(jù)包括以下信息:論文在MAS中的ID,標(biāo)題、摘要、發(fā)表時間、所發(fā)表的會議、作者、所引用論文的ID列表、可以獲取論文的URL。最終,我們得到9 492篇論文的元數(shù)據(jù)。
3) 得到所有在2) 中獲取的論文的所有引用論文元數(shù)據(jù),最終我們得到55 823篇論文的元數(shù)據(jù)。
4) 根據(jù)所有的可獲取論文的URL,我們共下載到20 171篇pdf格式的論文,其中共有4 537篇來自選中的十個種子會議。
5) 我們獲取所有發(fā)出引用的源論文和目標(biāo)論文都在數(shù)據(jù)集中的引用關(guān)系,并從中挑選出可以從MAS網(wǎng)站中得到引用上下文的引用關(guān)系。最終,我們得到來自4) 中4 537篇文章的73 236個引用關(guān)系。由于一篇文章會在多處引用另一篇文章,因此,一篇文章與另一篇文章的引用關(guān)系會出現(xiàn)多次。
我們挑選出個人信息相對完整的1 000個作者,對于每個作者,我們?nèi)〕鲈撟髡叩淖詈笠黄撐?,并從這篇論文中隨機挑選出一個引文上下文,放入測試集。所有測試集中的引文上下文所指向的論文構(gòu)成了推薦時的候選集。在完成這些步驟后,我們將剩下的所有數(shù)據(jù)作為特征提取和模型訓(xùn)練的數(shù)據(jù)集。
5.2 評分機制
對于每一個引文上下文,每個模型都可以得到一個排好序的論文列表。我們將這個引文上下文實際引用的論文作為唯一正確答案。那么以下標(biāo)準(zhǔn)可被用來衡量各個模型的優(yōu)劣。
召回率(recall):由于對于每個引文上下文,只有一個正確答案。因此,此處召回率意為在前k個結(jié)果中將唯一的正確答案返回的引文上下文的比例,由于排序靠后的結(jié)果會被用戶忽略,參考價值較小,因此,我們只需要關(guān)注k的值到10。
平均準(zhǔn)確率(Mean Average Precision,MAP)如式(12)所示。
(12)
此處,R(di)是一個表明引文上下文是否引用di的布爾函數(shù)。
5.3 實驗結(jié)果
我們用隨機算法和一元語言模型作為對比方法,與結(jié)合一元語言模型的PCR模型作對比,表2為實驗的最終結(jié)果,圖1為前十項召回率的變化。
表2 不同模型的效果對比
圖1 前10個位置的召回率
從上面的結(jié)果我們可以看到,在加入用戶的引用傾向性后,傳統(tǒng)語言模型的效果在recall@10上獲得了71.01%的性能提升,在MAP上獲得了70.23%的性能提升。這是由于PCR模型不僅可以利用內(nèi)容上的相關(guān)性,還可以利用用戶的傾向性。一方面,PCR模型可以維持只利用內(nèi)容信息就可以取得較好效果的引文上下文;另一方面,PCR模型可以改進僅僅利用內(nèi)容信息不能得到較好效果的引文上下文。因此,PCR模型是有效的,可以大幅度地提高傳統(tǒng)引文推薦模型的效果。
5.4 參數(shù)調(diào)優(yōu)
在這個章節(jié),我們對4.2.1中提到的參數(shù)α進行調(diào)優(yōu)。數(shù)據(jù)規(guī)模為5.1中所描述,我們的引文上下文從MAS網(wǎng)站得到,刪除掉停用詞之后,平均的引文上下文的長度為13.4個單詞。圖2顯示了參數(shù)α的值從0.1至0.9變化的過程中,PCR模型效果 的 變化。我們可以看到, 將α設(shè)為0.8可以取得最好的效果。
圖2 對參數(shù)α進行調(diào)優(yōu)
5.5 特征分析
在我們的模型中,共有3×3=9個特征,圖3顯示了依次去掉其中某個特征后模型的效果。圖3中橫坐標(biāo)為x_y的項意為去掉UTDx_y后的效果。最后一項“無”意為所有特征均不去掉,即模型的最終結(jié)果。通過圖3我們可以看到,當(dāng)去掉UTD1_1時,效果的損失最大,表明用戶針對目標(biāo)論文本身的行為對模型具有最大的影響。
圖3 對各個特征的分析
我們提出了一種個性化的引文推薦模型——PCR模型。不同的用戶對同樣的論文具有不同的引用傾向性,我們的模型對此傾向性進行了量化,并與語言模型結(jié)合,取得了較大的效果提升。將來,我們會將協(xié)同過濾、圖模型等其他方法應(yīng)用到UTD(用戶傾向性)中。并將考慮引用推薦問題中的其他因素,例如,論文的權(quán)威性及流行性。我們相信,隨著工作的深入,引文推薦的效果可以被進一步提升。
[1]RYan,JTang,XLiu,etal.Citationcountprediction:Learningtoestimatefuturecitationsforliterature[C]//Proceedingsofthe20thACMinternationalconferenceoninformationandknowledgemanagement,ACM, 2011:1247-1252.
[2]CDManning,PRaghavan,HSchütze.Introductiontoinformationretrieval[M].CambridgeUniversityPressCambridge, 2008.
[3]YLu,JHe,DShan,etal.Recommendingcitationswithtranslationmodel[C]//Proceedingsofthe20thACMinternationalconferenceoninformationandknowledgemanagement,ACM, 2011:2017-2020.
[4]DMBlei,AYNg,MIJordan.Latentdirichletallocation[J].theJournalofMachineLearningResearch, 2003,3:993-1022.
[5]KChandrasekaran,SGauch,PLakkaraju,etal.Concept-baseddocumentrecommendationsforciteseerauthors[C]//ProceedingsoftheAdaptiveHypermediaandAdaptiveWeb-BasedSystems,Springer, 2008:83-92.
[6]BShaparenko,TJoachims.Identifyingtheoriginalcontributionofadocumentvialanguagemodeling[C]//ProceedingsoftheMachineLearningandKnowledgeDiscoveryinDatabases,Springer, 2009:350-365.
[7]SMMcNee,IAlbert,DCosley,etal.Ontherecommendingofcitationsforresearchpapers[C]//Proceedingsofthe2002ACMconferenceoncomputersupportedcooperativework,ACM, 2002: 116-125.
[8]KSugiyama,MYKan.Scholarlypaperrecommendationviauser’srecentresearchinterests[C]//Proceedingsofthe10thannualjointconferenceondigitallibraries,ACM, 2010:29-38.
[9]DZhou,SZhu,KYu,etal.Learningmultiplegraphsfordocumentrecommendations[C]//Proceedingsofthe19thinternationalconferenceonWorldWideWeb,ACM, 2008:141-150.
[10]TTang,GMcCalla.Beyondlearner’sinterest:personalizedpaperrecommendationbasedontheirpedagogicalfeaturesforane-learningsystem[C]//ProceedingsofthePRICAI2004:TrendsinArtificialIntelligence,Springer, 2004:301-310.
[11]TStrohman,WBCroft,DJensen.Recommendingcitationsforacademicpapers[C]//Proceedingsofthe30thannualinternationalACMSIGIRconferenceonresearchanddevelopmentininformationretrieval,ACM, 2007: 705-706.
[12]JTang,JZhang.Adiscriminativeapproachtotopic-basedcitationrecommendation[C]//ProceedingsoftheAdvancesinKnowledgeDiscoveryandDataMining,Springer, 2009: 572-579.
[13]QHe,JPei,DKifer,etal.Context-awarecitationrecommendation[C]//Proceedingsofthe19thinternationalconferenceonWorldWideWeb,ACM, 2010:421-430.
[14]QHe,DKifer,JPei,etal.Citationrecommendationwithoutauthorsupervision[C]//ProceedingsofthefourthACMinternationalconferenceonWebsearchanddatamining,ACM, 2011:755-764.
Personalized Citation Recommendation Based on User’s Preference and Language Model
LIU Ya’ning, YAN Rui, YAN Hongfei
(Institute of Network Computing and Information Systems, Peking University, Beijing 100871, China)
Automatic citation recommendation based on citation context is a highly valued research topic. The existing works all focus on the content based methods only. In this paper, we consider the citation recommendation as a content based analysis combined with personalization. Using users’ publication and citation history as the users’ profile and the language model, we propose a PCR (personalized citation recommendation) model. Experiment indicates 71.01% improvement of the performance in terms of recall@10 and 70.23% improvement in MAP compared with the traditional language model.
citation recommendation; personalization
劉亞寧(1988—),碩士,主要研究領(lǐng)域為搜索引擎與互聯(lián)網(wǎng)信息挖掘。E?mail:lyn@net.pku.edu.cn嚴睿(1985—),博士,百度研究院資深研究員,主要研究領(lǐng)域為自然語言處理,數(shù)據(jù)挖掘,信息檢索,與人工智能與社交網(wǎng)絡(luò)。E?mail:yanrui02@baidu.com閆宏飛(1973—),副教授,博士,訪問學(xué)者,主要研究領(lǐng)域為信息檢索。E?mail:yhf1029@gmail.com
1003-0077(2016)02-0128-08
2013-09-15 定稿日期: 2014-01-20
教育部科技發(fā)展中心網(wǎng)絡(luò)時代的科技論文快速共享專項研究資助課題(FSSP 2012 Grant 2012115);國家自然科學(xué)基金(61272340, 61073082)
TP
A