盧 露1,趙 靖2,魏登月3
(1.上海電力學院計算機科學與技術(shù)學院,上海 200090;2.安徽科技學院理學院,安徽 鳳陽 233100;3.武漢大學計算機學院,武漢 430079)
社會標簽是Web2.0下網(wǎng)絡(luò)信息資源的一種標注方式。對于一個特定的網(wǎng)絡(luò)資源,比如文檔、圖片或視頻等,用戶可根據(jù)自己的理解為這些資源添加一個或多個標簽,這些標簽可來自資源本身包含的詞匯,也可以是資源外用戶選擇的關(guān)鍵詞。它對于信息資源的有效組織和管理、信息的快速傳播和共享及用戶及時獲取更加準確可靠的信息都有重要意義[1]。大多數(shù)社會標簽系統(tǒng)允許用戶自行輸入標簽,標注的隨意性造成了標簽中存在較多噪音、錯拼、歧義以及無實際意義的標簽。因此,國內(nèi)外學者對社會標簽推薦技術(shù)進行了研究,以期幫助用戶標注相關(guān)的資源,提高標簽的質(zhì)量。
針對目前的模型不能真實反映標簽的生成過程或者沒有加入用戶角色等問題,本文提出了一種新的概率生成模型,該模型在統(tǒng)一的框架中融合標注過程中的用戶、資源、標簽3個實體,用隱含主題將三者聯(lián)系起來,進而推導出在特定的用戶和資源下各標簽產(chǎn)生的概率。
目前社會標簽推薦的研究大致分為兩類:一是基于協(xié)同過濾的推薦技術(shù),該技術(shù)是通過用戶對網(wǎng)絡(luò)資源的標注歷史信息來找出和當前用戶興趣相似的用戶集,將用戶集中使用過的標簽推薦給當前用戶。如文獻[2]通過社區(qū)發(fā)現(xiàn)算法來尋找社會網(wǎng)絡(luò)中相同興趣愛好的用戶群,利用用戶群使用過的標簽作為候選項進行推薦。文獻[3]采用三階張量來表示由資源、用戶、標簽構(gòu)成的社會標簽系統(tǒng),應用HOSVD分解算法來進行標簽預測。文獻[4]提出一種基于社會化標注的博客標簽推薦方法,利用相似博客的社會化標簽作為候選標簽集,確保了推薦標簽的全面性和可用性。但是該類方法完全忽略了當前標注資源的內(nèi)容,導致推薦的準確率不高。二是基于內(nèi)容分析的推薦技術(shù),使用網(wǎng)絡(luò)資源的內(nèi)容作為標簽推薦的依據(jù)。該類方法根據(jù)對資源內(nèi)容表示,分為基于詞粒度特征推薦方法和基于隱含主題特征的推薦方法。詞粒度特征主要是將網(wǎng)絡(luò)資源和用戶興趣分別用關(guān)鍵詞來表示,從而在關(guān)鍵詞上進行匹配進而排序,將排序靠前的詞作為標簽推薦給用戶。如文獻[5]利用Folksonomies對資源中的關(guān)鍵詞進行擴展,并將擴展后的詞庫來匹配用戶興趣。文獻[6]根據(jù)用戶提供的新書簽,找出博文中的若干相似關(guān)鍵詞進行聚類和排序,將排序靠前的關(guān)鍵詞作為標簽推薦給博客用戶。文獻[7]通過標簽的同現(xiàn)關(guān)系建立概率模型解決標簽詞的模糊度問題,進行個性化推薦。該類方法特征表示簡單,但總的來說存在如下問題:
(1)詞條作為文檔特征時常存在由于粒度太細而造成的稀疏性,影響推薦效果。
(2)相同的詞條對不同的用戶,可能代表著不同的含義。在進行個性化推薦時,如果對這些詞條不從語義上加以區(qū)分,就會造成推薦的結(jié)果不令人滿意。
隨著主題模型的出現(xiàn),隱含主題這一表示文檔語義特征的方法被廣泛使用,其中大多數(shù)都以Blei等人提出的隱含狄利克雷分配模型為基礎(chǔ)。它是一種無監(jiān)督的概率生成模型,其思想是文章的每個詞都是通過“以一定概率選擇了某個隱含主題,并從這個隱含主題中以一定概率選擇某個詞語”這樣一個過程生成的。將文檔、隱含主題和詞以概率的形式聯(lián)系起來,使文檔和詞映射到低維的隱主題空間,克服了詞的稀疏和語義問題。根據(jù)LDA模型的思想,研究者認為在社會標注系統(tǒng)中,標簽也能夠由隱主題生成,同樣能夠設(shè)計概率生成模型來描述社會標注系統(tǒng)中標簽在資源上的生成過程。將用戶、資源、標簽映射到隱含主題空間進行匹配和推薦。目前提出的模型存在下列問題:
(1)有些模型[8]在構(gòu)造標簽生成過程時,認為文本中的詞匯和標簽由同樣的隱含主題生成。而實際上文本是作者提供的,標簽是讀者提供的,他們具有不同的興趣和背景,這類模型沒有將文本中詞的生成過程和標簽的生成過程進行區(qū)分,不符合真實的標注過程。
(2)有些模型[9]雖然區(qū)分了標簽和文本的不同生成過程,但沒有考慮用戶的角色,與用戶是分離的,推薦過程需要加入額外的用戶興趣表示方法。
(3)有的模型[10]雖然加入了用戶的角色,但是推薦是針對群體用戶或社區(qū)用戶,個性化效果很差。
本文提出了一種新的概率生成模型,該模型能夠真實模擬用戶標注文檔的過程,在統(tǒng)一的框架中融合標注過程中的3個實體(用戶、資源、標簽),用隱含主題將三者聯(lián)系起來,進而推導出在特定的用戶和資源下各標簽產(chǎn)生的概率。該模型推薦的標簽不僅能夠契合文檔的主題,還能自適應地滿足用戶的興趣。
本文設(shè)計了一種新的概率產(chǎn)生式模型來模擬用戶在網(wǎng)頁上的真實標注過程,該模型將文檔產(chǎn)生和標簽生成作為2個獨立的過程。首先用戶在標注文檔之前,文檔已經(jīng)生成,這個過程可用一個基本的LDA模型來模擬。此后生成標簽時,需要先抽樣標簽的隱含主題,認為標簽的隱含主題來源于文檔中出現(xiàn)的主題或者是用戶興趣主題,將用戶角色引入其中,最后通過抽樣的隱含主題產(chǎn)生標簽。通過可見的標簽序列和文檔中的詞序列估算出模型中的各個參數(shù),比如文檔的主題分布和用戶的興趣主題分布、標簽的主題分布等。利用這些參數(shù)進行后續(xù)標簽推薦。
如圖1所示,該模型主要由兩部分構(gòu)成,虛線部分為基本的LDA模型,用來構(gòu)造文檔中詞語的生成過程,對于長度為Nd的文檔d中,單詞w的生成過程為:首先根據(jù)主題在文檔上的分布選擇主題z,然后根據(jù)單詞在主題上的分布選擇單詞w,這個過程執(zhí)行Nd次,即生成最后的文檔d。左邊的部分為標簽生成過程。當用戶u瀏覽文檔d選擇標簽t時,首先要確定標簽t的主題z,z的選擇有2種來源,一種來自于文檔d中出現(xiàn)過的主題,另一種直接來自用戶興趣主題,其中,圖中彎曲和虛線箭頭分別對應2種不同的情況。對每一個用戶u,用標志值X來控制用戶的選擇(X滿足 Binomial(λu)分布),這個過程共執(zhí)行Md次(Md為用戶u對文檔d標注的標簽個數(shù))。
圖1 用戶-內(nèi)容聯(lián)合標注模型
模型的生成過程如下:
(1)文檔集D中的文檔d,根據(jù) Dirichlet(αd)分布可得到文檔d的主題分布。其中,αd為文檔在主題上的Dirichlet分布的超參數(shù)。
(2)假如文檔d包含K個主題,對于任一主題k,根據(jù)Dirichlet(βw)分布可得到詞w在主題k上的概率分布;根據(jù)Dirichlet(βt)分布可得到標簽t在主題k上的概率分布。其中,βw和βt分別為詞w和標簽t在主題上的Dirichlet分布超參數(shù)。
(3)對于用戶集U中的任何一個用戶u,可以根據(jù)Dirichlet(αu)可得到用戶u在主題上分布 θ(u)(αu為用戶u在主題上的Dirichlet分布的超參數(shù))。
(4)文檔d中的任一詞wi生成過程如下:(文檔長度為Md)。
2)根據(jù)詞在主題zi上的多項式分布得到詞wi。
(5)用戶集U上的每一個用戶u,通過Beta(γ)分布得到用戶選擇概率λu。其中,λ為Beta分布的超參數(shù)。
(6)用戶u對文檔d標注生成標簽tj的過程如下(此過程要運行Md次):
1)通過 Binomial(λu)分布生成標志值x;
2)如果 x=1,此時標簽的主題由文檔主題產(chǎn)生:
①找出文檔d中的所有的詞所對應的主題集合{zw1,zw2,…,zwNd},這些主題是服從均勻分布的,可以根據(jù)Uniform(zw1,zw2,…,zwNd)分布得到標簽的主題 ztj;
②根據(jù)標簽在主題 ztj上的分布得到標簽tj。
3)如果x=0,此時標簽的主題由用戶的興趣產(chǎn)生:
①根據(jù)用戶興趣的主題分布 θ(u)得到標簽主題 ztj;
②根據(jù)標簽在主題 ztj上的分布得到標簽tj。
該模型主要有以下4個參數(shù)需要估計:(1)文檔-主題分布 θ(d);(2)主題-詞分布 φ(w);(3)主題-標簽分布 φ(t);(4)用戶-主題分布 θ(u)。通常采用生成模型參數(shù)估計方法有變分推理、期望最大化算法(Expectation Maximization,EM)以及Gibbs抽樣等方法。與其他2種方法相比Gibbs抽樣方法更簡單,且效率更高,因此,本文模型的參數(shù)估計選用Gibbs抽樣方法。
在LDA模型的參估計中,Gibbs算法沒有將 θ(d)和φ(w)作為參數(shù)直接計算,而是不斷抽樣詞匯對于主題的后驗概率p(z| w),間接求得 θ(d)和φ(w)的值。對單詞的主題抽樣過程是一個馬爾科夫鏈狀態(tài)不斷變化的過程,直到詞匯對主題的后驗概率收斂、狀態(tài)穩(wěn)定為止。本文模型相當于LDA模型基礎(chǔ)上增加了一條馬爾科夫鏈,同時來模擬標簽的生成過程。與LDA模型類似,首先抽樣詞是對于主題分布的后驗概率和標簽對主題分布的后驗概率。
計算詞對于主題分布的后驗概率抽樣如式(1)所示:
對標簽對于主題分布的后驗概率抽樣時分為2種情況,當選擇開關(guān)x=0時,標簽的主題根據(jù)用戶主題分布生成,此時標簽對主題的后驗概率抽樣公式為:
當選擇開關(guān)x=1時,標簽的主題根據(jù)當前文檔的主題分布生成,此時標簽對主題的后驗概率抽樣公式為:
當上述公式迭代一定次數(shù)狀態(tài)穩(wěn)定后,對于每個單一樣本,用以下公式求出模型的參數(shù)值:
實驗數(shù)據(jù)來源于目前較流行的Web2.0網(wǎng)站Delicious,Delicious是2003年創(chuàng)辦的一個網(wǎng)址書簽收集分享網(wǎng)站,允許用戶使用自己的詞典為網(wǎng)站上的資源賦予各種各樣的標簽。從該網(wǎng)站獲取2010年1月到3月的社會標注數(shù)據(jù)集。過濾掉那些包含標簽少于5,或者包含的詞語少于20的頁面,并從頁面中提取出用戶和標簽列表。最終實驗數(shù)據(jù)包括31190個Web頁面、410個用戶和18740個獨立標簽。在實驗中隨機選擇20%的Web頁面以及與它相關(guān)聯(lián)的用戶和標簽作為測試數(shù)據(jù),其他的80%的數(shù)據(jù)作為訓練數(shù)據(jù)集。
對于測試文檔d和用戶u,利用式(8)計算標簽td產(chǎn)生的概率:
其中,p(td|zk),p(xtd),p(zk|u)可以通過訓練模型獲得;ptest(zk|d)可以通過在測試集中用Gibbs抽樣的方法獲得(相當于在測試集中重新運行一次LDA模型)。對于特定的用戶和文檔,通過本文提出的模型,可以計算出生成各個標簽的概率值,為了便于實驗評估,將概率值大于50%的標簽作為最后的推薦標簽。
實驗采用精準率(precision)、召回率(recall)、F1值作為評估標準。標簽推薦的精準率為正確推薦標簽占推薦標簽總數(shù)的百分比。
其中,trec(u,r)為通過本模型得出的用戶u推薦給頁面r的標簽;t(u,r)為用戶實際分配給頁面r給標簽。
標簽推薦的召回率為正確推薦標簽占標簽總數(shù)百分比。
用戶-內(nèi)容聯(lián)合標注模型中涉及到5個參數(shù),其中,αd,αu,βw,βt均為Dirichlet分布的超參數(shù),λ為Beta分布的超參數(shù)。對于每個參數(shù)測試了一系列值,發(fā)現(xiàn)參數(shù)值對最后輸出結(jié)果影響很小,它們只是影響Gibbs抽樣算法的收斂速度,而文獻[11]也證明了這一點,主要原因是它們只是影響模型參數(shù)的先驗概率,對后驗概率影響不大。因此,在實驗中選擇 αd=0.3,αu=0.3,βw=0.05,βt=0.05,γ=0.5。首先要驗證本模型的有效性,即模型在抽樣迭代一定次數(shù)后是否能夠收斂,其次隱含主題K的個數(shù)設(shè)定也是模型的關(guān)鍵,即當K取多少時,模型有較好的預測能力。
首先關(guān)于模型估值方法的收斂性,可以看出在求單詞對主題的后驗概率分布時,是利用Gibbs抽樣的方法對一個基本的LDA模型參數(shù)估值,這是一個馬爾科夫鏈狀態(tài)不斷變化的過程,已被證明是能夠收斂的。在抽樣過程的前期階段,由于對后驗概率的模擬不夠充分,Gibbs抽樣結(jié)果還不是很精確,過了前期階段以后,Gibbs抽樣結(jié)果開始慢慢逼近目標分布,并將最終處于一個穩(wěn)定的狀態(tài)。在求標簽對主題的后驗概率分布時相當于是2個基本的LDA模型的線性組合,因此利用Gibbs抽樣的方法計算同樣能夠收斂,該模型是有效的。
如圖2所示為觀察模型在不同的K值、不同的迭代次數(shù)下F1值的變化曲線。
圖2 不同主題數(shù)在不同迭代次數(shù)下的F1值曲線變化
可以看出,對于每一個K值隨著迭代次數(shù)的不斷增加,開始階段F1值均是不斷增大的。算法在迭代次數(shù)達到50次時,F(xiàn)1值均能趨于平穩(wěn),收斂到穩(wěn)定值,說明本文模型是有效的。
本文還觀察了隱含主題個數(shù)對模型預測能力的影響,從圖中可以看出,當K值從10變化到80時,F(xiàn)1收斂值不斷增加,當K值變化到160時,F(xiàn)1值收斂值反而降低,所以K值的選擇要適中不能過大或過小,認為K=80是一個合理的隱含主題數(shù),此時模型具有最好的標簽預測能力。
為了驗證本文模型的標簽預測能力,本文同文獻[9]提出的CorrLDA模型和文獻[12]提出的CI-LDA模型進行比較,這2個模型都是利用概率產(chǎn)生式模型來進行標簽推薦的,如圖3所示。實驗中3種模型的迭代次數(shù)均設(shè)為80??梢钥闯?,隨著隱含主題數(shù)的增加,3種模型的F1值都是不斷增加的,在不同的隱含主題數(shù)下,本文的模型相比于其他的2種模型有更好的標簽預測能力。在CorrLDA模型中,標簽的主題只能由文檔中出現(xiàn)的主題產(chǎn)生,一定程度上限制了標簽的主題來源,使得標簽完全依賴于文本內(nèi)容,而事實上有些標簽是根據(jù)用戶的理解添加的,與文檔內(nèi)容無關(guān),該模型沒有反映用戶真實的標注過程,適應性不強。而在CI-LDA模型中,標簽的生成過程和文本的生成過程完全分離,是2個完全獨立的過程,這樣使得生成的標簽可能完全和本文內(nèi)容無關(guān),也影響了模型的預測能力。本文提出的模型相當于是上述2個模型的調(diào)和,標簽的隱含主題同時受用戶興趣和文檔內(nèi)容的影響,真實反映了用戶的標注過程,具有更好的泛化能力。
圖3 3種方法的標簽預測能力結(jié)果比較
本文提出一種用戶-內(nèi)容聯(lián)合標注模型,該模型引入用戶信息,體現(xiàn)出標簽的產(chǎn)生同時受用戶和資源內(nèi)容影響這一重要特征,對社會標注系統(tǒng)進行建模更為真實。實驗結(jié)果表明,該模型相對于以往的2種概率產(chǎn)生式模型,具有更好的標簽預測能力。此外,模型中估計的參數(shù),如用戶的興趣分布、資源的主題分布等,能很容易地推廣到個性化檢索、文本分類等其他數(shù)據(jù)挖掘領(lǐng)域中。
[1]Mathes A.Folksonomies-cooperative Classification and Cornmunication Through Shared Metadata[EB/OL].(2011-10-21).http://www.adammathes.com/academic/Computer-mediatedcornmunicationfolksonomies.html.
[2]Yuan Zhenming.A Social Tagging Based Collaborative Filtering Recommendation Algorithm for Digital Library[C]//Proceedings of the 13th International Conference on Asia-Pacific Digital Libraries.Beijing,China:[s.n.],2011:192-201.
[3]Symeomdis P,Nanopoulos A.A Unified Framework for Providing Recommendations in Social Tagging Systems Based on Ternary Semantic Analysis[J]. IEEE Transactions on Knowledge and Data Engineering,2009,22(2):179-192.
[4]趙亞楠,董 晶.基于社會化標注的博客標簽推薦方法[J].計算機工程與設(shè)計,2012,33(12):4609-4613.
[5]Dattolo A.On Social Semantic Relations for Recommending Tags and Resources Using Folksonomies[J].Advances in Intelligent and Soft Computing,2012,98(13):311-326.
[6]Mishne G.Autotag:A Collaborative Approach to Automated Tag Assignment for Weblog Posts[C]//Proceedings of the 15th International Conference on World Wide Web.Edinburgh,UK:[s.n.],2006:157-164.
[7]許棣華,王志堅.一種基于偏好的個性化標簽推薦系統(tǒng)[J].計算機應用研究,2011,28(7):2573-2576.
[8]張 斌,張 引.融合關(guān)系與內(nèi)容分析的社會標簽推薦[J].計算機學報,2012,23(3):476-488.
[9]Bundschus M,Tresp V,Rettinger A.Hierarchical Bayesian Models for Collaborative Tagging System[C]//Proceedings of the 9th IEEE International Conference on Data Mining.Miami,USA:IEEE Press,2009:365-376.
[10]Kashoob S,Caverlee J,Ding Y.A Categorical Model for Discovering Latent Structure in Social Annotations[C]//Proceedings of the 3rd International AAAI Conference on Weblogs and Social Media.San Jose,USA:AAAI Press,2009:222-229.
[11]Zhou Donghua,Bian Jiuyuan.Exploring Social Annotations for Information Retrieval[C]//Proceedings of the 17th International Conference on World Wide Web.Beijing,China:[s.n.],2008:158-165.
[12]Ramage D,Heymann P,Manning C D,et al.Clustering the Tagged Web[C]//Proceedings of the 2nd ACM International Conference on Web Search and Data Mining.Barcelona,Spain:ACM Press,2009:369-376.