劉 瑜,袁 健
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上?!?00093)
?
基于RTEM模型的問(wèn)答社區(qū)候選答案排序方法
劉瑜,袁健
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海200093)
摘要問(wèn)答社區(qū)作為搜索引擎的補(bǔ)充,在人們生活中起到越來(lái)越重要的作用,但隨著大量問(wèn)答對(duì)的積累,部分答案不能及時(shí)得到其他用戶的評(píng)價(jià),使得提問(wèn)者選擇最佳答案的難度加大。文中在研究用戶行為及其行為所產(chǎn)生的結(jié)果后,提出一種新的基于主題模型的候選答案排序方法。通過(guò)大規(guī)模的實(shí)驗(yàn)數(shù)據(jù)證明,相較于其他模型方法,取得了較好的效果。
關(guān)鍵詞問(wèn)答社區(qū);答案排序;主題模型;用戶行為
目前,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,信息呈爆炸式增長(zhǎng),搜索引擎已不能較好地滿足用戶對(duì)信息的需求,人們?cè)絹?lái)越多地通過(guò)問(wèn)答社區(qū)來(lái)獲取所需信息。與基于關(guān)鍵詞、返回大量網(wǎng)頁(yè)的搜索引擎不同,問(wèn)答社區(qū)允許用戶利用自然語(yǔ)言進(jìn)行提問(wèn),由其他用戶給出問(wèn)題的答案,更好地滿足了用戶的信息需求。在用戶提出問(wèn)題并得到相應(yīng)回答以后,系統(tǒng)將結(jié)合用戶的背景知識(shí)及其他用戶給出的投票和評(píng)論信息選擇最佳答案,然而要得到最佳答案,則可能需要花費(fèi)大量的時(shí)間來(lái)等待其他用戶的投票和評(píng)論。因此,在缺少其他用戶的評(píng)價(jià)信息時(shí),如何利用已有的信息對(duì)候選答案進(jìn)行排序,以幫助提問(wèn)者高效地選擇最佳答案,是一個(gè)亟需解決的重要問(wèn)題。
鑒于此,本文在研究了用戶的行為以及問(wèn)答社區(qū)的特點(diǎn)后,在TEM(Topic Expertise Model)[3]模型的基礎(chǔ)上,對(duì)用戶專業(yè)知識(shí)背景重新定義,依據(jù)用戶的熟悉程度對(duì)用戶興趣主題分類,并引入其他用戶的回答,最后結(jié)合用戶的知識(shí)背景和問(wèn)題答案的匹配程度對(duì)問(wèn)答社區(qū)中的候選答案進(jìn)行排序。
1相關(guān)工作
近年來(lái),有關(guān)問(wèn)答社區(qū)中關(guān)于答案質(zhì)量問(wèn)題的研究分以下兩種:(1)答案質(zhì)量研究;(2)問(wèn)答對(duì)質(zhì)量研究。
第一種研究可分為兩類,第一類研究[1-2]通過(guò)與答案相關(guān)的外部特征,篩選出高質(zhì)量的答案。Ginsca等[1]重點(diǎn)分析了包含頭像、自我評(píng)價(jià)在內(nèi)的用戶特征,并結(jié)合相關(guān)行為,通過(guò)RSVM(Ranking Support Vector Machine)分類器篩選出了高質(zhì)量答案。姜雯等[2]引入了情感因素,通過(guò)Weka機(jī)器學(xué)習(xí)算法進(jìn)一步提升了選取最佳答案的準(zhǔn)確率。第二類研究[3-5]為基于主題模型、HowNet等引入問(wèn)題答案相關(guān)性的研究方法,挖掘問(wèn)題和答案、答案和答案之間的關(guān)系來(lái)對(duì)候選答案進(jìn)行排序。Yang等[3]利用TEM(Topic Expertise Model)模型,引入用戶之間的鏈接關(guān)系,得到用戶的興趣分布和專業(yè)程度,通過(guò)問(wèn)題答案主題相似性和用戶的權(quán)威度對(duì)候選答案進(jìn)行排序。廉鑫[4]通過(guò)構(gòu)建答案與答案之間的相似度矩陣,并結(jié)合答案的得票情況,對(duì)答案質(zhì)量進(jìn)行評(píng)價(jià)。Surdeanu[5]通過(guò)引入語(yǔ)言學(xué)特征,比如語(yǔ)義角色標(biāo)注,并結(jié)合排序模型對(duì)非事實(shí)型的答案進(jìn)行排序。
第二種研究將“問(wèn)答對(duì)”看成一個(gè)整體,以其為主要特征抽取對(duì)象。劉高軍等[6]從“問(wèn)答對(duì)”的文本特征、關(guān)聯(lián)度等4個(gè)方面的特征進(jìn)行評(píng)價(jià),并建立分類器,選取出高質(zhì)量的問(wèn)答對(duì)。
基于主題模型的研究方法,相較于其他研究方法而言,不但可挖掘問(wèn)答社區(qū)中文本信息的潛在語(yǔ)義,而且比其他挖掘語(yǔ)義的方法更靈活,不再局限于已有的詞庫(kù)。而TEM模型[3]在主題模型的基礎(chǔ)上,結(jié)合用戶相關(guān)信息建模,取得了較好的結(jié)果。本文以TEM模型為基礎(chǔ),通過(guò)分析用戶的行為和問(wèn)答社區(qū)中的文本信息對(duì)用戶所造成的影響提出一個(gè)新的RTEM模型,并用該模型的結(jié)果對(duì)候選答案進(jìn)行排序。
2基于RTEM主題模型的候選答案排序
2.1TEM模型
TEM(Topic Expertise Model)模型[3]是針對(duì)問(wèn)答社區(qū)情況對(duì)主題模型的改進(jìn),從而獲得用戶的主題分布和基于主題的專業(yè)程度。其主要思想是利用主題模型對(duì)用戶產(chǎn)生的問(wèn)題答案的相關(guān)文本信息建模,獲取用戶的興趣主題分布,并同時(shí)在模型中引入問(wèn)題答案的得票數(shù),結(jié)合高斯分布,計(jì)算出每個(gè)用戶基于主題的專業(yè)程度。
2.2RTEM模型描述
TEM模型在候選答案排序方面效果較優(yōu),但仍存在以下問(wèn)題:TEM模型把其他用戶對(duì)所提問(wèn)題支持的票數(shù)作為衡量該用戶專業(yè)程度的重要因素,但用戶并不熟悉所提問(wèn)題,該問(wèn)題仍可能因描述清楚或解決了其他用戶的疑惑而得到較高票數(shù)。因此,問(wèn)題收到票數(shù)高低與用戶專業(yè)程度之間并無(wú)直接關(guān)系。另一方面,若用戶提問(wèn)后,通過(guò)學(xué)習(xí)高質(zhì)量的答案知識(shí),從而對(duì)這個(gè)問(wèn)題的主題的熟悉程度和專業(yè)程度均會(huì)有所提升。因此,在計(jì)算用戶專業(yè)程度時(shí),不代入所有問(wèn)題的得票數(shù),而是選取其中包含高質(zhì)量答案的問(wèn)題和相關(guān)高質(zhì)量答案作為了解領(lǐng)域建模,剩余問(wèn)題作為生疏領(lǐng)域建模,所有答案作為精通領(lǐng)域建模,更符合實(shí)際情況。綜上所述,改進(jìn)后的RTEM(Related Topic Expertise Model)模型如圖1所示。
模型圖中帶有陰影的變量為已知內(nèi)容,其中的e和P為基于主題的用戶精通領(lǐng)域和了解領(lǐng)域的專業(yè)程度大小,分別有e和P個(gè)專業(yè)程度級(jí)別;與TEM模型相同,用戶產(chǎn)生文檔的票數(shù)v和b服從高斯分布,正態(tài)-伽馬分布是高斯分布的先驗(yàn)分布。最后可由模型計(jì)算出,基于每一個(gè)主題t,用戶精通領(lǐng)域的主題分布θu,f和專業(yè)程度分布φu,e,了解領(lǐng)域的主題分布θu,q和專業(yè)程度分布φu,P,以及生疏領(lǐng)域主題分布θu,D和主題-特征詞分布ψt。
圖1 RTEM模型圖
模型中所用的參數(shù)如表1所示。
表1 模型所用參數(shù)列表
模型的工作流程如下:
步驟1對(duì)社區(qū)問(wèn)答系統(tǒng)中的用戶u,從以α為參數(shù)的Dirichlet分布中抽取其精通領(lǐng)域主題分布θu,f~Dir(α),了解領(lǐng)域主題分布θu,q~Dir(α)和生疏領(lǐng)域主題分布θu,q~Dir(α);
步驟2對(duì)精通領(lǐng)域的專業(yè)程度e,從以α0,β0,μ0,κ0為參數(shù)的正態(tài)-伽馬分布中抽取每個(gè)用戶基于主題的票數(shù)分布м(μe,γe)~ мн(α0,β0,μ0,κ0);對(duì)了解領(lǐng)域的專業(yè)程度P,同樣從上述的正態(tài)-伽馬分布中獲得基于主題的票數(shù)分布м(μb,γb)~ мн(α0,β0,μ0,κ0);
步驟3對(duì)于每個(gè)用戶u。
(1)精通領(lǐng)域。u產(chǎn)生的文檔中的第a項(xiàng)答案,從參數(shù)為θu,f的多項(xiàng)式分布中抽取其主題zf,即zf~Multi(θu,f);從參數(shù)為φf(shuō),u的多項(xiàng)式分布中抽取其專業(yè)程度,即e~Multi(φf(shuō),u);從參數(shù)為μe,γe的高斯分布中抽取其平均票數(shù),即v~м(μe,γe);從參數(shù)為ψt的多項(xiàng)式分布中抽取第P個(gè)特征詞,即wf~Multi(ψt);
(2)了解領(lǐng)域。u產(chǎn)生的文檔中的第q項(xiàng)內(nèi)容(包含問(wèn)題和答案),從參數(shù)為θu,q的多項(xiàng)式分布中抽取其主題zq,即zf~Multi(θu,f);從參數(shù)為φq,u的多項(xiàng)式分布中抽取其專業(yè)程度,即P~Multi(φf(shuō),u);從參數(shù)為μb,γb的高斯分布中抽取其所得平均票數(shù),即v~м(μb,γb);從參數(shù)為ψt的多項(xiàng)式分布中抽取第R個(gè)特征詞,即wq~Multi(ψt);
(3)生疏領(lǐng)域。u產(chǎn)生的剩余問(wèn)題中的第s項(xiàng)內(nèi)容,從參數(shù)為θu,D的多項(xiàng)式分布中抽取其主題zD,即zD~Multi(θu,D);從參數(shù)為ψt的多項(xiàng)式分布中抽取第k個(gè)特征詞,即wD~Multi(ψt)。
文獻(xiàn)[8]指出,Yahoo answers!中當(dāng)問(wèn)題的答案數(shù)目超過(guò)7個(gè)時(shí),就會(huì)有較高質(zhì)量的答案出現(xiàn)。因此步驟3的(2)中用戶產(chǎn)生的內(nèi)容,選取回答數(shù)超過(guò)10個(gè),并且有超過(guò)3個(gè)以上的得票數(shù)超過(guò)10票的問(wèn)題和高質(zhì)量答案。此外,用戶了解領(lǐng)域的票數(shù)b計(jì)算如式(1)所示,這些答案所得票數(shù)votes之和除以該問(wèn)題下所有的答案票數(shù)votes之和。其中ps>10,為得票數(shù)超過(guò)10的約束條件。
vote=∑α∈q,PS>10votes/∑a∈qvotes
(1)
采用常用的吉布斯采樣對(duì)模型參數(shù)進(jìn)行估計(jì),以精通領(lǐng)域?yàn)槔?如式(2)所示,其余領(lǐng)域與此相似,不再贅述
(2)
通過(guò)吉布斯采樣,計(jì)算得到基于主題t的用戶u的精通、了解和生疏領(lǐng)域的用戶-主題分布、主題-特征詞分布和主題-專業(yè)程度分布分別如式(3)所示
(3)
由該模型同樣可得到問(wèn)題和答案的主題分布,如式(4)和式(5)所示,其中wq和wa分別為問(wèn)題和答案中的特征詞,ψ(t,w)由模型推導(dǎo)可得,表示該特征詞w在主題t下的概率統(tǒng)計(jì)。
(4)
(5)
2.3基于RTEM模型的候選答案排序
這里依據(jù)問(wèn)答對(duì)的主題相似度、用戶對(duì)問(wèn)題的熟悉程度和用戶的專業(yè)程度3個(gè)方面來(lái)對(duì)候選答案進(jìn)行排序,得分越高,排序越靠前,反之亦然。答案評(píng)分計(jì)算如式(6)所示。
(6)
式中,q表示某個(gè)問(wèn)題;a表示該問(wèn)題下的答案;uf表示熟悉領(lǐng)域中用戶的興趣主題分布;uD是了解領(lǐng)域中用戶的興趣主題分布;sim(·)表示兩者之間的主題相似度,通過(guò)Jensen-Shannon距離公式計(jì)算。expert(·)表示精通或了解領(lǐng)域中用戶的基于主題的專業(yè)程度分布。式中Ω1、Ω2、Ω3通過(guò)層次分析法(Analytic Hierarchy Process)[8]來(lái)計(jì)算,具體如下:
步驟1構(gòu)建候選答案排序的層次結(jié)構(gòu)型,確定(1)目標(biāo)層,某問(wèn)題下的候選答案排序;(2)指標(biāo)層,問(wèn)題答案主題相似性、精通領(lǐng)域和了解領(lǐng)域的問(wèn)題用戶相似性及用戶專業(yè)程度;(3)方案層,待排序的各答案。
表2 判斷矩陣中的標(biāo)度及其含義
步驟3在該模型通過(guò)一致性檢驗(yàn)后,利用算數(shù)平均法獲得Ω1、Ω2、Ω3,如式(7)所示
(7)
最后得到Ω1=0.557 1,Ω2=0.320 3,Ω3=0.122 6。
3實(shí)驗(yàn)與分析
3.1實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
Stack Overflow是與編程技術(shù)相關(guān)的垂直領(lǐng)域的問(wèn)答平臺(tái)。自成立之日,積累了大量的問(wèn)答對(duì)。本次實(shí)驗(yàn)數(shù)據(jù)是從該問(wèn)答社區(qū)收集的2008年7月31日~2014年1月的所有問(wèn)答對(duì)及用戶數(shù)據(jù)[1]。數(shù)據(jù)集剔除了候選答案少于2個(gè)(排序無(wú)意義)和提問(wèn)回答個(gè)數(shù)少于80的用戶(不活躍的用戶提供的答案對(duì)提問(wèn)者有用的概率較小)。選取2009年7月1日~2009年10月1日的數(shù)據(jù)作為訓(xùn)練集,從2009年10月2日到2010年6月2日的數(shù)據(jù)作為測(cè)試集。數(shù)據(jù)的整體情況如表2所示,因?yàn)闇y(cè)試集和訓(xùn)練集中的用戶集合相同,所以數(shù)量也是相同的。
表3 實(shí)驗(yàn)數(shù)據(jù)整體情況
為評(píng)估本文所提出的候選答案排序方法的性能,本文采用NDCG(Normalized Discounted Cumulative Gain)、Spearman和Kendall共3種方法對(duì)排序結(jié)果進(jìn)行評(píng)價(jià)。三者均表示取值越大,兩者相關(guān)性越高,效果越好。其中三者的如式(8)~式(10)所示
(8)
(9)
(10)
其中,式(8)中的NF(q)是歸一化因數(shù),vq,j是問(wèn)題q下排在第j個(gè)位置的答案的票數(shù),IdealScore(N,q)是問(wèn)題q的前k個(gè)答案的排序分?jǐn)?shù);式(9)中di為問(wèn)題q和答案ai的主題相似度;式(10)中C表示問(wèn)答集合中擁有一致性的元素對(duì)數(shù),D表示兩者擁有不一致性的元素對(duì)數(shù)。
按照答案得票數(shù)高低的排序結(jié)果作為正確的排序結(jié)果,作為上述方法的對(duì)比基線。
3.2參數(shù)設(shè)置及對(duì)比實(shí)驗(yàn)
依據(jù)已有的候選答案方法,選取以下兩種方法進(jìn)行實(shí)驗(yàn)對(duì)比:
(1)EM模型[3]。Tem模型通過(guò)用戶的問(wèn)答記錄獲得用戶的興趣分布和專業(yè)程度;
(2)AAM(Authority and Activity Method)。文獻(xiàn)[9]中提到通過(guò)用戶回答問(wèn)題的數(shù)量和提問(wèn)問(wèn)題的數(shù)量計(jì)算用戶專業(yè)程度的方法,以及計(jì)算用戶的活躍度的方法。這里通過(guò)兩者相乘得到基于活躍程度的用戶專業(yè)程度,并把用戶和問(wèn)題之間以及問(wèn)題和答案之間的相似度設(shè)置為1;
(3)RTEM模型:本文所提方法。
結(jié)合文獻(xiàn)[3]和多次試驗(yàn)的結(jié)果,取循環(huán)次數(shù)為500次,主題T的個(gè)數(shù)為10,專業(yè)程度E和P的個(gè)數(shù)均為12,α0=κ0=1,β0為隨機(jī)抽樣的500個(gè)票數(shù)的平均距離,μ0為訓(xùn)練集中所有票數(shù)的平均值,并按常規(guī)設(shè)置α=50/T,β=0.01,ε=0.01。
3.3實(shí)驗(yàn)結(jié)果及分析
表4 候選答案排序?qū)嶒?yàn)結(jié)果
通過(guò)表4的實(shí)驗(yàn)結(jié)果可得出如下結(jié)論:
(1)從表中可明顯看出,與其他模型相比,四個(gè)指標(biāo)下,RTEM模型的效果最好,充分證明了RTEM模型的有效性;
(2)RTEM模型與TEM模型相比,前者取得的效果更好,說(shuō)明在模型中對(duì)用戶的興趣領(lǐng)域分類,并引入用戶提問(wèn)問(wèn)題所得高質(zhì)量答案有助于計(jì)算在不同掌握程度之下的用戶的專業(yè)程度和主題分布,從而證明了本文所提模型的有效性;
(3)TEM模型、RTEM模型和AAM相比,前面兩種模型的效果明顯要優(yōu)于AAM。這是因前面兩種方法所用的基礎(chǔ)模型引入了潛在語(yǔ)義分析,而AAM僅從用戶的回答數(shù)和活躍程度來(lái)描述用戶的專業(yè)程度,未涉及到相關(guān)語(yǔ)義信息,由此可看出,語(yǔ)義信息在候選答案排序中的重要性。
4結(jié)束語(yǔ)
本文在TEM模型[3]的基礎(chǔ)上,通過(guò)分析用戶的行為,提出了一種新的問(wèn)答社區(qū)候選答案排序的方法RTEM模型。實(shí)驗(yàn)結(jié)果表明,該算法能夠獲取較好的答案排序。在研究過(guò)程中發(fā)現(xiàn)由于提問(wèn)者惡意或無(wú)意,選出的最佳答案并非最佳答案,甚至是錯(cuò)誤答案。因此,下一步的研究工作將在現(xiàn)有工作的基礎(chǔ)上,通過(guò)引入其他特征,對(duì)答案質(zhì)量進(jìn)行評(píng)價(jià),自動(dòng)選出最佳答案。
參考文獻(xiàn)
[1]Ginsca A L,Popescu A.User profiling for answer quality assessment in Q&A communities[C].Ningbo:Proceedings of the 2013 Workshop on Data-driven User Behavioral Modelling and Mining From Social Media,ACM,2013.
[2]姜雯,許鑫,武高峰.附加情感特征的在線問(wèn)答社區(qū)信息質(zhì)量自動(dòng)化評(píng)價(jià)[J].圖書情報(bào)工作,2015(4):100-105.
[3]Yang L,Qiu M,Gottipati S,et al.Cqarank:jointly model topics and expertise in community question answering[C].Paris:Proceedings of the 22nd ACM International Conference on Information & Knowledge Management,ACM,2013.
[4]廉鑫.社區(qū)問(wèn)答系統(tǒng)中若干關(guān)鍵問(wèn)題研究[D].天津:南開大學(xué),2014.
[5]Surdeanu M,Ciaramita M,Zaragoza H.Learning to rank answers to non-factoid questions from web collections[J].Computational Linguistics,2011,37(2):351-383.
[6]劉高軍,馬硯忠,段建勇.社區(qū)問(wèn)答系統(tǒng)中“問(wèn)答對(duì)”的質(zhì)量評(píng)價(jià)[J].北方工業(yè)大學(xué)學(xué)報(bào),2012,24(3):31-36.
[7]Fichman P.Information quality on yahoo! answers[J].Approaches and Processes for Managing the Economics of Information Systems,2013(6):192-199.
[8]鄧雪,李家銘,曾浩健,等.層次分析法權(quán)重計(jì)算方法分析及其應(yīng)用研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2012(7):93-100.
[9]Han W W,Que X,Song S.Ranking potential reply-providers in community question answering system[J].Communications,2013,10(10):125-136.
Candidate Answer Sorting Method of Q&A Community Questions Based on RTEM Model
LIU Yu,YUAN Jian
(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)
AbstractAs a supplement of search engine,community question and answering is playing a more and more important role.But with increasing numbers of questions and answers,part of the answers fail to get the evaluation of other user in time,which makes it difficult for askers to choose the best answer.Based on the study of the user behavior of and its effects this paper proposes a new topic model on the basis of user behaviors.Experiments with large sets of data show that the proposed method is superior to other models.
Keywordscommunity question and answering;answer ranking;topic model;user behavior
doi:10.16180/j.cnki.issn1007-7820.2016.05.035
收稿日期:2015-09-28
作者簡(jiǎn)介:劉瑜(1991—),女,碩士研究生。研究方向:數(shù)據(jù)挖掘、社區(qū)問(wèn)答系統(tǒng)。袁健(1971—),女,博士,副教授。研究方向:數(shù)據(jù)挖掘、網(wǎng)絡(luò)安全等。
中圖分類號(hào)TP391
文獻(xiàn)標(biāo)識(shí)碼A
文章編號(hào)1007-7820(2016)05-130-05