張偉男 都云程 張宇 劉挺
摘要:在社區(qū)型問答服務(wù)中,存在大量的由用戶生成的問題及答案,一方面用戶可以通過發(fā)布新問題,等待其他用戶的回答;另一方面用戶可以通過搜索與當(dāng)前問題相關(guān)或者相似的問題,從而得到相應(yīng)的答案。隨著社區(qū)型問答服務(wù)的發(fā)展,用戶更加關(guān)注問題檢索服務(wù)的質(zhì)量,因此如何合理并有效地檢索出與用戶當(dāng)前問題相關(guān)或相似的問題,成為社區(qū)型問答服務(wù)的核心任務(wù)。對社區(qū)型問答服務(wù)中用戶問題的特點進(jìn)行了分析,提出一種確定問題中詞項重要性的方法,從而改進(jìn)傳統(tǒng)問題檢索模型中計算當(dāng)前問題和候選問題集之間相關(guān)度的方法,提高問題檢索質(zhì)量。實驗證明文中的方法在MAP、MRR及R-precision三項指標(biāo)中均有提高。同時,分析了影響詞項重要度的實驗特征,得出最優(yōu)的特征集合。
關(guān)鍵詞:社區(qū)型問答; 問題檢索; 詞項賦權(quán)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2163(2013)05-0054-04
0引言
傳統(tǒng)的檢索模型如布爾模型、向量空間模型、Okapi BM25模型及語言模型等,能夠有效衡量用戶查詢與候選文檔之間的關(guān)系。在社區(qū)型問題檢索中,由于用戶問題形式的復(fù)雜性及候選文檔長度的特殊性,使得傳統(tǒng)的檢索模型在問題檢索任務(wù)中的有效性和適用性受到限制,與其相對應(yīng)的詞項賦權(quán)機制的合理性也有待驗證。此外,Xue et al [1]提出的利用翻譯模型自動獲取問題詞項之間以及問題和答案詞項之間語義關(guān)系的檢索模型,Wang et al[2]提出的利用短語結(jié)構(gòu)句法樹核匹配的相關(guān)問題檢索模型,但這兩種模型都沒有對詞項的重要性進(jìn)行量化評估。
社區(qū)型問答服務(wù)中,用戶的問題可分為三類。第一類問題的特點是用戶問題較短,往往只包含若干個關(guān)鍵詞;第二類問題與傳統(tǒng)的TREC(Text Retrieval Conference)( http://trec.nist.gov/)問答中的問題相似,其問題表述較為規(guī)范;第三類問題本身包含問題及問題描述,或者是多個問題形成的復(fù)合問題。上述三種類型的問題中,第三類問題具有相當(dāng)長度,帶有很多冗余的詞項,其中也包含部分噪聲詞項,從而對檢索結(jié)果的質(zhì)量產(chǎn)生不利的影響。
針對社區(qū)型問答中問題的復(fù)雜性及檢索任務(wù)的特殊性,本文利用依存句法分析技術(shù)獲取用戶問題中詞項之間內(nèi)在的句法關(guān)系,并融合詞性命名實體等特征衡量用戶問題中各個詞的權(quán)重,從而提出一種合理的用戶問題中詞項賦權(quán)機制,這種機制不僅可以將用戶問題中的干擾詞與關(guān)鍵詞區(qū)分開,而且量化了詞的權(quán)重,并將此機制與傳統(tǒng)的檢索模型結(jié)合得出一種新的問題檢索和排序的方法。
1相關(guān)工作
問題檢索作為社區(qū)型問答服務(wù)的核心任務(wù),廣泛應(yīng)用于相似和相關(guān)問題推薦、答案推薦及問題推送等服務(wù)中。Jeon et al[3]基于IBM model1翻譯模型對社區(qū)型問答服務(wù)中的問答對進(jìn)行建模,獲取問題和答案以及問題之間詞匯和語義上的關(guān)系,從而衡量問題與答案之間以及問題與問題之間的相似度,實驗結(jié)果表明其在問題檢索任務(wù)中的性能要優(yōu)于傳統(tǒng)的檢索模型。Duan et al[4]將所有候選問題詞匯鏈形成前綴樹,再利用最小描述長度(Minimum Description Length, MDL)的方法對句子樹進(jìn)行剪枝,識別出每個問題的主題成分和焦點成分,最后對主題和焦點應(yīng)用語言模型進(jìn)行建模,從而進(jìn)行問題檢索。Xue et al[1]在分析和對比了基于翻譯模型和語言模型的檢索模型的基礎(chǔ)上,將上述兩種模型相結(jié)合,提出一種新的問題檢索和答案檢索模型。Bernhard et al[5]利用多種詞匯以及語義資源,訓(xùn)練單語的翻譯模型,從而計算問題之間以及問題和答案之間的相關(guān)度。Moschitti et al[6]利用淺層語義分析技術(shù)(semantic role labeling, SRL)和短語結(jié)構(gòu)的句法分析技術(shù)構(gòu)建謂詞論元結(jié)構(gòu),提出了新的核函數(shù)用以計算問題及答案之間以及問題之間的相似度。Wang et al[2]和Moschitti et al[6]在短語結(jié)構(gòu)句法分析的基礎(chǔ)上,利用樹核的方法計算問題之間的相似度。
近年來,在TREC檢索評價體系下的查詢詞賦權(quán)工作取得了較大的進(jìn)展。Bendersky et al[7]融合多類特征,利用分類的方法對長查詢中的關(guān)鍵概念(key concept)進(jìn)行識別,并在傳統(tǒng)檢索模型的排序機制下,改進(jìn)傳統(tǒng)模型的查詢詞賦權(quán)機制。Bendersky et al[8]基于排序?qū)W習(xí)的方法度量查詢中概念的重要性,并利用馬爾科夫隨機域的方法構(gòu)建圖模型,獲取查詢詞之間的依存關(guān)系,從而得到查詢詞的權(quán)重。Bendersky et al[9]針對以往的查詢詞賦權(quán)機制中參數(shù)相對固定的問題,提出一種動態(tài)的參數(shù)化賦權(quán)方法。Ming et al[10]引進(jìn)類別信息,通過獲取詞項在父類和子類中的不同熵值,以此區(qū)分詞項相對于類別的重要性,并將其融合到傳統(tǒng)的檢索模型。
Park et al[11]利用依存句法分析的特征處理長查詢中的詞項排序問題,并利用tf、idf和詞性特征結(jié)合依存句法特征訓(xùn)練rank svm模型,從而利用模型預(yù)測出新查詢的詞項排序。Lee et al[12]通過統(tǒng)計詞項之間的共現(xiàn)情況,由此得出詞項之間相互的依存關(guān)系。
2問題中的詞項權(quán)重[
本文采用基于檢索結(jié)果覆蓋率的方法在客觀上從檢索結(jié)果出發(fā)衡量訓(xùn)練集問題中詞項的權(quán)重,并提取有效的特征描述與詞項權(quán)重相關(guān)的因素,最后利用已有特征訓(xùn)練學(xué)習(xí)模型,進(jìn)而預(yù)測新問題中詞項的權(quán)重。由于本文研究問題中詞項的賦權(quán),而為了避免概念混淆,下文所涉及到的詞項概念均為問題中的詞項,特此說明以區(qū)分查詢詞的概念。
2.1初始權(quán)值[HT5”SS]
本文的方法以用戶問題在傳統(tǒng)的檢索模型中的檢索表現(xiàn)作為基準(zhǔn),在此之上通過計算檢索結(jié)果的召回率得出詞項的權(quán)重,具體方法如下。
其中W(t)為問題中詞項的權(quán)重,q為當(dāng)前問題,φ為檢索結(jié)果評價函數(shù),Z為歸一化因子。在本文的方法中,Φ(q)的值為對問題q分別利用向量空間模型、BM25模型及語言模型在候選問題集合上返回的文檔數(shù)之和;φ(q-t)的值為去掉當(dāng)前詞項后,三種模型檢索返回的文檔集與使用問題q檢索返回的文檔集交集中的文檔數(shù)。通過計算這兩者的差值,從而得到當(dāng)前詞項相對于整個問題的重要性,即去掉詞項t之后,剩余問題的檢索結(jié)果與原問題檢索結(jié)果的重合度越低,證明被去掉詞項t越重要,反之則越不重要。利用歸一化因子Z使得問題中的詞項權(quán)值在相同的評價空間上可比較,從而得出問題q中各個詞項的權(quán)重,其中Z是針對于當(dāng)前問題q,三種檢索模型返回的文檔經(jīng)過去重后的文檔數(shù)的和乘以問題q中所有詞項t的權(quán)重W(t)的和。
2.2特征選擇[HT5”SS]
本文在考慮傳統(tǒng)詞項權(quán)重估計的特征之外,加入了基于依存句法分析以及命名實體識別等自然語言分析特征,從而更加合理地發(fā)現(xiàn)與詞項權(quán)重潛在相關(guān)的特征。本文選取的特征如表1所示。
2.3權(quán)值預(yù)測[HT5”SS]
基于上述的特征選擇過程,本文利用回歸模型綜合考慮各個特征,通過訓(xùn)練得出權(quán)重預(yù)測模型。回歸分析的模型表達(dá)式如下。
3問題檢索模型
3.1基于語言模型的檢索模型[HT5”SS]
近年來,語言模型廣泛用于信息檢索的相關(guān)任務(wù),Ponte et al[13]、Strohman et al[14]、Jeon et al[3]、Duan et al[4]、Xue et al[1]、Gao et al[15]及Nie et al[16]等,在其工作中驗證了語言模型用于信息檢索的有效性及合理性,并且基于語言模型的信息檢索,已成為相對成熟且穩(wěn)定的檢索模型,并且廣泛用于商業(yè)搜索及科學(xué)研究之中,其模型的詳細(xì)描述如下。
是基于上述語言模型的檢索模型,能夠通過公式(4)衡量詞項與文檔之間的相關(guān)度,但是由于上述語言模型本身忽略了詞項之間的相關(guān)性,從而使得詞項之間以一種相互獨立的形式存在,對于問題檢索任務(wù)而言,由于用戶的查詢是完整的問題,包含詞項數(shù)量較多,其中部分詞項對于檢索結(jié)果的貢獻(xiàn)較低甚至是負(fù)面的,因此對于用戶問題而言,通過詞項之間的相互關(guān)系確定詞項的權(quán)重比獨立地衡量詞項的權(quán)重更加合理。
3.2基于詞項賦權(quán)的問題檢索[HT5”SS]
在基于語言模型的檢索系統(tǒng)中,詞項之間的相互獨立性使得詞項的權(quán)重并不依賴與其相關(guān)的其它詞,因此語言模型中詞項的權(quán)重有其局限性,本文利用依存句法分析獲取詞項之間的關(guān)系,作為衡量詞項之間關(guān)系的特征,得出2.3節(jié)中基于詞項之間相互關(guān)系的詞項權(quán)重。其后將得到的詞項權(quán)值融合到Indri檢索模型的查詢語言之中,從而影響Indri檢索的詞項權(quán)重分配機制,提高檢索結(jié)果質(zhì)量。表2給出了利用本文方法賦權(quán)之后的Indri查詢語言示例。
4實驗及評價
4.1實驗數(shù)據(jù)集[HT5”SS]
本文選取WikiAnswer的用戶問題作為實驗數(shù)據(jù)集,并選取其中1 200 000個問題作為實驗數(shù)據(jù)集,在此之上隨機抽取4 000個問題作為訓(xùn)練集數(shù)據(jù),1 000個問題作為測試集數(shù)據(jù),剩余的部分作為待檢索的候選問題集。
本文使用Indri工具對候選問題集進(jìn)行索引及查詢,利用其中基于語言模型的檢索模型,將測試集中的1 000個問題投入到檢索模型中,分別返回排名前20的結(jié)果。由兩名標(biāo)注人員對測試集中的問題及檢索結(jié)果進(jìn)行標(biāo)注,對于每一個測試集中的問題來說,人工對20個檢索結(jié)果進(jìn)行判定,分別標(biāo)記為“True”和“False”,同時規(guī)定當(dāng)且僅當(dāng)檢索結(jié)果與當(dāng)前問題是相似問題時,才標(biāo)注“True”,否則標(biāo)注“False”。由此可以得到標(biāo)注后的測試數(shù)據(jù)集。其數(shù)據(jù)分布如表3所示。
4.2實驗結(jié)果[HT5”SS]
本文應(yīng)用基于問題中詞項賦權(quán)的方法改進(jìn)傳統(tǒng)的檢索模型,針對問題檢索任務(wù),能夠更加合理有效地衡量問題和候選問題之間的關(guān)系,實驗結(jié)果如表4所示。
5結(jié)論及后續(xù)工作
本文給出一種計算問題中詞項重要性的新方法,從而改進(jìn)問題中的詞項和候選文檔之間相關(guān)度的計算方法,提高問題檢索的結(jié)果。本文的貢獻(xiàn)主要有以下兩個方面。一方面,本文提出了一種新的基于回歸模型預(yù)測問題中詞項重要性的方法,可以有效識別問題中的關(guān)鍵詞項;另一方面,本文綜合分析了可能影響問題中詞項重要性的特征,并通過一種合理的特征選擇方式得到最優(yōu)的特征組合。
本文用到較為豐富的特征衡量問題中詞項的重要性,但是仍然不能保證其覆蓋所有的語言現(xiàn)象,并且本文對所用到的特征的重要性沒有量化的衡量,因此,在后續(xù)工作中將會考慮繼續(xù)發(fā)現(xiàn)有效特征,并將特征進(jìn)行參數(shù)化,即為不同的特征進(jìn)行權(quán)重估計,從而更加合理有效地改進(jìn)問題中詞項賦權(quán)的工作,更好地提高問題檢索的效果。