夏遠(yuǎn)遠(yuǎn) 王 宇
(大連理工大學(xué)管理與經(jīng)濟(jì)學(xué)部 遼寧 大連 116024)
近年來(lái),問(wèn)答系統(tǒng)逐漸興起和發(fā)展,提供了不同于搜索引擎返回關(guān)于搜索關(guān)鍵字的一系列相關(guān)文檔的知識(shí)獲取方式,在社區(qū)用戶的參與下問(wèn)答系統(tǒng)可以準(zhǔn)確地提供用戶用自然語(yǔ)言提出的問(wèn)題的答案。典型的問(wèn)答系統(tǒng)如百度知道、知乎、Quora、Yahoo!Answers等,以“知乎”網(wǎng)站為例,累計(jì)共有超過(guò)1 000萬(wàn)個(gè)提問(wèn)以及3 400萬(wàn)個(gè)回答,其中有相當(dāng)一部分問(wèn)題得到了解決。問(wèn)句檢索的主要任務(wù)是在問(wèn)答系統(tǒng)知識(shí)庫(kù)的基礎(chǔ)上,檢索出與當(dāng)前提問(wèn)相似的歷史已解決的問(wèn)題,縮短用戶獲取答案的等待時(shí)間,以及減少用戶重復(fù)提交問(wèn)題造成系統(tǒng)冗余[1]。
問(wèn)句檢索面臨的主要困難是相似語(yǔ)義的查詢問(wèn)句與候選問(wèn)句之間的詞不匹配問(wèn)題,如“失眠如何解決?”和“怎樣快速入睡?”這兩個(gè)問(wèn)題,使用了完全不同的詞匯形式表達(dá)相似的語(yǔ)義,并且由于問(wèn)答系統(tǒng)問(wèn)句一般以短文本形式呈現(xiàn),缺乏足夠的背景語(yǔ)義信息,使得基于嚴(yán)格詞匹配的方法(如VSM模型[2])不能夠召回這樣語(yǔ)義相似但詞形不同的問(wèn)句。
為此,Ponte等[3]將統(tǒng)計(jì)語(yǔ)言模型的方法應(yīng)用到文檔檢索中,對(duì)每一個(gè)候選文檔估計(jì)生成查詢的概率,再根據(jù)概率的大小對(duì)文檔排序。Jeon等[4]使用統(tǒng)計(jì)機(jī)器翻譯概率平滑語(yǔ)言模型,提出了一種基于統(tǒng)計(jì)翻譯的語(yǔ)言模型,借助統(tǒng)計(jì)翻譯獲得的背景語(yǔ)義信息,在一定程度上解決了語(yǔ)言模型的詞不匹配問(wèn)題。Xue[5]等將語(yǔ)言模型的背景平滑機(jī)制融入到IBM Model 1中,提出了基于翻譯模型的語(yǔ)言模型,其通過(guò)答案相似度判斷問(wèn)題相似的方法構(gòu)造翻譯模型平行語(yǔ)料,也在一定程度上解決了翻譯噪聲的問(wèn)題。但是該模型在平行語(yǔ)料缺乏或者質(zhì)量不高時(shí),翻譯概率的準(zhǔn)確性較差,這就需要對(duì)可能出現(xiàn)偏差的翻譯概率利用人工詞典進(jìn)行修正。文獻(xiàn)[6-8]通過(guò)獲得問(wèn)句的潛在主題信息,提高翻譯模型的檢索性能。但由于翻譯模型的準(zhǔn)確性易受訓(xùn)練語(yǔ)料集及文本語(yǔ)義表達(dá)的影響,致使檢索效果不夠理想。文獻(xiàn)[9]引入能夠反映自然語(yǔ)言中語(yǔ)義內(nèi)涵概念之間關(guān)系的概念層次網(wǎng)絡(luò)HNC理論[10-11],探討了在信息檢索中增強(qiáng)檢索智能的處理模式,為問(wèn)句檢索模型提供了語(yǔ)義信息來(lái)源。
本文在翻譯模型基礎(chǔ)上,收集社區(qū)問(wèn)答系統(tǒng)高質(zhì)量的相似問(wèn)句對(duì),構(gòu)建翻譯模型訓(xùn)練語(yǔ)料集,減少不必要的噪聲。同時(shí)考慮到HNC理論符號(hào)體系在語(yǔ)義表達(dá)上合理完備的優(yōu)點(diǎn),引入HNC理論詞語(yǔ)知識(shí)庫(kù)修正翻譯概率,構(gòu)建新的問(wèn)句檢索模型,并給出問(wèn)句檢索模型的實(shí)現(xiàn)算法。實(shí)驗(yàn)結(jié)果表明,本文提出的實(shí)現(xiàn)算法能有效提高翻譯模型的性能,獲得更好的檢索效果。
翻譯概率需要背景訓(xùn)練語(yǔ)料提供先驗(yàn)知識(shí),相應(yīng)的訓(xùn)練語(yǔ)料集的質(zhì)量對(duì)翻譯概率的準(zhǔn)確性有顯著的影響。由于平行語(yǔ)料難以獲得,之前的研究者多采用問(wèn)題及其答案作為近似的平行語(yǔ)料獲得翻譯概率。可以發(fā)現(xiàn),問(wèn)題和答案在長(zhǎng)度以及表達(dá)方式上有比較明顯的差異,使用它們作為背景語(yǔ)料不可避免地容易發(fā)生詞項(xiàng)誤翻譯的情況??紤]到“知乎”和“百度知道”等社區(qū)問(wèn)答系統(tǒng)記錄了豐富的用戶關(guān)于問(wèn)題的標(biāo)記信息,部分問(wèn)題還有用戶直接標(biāo)記的相似問(wèn)題,利用這些信息可以構(gòu)建高質(zhì)量平行語(yǔ)料。
社區(qū)問(wèn)答系統(tǒng)提供問(wèn)題標(biāo)記的方法,作為一種標(biāo)簽信息,問(wèn)題標(biāo)記一般用來(lái)表示問(wèn)題的類別、領(lǐng)域、話題或者主題等信息。由于問(wèn)題的標(biāo)記由社區(qū)用戶共同添加,充分地從不同側(cè)面對(duì)問(wèn)題進(jìn)行抽象,這就使得標(biāo)記成為理解問(wèn)題的一個(gè)重要的信息來(lái)源。具有相同標(biāo)記的問(wèn)題具有相似度比較的基礎(chǔ),自然地,相同標(biāo)記越多的問(wèn)題往往語(yǔ)義上就越可能是相似的。以下在問(wèn)題標(biāo)記的基礎(chǔ)上,介紹利用VSM算法識(shí)別相似問(wèn)題的方法。
對(duì)于給定的兩個(gè)問(wèn)答對(duì)中問(wèn)句的Q1和Q2,它們的相似計(jì)算公式如下:
SQ1,Q2=αSt1,t2+βSa1,a2
(1)
式中:St1,t2表示問(wèn)答對(duì)間問(wèn)題標(biāo)記集合的相似度,首先將t1、t2的全部標(biāo)記項(xiàng)組成長(zhǎng)度為m的集合C,若t1中的問(wèn)題標(biāo)記t1i出現(xiàn)在集合C中,該問(wèn)題標(biāo)記為1,否則為0,則問(wèn)題標(biāo)記集合的相似度計(jì)算公式如下:
(2)
Sa1,a2表示問(wèn)題答案相似度,計(jì)算公式如下:
(3)
通過(guò)收集問(wèn)答對(duì)資源,計(jì)算每一個(gè)問(wèn)答對(duì)與其余問(wèn)答對(duì)的相似度大小,設(shè)置閾值T,將SQ1,Q2值大于T的問(wèn)句判定為相似問(wèn)句,將判定為相似的問(wèn)句對(duì)組成第一部分的相似問(wèn)句訓(xùn)練語(yǔ)料集。
人工標(biāo)記的相似問(wèn)句對(duì)在之前比較難以獲取,而隨著問(wèn)答系統(tǒng)越來(lái)越強(qiáng)調(diào)社區(qū)用戶對(duì)問(wèn)答資源管理的作用,用戶在瀏覽問(wèn)答時(shí)可以將其認(rèn)為相似的兩個(gè)或者多個(gè)問(wèn)題進(jìn)行合并,問(wèn)答系統(tǒng)則記錄這種合并關(guān)系。依靠人工判定的相似問(wèn)題往往具有更高的準(zhǔn)確性,理論上可以發(fā)現(xiàn)任何形式具有相似語(yǔ)義的問(wèn)題。通過(guò)問(wèn)答系統(tǒng)提供的關(guān)于問(wèn)題合并的功能收集得到相似問(wèn)句對(duì),作為另一部分的平行語(yǔ)料,用來(lái)訓(xùn)練翻譯模型獲得詞項(xiàng)間的翻譯概率。
當(dāng)前在問(wèn)句檢索中被證明使用效果較好的模型是由Xue等提出的,該模型的排序機(jī)制如下:
PTLM(w|(q,a))=λ1Pml(w|q)+
(4)
式中:q,a分別為待檢索問(wèn)句及其答案,P(w|t)作為翻譯概率表示查詢問(wèn)句的詞項(xiàng)w與候選問(wèn)句q的詞項(xiàng)t的互譯概率,ml表示語(yǔ)言模型的極大似然估計(jì)方法。
該翻譯模型使用具有相似語(yǔ)義的同種語(yǔ)言句子作為互為翻譯的平行語(yǔ)料,其翻譯概率能夠在一定程度上體現(xiàn)詞項(xiàng)間的語(yǔ)義關(guān)系。但詞項(xiàng)w和t可能由于訓(xùn)練語(yǔ)料的偏差造成翻譯概率P(w|t)過(guò)高或者過(guò)低。
為此,引入HNC理論。該理論及其語(yǔ)言處理技術(shù)通過(guò)建立人工的語(yǔ)言概念基元符號(hào)體系,能夠準(zhǔn)確描述自然語(yǔ)言詞匯中蘊(yùn)涵的概念知識(shí),同時(shí)在翻譯概率發(fā)生偏差時(shí),通過(guò)其具有的語(yǔ)義知識(shí)和概念之間關(guān)系,消除不準(zhǔn)確的翻譯概率對(duì)檢索結(jié)果帶來(lái)的影響。
在HNC理論中,詞項(xiàng)w和t可以看作概念在自然語(yǔ)言中的映射符號(hào),分別記為thnc和whnc。
記引入HNC理論的詞匯語(yǔ)義符號(hào)修正翻譯概率形成的新翻譯概率為Phnc+(w|t),則Phnc+(w|t)定義為:
Phnc+(w|t)=P(w,whnc|t,thnc)=
P(w|t,thnc)P(whnc|t,thnc)=
P(w|t)P(whnc|thnc)
式中:thnc是一個(gè)概念的兩個(gè)不同映射結(jié)果,它們彼此之間是獨(dú)立的,因此,第一步到第二步的推導(dǎo)和第二步到第三步的推導(dǎo)成立。對(duì)于P(whnc|thnc)的計(jì)算,使用詞項(xiàng)在HNC語(yǔ)義網(wǎng)絡(luò)中的映射符號(hào)whnc,thnc的相似度sim(whnc,thnc)獲得,sim(whnc,thnc)通過(guò)衡量詞項(xiàng)w和t在HNC理論概念層次樹(shù)中的距離以及所在層次計(jì)算得出。
為了提高式(4)排序機(jī)制的準(zhǔn)確性,使用修正后的翻譯概率結(jié)合式(4)的檢索模型,得到新的問(wèn)句檢索排序公式,如式(5)所示。
Phnc+(w|(q,a))=αPml(w|q)+
γPml(w|a)
(5)
式中:w表示查詢中特定詞項(xiàng),q、a分別表示待檢索問(wèn)答對(duì)的問(wèn)句以及答案,ml表示語(yǔ)言模型的極大似然估計(jì)方法。對(duì)于翻譯概率P(w|t)使用GIZA++[12]軟件獲得,HNC詞匯語(yǔ)義符號(hào)相似度p(whnc|thnc)使用文獻(xiàn)[13]中HNC詞匯相似度計(jì)算方法。
從排序公式組成上看,一方面利用了翻譯模型先進(jìn)的詞匯匹配的優(yōu)勢(shì),消除詞匯間的語(yǔ)義鴻溝,同時(shí)引入HNC詞匯語(yǔ)義知識(shí),修正了翻譯噪聲對(duì)檢索結(jié)果的影響。當(dāng)前HNC理論詞語(yǔ)知識(shí)庫(kù)收錄常見(jiàn)的漢語(yǔ)詞匯共計(jì)36 431個(gè),覆蓋絕大部分日常用語(yǔ)詞匯,但由于問(wèn)句檢索面向開(kāi)放的問(wèn)答系統(tǒng),出現(xiàn)的新詞由于人工構(gòu)建詞庫(kù)的滯后,不能在HNC詞庫(kù)被及時(shí)更新,當(dāng)出現(xiàn)詞項(xiàng)不能夠被映射到HNC語(yǔ)義網(wǎng)絡(luò)符號(hào)上的情況時(shí),取sim(whnc,thnc)=P(w|t),即認(rèn)為統(tǒng)計(jì)獲得的翻譯概率是正確的。以上通過(guò)融入HNC理論詞匯語(yǔ)義知識(shí),實(shí)現(xiàn)了詞匯語(yǔ)義信息對(duì)統(tǒng)計(jì)翻譯概率準(zhǔn)確性的修正,構(gòu)建了新的問(wèn)句檢索模型。
模型實(shí)現(xiàn)算法如下:
輸入:查詢問(wèn)句s,待檢索問(wèn)答對(duì)集合Cq,a
輸出:對(duì)于在待檢索問(wèn)答對(duì)集合Cq,a中所有待檢索問(wèn)句q關(guān)于s的排序結(jié)果
(1) 對(duì)s分詞形成查詢問(wèn)句詞項(xiàng)集合Cs。
(2)在Cq,a任取一對(duì)候選問(wèn)答對(duì)q,a。
(3) 對(duì)于每一個(gè)在查詢問(wèn)句詞項(xiàng)集合Cs中的詞項(xiàng)w使用式(4)的排序機(jī)制計(jì)算Phnc+(w|(q,a))。
(4) 獲得Phnc+(w|(q,a))后,使用式(5)計(jì)算查詢問(wèn)句s和待檢索問(wèn)句q的相似度Scores,q。
(5) 重復(fù)(2)到(4)步驟的過(guò)程,直至獲取全部待檢索問(wèn)答對(duì)集合Cq,a的相似度Scores,q。
(6) 按照Scores,q大小對(duì)待檢索問(wèn)句集合排序,獲取問(wèn)句檢索排序結(jié)果。
由于HNC理論概念詞庫(kù)建設(shè)的限制,本實(shí)驗(yàn)的數(shù)據(jù)集的語(yǔ)言環(huán)境選擇為中文。在獲取翻譯模型的訓(xùn)練集數(shù)據(jù)方面,為了驗(yàn)證使用用戶標(biāo)記信息和用戶交互信息給訓(xùn)練集數(shù)據(jù)質(zhì)量提高的有效性,準(zhǔn)備了兩組翻譯模型的訓(xùn)練語(yǔ)料集。首先在“知乎”網(wǎng)站上隨機(jī)收集了共691 138個(gè)完整的問(wèn)答對(duì)(包括問(wèn)題問(wèn)句、問(wèn)題答案和問(wèn)題標(biāo)記),作為第一組訓(xùn)練語(yǔ)料集。然后通過(guò)問(wèn)答系統(tǒng)的標(biāo)記特征,在以上問(wèn)答對(duì)內(nèi)兩兩計(jì)算問(wèn)句相似度,并且把相似度閾值T設(shè)置為0.6,式(1)的α、β分別設(shè)置為0.4、0.6,最終共獲得2 246 342個(gè)相似問(wèn)句對(duì),之后利用“知乎”網(wǎng)站的相似問(wèn)題合并功能收集了15 790個(gè)人工標(biāo)記的相似問(wèn)句對(duì),則使用本文方法構(gòu)建的訓(xùn)練集中共有2 262 132對(duì)相似問(wèn)句對(duì),作為第二組訓(xùn)練語(yǔ)料集。
在測(cè)試集方面,使用已被人工標(biāo)記的1 140個(gè)測(cè)試問(wèn)句,每個(gè)測(cè)試問(wèn)句有20個(gè)候選問(wèn)句,這20個(gè)候選問(wèn)句被分別標(biāo)記為0或者1(0和1分別表示與測(cè)試問(wèn)句不相似和相似)。同時(shí)隨機(jī)選擇20個(gè)測(cè)試問(wèn)句作為開(kāi)發(fā)集調(diào)試參數(shù),最后將剩下的作為測(cè)試問(wèn)句驗(yàn)證各實(shí)驗(yàn)對(duì)比系統(tǒng)。
模型評(píng)價(jià)選擇了多種具有代表性的問(wèn)句檢索模型作為對(duì)比模型,它們代表了各階段使用效果較好的經(jīng)典模型,具體模型如下:
(1) 語(yǔ)言模型:以Jeon等[4]提出的首次將語(yǔ)言模型應(yīng)用到問(wèn)句檢索的模型為代表。
(2) 基于翻譯模型的語(yǔ)言模型:以Xue等[5]提出的基于翻譯模型的語(yǔ)言模型為代表。
(3) 主題翻譯模型:融合了主題信息的翻譯模型的改進(jìn)模型,以張偉男等[6]提出的主題翻譯模型為代表。
將以上檢索模型與本文提出的基于HNC理論問(wèn)句模型(模型4)做檢索結(jié)果上的比較,驗(yàn)證模型性能。
檢索結(jié)果的評(píng)價(jià)指標(biāo)選擇AP@1、MAP和MRR:
AP@1:關(guān)于特定查詢的檢索排序結(jié)果中,相關(guān)問(wèn)句在第一位的平均百分比。
MAP:表示返回結(jié)果的平均準(zhǔn)確率,本實(shí)驗(yàn)中計(jì)算每個(gè)查詢返回的前10個(gè)結(jié)果的平均準(zhǔn)確率,即MAP10。
MRR:在保證MAP檢索準(zhǔn)確性的同時(shí),還要關(guān)注檢索結(jié)果的排序順序,MRR是加入排序順序影響后的檢索結(jié)果準(zhǔn)確率。
分別使用第一組訓(xùn)練集和第二組訓(xùn)練集獲得翻譯概率P(w|t),并且在模型1上驗(yàn)證訓(xùn)練集對(duì)檢索結(jié)果的影響。圖1為模型1在兩組訓(xùn)練集上各評(píng)價(jià)指標(biāo)的結(jié)果。
圖1 模型1在兩組訓(xùn)練集上檢索結(jié)果評(píng)價(jià)指標(biāo)
從圖1可以看出第二組訓(xùn)練集提高了模型的檢索性能,驗(yàn)證了通過(guò)用戶標(biāo)記以及交互信息收集訓(xùn)練語(yǔ)料集的有效性。以下實(shí)驗(yàn)均在第二組訓(xùn)練集上進(jìn)行的。
使用開(kāi)發(fā)集數(shù)據(jù)將對(duì)比模型參數(shù)調(diào)至最優(yōu),改進(jìn)后的模型式(4)中參數(shù)α、β和γ的值分別為0.3、0.5和0.2。各實(shí)驗(yàn)?zāi)P驮跍y(cè)試數(shù)據(jù)集上的性能指標(biāo)結(jié)果見(jiàn)表1。
表1 四種模型在MRR、MAP和AP@1上的結(jié)果
由表1,可以得出如下分析結(jié)果:
(1) 相較于模型1(語(yǔ)言模型),其他三種模型在全部性能指標(biāo)上都明顯優(yōu)于以模型1為代表的語(yǔ)言模型。可以看出,語(yǔ)言模型由于缺少合適的平滑機(jī)制,依靠詞與詞之間的嚴(yán)格匹配度量句子間的相似度,使得詞形不同但語(yǔ)義相同的句子不能被召回。另外雖然語(yǔ)言模型使用了與其他三種模型同樣的使用翻譯概率作為查詢擴(kuò)展信息的來(lái)源,但是語(yǔ)言模型使用的平滑方式限制了翻譯概率擴(kuò)展查詢的效果。
(2) 模型3(主題翻譯模型)和模型4(基于HNC理論的翻譯模型)在MAP、MRR指標(biāo)上要優(yōu)于改進(jìn)之前的模型2(基于翻譯模型的語(yǔ)言模型)。說(shuō)明前兩種模型的檢索結(jié)果平均準(zhǔn)確率要好于后一種模型,因?yàn)槟P?和模型4均是在模型2的基礎(chǔ)上改進(jìn),模型3是將主題信息引入基于翻譯的語(yǔ)言模型當(dāng)中,通過(guò)主題信息約束翻譯噪聲,從而提高翻譯概率的準(zhǔn)確性。而模型4從提高翻譯概率準(zhǔn)確性入手,使用可靠的外部語(yǔ)義知識(shí)在調(diào)整詞項(xiàng)權(quán)重的同時(shí)修正翻譯概率,都對(duì)模型性能的提高做出了貢獻(xiàn),并且模型4表現(xiàn)優(yōu)于模型3,說(shuō)明HNC理論概率修正的良好效果。
(3) 可以看出在全部的評(píng)價(jià)指標(biāo)上模型4均優(yōu)于模型3。模型3和模型4都采用引入語(yǔ)義信息的方法,提高翻譯模型語(yǔ)義相似度的計(jì)算能力,但模型3利用背景語(yǔ)料的統(tǒng)計(jì)詞共現(xiàn)信息,容易出現(xiàn)因?yàn)橛?xùn)練數(shù)據(jù)導(dǎo)致的統(tǒng)計(jì)錯(cuò)誤,影響最終的主題生成效果,同時(shí)若文本長(zhǎng)度過(guò)短也不利于主題模型獲取潛在主題語(yǔ)義信息。模型4通過(guò)引入HNC理論的詞匯語(yǔ)義知識(shí),從全局概念空間的角度擴(kuò)展了詞的語(yǔ)義信息來(lái)源,不受當(dāng)前文本數(shù)據(jù)的影響,提供了更準(zhǔn)確的詞項(xiàng)語(yǔ)義信息,輔助修正翻譯概率的準(zhǔn)確性,提高了問(wèn)句檢索的效果。
(4) 在實(shí)際實(shí)驗(yàn)過(guò)程中,發(fā)現(xiàn)本文的方法較之引入主題信息的模型3從計(jì)算的準(zhǔn)備時(shí)間到計(jì)算速度上都要更快,主題模型需要訓(xùn)練集得到潛在主題分布情況后才能用于問(wèn)句檢索,而本文提出的方法在將詞匯映射到HNC概念空間后,即可進(jìn)行問(wèn)句對(duì)相似度的計(jì)算,因此更適合實(shí)際場(chǎng)景下的問(wèn)句檢索。
本文從提高翻譯概率準(zhǔn)確性方面考慮,首先利用社區(qū)問(wèn)答系統(tǒng)的問(wèn)題標(biāo)記以及用戶人工合并的相似問(wèn)題收集高質(zhì)量的相似問(wèn)句對(duì)作為平行語(yǔ)料,然后將HNC理論語(yǔ)義知識(shí)結(jié)合到詞項(xiàng)翻譯過(guò)程中,從而解決翻譯概率語(yǔ)義相似度度量的問(wèn)題。通過(guò)實(shí)驗(yàn)證明了HNC理論引入的語(yǔ)義知識(shí)對(duì)翻譯概率準(zhǔn)確性的提高,同時(shí)也說(shuō)明了整合后的模型的有效性。
同時(shí)也可以發(fā)現(xiàn),雖然HNC理論在自然語(yǔ)言理解上具備一定的優(yōu)勢(shì),但由于需要人工進(jìn)行自然語(yǔ)言到HNC理論概念空間的映射,人工建立映射的滯后性限制了HNC理論應(yīng)用的范圍。在后續(xù)的工作中,將試圖解決檢索依賴詞項(xiàng)映射這一問(wèn)題。