齊 樂(lè) 張 宇 劉 挺
(哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心 哈爾濱 150001) (lqi@ir.hit.edu.cn)
社區(qū)問(wèn)答系統(tǒng)(community question answering, CQA)以其靈活的用戶交互特性能夠滿足人們獲取和分享知識(shí)的需求,成為廣受用戶喜愛(ài)的只是知識(shí)共享平臺(tái)[1].與其他社會(huì)媒體相比,CQA提供了一種特有的交互方式.首先,提問(wèn)者將其信息需求以問(wèn)題的方式提交給系統(tǒng),并等待其他用戶給出答案.回答者根據(jù)其個(gè)人興趣、知識(shí)水平,選擇適當(dāng)?shù)奈唇鉀Q問(wèn)題來(lái)回答,以分享自己的知識(shí)[1].
在社區(qū)問(wèn)答中,問(wèn)題相似度計(jì)算有著很重要的意義.針對(duì)用戶提出新的查詢,我們可以通過(guò)判斷問(wèn)題相似,在歷史紀(jì)錄中檢索與之相似的已解決問(wèn)題,并將這些問(wèn)題的答案推薦給用戶,從而避免用戶的重復(fù)提問(wèn),也方便用戶更快速地獲取問(wèn)題答案[1].
社區(qū)問(wèn)答中的問(wèn)題通常包括2個(gè)部分:1)問(wèn)題的主題或標(biāo)題;2)問(wèn)題的詳細(xì)描述.這2部分對(duì)于判斷問(wèn)題相似都有很重要的作用.然而,用戶的提問(wèn)長(zhǎng)短不一,而且由于需求和背景不同,問(wèn)題描述中可能包含大量對(duì)判斷問(wèn)題相似無(wú)意義的背景信息.舉個(gè)例子,對(duì)于相似問(wèn)題S和T(來(lái)源于QatarLiving①),如表1所示,兩者句子長(zhǎng)度相差懸殊,而且問(wèn)題T中包含大量背景信息.在小規(guī)模的語(yǔ)料中,由于訓(xùn)練語(yǔ)料不足,若將全部文本作為神經(jīng)網(wǎng)絡(luò)的輸入會(huì)引入大量噪聲,而神經(jīng)網(wǎng)絡(luò)無(wú)法很好地去除這些噪聲,因此會(huì)干擾對(duì)兩者相似程度的判斷.同時(shí),問(wèn)題主題是問(wèn)題全部信息的高度概括,相似問(wèn)題往往擁有相似的主題,主題不同但問(wèn)題相似的概率很低,表1中的示例也證明了這一點(diǎn).因此問(wèn)題主題也是判斷問(wèn)題相似的重要依據(jù).
Table 1 A Pair of Similar Questions in QatarLiving表1 QatarLiving中的相似問(wèn)題
針對(duì)上述問(wèn)題,本文將關(guān)鍵詞和問(wèn)題主題視為問(wèn)題的關(guān)鍵信息,利用這些信息輔助神經(jīng)網(wǎng)絡(luò)模型判斷問(wèn)題相似,提出了一種基于關(guān)鍵詞和問(wèn)題主題的相似度計(jì)算模型(convolutional neural network based on keywords and topic, KT-CNN).該模型在文本間相似及相異信息的卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional neural network, CNN)模型[2]基礎(chǔ)上引入了關(guān)鍵詞抽取技術(shù)并融入了問(wèn)題主題間的相似度作為特征.
在國(guó)內(nèi)外均有大量研究人員進(jìn)行社區(qū)問(wèn)答中計(jì)算問(wèn)題相似度方面的研究.部分研究人員使用基于翻譯模型的方法判斷問(wèn)題相似或檢索相關(guān)問(wèn)題.Jeon等人[3]利用答案間語(yǔ)義的相似程度來(lái)估計(jì)基于翻譯的問(wèn)題檢索模型的概率;Lee等人[4]基于經(jīng)驗(yàn)將非主題詞以及無(wú)關(guān)詞匯去掉,構(gòu)造了一個(gè)緊湊的翻譯模型.除了詞匯級(jí)別的翻譯模型外;Zhou等人[5]提出了一種短語(yǔ)級(jí)別的翻譯模型以提取更多的語(yǔ)境信息.基于翻譯模型的可以在一定程度上解決文本相異但語(yǔ)義相近的問(wèn)題,但其無(wú)法獲取問(wèn)題的結(jié)構(gòu)信息、詞共現(xiàn)信息以及語(yǔ)料中的詞分布信息,而且會(huì)被翻譯模型本身的誤差所限制.
除了基于翻譯模型的方法外,還有人利用基于主題模型的方法.Duan等人[6]使用基于最小描述長(zhǎng)度(minimum description length, MDL)的樹(shù)模型來(lái)識(shí)別問(wèn)題主題和焦點(diǎn),再通過(guò)問(wèn)題主題和焦點(diǎn)來(lái)搜索相似問(wèn)題;Zhang等人[7]認(rèn)為問(wèn)題和答案包括相同的主題,提出了一個(gè)基于主題的語(yǔ)言模型.該方法不僅對(duì)詞項(xiàng)而且對(duì)主題進(jìn)行了匹配;熊大平等人[8]則提出了基于潛在狄利克雷分布(latent Dirichlet allocation, LDA)的算法,該算法利用問(wèn)句的統(tǒng)計(jì)信息、語(yǔ)義信息和主題信息來(lái)計(jì)算問(wèn)句相似度.這一類方法主要利用問(wèn)題主題的信息,其基本思想是主題相似的問(wèn)題一定相似.其利用主題在語(yǔ)義層次上表示問(wèn)題,但可能忽略文本中的一些細(xì)節(jié)問(wèn)題.
于此同時(shí),基于神經(jīng)網(wǎng)絡(luò)的方法也很流行.dos Santos等人[9]提出了一種將詞袋模型同傳統(tǒng)CNN模型相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,其效果要優(yōu)于傳統(tǒng)詞頻-逆文檔頻率(term frequency-inverse document frequency, TF-IDF)模型和基于長(zhǎng)文本的CNN模型;Lei等人[10]為了解決關(guān)鍵信息隱藏在大量細(xì)節(jié)中的問(wèn)題,提出了一種循環(huán)卷積網(wǎng)絡(luò)將問(wèn)題映射到語(yǔ)義表示.基于神經(jīng)網(wǎng)絡(luò)的模型從文本中自動(dòng)抽取特征,可以更好地利用文本的語(yǔ)義信息,深層次地考慮文本間的相似性.
與這些模型相比,我們的模型利用了問(wèn)題的關(guān)鍵詞及主題信息,對(duì)問(wèn)題的細(xì)節(jié)及全局信息進(jìn)行了建模,能更好地表示問(wèn)題.
我們提出的模型包括關(guān)鍵詞抽取、基于關(guān)鍵詞相似及相異信息的問(wèn)句建模、計(jì)算主題相似度、問(wèn)題相似度計(jì)算4個(gè)模塊.對(duì)于輸入的問(wèn)題S和T,我們進(jìn)行操作:1)進(jìn)行一系列的預(yù)處理操作,再通過(guò)關(guān)鍵詞抽取模塊抽取S和T的關(guān)鍵詞序列KeyS和KeyT;2)利用KeyS和KeyT間相似及相異信息對(duì)問(wèn)題S和T建模得到S和T的特征向量FS和FT;3)對(duì)問(wèn)題S和T的主題TopicS和TopicT計(jì)算相似度Simtopic;4)基于S和T的特征向量FS和FT以及問(wèn)題主題間的相似度Simtopic計(jì)算問(wèn)題S和T的相似度Simq.模型的結(jié)構(gòu)如圖1所示:
Fig. 1 Model architecture圖1 模型結(jié)構(gòu)
我們對(duì)問(wèn)題S和T的主題及描述抽取關(guān)鍵詞KeyS和KeyT.由于問(wèn)題的主題及描述可能包含多個(gè)句子,因此我們對(duì)問(wèn)題的每個(gè)子句都抽取關(guān)鍵詞.我們將其子句的關(guān)鍵詞按照得分進(jìn)行排序,然后再按照子句出現(xiàn)的順序?qū)λ械年P(guān)鍵詞進(jìn)行排序,得到問(wèn)題的關(guān)鍵詞序列.
對(duì)于每個(gè)子句,我們使用了一種無(wú)監(jiān)督的基于依存排序的關(guān)鍵詞提取算法.該算法由王煦祥[11]提出,我們?cè)谠撍惴ǖ幕A(chǔ)上進(jìn)行了一些改進(jìn).對(duì)于給定的問(wèn)句,該算法利用統(tǒng)計(jì)信息、詞向量信息以及詞語(yǔ)間的依存句法信息,通過(guò)構(gòu)建依存關(guān)系圖來(lái)計(jì)算詞語(yǔ)之間的關(guān)聯(lián)強(qiáng)度,利用TextRank算法[12]迭代計(jì)算出詞語(yǔ)的重要度得分.
算法流程如圖2所示,主要步驟包括構(gòu)建無(wú)向有全圖、圖排序以及選取關(guān)鍵詞.
Fig. 2 The flow chart of keywords extraction圖2 關(guān)鍵詞提取流程圖
首先,我們根據(jù)句子的依存句法分析結(jié)果對(duì)所有非停用詞構(gòu)造無(wú)向圖.依存句法分析的結(jié)果為樹(shù)結(jié)構(gòu),只要去掉根節(jié)點(diǎn)并忽略弧的指向便可以得到無(wú)向的依存關(guān)系圖G=(V,E),V=w1,w2,…,wn,E=e1,e2,…,em,其中wi表示詞語(yǔ),ej表示2個(gè)詞語(yǔ)之間的無(wú)向關(guān)系.
接著,我們利用詞語(yǔ)之間的引力值以及依存關(guān)聯(lián)度計(jì)算求得邊的權(quán)重.
詞引力值得概念由Wang等人[13]提出.作者認(rèn)為2個(gè)詞之間的語(yǔ)義相似度無(wú)法準(zhǔn)確衡量詞語(yǔ)的重要程度,只有當(dāng)2個(gè)詞中至少有一個(gè)在文本中出現(xiàn)的頻率很高,才能證明2個(gè)詞很重要.其受到萬(wàn)有引力定律的啟發(fā),將詞頻看作質(zhì)量,將2個(gè)詞的詞向量間的歐氏距離視為距離,根據(jù)萬(wàn)有引力公式來(lái)計(jì)算2個(gè)詞之間的引力.然而在社區(qū)問(wèn)答的環(huán)境中,僅利用詞頻來(lái)衡量文本中某個(gè)詞的重要程度太過(guò)片面,因此我們引入了IDF值,將詞頻替換為TF-IDF值,從而考慮到更全局性的信息.于是我們得到了新的詞引力值公式.文本詞語(yǔ)wi和wj的引力:
(1)
其中,tfidf(w)是詞w的TF-IDF值,d是詞wi和wj的詞向量之間的歐氏距離.
依存關(guān)聯(lián)度的概念由張偉男等人[14]提出.無(wú)向的依存關(guān)系圖保證了問(wèn)句中的任意2個(gè)詞之間都有一條依存路徑,而依存路徑的長(zhǎng)短反映了依存關(guān)系的強(qiáng)弱.因此,該算法根據(jù)依存路徑的長(zhǎng)度,計(jì)算依存關(guān)聯(lián)度:
(2)
其中,len(wi,wj)表示詞語(yǔ)wi和wj之間的依存路徑長(zhǎng)度,b是超參數(shù).
綜上,2個(gè)詞語(yǔ)之間的關(guān)聯(lián)度,即邊的權(quán)重值是2個(gè)詞的引力與依存關(guān)聯(lián)度的乘積:
weight(wi,wj)=Dep(wi,wj)×fgrav(wi,wj).
(3)
最后,我們使用有權(quán)重TextRank算法進(jìn)行圖排序.在無(wú)向圖G=(V,E)中,V是頂點(diǎn)的集合,E是邊的集合,頂點(diǎn)wi的得分由式(4)計(jì)算得出,其中weight(wi,wj)由式(3)計(jì)算得出,Cwi是與頂點(diǎn)wi有邊連接的頂點(diǎn)集合,η為阻尼系數(shù).我們選取得分最高的t個(gè)詞語(yǔ)作為句子的關(guān)鍵詞:
(4)
由于文本間相似信息和相異信息對(duì)判斷2段文本是否相似均有重要的作用,因此我們使用了一種基于文本間相似及相異信息的CNN模型[2]對(duì)問(wèn)題的關(guān)鍵詞序列進(jìn)行建模,并在原模型的基礎(chǔ)上進(jìn)行了改進(jìn).
2.2.1 詞向量表示
我們使用基于Pennington等人[15]提出的GloVe模型預(yù)訓(xùn)練的詞向量來(lái)表示關(guān)鍵詞.對(duì)于關(guān)鍵詞序列KeyS和KeyT,我們將其表示為矩陣:
KS=(KS0,KS1,…,KSi,KSi+1,…,KSm)
(KT=(KT0,KT1,…,KTj,KTj+1,…,KTn)),
其中,KSi和KTj是關(guān)鍵詞的d維詞向量,m和n是KS和KT中包含的關(guān)鍵詞數(shù)量.
2.2.2 語(yǔ)義匹配
為了計(jì)算語(yǔ)義匹配向量,我們先計(jì)算KS和KT的相似矩陣Am×n.原論文使用余弦相似度計(jì)算詞匯間的相似程度,我們將其替換為皮爾森相關(guān)系數(shù),即Am×n中的每個(gè)元素ai,j是KSi和KTj的皮爾森相關(guān)系數(shù),相對(duì)于余弦相似度,皮爾森相關(guān)系數(shù)考慮了對(duì)均值的修正操作,對(duì)向量進(jìn)行了去中心化:
ai,j=Pearson(KSi,KTj),
(5)
(6)
(7)
2.2.3 矩陣分解
(8)
2.2.4 矩陣合并
以問(wèn)題S為例,CNN模型包括2個(gè)連續(xù)的層:卷積層和最大池層.我們?cè)诰矸e層設(shè)置了1組過(guò)濾器{filter0,filter1} ,分別應(yīng)用在相似通道和相異通道上來(lái)生成1組特征.每個(gè)過(guò)濾器的規(guī)模是d×h,d是詞向量的維數(shù),h是窗口的大小,其過(guò)程為
(9)
通過(guò)卷積層我們得到1組特征co=(co,0,co,1,…,co,l)特征的數(shù)量l取決于過(guò)濾器的規(guī)模以及輸入關(guān)鍵詞序列的長(zhǎng)度.為了解決特征數(shù)量不固定的問(wèn)題,我們對(duì)co進(jìn)行最大池化的操作.我們選取co中最大的值作為輸出,即co,max=maxco.因此,經(jīng)過(guò)池化操作后,每組過(guò)濾器生成1個(gè)特征.最后特征向量的維數(shù)將取決于過(guò)濾器的數(shù)量.
Simtopic=Pearson(TPS,TPT).
(10)
我們依靠基于關(guān)鍵詞間相似及相異特征的CNN模型生成的問(wèn)題S和T的特征向量FS和FT以及問(wèn)題主題間的相似度Simtopic計(jì)算問(wèn)題S和T的相似度.我們使用一個(gè)線性模型將所有的特征加權(quán)相加,其中w0,w1,w2是相應(yīng)的權(quán)重,bsig是偏移項(xiàng),最后我們用sigmoid函數(shù)將計(jì)算結(jié)果限制在[0,1]的區(qū)間內(nèi):
Simq=sigmoid(w0*FS+w1*FT+
w2×Simtopic+bsig).
(11)
為了證明我們提出模型的有效性,我們?cè)赟emEval2017[16]的評(píng)測(cè)語(yǔ)料上進(jìn)行了實(shí)驗(yàn).SemEval2017的任務(wù)3子任務(wù)B[16]的主題是社區(qū)問(wèn)答中問(wèn)題相似度計(jì)算.給定一個(gè)新提出的問(wèn)題和10個(gè)由搜索引擎確定的相關(guān)問(wèn)題,我們要依據(jù)問(wèn)題間的相似度對(duì)相關(guān)問(wèn)題進(jìn)行重排序.該任務(wù)對(duì)相關(guān)問(wèn)題設(shè)置了3個(gè)標(biāo)簽,分別為:PerfectMatch,Relevant,Irrelevant.我們認(rèn)為標(biāo)記為PerfectMatch和Relevant的是正例(不區(qū)分PerfectMatch和Relevant),標(biāo)記為Irrelevant的是負(fù)例.對(duì)每一組問(wèn)題的10個(gè)相關(guān)問(wèn)題,我們使用模型得出的相似度對(duì)其進(jìn)行重排序,并計(jì)算其平均精度,最后計(jì)算所有問(wèn)題的平均精度均值(mean average precision,MAP)值作為系統(tǒng)的評(píng)價(jià)指標(biāo).MAP是反映系統(tǒng)在全部相似問(wèn)題上性能的單值指標(biāo).系統(tǒng)檢索出來(lái)的相似問(wèn)題越靠前,MAP就可能越高.因此我們需要將標(biāo)記為正例的問(wèn)題排在標(biāo)記為負(fù)例問(wèn)題的前面.
SemEval2017的評(píng)測(cè)語(yǔ)料來(lái)自于QatarLiving,訓(xùn)練集包括270個(gè)問(wèn)題,每個(gè)問(wèn)題包括10個(gè)相關(guān)問(wèn)題,共2 700個(gè)問(wèn)題對(duì).開(kāi)發(fā)集包括50個(gè)問(wèn)題,共500個(gè)問(wèn)題對(duì).測(cè)試集包括80個(gè)問(wèn)題,共800個(gè)問(wèn)題對(duì).表2展示了1組訓(xùn)練數(shù)據(jù)的樣例,每個(gè)問(wèn)題包含問(wèn)題主題和問(wèn)題內(nèi)容.雖然該任務(wù)是一個(gè)排序任務(wù),但我們?nèi)匀话凑辗诸惾蝿?wù)對(duì)我們的模型進(jìn)行訓(xùn)練并得到了很好的結(jié)果.
Table 2 The Sample of Training Data表2 訓(xùn)練數(shù)據(jù)樣例
在SemEval的語(yǔ)料中,由于用戶書(shū)寫(xiě)不規(guī)范,語(yǔ)料中包含大量的錯(cuò)誤.在實(shí)驗(yàn)前,我們對(duì)其中一些錯(cuò)誤進(jìn)行了處理.表3列出了一些錯(cuò)誤示例以及我們處理后的結(jié)果.用戶會(huì)將一些單詞中的某些字符重復(fù)書(shū)寫(xiě)多次以表達(dá)感情,但這對(duì)我們處理問(wèn)題造成了很大的干擾,因此我們將包含多余字符的詞匯進(jìn)行還原.而有些用戶習(xí)慣用分號(hào)來(lái)分割句子,這會(huì)導(dǎo)致我們分句錯(cuò)誤,因此我們將分號(hào)替換為句號(hào).而且重復(fù)標(biāo)點(diǎn)可能造成分詞錯(cuò)誤或句法分析錯(cuò)誤,因此我們也將重復(fù)的標(biāo)點(diǎn)去掉.與此同時(shí),我們還將所有的字母全部變?yōu)樾?xiě)以便后續(xù)處理.
Table 3 Error Example表3 錯(cuò)誤示例
在CNN模型中,我們?cè)O(shè)置計(jì)算語(yǔ)義匹配向量的窗口w=3,卷積層中過(guò)濾器的尺寸為300×3,卷積層過(guò)濾器的個(gè)數(shù)為500.我們使用對(duì)數(shù)似然函數(shù)作為損失函數(shù),使用SGD算法對(duì)模型進(jìn)行優(yōu)化,同時(shí)設(shè)置學(xué)習(xí)率為0.005.
在實(shí)驗(yàn)中,我們使用了2種不同的詞向量.在關(guān)鍵詞抽取模塊以及CNN模塊中,我們使用斯坦福大學(xué)GloVe模型[15]預(yù)訓(xùn)練的300維的詞向量.該詞向量沒(méi)有在QatarLiving的語(yǔ)料上進(jìn)行訓(xùn)練,更具有通用性,可以在一定程度上防止過(guò)擬合.而在基于問(wèn)題主題的相似度計(jì)算模塊中,我們使用了在QatarLiving語(yǔ)料上進(jìn)行預(yù)訓(xùn)練的200維詞向量[19].該詞向量更具有領(lǐng)域的特殊性,因此更適合用于直接計(jì)算相似度.
首先,我們進(jìn)行一組實(shí)驗(yàn)證明關(guān)鍵詞提取和主題間相似度是有意義的.我們先后去掉基于主題信息的特征和關(guān)鍵詞提取模塊進(jìn)行實(shí)驗(yàn),接著我們將這2個(gè)模塊全部去掉進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表4所示:
Table 4 Model Comparison Experiment表4 模型對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)證明,基于關(guān)鍵詞的模型要優(yōu)于基于全部?jī)?nèi)容的模型.我們從3方面分析原因:
1) 由于不同問(wèn)題包含的詞匯量不同,可能差異很大.這導(dǎo)致將全文作為神經(jīng)網(wǎng)絡(luò)的輸入時(shí),兩者所蘊(yùn)含的信息量相差懸殊,不利于網(wǎng)絡(luò)學(xué)習(xí).而抽取關(guān)鍵詞則將兩者詞匯量上的差距縮小,所蘊(yùn)含的信息量的差距也同時(shí)縮小,這有利于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到有意義的特征.
2) 由于用戶的背景不同,所提出問(wèn)題的背景信息有很大差別,這些背景信息會(huì)干擾模型判斷問(wèn)題相似.抽取關(guān)鍵詞可以將干擾信息減少,幫助模型判斷問(wèn)題相似.
3) 理論上,CNN模型可以通過(guò)多輪學(xué)習(xí)自動(dòng)過(guò)濾無(wú)用信息,但要達(dá)到上述目標(biāo)需要大量的語(yǔ)料.而由于語(yǔ)料不足,神經(jīng)網(wǎng)絡(luò)模型無(wú)法很好地從過(guò)長(zhǎng)的問(wèn)題中抽取特征,將全文作為模型的輸入很有可能造成過(guò)擬合,而將關(guān)鍵詞作為模型的輸入則減輕了這一問(wèn)題.
實(shí)驗(yàn)也證明了問(wèn)題主題相似度的特征可以輔助模型判斷問(wèn)題相似度.我們認(rèn)為,用關(guān)鍵詞序列代替全部文本作為神經(jīng)網(wǎng)絡(luò)的輸入不可避免地會(huì)造成一些信息的流失,關(guān)鍵詞提取本身也會(huì)造成級(jí)聯(lián)錯(cuò)誤.于是我們可以人為添加一些對(duì)判斷問(wèn)題相似度有幫助的特征輔助模型進(jìn)行判斷.而大量的研究表明問(wèn)題主題可以幫助我們判斷問(wèn)題相似,因此我們選擇了問(wèn)題主題相似度作為輔助判斷的依據(jù).
我們用實(shí)驗(yàn)證明關(guān)鍵詞提取模塊中,使用TFIDF而非詞頻來(lái)判斷詞的重要程度是更優(yōu)的選擇.實(shí)驗(yàn)表明引入全局信息有助于表示詞的重要程度.結(jié)果如表5所示:
Table5ComparisonoftheFeatureUsedinComputingtheGravitationalValueofWords
表5 詞引力值使用特征對(duì)比實(shí)驗(yàn)
同時(shí),我們的模型中多次計(jì)算向量間的相似度.因此我們?cè)O(shè)計(jì)了一組實(shí)驗(yàn)來(lái)證明在我們的模型中皮爾森相關(guān)系數(shù)要優(yōu)于余弦相似度,皮爾森相似度可以更好地表示向量之間的相關(guān)程度.我們?cè)谡Z(yǔ)義匹配和矩陣分解以及主題相似度計(jì)算模塊中分別嘗試了余弦相似度以及皮爾森相關(guān)系數(shù),實(shí)驗(yàn)結(jié)果如表6所示:
Table 6 Comparison of Cosine Similarity and Pearson’s Correlation Coefficient表6 余弦相似度與皮爾森相關(guān)系數(shù)對(duì)比實(shí)驗(yàn)
從表6可知,除了當(dāng)主題相似度計(jì)算模塊使用余弦相似度時(shí),在CNN模型中使用皮爾森相關(guān)系數(shù)的結(jié)果略差于余弦相似度且差距不大外,其他任何情況中皮爾森相關(guān)系數(shù)均優(yōu)于余弦相似度.因此可以認(rèn)為在我們的模型中,皮爾森相關(guān)系數(shù)要優(yōu)于余弦相似度.
最后,將我們提出的模型同SemEval2017的評(píng)測(cè)結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表7所示:
Table 7 The Experimental Results in SemEval2017表7 SemEval2017評(píng)測(cè)語(yǔ)料實(shí)驗(yàn)結(jié)果
表7中名稱均為參加評(píng)測(cè)的隊(duì)伍名稱,我們選擇了評(píng)測(cè)中排名前3的模型進(jìn)行比較.KeLP[20]系統(tǒng)基于SVM(support vector machine),使用具有問(wèn)題間關(guān)系鏈接的句法樹(shù)內(nèi)核以及一些文本間的相似性度量計(jì)算問(wèn)題間相似度.Simbow[21]系統(tǒng)在余弦相似度中融入了關(guān)系度量,其使用多種關(guān)系度量計(jì)算余弦相似度,最后使用邏輯回歸模型計(jì)算問(wèn)題相似度.LearningToQuestion[22]系統(tǒng)用神經(jīng)網(wǎng)絡(luò)模型生成特征再使用SVM或邏輯回歸模型計(jì)算問(wèn)題相似度.從表7中我們可以看出,我們的模型要優(yōu)于評(píng)測(cè)中最好的模型,更遠(yuǎn)遠(yuǎn)優(yōu)于基于IR(information retrieval)的基礎(chǔ)模型.但是,我們的模型仍有一些不足:1)由于關(guān)鍵詞提取技術(shù)的準(zhǔn)確度不夠,我們無(wú)法保證是否有關(guān)鍵信息遺漏;2)以關(guān)鍵詞序列作為神經(jīng)網(wǎng)絡(luò)的輸入破壞了問(wèn)題的結(jié)構(gòu),我們無(wú)法利用問(wèn)題結(jié)構(gòu)上的信息來(lái)判斷問(wèn)題相似性;3)我們使用用戶提供的問(wèn)題主題間的相似度作為輔助判斷的依據(jù),但用戶提供的主題可能太過(guò)簡(jiǎn)略,無(wú)法幫助甚至?xí)璧K我們判斷問(wèn)題相似.
我們提出了一種基于關(guān)鍵詞間相似及相異信息的CNN模型去計(jì)算社區(qū)問(wèn)答中問(wèn)題相似度.同時(shí),我們將問(wèn)題主題間的相似度特征融入到模型中,以輔助模型進(jìn)行判斷.我們?cè)赟emEval2017的評(píng)測(cè)語(yǔ)料上進(jìn)行了實(shí)驗(yàn),并超過(guò)了現(xiàn)有的結(jié)果.下一步我們將嘗試更多不同的關(guān)鍵詞抽取算法以及不同的神經(jīng)網(wǎng)絡(luò)模型.同時(shí),我們還會(huì)嘗試在模型中融入主題模型來(lái)替代問(wèn)題主題相似度.