陳鑫,邱占芝
(大連交通大學(xué) 機(jī)械工程學(xué)院,遼寧 大連 116028)
在對(duì)話生成領(lǐng)域,探索對(duì)話過(guò)程中的話題轉(zhuǎn)換,對(duì)于了解對(duì)話的趨勢(shì)和走向十分重要.話題轉(zhuǎn)換是指會(huì)話過(guò)程中談話主題切換的過(guò)渡過(guò)程[1].在對(duì)話過(guò)程中,話題轉(zhuǎn)換連接了不同的話題線索,話題線索包含多個(gè)毗鄰對(duì),每個(gè)毗鄰對(duì)又是由兩個(gè)話輪組成.因此,話題線索、毗鄰對(duì)和話輪在對(duì)話結(jié)構(gòu)中形成自上而下的分層次描述關(guān)系.總的來(lái)說(shuō),對(duì)于如何準(zhǔn)確地識(shí)別話題轉(zhuǎn)換,語(yǔ)義相似度的研究是至關(guān)重要的.通過(guò)研究發(fā)現(xiàn),實(shí)現(xiàn)對(duì)話過(guò)程中的話題轉(zhuǎn)換的切分與判別,可以分為以下三個(gè)步驟.首先,通過(guò)語(yǔ)義相似度模型計(jì)算話輪間的相似度,通過(guò)相似度判定閾值進(jìn)行相似性話輪的篩選,得到切分后的話輪組;其次,把所有已切分的話輪組輸入到主題模型中,得到每個(gè)話輪組對(duì)應(yīng)的主題向量;最后,將多個(gè)話輪組中提取的主題向量輸入到聚類模型中,輸出得到與話輪組對(duì)應(yīng)的主題類別,從而明確在對(duì)話過(guò)程中的主題類別的轉(zhuǎn)換.
在之前的研究進(jìn)程中,研究人員們主要從基于距離屬性、基于內(nèi)容和基于深度學(xué)習(xí)三個(gè)不同維度進(jìn)行語(yǔ)義文本的相似度計(jì)算研究.
基于距離的語(yǔ)義相似度計(jì)算是通過(guò)在層次樹中的位置距離差異來(lái)測(cè)算語(yǔ)義相似度.差異越小,相似度越大;差異越大,相似度越小[2].YANG等人[3]提出這種方法以分布假設(shè)為基礎(chǔ),認(rèn)為相似的單詞之間存在相似的語(yǔ)義,并通過(guò)各種類型的文本向量化方法將文本轉(zhuǎn)換為詞向量,通過(guò)計(jì)算得到向量間距離來(lái)評(píng)估文本間的相似度.CAMACHO等人[4]提出若兩個(gè)文本之間有更多的相同屬性,相似度較高;若兩個(gè)文本之間相同屬性較少,則相似度較低,此方法在很大程度上依賴于文本屬性集的自身屬性.
基于內(nèi)容屬性語(yǔ)義相似度計(jì)算方法,根據(jù)內(nèi)容源不同可分為語(yǔ)義詞典和大型知識(shí)庫(kù)資源兩大類[5].在語(yǔ)義詞典方面,LOGESWARAN等人[6]提出在計(jì)算的句子間的相似度過(guò)程中以詞粒度作為考量,通過(guò)詞語(yǔ)間相似度的加權(quán)求和來(lái)評(píng)估相似度,過(guò)程中并未考慮到句法結(jié)構(gòu)間的聯(lián)系,所以導(dǎo)致對(duì)長(zhǎng)文本的相似度計(jì)算不準(zhǔn)確.在大型知識(shí)庫(kù)資源方面,YEH等人[7]提出基于大型知識(shí)庫(kù)資源的方法具有知識(shí)資源豐富和迭代速度較快的特點(diǎn),但也存在著諸多問(wèn)題,如知識(shí)層次及密度分布不均、知識(shí)體系不夠完備、相關(guān)資源獲取不直接且無(wú)法量化計(jì)算等.
基于深度學(xué)習(xí)的語(yǔ)義相似度計(jì)算方法可分為無(wú)監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí).LE[8]等人提出無(wú)監(jiān)督學(xué)習(xí)是數(shù)據(jù)集本身進(jìn)行信息自監(jiān)督訓(xùn)練,并對(duì)詞向量加權(quán)求和得到句向量,最終計(jì)算句向量間距離來(lái)評(píng)估語(yǔ)義間的文本相似度.HILL等人[9]則認(rèn)為無(wú)監(jiān)督學(xué)習(xí)無(wú)法將帶有標(biāo)簽的信息和先驗(yàn)知識(shí)融入模型之中,導(dǎo)致計(jì)算準(zhǔn)確率較低且計(jì)算時(shí)間較長(zhǎng).CONNEAU等人[10]提出了監(jiān)督學(xué)習(xí)的方法,該方法運(yùn)用帶有標(biāo)簽的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,提升了模型的時(shí)效性,比無(wú)監(jiān)督學(xué)習(xí)展示出來(lái)更好的模型總體性能.
總的來(lái)說(shuō),基于距離屬性的語(yǔ)義相似度計(jì)算通常存在著對(duì)大規(guī)模對(duì)話語(yǔ)料庫(kù)需求較大且在計(jì)算時(shí)不考慮文本的語(yǔ)義信息及句子結(jié)構(gòu)信息的問(wèn)題.而基于內(nèi)容屬性的語(yǔ)義相似度計(jì)算通常存在著算法遷移難度大、人工成本高及不同的句法結(jié)構(gòu)適應(yīng)能力差的缺點(diǎn).本文從語(yǔ)義相似度評(píng)價(jià)效果較好的深度學(xué)習(xí)領(lǐng)域中的監(jiān)督學(xué)習(xí)繼續(xù)深入,將選取監(jiān)督學(xué)習(xí)方法中的孿生網(wǎng)絡(luò)架構(gòu)作為基礎(chǔ)架構(gòu)并運(yùn)用BIGRU進(jìn)行語(yǔ)義特征的深層次提取,該方法在充分挖掘上下文因果關(guān)系的同時(shí),具有極高的時(shí)效性.同時(shí),在BIGRU后,加入了attention機(jī)制,進(jìn)一步提升了上下文關(guān)鍵語(yǔ)義的捕捉能力.最終完成基于Siamese-BIGRU-Attention的語(yǔ)義相似度計(jì)算模型的設(shè)計(jì).
本文提出的基于Siamese-BIGRU-Attention的語(yǔ)義相似度計(jì)算模型是由兩個(gè)相同的網(wǎng)絡(luò)結(jié)構(gòu)A和B組成的孿生網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)主要由輸入層、嵌入層、BIGRU層、注意力全連接層和匹配層組成,如圖1所示.
圖1 基于Siamese-BIGRU-Attention計(jì)算模型
輸入層:將對(duì)話過(guò)程中的句子S1和S2進(jìn)行預(yù)處理,然后將其輸入到模型的嵌入層.
嵌入層:將句子中的每個(gè)單詞映射為一個(gè)低維的稠密向量.預(yù)處理后的等長(zhǎng)度的句子序列為Sn=(Wn1,Wn2,…,Wnn),每一個(gè)單詞都需被轉(zhuǎn)換為一個(gè)詞嵌入向量,然后將其作為后面神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入.
BIGRU層:本文通過(guò)BIGRU提取句子的深層語(yǔ)義特征.GRU相對(duì)于RNN來(lái)說(shuō),有效地解決了梯度消失的問(wèn)題.GRU是在LSTM結(jié)構(gòu)的基礎(chǔ)上,將輸入門與遺忘門合并成更新門,同時(shí)將原來(lái)的輸出門更新成重置門.GRU和LSTM都是通過(guò)門結(jié)構(gòu)來(lái)保留文本序列的重要特征,但GRU相比于LSTM少了一個(gè)門,同時(shí)也具有更少的參數(shù)數(shù)量,因此GRU的訓(xùn)練速度要更快一些.由于GRU網(wǎng)絡(luò)無(wú)法聯(lián)系全部上下文信息,因此增加了GRU的反向輸入,再將正反向的 GRU合并構(gòu)建雙向門控循環(huán)單元BIGRU,此結(jié)構(gòu)充分利用了上下文信息挖掘文本序列的因果關(guān)系.
注意力全連接層:本文利用注意力機(jī)制將對(duì)句子語(yǔ)義有更重要貢獻(xiàn)的單詞賦予較大的權(quán)重,反之則賦予較少的權(quán)重,這樣更能準(zhǔn)確地表達(dá)句子語(yǔ)義.選用全連接層則是實(shí)現(xiàn)特征表示到樣本空間的映射,它可以實(shí)現(xiàn)特征提取的綜合.
匹配層:計(jì)算句子語(yǔ)義向量的余弦相似度,并得到輸出.在得到兩個(gè)句子S1和S2的語(yǔ)義表示后,在句子的語(yǔ)義空間中計(jì)算兩個(gè)向量的余弦相似度,從而判斷兩個(gè)句子是否語(yǔ)義相似.
本文選取日常會(huì)話片段標(biāo)注庫(kù)作為模型訓(xùn)練的數(shù)據(jù)集.該數(shù)據(jù)集主要包含700個(gè)日常會(huì)話片段,按照不同的話題內(nèi)容,分為7個(gè)大組:工作、學(xué)習(xí)、娛樂(lè)、飲食、交通、情感及天氣.每個(gè)大組包含100個(gè)會(huì)話片段,每個(gè)會(huì)話片段包含20條話語(yǔ)消息,合計(jì)14 000條話語(yǔ)消息.通過(guò)不同場(chǎng)景下的日常對(duì)話,來(lái)進(jìn)行語(yǔ)義相似度模型的訓(xùn)練.
語(yǔ)義相似度評(píng)價(jià)方面,當(dāng)兩個(gè)句子的相似度大于相似度閾值時(shí),我們判定這兩個(gè)句子相似;當(dāng)兩個(gè)句子的相似度小于相似度閾值時(shí),我們判定這兩個(gè)句子不相似.對(duì)于本實(shí)驗(yàn),我們采用準(zhǔn)確率Accuracy和F1 score值作為評(píng)價(jià)指標(biāo),計(jì)算公式如式(1)和式(2)所示:
(1)
(2)
其中,TP表示相似句子判定為相似的個(gè)數(shù),F(xiàn)P表示不相似句子判定為相似的個(gè)數(shù),F(xiàn)N表示相似句子判定為非相似的個(gè)數(shù),TN表示不相似句子判定為非相似的個(gè)數(shù).
為了驗(yàn)證本文方法Siamese-BIGRU-Attention模型的有效性,同時(shí)為了比較不同模型的性能和效果.本文加入了TF-IDF、 Siamese-CNN和Siamese-BIGRU模型進(jìn)行對(duì)比實(shí)驗(yàn),并均采用準(zhǔn)確率Acuracy和F1值評(píng)價(jià)指標(biāo)來(lái)比較實(shí)驗(yàn)效果.
TF-IDF計(jì)算語(yǔ)義相似度可分為三個(gè)步驟,首先篩選出上下文不同句子的關(guān)鍵詞,將其合并為一個(gè)集合,計(jì)算得到每句話對(duì)于該集合中各個(gè)詞的詞頻;然后通過(guò)TfidfVectorizer生成上下文兩句話各自的詞頻向量;最后計(jì)算得到兩個(gè)向量的余弦相似度.通過(guò)計(jì)算,該語(yǔ)義相似度計(jì)算方法的準(zhǔn)確率為74.23%,總體來(lái)說(shuō),準(zhǔn)確率不高,主要制約于該方法屬于淺層詞匯匹配,對(duì)于復(fù)雜的對(duì)話文本,相似度匹配性能有限.
基于卷積神經(jīng)網(wǎng)絡(luò)編碼的Siamese-CNN模型計(jì)算語(yǔ)義相似度可包含兩個(gè)關(guān)鍵點(diǎn):其一,運(yùn)用CNN實(shí)現(xiàn)提取特征,并通過(guò)特征向量來(lái)構(gòu)造損失函數(shù),進(jìn)行網(wǎng)絡(luò)訓(xùn)練;其二,利用孿生神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵詞,同時(shí)將不同輸入映射成特征向量,通過(guò)兩個(gè)向量之間的距離來(lái)測(cè)算不同輸入之間的差異.通過(guò)計(jì)算,該語(yǔ)義相似度計(jì)算方法的準(zhǔn)確率為79.92%,精度不是很高主要是由于卷積神經(jīng)網(wǎng)絡(luò)更加擅于提取句子的局部特征,獲取全局語(yǔ)義編碼的能力有限.
在孿生網(wǎng)絡(luò)基礎(chǔ)上,引入BIGRU模塊,設(shè)計(jì)了Siamese-BIGRU模型,該模型的核心方法是將待比較的兩個(gè)句子通過(guò)同一個(gè)編碼器使其映射到相同的向量空間中,該方法實(shí)現(xiàn)了參數(shù)共享,進(jìn)而展現(xiàn)了不錯(cuò)的相似度計(jì)算性能,因此其準(zhǔn)確率得到了進(jìn)一步的提升,達(dá)到了82.42%,說(shuō)明了雙向門控循環(huán)單元具有很強(qiáng)的語(yǔ)義的編碼能力,在語(yǔ)義相似度計(jì)算方面有著很好的應(yīng)用,如能更加關(guān)注兩個(gè)句子編碼向量之間的交互關(guān)系,準(zhǔn)確率可能會(huì)得到進(jìn)一步提升.
在Siamese-BIGRU模型基礎(chǔ)上,引入了注意力機(jī)制,設(shè)計(jì)了Siamese-BIGRU-Attention模型.attention核心本質(zhì)是一種加權(quán)值,對(duì)目標(biāo)文本完成加權(quán)求和后,可得到基于全部文本的中間語(yǔ)義變換函數(shù),因此,引入attention后,該模型通過(guò)兩個(gè)句子編碼向量之間交互信息的深度捕捉,更好地實(shí)現(xiàn)句子語(yǔ)義相似度的建模.通過(guò)計(jì)算,該語(yǔ)義相似度計(jì)算方法的準(zhǔn)確率達(dá)到了84.98%,使得模型語(yǔ)義相似度計(jì)算性能得到了進(jìn)一步的提升,雖然提升幅度并不是很大,但依然證明了注意力機(jī)制對(duì)于模型性能提升的有效性.
實(shí)驗(yàn)結(jié)果如表1所示.
表1 模型相似度計(jì)算結(jié)果
本文提出基于Siamese-BIGRU-Attention模型的語(yǔ)義相似度計(jì)算方法,并探究了BIGRU和attention機(jī)制對(duì)于模型的影響效果.通過(guò)實(shí)驗(yàn),表明該方法在準(zhǔn)確率及F1值方面優(yōu)于其他幾個(gè)模型,能夠展現(xiàn)出更好的語(yǔ)義相似度評(píng)估性能,這為話輪延續(xù)變換的識(shí)別及話題線索的準(zhǔn)確切分都提供了極大的幫助.本文實(shí)驗(yàn)采用的數(shù)據(jù)為日常會(huì)話片段,它是基于工作、學(xué)習(xí)、娛樂(lè)、飲食、交通、情感及天氣七大主題的話語(yǔ)消息,文本類型基本都是短文本對(duì)話語(yǔ)料,并且數(shù)據(jù)分布相對(duì)比較均衡.與短文本不同,長(zhǎng)文本往往存在噪聲較多且計(jì)算時(shí)間長(zhǎng)的問(wèn)題,在后續(xù)的工作中,將繼續(xù)開展長(zhǎng)文本相似度計(jì)算方法的探索,同時(shí)將不同文本類型的語(yǔ)義相似度計(jì)算方法融入聚類算法中,繼續(xù)進(jìn)行話輪延續(xù)轉(zhuǎn)換的深入研究.