李伊仝, 王紅斌, 程 良
(1. 昆明理工大學(xué) 信息工程與自動化學(xué)院, 昆明 650504; 2. 昆明理工大學(xué) 城市學(xué)院, 昆明 650051)
在網(wǎng)絡(luò)時代, 人們需要從海量信息中獲取有效內(nèi)容. 網(wǎng)絡(luò)新聞文本通常伴有大量的用戶評論, 但這些評論中只有一部分評論與新聞文本內(nèi)容相關(guān), 另一部分評論與新聞文本內(nèi)容不相關(guān). 語義相似度計(jì)算的目的是計(jì)算兩段文本是否具有相關(guān)性, 語義相似度越大, 說明兩段文本表述的內(nèi)容越相關(guān). 由于文本通常具有不同復(fù)雜程度的句法、 語法結(jié)構(gòu), 因此如何更好地計(jì)算文本之間的語義相似度已成為該領(lǐng)域研究的熱點(diǎn)問題之一, 目前已取得了許多成果, 其中具有代表性的工作主要有基于字符串的方法、 基于統(tǒng)計(jì)的方法、 基于深度學(xué)習(xí)的方法等.
基于字符串的方法是將字符串放到原文本中進(jìn)行匹配計(jì)算, 計(jì)算不同文本字符串的共現(xiàn)程度和重復(fù)程度, 以此作為衡量文本相似度的依據(jù). 主要包括編輯距離、 最長公共子序列(longest common substring, LCS)、N-gram和Jaccard相似度等方法. 計(jì)算不同文本字符串共現(xiàn)程度和重復(fù)程度最常用的方法是計(jì)算編輯距離. 編輯距離是將兩個字符串文本的差異性轉(zhuǎn)換成一種數(shù)學(xué)形式上的度量, 即通過統(tǒng)計(jì)一段文本經(jīng)過刪除、 插入、 替換等操作后變成另一段文本的操作次數(shù)得到編輯距離. 張雷等[1]提出了一種基于編輯距離的詞序敏感相似度度量方法, 改進(jìn)了利用余弦相似度計(jì)算文本相似度時, 因忽略詞序而不能理解文本語義的缺點(diǎn). 編輯距離的方法雖然在計(jì)算上比較準(zhǔn)確, 但計(jì)算時間較長. LCS算法[2]通過計(jì)算兩個文本重復(fù)部分的長度, 計(jì)算出文本的相似度. 周麗杰等[3]基于LCS提出了一種基于關(guān)鍵詞數(shù)目的語義關(guān)聯(lián)性函數(shù), 用于短文本相似度計(jì)算. LCS算法主要針對短文本進(jìn)行相似度計(jì)算, 但應(yīng)用到長文本中效果不佳.N-gram方法[4]主要思想是設(shè)置大小為N的滑動窗口, 在文本上進(jìn)行窗口滑動, 從而得到長度為N的多個文本片段, 這些長度為N的文本片段稱為N元組.通過計(jì)算兩段文本中公共N元組的數(shù)量與總的N元組數(shù)量的比值衡量兩段文本的相似度. 黃賢英等[5]提出了一種改進(jìn)后的問句相似度算法, 將N-gram及公共詞塊相結(jié)合計(jì)算問句向量的相似度, 有效提高了問句相似度的準(zhǔn)確率.N-gram方法最大的特點(diǎn)是滑動窗口的大小可根據(jù)具體情形進(jìn)行調(diào)節(jié), 但也不適用于長文本相似度計(jì)算, 原因在于文本越長通過N-gram得到的文本片段越多, 從而增加算法的計(jì)算開銷. Jaccard相似度[6]是一種通過計(jì)算兩段文本中元素交集和并集數(shù)量之比, 以此表征文本相似度的方法, 特點(diǎn)是僅關(guān)注兩段文本公共元素個數(shù), 而不關(guān)注元素之間的差異性. 周艷平等[7]將詞向量與位置編碼相結(jié)合后, 利用JS(Jenson’s Shannon)散度和Pearson積矩相關(guān)系數(shù)計(jì)算詞向量之間的相似度, 最后用Jaccard算法計(jì)算句子之間最終的相似度.
基于統(tǒng)計(jì)的方法先將文本通過分布假設(shè)表征為向量, 再將文本映射到同一個向量空間, 然后計(jì)算文本向量在向量空間的距離, 以此作為文本相似度的度量. 目前基于統(tǒng)計(jì)的方法主要以向量空間模型(vector space model, VSM)和主題模型(topic model)為主. 向量空間模型主要思想是假設(shè)文本語義只與出現(xiàn)在文本中的單詞有關(guān), 通過計(jì)算單詞在單篇文檔出現(xiàn)的次數(shù)和該詞在多個文檔中出現(xiàn)的次數(shù)計(jì)算出詞頻-逆文檔頻率(term frequency-inverse document frequency, TF-IDF), 根據(jù)TF-IDF將文本映射為向量表征, 最后通過計(jì)算向量與向量之間的距離得到文本之間的相似度. 如黃承慧等[8]提出了一種利用TF-IDF選取文本中的重要詞項(xiàng), 與提出的詞項(xiàng)相似度加權(quán)樹相結(jié)合計(jì)算文本相似度, 有效提升了文本相似度計(jì)算的效果. 基于主題模型的方法主要思想是假設(shè)每個文檔具有多個主題, 每個主題都有多個相關(guān)的詞. 這些主題隱含了文檔的語義信息, 通過對主題模型的構(gòu)建和訓(xùn)練, 可使模型學(xué)習(xí)到主題與文本之間的關(guān)系, 進(jìn)而可計(jì)算文本之間的相似度. 基于主題模型的方法主要以隱含Dirichlet分布(latent Dirichlet distribution, LDA)模型[9]為主. 王振振等[10]通過LDA主題模型計(jì)算兩個文本的主題分布后, 將主題分布轉(zhuǎn)換成JS距離度量兩個文本的相似度; 張超等[11]通過對名詞、 動詞和其他詞集合進(jìn)行LDA主題建模, 將三者按一定比例權(quán)重進(jìn)行結(jié)合, 同樣轉(zhuǎn)換為JS距離度量相似度; 付雨蛟[12]將LDA主題模型與變分自編碼器相結(jié)合, 得到了更好的文本表示, 最后用向量間夾角余弦值計(jì)算文本的語義相似度.
基于深度學(xué)習(xí)的方法是指通過神經(jīng)網(wǎng)絡(luò)生成文本的嵌入表示, 從而學(xué)習(xí)到文本的深層語義, 并根據(jù)嵌入表示計(jì)算文本相似度的方法, 也是近年來在自然語言處理(NLP)領(lǐng)域研究較多的方法. 早期主要采用Word2Vec(word to vector)[13]和GloVe(global vectors)[14]等詞向量模型. Word2Vec方法可得到詞與詞之間的向量表示, Word2Vec分為 CBOW(continuous bag-of-words)模型和Skip-gram模型. CBOW模型以上下文信息預(yù)測中心詞匯, Skip-gram模型根據(jù)中心詞匯預(yù)測其上下文信息. GloVe方法先通過語料庫構(gòu)建所有單詞的共現(xiàn)矩陣, 然后通過概率計(jì)算利用共現(xiàn)矩陣, 以此得到文本詞向量, 最后進(jìn)行文本相似度計(jì)算. 由于該方法進(jìn)行了全局語料的詞頻統(tǒng)計(jì), 因此在一定程度上考慮了全局信息. 楊德志等[15]首先利用雙向遞歸神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行上下文建模, 將上下文信息向量與詞嵌入向量進(jìn)行融合, 輸入卷積神經(jīng)網(wǎng)絡(luò)中對文本進(jìn)行語義表示, 最后采用余弦相似度計(jì)算兩個文本語義向量之間的語義相似度; Liu等[16]將句法特征和相對位置特征與詞嵌入向量進(jìn)行深度融合, 采用并行LSTM(long short-term memory)結(jié)構(gòu)獲得兩種文本的向量表示, 最后利用全連接層將文本向量融合表示轉(zhuǎn)換成概率; 周圣凱等[17]將Word2Vec訓(xùn)練好的詞嵌入向量, 將句子對轉(zhuǎn)換成句向量后, 輸入卷積層中提取情感特征和名詞特征, 再通過雙向門控循環(huán)單元獲取上下文信息, 然后通過池化層進(jìn)行降維, 最后通過全連接層獲得句子對的整體語義向量, 并計(jì)算Manhatton距離得到句子對的語義相似度. 近年來, 隨著計(jì)算機(jī)硬件計(jì)算能力的提升, 集成大規(guī)模外部語料知識的預(yù)訓(xùn)練語言模型成為語義相似度計(jì)算的主流方法, 該方法通常將語義相似度計(jì)算轉(zhuǎn)換成分類問題, 通過給兩段文本打上標(biāo)簽判斷兩段文本是否相似. 常見的有ELMo(embeddings from language models)預(yù)訓(xùn)練模型[18]、 GPT(generative pre-training)預(yù)訓(xùn)練模型[19]和BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練模型[20]等. 預(yù)訓(xùn)練語言模型生成文本向量的主要思想是將模型用于大規(guī)模語料上訓(xùn)練, 通過強(qiáng)大的學(xué)習(xí)能力學(xué)習(xí)到較充分的文本語義表示, 再在下游具體任務(wù)中微調(diào)參數(shù), 使模型在面對不同的文本輸入時, 能根據(jù)上下文信息得到不同的文本向量表示. 以BERT為例, BERT預(yù)訓(xùn)練模型可同時接收兩個文本輸入, 經(jīng)過編碼得到兩種文本各自的向量表示后再進(jìn)行融合, 得到文本融合語義表示后輸入全連接層, 計(jì)算兩個文本是否相似的概率. Xu等[21]先通過BERT預(yù)訓(xùn)練模型對兩個文本進(jìn)行編碼, 再通過對兩種文本的向量進(jìn)行交互得到注意力權(quán)重, 根據(jù)注意力權(quán)重得到新的文本表征, 最后將兩個文本向量進(jìn)行拼接輸入到全連接層中.
目前, 基于字符串的方法主要停留在文本的字符串和單詞層面, 雖然這類方法原理直觀簡單, 易實(shí)現(xiàn), 但僅停留在文本的表面, 并未考慮到文本的深層語義信息, 在語法結(jié)構(gòu)復(fù)雜場景下的計(jì)算效果較差. 基于統(tǒng)計(jì)的方法主要通過向量空間模型和主題模型對文本進(jìn)行建模, 再將建模后的向量轉(zhuǎn)換為相似度, 對領(lǐng)域的依賴性雖然不強(qiáng), 但該類方法只能對文本進(jìn)行淺層語義分析. 深度學(xué)習(xí)方法雖然可對文本進(jìn)行高質(zhì)量的向量表征, 但應(yīng)用于新聞文本與評論的相似度計(jì)算時, 效果較差, 這是因?yàn)樾侣勎谋九c評論之間存在較大的長度差異, 使模型很難準(zhǔn)確地學(xué)習(xí)到兩種文本之間的語義關(guān)系, 并且BERT預(yù)訓(xùn)練模型在處理超長文本序列時會截斷一部分文本, 無法對新聞文本進(jìn)行完整的語義建模. 受Peinelt等[22]工作的啟發(fā), 本文認(rèn)為新聞文本與評論之間同樣存在主題相關(guān)性, 新聞標(biāo)題也含有豐富的語義信息. 因此本文提出一種在融入新聞標(biāo)題信息基礎(chǔ)上將TextRank[23]算法、 LDA主題模型與BERT預(yù)訓(xùn)練模型相結(jié)合的方法, 將新聞內(nèi)容與評論之間的語義相似度計(jì)算轉(zhuǎn)換為計(jì)算新聞文本和新聞評論的主題相似度. 本文將該任務(wù)視為分類任務(wù), 首先將新聞文本通過TextRank算法提取出k個關(guān)鍵詞, 再將k個關(guān)鍵詞與新聞標(biāo)題進(jìn)行拼接得到新的新聞文本, 然后將新的新聞文本與評論分別輸入到LDA主題模型和BERT模型中, 得到兩種文本各自的主題分布及其文本融合表示, 最后將兩種文本的主題分布和文本融合表示一起輸入到全連接層, 使用Softmax函數(shù)得到評論與新聞文本是否相關(guān)的概率.
新聞文本與新聞評論的相關(guān)性分析旨在研究通過計(jì)算新聞文本和新聞評論的語義相似度從大量評論中篩選出與新聞文本語義相關(guān)的評論. 傳統(tǒng)文本相似度方法首先將文本中的每個詞轉(zhuǎn)換為詞向量, 然后通過計(jì)算向量之間的余弦相似度得到文本之間的語義相似度. 但當(dāng)兩個文本之間的長度相差較大時效果通常較差, 而新聞文本與新聞評論文本長度常存在較大差別, 因此本文將新聞內(nèi)容與評論之間的語義相似度計(jì)算方法轉(zhuǎn)換為計(jì)算新聞文本和新聞評論的主題相似度. 同時為更好地利用新聞標(biāo)題中包含的語義信息, 在新聞文本表示中融入新聞標(biāo)題的語義信息, 以得到更準(zhǔn)確的新聞文本表征. 整體模型結(jié)構(gòu)如圖1所示.
模型主要分為三部分, 即新聞文本內(nèi)容表示、 新聞文本與評論主題分布計(jì)算和BERT語義編碼. 首先, 用TextRank對新聞文本內(nèi)容做關(guān)鍵詞抽取, 通過計(jì)算新聞文本中每個詞的得分進(jìn)行關(guān)鍵詞抽取. 抽取關(guān)鍵詞過程可用公式表示為
(1)
其中:Vi和Vj分別表示新聞的第i個詞和第j個詞;WS(Vi)和WS(Vj)分別表示Vi和Vj的分?jǐn)?shù);d為阻尼系數(shù), 防止一些詞的得分為0; In(Vi)表示所有指向節(jié)點(diǎn)Vi的節(jié)點(diǎn)集合, 即入鏈集合; Out(Vj)表示Vj所指的所有節(jié)點(diǎn)集合, 即出鏈集合, |Out(Vj)|表示出鏈數(shù)量.
首先, 將新聞文本通過jieba分詞工具進(jìn)行分詞處理, 然后通過設(shè)置窗口向右滑動建立詞與詞之間的鏈接關(guān)系.每個詞的得分都要平均貢獻(xiàn)給每個與其鏈接的詞, 最后從所有詞中選出得分最高的前k個詞作為新聞的關(guān)鍵詞, 用公式表示為
w1,w2,…,wk=Topk(WS(V1,V2,…,Vn)),
(2)
其中w1,w2,…,wk表示從文章中提取出的k個關(guān)鍵詞,WS(V1,V2,…,Vn)表示所有詞的分?jǐn)?shù).為充分利用標(biāo)題包含的豐富語義信息, 將標(biāo)題與提取的k個關(guān)鍵詞拼接得到新的新聞文本表示, 從而在不丟失語義信息的情況下, 將較長的新聞文本轉(zhuǎn)換成較短的文本, 即圖1中的S1, 用公式表示為
S1=(新聞標(biāo)題,w1,w2,…,wk).
(3)
為計(jì)算新的新聞文本與評論之間的主題分布, 對S1和評論S2分別做分詞、 去除停用詞處理, 并輸入到LDA主題模型中, 從而計(jì)算出S1和S2的主題分布向量T1和T2:
T1=LDA(S1),T2=LDA(S2).
(4)
在計(jì)算S1和S2主題分布的同時, 將S1和S2輸入BERT模型中, 獲得兩種文本的融合語義表示C:
C=BERT(S1,S2).
(5)
其次, 將BERT編碼的向量與LDA模型計(jì)算的主題分布向量拼接得到最終的向量表示, 并輸入全連接層中, 用Softmax函數(shù)轉(zhuǎn)換為分類概率:
y=Softmax(W([T1,T2,C])+b),
(6)
其中y表示分類概率,W為權(quán)重,b為偏置.
最后, 通過交叉熵?fù)p失函數(shù)更新模型參數(shù).
由于目前缺少新聞文本與評論的相關(guān)性分析公共數(shù)據(jù)集, 因此本文首先利用爬蟲技術(shù)從網(wǎng)易新聞爬取了198篇新聞文章以及對應(yīng)的評論, 涵蓋了數(shù)碼、 金融、 娛樂明星、 刑事案件、 民事糾紛、 新冠肺炎和國際新聞等內(nèi)容; 然后對數(shù)據(jù)集進(jìn)行人工標(biāo)注, 用標(biāo)簽0表示評論與新聞文本不相關(guān), 標(biāo)簽1表示評論與新聞文本相關(guān), 只要評論出現(xiàn)新聞中的人物、 地名、 組織機(jī)構(gòu)、 事件以及用戶的主觀意見, 均可視為與新聞相關(guān); 最后將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、 驗(yàn)證集和測試集, 數(shù)據(jù)集分布列于表1.
表1 數(shù)據(jù)集分布
本文采用準(zhǔn)確率、 精確率、 召回率和F1值作為評價指標(biāo), 定義為
其中TP表示模型正確預(yù)測評論與新聞相關(guān)的樣本數(shù), FP表示模型錯誤預(yù)測評論與新聞相關(guān)的樣本數(shù), TN表示模型正確預(yù)測評論與新聞不相關(guān)的樣本數(shù), FN表示模型錯誤預(yù)測評論與新聞不相關(guān)的樣本數(shù),N表示樣本總數(shù).
設(shè)置文本最大序列長度為200, Batch大小為24, 學(xué)習(xí)率為2×10-5, 關(guān)鍵詞數(shù)量設(shè)為20. 將文本輸入主題模型前先對文本進(jìn)行分詞、 去除停用詞等預(yù)處理, 訓(xùn)練時使用交叉熵?fù)p失函數(shù)更新模型參數(shù).
本文模型在TextRank,BERT和LDA主題模型的基礎(chǔ)上融入了新聞標(biāo)題信息, 因此需設(shè)置實(shí)驗(yàn)驗(yàn)證融入新聞標(biāo)題信息的有效性, 實(shí)驗(yàn)結(jié)果列于表2. 由表2可見, BERT模型在融入新聞標(biāo)題信息時4個指標(biāo)均有提高, 表明融入新聞標(biāo)題信息可提高新聞文本與評論的語義相似度. 這是因?yàn)闃?biāo)題本身相當(dāng)于外部信息, 融入該外部信息理論上可提高語義相似度模型的性能, 因此實(shí)驗(yàn)結(jié)果比未融入標(biāo)題信息的BERT模型效果更好.
表2 不同模型的消融實(shí)驗(yàn)結(jié)果1
下面通過另一組消融實(shí)驗(yàn)分別驗(yàn)證TextRank算法與LDA主題模型的有效性. 本文在融入標(biāo)題信息的基礎(chǔ)上設(shè)置3組實(shí)驗(yàn)與本文模型進(jìn)行對比. 3組實(shí)驗(yàn)信息如下:
1) 融入標(biāo)題信息的BERT, 該實(shí)驗(yàn)的目的是將TextRank算法與LDA主題模型分離出來. 將新聞標(biāo)題信息與新聞文本進(jìn)行拼接得到新的新聞文本, 并與評論一起輸入到BERT模型中計(jì)算新的新聞文本表示與評論之間的語義相似度.
2) 融入標(biāo)題信息的BERT與TextRank算法組合, 該實(shí)驗(yàn)?zāi)康氖菣z驗(yàn)TextRank算法的有效性. 將新聞文本利用TextRank算法提取出前k個關(guān)鍵詞, 再將k個關(guān)鍵詞與新聞標(biāo)題一起組成新的新聞文本, 最后與評論一起輸入BERT模型中計(jì)算語義相似度.
3) 融入標(biāo)題信息的BERT與LDA組合, 該實(shí)驗(yàn)?zāi)康氖菣z驗(yàn)LDA主題模型的有效性. 將新聞標(biāo)題信息與新聞文本進(jìn)行拼接得到新的新聞文本后, 與評論分別輸入到LDA主題模型和BERT模型中, 獲得兩種文本的主題分布向量及其文本融合表示, 最后輸入全連接層計(jì)算是否相關(guān)的概率.
3組實(shí)驗(yàn)結(jié)果列于表3. 由表3可見, 在只結(jié)合LDA主題模型的情況下, 本文模型與BERT模型相比4個指標(biāo)均有提高, 表明融入LDA主題模型有效. 其原因是利用LDA主題模型提取出兩種文本的主題分布向量, 加強(qiáng)了語義表示, 再融入到BERT模型中, 效果相對更好, 從而表明可從新聞文本中提取出更多信息進(jìn)一步提高新聞文本與評論語義相似度計(jì)算模型的性能.
表3 不同模型的消融實(shí)驗(yàn)結(jié)果2
在融入標(biāo)題信息基礎(chǔ)上將TextRank算法與LDA主題模型結(jié)合后, 即為本文模型. 從實(shí)驗(yàn)結(jié)果可見, 與其他組相比本文模型在4個指標(biāo)上均有提高, 表明了本文模型的有效性. 雖然TextRank算法忽略了文本順序, 但LDA主題模型的引入使模型的性能仍然有提高, 因此本文模型表現(xiàn)相對較好.
下面將本文模型與ABCNN(attention-based convolutional neural network)[24], DecomposableAttention[25]和SiaGRU(siamese gated recurrent unit)[26]模型進(jìn)行性能對比. ABCNN模型的核心思想是先利用寬卷積的方式捕獲句子對的完整信息, 再利用注意力機(jī)制捕獲句子對之間的相互依賴關(guān)系; DecomposableAttention模型的核心思想是利用注意力機(jī)制捕獲句子對中詞與詞之間的對應(yīng)關(guān)系判斷句子對之間的關(guān)系; SiaGRU模型的核心思想是利用兩個權(quán)重共享的LSTM網(wǎng)絡(luò)[27]將長度不一致的句子對編碼成向量, 從而計(jì)算句子之間的相似度. 不同模型的對比實(shí)驗(yàn)結(jié)果列于表4.
表4 不同模型的對比實(shí)驗(yàn)結(jié)果
由表4可見, 本文模型與其他模型相比在4個指標(biāo)上均有提高, 證明了本文方法的有效性. 這是因?yàn)楸疚哪P褪紫葘⑤^長的新聞文本通過TextRank算法轉(zhuǎn)換為較短的文本, 使數(shù)據(jù)更適用于BERT模型, 此外, 本文還通過LDA模型計(jì)算文本與評論的主題分布進(jìn)一步加強(qiáng)語義表示, 最后融入新聞標(biāo)題信息, 從而性能更好. 而ABCNN和DecomposableAttention模型的性能相對較低, 可能是因?yàn)樾侣勎谋九c評論之間的長度相差較多, 不能準(zhǔn)確捕捉到文本與文本、 詞與詞之間的關(guān)系. 而SiaGRU模型則忽略了文本的上下文信息.
下面在BQ(http://icrc.hitsz.edu.cn/info/1037/1162.htm)和LCQMC(http://icrc.hitsz.edu.cn/info/1037/1146.htm)兩個中文公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 以檢驗(yàn)本文模型的泛化能力. 兩個數(shù)據(jù)集均由哈爾濱工業(yè)大學(xué)智能計(jì)算研究中心構(gòu)造并公開, 數(shù)據(jù)集BQ含有12萬條從金融領(lǐng)域采集的問題對, 其中10萬條為訓(xùn)練集, 1萬條為驗(yàn)證集, 1萬條為測試集. 數(shù)據(jù)集LCQMC覆蓋了更多領(lǐng)域的問題匹配, 含有260 068條手工標(biāo)注的問題對, 其中238 766條為訓(xùn)練集, 8 802條為驗(yàn)證集, 12 500條為測試集. 之所以采用問題匹配的數(shù)據(jù)集, 是因?yàn)樵趩柎痤I(lǐng)域中, 同樣需要將輸入的問題與設(shè)定好的問題進(jìn)行語義相似度計(jì)算, 如果相似就尋找問題庫中的答案. 評價指標(biāo)仍采用準(zhǔn)確率、 精確率、 召回率和F1值. 不同模型在兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分別列于表5和表6. 由表5和表6可見, 本文模型在兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與其他模型相比性能均較好, 表明本文模型有一定泛化能力. 這是因?yàn)楸疚哪P褪褂玫腖DA主題模型不需要依賴領(lǐng)域數(shù)據(jù)即可推斷出主題分布, 因此泛化能力相對更好.
表5 不同模型在數(shù)據(jù)集BQ上的實(shí)驗(yàn)結(jié)果
表6 不同模型在數(shù)據(jù)集LCQMC上的實(shí)驗(yàn)結(jié)果
綜上所述, 針對預(yù)訓(xùn)練模型在處理新聞這種長文本時會截斷一部分文本, 導(dǎo)致文本信息缺失的問題, 本文提出了一種結(jié)合TextRank、 LDA主題模型和BERT預(yù)訓(xùn)練模型的新聞文本與評論語義相似度計(jì)算方法, 同時融入了新聞標(biāo)題信息. 實(shí)驗(yàn)結(jié)果表明了本文方法的有效性.