• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融入新聞標(biāo)題信息的新聞文本與評論的語義相似度計(jì)算方法

    2022-11-20 13:25:22李伊仝王紅斌
    關(guān)鍵詞:新聞標(biāo)題語義向量

    李伊仝, 王紅斌, 程 良

    (1. 昆明理工大學(xué) 信息工程與自動化學(xué)院, 昆明 650504; 2. 昆明理工大學(xué) 城市學(xué)院, 昆明 650051)

    在網(wǎng)絡(luò)時代, 人們需要從海量信息中獲取有效內(nèi)容. 網(wǎng)絡(luò)新聞文本通常伴有大量的用戶評論, 但這些評論中只有一部分評論與新聞文本內(nèi)容相關(guān), 另一部分評論與新聞文本內(nèi)容不相關(guān). 語義相似度計(jì)算的目的是計(jì)算兩段文本是否具有相關(guān)性, 語義相似度越大, 說明兩段文本表述的內(nèi)容越相關(guān). 由于文本通常具有不同復(fù)雜程度的句法、 語法結(jié)構(gòu), 因此如何更好地計(jì)算文本之間的語義相似度已成為該領(lǐng)域研究的熱點(diǎn)問題之一, 目前已取得了許多成果, 其中具有代表性的工作主要有基于字符串的方法、 基于統(tǒng)計(jì)的方法、 基于深度學(xué)習(xí)的方法等.

    基于字符串的方法是將字符串放到原文本中進(jìn)行匹配計(jì)算, 計(jì)算不同文本字符串的共現(xiàn)程度和重復(fù)程度, 以此作為衡量文本相似度的依據(jù). 主要包括編輯距離、 最長公共子序列(longest common substring, LCS)、N-gram和Jaccard相似度等方法. 計(jì)算不同文本字符串共現(xiàn)程度和重復(fù)程度最常用的方法是計(jì)算編輯距離. 編輯距離是將兩個字符串文本的差異性轉(zhuǎn)換成一種數(shù)學(xué)形式上的度量, 即通過統(tǒng)計(jì)一段文本經(jīng)過刪除、 插入、 替換等操作后變成另一段文本的操作次數(shù)得到編輯距離. 張雷等[1]提出了一種基于編輯距離的詞序敏感相似度度量方法, 改進(jìn)了利用余弦相似度計(jì)算文本相似度時, 因忽略詞序而不能理解文本語義的缺點(diǎn). 編輯距離的方法雖然在計(jì)算上比較準(zhǔn)確, 但計(jì)算時間較長. LCS算法[2]通過計(jì)算兩個文本重復(fù)部分的長度, 計(jì)算出文本的相似度. 周麗杰等[3]基于LCS提出了一種基于關(guān)鍵詞數(shù)目的語義關(guān)聯(lián)性函數(shù), 用于短文本相似度計(jì)算. LCS算法主要針對短文本進(jìn)行相似度計(jì)算, 但應(yīng)用到長文本中效果不佳.N-gram方法[4]主要思想是設(shè)置大小為N的滑動窗口, 在文本上進(jìn)行窗口滑動, 從而得到長度為N的多個文本片段, 這些長度為N的文本片段稱為N元組.通過計(jì)算兩段文本中公共N元組的數(shù)量與總的N元組數(shù)量的比值衡量兩段文本的相似度. 黃賢英等[5]提出了一種改進(jìn)后的問句相似度算法, 將N-gram及公共詞塊相結(jié)合計(jì)算問句向量的相似度, 有效提高了問句相似度的準(zhǔn)確率.N-gram方法最大的特點(diǎn)是滑動窗口的大小可根據(jù)具體情形進(jìn)行調(diào)節(jié), 但也不適用于長文本相似度計(jì)算, 原因在于文本越長通過N-gram得到的文本片段越多, 從而增加算法的計(jì)算開銷. Jaccard相似度[6]是一種通過計(jì)算兩段文本中元素交集和并集數(shù)量之比, 以此表征文本相似度的方法, 特點(diǎn)是僅關(guān)注兩段文本公共元素個數(shù), 而不關(guān)注元素之間的差異性. 周艷平等[7]將詞向量與位置編碼相結(jié)合后, 利用JS(Jenson’s Shannon)散度和Pearson積矩相關(guān)系數(shù)計(jì)算詞向量之間的相似度, 最后用Jaccard算法計(jì)算句子之間最終的相似度.

    基于統(tǒng)計(jì)的方法先將文本通過分布假設(shè)表征為向量, 再將文本映射到同一個向量空間, 然后計(jì)算文本向量在向量空間的距離, 以此作為文本相似度的度量. 目前基于統(tǒng)計(jì)的方法主要以向量空間模型(vector space model, VSM)和主題模型(topic model)為主. 向量空間模型主要思想是假設(shè)文本語義只與出現(xiàn)在文本中的單詞有關(guān), 通過計(jì)算單詞在單篇文檔出現(xiàn)的次數(shù)和該詞在多個文檔中出現(xiàn)的次數(shù)計(jì)算出詞頻-逆文檔頻率(term frequency-inverse document frequency, TF-IDF), 根據(jù)TF-IDF將文本映射為向量表征, 最后通過計(jì)算向量與向量之間的距離得到文本之間的相似度. 如黃承慧等[8]提出了一種利用TF-IDF選取文本中的重要詞項(xiàng), 與提出的詞項(xiàng)相似度加權(quán)樹相結(jié)合計(jì)算文本相似度, 有效提升了文本相似度計(jì)算的效果. 基于主題模型的方法主要思想是假設(shè)每個文檔具有多個主題, 每個主題都有多個相關(guān)的詞. 這些主題隱含了文檔的語義信息, 通過對主題模型的構(gòu)建和訓(xùn)練, 可使模型學(xué)習(xí)到主題與文本之間的關(guān)系, 進(jìn)而可計(jì)算文本之間的相似度. 基于主題模型的方法主要以隱含Dirichlet分布(latent Dirichlet distribution, LDA)模型[9]為主. 王振振等[10]通過LDA主題模型計(jì)算兩個文本的主題分布后, 將主題分布轉(zhuǎn)換成JS距離度量兩個文本的相似度; 張超等[11]通過對名詞、 動詞和其他詞集合進(jìn)行LDA主題建模, 將三者按一定比例權(quán)重進(jìn)行結(jié)合, 同樣轉(zhuǎn)換為JS距離度量相似度; 付雨蛟[12]將LDA主題模型與變分自編碼器相結(jié)合, 得到了更好的文本表示, 最后用向量間夾角余弦值計(jì)算文本的語義相似度.

    基于深度學(xué)習(xí)的方法是指通過神經(jīng)網(wǎng)絡(luò)生成文本的嵌入表示, 從而學(xué)習(xí)到文本的深層語義, 并根據(jù)嵌入表示計(jì)算文本相似度的方法, 也是近年來在自然語言處理(NLP)領(lǐng)域研究較多的方法. 早期主要采用Word2Vec(word to vector)[13]和GloVe(global vectors)[14]等詞向量模型. Word2Vec方法可得到詞與詞之間的向量表示, Word2Vec分為 CBOW(continuous bag-of-words)模型和Skip-gram模型. CBOW模型以上下文信息預(yù)測中心詞匯, Skip-gram模型根據(jù)中心詞匯預(yù)測其上下文信息. GloVe方法先通過語料庫構(gòu)建所有單詞的共現(xiàn)矩陣, 然后通過概率計(jì)算利用共現(xiàn)矩陣, 以此得到文本詞向量, 最后進(jìn)行文本相似度計(jì)算. 由于該方法進(jìn)行了全局語料的詞頻統(tǒng)計(jì), 因此在一定程度上考慮了全局信息. 楊德志等[15]首先利用雙向遞歸神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行上下文建模, 將上下文信息向量與詞嵌入向量進(jìn)行融合, 輸入卷積神經(jīng)網(wǎng)絡(luò)中對文本進(jìn)行語義表示, 最后采用余弦相似度計(jì)算兩個文本語義向量之間的語義相似度; Liu等[16]將句法特征和相對位置特征與詞嵌入向量進(jìn)行深度融合, 采用并行LSTM(long short-term memory)結(jié)構(gòu)獲得兩種文本的向量表示, 最后利用全連接層將文本向量融合表示轉(zhuǎn)換成概率; 周圣凱等[17]將Word2Vec訓(xùn)練好的詞嵌入向量, 將句子對轉(zhuǎn)換成句向量后, 輸入卷積層中提取情感特征和名詞特征, 再通過雙向門控循環(huán)單元獲取上下文信息, 然后通過池化層進(jìn)行降維, 最后通過全連接層獲得句子對的整體語義向量, 并計(jì)算Manhatton距離得到句子對的語義相似度. 近年來, 隨著計(jì)算機(jī)硬件計(jì)算能力的提升, 集成大規(guī)模外部語料知識的預(yù)訓(xùn)練語言模型成為語義相似度計(jì)算的主流方法, 該方法通常將語義相似度計(jì)算轉(zhuǎn)換成分類問題, 通過給兩段文本打上標(biāo)簽判斷兩段文本是否相似. 常見的有ELMo(embeddings from language models)預(yù)訓(xùn)練模型[18]、 GPT(generative pre-training)預(yù)訓(xùn)練模型[19]和BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練模型[20]等. 預(yù)訓(xùn)練語言模型生成文本向量的主要思想是將模型用于大規(guī)模語料上訓(xùn)練, 通過強(qiáng)大的學(xué)習(xí)能力學(xué)習(xí)到較充分的文本語義表示, 再在下游具體任務(wù)中微調(diào)參數(shù), 使模型在面對不同的文本輸入時, 能根據(jù)上下文信息得到不同的文本向量表示. 以BERT為例, BERT預(yù)訓(xùn)練模型可同時接收兩個文本輸入, 經(jīng)過編碼得到兩種文本各自的向量表示后再進(jìn)行融合, 得到文本融合語義表示后輸入全連接層, 計(jì)算兩個文本是否相似的概率. Xu等[21]先通過BERT預(yù)訓(xùn)練模型對兩個文本進(jìn)行編碼, 再通過對兩種文本的向量進(jìn)行交互得到注意力權(quán)重, 根據(jù)注意力權(quán)重得到新的文本表征, 最后將兩個文本向量進(jìn)行拼接輸入到全連接層中.

    目前, 基于字符串的方法主要停留在文本的字符串和單詞層面, 雖然這類方法原理直觀簡單, 易實(shí)現(xiàn), 但僅停留在文本的表面, 并未考慮到文本的深層語義信息, 在語法結(jié)構(gòu)復(fù)雜場景下的計(jì)算效果較差. 基于統(tǒng)計(jì)的方法主要通過向量空間模型和主題模型對文本進(jìn)行建模, 再將建模后的向量轉(zhuǎn)換為相似度, 對領(lǐng)域的依賴性雖然不強(qiáng), 但該類方法只能對文本進(jìn)行淺層語義分析. 深度學(xué)習(xí)方法雖然可對文本進(jìn)行高質(zhì)量的向量表征, 但應(yīng)用于新聞文本與評論的相似度計(jì)算時, 效果較差, 這是因?yàn)樾侣勎谋九c評論之間存在較大的長度差異, 使模型很難準(zhǔn)確地學(xué)習(xí)到兩種文本之間的語義關(guān)系, 并且BERT預(yù)訓(xùn)練模型在處理超長文本序列時會截斷一部分文本, 無法對新聞文本進(jìn)行完整的語義建模. 受Peinelt等[22]工作的啟發(fā), 本文認(rèn)為新聞文本與評論之間同樣存在主題相關(guān)性, 新聞標(biāo)題也含有豐富的語義信息. 因此本文提出一種在融入新聞標(biāo)題信息基礎(chǔ)上將TextRank[23]算法、 LDA主題模型與BERT預(yù)訓(xùn)練模型相結(jié)合的方法, 將新聞內(nèi)容與評論之間的語義相似度計(jì)算轉(zhuǎn)換為計(jì)算新聞文本和新聞評論的主題相似度. 本文將該任務(wù)視為分類任務(wù), 首先將新聞文本通過TextRank算法提取出k個關(guān)鍵詞, 再將k個關(guān)鍵詞與新聞標(biāo)題進(jìn)行拼接得到新的新聞文本, 然后將新的新聞文本與評論分別輸入到LDA主題模型和BERT模型中, 得到兩種文本各自的主題分布及其文本融合表示, 最后將兩種文本的主題分布和文本融合表示一起輸入到全連接層, 使用Softmax函數(shù)得到評論與新聞文本是否相關(guān)的概率.

    1 模型介紹

    新聞文本與新聞評論的相關(guān)性分析旨在研究通過計(jì)算新聞文本和新聞評論的語義相似度從大量評論中篩選出與新聞文本語義相關(guān)的評論. 傳統(tǒng)文本相似度方法首先將文本中的每個詞轉(zhuǎn)換為詞向量, 然后通過計(jì)算向量之間的余弦相似度得到文本之間的語義相似度. 但當(dāng)兩個文本之間的長度相差較大時效果通常較差, 而新聞文本與新聞評論文本長度常存在較大差別, 因此本文將新聞內(nèi)容與評論之間的語義相似度計(jì)算方法轉(zhuǎn)換為計(jì)算新聞文本和新聞評論的主題相似度. 同時為更好地利用新聞標(biāo)題中包含的語義信息, 在新聞文本表示中融入新聞標(biāo)題的語義信息, 以得到更準(zhǔn)確的新聞文本表征. 整體模型結(jié)構(gòu)如圖1所示.

    模型主要分為三部分, 即新聞文本內(nèi)容表示、 新聞文本與評論主題分布計(jì)算和BERT語義編碼. 首先, 用TextRank對新聞文本內(nèi)容做關(guān)鍵詞抽取, 通過計(jì)算新聞文本中每個詞的得分進(jìn)行關(guān)鍵詞抽取. 抽取關(guān)鍵詞過程可用公式表示為

    (1)

    其中:Vi和Vj分別表示新聞的第i個詞和第j個詞;WS(Vi)和WS(Vj)分別表示Vi和Vj的分?jǐn)?shù);d為阻尼系數(shù), 防止一些詞的得分為0; In(Vi)表示所有指向節(jié)點(diǎn)Vi的節(jié)點(diǎn)集合, 即入鏈集合; Out(Vj)表示Vj所指的所有節(jié)點(diǎn)集合, 即出鏈集合, |Out(Vj)|表示出鏈數(shù)量.

    首先, 將新聞文本通過jieba分詞工具進(jìn)行分詞處理, 然后通過設(shè)置窗口向右滑動建立詞與詞之間的鏈接關(guān)系.每個詞的得分都要平均貢獻(xiàn)給每個與其鏈接的詞, 最后從所有詞中選出得分最高的前k個詞作為新聞的關(guān)鍵詞, 用公式表示為

    w1,w2,…,wk=Topk(WS(V1,V2,…,Vn)),

    (2)

    其中w1,w2,…,wk表示從文章中提取出的k個關(guān)鍵詞,WS(V1,V2,…,Vn)表示所有詞的分?jǐn)?shù).為充分利用標(biāo)題包含的豐富語義信息, 將標(biāo)題與提取的k個關(guān)鍵詞拼接得到新的新聞文本表示, 從而在不丟失語義信息的情況下, 將較長的新聞文本轉(zhuǎn)換成較短的文本, 即圖1中的S1, 用公式表示為

    S1=(新聞標(biāo)題,w1,w2,…,wk).

    (3)

    為計(jì)算新的新聞文本與評論之間的主題分布, 對S1和評論S2分別做分詞、 去除停用詞處理, 并輸入到LDA主題模型中, 從而計(jì)算出S1和S2的主題分布向量T1和T2:

    T1=LDA(S1),T2=LDA(S2).

    (4)

    在計(jì)算S1和S2主題分布的同時, 將S1和S2輸入BERT模型中, 獲得兩種文本的融合語義表示C:

    C=BERT(S1,S2).

    (5)

    其次, 將BERT編碼的向量與LDA模型計(jì)算的主題分布向量拼接得到最終的向量表示, 并輸入全連接層中, 用Softmax函數(shù)轉(zhuǎn)換為分類概率:

    y=Softmax(W([T1,T2,C])+b),

    (6)

    其中y表示分類概率,W為權(quán)重,b為偏置.

    最后, 通過交叉熵?fù)p失函數(shù)更新模型參數(shù).

    2 實(shí)驗(yàn)結(jié)果與分析

    2.1 實(shí)驗(yàn)數(shù)據(jù)集

    由于目前缺少新聞文本與評論的相關(guān)性分析公共數(shù)據(jù)集, 因此本文首先利用爬蟲技術(shù)從網(wǎng)易新聞爬取了198篇新聞文章以及對應(yīng)的評論, 涵蓋了數(shù)碼、 金融、 娛樂明星、 刑事案件、 民事糾紛、 新冠肺炎和國際新聞等內(nèi)容; 然后對數(shù)據(jù)集進(jìn)行人工標(biāo)注, 用標(biāo)簽0表示評論與新聞文本不相關(guān), 標(biāo)簽1表示評論與新聞文本相關(guān), 只要評論出現(xiàn)新聞中的人物、 地名、 組織機(jī)構(gòu)、 事件以及用戶的主觀意見, 均可視為與新聞相關(guān); 最后將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、 驗(yàn)證集和測試集, 數(shù)據(jù)集分布列于表1.

    表1 數(shù)據(jù)集分布

    2.2 評價指標(biāo)

    本文采用準(zhǔn)確率、 精確率、 召回率和F1值作為評價指標(biāo), 定義為

    其中TP表示模型正確預(yù)測評論與新聞相關(guān)的樣本數(shù), FP表示模型錯誤預(yù)測評論與新聞相關(guān)的樣本數(shù), TN表示模型正確預(yù)測評論與新聞不相關(guān)的樣本數(shù), FN表示模型錯誤預(yù)測評論與新聞不相關(guān)的樣本數(shù),N表示樣本總數(shù).

    2.3 參數(shù)設(shè)置

    設(shè)置文本最大序列長度為200, Batch大小為24, 學(xué)習(xí)率為2×10-5, 關(guān)鍵詞數(shù)量設(shè)為20. 將文本輸入主題模型前先對文本進(jìn)行分詞、 去除停用詞等預(yù)處理, 訓(xùn)練時使用交叉熵?fù)p失函數(shù)更新模型參數(shù).

    2.4 消融實(shí)驗(yàn)

    本文模型在TextRank,BERT和LDA主題模型的基礎(chǔ)上融入了新聞標(biāo)題信息, 因此需設(shè)置實(shí)驗(yàn)驗(yàn)證融入新聞標(biāo)題信息的有效性, 實(shí)驗(yàn)結(jié)果列于表2. 由表2可見, BERT模型在融入新聞標(biāo)題信息時4個指標(biāo)均有提高, 表明融入新聞標(biāo)題信息可提高新聞文本與評論的語義相似度. 這是因?yàn)闃?biāo)題本身相當(dāng)于外部信息, 融入該外部信息理論上可提高語義相似度模型的性能, 因此實(shí)驗(yàn)結(jié)果比未融入標(biāo)題信息的BERT模型效果更好.

    表2 不同模型的消融實(shí)驗(yàn)結(jié)果1

    下面通過另一組消融實(shí)驗(yàn)分別驗(yàn)證TextRank算法與LDA主題模型的有效性. 本文在融入標(biāo)題信息的基礎(chǔ)上設(shè)置3組實(shí)驗(yàn)與本文模型進(jìn)行對比. 3組實(shí)驗(yàn)信息如下:

    1) 融入標(biāo)題信息的BERT, 該實(shí)驗(yàn)的目的是將TextRank算法與LDA主題模型分離出來. 將新聞標(biāo)題信息與新聞文本進(jìn)行拼接得到新的新聞文本, 并與評論一起輸入到BERT模型中計(jì)算新的新聞文本表示與評論之間的語義相似度.

    2) 融入標(biāo)題信息的BERT與TextRank算法組合, 該實(shí)驗(yàn)?zāi)康氖菣z驗(yàn)TextRank算法的有效性. 將新聞文本利用TextRank算法提取出前k個關(guān)鍵詞, 再將k個關(guān)鍵詞與新聞標(biāo)題一起組成新的新聞文本, 最后與評論一起輸入BERT模型中計(jì)算語義相似度.

    3) 融入標(biāo)題信息的BERT與LDA組合, 該實(shí)驗(yàn)?zāi)康氖菣z驗(yàn)LDA主題模型的有效性. 將新聞標(biāo)題信息與新聞文本進(jìn)行拼接得到新的新聞文本后, 與評論分別輸入到LDA主題模型和BERT模型中, 獲得兩種文本的主題分布向量及其文本融合表示, 最后輸入全連接層計(jì)算是否相關(guān)的概率.

    3組實(shí)驗(yàn)結(jié)果列于表3. 由表3可見, 在只結(jié)合LDA主題模型的情況下, 本文模型與BERT模型相比4個指標(biāo)均有提高, 表明融入LDA主題模型有效. 其原因是利用LDA主題模型提取出兩種文本的主題分布向量, 加強(qiáng)了語義表示, 再融入到BERT模型中, 效果相對更好, 從而表明可從新聞文本中提取出更多信息進(jìn)一步提高新聞文本與評論語義相似度計(jì)算模型的性能.

    表3 不同模型的消融實(shí)驗(yàn)結(jié)果2

    在融入標(biāo)題信息基礎(chǔ)上將TextRank算法與LDA主題模型結(jié)合后, 即為本文模型. 從實(shí)驗(yàn)結(jié)果可見, 與其他組相比本文模型在4個指標(biāo)上均有提高, 表明了本文模型的有效性. 雖然TextRank算法忽略了文本順序, 但LDA主題模型的引入使模型的性能仍然有提高, 因此本文模型表現(xiàn)相對較好.

    2.5 對比實(shí)驗(yàn)

    下面將本文模型與ABCNN(attention-based convolutional neural network)[24], DecomposableAttention[25]和SiaGRU(siamese gated recurrent unit)[26]模型進(jìn)行性能對比. ABCNN模型的核心思想是先利用寬卷積的方式捕獲句子對的完整信息, 再利用注意力機(jī)制捕獲句子對之間的相互依賴關(guān)系; DecomposableAttention模型的核心思想是利用注意力機(jī)制捕獲句子對中詞與詞之間的對應(yīng)關(guān)系判斷句子對之間的關(guān)系; SiaGRU模型的核心思想是利用兩個權(quán)重共享的LSTM網(wǎng)絡(luò)[27]將長度不一致的句子對編碼成向量, 從而計(jì)算句子之間的相似度. 不同模型的對比實(shí)驗(yàn)結(jié)果列于表4.

    表4 不同模型的對比實(shí)驗(yàn)結(jié)果

    由表4可見, 本文模型與其他模型相比在4個指標(biāo)上均有提高, 證明了本文方法的有效性. 這是因?yàn)楸疚哪P褪紫葘⑤^長的新聞文本通過TextRank算法轉(zhuǎn)換為較短的文本, 使數(shù)據(jù)更適用于BERT模型, 此外, 本文還通過LDA模型計(jì)算文本與評論的主題分布進(jìn)一步加強(qiáng)語義表示, 最后融入新聞標(biāo)題信息, 從而性能更好. 而ABCNN和DecomposableAttention模型的性能相對較低, 可能是因?yàn)樾侣勎谋九c評論之間的長度相差較多, 不能準(zhǔn)確捕捉到文本與文本、 詞與詞之間的關(guān)系. 而SiaGRU模型則忽略了文本的上下文信息.

    2.6 公共數(shù)據(jù)集上的實(shí)驗(yàn)

    下面在BQ(http://icrc.hitsz.edu.cn/info/1037/1162.htm)和LCQMC(http://icrc.hitsz.edu.cn/info/1037/1146.htm)兩個中文公共數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 以檢驗(yàn)本文模型的泛化能力. 兩個數(shù)據(jù)集均由哈爾濱工業(yè)大學(xué)智能計(jì)算研究中心構(gòu)造并公開, 數(shù)據(jù)集BQ含有12萬條從金融領(lǐng)域采集的問題對, 其中10萬條為訓(xùn)練集, 1萬條為驗(yàn)證集, 1萬條為測試集. 數(shù)據(jù)集LCQMC覆蓋了更多領(lǐng)域的問題匹配, 含有260 068條手工標(biāo)注的問題對, 其中238 766條為訓(xùn)練集, 8 802條為驗(yàn)證集, 12 500條為測試集. 之所以采用問題匹配的數(shù)據(jù)集, 是因?yàn)樵趩柎痤I(lǐng)域中, 同樣需要將輸入的問題與設(shè)定好的問題進(jìn)行語義相似度計(jì)算, 如果相似就尋找問題庫中的答案. 評價指標(biāo)仍采用準(zhǔn)確率、 精確率、 召回率和F1值. 不同模型在兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分別列于表5和表6. 由表5和表6可見, 本文模型在兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與其他模型相比性能均較好, 表明本文模型有一定泛化能力. 這是因?yàn)楸疚哪P褪褂玫腖DA主題模型不需要依賴領(lǐng)域數(shù)據(jù)即可推斷出主題分布, 因此泛化能力相對更好.

    表5 不同模型在數(shù)據(jù)集BQ上的實(shí)驗(yàn)結(jié)果

    表6 不同模型在數(shù)據(jù)集LCQMC上的實(shí)驗(yàn)結(jié)果

    綜上所述, 針對預(yù)訓(xùn)練模型在處理新聞這種長文本時會截斷一部分文本, 導(dǎo)致文本信息缺失的問題, 本文提出了一種結(jié)合TextRank、 LDA主題模型和BERT預(yù)訓(xùn)練模型的新聞文本與評論語義相似度計(jì)算方法, 同時融入了新聞標(biāo)題信息. 實(shí)驗(yàn)結(jié)果表明了本文方法的有效性.

    猜你喜歡
    新聞標(biāo)題語義向量
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    語言與語義
    談新聞標(biāo)題的現(xiàn)實(shí)性
    活力(2019年22期)2019-03-16 12:49:06
    網(wǎng)絡(luò)新聞標(biāo)題與報紙新聞標(biāo)題的對比
    活力(2019年22期)2019-03-16 12:48:00
    無意間擊中幽默的新聞標(biāo)題
    喜劇世界(2016年9期)2016-08-24 06:17:26
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    向量垂直在解析幾何中的應(yīng)用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    淺談新聞標(biāo)題的裝扮技巧
    新聞傳播(2015年22期)2015-07-18 11:04:06
    欧美日韩综合久久久久久 | 男女视频在线观看网站免费| 99精品久久久久人妻精品| 欧洲精品卡2卡3卡4卡5卡区| 成人精品一区二区免费| 亚洲电影在线观看av| 热99在线观看视频| 午夜亚洲福利在线播放| 别揉我奶头~嗯~啊~动态视频| 国产综合懂色| 国语自产精品视频在线第100页| 国内少妇人妻偷人精品xxx网站 | 欧美日韩瑟瑟在线播放| ponron亚洲| 97超视频在线观看视频| 一本久久中文字幕| 国产成人av激情在线播放| 又紧又爽又黄一区二区| 亚洲av美国av| 国产淫片久久久久久久久 | 青草久久国产| 国产在线精品亚洲第一网站| 免费av不卡在线播放| 男女午夜视频在线观看| 51午夜福利影视在线观看| 国产69精品久久久久777片 | 午夜免费激情av| 久久伊人香网站| 日韩精品中文字幕看吧| 婷婷六月久久综合丁香| 久久久久九九精品影院| 日韩大尺度精品在线看网址| 欧美日韩黄片免| 久久中文看片网| 午夜福利在线观看吧| 成人三级做爰电影| 亚洲专区国产一区二区| 国产精品,欧美在线| 精品久久久久久久末码| 国产高清三级在线| 亚洲中文字幕一区二区三区有码在线看 | 欧美成狂野欧美在线观看| av黄色大香蕉| 在线观看免费视频日本深夜| 精华霜和精华液先用哪个| av在线天堂中文字幕| 亚洲人与动物交配视频| 亚洲国产日韩欧美精品在线观看 | or卡值多少钱| 老司机午夜十八禁免费视频| 超碰成人久久| 99久久精品热视频| 亚洲成av人片免费观看| 99国产精品99久久久久| 国内精品美女久久久久久| 日韩欧美三级三区| 亚洲国产色片| 9191精品国产免费久久| 美女午夜性视频免费| 国产高清有码在线观看视频| 久久伊人香网站| av天堂中文字幕网| 中文字幕人妻丝袜一区二区| 国产淫片久久久久久久久 | 国产真实乱freesex| 国产探花在线观看一区二区| av中文乱码字幕在线| 最近视频中文字幕2019在线8| 中文字幕精品亚洲无线码一区| 成人精品一区二区免费| 国产一区在线观看成人免费| 午夜免费激情av| 国产高清三级在线| 亚洲av成人不卡在线观看播放网| 国产黄色小视频在线观看| aaaaa片日本免费| 成人欧美大片| 91字幕亚洲| 欧美日韩中文字幕国产精品一区二区三区| 亚洲一区高清亚洲精品| av天堂中文字幕网| 久久香蕉国产精品| 成年女人毛片免费观看观看9| 中文资源天堂在线| 丁香欧美五月| 亚洲国产欧美一区二区综合| 精品久久久久久久久久免费视频| 我的老师免费观看完整版| 老汉色av国产亚洲站长工具| 久久久久性生活片| 欧美不卡视频在线免费观看| 深夜精品福利| 精品一区二区三区四区五区乱码| 搞女人的毛片| 色吧在线观看| 国产成人av教育| 欧美高清成人免费视频www| 午夜福利18| 亚洲精品中文字幕一二三四区| 美女扒开内裤让男人捅视频| 婷婷精品国产亚洲av| 国产精品久久久久久精品电影| 这个男人来自地球电影免费观看| 99国产精品99久久久久| 国产精品香港三级国产av潘金莲| 高清毛片免费观看视频网站| 久久久精品大字幕| 日韩欧美 国产精品| 视频区欧美日本亚洲| 在线看三级毛片| 国产伦在线观看视频一区| 成人三级黄色视频| 嫁个100分男人电影在线观看| 精品一区二区三区av网在线观看| 日韩欧美国产一区二区入口| 亚洲国产欧美一区二区综合| 小蜜桃在线观看免费完整版高清| 久久精品夜夜夜夜夜久久蜜豆| 成人无遮挡网站| 国产又黄又爽又无遮挡在线| 亚洲真实伦在线观看| 精品免费久久久久久久清纯| 99热这里只有是精品50| 久久久国产欧美日韩av| 麻豆av在线久日| 欧美一级a爱片免费观看看| 久久久久久九九精品二区国产| 九九热线精品视视频播放| 性欧美人与动物交配| 网址你懂的国产日韩在线| 色吧在线观看| 国产成人av教育| 免费看光身美女| 精品国产美女av久久久久小说| 国产亚洲av嫩草精品影院| 一级毛片精品| av国产免费在线观看| 亚洲国产欧美一区二区综合| 国产av麻豆久久久久久久| 亚洲真实伦在线观看| 69av精品久久久久久| 午夜久久久久精精品| 12—13女人毛片做爰片一| 国产精品精品国产色婷婷| 欧美成人免费av一区二区三区| 一级黄色大片毛片| 噜噜噜噜噜久久久久久91| 中出人妻视频一区二区| 我的老师免费观看完整版| av在线天堂中文字幕| 日韩欧美在线二视频| 日韩中文字幕欧美一区二区| 丰满人妻一区二区三区视频av | 91麻豆av在线| 欧美日韩黄片免| 久久久精品欧美日韩精品| 成人亚洲精品av一区二区| 精品国产亚洲在线| 日本免费a在线| 欧美成人免费av一区二区三区| 国产午夜精品论理片| 欧美日韩综合久久久久久 | 一个人观看的视频www高清免费观看 | 免费观看人在逋| 两性夫妻黄色片| 色视频www国产| svipshipincom国产片| 看黄色毛片网站| 国产精品一区二区精品视频观看| 日韩欧美精品v在线| 少妇裸体淫交视频免费看高清| 在线免费观看不下载黄p国产 | 成人无遮挡网站| 可以在线观看毛片的网站| 99国产极品粉嫩在线观看| 免费人成视频x8x8入口观看| 一区二区三区国产精品乱码| 久久久成人免费电影| 好男人在线观看高清免费视频| 99久久99久久久精品蜜桃| 男人舔女人下体高潮全视频| 精品欧美国产一区二区三| netflix在线观看网站| avwww免费| 真人一进一出gif抽搐免费| 在线观看舔阴道视频| 热99在线观看视频| 成年免费大片在线观看| 国内精品美女久久久久久| 久久中文字幕一级| 天堂网av新在线| 色在线成人网| 精品熟女少妇八av免费久了| 一个人看的www免费观看视频| 亚洲精品美女久久av网站| 成年免费大片在线观看| 一区二区三区高清视频在线| 国模一区二区三区四区视频 | 亚洲精品中文字幕一二三四区| 日本一本二区三区精品| 久久精品夜夜夜夜夜久久蜜豆| 99精品久久久久人妻精品| www日本在线高清视频| 美女高潮喷水抽搐中文字幕| 色av中文字幕| 日韩欧美国产一区二区入口| 十八禁人妻一区二区| 国产亚洲精品综合一区在线观看| 岛国视频午夜一区免费看| xxxwww97欧美| 身体一侧抽搐| 国产精品 国内视频| 一级毛片精品| 男人舔奶头视频| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲真实伦在线观看| 在线观看一区二区三区| 91在线精品国自产拍蜜月 | 日本 欧美在线| 亚洲成人久久爱视频| 亚洲精品456在线播放app | 亚洲欧美精品综合一区二区三区| 久久国产乱子伦精品免费另类| 国产精品日韩av在线免费观看| 在线观看日韩欧美| 久久久精品大字幕| 九九在线视频观看精品| 一进一出好大好爽视频| 又大又爽又粗| 黑人欧美特级aaaaaa片| 国产亚洲av高清不卡| 一进一出好大好爽视频| 色av中文字幕| 大型黄色视频在线免费观看| 禁无遮挡网站| 精品福利观看| 精品免费久久久久久久清纯| 亚洲午夜理论影院| 久久久水蜜桃国产精品网| 久久久久国产一级毛片高清牌| 成人av一区二区三区在线看| 一本久久中文字幕| 国产高潮美女av| 免费搜索国产男女视频| 国产午夜精品论理片| 国产高清视频在线观看网站| 黄色丝袜av网址大全| 国产男靠女视频免费网站| 日本一二三区视频观看| 亚洲精品一卡2卡三卡4卡5卡| 久久久久久大精品| 国产精品一区二区免费欧美| 国产精品久久久久久精品电影| 老司机午夜十八禁免费视频| 午夜福利高清视频| 午夜福利视频1000在线观看| 亚洲精品一卡2卡三卡4卡5卡| av在线天堂中文字幕| 亚洲在线自拍视频| 一a级毛片在线观看| 精品无人区乱码1区二区| 国产视频一区二区在线看| 久久中文看片网| 一本一本综合久久| 色老头精品视频在线观看| 午夜福利欧美成人| 最近在线观看免费完整版| 网址你懂的国产日韩在线| 亚洲熟妇熟女久久| 国产高清三级在线| 免费电影在线观看免费观看| 日韩欧美在线二视频| 久久人人精品亚洲av| 精品熟女少妇八av免费久了| 999精品在线视频| 亚洲国产欧美一区二区综合| 无限看片的www在线观看| 久久香蕉国产精品| 最新美女视频免费是黄的| 一a级毛片在线观看| 国产日本99.免费观看| 日本黄大片高清| 99久久无色码亚洲精品果冻| 日韩精品中文字幕看吧| 亚洲av第一区精品v没综合| 国产1区2区3区精品| 在线免费观看的www视频| 国产激情久久老熟女| 精品人妻1区二区| 99在线视频只有这里精品首页| 在线a可以看的网站| 精品免费久久久久久久清纯| 无限看片的www在线观看| 欧美一区二区国产精品久久精品| 亚洲人成网站高清观看| 岛国视频午夜一区免费看| 国产久久久一区二区三区| 亚洲自拍偷在线| 国产真实乱freesex| 国产熟女xx| 国产av一区在线观看免费| 人妻丰满熟妇av一区二区三区| 身体一侧抽搐| 黄频高清免费视频| 真实男女啪啪啪动态图| 亚洲电影在线观看av| 欧美黄色片欧美黄色片| 成年人黄色毛片网站| 中文字幕久久专区| av天堂在线播放| 最近最新中文字幕大全免费视频| 在线播放国产精品三级| 老熟妇仑乱视频hdxx| 精品久久久久久久毛片微露脸| 国产v大片淫在线免费观看| 一个人看的www免费观看视频| 亚洲国产欧洲综合997久久,| e午夜精品久久久久久久| 国产精品国产高清国产av| 午夜免费观看网址| 三级毛片av免费| 亚洲午夜精品一区,二区,三区| 亚洲18禁久久av| 女人被狂操c到高潮| 小说图片视频综合网站| 亚洲精华国产精华精| 岛国在线观看网站| 欧美在线一区亚洲| 日本熟妇午夜| а√天堂www在线а√下载| 91九色精品人成在线观看| 久久久久久大精品| 9191精品国产免费久久| 天天添夜夜摸| 一本综合久久免费| 18禁美女被吸乳视频| 久久久久免费精品人妻一区二区| 国产精品自产拍在线观看55亚洲| 亚洲国产日韩欧美精品在线观看 | 91久久精品国产一区二区成人 | 亚洲国产高清在线一区二区三| 亚洲精华国产精华精| 老熟妇乱子伦视频在线观看| a级毛片在线看网站| 欧美日韩瑟瑟在线播放| 国产精品久久久久久人妻精品电影| 成人永久免费在线观看视频| 黄频高清免费视频| 免费看光身美女| 一个人免费在线观看电影 | 欧美成人一区二区免费高清观看 | 久久午夜亚洲精品久久| 国产一区二区三区视频了| 男插女下体视频免费在线播放| 一级黄色大片毛片| 禁无遮挡网站| 我的老师免费观看完整版| 成年人黄色毛片网站| 九九在线视频观看精品| 久久午夜亚洲精品久久| 麻豆久久精品国产亚洲av| 亚洲成av人片免费观看| 日韩欧美 国产精品| 久久久国产成人免费| 悠悠久久av| 好男人在线观看高清免费视频| 国产一区二区三区视频了| 香蕉国产在线看| 国产99白浆流出| 后天国语完整版免费观看| 我的老师免费观看完整版| 1024手机看黄色片| 黄色 视频免费看| 真人一进一出gif抽搐免费| 老汉色∧v一级毛片| 久久久国产成人免费| 国产精品综合久久久久久久免费| 国产美女午夜福利| 国内少妇人妻偷人精品xxx网站 | av欧美777| 亚洲avbb在线观看| 亚洲激情在线av| 日韩欧美国产在线观看| 十八禁网站免费在线| 国内精品久久久久精免费| 国产欧美日韩精品亚洲av| 夜夜躁狠狠躁天天躁| 宅男免费午夜| 国内精品久久久久精免费| 久久久水蜜桃国产精品网| 免费一级毛片在线播放高清视频| 成在线人永久免费视频| 不卡av一区二区三区| 欧美激情在线99| 婷婷精品国产亚洲av| 又大又爽又粗| 两个人的视频大全免费| 99热6这里只有精品| 男女午夜视频在线观看| 亚洲欧美精品综合久久99| 亚洲国产看品久久| 精品久久久久久久久久久久久| 宅男免费午夜| 丁香六月欧美| 国产精品女同一区二区软件 | 黄片大片在线免费观看| 国产高清视频在线播放一区| xxxwww97欧美| 国产不卡一卡二| 国产成人啪精品午夜网站| 在线永久观看黄色视频| 亚洲av成人精品一区久久| www.999成人在线观看| 99精品在免费线老司机午夜| 久久久精品欧美日韩精品| 久久精品亚洲精品国产色婷小说| 久久亚洲真实| 伊人久久大香线蕉亚洲五| 99久久国产精品久久久| 亚洲成人精品中文字幕电影| 午夜成年电影在线免费观看| 宅男免费午夜| 国产1区2区3区精品| 黄色视频,在线免费观看| 99国产精品一区二区三区| 免费搜索国产男女视频| 成年女人看的毛片在线观看| bbb黄色大片| 国产野战对白在线观看| 国产激情久久老熟女| 国产精品一及| 99久久精品一区二区三区| 噜噜噜噜噜久久久久久91| 免费看光身美女| a级毛片在线看网站| 精品国产亚洲在线| 久久这里只有精品19| 色在线成人网| 国产av一区在线观看免费| 亚洲国产欧洲综合997久久,| netflix在线观看网站| 国产黄色小视频在线观看| 一个人看的www免费观看视频| 黄片大片在线免费观看| 国产三级中文精品| 欧美一级毛片孕妇| 国产精品免费一区二区三区在线| 麻豆一二三区av精品| 免费观看人在逋| 一个人看的www免费观看视频| 禁无遮挡网站| 午夜免费成人在线视频| 日韩欧美在线二视频| 欧美黑人欧美精品刺激| 国产亚洲精品av在线| 国内精品美女久久久久久| 欧美日韩一级在线毛片| 亚洲成人精品中文字幕电影| 99久久成人亚洲精品观看| 十八禁网站免费在线| 欧美高清成人免费视频www| 91在线精品国自产拍蜜月 | 久久中文看片网| 日日摸夜夜添夜夜添小说| 我要搜黄色片| 三级男女做爰猛烈吃奶摸视频| 香蕉国产在线看| 人人妻,人人澡人人爽秒播| 亚洲欧美精品综合久久99| 国产私拍福利视频在线观看| 小蜜桃在线观看免费完整版高清| 99国产精品一区二区蜜桃av| 亚洲中文字幕一区二区三区有码在线看 | 少妇熟女aⅴ在线视频| 亚洲五月天丁香| 每晚都被弄得嗷嗷叫到高潮| 久久久国产成人精品二区| 丰满的人妻完整版| 一区二区三区国产精品乱码| 亚洲aⅴ乱码一区二区在线播放| 日本黄色视频三级网站网址| 在线看三级毛片| 亚洲片人在线观看| 免费观看精品视频网站| 黄频高清免费视频| 亚洲国产高清在线一区二区三| 热99re8久久精品国产| 啦啦啦免费观看视频1| 一本精品99久久精品77| 久久久久久大精品| 黄色日韩在线| 熟女人妻精品中文字幕| 中文字幕人成人乱码亚洲影| 中文在线观看免费www的网站| 成年女人永久免费观看视频| 国产精品国产高清国产av| 成年人黄色毛片网站| 欧美日本亚洲视频在线播放| 国产人伦9x9x在线观看| 午夜福利免费观看在线| 757午夜福利合集在线观看| 亚洲成av人片免费观看| 精品久久久久久,| 国产又黄又爽又无遮挡在线| 国产精品自产拍在线观看55亚洲| 在线a可以看的网站| 亚洲人与动物交配视频| 久久亚洲精品不卡| 亚洲av中文字字幕乱码综合| 亚洲aⅴ乱码一区二区在线播放| 身体一侧抽搐| 国产v大片淫在线免费观看| 美女高潮喷水抽搐中文字幕| 国产伦在线观看视频一区| 18禁裸乳无遮挡免费网站照片| 亚洲av成人不卡在线观看播放网| 亚洲国产精品久久男人天堂| 久久精品综合一区二区三区| 欧美激情久久久久久爽电影| 1024手机看黄色片| 国产精品久久久av美女十八| 国内精品久久久久精免费| 国产伦人伦偷精品视频| 一区二区三区激情视频| 国产精品亚洲av一区麻豆| 成年人黄色毛片网站| 成人国产一区最新在线观看| 久久伊人香网站| 欧美日韩中文字幕国产精品一区二区三区| 国产毛片a区久久久久| 欧美色视频一区免费| 一级a爱片免费观看的视频| 91老司机精品| 日本a在线网址| 日本黄大片高清| xxxwww97欧美| 日韩欧美三级三区| 免费在线观看视频国产中文字幕亚洲| 国产亚洲精品久久久com| 午夜影院日韩av| 制服人妻中文乱码| 一个人免费在线观看的高清视频| 国产熟女xx| 51午夜福利影视在线观看| 亚洲熟女毛片儿| 国产日本99.免费观看| 国产一区在线观看成人免费| 日本在线视频免费播放| 99精品欧美一区二区三区四区| 超碰成人久久| 国产真实乱freesex| 久久精品夜夜夜夜夜久久蜜豆| 国产探花在线观看一区二区| 99久久无色码亚洲精品果冻| 999久久久国产精品视频| 精品久久久久久成人av| 亚洲精品国产精品久久久不卡| 精品福利观看| 免费在线观看亚洲国产| 在线免费观看的www视频| 国产亚洲精品一区二区www| 桃红色精品国产亚洲av| 国产精品久久久av美女十八| 99精品在免费线老司机午夜| 夜夜爽天天搞| 欧美+亚洲+日韩+国产| 国产人伦9x9x在线观看| 免费大片18禁| 悠悠久久av| 亚洲国产精品久久男人天堂| 天天添夜夜摸| 国产极品精品免费视频能看的| 特大巨黑吊av在线直播| 琪琪午夜伦伦电影理论片6080| 在线观看66精品国产| 成年免费大片在线观看| 国产欧美日韩精品亚洲av| 免费无遮挡裸体视频| 精品一区二区三区四区五区乱码| 免费av毛片视频| 亚洲无线观看免费| 丝袜人妻中文字幕| 精品久久久久久,| 99热精品在线国产| 精品久久久久久久末码| 免费看a级黄色片| 午夜精品一区二区三区免费看| 91久久精品国产一区二区成人 | 男人舔女人下体高潮全视频| 亚洲中文日韩欧美视频| 美女cb高潮喷水在线观看 | 亚洲天堂国产精品一区在线| 午夜亚洲福利在线播放| 18禁观看日本| 国产 一区 欧美 日韩| 狠狠狠狠99中文字幕| 大型黄色视频在线免费观看| 国产aⅴ精品一区二区三区波| 黄频高清免费视频| 国产乱人视频| 国产人伦9x9x在线观看| 亚洲精品中文字幕一二三四区| 91字幕亚洲| 国产高清三级在线| 91久久精品国产一区二区成人 | 日韩成人在线观看一区二区三区| 精品国产乱子伦一区二区三区| 69av精品久久久久久| 国内少妇人妻偷人精品xxx网站 | 亚洲精品粉嫩美女一区| 一二三四在线观看免费中文在| 国产视频内射| 亚洲精品美女久久久久99蜜臀| 日韩精品中文字幕看吧| 久久久久性生活片|