• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合BERT語(yǔ)義加權(quán)與網(wǎng)絡(luò)圖的關(guān)鍵詞抽取方法

    2020-09-18 00:23:48呂學(xué)強(qiáng)
    計(jì)算機(jī)工程 2020年9期
    關(guān)鍵詞:文檔語(yǔ)義聚類

    李 俊,呂學(xué)強(qiáng)

    (北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101)

    0 概述

    隨著計(jì)算機(jī)信息技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各行各業(yè)每天產(chǎn)生并積累大量數(shù)據(jù),從海量數(shù)據(jù)中提取對(duì)人們有價(jià)值的信息已成為急需解決的問題。關(guān)鍵詞抽取是在對(duì)象文本中自動(dòng)抽取能夠體現(xiàn)文本內(nèi)容的中心概念或者重要詞語(yǔ),可幫助人們快速定位所需文檔,因此其在自然語(yǔ)言處理、圖書館學(xué)和情報(bào)學(xué)等領(lǐng)域得到廣泛應(yīng)用[1]。

    目前,關(guān)鍵詞抽取方法主要分為有監(jiān)督和無(wú)監(jiān)督兩種。有監(jiān)督的關(guān)鍵詞抽取方法通過(guò)二分類思想確定文檔中的候選詞是否為關(guān)鍵詞。該方法將已標(biāo)注的關(guān)鍵詞數(shù)據(jù)作為訓(xùn)練語(yǔ)料庫(kù),通過(guò)語(yǔ)料庫(kù)訓(xùn)練關(guān)鍵詞判別模型,并利用該模型對(duì)待處理文本進(jìn)行關(guān)鍵詞提取,但是該方式需要人工提前標(biāo)注大量語(yǔ)料,并且若在標(biāo)注過(guò)程中存在誤差,則會(huì)直接影響模型性能。無(wú)監(jiān)督的關(guān)鍵詞抽取方法無(wú)須事先標(biāo)注訓(xùn)練語(yǔ)料,通過(guò)關(guān)鍵詞重要性排序?qū)崿F(xiàn)關(guān)鍵詞抽取。該方法利用關(guān)鍵詞權(quán)重等量化指標(biāo)進(jìn)行權(quán)重計(jì)算與排序,選出綜合影響得分較高的若干詞作為關(guān)鍵詞。無(wú)監(jiān)督的關(guān)鍵詞抽取方法近年來(lái)受到學(xué)者們的廣泛關(guān)注,其中的TextRank方法[2]在構(gòu)建網(wǎng)絡(luò)圖時(shí)主要利用文檔本身的結(jié)構(gòu)信息,但缺少外部語(yǔ)義知識(shí)的支持,而基于Transformer的雙向編碼器表示(Bidirectional Encoder Representation from Transformer,BERT)語(yǔ)言模型能將詞語(yǔ)映射成高維的向量,并保留其語(yǔ)義上的相似關(guān)系。

    本文將文檔信息與BERT詞語(yǔ)語(yǔ)義信息同時(shí)融入基于網(wǎng)絡(luò)圖的關(guān)鍵詞抽取模型中,通過(guò)詞向量進(jìn)行語(yǔ)義表示并利用BERT詞向量加權(quán)方式計(jì)算TextRank中詞節(jié)點(diǎn)的概率轉(zhuǎn)移矩陣,以提升關(guān)鍵詞抽取效果。

    1 相關(guān)研究

    文獻(xiàn)[3]利用詞圖中的度中心性、接近中心性等中心性指標(biāo),加權(quán)計(jì)算鄰接詞語(yǔ)所傳遞的影響力概率轉(zhuǎn)移矩陣,提升關(guān)鍵詞抽取效果。文獻(xiàn)[4]通過(guò)詞語(yǔ)覆蓋范圍權(quán)重、位置權(quán)重和頻度權(quán)重以及TextRank實(shí)現(xiàn)關(guān)鍵詞自動(dòng)提取。文獻(xiàn)[5]提出針對(duì)中文文檔的關(guān)鍵詞抽取算法TextRank-CM。文獻(xiàn)[6]將TextRank與隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[7]主題模型相結(jié)合,通過(guò)融合文檔整體的主題信息及單篇文檔的結(jié)構(gòu)信息來(lái)提高關(guān)鍵詞抽取效果。文獻(xiàn)[8]通過(guò)訓(xùn)練隱馬爾可夫模型挖掘主題信息和關(guān)鍵詞,并在測(cè)試語(yǔ)料上取得了較好的挖掘效果。文獻(xiàn)[9]通過(guò)構(gòu)建語(yǔ)義網(wǎng)絡(luò)圖并融合圖路徑轉(zhuǎn)化量、詞聚類系數(shù)以及詞窗口信息提出綜合計(jì)算指標(biāo),且在專利數(shù)據(jù)集中具有較好的性能表現(xiàn)。文獻(xiàn)[10]利用各種圖節(jié)點(diǎn)縮減算法重構(gòu)語(yǔ)言網(wǎng)絡(luò)圖,篩選出文檔中影響得分高的節(jié)點(diǎn)并將其作為關(guān)鍵詞。文獻(xiàn)[11]提出在TextRank轉(zhuǎn)移概率計(jì)算過(guò)程中融合詞圖的邊和點(diǎn)信息來(lái)提升關(guān)鍵詞抽取效果。

    近年來(lái),隨著Word2Vec[12]、GloVe[13]等詞向量模型和語(yǔ)言模型的發(fā)展,學(xué)者們開始利用詞向量模型訓(xùn)練文本庫(kù)生成詞向量獲得詞匯語(yǔ)義關(guān)系,并結(jié)合傳統(tǒng)TextRank方法進(jìn)行關(guān)鍵詞提取。文獻(xiàn)[14]將詞向量融入候選詞中以增強(qiáng)關(guān)鍵詞抽取的語(yǔ)義關(guān)系。文獻(xiàn)[15]通過(guò)詞語(yǔ)的語(yǔ)義距離計(jì)算實(shí)現(xiàn)詞語(yǔ)的主題聚類,并依據(jù)聚類結(jié)果選取中心詞為關(guān)鍵詞。文獻(xiàn)[16]利用文本局部結(jié)構(gòu)信息和文本整體的詞向量語(yǔ)義信息抽取關(guān)鍵詞。文獻(xiàn)[17]通過(guò)詞向量計(jì)算詞語(yǔ)的相似性,再根據(jù)詞聚類算法實(shí)現(xiàn)關(guān)鍵詞抽取。文獻(xiàn)[18]利用Word2Vec詞向量實(shí)現(xiàn)相似詞語(yǔ)的聚類,通過(guò)計(jì)算距離質(zhì)心最遠(yuǎn)的詞來(lái)更新概率轉(zhuǎn)移矩陣,并將其引入到TextRank詞圖的迭代計(jì)算過(guò)程中優(yōu)化關(guān)鍵詞抽取效率。

    綜上所述,在TextRank權(quán)值分配計(jì)算中如何融合外部語(yǔ)義信息是TextRank方法優(yōu)化的關(guān)鍵。詞位置分布加權(quán)及LDA主題模型加權(quán)等方法均需要對(duì)待提取文本進(jìn)行預(yù)處理,但對(duì)于不同數(shù)據(jù)集效果差異較大,而詞向量訓(xùn)練與待抽取關(guān)鍵詞的文檔無(wú)關(guān),若利用包含外部語(yǔ)義信息的詞向量對(duì)TextRank方法進(jìn)行優(yōu)化,則可以更好地解決關(guān)鍵詞抽取問題。因此,本文采用基于網(wǎng)絡(luò)圖的關(guān)鍵詞抽取方法,將詞向量計(jì)算的語(yǔ)義信息和文本信息融入TextRank計(jì)算過(guò)程中,先利用BERT模型[19]獲取詞向量,再使用詞向量加權(quán)方式優(yōu)化TextRank中詞節(jié)點(diǎn)的轉(zhuǎn)移概率矩陣計(jì)算,提升關(guān)鍵詞抽取效果。

    2 融合BERT與TextRank的關(guān)鍵詞抽取

    在單篇文章中通常具有多個(gè)關(guān)鍵詞,而這些關(guān)鍵詞一般不屬于同一個(gè)主題,一些學(xué)者通過(guò)LDA主題聚類進(jìn)行關(guān)鍵詞抽取[6,20],因此結(jié)合理論分析和實(shí)際應(yīng)用可知,不同的主題表明這些關(guān)鍵詞在語(yǔ)義角度存在明顯差異。傳統(tǒng)關(guān)鍵詞抽取方法通過(guò)挖掘詞語(yǔ)的共現(xiàn)關(guān)系構(gòu)建詞的圖模型,并對(duì)文檔中詞語(yǔ)進(jìn)行綜合影響力得分排序?qū)崿F(xiàn)關(guān)鍵詞抽取,從而選擇相對(duì)重要的詞語(yǔ)。該方法很容易將高頻率的詞語(yǔ)當(dāng)作關(guān)鍵詞,由于多數(shù)情況下一篇文檔中的某些關(guān)鍵詞的詞頻很低,因此此類關(guān)鍵詞容易被遺漏。為此,本文在TextRank方法的基礎(chǔ)上,引入關(guān)鍵詞的語(yǔ)義差異性優(yōu)化詞節(jié)點(diǎn)間的概率轉(zhuǎn)移矩陣計(jì)算,并經(jīng)過(guò)迭代計(jì)算獲取詞語(yǔ)在文本中的重要程度,從而完成關(guān)鍵詞的綜合影響力排序及抽取。

    2.1 候選關(guān)鍵詞的詞圖構(gòu)建

    基于TextRank思想將一篇文檔轉(zhuǎn)換成詞圖模型,先把所有已出現(xiàn)的詞語(yǔ)去重并作為單獨(dú)的節(jié)點(diǎn),通過(guò)詞語(yǔ)的共現(xiàn)窗口決定各個(gè)詞節(jié)點(diǎn)之間的邊并構(gòu)成詞圖。單篇文檔的詞圖構(gòu)建過(guò)程如下:

    1)對(duì)文檔D進(jìn)行分句,則D由n個(gè)句子組成,即D=[s1,s2,…,sn]。

    2)對(duì)si∈D進(jìn)行分詞、去停用詞和保留重要詞性等預(yù)處理,生成候選關(guān)鍵詞序列si=[w1,w2,…,wn]。

    3)對(duì)關(guān)鍵詞序列進(jìn)行詞圖構(gòu)建G=(V,E),其中:V為候選的關(guān)鍵詞節(jié)點(diǎn)集合,V={v1,v2,…,vn};E為候選關(guān)鍵詞之間的鏈接集合,E中的邊由詞的共現(xiàn)關(guān)系決定,例如wi、wj在詞窗口內(nèi)共現(xiàn)時(shí)會(huì)在詞圖中新增兩條有向鏈接邊,即vi→vj和vj→vi。在生成詞圖后,可利用式(1)計(jì)算節(jié)點(diǎn)分?jǐn)?shù):

    (1)

    其中:In(vi)是其他節(jié)點(diǎn)到詞節(jié)點(diǎn)vi的節(jié)點(diǎn)集合;Out(vj)是詞節(jié)點(diǎn)vj所指向的集合;wji、wjk是兩詞節(jié)點(diǎn)所形成邊的權(quán)值;S(vi)是節(jié)點(diǎn)vi的得分權(quán)重;d是平滑因子,其實(shí)際意義是詞語(yǔ)轉(zhuǎn)移到其他詞語(yǔ)的概率,并且可以保證式(1)在迭代計(jì)算時(shí)能夠穩(wěn)定傳遞并達(dá)到收斂,通常設(shè)置為0.85。

    利用迭代計(jì)算式(1)完成對(duì)候選關(guān)鍵詞的重要性排序,該過(guò)程是一個(gè)馬爾可夫過(guò)程,因此最終結(jié)果與詞節(jié)點(diǎn)的最初權(quán)值及邊的權(quán)值無(wú)關(guān),僅與文檔中詞節(jié)點(diǎn)的跳轉(zhuǎn)矩陣相關(guān)。傳統(tǒng)TextRank方法使用相同的跳轉(zhuǎn)概率表示相鄰節(jié)點(diǎn)之間的比重。令P(vi,vj)代表詞節(jié)點(diǎn)vi到詞節(jié)點(diǎn)vj的跳轉(zhuǎn)概率,利用式(2)計(jì)算詞節(jié)點(diǎn)的轉(zhuǎn)移概率[2]:

    (2)

    其中,deg(vi)代表詞節(jié)點(diǎn)vi的度。本文提出一種融合BERT向量的語(yǔ)義信息計(jì)算方法,優(yōu)化TextRank中的權(quán)值計(jì)算過(guò)程。

    2.2 BERT詞向量的語(yǔ)義加權(quán)

    詞向量是使用向量的形式來(lái)表達(dá)詞語(yǔ),此類方法中應(yīng)用較廣泛的為Word2Vec模型[12]和BERT模型[19]。Word2Vec模型利用淺層神經(jīng)網(wǎng)絡(luò)進(jìn)行模型學(xué)習(xí),將詞語(yǔ)映射到相應(yīng)的高維空間中得到詞向量。BERT模型本質(zhì)是一種可微調(diào)的雙向Transformer[21]編碼器,其摒棄了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)結(jié)構(gòu),將Transformer編碼器作為模型的主體結(jié)構(gòu),主要利用注意力機(jī)制對(duì)句子進(jìn)行建?!,F(xiàn)有的Word2Vec、GloVe等詞向量模型均不能較好地處理一詞多義的情況,而BERT語(yǔ)言模型不僅可以生成詞向量,而且可以解決一詞多義問題。BERT模型結(jié)構(gòu)如圖1所示,其中,E表示訓(xùn)練向量,Trm表示Transformer編碼器。

    圖1 BERT模型結(jié)構(gòu)

    BERT將兩個(gè)句子序列相連并作為模型輸入部分,在每個(gè)句子的開始和結(jié)束位置打上標(biāo)記符號(hào)。對(duì)于每個(gè)單詞,BERT分別進(jìn)行單詞位置信息編碼、單詞Word2Vec編碼和句子整體編碼3種嵌入操作。將這3種嵌入結(jié)果向量進(jìn)行拼接獲得BERT詞向量。相對(duì)已有語(yǔ)言模型,BERT是百層左右的深度神經(jīng)網(wǎng)絡(luò)模型,其利用大規(guī)模語(yǔ)料進(jìn)行模型參數(shù)學(xué)習(xí),因此在BERT詞向量中融入了更多的語(yǔ)法、詞法以及語(yǔ)義信息,同時(shí)BERT以字為單位進(jìn)行訓(xùn)練,在一定程度上解決了Word2Vec面臨的未登錄詞問題。

    本文采用BERT向量計(jì)算得到外部語(yǔ)義關(guān)系并將其融入文檔關(guān)鍵詞提取中。根據(jù)統(tǒng)計(jì)發(fā)現(xiàn)文檔中的多個(gè)關(guān)鍵詞不一定具有很強(qiáng)的關(guān)聯(lián)性,一篇文檔的關(guān)鍵詞通常代表不同的文檔主題,用于概括文檔中心內(nèi)容,例如利用LDA聚類的關(guān)鍵詞抽取方法就是針對(duì)一篇文章的多個(gè)主題提取關(guān)鍵詞并取得了較好的效果。因此,考慮到關(guān)鍵詞所屬不同主題導(dǎo)致的語(yǔ)義差異性,本文假設(shè)在TextRank詞語(yǔ)的權(quán)值分配計(jì)算中,若相鄰詞節(jié)點(diǎn)集中兩詞節(jié)點(diǎn)的語(yǔ)義差異越大,則賦予更高的轉(zhuǎn)移概率且具有更高的跳轉(zhuǎn)權(quán)重。本文選用余弦距離表征詞語(yǔ)的語(yǔ)義距離,由式(3)計(jì)算得到:

    (3)

    其中,ai、aj表示候選關(guān)鍵詞詞節(jié)點(diǎn)vi、vj的詞向量。由于語(yǔ)義差異越大,轉(zhuǎn)移概率越高,因此使用式(4)計(jì)算節(jié)點(diǎn)vi到節(jié)點(diǎn)vj的跳轉(zhuǎn)概率:

    Psim(vi,vj)=k-sim(ai,aj)

    (4)

    其中,k為實(shí)驗(yàn)參數(shù),實(shí)驗(yàn)中需對(duì)sim(ai,aj)進(jìn)行歸一化處理,使得sim(ai,aj)∈(0,1),因此令k=1。

    2.3 轉(zhuǎn)移概率矩陣的計(jì)算

    根據(jù)馬爾可夫過(guò)程可知,節(jié)點(diǎn)的重要性得分與候選關(guān)鍵詞圖的轉(zhuǎn)移矩陣有關(guān)。在TextRank節(jié)點(diǎn)影響力得分計(jì)算中,某個(gè)節(jié)點(diǎn)對(duì)其相鄰節(jié)點(diǎn)的權(quán)重計(jì)算主要分為覆蓋范圍、位置和頻度權(quán)重三部分[4],令W表示詞節(jié)點(diǎn)的綜合影響力權(quán)重,α、β、γ分別表示這三部分權(quán)重所占的比重,計(jì)算公式如式(5)所示:

    W=α+β+γ=1

    (5)

    在本文實(shí)驗(yàn)中的參數(shù)設(shè)置參考文獻(xiàn)[4],令α=0.33、β=0.34、γ=0.33。

    借鑒傳統(tǒng)TextRank方法,通過(guò)式(2)計(jì)算得到覆蓋范圍影響力Prange,而節(jié)點(diǎn)位置影響力Ploc由式(6)計(jì)算得到[4]:

    (6)

    其中,I(vj)表示詞語(yǔ)vj在文檔中的位置重要性權(quán)重,根據(jù)文獻(xiàn)[4]可知,如果vj在標(biāo)題中出現(xiàn)時(shí),則I(vj)=30,否則I(vj)=1。由于本文實(shí)驗(yàn)語(yǔ)料為新聞文體,若考慮新聞中導(dǎo)語(yǔ)位置的重要性,則實(shí)驗(yàn)效果將得到顯著改善,因此新增權(quán)重條件,若vj出現(xiàn)在導(dǎo)語(yǔ)中時(shí),則令I(lǐng)(vj)=10。

    根據(jù)上文詞向量語(yǔ)義加權(quán)影響力的定義,將一個(gè)節(jié)點(diǎn)對(duì)相鄰節(jié)點(diǎn)的權(quán)重計(jì)算優(yōu)化為詞覆蓋范圍、詞位置和詞語(yǔ)義加權(quán)影響力三部分。因此,利用式(7)計(jì)算得到詞節(jié)點(diǎn)綜合跳轉(zhuǎn)概率:

    P(vi,vj)=α·Prange+β·Ploc(vi,vj)+

    γ·Psim(vi,vj)

    (7)

    改進(jìn)權(quán)重轉(zhuǎn)移矩陣M的計(jì)算公式為:

    (8)

    假設(shè)矩陣M中的j值代表第j個(gè)詞節(jié)點(diǎn)vj跳轉(zhuǎn)到其他詞節(jié)點(diǎn)時(shí)的比重,例如pij表示vj跳轉(zhuǎn)到第i個(gè)詞節(jié)點(diǎn)vj的比重,其可通過(guò)式(7)計(jì)算得到,而矩陣M的穩(wěn)定值則可通過(guò)式(9)迭代計(jì)算進(jìn)行確定。

    Bi=(1-d)+d×Bi-1×M

    (9)

    其中,Bi是第i次迭代操作結(jié)束時(shí)所有節(jié)點(diǎn)的綜合得分。迭代次數(shù)的上限為30,當(dāng)連續(xù)兩次計(jì)算結(jié)果的收斂誤差為0.000 1時(shí)停止,而每個(gè)詞的綜合得分就是其在關(guān)鍵詞詞圖中的節(jié)點(diǎn)影響力得分,根據(jù)分值高低對(duì)所有詞節(jié)點(diǎn)進(jìn)行降序排序,并選取其中前N個(gè)詞節(jié)點(diǎn)作為關(guān)鍵詞抽取結(jié)果。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)

    為保證測(cè)試數(shù)據(jù)的客觀性和測(cè)試結(jié)果的可重現(xiàn)性,同時(shí)便于對(duì)不同關(guān)鍵詞抽取方法進(jìn)行實(shí)驗(yàn)對(duì)比,本文實(shí)驗(yàn)使用搜狐校園算法大賽提供的來(lái)自搜狐網(wǎng)站的新聞?wù)Z料,解析其中的新聞標(biāo)題和正文內(nèi)容并將其作為文檔集,將事先標(biāo)記的關(guān)鍵詞標(biāo)簽作為文檔對(duì)應(yīng)的人工標(biāo)注關(guān)鍵詞組成測(cè)試數(shù)據(jù)集,共選取1 000篇文檔數(shù)據(jù)。本文選擇搜狐校園算法大賽數(shù)據(jù)的主要原因?yàn)?1)數(shù)據(jù)由搜狐提供,保證了真實(shí)性;2)搜狐新聞的新聞文章關(guān)鍵詞通常經(jīng)過(guò)人工篩選,具有參考性。

    本文提出的關(guān)鍵詞自動(dòng)抽取方法采用Python實(shí)現(xiàn),使用Jieba開源工具作為分詞和詞性分析工具。由于BERT模型對(duì)訓(xùn)練條件的要求較高,因此使用Google提供的BERT模型及中文預(yù)訓(xùn)練模型文件(詞向量維度為768)。

    3.2 結(jié)果分析

    實(shí)驗(yàn)使用準(zhǔn)確率(P)、召回率(R)以及F值(F)來(lái)評(píng)價(jià)關(guān)鍵詞抽取效果并進(jìn)行統(tǒng)計(jì)對(duì)比,3種指標(biāo)的計(jì)算方法如式(10)~式(12)所示:

    (10)

    (11)

    (12)

    實(shí)驗(yàn)分別抽取N(N取1~10)個(gè)關(guān)鍵詞作為自動(dòng)抽取的關(guān)鍵詞與數(shù)據(jù)集中人工標(biāo)注的關(guān)鍵詞進(jìn)行對(duì)比。實(shí)驗(yàn)對(duì)比方法有:1)TF-IDF,傳統(tǒng)詞頻逆文本頻率關(guān)鍵詞抽取方法;2)TextRank,傳統(tǒng)TextRank關(guān)鍵詞抽取方法[2];3)M1,利用Word2Vec進(jìn)行詞向量聚類的關(guān)鍵詞抽取方法[17];4)M2,基于詞向量聚類質(zhì)心與TextRank加權(quán)的關(guān)鍵詞抽取方法[18];5)BertVecRank,本文提出的關(guān)鍵詞抽取方法。

    結(jié)合表1與圖2可以看出,對(duì)文檔進(jìn)行關(guān)鍵詞抽取時(shí),TextRank方法明顯優(yōu)于TF-IDF方法,抽取效果更穩(wěn)定。從F值可以看出,直接利用詞向量聚類進(jìn)行關(guān)鍵詞抽取的M1方法相比M2方法效果略差,而將距離詞向量質(zhì)心越遠(yuǎn)、權(quán)重越高的詞作為關(guān)鍵詞的M2方法的抽取效果相對(duì)更好,表明關(guān)鍵詞差異性有助于提高關(guān)鍵詞抽取效率,但由于其計(jì)算聚類中心時(shí)受到外部詞向量計(jì)算的影響較大,因此聚類效果與BertVecRank方法存在一定差距。本文使用詞節(jié)點(diǎn)及其鄰接節(jié)點(diǎn)直接進(jìn)行差異比較,利用BERT詞向量加權(quán)方式計(jì)算概率轉(zhuǎn)移矩陣,以減少質(zhì)心計(jì)算誤差對(duì)聚類結(jié)果的影響,并且增加了不同主題詞間的跳轉(zhuǎn)概率,具有較好的關(guān)鍵詞抽取效果。

    表1 5種關(guān)鍵詞抽取方法的性能對(duì)比

    圖2 N取值為1~10時(shí)5種關(guān)鍵詞抽取方法的準(zhǔn)確率、召回率和F值對(duì)比

    在表1中,當(dāng)N=3時(shí),不同實(shí)驗(yàn)方法的準(zhǔn)確率、召回率和F值基本相同,在實(shí)驗(yàn)過(guò)程發(fā)現(xiàn)由于抽取語(yǔ)料中人工提取的關(guān)鍵詞平均個(gè)數(shù)為3,因此導(dǎo)致關(guān)鍵詞為Top3時(shí)的準(zhǔn)確率、召回率和F值基本一致。當(dāng)關(guān)鍵詞為Top3時(shí),BertVecRank方法與M2方法的F值均為最優(yōu),BertVecRank方法比M2方法的F值提高1.8%。當(dāng)N取3、5、7和10時(shí),BertVecRank方法的平均F值比M2方法提升2.5%,并結(jié)合圖2中F值可知,當(dāng)BertVecRank方法抽取的關(guān)鍵詞數(shù)量大于Top3并不斷增加時(shí),F值與其他方法相比具有明顯優(yōu)勢(shì),說(shuō)明BertVecRank方法抽取出的關(guān)鍵詞整體排序靠前,改進(jìn)效果明顯。由圖2可看出,當(dāng)關(guān)鍵詞為Top1~Top10時(shí)所有方法的準(zhǔn)確率、召回率和F值變化情況,其中BertVecRank方法的準(zhǔn)確率整體高于其他方法,并且其召回率與其他方法的差距不斷增加??梢?本文利用BERT詞向量獲取外部語(yǔ)義信息,并結(jié)合關(guān)鍵詞間的差異性加權(quán)明顯提升了重要關(guān)鍵詞的抽取效率,因此BertVecRank方法的整體抽取效果最佳。

    4 結(jié)束語(yǔ)

    關(guān)鍵詞抽取是快速獲取文檔核心語(yǔ)義的重要技術(shù),是自然語(yǔ)言處理和信息檢索等領(lǐng)域的重要組成部分,具有較高的理論和應(yīng)用價(jià)值。本文提出一種融合BERT語(yǔ)義加權(quán)與網(wǎng)絡(luò)圖的關(guān)鍵詞抽取方法,利用BERT詞向量獲取外部語(yǔ)義信息,并結(jié)合關(guān)鍵詞間的差異性加權(quán)提升重要關(guān)鍵詞的抽取效率。實(shí)驗(yàn)結(jié)果表明,當(dāng)關(guān)鍵詞為Top1~Top10時(shí),本文方法的抽取準(zhǔn)確率整體高于TF-IDF、TextRank、M1和M2這4種對(duì)比方法。后續(xù)將利用神經(jīng)網(wǎng)絡(luò)方法提取文檔的結(jié)構(gòu)信息特征,進(jìn)一步優(yōu)化關(guān)鍵詞抽取效率。

    猜你喜歡
    文檔語(yǔ)義聚類
    有人一聲不吭向你扔了個(gè)文檔
    語(yǔ)言與語(yǔ)義
    基于DBSACN聚類算法的XML文檔聚類
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    基于改進(jìn)的遺傳算法的模糊聚類算法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    認(rèn)知范疇模糊與語(yǔ)義模糊
    自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
    西平县| 乌拉特前旗| 威信县| 阿荣旗| 天峨县| 永城市| 长沙市| 阳西县| 富平县| 井研县| 皮山县| 井冈山市| 淳化县| 新民市| 珲春市| 施甸县| 衡阳县| 桐城市| 花莲县| 平阴县| 高要市| 黑水县| 芒康县| 佳木斯市| 灌阳县| 张家口市| 家居| 鄂尔多斯市| 浠水县| 吴旗县| 南涧| 高邮市| 开阳县| 马鞍山市| 新和县| 海丰县| 阿尔山市| 南溪县| 略阳县| 黔西县| 祁连县|