• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Skip-Gram結(jié)構(gòu)和詞嵌入特性的文本主題建模

      2020-07-13 06:16:26夏家莉曹中華彭文忠張守勝
      關(guān)鍵詞:中心詞主題詞一致性

      夏家莉,曹中華,2,彭文忠,張守勝

      1(江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院、財(cái)政大數(shù)據(jù)中心,南昌 330032) 2(江西師范大學(xué) 軟件學(xué)院,南昌 330022)

      1 引 言

      從大量文本中獲取主題,一直是文本挖掘領(lǐng)域的研究熱點(diǎn).主題挖掘相關(guān)模型常采用無(wú)監(jiān)督的學(xué)習(xí)方式,可以從文本語(yǔ)料挖掘具有不同語(yǔ)義的主題,并將文本表示為不同主題的混合分布,從而幫助人們理解大量文本所描述的主要內(nèi)容.

      隨著神經(jīng)網(wǎng)絡(luò)和詞嵌入方法在許多NLP任務(wù)中取得成功,近年來(lái),出現(xiàn)了許多應(yīng)用詞嵌入向量和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的文本主題模型研究,這些研究結(jié)果顯示,使用詞嵌入的主題模型能夠極大地提高文本主題的挖掘效果.早期的主題效果評(píng)價(jià)多采用困惑度的方法,然而后續(xù)的一些研究也表明,困惑度的評(píng)價(jià)和人們對(duì)主題詞的理解結(jié)果并不一致,由此研究者提出了主題一致性的評(píng)價(jià)標(biāo)準(zhǔn),主題代表詞的一致性可以更好的評(píng)價(jià)主題模型的效果.

      常見(jiàn)的詞嵌入向量獲取模型[1,2]和主題一致性評(píng)價(jià)[3,4]方法都使用了詞的點(diǎn)互信息(point-wise mutual information,pmi),二者存在緊密的聯(lián)系,但是現(xiàn)今還較少見(jiàn)到,在深入分析二者間的聯(lián)系后,將詞向量自身所具有的主題特點(diǎn)應(yīng)用于主題模型的研究.本文主要貢獻(xiàn)有:1)分析了主題一致性和詞嵌入向量間的聯(lián)系,引入Softmax函數(shù)生成主題-詞項(xiàng)分布,從而關(guān)聯(lián)主題嵌入和詞嵌入,以能夠使用詞嵌入的主題特性;2)提出主題分布式假設(shè):具有相似鄰居的詞具有相似的主題分布值,并設(shè)計(jì)了一種主題和詞間Skip-Gram神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的主題模型(Skip-Gram structure Topic Model,SG-TM),SG-TM模型能充分使用詞向量的相似性和關(guān)聯(lián)性信息,得到主題一致性更好的主題.

      2 相關(guān)研究工作

      主題模型研究早期常采用統(tǒng)計(jì)的方式,模型評(píng)價(jià)采用困惑度的方法,隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)概率主題模型是該方面的代表[5].由于模型假設(shè)文本內(nèi)每個(gè)詞的生成相互獨(dú)立,這樣會(huì)丟失詞間的序列信息,因此有研究通過(guò)修改模型的先驗(yàn)信息,或給模型加入后驗(yàn)約束信息來(lái)增強(qiáng)詞之間的關(guān)聯(lián).例如:詞的熵加權(quán)[6]、稀疏約束[7]、概念關(guān)系[8]、點(diǎn)互信息關(guān)系矩陣約束[9]、玻利亞甕模型增強(qiáng)詞和文本的主題頻數(shù)等[10,11].但是前期約束內(nèi)容處理結(jié)果會(huì)直接影響到模型的效果;且隨著語(yǔ)料的不同,一些詞之間的關(guān)系或具有多樣性,需要重新調(diào)整約束集內(nèi)容.

      近年來(lái)出現(xiàn)了一些神經(jīng)網(wǎng)絡(luò)相關(guān)結(jié)構(gòu)的主題模型研究,它們考慮到詞的嵌入式表示含有豐富的詞語(yǔ)義信息,所以期望通過(guò)神經(jīng)網(wǎng)絡(luò)直接利用詞嵌入結(jié)果,描述文檔的生成,獲得主題-詞和文檔-主題分布,提高主題挖掘效果.例如:可以使用神經(jīng)變分編碼方法[12];將每個(gè)主題建模為詞向量上的高斯分布[13];文本表示為詞向量的序列,從而用卷積神經(jīng)網(wǎng)絡(luò)獲得文本主題[14];把文檔-主題和主題-詞項(xiàng)參數(shù)分別用兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)描述,然后結(jié)合兩個(gè)神經(jīng)網(wǎng)絡(luò)生成文本內(nèi)的目標(biāo)詞[15];還有用詞嵌入實(shí)現(xiàn)具有自適應(yīng)消息傳遞功能的監(jiān)督主題模型[16].但是這些主題模型多使用困惑度作為評(píng)價(jià)標(biāo)準(zhǔn),基于困惑度的主題評(píng)測(cè)方法,未解決人們對(duì)主題詞所表達(dá)語(yǔ)義的理解困難問(wèn)題.

      Ding和Krasnashchok考慮到詞嵌入的獲取方式和常見(jiàn)主題一致性的評(píng)價(jià)方法存在聯(lián)系[17,18],所以分別在Miao和Jey提出的神經(jīng)主題模型基礎(chǔ)上[12,14],使用詞嵌入構(gòu)造了類(lèi)似點(diǎn)互信息的約束項(xiàng),用于提高模型的主題一致性.但是他們都未區(qū)分詞的輸入、輸出嵌入向量和主題一致性的聯(lián)系;也未分析主題嵌入和主題詞嵌入間的聯(lián)系,并以此構(gòu)造主題模型.

      本文主題挖掘也采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的詞向量建模方法,模型和標(biāo)準(zhǔn)LDA模型類(lèi)似,結(jié)構(gòu)較簡(jiǎn)單,但是能夠有效使用詞嵌入向量的相似性、關(guān)聯(lián)性,文本內(nèi)詞間序列信息,從而有效提高主題模型的一致性值,挖掘出更好地文本主題結(jié)果.

      3 主題一致性與詞嵌入向量間關(guān)系

      設(shè)主題模型的詞典集合是W,主題數(shù)為T(mén),Topic_Wordst?W表示第t個(gè)主題的代表詞集合,1≤t≤T,通常取每個(gè)主題的概率值最大的前10個(gè)詞.主題一致性是現(xiàn)今常見(jiàn)的主題效果評(píng)價(jià)標(biāo)準(zhǔn)[3,4,9],詞的點(diǎn)互信息常被用于度量主題的一致性,它通過(guò)計(jì)算主題代表詞在語(yǔ)料內(nèi)固定窗口大小的共現(xiàn)關(guān)系評(píng)價(jià)主題模型.主題一致性定義為:

      其中,p(wi,wo)表示詞對(duì)(wi,wo)的共現(xiàn)概率,p(wi),p(wo)表示詞wi,wo出現(xiàn)概率,是較小的常數(shù).

      詞嵌入向量學(xué)習(xí)模型多數(shù)基于分布式假設(shè):具有相似鄰居的詞具有相似語(yǔ)義的分布式表示.設(shè)中心詞為wi,上下文窗口大小為c,詞wi當(dāng)前上下文窗口內(nèi)的近鄰詞集表示為context(wi).Mikolov等基于中心詞和上下文窗口內(nèi)詞間關(guān)系,構(gòu)建了兩種詞嵌入學(xué)習(xí)模型:Skip-Gram、CBOW[2],還使用層狀Softmax或負(fù)采樣方法解決詞典集合W過(guò)大所造成的模型訓(xùn)練困難問(wèn)題.為獲得更好的詞嵌入表示向量,許多學(xué)者對(duì)詞嵌入向量表示進(jìn)行了更深入的研究.Pennington等提出了GloVe模型[1],該模型利用語(yǔ)料內(nèi)詞間全局共現(xiàn)信息訓(xùn)練詞嵌入向量,并在許多評(píng)測(cè)中取得了比Skip-Gram等模型更好的實(shí)驗(yàn)結(jié)果.由GloVe模型所采用的詞向量獲取方法能容易得出詞嵌入和主題一致性評(píng)價(jià)所存在的緊密聯(lián)系.

      (1)

      (2)

      ≈pmi(wi,wo)-pmi(wj,wo)

      (3)

      詞wi,wo的嵌入向量點(diǎn)積約等于它們間點(diǎn)互信息,所以:

      (4)

      pmi(wi,wo)=lnp(wi,wo)-lnp(wi)-lnp(wo)

      (5)

      令bi=-lnp(wi),bo=-lnp(wo),則由式(4),式(5)可得到:

      (6)

      式(6)如果將bi,bo作為殘差參數(shù)變量,則上述公式學(xué)習(xí)的目標(biāo)和GloVe模型類(lèi)似,而Shi的實(shí)驗(yàn)表明[19],GloVe模型的殘差參數(shù)變量bi,bo和lnp(wi),lnp(wo)具有很強(qiáng)的相關(guān)性;如果將bi,bo作為常數(shù)變量,等于lnp(wi),lnp(wo),則公式學(xué)習(xí)目標(biāo)和李等[20]、Levy等[21]提出的基于pmi值的詞向量學(xué)習(xí)模型類(lèi)似.此外,Levy等的分析表明,Mikolov提出的Skip-Gram負(fù)采樣模型(Skip-Gram with Negative Sampling,SGNS)結(jié)果類(lèi)似于隱式分解移位的詞間pmi矩陣.

      4 本文模型

      4.1 Softmax函數(shù)的主題-詞項(xiàng)分布特性

      定義 2.設(shè)第t個(gè)主題βt的主題嵌入向量為vβt∈Rk,詞wi在主題βt的概率p(wi|βt)采用Softmax函數(shù)描述為:

      (7)

      性質(zhì) 1.采用Softmax函數(shù)描述主題詞項(xiàng)參數(shù)后,相似詞wi,wj在主題內(nèi),具有相似的主題概率值.

      由性質(zhì)1可知,當(dāng)主題訓(xùn)練語(yǔ)料內(nèi)某個(gè)詞wi成為主題代表詞,則和其詞向量高度相似的其它詞wj在該主題的概率值也較大,使其也能成為主題代表詞.所以在主題模型訓(xùn)練后,語(yǔ)料中相似詞wi,wj雖具有不同的詞頻,但詞向量的相似性將減弱詞的主題語(yǔ)義受詞頻率不同的影響.

      當(dāng)詞wi∈Topic_Wordst,且p(wi|βt)≥p(wl|βt),?wl∈W,l≠i,稱(chēng)詞wi為第t個(gè)主題的主題最高代表詞,由于設(shè)定預(yù)訓(xùn)練詞向量固定不變,采用Softmax函數(shù)描述主題-詞項(xiàng)分布參數(shù)后,該分布參數(shù)只是需要優(yōu)化所有的主題嵌入向量.

      4.2 主題分布式假設(shè)

      由性質(zhì)2,使用Softmax函數(shù)表示主題詞項(xiàng)分布,會(huì)使主題向量在訓(xùn)練后與主題最高代表詞wi的嵌入向量相似性較大,而詞之間的相鄰序列關(guān)系可以促進(jìn)該結(jié)果形成.本文提出主題分布式假設(shè):具有相似鄰居的詞具有相似的主題分布值.例如:不同形態(tài)的詞,相同概念、語(yǔ)義下的詞等.依據(jù)本文假設(shè),使用中心詞的主題和上下文詞間的Skip-Gram結(jié)構(gòu),相似詞將獲得相似的主題嵌入向量,也可促進(jìn)中心詞的主題向量和中心詞的詞向量相似.設(shè)中心詞wi的當(dāng)前主題編號(hào)表示為T(mén)opic(wi)(1≤Topic(wi)≤T).規(guī)定如果存在Topic(wi)=t,則:?wo∈context(wi)→Topic(wo)=t即模型將中心詞的主題值用于預(yù)測(cè)自己和它上下文內(nèi)詞的生成,因此在主題向量訓(xùn)練時(shí),需要添加一些和中心詞相關(guān)的上下文內(nèi)詞作為主題的生成目標(biāo),該主題值和詞間的Skip-Gram結(jié)構(gòu)表示如圖1所示.

      圖1 c=2時(shí),主題和詞的Skip-Gram結(jié)構(gòu)

      由上述性質(zhì)可以看出,采用Softmax函數(shù)描述主題-詞項(xiàng)分布和使用Skip-Gram主題詞結(jié)構(gòu),能夠充分利用詞的相似性和相鄰詞之間的高關(guān)聯(lián)性,在模型訓(xùn)練中使相似詞和具有高關(guān)聯(lián)的詞成為主題代表詞,將會(huì)提高主題模型的主題一致性值.

      4.3 文本生成與似然函數(shù)

      通過(guò)上述分析,本文設(shè)計(jì)了如下神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的SG-TM主題模型,模型先導(dǎo)入預(yù)訓(xùn)練的詞向量,用Softmax函數(shù)生成主題-詞向量分布參數(shù),通過(guò)類(lèi)似LDA模型過(guò)程生成目標(biāo)文本,在獲得每個(gè)詞的主題值后,將通過(guò)輸入中心詞的主題值,輸出中心詞和它的上下文內(nèi)詞,更新主題向量,從而實(shí)現(xiàn)充分利用詞的相似向量和主題值與詞之間的相鄰關(guān)系.模型的文本生成過(guò)程描述如下:假設(shè)有M個(gè)文檔{d1,…,dM},文本狄利克雷先驗(yàn)分布為α,參數(shù)Θ∈RT×k表示T個(gè)主題的分布式向量,則文本dj的生成過(guò)程可以描述為:

      1)采樣文本dj的主題分布θj~Dir(α);

      2)取出文本中詞wi,context(wi);

      3)采樣詞wi的主題分布tji~Mult(θj),wi添加為該主題的生成目標(biāo).并將符合Skip-Gram關(guān)系條件的context(wi)和tji添加作為附加的主題向量?jī)?yōu)化目標(biāo);

      4)從Softmax函數(shù)p(wi|βtji)生成目標(biāo)詞wi.

      上述文本生成過(guò)程,一個(gè)文本的生成概率為:

      (8)

      通過(guò)最大化文本生成概率,可以求解到文本的主題分布、詞的主題值和主題的分布式表示.

      4.4 模型優(yōu)化策略

      模型參數(shù)優(yōu)化采用變分EM算法,使用多項(xiàng)式分布qφji(tji)和狄利克雷分布qγj(θj)分別作為隱含變量tji和θj的變分分布,算法先固定每個(gè)主題的嵌入向量,優(yōu)化文本的變分參數(shù)φji和γj.由于模型添加了主題嵌入向量,改進(jìn)了主題詞項(xiàng)分布的描述方式,可以對(duì)原始LDA模型的β參數(shù)用式(7)替換,求解φji參數(shù),γj參數(shù)更新和原式基本一樣.由文本生成概率公式,其變分下界可以寫(xiě)為:

      logp(dj|α,Θ)≥Eq[logp(θj)]-Eq[logq(θj)]+

      Eq[logq(tji|φji)]

      (9)

      文本dj求解目標(biāo)變分參數(shù)φji和γj為:

      (10)

      γj=αj+∑i∈{1,…,N}φji

      (11)

      而后將文本內(nèi)每個(gè)詞wi的Topic(wi)作為輸入,wi∪context(wi)作為輸出,更新主題向量.由于將每個(gè)詞的上下文內(nèi)容,也添加為當(dāng)前主題輸出目標(biāo),主題向量需要優(yōu)化的目標(biāo)函數(shù)則表示為:

      L=∑dj∈M∑wi∈djφji(logp(wi|βtji)+

      ∑wo∈Context(wi)logp(wo|βtji))

      (12)

      上述目標(biāo)函數(shù)需要計(jì)算詞集W內(nèi)所有詞的概率值,當(dāng)詞集很大時(shí),會(huì)造成計(jì)算量非常大,本文采用Sampled Softmax算法[22]求解,則目標(biāo)詞wi在候選數(shù)據(jù)集合Ci=Si∪{wi}的對(duì)數(shù)似然函數(shù)為:

      logp(wi|βtji,Ci)=logp(wi|βtji)-logQ(wi|βtji)-

      log∑yi∈Ci[logp(yi|βtji)-logQ(yi|βtji)]

      (13)

      式(13)Si表示采樣數(shù)據(jù)集合,由當(dāng)前選擇的采樣函數(shù)而生成,其類(lèi)似于標(biāo)準(zhǔn)SGNS模型方法,Q(wi|βtji)表示采樣函數(shù)生成wi的概率,算法優(yōu)化采用Adadelta方法.

      5 實(shí)驗(yàn)與分析

      5.1 實(shí)驗(yàn)設(shè)置

      本文實(shí)驗(yàn)主要包括主題一致性和主題詞的專(zhuān)有性(exclusivity,excl)[18],主題嵌入與代表詞嵌入關(guān)系兩部分內(nèi)容.基準(zhǔn)模型使用主題驅(qū)動(dòng)神經(jīng)語(yǔ)言模型(Topically Driven Neural Language Model,TDLM)[14]和其改進(jìn)的主題一致性約束模型(Coherence Regularization TDLM,CRTDLM)[18],它們都使用現(xiàn)今流行的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和詞向量方法建模.Ding[17]的研究沒(méi)有提供相同數(shù)據(jù)集結(jié)果,所以未列入比較.

      實(shí)驗(yàn)的預(yù)訓(xùn)練詞向量來(lái)自于三種不同模型,分別是SGNS,GloVe和移位的正點(diǎn)互信息(Shifted Positive Pointwise Mutual Information,SPPMI)矩陣分解模型[21],用于檢測(cè)不同模型的詞向量對(duì)主題結(jié)果的影響.Li的方法使用詞間pmi值作為學(xué)習(xí)目標(biāo)和SPPMI類(lèi)似,所以未將其用于模型比較.主題模型訓(xùn)練前,會(huì)先用相關(guān)工具從訓(xùn)練文本獲得詞嵌入向量,SGNS模型詞向量使用Gensim工具訓(xùn)練得到,GloVe程序是從作者網(wǎng)上下載得到,SPPMI模型詞向量通過(guò)直接分解訓(xùn)練數(shù)據(jù)的SPPMI矩陣而得到,它的負(fù)例值設(shè)為1.所有模型的詞向量維度k=300,其它詞向量模型參數(shù)都使用默認(rèn)值.本文模型主題向量維度和詞向量維度大小一樣,窗口c=5,文本狄利克雷先驗(yàn)分布α=0.1.

      5.2 主題一致性與主題詞專(zhuān)有性

      主題一致性評(píng)測(cè)數(shù)據(jù)集選用TDLM模型提供的數(shù)據(jù)集,主要包括有三個(gè)類(lèi)別的數(shù)據(jù):美聯(lián)社新聞(Associated Press News,APNews),英國(guó)國(guó)家語(yǔ)料庫(kù)(British National Corpus,BNC)和互聯(lián)網(wǎng)電影資料庫(kù)(Internet Movie Database,IMDB).模型訓(xùn)練前去除了停用詞、數(shù)字、特殊符號(hào)和少量高頻詞等,經(jīng)過(guò)預(yù)處理后,每類(lèi)數(shù)據(jù)含有2萬(wàn)個(gè)左右單詞.

      表1 主題一致性和專(zhuān)有性值

      Table 1 Topic coherence and exclusivity score

      TopicnumbermodelNPMI/exclAPNewsBNCIMDB50TDLM.150/.868.145/.885.026/.634CRTDLM.151/.869.143/.905.035/.620SG-TM(SGNS).136/.744.127/.740.088/.710SG-TM(Glove).176/.666.130/.650.088/.626SG-TM(SPPMI).201/.832.200/.820.166/.700100TDLM.162/.659.140/.656.044/.422CRTDLM.155/.674.142/.620.045/.409SG-TM(SGNS).148/.699.140/.701.092/.555SG-TM(Glove).177/.602.142/.609.097/.529SG-TM(SPPMI).200/.743.205/.718.159/.633150TDLM.160/.531.137/.510.043/.366CRTDLM.163/.504.137/.504.041/.361SG-TM(SGNS).165/.704.137/.646.093/.516SG-TM(Glove).181/.562.144/.539.100/.509SG-TM(SPPMI).213/.666.192/.656.155/.528

      從實(shí)驗(yàn)結(jié)果表1可以看出,本文SG-TM模型結(jié)果多數(shù)優(yōu)于TDLM等模型,在APNews、BNC和IMDB數(shù)據(jù)集上,主題一致性值能提高將近6%;主題詞的專(zhuān)有性多數(shù)都有所提高,最優(yōu)值部分能提高2%.而主題詞的專(zhuān)有性隨主題值的增加,多會(huì)下降,表明主題結(jié)果的冗余度逐漸提高.僅從NPMI值結(jié)果可以得出,APNews、BNC數(shù)據(jù)集的最優(yōu)主題值大于100,IMDB數(shù)據(jù)集的最優(yōu)主題值小于100.這三種數(shù)據(jù)集中,IMDB數(shù)據(jù)集的結(jié)果要低于APNews和BNC數(shù)據(jù)集結(jié)果.實(shí)驗(yàn)分析發(fā)現(xiàn):IMDB數(shù)據(jù)集用詞比較簡(jiǎn)單,經(jīng)過(guò)預(yù)處理后,它的文本篇幅都較小.此外,在相同數(shù)據(jù)集和超參數(shù)條件下,當(dāng)模型使用不同的預(yù)訓(xùn)練詞向量,所得到的主題一致性結(jié)果差別也很大.雖然SGNS、GloVe和SPPMI模型的詞向量都含有詞語(yǔ)義信息,但是SGNS模型是通過(guò)訓(xùn)練詞間相鄰信息獲得詞嵌入向量;GloVe模型詞向量直接含有詞之間共現(xiàn)值,結(jié)果還會(huì)受到殘差值影響;SPPMI模型詞向量直接來(lái)自于語(yǔ)料的全局詞間pmi值,其更能夠體現(xiàn)詞間的點(diǎn)互信息大小,從而直接幫助提高主題的一致性值.

      5.3 主題嵌入與主題詞嵌入關(guān)系

      實(shí)驗(yàn)打印出了APNews數(shù)據(jù)集在T=100時(shí),使用SPPMI模型詞向量的8個(gè)主題代表詞,結(jié)果如表2所示.由主題代表詞可以理解該主題所表示的語(yǔ)義信息,例如:Topic1表示航空飛行、Topic2表示藝術(shù)展覽、Topic3表示總統(tǒng)選舉等.這些主題的主題向量和主題代表詞的輸入向量和輸出向量之間的余弦值如圖2、圖3所示.由結(jié)果可見(jiàn):每個(gè)主題向量和該主題的最高代表詞的輸入向量余弦值在0.7左右,它們間的相似性較高;且主題向量和詞的輸入向量余弦值普遍大于主題向量和詞的輸出向量余弦值,這體現(xiàn)了主題分布假設(shè),主題向量類(lèi)似于中心詞的輸入向量;主題嵌入向量與后面主題代表詞向量的余弦值則基本上呈下降趨勢(shì),說(shuō)明它們的向量相似性減弱.

      表2 T=100,APNews部分主題詞

      Table 2 T=100,some topic words of APNews

      TopicsidTopicwordsTopic1planeenginepilotlandingjetpilotscockpitcrashedflightaviationTopic2museumexhibitpaintingsexhibitionartgallerydisplaycuratorartifactsexhibitsTopic3romneypresidentialmittgingrichtrumpsantorumnewtpalinbachmanncaucusesTopic4spacenasashuttleastronautsspacecraftatlantisorbitastronautendeavourmissionTopic5gulfspillbpoilgallonsrigdeepwaterlitersclean-upcoastTopic6medicalpatientpatientshospitalhospitalsdoctorsdoctornurseclinicphysiciansTopic7campusuniversityfacultyundergraduatecollegeu-niversitiesgraduatefraternitystudentcollegesTopic8shipcruisevesselshipsboatcarnivalvesselsvoy-agesankconcordia

      圖2 主題向量和代表詞輸入向量余弦值

      圖3 主題向量和代表詞輸出向量余弦值

      圖4、圖5描述了主題嵌入和主題詞嵌入的向量點(diǎn)積值,最高主題詞和其它主題詞的向量點(diǎn)積.由圖4可見(jiàn)主題和詞的相關(guān)性成下降趨勢(shì),而圖5最高主題代表詞和其它詞之間相關(guān)性有些波動(dòng),但總體也成下降趨勢(shì).表3列出了與每個(gè)主題最高代表詞點(diǎn)積最大的前10個(gè)詞,從相關(guān)詞結(jié)果可見(jiàn),表2和表3詞之間的重合度較高,也存在一些詞不重合,體現(xiàn)了圖5 的小幅波動(dòng)性特點(diǎn).上述實(shí)驗(yàn)結(jié)果體現(xiàn)了性質(zhì)2、性質(zhì)3所分析的結(jié)論,當(dāng)主題向量和主題最高代表詞向量相似時(shí),主題向量和詞向量間的點(diǎn)積選擇出的主題詞,可近似表示為主題最高代表詞和其它主題詞之間的相關(guān)性.這也說(shuō)明向量的相似性雖然在減小,但是主題最高代表詞與部分主題代表詞間的pmi值還是較大.

      圖4 主題向量和代表詞向量點(diǎn)積值

      圖5 最高主題詞向量和其它代表詞向量點(diǎn)積值

      綜上結(jié)果分析,模型訓(xùn)練將使主題向量和最高代表詞的輸入向量相似較高,且這些與主題最高代表詞相似性高或點(diǎn)互信值高的詞,被選擇成為主題代表詞的可能性也很高,當(dāng)這些詞作為主題詞時(shí),可以推測(cè),這些詞之間也具有較高的詞間相關(guān)性值,能夠使模型獲得較高的主題一致性.

      表3 主題最高代表詞相關(guān)的前10個(gè)詞

      Table 3 Top 10 words related to the first topic word

      ThefirsttopicwordTop10relatedwordsplaneflightpilotlandingjetaviationpilotsaircraftair-portairplaneenginemuseumexhibitartifactsexhibitioncuratordisplayexhibitsgallerypaintingsmuseumsartromneypresidentialmittgingrichnewtsantorumbach-manncaucusesnomineepalinpollsspacenasashuttleastronautsorbitspacecraftatlantisas-tronautendeavourmissionlaunchgulfbpspilloildeepwaterrighorizonliterscoastplcgallonsmedicalpatientpatientsdoctorsdoctordrhospitalphysi-ciansclinicphysicianhospitalscampusfacultyuniversitycollegeundergraduatefraternitycampusesuniversitieschancellorstudentsemestershipcruiseshipsvesselussvoyagesanknavaldockconcordiavessels

      6 結(jié)束語(yǔ)

      本文分析了詞嵌入和主題一致性之間的聯(lián)系,描述了一種使用預(yù)訓(xùn)練詞嵌入向量,Softmax函數(shù)生成主題-詞項(xiàng)分布,采用主題分布式假設(shè)的文本主題模型.SG-TM模型使用主題和詞之間的Skip-Gram結(jié)構(gòu),中心詞的主題用于生成自己和增加的上下文內(nèi)詞.實(shí)驗(yàn)表明將詞嵌入向量信息應(yīng)用于該主題模型,能顯著改善模型整體效果,學(xué)習(xí)到主題一致性更好的文本主題.

      猜你喜歡
      中心詞主題詞一致性
      關(guān)注減污降碳協(xié)同的一致性和整體性
      公民與法治(2022年5期)2022-07-29 00:47:28
      注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
      IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
      Why I ride
      同位語(yǔ)從句與中心詞的句法關(guān)系
      基于事件觸發(fā)的多智能體輸入飽和一致性控制
      我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
      我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      《疑難病雜志》2014年第13卷主題詞索引
      资中县| 察雅县| 新河县| 霸州市| 弥勒县| 兴和县| 桐乡市| 宝山区| 陆河县| 潢川县| 沙湾县| 普兰店市| 龙陵县| 曲沃县| 肃南| 锦州市| 龙井市| 金溪县| 利辛县| 弥渡县| 绥棱县| 香河县| 项城市| 稷山县| 佛学| 洪雅县| 建湖县| 西林县| 日土县| 九寨沟县| 安阳县| 敦化市| 贵州省| 临夏市| 文安县| 清涧县| 九寨沟县| 修文县| 阳山县| 和硕县| 班玛县|