• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)在線詞對(duì)主題模型的微博熱點(diǎn)話題演化

      2021-12-21 13:50:00張夢(mèng)甜黃竹韻顧明星
      關(guān)鍵詞:熱點(diǎn)話題先驗(yàn)文檔

      吳 迪,張夢(mèng)甜,生 龍,黃竹韻,顧明星

      河北工程大學(xué) 信息與電氣工程學(xué)院,河北 邯鄲056038

      微博因其文體較短、話題內(nèi)容廣泛、傳播迅速、實(shí)時(shí)性好等特點(diǎn),已經(jīng)成為傳播各種資訊的重要平臺(tái)[1]。往往一件引發(fā)熱議的事情可以在微博上形成熱點(diǎn)話題,繼而,網(wǎng)民會(huì)通過(guò)搜索話題標(biāo)簽來(lái)發(fā)表自己的觀點(diǎn)并關(guān)注事態(tài)發(fā)展。因此,對(duì)微博熱點(diǎn)話題進(jìn)行演化分析,可以較完整地描繪熱點(diǎn)話題的演化趨勢(shì),這對(duì)于網(wǎng)民了解事件演化、網(wǎng)絡(luò)監(jiān)管部門(mén)引導(dǎo)輿情有著很重要的現(xiàn)實(shí)意義[2]。

      話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)[3]技術(shù)最初是由美國(guó)國(guó)防高級(jí)研究計(jì)劃局提出的。隨后,根據(jù)不同的引入時(shí)間方式,話題演化分為先建模后離散時(shí)間、將時(shí)間這個(gè)變量引入到模型中(如TOT模型[4])以及先離散化時(shí)間再建模(如DTM模型[5])三種[6]。

      鑒于上述模型不能在線處理文本,Alsumait等人提出了在線LDA(On-Line LDA,OLDA)[7]模型和晏小輝等人提出了OBTM[8]模型,較好地解決了這一局限性,且OBTM更適用于短文本。裴可鋒等人[9]考慮到OLDA存在主題混合以及定義權(quán)重的問(wèn)題,提出了可變?cè)诰€LDA(Variable Online LDA,VOLDA)模型,通過(guò)刪除含舊主題的時(shí)間片、優(yōu)化動(dòng)態(tài)權(quán)重計(jì)算公式以及先驗(yàn)參數(shù),有效地減少了新舊主題混合問(wèn)題并提高了主題演化的表示能力。蔣權(quán)等人[10]設(shè)計(jì)了動(dòng)態(tài)負(fù)載策略并優(yōu)化了文檔權(quán)值計(jì)算公式,提出了分布式OLDA(Distribute Online LDA,DOLDA)模型,緩解了OLDA效率低下和發(fā)現(xiàn)新主題能力差的問(wèn)題。余本功等人[11]利用雙通道模式對(duì)主題-詞分布的遺傳度進(jìn)行優(yōu)化,提出了基于雙通道的OLDA模型,有效緩解了主題混合以及冗余詞多的問(wèn)題。李慧等人[12]充分利用微博的文體特征,提出了基于話題標(biāo)簽的微博熱點(diǎn)話題演化模型(Label On-line LDA,LOLDA),增強(qiáng)了模型演化主題的能力。

      綜上所述,現(xiàn)有文獻(xiàn)尚未充分利用OBTM進(jìn)行話題演化研究。針對(duì)OBTM建模得到的主題混合且冗余詞較多導(dǎo)致不能明確描述主題的問(wèn)題,本文提出基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法。在OBTM的基礎(chǔ)上,首先,分別將前一時(shí)間片內(nèi)基于標(biāo)簽、微博內(nèi)容的文檔-主題分布作為當(dāng)前時(shí)間片內(nèi)對(duì)應(yīng)文檔-主題分布的Dirichlet先驗(yàn)參數(shù),以提高發(fā)現(xiàn)新主題的水平,緩解主題混合的缺陷;其次,在前一時(shí)間片文檔-主題分布的基礎(chǔ)上增加主題排名,優(yōu)化當(dāng)前時(shí)間片上主題-詞分布的Dirichlet先驗(yàn)參數(shù)計(jì)算方法,以減少冗余詞,從而更準(zhǔn)確地描述主題。

      1 相關(guān)技術(shù)

      1.1 OBTM主題模型

      OBTM是一種借鑒了OLDA并更適用于短文本的主題演化模型,該模型的主要思想是:首先,將所有文本集按時(shí)間片劃分;然后,對(duì)于每一個(gè)時(shí)間片上的文本子集分別使用BTM建模,為了使建模結(jié)果具有延續(xù)性,OBTM將歷史時(shí)間片的主題-詞分布作為當(dāng)前時(shí)間片上主題-詞分布φtk的Dirichlet先驗(yàn)參數(shù)[13]:

      1.2 LOLDA主題模型

      文獻(xiàn)[12]提出了一種在OLDA的基礎(chǔ)上增加微博話題標(biāo)簽的主題演化模型LOLDA,在建模前,通過(guò)參數(shù)λd來(lái)判斷一篇微博短文本是否含有話題標(biāo)簽“#”:

      其中,λd=0表示含標(biāo)簽,則該微博的文檔-主題分布θd由基于標(biāo)簽內(nèi)容的文檔-主題分布θs決定;相反,λd=1表示不含標(biāo)簽,則θd由基于微博內(nèi)容的文檔-主題分布θr決定。

      2 基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法

      針對(duì)微博短文本有特殊的文體特征、OBTM建模得到的主題混合且冗余詞頻率高導(dǎo)致不能明確描述主題的問(wèn)題,本文提出基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法。首先,采集微博數(shù)據(jù)并按時(shí)間片切分;然后,在每一個(gè)時(shí)間片內(nèi)依據(jù)話題標(biāo)簽區(qū)分語(yǔ)料庫(kù)(含標(biāo)簽和不含標(biāo)簽的兩類(lèi)數(shù)據(jù)集),再進(jìn)行文本預(yù)處理;最后,利用LPOBTM建模,進(jìn)行熱點(diǎn)話題在內(nèi)容和強(qiáng)度上的演化分析。算法流程圖如圖1所示。

      圖1 算法流程圖Fig.1 Flowchart of algorithm

      2.1 微博短文本集預(yù)處理

      微博短文本集預(yù)處理主要包括按時(shí)間片切分?jǐn)?shù)據(jù)集、根據(jù)標(biāo)簽區(qū)分語(yǔ)料庫(kù)和文本預(yù)處理三個(gè)部分,其中,文本預(yù)處理又包括微博短文本過(guò)濾、分詞及詞性標(biāo)注、去停用詞和特征選擇四個(gè)部分。具體流程如圖2所示。

      圖2 微博短文本集預(yù)處理流程圖Fig.2 Flowchart of microblog short text set preprocessing

      2.2 LPOBTM主題模型

      借鑒文獻(xiàn)[12]中利用λd判斷是否含有話題標(biāo)簽,以區(qū)分語(yǔ)料庫(kù)的方法,本文在OBTM主題模型的基礎(chǔ)上進(jìn)行改進(jìn)。LPOBTM模型圖如圖3所示。圖中,各符號(hào)表示的含義如表1所示。

      圖3 LPOBTM圖模型Fig.3 Diagram model of LPOBTM

      表1 符號(hào)及其含義Table 1 Symbols and their meanings

      LPOBTM具體改進(jìn)方法如下:

      (1)針對(duì)原始OBTM建模主題混合,導(dǎo)致不易發(fā)現(xiàn)新主題的問(wèn)題,本文將t-1時(shí)刻建模生成的基于標(biāo)簽、微博內(nèi)容的文檔-主題分布作為t時(shí)刻對(duì)應(yīng)文檔-主題分布的Dirichlet先驗(yàn)參數(shù)

      其中,K為主題個(gè)數(shù);M為文檔總數(shù);θm,k為文檔dm中主題k的概率,由Gibbs抽樣得到的θs,k和θr,k決定,采樣的條件概率如下[15]:

      基于標(biāo)簽、微博內(nèi)容的文檔-主題分布θs,k、θr,k和主題-詞分布φk,w如下:

      其中,nk表示主題k中詞對(duì)的個(gè)數(shù),nw|k表示詞w賦給主題k的個(gè)數(shù),n.|k表示賦給主題k的總詞數(shù),W為數(shù)據(jù)集的總詞數(shù)。

      (2)針對(duì)冗余詞頻率高,導(dǎo)致不能準(zhǔn)確描述主題的問(wèn)題,本文對(duì)公式(1)進(jìn)行改進(jìn),增加t-1時(shí)刻的主題強(qiáng)度排名,并借鑒Sigmod函數(shù)優(yōu)化先驗(yàn)參數(shù)β的計(jì)算方法:

      8.根據(jù)公式(8)、(9)和(10)計(jì)算基于標(biāo)簽、微博內(nèi)容的文檔-主題分布θs,k、θr,k和主題-詞分布φk,w。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

      實(shí)驗(yàn)在Win 10以及Ubuntu 15.10,配置8 GB內(nèi)存和Intel Core i5-5200U 2.20 GHz CPU的硬件環(huán)境下進(jìn)行,數(shù)據(jù)采集軟件為八爪魚(yú)V7.6.4,編譯語(yǔ)言為Python3。

      本文采用2019年3月12日至3月17日新浪平臺(tái)發(fā)布的微博作為話題演化的數(shù)據(jù)集,以1天為時(shí)間片劃分。經(jīng)過(guò)文本預(yù)處理,保留了10 000條微博,其中7 000條作為訓(xùn)練集,3 000條作為測(cè)試集。

      3.2 模型參數(shù)的確定

      本文利用困惑度(perplexity)[16]確定最優(yōu)主題數(shù)K值,困惑度用來(lái)評(píng)價(jià)模型的泛化能力,其值越小表明建模效果越好。公式如下:

      其中,W表示文本集,p(wd)為第d篇文本中詞的概率,Nd為第d篇文本中的詞數(shù)。

      圖4 LPOBTM在不同主題數(shù)下的困惑度Fig.4 Perplexity of LPOBTM under different topic numbers

      由圖4可知,當(dāng)主題數(shù)目K=6時(shí),困惑度最小,表明此時(shí)LPOBTM的建模效果最好,故本文選取最優(yōu)主題數(shù)目K=6。

      3.3 實(shí)驗(yàn)結(jié)果分析

      3.3.1 內(nèi)容演化分析

      本文選取Topic 4在每個(gè)時(shí)間片上的Top 6個(gè)特征詞,展示該話題的內(nèi)容演化情況,如表2所示。

      表2 Topic 4的內(nèi)容演化情況Table 2 Content evolution of Topic 4

      從表2可以看出,Topic 4說(shuō)的是“成都七中實(shí)驗(yàn)學(xué)校食品安全事件”,隨著時(shí)間變化,特征詞也在發(fā)生變化,說(shuō)明話題內(nèi)容在進(jìn)行演化。時(shí)間片1中展示了成都七中學(xué)生胃疼,家長(zhǎng)前往食堂拍照取證并發(fā)現(xiàn)食材發(fā)霉,事件由此開(kāi)始;時(shí)間片2和3中,家長(zhǎng)聚集并發(fā)生踩踏事故,警方帶離,隨后省教育廳對(duì)成都教育局進(jìn)行核查,溫江區(qū)公安對(duì)食堂責(zé)任人進(jìn)行調(diào)查;時(shí)間片4中,主要側(cè)重點(diǎn)包括食材的溯源調(diào)查、照片中相關(guān)食材的檢測(cè)、檢測(cè)結(jié)果符合標(biāo)準(zhǔn)說(shuō)明、相關(guān)人員停職檢查等;時(shí)間片5中,國(guó)務(wù)院食安辦表態(tài)該事件尚未查清,隨后溫江區(qū)市場(chǎng)監(jiān)督管理局再次核查食材;時(shí)間片6中,主要包括召開(kāi)發(fā)布會(huì)、校長(zhǎng)解聘、董事會(huì)重組并澄清相關(guān)不實(shí)信息等。

      3.3.2 強(qiáng)度演化分析

      本文選取Topic 1(315晚會(huì))、Topic 2(李勝利事件)、Topic 4(成都七中實(shí)驗(yàn)學(xué)校食品安全事件)這三個(gè)話題,根據(jù)公式(13)計(jì)算主題強(qiáng)度,進(jìn)行強(qiáng)度演化分析,話題強(qiáng)度演化圖如圖5所示。

      圖5 話題強(qiáng)度演化圖Fig.5 Intensity evolution of topics

      從圖5可以發(fā)現(xiàn),“315晚會(huì)”這個(gè)話題在3月15日之前只有很少的主題強(qiáng)度,而在3月15日當(dāng)天,主題強(qiáng)度急速增長(zhǎng),并且在之后的兩天都保持較高的強(qiáng)度;“李勝利事件”這個(gè)話題在3月12日已經(jīng)有相當(dāng)高的主題強(qiáng)度且在之后的時(shí)間片內(nèi)保持緩慢下降的趨勢(shì),說(shuō)明該話題在3月12日當(dāng)天或者之前已經(jīng)達(dá)到了事件的高潮,從13日開(kāi)始演化直至逐漸消亡;“成都七中實(shí)驗(yàn)學(xué)校食品安全事件”這個(gè)話題在3月12日已經(jīng)有較少的主題強(qiáng)度且隨著時(shí)間推移較快增長(zhǎng),最終在3月15日到達(dá)頂峰,說(shuō)明該話題在3月12日已經(jīng)開(kāi)始產(chǎn)生,經(jīng)過(guò)2天的演化,在3月15日達(dá)到高潮,然后逐漸消亡。

      3.4 與其他熱點(diǎn)話題演化模型的比較

      為了驗(yàn)證LPOBTM在話題演化方面的優(yōu)勢(shì),本文將LPOBTM與文獻(xiàn)[8]的OBTM模型、文獻(xiàn)[11]的基于雙通道的OLDA模型以及文獻(xiàn)[12]的LOLDA模型進(jìn)行比較,利用這四種模型對(duì)數(shù)據(jù)集進(jìn)行建模并分析實(shí)驗(yàn)結(jié)果。

      為展示四種模型的話題演化能力,本文選用“成都七中實(shí)驗(yàn)學(xué)校食品安全事件”這個(gè)話題的詞分布進(jìn)行分析,因?yàn)樵撛掝}在6個(gè)時(shí)間片內(nèi)具有較為完整的演化過(guò)程,且在時(shí)間片1和6上的特征詞區(qū)別較大,便于作比較。表3展示了Topic 4在時(shí)間片1和6上的Top 5個(gè)特征詞。

      表3 四種模型關(guān)于Topic 4在時(shí)間片1和6上的特征詞Table 3 Four models about specific words of Topic 4 on Time 1 and 6

      如表3所示,LPOBTM建模得到的特征詞可以更好地概括和描述主題,在不同的時(shí)間片內(nèi)可以更確切地發(fā)現(xiàn)話題在內(nèi)容上的演化趨勢(shì)。這是因?yàn)長(zhǎng)POBTM在考慮了微博話題標(biāo)簽的同時(shí),改進(jìn)了先驗(yàn)參數(shù)的計(jì)算方法,刪除了容易導(dǎo)致主題意義不明確的冗余詞,因此LPOBTM相比其他三種模型能夠更準(zhǔn)確地描述話題內(nèi)容的演化情況。

      為了量化地比較這四種模型在話題演化方面的能力,本文計(jì)算了不同時(shí)間片內(nèi)四種模型的困惑度,如圖6所示。

      圖6 四種模型在不同時(shí)間片內(nèi)對(duì)應(yīng)的困惑度Fig.6 Perplexity of four models in different time slices

      由圖6可知,LPOBTM的困惑度在任意時(shí)間片上均小于其他三種模型的困惑度,由此說(shuō)明LOBTM模型有更好的主題泛化能力,可以獲得更好的話題演化效果。

      4 結(jié)束語(yǔ)

      本文研究了如何更準(zhǔn)確地描述微博熱點(diǎn)話題的演化趨勢(shì),提出了基于話題標(biāo)簽和先驗(yàn)參數(shù)的OBTM微博熱點(diǎn)話題演化算法。針對(duì)主題混合、新主題挖掘困難的問(wèn)題,按照有無(wú)話題標(biāo)簽,本文將文檔-主題分布分為基于標(biāo)簽、微博內(nèi)容的文檔-主題分布,并設(shè)置了對(duì)應(yīng)的先驗(yàn)參數(shù)傳遞,以此來(lái)保持舊主題在新時(shí)間片內(nèi)的連續(xù)性;其次,為了更準(zhǔn)確地描述主題演化趨勢(shì),通過(guò)增加主題強(qiáng)度排名,提高了重要主題的遺傳度,優(yōu)化了主題-詞分布的先驗(yàn)參數(shù)計(jì)算方法,減少了冗余詞的概率。實(shí)驗(yàn)結(jié)果表明,LPOBTM能夠?qū)崿F(xiàn)熱點(diǎn)話題內(nèi)容和強(qiáng)度的演化分析,且與OBTM、基于雙通道的OLDA以及LOLDA模型相比,LPOBTM能夠更準(zhǔn)確地描述熱點(diǎn)話題的內(nèi)容演化情況,并且在各時(shí)間片內(nèi)都有更低的模型困惑度。

      猜你喜歡
      熱點(diǎn)話題先驗(yàn)文檔
      有人一聲不吭向你扔了個(gè)文檔
      基于無(wú)噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
      2017年高考作文熱點(diǎn)話題預(yù)測(cè)
      基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      基于SVM的熱點(diǎn)話題跟蹤實(shí)現(xiàn)過(guò)程研究
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
      先驗(yàn)的廢話與功能的進(jìn)路
      熱點(diǎn)話題排行榜
      新邵县| 威海市| 塔河县| 彭泽县| 灌阳县| 永清县| 江华| 九龙县| 江北区| 潞西市| 宜兰县| 安仁县| 南江县| 定结县| 师宗县| 塔城市| 永靖县| 长武县| 普兰县| 海南省| 惠州市| 青岛市| 赣榆县| 清苑县| 吐鲁番市| 东乡族自治县| 大荔县| 陆良县| 河南省| 梅河口市| 桃园县| 青田县| 高台县| 连平县| 嘉荫县| 舟曲县| 新巴尔虎左旗| 新和县| 津市市| 澄江县| 东乌珠穆沁旗|