• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LDA的輿情評論文本主題提取改進研究

      2020-12-23 05:47:19曹銳孫美鳳
      軟件 2020年10期

      曹銳 孫美鳳

      摘? 要: 基于LDA算法原理,提出了兩種對語料庫提供先驗知識的改進策略。一種為對語料庫中特定詞性的詞匯進行增刪以進行相對定向的主題詞的提取改進;另一種是針對輿情評論文本與新聞的相關(guān)性,引入新聞主題以期提高主題提取詞匯的語義表達能力。實驗證明,改進對提升輿情評論文本的主題提取準確率有明顯效果。

      關(guān)鍵詞: 主題提取;LDA;輿情事件評論分析;無監(jiān)督學(xué)習(xí)

      中圖分類號: TP391? ? 文獻標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.017

      本文著錄格式:曹銳,孫美鳳. 基于LDA的輿情評論文本主題提取改進研究[J]. 軟件,2020,41(10):7075+85

      【Abstract】: Based on the principle of LDA algorithm, two improved strategies for providing prior knowledge to the corpus are proposed. One is to add and delete specific part-of-speech vocabularies in the corpus to improve the extraction of relative targeted topic words; the other is to introduce the topic of news in order to improve the semantic expression ability of topic-extracted vocabularies based on the relevance of public opinion comment texts and news. Experiments show that the improved LDA algorithm has a significant effect on improving the accuracy of topic extraction of public opinion review text.

      【Key words】: Topic extraction; Latent Dirichlet Allocation; Public opinion analysis; Unsupervised learning

      0? 引言

      近年來,Web2.0的普及帶動了互聯(lián)網(wǎng)信息量的劇增和網(wǎng)絡(luò)交互性的空前提升,網(wǎng)絡(luò)輿情的分析顯得愈加重要,網(wǎng)絡(luò)輿情是社會輿情在網(wǎng)絡(luò)空間的映射[1]。針對網(wǎng)絡(luò)輿情主題的稀有性特點——形成的熱點主題只來自少量信息[2],為了快速、準確地從網(wǎng)絡(luò)媒體帶來的大量輿情新聞及對應(yīng)評論信息中提取熱點主題,需要將主題提取的工作由人工轉(zhuǎn)化為半自動甚至自動。

      LDA(Latent Dirichlet Allocation)[3]是基于BOW模型的一種自動主題提取算法。LDA因為有效訓(xùn)練不需要任何帶標(biāo)簽的訓(xùn)練集的優(yōu)點得到廣泛應(yīng)用[4-7]。

      但作為一個無監(jiān)督方法,LDA在實際應(yīng)用中存在問題,主要有:

      (1)每次主題劃分會遺漏部分現(xiàn)實存在的主題[8]。這會極大影響測試集文本包括新文本劃分到該主題的準確度。

      (2)代表主題的關(guān)鍵詞集合表義不明確[9]。這會使得人為難以判斷主題提取效果是否達到理想的訓(xùn)練效果,也會影響測試集文本包括新文本劃分為該主題的準確度。

      針對上述問題,國內(nèi)外研究者提出了多種改進方法,主要包含兩個方向:一種是以改進LDA算法本身的不足為研究核心[10-12],一種是通過提供語料集更多先驗知識以影響LDA算法結(jié)果。本文工作遵循第二種思路。

      通過提供語料集更多先驗知識的研究有:Zhai[13]等提出通過事先整理的must-link約束集和cannot-link約束集作為先驗知識來在LDA主題劃分過程中更好地聚集同類詞匯和分離異類詞匯。彭云[9]等在文中對must-link和cannot-link進行了詳細的功能測試,發(fā)現(xiàn)對準確率有提升作用的主要是must-link約束集。Xu[14]等提出的SW-LDA通過人工構(gòu)建敏感詞匯集和加入Word2vec技術(shù),利用以上增加的先驗知識有效提高了敏感信息的主題識別量和質(zhì)量。Li[15]等通過將WordNet的內(nèi)容和規(guī)則引入LDA作為先驗知識,提出了一種提取動態(tài)變化的主題的方法,并通過六次實驗證明了算法可行性。專門針對輿情文本分析方面,劉玉文[4]等主要通過引入報道文檔發(fā)布的時間信息作為先驗知識使原始LDA模型識別新聞焦點的水平得到提升。

      本文研究對象為輿情評論文本,為了提高LDA算法主題劃分的全面性和主題表義的準確性,本文提出了以下改進:

      (1)基于詞性對主題表達的作用的先驗知識,對語料庫中特定詞性的詞匯進行針對性的增減,使LDA算法結(jié)果能夠納入出現(xiàn)頻率較低的局部主題;

      (2)基于輿情評論文本中的主題很大程度受引發(fā)評論的新聞中主題影響的特點,利用新聞數(shù)據(jù)中主題改進評論文本的主題提取。

      1? LDA簡介

      1.1? LDA模型

      LDA是一個基于doc-topic-word的三層貝葉斯模型,其數(shù)學(xué)推導(dǎo)核心是利用Dirichlet分布和Multinomial分布共軛的性質(zhì):

      即當(dāng)數(shù)據(jù)知識符合Multinomial分布時,參數(shù)的先驗分布和后驗分布都保持Dirichlet分布。

      按照LDA模型,文檔生成過程如圖1所示。

      第一步:從到再到最后對應(yīng)到第m篇文檔的第n個詞的過程表示在有先驗的文檔-主題分布的情況下,首先計算出對應(yīng)文檔的實際文檔-主題分布,再由的結(jié)果對每個詞計算其可能的主題,因此第m篇文檔的第n個詞的主題即是;

      第二步:從到再對應(yīng)到第m篇文檔的第n個詞的過程表示在有先驗的主題-詞匯分布的情況下,首先計算出對應(yīng)主題的實際主題-詞匯分布,再由中選取主題的情況下即可對應(yīng)到具體的第m篇文檔的第n個詞匯。

      1.2? Gibbs采樣法

      吉布斯采樣(Gibbs Sampling)是訓(xùn)練LDA模型的方式,它是一種馬爾科夫鏈蒙特卡洛方法(MCMC),使其轉(zhuǎn)移矩陣收斂,即可得其對應(yīng)的樣本。

      吉布斯采樣對于LDA的訓(xùn)練過程大致如下:

      (1)首先隨機賦予每篇文檔每個詞匯以主題編號;

      (2)接著統(tǒng)計每個主題下詞匯的數(shù)量和每個文檔中相應(yīng)主題的詞匯數(shù)量;

      (3)對每單個詞匯,排除當(dāng)前詞匯的主題分布,依據(jù)其他所有詞匯的主題分布計算當(dāng)前詞匯分配到每個主題的概率,按照概率分布重新為當(dāng)前詞匯賦予一個主題;

      (4)重復(fù)上述過程,直到每個文檔和每個主題、每個主題和每個詞匯間的分布收斂。

      1.3? LDA訓(xùn)練

      LDA模型訓(xùn)練采樣過程所需條件概率公式為[16]:

      它正比于和兩個Dirichlet后驗分布的參數(shù)估計的乘積。

      相應(yīng)地,LDA模型的訓(xùn)練過程如下:

      (1)對文檔集合中的每篇文檔,進行分詞,并過濾掉無意義詞,得到以詞匯為單位的語料集合;

      (2)隨機賦予每篇文檔每個詞匯以主題編號;

      (3)依據(jù)Gibbs采樣法,對每單個詞匯,排除當(dāng)前詞匯的主題,依據(jù)從剩余所有詞匯及主題按公式(2)計算得到當(dāng)前詞匯分配到每個主題的概率分布 ,并據(jù)此重新為當(dāng)前詞匯賦予一個主題;

      (4)重復(fù)上述過程,直到每個文檔和每個主題、每個主題和每個詞匯間的分布收斂。

      最后,通常訓(xùn)練結(jié)果會取Gibbs采樣多次迭代后的結(jié)果的平均值作為最終的參數(shù)估計,使模型質(zhì)量更好。

      1.4? LDA主題推斷

      LDA主題推斷(LDA Inference)指利用訓(xùn)練生成的LDA模型,推斷新文檔的主題分布的過程。

      對新文檔的處理,就是按照類似上述LDA模型的訓(xùn)練過程,加入新文檔后,重新計算該文檔的主題分布。

      以下是LDA主題推斷的過程描述:

      (1)通過隨機初始化,對當(dāng)前文檔的每個詞隨機賦予一個主題編號;

      (2)重新掃描當(dāng)前文檔,按照Gibbs采樣的公式,對每個詞重新采樣主題;

      (3)重復(fù)上述過程直至Gibbs采樣收斂;

      (4)統(tǒng)計文檔中的主題分布,該分布就是。

      2? 主題提取改進策略

      主題提取改進策略分為兩部分:基于詞性的改進策略和基于關(guān)聯(lián)新聞挖掘先驗主題的改進策略。

      基于詞性的改進策略利用LDA在主題提取時依賴詞頻的特點,通過增刪的方式改進不同詞性的詞在詞頻分布上的不平衡,從而有效的解決LDA主題提取時會遺漏低頻主題的問題。但基于詞性的改進策略在有效地挖掘低頻主題的同時也會影響其他主題的穩(wěn)定性,會提高獲取期望主題提取實驗結(jié)果的難度,因此考慮利用LDA在主題提取時可以加入先驗主題的特點,在實驗中添加先驗主題的方式穩(wěn)定部分主題,再采用基于詞性的方法挖掘剩余需要的主題,可以取得更高效的實驗成果。

      先驗主題為了穩(wěn)定提取評論中的部分主題而存在,因而提取的主要要求是:所有先驗主題需從不同源語料中提取,但又需與評論語料庫中主題內(nèi)容和含義保持基本一致,不可出現(xiàn)評論語料庫中不存在的主題。

      通常,具體輿情事件中評論的主題來自兩大類:一是隨輿情新聞帶來的主題,二是評論自身衍生出的主題。第一類主題顯然更符合先驗主題提取的要求。由此考慮適宜添加的先驗主題可由關(guān)聯(lián)新聞獲得。對應(yīng)先驗主題的要求,選取新聞的要求是:與評論語料關(guān)聯(lián)度高,內(nèi)容簡潔且不超過評論所涉及的言論范圍。

      2.1? 基于詞性的改進策略

      從LDA的原理上分析,構(gòu)成語料庫的單詞的出現(xiàn)頻率會在很大程度影響它被選為主題詞的概率,因此往往會出現(xiàn)與主題無關(guān)的高頻詞被提取為主題關(guān)鍵詞和與主題有關(guān)的低頻詞被舍棄的情況,該情況會導(dǎo)致不能實現(xiàn)較好的主題劃分。本文采用向語料庫加入先驗知識的方法進行改進,具體地說,就是提高有效主題詞匯的頻率。

      情感詞對輿情分析的重要性不言而喻?;趯θ缗_灣大學(xué)NTUSD等情感詞典的觀察,以及劉德喜等[17]的研究,確定中文環(huán)境的候選情感詞為形容詞、動詞和普通名詞。為了確保有效情感詞不被高頻實體名詞擠掉,同時要人工降低實體名詞的頻率。依據(jù)整體語料庫的詞性分布,提高的順序由先到后是:形容詞、動詞和普通名詞。改進由多次基于詞性的統(tǒng)一增刪完成,每次增刪的次數(shù)為1。

      改進策略對文檔進行預(yù)期修改是通過改變當(dāng)前文檔中各詞性的關(guān)鍵詞、關(guān)鍵詞詞頻及其權(quán)重從而改變主題提取的結(jié)果,但對幾乎所有文檔而言,在增刪達到一定程度后,其改變程度會趨于穩(wěn)定,主要原因有兩種:(1)原文檔被增刪的詞覆蓋達到與原文檔的差異最大化;(2)因為需要增加的詞性詞占原文檔總數(shù)比例過高,最終等于回到原文檔的分布。

      本文選取TF-IDF+Simhash方法的結(jié)果作為改進策略與原文檔差異大小的度量值。TF-IDF是最常用的計算文檔關(guān)鍵詞及其權(quán)重的方法,Simhash算法是常用的計算文本相似度的算法[18],它將兩篇文檔降維成64位編碼,再計算它們的漢明距離值并作為結(jié)果返回。

      本文記單篇原文檔和改進后的文檔經(jīng)過TF-IDF+ Simhash方法返回的漢明距離值為,含義為原文檔與改進后文檔的關(guān)鍵詞差異大小。以為度量值時,文檔趨于穩(wěn)定的兩種情況分別對應(yīng)為:(1)值增加到穩(wěn)定在某個最大值;(2)值先增后減,最終回到最小值甚至為0。

      從首次增刪開始到趨于穩(wěn)定的過程中,每篇文檔會對應(yīng)出現(xiàn)一組的值,策略選擇優(yōu)化的方法是:在某次優(yōu)化中,可以對每篇文檔取排名第x名的值來控制預(yù)期與原語料庫的改變程度。對所有文檔計算語料庫的平均值,值越高則主題提取結(jié)果與原始語料庫差異越大,依此多次實驗,以值為度量找到最佳的改進方案。

      改進策略的算法偽代碼如下:

      算法1:基于詞性的詞頻修改策略算法

      Algorithm 1: Word frequency modification strategy algorithm based on part of speech

      輸入:預(yù)處理后的語料庫,預(yù)期的值排名,詞性增刪先后順序

      輸出:經(jīng)過改進策略增刪的新語料庫,

      讀取待處理詞性集合中的增刪先后順序;

      Begin For遍歷每篇文檔;

      初始化記錄文檔詞匯集中每個詞匯的詞性;并依據(jù)詞性建立子詞匯集;

      While循環(huán):

      依序?qū)h除列表集中每種詞性詞匯減1,對增加列表中每種詞性詞匯加1,記所有詞性增刪數(shù)量各改變一次為一輪循環(huán),

      While終止條件:本輪循環(huán)所有值相較于上輪循環(huán)所有值的兩兩差值在3以內(nèi);

      按照讀取的增刪數(shù)量改進原文檔,并加入新語料庫;

      End For

      返回最終新語料庫;

      返回全文的距離平均值;

      2.2? 基于關(guān)聯(lián)新聞挖掘先驗主題的改進策略

      由先驗主題的提取要求,可得從原始新聞文庫到取得先驗主題的核心步驟是:(1)優(yōu)選與評論關(guān)聯(lián)度高的重點新聞,并形成摘要;(2)將所有新聞?wù)鳛檎Z料庫進行一次LDA主題提取,優(yōu)選主題提取結(jié)果組成先驗主題集參與后續(xù)評論語料庫的主題提取實驗。

      步驟(1)主要考慮如下兩個問題:一是優(yōu)選新聞。優(yōu)選新聞的標(biāo)準是某條新聞評論數(shù)占評論集評論總數(shù)的比例,若高于某個預(yù)設(shè)比例,則認定關(guān)聯(lián)度高。預(yù)設(shè)比例一般在1%-10%之間最好,可以兼顧對新聞?wù)Z料庫的代表性和完整性。二是形成摘要。目前已有許多方法,其類別主要分為從原文抽取型和概括原文重新生成型。前者有:如計算句相似度優(yōu)選文中幾句主題句作為摘要[19],或采用關(guān)鍵詞聚類將關(guān)鍵詞集作為摘要[20]等等。后者有近年一些基于深度學(xué)習(xí)的模型可以概括全文內(nèi)容再生成一句話摘要[21]等等。本文不對摘要形成方法做重點研究,本文的摘要形成方法是抽取型,抽取內(nèi)容來自新聞書寫格式規(guī)范——第一段是新聞的導(dǎo)語,起概括全文的作用。因此本文形成摘要的方法是直接將新聞的第一段作為摘要。

      步驟(2)將新聞?wù)M行LDA主題提取的方式與評論完全相同——先進行預(yù)處理后進行實驗,再優(yōu)選每個主題的關(guān)鍵詞,以期在對LDA做最大程度定向處理的同時最小化算法干預(yù),發(fā)揮LDA作為無監(jiān)督算法的本來優(yōu)勢。

      單個先驗主題的最終形式是:

      其中表示先驗主題編號,表示對應(yīng)主題關(guān)鍵詞,表示當(dāng)前主題詞的所占權(quán)重。

      對先驗主題集優(yōu)選主題關(guān)鍵詞的方法是:先對評論集提取關(guān)鍵詞集,再對由關(guān)聯(lián)新聞得到的每個主題的每個主題詞判斷是否命中評論集的關(guān)鍵詞集,若命中則優(yōu)選成功。最終每個主題所有合格的主題詞及對應(yīng)權(quán)重組成了先驗主題集。

      從新聞提取輿情先驗主題的算法偽代碼如下:

      算法2:關(guān)聯(lián)新聞形成先驗主題

      Algorithm 2: Related News forming a priori topic

      輸入:攜帶評論數(shù)的關(guān)聯(lián)新聞,優(yōu)選比例

      輸出:先驗主題集

      從輸入中讀取優(yōu)選比例;

      Begin For遍歷被選出的關(guān)聯(lián)新聞

      若當(dāng)前新聞評論占比超過;

      保留當(dāng)前新聞,并保留新聞前兩段為新聞?wù)?

      End For

      人工確定新聞主題數(shù);

      預(yù)處理所有合格關(guān)聯(lián)新聞的摘要形成語料庫,對語料庫進行LDA主題提取;

      對評論集進行TF-IDF提取關(guān)鍵詞集,對每個主題保留命中關(guān)鍵詞集的主題關(guān)鍵詞;

      返回所有主題及對應(yīng)關(guān)鍵詞組成的先驗主題集;

      3? 實驗與分析

      3.1? 數(shù)據(jù)集與文本預(yù)處理

      數(shù)據(jù)集的事件來源是2017年6月16日,中方在洞朗地區(qū)施工時,遭到印軍越線阻攔,印方公然派軍隊越過雙方承認的邊界線進入中國境內(nèi),嚴重損害中國領(lǐng)土主權(quán)。期間中印雙方多次交涉無果,在國內(nèi)和國際上都引發(fā)了廣泛熱議。

      圍繞“中印邊境事件”,對2017年6月18日到2017年8月28日期間,出現(xiàn)在互聯(lián)網(wǎng)上的評論(主要是今日頭條)進行采集得到短文本約13255條。對其分詞及進行停用詞刪除等預(yù)處理后生成數(shù)據(jù)集。

      3.2? 實驗結(jié)果與分析

      3.2.1? 測試集主題劃分

      通過人工分析,將以上輿情評論文本分為以下大致主題:對于中方是否應(yīng)當(dāng)通過戰(zhàn)爭解決問題的評論(T1)、對于印方囂張氣焰的評論(T2)、對于中國國內(nèi)其他問題的評論(T3)、對于尼泊爾和不丹等周邊國家表態(tài)的評論(T4)、對于美國插手該事件的評論(T5)、對日本插手該事件的評論(T6)。

      通過人工打標(biāo)測試集記錄共1002條,其中T1有290條,T2有136條,T3有107條,T4有48條,T5有135條,T6有286條。

      測試集人工劃分主題的大致方法是:尋找每個主題的評價主體和客體內(nèi)容。通常評價主體由對事件本身的整理而來,對應(yīng)客體內(nèi)容由對測試集的觀察而來,大致規(guī)則為:

      若某評論文本中同時出現(xiàn)評價主體和客體內(nèi)容(評價主體對應(yīng)詞匯較為確定,客體內(nèi)容對應(yīng)詞匯相對更多),則屬于該主題。如“印度站在分水嶺,實際侵犯了兩個國家的領(lǐng)土!……”中有明顯的評價主體“印度”和客體內(nèi)容“侵犯”、“領(lǐng)土”。以上劃分方法是依照對輿情事件的實際解讀劃分的評價對象的全體。

      人工劃分的主題數(shù)量只影響對LDA訓(xùn)練時初始主題數(shù)的設(shè)置,但選擇的最終模型主題數(shù)是否等于初始主題是不確定的,可以一對一,也可以一對多,只要形成獨立劃分即可。但如果選取的訓(xùn)練主題數(shù)過高,則文本劃分過于分散,不利于后續(xù)LDA主題推斷效果。

      3.2.2? 標(biāo)準LDA實驗結(jié)果

      下圖展示了直接進行語料庫預(yù)處理后的LDA算法結(jié)果,可以看見,上述對于topic 3和topic 4的主題劃分沒有出現(xiàn)。

      通過LDA主題推斷可以依據(jù)模型計算出每篇文檔的主題傾向進而算出每個主題劃分的準確率,但對每次訓(xùn)練的模型計算測試集的準確率步驟較為繁瑣,又因LDA在訓(xùn)練結(jié)束后提供由高到低的主題詞序列預(yù)覽,因此可以先由人工觀察對當(dāng)前訓(xùn)練模型的質(zhì)量做一次基本判斷。

      觀察判斷的大致方法是在權(quán)重約前10位的詞中尋找每個主題的評價主體和客體內(nèi)容。觀察判斷規(guī)則為:

      規(guī)則一:若評價主體不存在,則主題高概率不出現(xiàn)。

      規(guī)則二:若某主題中同時出現(xiàn)評價主體和客體內(nèi)容,則主題高概率出現(xiàn)。

      對于任意主題,符合規(guī)則二即認定本次實驗該主題劃分成功,符合規(guī)則一即認定本次實驗該主題劃分失敗,對規(guī)則一和規(guī)則二都不符合的主題本次實驗不計數(shù)。

      具體地,如上圖實驗觀察主題4關(guān)于“尼泊爾”等周邊國家,不存在主體詞,因此劃分失敗。

      最后,觀察判斷某主題劃分的穩(wěn)定性的方法是:若某主題在多次實驗中(至少3次)仍基本符合規(guī)則二,則該主題為穩(wěn)定的高頻主題;若某主題在多次實驗中仍基本符合規(guī)則一,則該主題為未被成功劃分的低頻主題。

      按照6個主題劃分經(jīng)過多次實驗后,依據(jù)上述規(guī)則從觀察上認定使用標(biāo)準LDA算法的主題劃分結(jié)果只能盡量包含六個主題中的四個,而遺漏的兩個主題也是原打標(biāo)集合中最少的兩個部分,因此,LDA算法確實側(cè)重于總體的主題而容易遺漏局部主題。

      依照上述規(guī)則,同樣測試主題數(shù)為topic=12,20等參數(shù)值時主題劃分質(zhì)量,結(jié)果如圖2所示,圖中x軸是訓(xùn)練選擇的主題數(shù),y軸是穩(wěn)定提取的主題數(shù),沒有出現(xiàn)高于劃分出4個穩(wěn)定高頻主題的結(jié)果,為簡化工作量,方便后續(xù)主題改進時的主題劃分,依照滿足要求的最小主題數(shù)即topic=6保存主題模型并對測試集進行LDA主題推斷。

      下表展示了對于測試集數(shù)據(jù)進行主題分類的準確率P、覆蓋率R和標(biāo)準值F1,表中“—”表示在實驗結(jié)果中該主題劃分不成功。

      3.2.3? 基于詞性的改進實驗

      本文得到語料庫的范圍:取最小值等于全文不變時得出,為0;最大值為取全部最大值時得出,約為21。實際實驗中,每篇文檔的穩(wěn)定通過幾層循環(huán)即可達成。另外,選取的排名越高,過擬合的情況也越明顯,因此不適宜取最高值,會明顯降低在測試集的準確率。經(jīng)過LDA主題提取結(jié)果檢驗,最終選取的值排名為由高到低的第四名,得到的值為14.48。

      在所有詞性的詞匯集中,\nr的詞性的詞幾乎是可以確定的,主要是“中國”、“印度”、“日本”等國名和一些地區(qū)詞,該詞性詞出現(xiàn)概率過高,需要降低頻次,但本文考慮了保留至少該詞匯至少存在一次的做法,該做法又等同于部分提高了“尼泊爾”等次高頻詞的頻度,使其可更恰當(dāng)?shù)爻霈F(xiàn)在主題提取結(jié)果中。其他詞性的詞進行統(tǒng)一增加,再通過調(diào)參數(shù)和多次訓(xùn)練尋找最佳結(jié)果。對于單篇文檔,在結(jié)束所有詞性處理后,將修改后的文檔返回,并在每個文檔末尾添加被增加的詞。

      采用通用改進策略后,該輿情評論可以被大致完整劃分為六個主題,但表義仍不夠明確,實驗結(jié)果也不夠穩(wěn)定,因此需要先驗主題確定部分主題來使實驗結(jié)果更好、更穩(wěn)定。

      3.2.4? 基于關(guān)聯(lián)新聞報道主題的改進實驗

      本文輿情事件對應(yīng)的實際主題不多,因此本文選取的新聞評論占比為1%。

      由于關(guān)聯(lián)度高的新聞較少,可以人工閱讀這些新聞?wù)?,確定主題數(shù),由于新聞報道的主題類別較為明顯,一般取一對一的主題數(shù)即可成功劃分。

      加入的新聞先驗主題示例如下。

      新聞先驗知識可以對實驗中固定高頻LDA主題的提取有較為明顯的效果,但其仍然依照概率形式參與采樣,不會因為相似的形式和高初始權(quán)重而完全覆蓋評論語料庫的主題關(guān)鍵詞。

      3.2.5? 主題準確率計算實驗結(jié)果

      同時采用兩種改進策略后,該輿情評論可以被大致完整劃分為六個主題。結(jié)果如下表所示:

      同時使用兩種改進策略對于數(shù)據(jù)的準確率P、覆蓋率R和標(biāo)準值F1如下表。

      從上表和前表可以看出,同時使用兩種改進策略后的LDA算法,幾乎在所有主題的分類中都高于標(biāo)準LDA算法的效果。證明了提出的改進策略的良好效果。

      整體查準率與查全率偏低與語義理解有關(guān):當(dāng)前分詞算法和LDA都不是利用語義理解完成劃分的,而輿情文本語義結(jié)構(gòu)十分復(fù)雜,二者間出現(xiàn)了明顯偏差,如分詞后的許多語句人工已無法理解語義。

      3.2.6? 對比實驗結(jié)果

      本文的對比實驗選用標(biāo)準LDA算法和sentence- LDA算法(簡稱senLDA)[11],實際實驗設(shè)計為對標(biāo)準LDA、使用改進策略的LDA、標(biāo)準sentence-LDA、和使用改進策略的sentence-LDA四種算法在每個有效主題上得到的F1值作為參照。

      由圖表明,標(biāo)準sentence-LDA成功劃分了6個主題,且每個主題的F1值與使用改進策略的LDA大致相當(dāng),而sentence-LDA算法在使用改進策略后在成功劃分出6個主題的同時取得了最佳的F1值。

      4? 結(jié)束語

      在將輿情評論類數(shù)據(jù)直接輸入LDA算法進行分析時,往往會出現(xiàn)與主題無關(guān)的高頻詞被提取為主題關(guān)鍵詞和與主題有關(guān)的低頻詞被舍棄的情況,該情況會一方面會導(dǎo)致不能實現(xiàn)較好的主題劃分,另一方面會導(dǎo)致被劃分的主題關(guān)鍵詞不能較好表達語義。針對以上問題,提出了通過加入先驗知識,修改語料庫分布的方法,改善了處理效果。

      本文采用基于詞頻統(tǒng)一處理,并輔以相關(guān)新聞作為輿情事件評論的先驗知識集的方法進行了實驗,實驗結(jié)果表明,采用該方法后的LDA主題關(guān)鍵詞提取結(jié)果,在主題劃分和主題詞表義方面都有了明顯提升。

      后續(xù)工作中,希望利用更多的詞性在語料庫中分布或在日常語言表達中的規(guī)律進行更多針對性的修改,利用有效的規(guī)則篩選修改的詞,以期通過更精確的先驗知識使主題提取結(jié)果產(chǎn)生更有效、更穩(wěn)定的改變。

      參考文獻

      [1]王書夢, 吳曉松. 大數(shù)據(jù)環(huán)境下基于MapReduce的網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)[J]. 軟件, 2015, 36(7): 108-113.

      [2]信懷義. 基于異質(zhì)圖隨機游走的網(wǎng)絡(luò)話題優(yōu)化策略與仿真模型[J]. 軟件, 2016, 37(1): 105-109.

      [3]Blei, David M, et al. “Latent Dirichlet Allocation.” Journal of Machine Learning Research 3(2003): 993-1022.

      [4]劉玉文, 吳宣夠, 郭強. 網(wǎng)絡(luò)熱點新聞焦點識別與演化跟蹤[J]. 小型微型計算機系統(tǒng), 2017, 38(4): 738-743.

      [5]W Zheng, B Ge and C Wang, “Building a TIN-LDA Model for Mining Microblog Users Interest,” in IEEE Access, vol. 7, pp. 21795-21806, 2019.doi: 10.1109/ACCESS.2019.2897910.

      [6]F. Gurcan and N. E. Cagiltay, “Big Data Software Engineering: Analysis of Knowledge Domains and Skill Sets Using LDA-Based Topic Modeling,” in IEEE Access, vol. 7, pp. 82541-82552, 2019.

      [7]D. Puschmann, P. Barnaghi and R. Tafazolli, “Using LDA to Uncover the Underlying Structures and Relations in Smart City Data Streams,” in IEEE Systems Journal, vol. 12, no. 2, pp. 1755-1766, June 2018.

      [8]Daniel Maier, A. Waldherr, P. Miltner, G. Wiedemann, A. Niekler, A. Keinert, B. Pfetsch, G. Heyer, U. Reber, T. Hussler, H. Schmid-Petri & S. Adam (2018) Applying LDA Topic Modeling in Communication Research: Toward a Valid and Reliable Methodology, Communication Methods and Measures, 12:2-3, 93-118, DOI: 10.1080/19312458.2018.1430754.

      [9]彭云, 萬常選, 江騰蛟, 等. 基于語義約束LDA的商品特征和情感詞提取[J]. 軟件學(xué)報, 2017, 28(3): 676-693.

      [10]Mei Q, Ling X, Wondra M, et al. Topic sentiment mixture: modeling facets and opinions in weblogs[C]. International Conference on World Wide Web, 2007: 171-180.

      [11]Balikas G, Amini M R, Clausel M. On a Topic Model for Sentences[C]//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2016: 921-924.

      [12]R Das, M Zaheer, C Dyer. “Gaussian lda for topic models with word embeddings,” in Proc. 53rd Annu. Meeting Assoc. Comput. Linguistics, vol. 1, 2015, pp. 795-804.

      [13]Zhai Z, Liu B, Xu H, et al. Constrained LDA for Grouping Product Features in Opinion Mining[C]//Advances in Knowledge Discovery & Data Mining-pacific-asia Conference. DBLP, 2011.

      [14]G Xu, X Wu, H Yao, et al. “Research on Topic Recognition?of Network Sensitive Information Based on SW-LDA Model,” in IEEE Access, vol. 7, pp. 21527-21538, 2019.

      [15]C Li, S Feng, Q Zeng, et al. “Mining Dynamics of Research Topics Based on the Combined LDA and WordNet,” in IEEE Access, vol. 7, pp. 6386-6399, 2019.

      [16]Heinrich, Gregor. (2005). Parameter Estimation for Text Analysis.

      [17]劉德喜, 聶建云, 萬常選, 等. 基于分類的微博新情感詞抽取方法和特征分析[J]. 計算機學(xué)報, 2018, 41(7): 1574-1597.

      [18]陳磊磊. 不同距離測度的K-Means文本聚類研究[J]. 軟件,2015, 36(1): 56-61.

      [19]趙旭劍, 張立, 李波, 等. 網(wǎng)絡(luò)新聞話題演化模式挖掘[J]. 軟件, 2015, 36(6): 1-6.

      [20]趙旭劍, 鄧思遠, 李波, 等. 互聯(lián)網(wǎng)新聞話題特征選擇與構(gòu)建[J]. 軟件, 2015, 36(7): 17-20.

      [21]Radford A, Wu J, Child R, et al. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners.

      高邑县| 景东| 新巴尔虎左旗| 枣庄市| 自贡市| 西藏| 重庆市| 尖扎县| 乌兰察布市| 嘉义市| 荆门市| 苏尼特右旗| 治多县| 土默特右旗| 松滋市| 榆中县| 舞阳县| 讷河市| 大埔区| 莎车县| 德安县| 胶州市| 西城区| 牙克石市| 永川市| 成安县| 山东| 武义县| 池州市| 扎兰屯市| 碌曲县| 资阳市| 兴国县| 灵石县| 游戏| 金寨县| 舟曲县| 长葛市| 沂源县| 四平市| 凤山市|