• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      后疫情時代網(wǎng)絡(luò)輿情情感分析和主題識別

      2024-04-03 21:05:58李敏項朝輝
      電腦知識與技術(shù) 2024年2期
      關(guān)鍵詞:文本挖掘情感分析后疫情時代

      李敏 項朝輝

      關(guān)鍵詞: 后疫情時代;網(wǎng)絡(luò)輿情;文本挖掘;LDA主題聚類;情感分析

      0 引言

      隨著移動互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)已成為人們表達民意和交流情感的重要載體,推動了輿論和信息傳播的網(wǎng)絡(luò)化發(fā)展。網(wǎng)絡(luò)輿情傳播的特點在于速度快、意見集中等,近年來,各種突發(fā)公共衛(wèi)生事件頻發(fā),輿論引導工作面臨前所未有的挑戰(zhàn)。其中,微博這一重要的社交媒體平臺,涵蓋了海量的用戶觀點和情感信息。用戶在微博上的情感表達不僅能夠影響微博內(nèi)容本身的傳播,還能夠迅速感染其他用戶,甚至可以在短時間內(nèi)引爆話題,影響公眾情感,如涉及人身安全、社會公平和性別對立等問題。

      利用計算機技術(shù)自動快速地從海量微博文本數(shù)據(jù)中挖掘輿論熱點和情感傾向,并能夠快速地推斷出事件的趨勢和影響程度,對輿情研判和輿論引導具有重要的意義。因此,利用計算機技術(shù)進行微博情感分析對于社會輿情管理和研究而言,具有重要的意義和價值,可以為人們提供更全面、準確的情感信息,從而更好地了解公眾的態(tài)度和情感傾向,做出針對性的決策和措施。

      在社交媒體中,用戶對輿情事件發(fā)表了大量的相關(guān)話題數(shù)據(jù),為挖掘輿情演化提供了可能。主題挖掘技術(shù)和情感分析方法已經(jīng)成為常用的文本挖掘手段。主題挖掘技術(shù)是指通過分析一系列文本數(shù)據(jù),自動發(fā)現(xiàn)隱含在文本中的主題、詞匯、情感以及其他有關(guān)內(nèi)容的關(guān)聯(lián)和模式的方法。經(jīng)常被應用于分析社交媒體、新聞報道和其他類型的文本數(shù)據(jù),可以幫助研究人員和企業(yè)了解人們的需求、偏好和態(tài)度等信息。Pu[1]提出了一種新的方法TDCS(Topic Distilling withCompressive Sensing),利用無監(jiān)督方法和迭代法對少量文檔關(guān)鍵詞中隱含的主題進行建模和分析。曾莉等[2]通過LDA-Attention-BiLSTM模型分析微博某單位招聘熱點事件的輿情演變過程,挖掘輿論熱點和情感傾向。莊穆妮等[3]將LDA模型和Bert融合,改進后的模型精確度更高,能夠有效地運用于大規(guī)模網(wǎng)絡(luò)輿情演化仿真。張柳等[4]利用LDA構(gòu)建新冠肺炎疫情事件下微博用戶轉(zhuǎn)發(fā)評論關(guān)系構(gòu)建微博用戶主題聚類圖譜,提出網(wǎng)絡(luò)社群間主題傳播路徑分析方法,發(fā)現(xiàn)衍生的輿情話題。

      情感分析是文本挖掘領(lǐng)域的一個重要研究方向,旨在從文本數(shù)據(jù)中提取、分析、歸納和推理涵蓋的主觀信息,如觀點、情感、評價和態(tài)度。這一領(lǐng)域始于21 世紀,并逐漸成為自然語言處理、機器學習等多個領(lǐng)域的研究熱點。情感分析的研究對于理解和解釋人們在文本中表達的情感和情緒具有重要意義。在情感分析中,常見的方法主要有以下3種:基于情感詞典的情感分析、基于機器學習的情感分析和基于深度學習的情感分析。基于情感詞典的方法通過匹配文本中出現(xiàn)的情感詞與預定義的情感詞典進行分析,從而獲得文本的情感傾向?;跈C器學習的方法依靠訓練模型從大量標注數(shù)據(jù)中學習情感分類的規(guī)律,從而對未知文本進行情感分析。而基于深度學習的方法則通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型,可以更準確地從文本中捕捉情感信息。因此,情感分析的研究和應用對于深入理解人們在文本中表達的情感,以及在輿情研判、社交媒體分析、品牌管理等方面具有重要意義。林偉[5]通過基于Bert多特征融合網(wǎng)絡(luò)輿情情感識別模型,模型的精確率達到92.7%,有效地提升了輿情情感識別的性能。陳興蜀等[6]用SnowNLP情感分析模型以及KMeans文本聚類算法等方法分析疫情事件中網(wǎng)絡(luò)輿情的時空演化過程。吳小華等[7]提出了基于字向量表示方法并結(jié)合Selfattention和BiLSTM的中文短文本情感分析算法,在COAE 2014微博數(shù)據(jù)集和酒店評論數(shù)據(jù)集的情感分類效果有所提升。王彤等[8]基于SnowNLP模型對突發(fā)公共衛(wèi)生事件發(fā)生后政務媒體的相關(guān)評論信息進行情感分析,將網(wǎng)民情感劃分為形成期、爆發(fā)期和衰退期,并通過LDA主題模型,得出每個階段的主題分類。

      針對突發(fā)公共衛(wèi)生事件發(fā)生后,社交媒體情緒識別和輿論熱點的研究相對較少,本文以后疫情時代微博數(shù)據(jù)為研究對象,采用大數(shù)據(jù)技術(shù)對新浪微博用戶發(fā)布的文本數(shù)據(jù)進行采集和分析,可以實時感知網(wǎng)民的情緒變化和關(guān)注熱點,從而及時發(fā)現(xiàn)問題、深入分析原因。這種實時輿情監(jiān)測為公共衛(wèi)生事件管理和社會輿情管理提供了重要科學依據(jù)。

      1 研究框架和模型構(gòu)建

      本文通過研究LDA模型、情感分析等方法對微博短文本數(shù)據(jù)進行分析,挖掘網(wǎng)民對后疫情時代情感態(tài)度的變化和輿情焦點。

      1.1 情感分析

      文本情感分析最初是針對帶有情感色彩的詞語的分析,也稱為意見挖掘,是自然語言研究領(lǐng)域的一個重要方向。本文使用Python中的SnowNLP庫對中文文本進行情感得分計算。SnowNLP庫是基于Text?Blob開發(fā)的專門針對中文文本內(nèi)容進行情感識別的方法。該庫提供了一系列功能,包括情感分析、文本分類、文本摘要和關(guān)鍵詞提取等。它使用貝葉斯分類器和隱馬爾科夫模型,基于中文語料庫進行訓練和預測。該方法能夠處理大量中文文本數(shù)據(jù),并具有高準確性和高效率,經(jīng)常用于輿情監(jiān)控、評論分析和輿情分析等任務。

      1.2 TF-IDF 模型

      TF-IDF(Term Frequency-Inverse Document Fre?quency,詞頻-逆文檔頻率)是一種用于評估文檔中詞語重要程度的統(tǒng)計方法。它基于兩個核心概念:詞頻(Term Frequency,TF)和逆文檔頻率(Inverse DocumentFrequency,IDF)。TF表示一個詞語在文檔中出現(xiàn)的頻率,它將一個文檔看作是一個詞語的集合,TF可以幫助找出文檔中重要的詞語,因為頻繁出現(xiàn)的詞語往往具有更高的重要性。IDF表示一個詞語在整個文檔集合中的重要程度。IDF可以幫助找出在整個文檔集合中唯一或者罕見的詞語,因為這些詞語往往能提供更多獨特的信息。TF-IDF的計算公式如下:

      其中,w 表示一個詞語,D 表示一篇文檔,N 表示文檔總數(shù),df (w) 表示包含詞語w 的文檔數(shù),nw,D 表示詞語w 在文檔D 中出現(xiàn)的次數(shù)。TF-IDF值就越高,說明這個詞在文本中的重要程度越高,TF-IDF模型能夠幫助對文本進行特征提取、關(guān)鍵詞提取等,從而有效地處理和分析大量的文本數(shù)據(jù)。

      1.3 LDA 主題模型

      Blei等[9]在2003年提出了潛在狄利克雷分布(La?tent Dirichlet Allocation,LDA) ,該方法是一種無監(jiān)督學習模型,可以從一組文檔中發(fā)現(xiàn)潛在的主題。LDA 模型假設(shè)每個文檔是由多個主題混合而成的,而每個主題又由多個單詞組成。LDA 模型中文檔-主題和主題-詞都服從多項分布,其先驗概率是 Dirichlet 分布。通過觀察文檔來推斷出這些潛在的主題和單詞分布。運用機器學習方法統(tǒng)計詞頻生成主題單詞和評論主題后構(gòu)成的多層概率分布,進而實現(xiàn)文本聚類。

      利用LDA模型進行文本主題聚類時,需要確定最優(yōu)的主題數(shù)。困惑度(Perplexity) 常被用作評估聚類效果的指標,進而幫助調(diào)整主題數(shù)目,以達到最佳聚類效果。其計算公式如下:

      其中,D 表示文檔中所有詞的集合,M 表示文檔的數(shù)量,Wd 表示文檔d 中的詞,Nd 表示每個文檔中d 的詞數(shù),P (Wd )表示文檔中詞出現(xiàn)的概率。通過計算困惑度,可以量化LDA模型的表現(xiàn),并對主題數(shù)進行逐步調(diào)整,以獲得最佳的主題聚類結(jié)果。它的數(shù)值越小,表示該主題模型的生成能力越強,即模型對于文本數(shù)據(jù)的擬合度越高。在確定LDA模型的最優(yōu)參數(shù)時,可以選擇困惑度較小且主題數(shù)相對較少的值作為最佳參數(shù)。通過這種方式,可以找到一個相對準確的主題聚類結(jié)果,避免了過多的主題數(shù)對于聚類結(jié)果的干擾。

      1.4 本文研究框架

      本文的研究框架主要包括數(shù)據(jù)采集、數(shù)據(jù)清洗、TF-IDF計算、主題聚類、情感分析這5個部分。

      本文提出的主題提取與情感分析框架,如圖1所示,具體包括5個部分:

      1) 數(shù)據(jù)采集,利用Python采集新浪微博“疫情”相關(guān)話題數(shù)據(jù);

      2) 數(shù)據(jù)預處理,對采集的文本數(shù)據(jù)進行清洗,包括去重、分詞以及去除停用詞等;

      3) 情感分析,使用SnowNLP進行計算情感得分;

      4) TF-IDF 計算,找出文本數(shù)據(jù)中相對重要的詞語;

      5) 主題識別,使用LDA主題模型對文本數(shù)據(jù)進行主題聚類,并提取出每個主題的關(guān)鍵詞。

      2 實證分析

      2.1 數(shù)據(jù)采集

      本文以后疫情時代網(wǎng)民的情感和話題為研究背景,在新浪微博的“高級搜索”中以“疫情”為搜索關(guān)鍵詞,爬取了2022年12月7日0時至2023年6月7日23 時相關(guān)微博數(shù)據(jù)。為了使數(shù)據(jù)樣本盡量均勻分布,爬蟲以小時為單位,對每小時微博搜索數(shù)據(jù)結(jié)果的前2 頁進行采集,累計共獲取73 229條,包含微博id、發(fā)布時間和微博文本。通過Python和Excel工具對數(shù)據(jù)去重和錯誤數(shù)據(jù)清洗,經(jīng)過初步預處理后共得到72 492 條微博文本數(shù)據(jù)。

      2.2 數(shù)據(jù)預處理

      在微博文本分析中,由于存在大量的噪聲數(shù)據(jù),如表情符號、微博標簽、語氣詞等,這些詞語會對情感傾向判別和主題模型聚類效果。為解決這些問題,本文采用了Jieba工具進行分詞,并融合了百度停用詞庫、哈爾濱工業(yè)大學停用詞庫以及新建的自定義停用詞庫,對分詞后的文本進行清洗。通過對文本分詞和停用詞處理,消除一些沒有實際語義意義的詞語干擾,可以減少模型處理的數(shù)據(jù)量,提高情感傾向判別和主題模型效果的可靠性。

      2.3 情感得分

      本文采用SnowNLP庫對去除特殊標點符號后的微博評論數(shù)據(jù)進行情感傾向分析,并按月份統(tǒng)計2022 年12月至2023年8月期間情感得分的平均值。情感得分的值介于0~1,越接近1表示情感越積極,越接近0則情感越消極。首先,利用SnowNLP方法計算所有評論數(shù)據(jù)的情感得分。隨后,按月份對微博數(shù)據(jù)進行加權(quán)平均,計算每個月的情感分數(shù)。這樣,能夠了解整個時間段內(nèi)網(wǎng)民情感的趨勢和變化,結(jié)果如圖2 所示。

      根據(jù)對網(wǎng)民情感的觀察,可以發(fā)現(xiàn),整體上網(wǎng)民的情感波動較大,但總體呈現(xiàn)出正向積極的情緒傾向。在2022年12月,隨著疫情的放開,網(wǎng)民情感得分達到最低點,情緒相對較低落。然而,隨著時間的推移以及媒體在網(wǎng)絡(luò)平臺上發(fā)布有關(guān)疫情的相關(guān)知識,網(wǎng)民對疫情的認識逐漸加強,總體情緒呈現(xiàn)積極向上的趨勢。然而,在2023年4月和5月,由于對小長假聚集、復陽等情況的擔憂,網(wǎng)民的情緒值呈現(xiàn)出相對走低的趨勢。

      2.4 TF-IDF 模型

      本文使用sklearn 中的TfidfVectorizer 方法,對詞袋向量進行訓練,并得到每個詞語對應的TF-IDF值。通過對所有詞語的TF-IDF值排序,可以得到詞語的重要程度排名,從而幫助確定文本中關(guān)鍵的詞語或者特征。表1是微博文本分詞后統(tǒng)計TF-IDF的值排名前20的詞語。

      可以大致看出網(wǎng)民對于后疫情時代的主要關(guān)注點包括疫情發(fā)展和防控情況、復工復學、經(jīng)濟發(fā)展、未來生活期望等。為了能挖掘出更多有用信息,接下來利用 LDA 主題模型對微博文本聚類。

      2.5 LDA 主題聚類

      本文使用了基于sklearn開源的LDA模型,并采用Gibbs(Gibbs sampling)采樣方法訓練模型參數(shù)。在確定最優(yōu)參數(shù)時,采用Perplexity方法,讓主題數(shù)在區(qū)間[1,20]內(nèi)進行迭代,計算困惑度的變化狀況,以尋找最優(yōu)的主題數(shù)。困惑度越低,表示模型的聚類效果越好。如圖3所示,隨著主題數(shù)的增加,總體困惑度呈波動下降的趨勢。筆者發(fā)現(xiàn),困惑度的局部極小值點出現(xiàn)在主題數(shù)為11時。隨著主題數(shù)的增加,主題分析變得更加復雜,可能會導致模型過擬合,從而影響結(jié)果的準確性。通過選擇一個適中的主題數(shù),我們可以得到更合理和可靠的聚類結(jié)果。因此,本文將聚類主題數(shù)設(shè)置為11個,以獲得更為穩(wěn)健的聚類結(jié)果。

      使用LDA模型聚類,得到不同主題的關(guān)鍵詞,并概括主題關(guān)鍵詞的內(nèi)容,表2展現(xiàn)了不同主題下概率最高的前12個關(guān)鍵詞。

      從關(guān)鍵詞看出,在后疫情時代,網(wǎng)民關(guān)注的焦點除了疫情發(fā)展情況外,還包括疫情防護和健康問題。隨著疫情的進一步緩解,網(wǎng)民的關(guān)注重點逐漸轉(zhuǎn)移到復工復產(chǎn)、旅游、校園生活和經(jīng)濟發(fā)展情況等方面。此外,社會熱點問題也是網(wǎng)民關(guān)注的焦點。這些關(guān)注點反映了社會對于疫情后重建和恢復正常生活的渴望,以及對于各種社會問題的關(guān)切。

      3 研究結(jié)論

      本研究基于SnowNLP算法對后疫情時代網(wǎng)民的情緒傾向進行識別,并結(jié)合TF-IDF方法提取微博話題的關(guān)鍵詞。通過應用LDA模型分析后疫情時代微博的輿論焦點,并利用困惑度評價指標確定最優(yōu)的主題數(shù)。研究結(jié)果顯示,隨著2022年12月疫情放開,網(wǎng)民的情感得分達到最低。然而隨著時間的推移,媒體在網(wǎng)絡(luò)平臺發(fā)布疫情相關(guān)的信息,網(wǎng)民的情緒總體呈現(xiàn)積極向上的趨勢。此外,研究利用LDA模型提取了11個網(wǎng)民關(guān)注的話題,有助于政府部門進行輿情監(jiān)管和輿情引導。當前,輿情情感分析的研究日益增多。本文中情感分類的方法僅將輿情評論的情感傾向劃分為正向和負向,為了提高情感傾向識別的精確度,未來工作中可以使用深度學習方法,引入更多情感類別如中性情感或復雜情感。

      猜你喜歡
      文本挖掘情感分析后疫情時代
      “后疫情時代”的管理新焦點:辦公環(huán)境
      中外管理(2020年4期)2020-04-28 06:23:46
      掌控“后疫情時代”的五大商業(yè)趨勢
      中外管理(2020年4期)2020-04-28 06:23:46
      進擊“后疫情時代”
      支點(2020年4期)2020-04-21 13:40:50
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應用
      軟件導刊(2016年12期)2017-01-21 15:55:21
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
      基于詞典與機器學習的中文微博情感分析
      基于LDA模型的95598熱點業(yè)務工單挖掘分析
      在線評論情感屬性的動態(tài)變化
      預測(2016年5期)2016-12-26 17:16:57
      從《遠程教育》35年載文看遠程教育研究趨勢
      慧眼識璞玉,妙手煉渾金
      华阴市| 弋阳县| 湄潭县| 临沧市| 宁德市| 芦溪县| 新源县| 合水县| 瑞昌市| 时尚| 布尔津县| 慈溪市| 营山县| 郯城县| 达日县| 庄河市| 湘潭市| 昌邑市| 昭平县| 海阳市| 陆河县| 水富县| 维西| 刚察县| 金塔县| 拉萨市| 扎囊县| 富源县| 遂宁市| 德保县| 肇州县| 嵊泗县| 淄博市| 上杭县| 枣阳市| 邮箱| 兴海县| 布尔津县| 万全县| 合作市| 安塞县|