• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞典和表情符號(hào)的微博輿情情感分析研究

      2023-11-13 07:10:22張麗李菊
      電腦與電信 2023年7期
      關(guān)鍵詞:表情符號(hào)博文分詞

      張麗 李菊

      (南京理工大學(xué)紫金學(xué)院計(jì)算機(jī)學(xué)院,江蘇 南京 210023)

      1 引言

      2023年3月2日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第51次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1](以下簡(jiǎn)稱(chēng)《報(bào)告》)發(fā)布?!秷?bào)告》顯示,截至2022年12月,我國(guó)網(wǎng)民規(guī)模達(dá)10.67億,較2021年12月增長(zhǎng)3549萬(wàn),互聯(lián)網(wǎng)普及率達(dá)75.6%?;ヂ?lián)網(wǎng)的開(kāi)放性,使得公眾可以在網(wǎng)絡(luò)平臺(tái)便捷地對(duì)社會(huì)各方面的熱點(diǎn)事件發(fā)表意見(jiàn)和建議,因此形成了網(wǎng)絡(luò)輿情。隨著微博用戶(hù)數(shù)量的快速增長(zhǎng),微博中攜帶了大量的網(wǎng)絡(luò)輿情,其中蘊(yùn)含了很多的情感信息。通過(guò)對(duì)這些文本中的情感信息進(jìn)行挖掘,可以獲得用戶(hù)的情感傾向,從而實(shí)現(xiàn)情感分析[2]。通過(guò)情感分析,可以獲得公眾對(duì)于熱點(diǎn)事件的態(tài)度和反應(yīng),有利于及時(shí)對(duì)微博輿論進(jìn)行干預(yù)和引導(dǎo),促進(jìn)社會(huì)輿論的良性發(fā)展[3]。同時(shí),微博輿情分析涉及數(shù)據(jù)發(fā)掘和信息檢索等技術(shù),具有廣泛的研究?jī)r(jià)值和實(shí)際的應(yīng)用意義,是近年來(lái)的研究熱點(diǎn)[4]。

      本文在爬取微博數(shù)據(jù)后,使用情感傾向點(diǎn)互信息算法(SO-PMI)選取新的情感詞,對(duì)現(xiàn)有情感詞典進(jìn)行補(bǔ)充,并選取常用的表情符號(hào)構(gòu)建了表情符號(hào)詞典,最終基于構(gòu)建的詞典實(shí)現(xiàn)文本情感值的計(jì)算,并使用詞云圖展示關(guān)鍵詞。

      2 相關(guān)工作

      微博輿情的情感分析過(guò)程包括微博語(yǔ)料的爬取、預(yù)處理和情感分析。其中,最關(guān)鍵的過(guò)程為采用合適的方法進(jìn)行情感分析,目前常用的有基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[3]。

      微博文本篇幅較短,情感詞之間的關(guān)聯(lián)性較小,非常適合使用基于詞典的方法進(jìn)行研究。基于情感詞典的分析方法實(shí)現(xiàn)較為簡(jiǎn)單,只需要將預(yù)處理后的文本與詞典進(jìn)行匹配,并采用一定方法計(jì)算情感得分。常用的情感詞典包括中國(guó)知網(wǎng)情感詞典HowNet、大連理工詞典、臺(tái)灣大學(xué)的NTUSD[5]和BosonNLP情感詞典[6]。由于網(wǎng)絡(luò)新詞日新月異,在使用詞典進(jìn)行情感分析時(shí),需要考慮情感詞的擴(kuò)充。在微博中,網(wǎng)民經(jīng)常使用各種表情符號(hào)表達(dá)強(qiáng)烈的情緒,因此在情感分析中需要考慮表情符號(hào)對(duì)情感值的影響。習(xí)海旭等[6]通過(guò)相似度計(jì)算后,構(gòu)建了領(lǐng)域情感擴(kuò)充詞典,實(shí)現(xiàn)了情感的可視化分析。吳勝杰等[7]通過(guò)統(tǒng)計(jì)信息識(shí)別新詞,對(duì)新詞進(jìn)行情感分析,使用改進(jìn)的PMI算法構(gòu)建微博特定領(lǐng)域情感詞典,并選擇常用的表情符號(hào)構(gòu)建表情符號(hào)詞典,實(shí)現(xiàn)了微博文本的情感計(jì)算。管雨翔等[8]使用TF-IDF和TextRank兩種方法提取種子詞,然后采用SO-PMI算法構(gòu)建領(lǐng)域情感詞典,使用實(shí)驗(yàn)驗(yàn)證了構(gòu)建詞典的應(yīng)用效果。林江豪等[9]使用TF-IDF算法選擇種子表情符號(hào),使用SO-PMI算法計(jì)算候選情感詞與種子表情符號(hào)的貢獻(xiàn)值,構(gòu)建情感詞典。李楠等[10]等通過(guò)歸納表情符號(hào)的動(dòng)態(tài)特征,進(jìn)行微博輿情分析。胡湘君[11]在微博綜合計(jì)算過(guò)程中考慮了表情符號(hào)的作用,從而提高了模型的有效性。

      本文對(duì)抓取后的數(shù)據(jù)進(jìn)行清洗、分詞和去停用詞,通過(guò)TF-IDF算法獲得種子情感詞,再使用SO-PMI算法在預(yù)處理后文本中篩選情感新詞,補(bǔ)充到情感詞典中,通過(guò)計(jì)算詞頻選擇常用的表情符號(hào)構(gòu)建表情符號(hào)詞典。通過(guò)情感極性值的計(jì)算和可視化方法,分析網(wǎng)絡(luò)熱點(diǎn)事件中人們的情感。

      3 構(gòu)建詞典

      BosonNLP詞典是基于微博、論壇、新聞等數(shù)據(jù)來(lái)源構(gòu)建,包括很多網(wǎng)絡(luò)用語(yǔ)和非正式的簡(jiǎn)稱(chēng),更適合于微博的情感分析。本文使用BosonNLP詞典作為基礎(chǔ)情感詞典,使用TF-IDF篩選出文本中的種子情感詞,再使用SO-PMI篩選出微博文本中的新情感詞,加入到詞典中,完成情感詞典的擴(kuò)充。本文還構(gòu)建了表情符號(hào)詞典和雙重否定詞詞典,并使用中國(guó)知網(wǎng)的程度副詞詞典和否定詞詞典,完成情感極性的計(jì)算。

      其中,微博情感詞典的構(gòu)建過(guò)程如圖1所示。

      圖1 微博情感詞典構(gòu)建流程圖

      3.1 微博語(yǔ)料的預(yù)處理

      微博語(yǔ)料的預(yù)處理過(guò)程包括數(shù)據(jù)清洗、分詞和去停用詞[12]。其中數(shù)據(jù)清洗包括:

      (1)刪除“【話題名稱(chēng)】”“#話題名稱(chēng)#”、@微博昵稱(chēng);

      (2)刪除網(wǎng)頁(yè)鏈接、視頻、圖畫(huà),各種中英文符號(hào);

      (3)保留表情符號(hào),用于表情符號(hào)詞典的構(gòu)建。

      數(shù)據(jù)清洗結(jié)束后,就可以進(jìn)行分詞,本文選用結(jié)巴分詞作為分詞工具。微博文本中出現(xiàn)大量網(wǎng)絡(luò)新詞的情況,例如“打call”“帶節(jié)奏”等,為確保分詞的正確性,本文補(bǔ)充了搜狗拼音輸入法的“網(wǎng)絡(luò)流行新詞”詞庫(kù)[13],使用jieba.load_userdict()導(dǎo)入自建詞典。

      完成分詞后,使用“哈工大停用詞典”刪除停用詞,將分詞后的結(jié)果保存。

      3.2 構(gòu)建情感詞典

      3.2.1 使用TF-IDF算法選擇種子情感詞

      TF-IDF的全稱(chēng)為T(mén)erm Frequency–Inverse Document Frequency,是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)詞語(yǔ)在文本中的重要性程度[14]。其中TF表示詞語(yǔ)在文本中出現(xiàn)的頻率,IDF表示詞語(yǔ)的逆向文件頻率。計(jì)算公式為:

      其中,nij表示詞語(yǔ)i在文本dj中出現(xiàn)的次數(shù),分母表示文本dj的總詞數(shù)。

      其中,|D|表示所有文本的總數(shù)目,| {j:ti∈dj}|表示出現(xiàn)該詞語(yǔ)的所有文本數(shù)目,為了防止所有文檔中都不含該詞語(yǔ)時(shí)分母為0的情況,所以一般都要加1。

      一個(gè)詞語(yǔ)的TF-IDF計(jì)算公式為:

      對(duì)于預(yù)處理后的微博文本,使用TF-IDF算法篩選出50對(duì)正向情感種子詞和50對(duì)負(fù)向情感種子詞,部分種子詞如表1所示。

      表1 情感種子詞示例

      3.2.2 使用SO-PMI算法篩選新情感詞

      點(diǎn)互信息算法PMI可以計(jì)算語(yǔ)料庫(kù)中詞語(yǔ)之間的相似度,其基本思想是詞語(yǔ)之間共現(xiàn)的頻率越高,說(shuō)明相似性越高,反之,則越低。計(jì)算公式如下所示:

      其中,P(w1,w2)表示兩個(gè)詞語(yǔ)w1和w2共同出現(xiàn)的概率,P(w1)和P(w2)分別表示詞語(yǔ)w1和w2單獨(dú)出現(xiàn)的概率。如果兩個(gè)詞語(yǔ)有很強(qiáng)的相關(guān)性,則共現(xiàn)概率大于單獨(dú)出現(xiàn)的概率,此時(shí)計(jì)算出的PMI值大于0。

      SO-PMI通過(guò)PMI算法計(jì)算詞語(yǔ)的情感傾向,從而能夠選出新的情感詞。選定初始的正向情感種子詞集Wpos和負(fù)向情感種子詞集Wneg,計(jì)算詞語(yǔ)wordi的情感極性公式如下所示:

      計(jì)算結(jié)果大于0時(shí),表示詞語(yǔ)wordi為正向情感詞;反之,表示wordi為負(fù)向情感詞。

      使用SO-PMI算法共篩選出了703個(gè)正向新情感詞和1673個(gè)負(fù)向新情感詞。根據(jù)SO-PMI值將情感詞的情感強(qiáng)度取值分段處理,賦予值為:[1,2,3]和[-3,-2,-1]。部分新情感詞如表2所示。

      表2 新情感詞和情感強(qiáng)度示例

      3.3 構(gòu)建表情符號(hào)詞典

      選擇微博文本中頻率較高的表情符號(hào)構(gòu)建表情符號(hào)詞典。對(duì)預(yù)處理后的微博文本,使用正則表達(dá)式過(guò)濾后只保留表情符號(hào),共計(jì)551個(gè)表情符。對(duì)表情符號(hào)進(jìn)行詞頻統(tǒng)計(jì),篩選出詞頻數(shù)較高的前10%共計(jì)60個(gè)表情,組成表情符號(hào)詞典。表情符號(hào)代表正向情感時(shí),權(quán)重值設(shè)置為1;反之,權(quán)重值設(shè)置為-1。表情符號(hào)詞典如表3所示。

      表3 表情符號(hào)詞典示例

      3.4 構(gòu)建否定詞詞典和雙重否定詞詞典

      否定詞可以改變情感詞的情感極性,而雙重否定不會(huì)改變情感詞的情感極性,但是會(huì)加強(qiáng)情感強(qiáng)度[7]。本文通過(guò)手動(dòng)搜集,構(gòu)建了否定詞詞典和雙重否定詞詞典,其中否定詞共73個(gè),雙重否定詞16個(gè),部分詞如表4所示。

      表4 否定詞詞典和雙重否定詞詞典示例

      3.5 構(gòu)建程度副詞詞典

      程度副詞可以加強(qiáng)情感的表達(dá)強(qiáng)度,因此在情感分析時(shí)需要考慮情感詞前面是否有程度副詞。程度副詞詞典來(lái)源于知網(wǎng)詞典庫(kù)中的“中文程度級(jí)別詞語(yǔ)”,共219個(gè)詞語(yǔ)。這些詞語(yǔ)的情感強(qiáng)度共有6級(jí),在權(quán)重設(shè)置時(shí)根據(jù)不同的級(jí)別從高到低依次設(shè)置為3、2.5、2、1.5、1和0.8,詞典示例如表5所示。

      表5 程度副詞詞典示例

      4 情感極性的計(jì)算

      微博文本的情感極性結(jié)算過(guò)程為:

      輸入:分詞后微博文本D

      輸出:文本的情感值s

      (1)逐條遍歷微博文本,提取其中的情感詞、否定詞、雙重否定詞、程度副詞和表情符號(hào)列表。

      (2)初始化ω=1,s=0。

      (3)遍歷微博文本Di中的全部詞,

      ①如果當(dāng)前詞是情感詞,判斷該情感詞與上一個(gè)情感詞之間:

      如果有否定詞,則w=(-1)n×w,n為否定詞的個(gè)數(shù);

      如果有雙重否定詞,則w=1×w;

      如果有程度副詞,則w=d×w,d為程度副詞對(duì)應(yīng)權(quán)重值。

      ②計(jì)算文本情感值s=s+w*v,其中v為情感詞對(duì)應(yīng)的權(quán)重值。

      ③如果當(dāng)前詞為表情符號(hào),s=s+w*e,其中e為表情符號(hào)的權(quán)重值。

      (4)返回s。

      5 實(shí)驗(yàn)及結(jié)果分析

      本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自新浪微博,使用Python的Scrapy框架,爬取話題#狂飆#的微博文本,時(shí)間跨度為2023年1月14日到2023年2月6日,共計(jì)72965條記錄。對(duì)爬取后的數(shù)據(jù)進(jìn)行預(yù)處理后,基于構(gòu)建的詞典計(jì)算文本情感值,并進(jìn)行可視化分析。

      該劇在愛(ài)奇藝和中央電視臺(tái)首播,播放周期為2023年1月14日至2023年2月2日,該話題下每日博文發(fā)布數(shù)量如圖2所示。從圖2可以看出,每天發(fā)布的微博數(shù)量是螺旋式遞增的,在2月4日時(shí)達(dá)到頂峰,此時(shí)也是該劇播放結(jié)束后兩天。此后每日發(fā)布微博數(shù)量逐漸減少。

      圖2 每日發(fā)布微博數(shù)量圖

      每日平均情感分、每日正向平均情感分和每日負(fù)向平均情感分如圖3所示。從圖中可以看出,每日平均情感分均為正值,每日負(fù)向平均情感分和每日情感平均分波動(dòng)不大,每日正向情感平均分在1月31日達(dá)到頂峰后逐漸回落。

      圖3 平均情感得分圖

      每日正向博文和負(fù)向博文的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)如圖4、圖5、圖6所示。從圖中可以看出,正向博文的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)基本上都大于負(fù)向博文,尤其是1月21日正向博文的點(diǎn)贊數(shù)和評(píng)論數(shù)都遠(yuǎn)遠(yuǎn)高于負(fù)向博文,也高于其他日期。當(dāng)日正好是除夕,網(wǎng)民會(huì)有更多的時(shí)間觀看此劇,并對(duì)此劇進(jìn)行評(píng)價(jià)。

      圖4 每日正向博文和負(fù)向博文點(diǎn)贊數(shù)

      圖5 每日正向博文和負(fù)向博文轉(zhuǎn)發(fā)數(shù)

      圖6 每日正向博文和負(fù)向博文評(píng)論數(shù)

      最后,使用詞云圖對(duì)文本中出現(xiàn)頻率較高的關(guān)鍵詞予以視覺(jué)化展示。在詞云圖中,詞頻越高的詞語(yǔ)字體越大,如圖7所示。通過(guò)圖中我們可以看到,出現(xiàn)較高的關(guān)鍵詞為劇名和劇中演員名字,說(shuō)明網(wǎng)民在討論時(shí)多次提到這些詞語(yǔ)。其他頻率較高的關(guān)鍵詞集中在“真的”“好看”“好”等詞語(yǔ),說(shuō)明網(wǎng)民對(duì)該劇的評(píng)價(jià)很高。

      圖7 關(guān)鍵詞詞云圖

      6 結(jié)語(yǔ)

      本文使用爬蟲(chóng)爬取微博文本,在預(yù)處理后,使用SO-PMI算法在語(yǔ)料中篩選出情感新詞,對(duì)BosonNLP詞典進(jìn)行了擴(kuò)充,并選擇頻率較高的表情符號(hào)構(gòu)建表情符號(hào)詞典。使用構(gòu)建的詞典實(shí)現(xiàn)了情感分析,并使用可視化技術(shù)展現(xiàn)網(wǎng)民對(duì)熱點(diǎn)事件的情感態(tài)度和情感值變化過(guò)程,展現(xiàn)了對(duì)博文中詞頻較高的詞語(yǔ)。但是,分詞的正確性會(huì)影響后續(xù)的情感極性計(jì)算,情感分析本身的主觀性較強(qiáng),會(huì)出現(xiàn)正話反說(shuō)的場(chǎng)景,后續(xù)還需要繼續(xù)研究情感詞典的構(gòu)建過(guò)程。

      猜你喜歡
      表情符號(hào)博文分詞
      微信表情符號(hào)寫(xiě)入判決:你發(fā)的每個(gè)表情都可能成為呈堂證供
      第一次掙錢(qián)
      結(jié)巴分詞在詞云中的應(yīng)用
      誰(shuí)和誰(shuí)好
      值得重視的分詞的特殊用法
      這個(gè)表情符號(hào),你用對(duì)了嗎
      大作文(2016年7期)2016-05-14 11:13:25
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      表情符號(hào)玩上癮 時(shí)尚愛(ài)嘗鮮
      Coco薇(2015年10期)2015-10-19 01:01:58
      打電話2
      高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
      自贡市| 元氏县| 合川市| 雅安市| 桐柏县| 曲阜市| 莱芜市| 台中市| 丹寨县| 辽阳市| 梓潼县| 永年县| 章丘市| 榕江县| 温宿县| 开鲁县| 福安市| 胶南市| 偃师市| 英德市| 乡城县| 宾川县| 伊宁市| 准格尔旗| 固镇县| 兰考县| 昌宁县| 蒙山县| 新津县| 托克逊县| 江华| 静宁县| 昭平县| 九台市| 冀州市| 芒康县| 潜江市| 宝清县| 青铜峡市| 汶川县| 兰西县|