• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典構(gòu)建研究*

      2020-10-23 02:09:20李長榮紀(jì)雪梅
      數(shù)字圖書館論壇 2020年9期
      關(guān)鍵詞:極性語料詞典

      李長榮 紀(jì)雪梅

      (山東理工大學(xué)科技信息研究所,淄博 255049)

      《國家突發(fā)公共事件總體應(yīng)急預(yù)案》對突發(fā)公共事件進(jìn)行了說明,指出突發(fā)公共事件是突然發(fā)生,造成或者可能造成重大人員傷亡、財產(chǎn)損失、生態(tài)環(huán)境破壞和嚴(yán)重社會危害,危及公共安全的緊急事件。突發(fā)公共事件發(fā)生后,公眾會通過社交媒體、論壇等網(wǎng)絡(luò)平臺發(fā)布事件相關(guān)的帖子、評論等輿論文本。這些文本不僅包含了事件相關(guān)的話題信息,同時也包含了人們對于人物、事件、不同觀點等對象的情感傾向性,如喜愛、贊揚、憤怒和批評等?;谕话l(fā)公共事件輿論文本的公眾情感識別能夠?qū)ν话l(fā)公共事件下公眾情緒的類型、正負(fù)面極性和強(qiáng)度進(jìn)行自動分析,挖掘公眾對突發(fā)公共事件的態(tài)度和情感傾向,有助于輿論走向的把握、情感的引導(dǎo)以及對事件的回應(yīng)。

      目前,文本情感分析的方法主要包括基于情感詞典的情感分析方法、有監(jiān)督的機(jī)器學(xué)習(xí)方法和弱監(jiān)督的深度學(xué)習(xí)方法等。其中,基于情感詞典的情感分析方法能夠?qū)娗楦斜磉_(dá)的方式、用詞、情緒的細(xì)分類型等進(jìn)行準(zhǔn)確分析。情感詞典作為一種重要的情感資源,在詞語、短語、句子及篇章等不同文本粒度的情感分析任務(wù)中起著重要的作用[1]。情感詞典是進(jìn)行公眾情感自動分析的基礎(chǔ),在情感詞典的基礎(chǔ)上可提高文本分詞的準(zhǔn)確性;通過情感詞典也可對公眾使用的情感詞進(jìn)行識別,并進(jìn)一步通過上下文語境進(jìn)行情感類型和強(qiáng)度的計算。目前常用的情感詞典多為通用情感詞典,在對突發(fā)公共事件進(jìn)行網(wǎng)絡(luò)輿情分析時專用性不足,并且隨著新的情感表達(dá)方式和情感詞的不斷出現(xiàn),構(gòu)建領(lǐng)域情感詞典將可以大幅提高網(wǎng)絡(luò)輿情情感分析的準(zhǔn)確性。本文利用大規(guī)模突發(fā)公共事件輿論文本,結(jié)合通用情感詞典和深度學(xué)習(xí)方法對領(lǐng)域情感詞及情感詞的類型和強(qiáng)度進(jìn)行識別,旨在構(gòu)建一個面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典。

      1 研究綜述

      目前,常用的開放中文情感詞典主要有HowNet情感分析用詞語集[2]、臺灣大學(xué)自然語言處理實驗室構(gòu)建的情感詞典NTUSD[3]和大連理工大學(xué)信息檢索研究室發(fā)布的情感詞匯本體庫[4]。這些情感詞典通用性較好,但其領(lǐng)域適應(yīng)性較差。目前,情感分析主要應(yīng)用于產(chǎn)品評論分析和突發(fā)公共事件網(wǎng)絡(luò)輿情分析兩個領(lǐng)域。有學(xué)者構(gòu)建了不同商品領(lǐng)域的情感詞典,如鄧淑卿等[5]基于句法依賴規(guī)則和詞性特征的情感詞識別模型構(gòu)建手機(jī)領(lǐng)域情感詞典;蔣翠清等[6]使用AMVR投票集成規(guī)則構(gòu)建汽車領(lǐng)域情感詞典;郭順利等[7]基于改進(jìn)的SOPMI算法構(gòu)建中文圖書評論情感詞典??偨Y(jié)目前相關(guān)研究,領(lǐng)域情感詞典的構(gòu)建方法主要有兩種,即基于語料庫的方法和基于語義知識庫的方法。

      1.1 基于語料庫的方法

      基于語料庫的方法,主要是根據(jù)語料中詞語之間的共現(xiàn)信息、上下文信息來計算詞語的情感極性。Hatzivassiloglou等[8]最先提出了利用句法連接來識別情感詞并判斷其極性,通過大量實驗數(shù)據(jù)證明了連詞前后詞的極性關(guān)系。Turney等[9]基于一個詞與其鄰近詞的情感趨于一致的思想,采用逐點互信息(PMI)和潛在語義分析(LSA)來估計關(guān)聯(lián)程度,通過與正面或負(fù)面種子詞的統(tǒng)計關(guān)聯(lián)來識別詞語極性。Gamon等[10]擴(kuò)展了Turney的方法,增加了一個假設(shè),即情緒相反的情感詞往往不會在句子層面共同出現(xiàn)。Huang等[11]利用連詞判斷單詞間的極性關(guān)系,并結(jié)合單詞形態(tài)上的否定形式,構(gòu)建情感極性約束矩陣,再利用逐點互信息,判斷單詞的情感極性。楊春明等[12]使用逐點互信息來反映詞語間的相關(guān)關(guān)系,并用非負(fù)矩陣分解(NMF)的方法來構(gòu)建語料中情感詞語之間、情感詞語與評價對象之間的關(guān)系矩陣,然后利用此關(guān)系矩陣結(jié)合詞語的語義、語素關(guān)系構(gòu)建圖模型來構(gòu)造情感詞典。鐘敏娟等[13]首先利用關(guān)聯(lián)規(guī)則挖掘算法抽取與識別體現(xiàn)領(lǐng)域特征的情感詞,然后基于PageRank模型和混合相關(guān)關(guān)系判別情感詞極性。

      目前,使用深度學(xué)習(xí)的方法構(gòu)建情感詞典已經(jīng)成為一種趨勢。楊小平等[14]利用Word2Vec工具從大規(guī)模中文語料中提取詞向量,研究情感類別劃分并選取種子詞,基于轉(zhuǎn)換約束集得到候選詞的情感極性和情感強(qiáng)度,得到多維漢語情感詞典SentiRuc。王仁武等[15]結(jié)合Word2Vec詞向量技術(shù)構(gòu)建產(chǎn)品特征詞和情感詞詞庫,進(jìn)一步構(gòu)造情感概念對情感評分,并將其用于分析品牌產(chǎn)品特定特征的用戶情感。胡家珩等[16]利用詞向量方法將文本信息映射到向量空間,借助已有的通用情感詞典,自動標(biāo)引訓(xùn)練語料,使用Python構(gòu)建深度神經(jīng)網(wǎng)絡(luò)分類器,判斷特定領(lǐng)域候選情感詞的情感極性,構(gòu)建情感詞典。

      1.2 基于語義知識庫的方法

      基于語義知識庫的方法,是指在已有專家標(biāo)注詞典的基礎(chǔ)上,利用詞語之間的詞義聯(lián)系(如同義詞、反義詞等)來計算詞語的情感極性。Kamps等[17]假設(shè)同義詞具有相同的極性,并將同義詞庫提供的同義詞連接起來構(gòu)建詞匯網(wǎng)絡(luò),詞語極性通過網(wǎng)絡(luò)中與種子詞(“好”和“壞”)的距離來確定。Hu等[18]擴(kuò)展了Kamps的方法,利用WordNet詞典構(gòu)建情感詞典,不僅使用了同義詞關(guān)系,而且考慮了反義詞的作用。Liu等[19]基于Open Mind Commonsense數(shù)據(jù)庫識別基本情感,并將其分為高興、悲傷、憤怒、恐懼、厭惡和驚奇6個基本類別。Lu等[20]利用同義詞詞林和雙語詞典構(gòu)建詞匯圖,然后使用半監(jiān)督圖模型從種子詞中得到更多的正面及負(fù)面情感詞。周詠梅等[21]提出基于HowNet和SentiWordNet的情感詞典構(gòu)建方法,將中文詞語進(jìn)行義元分解得到對應(yīng)的英文義元,再通過SentiWordNet計算義元的情感傾向值,分別得到中文詞語的正面、負(fù)面情感傾向值。衣麗霞等[22]將Hu的方法進(jìn)行了改進(jìn),基于詞典WordNet3.0,提出POAE算法自動擴(kuò)展極性副詞,除了同義關(guān)系和反義關(guān)系,還使用了WordNet詞典中的近義關(guān)系和又見關(guān)系。

      作為情感分析的重要工具之一,情感詞典目前在網(wǎng)絡(luò)文本情感分析中得到較好應(yīng)用,但在突發(fā)公共事件的情感分析中,該方法還處于探索階段。同時,有些情感詞在不同領(lǐng)域具有不同的情感傾向,甚至在同一領(lǐng)域,當(dāng)修飾不同產(chǎn)品特征時也具有不同的情感傾向[23]。因此,構(gòu)建面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典,并將其運用于網(wǎng)絡(luò)輿情分析中,有助于提升突發(fā)公共事件網(wǎng)絡(luò)輿情的監(jiān)督和應(yīng)對能力。

      2 研究設(shè)計與流程

      本文設(shè)計的領(lǐng)域情感詞典構(gòu)建流程主要分為四步。第一步,構(gòu)建突發(fā)公共事件網(wǎng)絡(luò)輿論語料庫。語料庫包括突發(fā)公共事件的微博評論語料和新聞評論語料。第二步,構(gòu)建自定義基礎(chǔ)詞典。詞典主要包括現(xiàn)有基礎(chǔ)情感詞典、網(wǎng)絡(luò)流行詞、領(lǐng)域詞等。同時,結(jié)合自定義基礎(chǔ)詞典對語料庫中的數(shù)據(jù)進(jìn)行預(yù)處理,主要包括分詞和詞性標(biāo)注。第三步,構(gòu)建情感種子詞典?;诂F(xiàn)有基礎(chǔ)情感詞典,對突發(fā)公共事件網(wǎng)絡(luò)輿論語料中的數(shù)據(jù)進(jìn)行情感詞匹配,并對相關(guān)情感詞進(jìn)行修正,形成情感種子詞典WordSet1。第四步,情感詞擴(kuò)充及領(lǐng)域情感詞典的構(gòu)建。基于Word2Vec模型和余弦相似度算法,對種子情感詞典WordSet1進(jìn)行近義詞擴(kuò)充,并對新詞進(jìn)行情感類型和強(qiáng)度標(biāo)注,形成最終的領(lǐng)域情感詞典WordSet。

      2.1 突發(fā)公共事件網(wǎng)絡(luò)輿論語料庫的構(gòu)建

      人民網(wǎng)輿情監(jiān)測室發(fā)布的《2015年互聯(lián)網(wǎng)輿情報告》指出“兩微一端”(微博、微信、移動客戶端)成為很多中國人了解新聞時事的第一信息源[24]。由于微信朋友圈數(shù)據(jù)私密性較強(qiáng),難以采集,本文主要采集新浪微博評論數(shù)據(jù)和移動客戶端新聞評論數(shù)據(jù),作為情感詞識別和匹配的語料來源。首先,根據(jù)國務(wù)院制定的《國家突發(fā)公共事件總體應(yīng)急預(yù)案》中對突發(fā)公共事件的分類,將突發(fā)公共事件分為自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生和社會安全四類[25]。然后,基于2011—2017年《中國社會輿情與危機(jī)管理報告》,為每種類型的突發(fā)公共事件選取相應(yīng)檢索詞,見表1。

      表1 四類突發(fā)公共事件檢索詞選取

      如表1所示,自然災(zāi)害事件選取的檢索詞有洪災(zāi)、臺風(fēng)登陸、地震等;事故災(zāi)害事件選取的檢索詞有煤礦爆炸、沉船事故、公交車事故等;公共衛(wèi)生事件選取的檢索詞有傳染病、問題疫苗、毒奶粉等;社會安全事件選取的檢索詞有暴恐、虐童、逃稅等。

      一方面,以新浪微博為采集平臺,以四類突發(fā)公共事件的檢索詞作為關(guān)鍵詞對原創(chuàng)微博進(jìn)行檢索,爬取每種類型突發(fā)公共事件的原創(chuàng)微博信息,經(jīng)校對篩選后,得到突發(fā)公共事件相關(guān)聯(lián)的原創(chuàng)微博共計42 020條;然后對微博評論進(jìn)行采集,采集時間為2020年1月29日—2月10日。對含有網(wǎng)址鏈接、無效評論等影響情感分析的內(nèi)容進(jìn)行刪除后,微博評論語料庫共包含841 128條微博評論數(shù)據(jù)。另一方面,以四類突發(fā)公共事件的檢索詞作為關(guān)鍵詞,對來自搜狐新聞、網(wǎng)易新聞、騰訊新聞、百度新聞、鳳凰新聞五家知名移動新聞客戶端的新聞數(shù)據(jù)進(jìn)行檢索和采集,經(jīng)校對后共采集突發(fā)公共事件相關(guān)新聞86 571條;然后對新聞評論進(jìn)行采集,共采集新聞評論838 016條,采集時間為2020年2月5—16日。剔除重復(fù)評論、網(wǎng)址鏈接等,新聞評論語料庫共包含704 155條新聞評論數(shù)據(jù)。

      2.2 自定義基礎(chǔ)詞典的構(gòu)建及語料庫預(yù)處理

      為了提高對語料庫文本進(jìn)行分詞處理的準(zhǔn)確性,且能結(jié)合突發(fā)公共事件輿論語料構(gòu)建情感種子詞,本文首先構(gòu)建一個囊括基礎(chǔ)情感詞典、突發(fā)公共事件領(lǐng)域詞典、網(wǎng)絡(luò)新詞和流行詞典的自定義基礎(chǔ)詞典。其中,基礎(chǔ)情感詞典選擇大連理工大學(xué)情感詞匯本體庫中的27 466個情感詞,該詞典將情感分為7大類21小類,情感強(qiáng)度分為1、3、5、7、9五檔(9表示強(qiáng)度最大),能夠滿足深入分析情感類型的需求。

      突發(fā)公共事件領(lǐng)域詞、網(wǎng)絡(luò)流行詞和網(wǎng)絡(luò)新詞通過搜狗輸入法細(xì)胞詞庫進(jìn)行選取。搜狗輸入法的新詞詞典和領(lǐng)域詞典涵蓋了自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生、社會安全方面的術(shù)語用詞。通過對搜狗輸入法細(xì)胞詞庫進(jìn)行格式處理,將scel格式轉(zhuǎn)化為txt后,選取其中的氣象災(zāi)害詞庫、公安詞庫、環(huán)保詞庫、交通事故處理詞庫、傳染病詞庫等,形成領(lǐng)域詞典。接著,將搜狗輸入法細(xì)胞詞庫中的《網(wǎng)絡(luò)流行語》和《網(wǎng)絡(luò)流行新詞》兩種詞庫導(dǎo)入自定義詞典,形成網(wǎng)絡(luò)新詞和流行詞典。

      為了提高情感詞典構(gòu)建的準(zhǔn)確度,需要對網(wǎng)絡(luò)輿論語料進(jìn)行預(yù)處理。中國科學(xué)院計算技術(shù)研究所開發(fā)的NLPIR分詞工具能夠從較長的文本內(nèi)容中,基于信息交叉熵自動發(fā)現(xiàn)新特征語言,并自適應(yīng)測試語料的語言概率分布模型,實現(xiàn)自適應(yīng)分詞,功能強(qiáng)大[26]。因此,將構(gòu)建好的自定義基礎(chǔ)詞典導(dǎo)入NLPIR分詞工具中,對語料庫進(jìn)行分詞處理,并標(biāo)注詞性。

      2.3 情感種子詞典的構(gòu)建

      首先,結(jié)合網(wǎng)絡(luò)輿論語料庫對基礎(chǔ)情感詞典中的情感詞進(jìn)行識別與修正。網(wǎng)絡(luò)輿論語料經(jīng)過上述預(yù)處理后,共識別出91 656個詞語。將識別出的詞語與基礎(chǔ)情感詞典中的情感詞相匹配,共匹配到9 837個情感詞,出現(xiàn)在300 723條輿論文本中。

      利用基礎(chǔ)情感詞典,即大連理工大學(xué)情感詞匯本體庫,對現(xiàn)有的9 837個情感詞進(jìn)行情感分類和強(qiáng)度標(biāo)注。情感詞的屬性主要有4個:情感分類、詞性、強(qiáng)度、極性。在突發(fā)公共事件網(wǎng)絡(luò)輿論語料庫中,有些詞語的情感分類與大連理工大學(xué)情感詞匯本體庫并不相同,如“呵呵”在大連理工大學(xué)情感詞匯本體庫中被劃分為褒義詞匯,但是它在大部分輿論文本中表示貶義,如“偷工減料、短斤少兩、以次充好,呵呵,奸商不管干哪個行業(yè)都是同樣的套路”“呵呵,這種毒瘤難道不應(yīng)該被槍斃嗎”。因此,還需結(jié)合輿論文本的語境,對上述情感詞的情感分類和極性進(jìn)行人工修正。人工修正方面,將每個情感詞所在的輿論文本隨機(jī)分配給2位不同的標(biāo)注者,當(dāng)標(biāo)注結(jié)果相同時,將標(biāo)注結(jié)果保存到數(shù)據(jù)庫中;當(dāng)標(biāo)注結(jié)果不同時,把輿論文本分配給第3位標(biāo)注者,然后選擇多數(shù)一致的標(biāo)注結(jié)果。表2列出了情感詞“驕傲”的情感分類與極性進(jìn)行人工修正的詳細(xì)過程。

      表2 情感分類與極性的人工修正示例

      大連理工大學(xué)情感詞匯本體庫中將情感強(qiáng)度分為1、3、5、7、9五檔,將情感極性分為0、1、2,其中0代表中性,1代表褒義,2代表貶義,使用該詞典進(jìn)行情感分析時,過程較為復(fù)雜。因此,為便于進(jìn)一步進(jìn)行文本情感值計算,本文將通過情感詞匯本體庫標(biāo)注的情感詞的強(qiáng)度與極性相結(jié)合,將極性標(biāo)注為2的情感詞的情感強(qiáng)度用負(fù)數(shù)表示,將極性標(biāo)注為1的情感詞的情感強(qiáng)度用正數(shù)表示,對于極性標(biāo)注為0的情感詞,則結(jié)合情感詞所在語境人工修正劃分了詞語的褒貶傾向,故不再有中性詞?;诖耍疚臉?gòu)建的詞語情感強(qiáng)度共劃分為十檔,即情感極性強(qiáng)度集S={-9,-7,-5,-3,-1,1,3,5,7,9},分別是貶義(高、中、低)、褒義(低、中、高),數(shù)值的絕對值表示強(qiáng)度級別。在進(jìn)行情感強(qiáng)度判斷時,有些詞語包含兩種情感傾向,為更加準(zhǔn)確地進(jìn)行情感分析,選取情感強(qiáng)度大的情感傾向作為主要情感。如“堅守”包含“尊敬”和“贊揚”兩種情感,所以分別在兩個情感的相應(yīng)分量上用5和7表示。對于“堅守”來說,在“尊敬”上的等級為5,在“贊揚”上的等級為7,表明主要情感是贊揚,其情感強(qiáng)度為7。

      利用以上規(guī)則,經(jīng)過修正,將最終得到的情感詞集定義為情感種子詞典WordSet1。最終得到情感種子詞7 697個。每一個情感種子詞都由以下三元組進(jìn)行表示,即WordEmo(Wi)= [Ci,Ni,Si]。

      其中,Wi為情感種子詞;Ci為所屬情感類別,該類別參照大連理工大學(xué)情感詞匯本體庫將情感分為樂(PA、PE)、好(PD、PH、PG、PB、PK)、怒(NA)、哀(NB、BJ、NH、PF)、懼(NI、NC、NG)、惡(NE、ND、NN、NK、NL)、驚(PC)7大類21小類;Ni為情感詞詞性,即名詞(noun)、動詞(verb)、形容詞(adj)、副詞(adv)、網(wǎng)絡(luò)詞語(nw)、成語(idiom)、介詞短語(prep);Si為情感強(qiáng)度,即Si= {-9,-7,-5,-3,-1,1,3,5,7,9}。表3列出部分情感種子詞及其極性強(qiáng)度編碼。

      表3 部分情感種子詞及其極性強(qiáng)度

      2.4 領(lǐng)域情感詞擴(kuò)展

      為了豐富情感詞典,解決數(shù)據(jù)稀疏問題,采用Word2Vec進(jìn)行情感詞擴(kuò)展。Word2Vec是Google在2013年推出的一款用于訓(xùn)練詞向量的工具,其原理是基于深度學(xué)習(xí)算法,通過訓(xùn)練,可以把對文本內(nèi)容的處理轉(zhuǎn)換為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度[27]。

      本文采用Python的gensim模塊提供的Word2Vec工具包進(jìn)行訓(xùn)練[28]。訓(xùn)練過程中,本文采用CBOW模型將處理后的輿論語料構(gòu)建詞向量,詞向量維度size設(shè)定為100,詞語近鄰窗口window設(shè)定為5,采用Hierarchical Softmax算法,即hs設(shè)定為1,計算詞向量的最小詞頻min_count為3。Word2vec計算的是余弦值,距離范圍為0~1,值越大代表兩個詞關(guān)聯(lián)度越高,其計算過程如公式(1)所示。

      其中,w1,w2分別表示兩個詞或詞組,利用Word2Vec將詞映射成n維向量,n表示維度數(shù),w1i與w2i分別表示第i個維度上的取值。

      新增情感詞的極性強(qiáng)度的判斷主要是通過計算候選詞與基準(zhǔn)詞語的語義相似度來確定,上文中已得出候選詞與基準(zhǔn)詞語之間的余弦距離,其夾角余弦值越大,候選詞是新情感詞的概率就越大。新增情感詞極性強(qiáng)度的確定,如公式(2)所示。

      其中,word表示新增情感詞,setj表示第j類情感的種子詞集合,setp表示第j類情感種子詞集合setj中的第p個情感詞,Nj(1≤j≤21)表示第j類情感種子詞集setj中種子詞的數(shù)量。然后按照SentiScore值進(jìn)行排序,新情感詞類型及其極性強(qiáng)度的確定取決于其最大SentiScore值基準(zhǔn)詞語的極性強(qiáng)度。

      構(gòu)建面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典的步驟:①應(yīng)用初始構(gòu)建的情感種子詞典WordSet1中的情感詞作為基準(zhǔn)詞語得到詞語W的向量表示,并將其存入vector.bin文件中;②如果能在情感基準(zhǔn)詞典WordSet1中找到詞語W,則可直接跳入步驟⑤,標(biāo)注W的情感極性強(qiáng)度,否則,跳入步驟③;③在Word2Vec中執(zhí)行“./distance vector.bin”,在突發(fā)公共事件輿論語料庫中查找與詞語W最接近的10個詞作為候選詞,其閾值設(shè)定為0.7,相似度大于0.7的候選詞作為新情感詞;④用公式(2)計算新情感詞的極性強(qiáng)度;⑤將W存入面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典中。

      最終共識別出未在情感詞匯本體庫中收錄的新增情感詞2 604個。本文的情感詞典共分為7大類、21小類,情感強(qiáng)度Si={-9,-7,-5,-3,-1,1,3,5,7,9},含有情感詞共計10 301個。其各情感類別中包含的情感詞個數(shù)及代表性詞語,見表4。

      如表4所示,一些人類的基本情感,如快樂、喜愛、悲傷、煩悶、憎惡,是包含情感詞較多的幾種情感。另外,在本文構(gòu)建的情感詞典中,贊揚、貶責(zé)包含的情感詞最多,說明面對突發(fā)公共事件,民眾在宣泄內(nèi)心不滿的同時也會傳播正能量。對于構(gòu)建出的情感詞典,本文采用改進(jìn)的TF-IDF方法對各類突發(fā)公共事件中出現(xiàn)權(quán)重較高的情感特征詞進(jìn)行統(tǒng)計,其計算過程如公式(3)、公式(4)所示。

      表4 突發(fā)公共事件輿論7類情感詞舉例

      其中,ni,j表示情感詞i在文檔dj中出現(xiàn)的次數(shù),表示情感詞i在其他文檔中所有詞語的出現(xiàn)次數(shù)之和,|D|表示語料庫中的文檔總數(shù),表示包含詞語ti的文檔數(shù)目,如果該詞語不在語料庫中,就會導(dǎo)致公式?jīng)]有意義,因此一般情況下使用,然后。各類突發(fā)公共事件中TF-IDF值排名前五位的褒義及貶義情感詞見表5。

      表5 各類突發(fā)公共事件情感詞示例

      如表5所示,各類突發(fā)公共事件情感詞具有較強(qiáng)的領(lǐng)域性特點,自然災(zāi)害類事件特有的褒義情感詞有公祭、反腐倡廉、馳援等,貶義情感詞有鋪張浪費、求全責(zé)備、吹毛求疵等;事故災(zāi)害類事件特有的褒義情感詞有告慰、防微杜漸、雷厲風(fēng)行等,貶義情感詞有無序、偷竊、欺瞞等;公共衛(wèi)生事件特有的褒義情感詞有施恩、耿直、治病救人等,貶義情感詞有病毒、做假、變質(zhì)等;社會安全類事件特有的褒義情感詞有無微不至、大吃一驚、生機(jī)等,貶義情感詞有逃稅、窩點、誣告等。

      3 實驗分析

      3.1 測試集的構(gòu)建與標(biāo)注

      為了檢驗本文所構(gòu)建領(lǐng)域情感詞典在識別情感詞方面的效果,本文選擇新冠肺炎疫情事件作為研究案例。新冠肺炎疫情,是新中國成立以來在我國發(fā)生的傳播速度最快、感染范圍最廣、防控難度最大的一次重大突發(fā)公共衛(wèi)生事件[29]。2019年12月31日,武漢市衛(wèi)健委發(fā)布通告稱近期部分醫(yī)療機(jī)構(gòu)發(fā)現(xiàn)接診的多例肺炎病例與華南海鮮市場有關(guān)聯(lián),引發(fā)了較為廣泛的社會關(guān)注。2020年1月20日,鐘南山院士指出“新型冠狀病毒具有傳染性,已經(jīng)出現(xiàn)人傳人現(xiàn)象”,成為微博熱議話題,網(wǎng)民討論熱度不斷升高。2020年1月22日,國務(wù)院新聞辦公室舉行新聞發(fā)布會。1月23日,湖北省人民政府新聞辦公室舉行新聞發(fā)布會,介紹新冠肺炎防控工作的有關(guān)情況,輿情不斷升溫。

      針對新冠肺炎疫情事件,選取新型冠狀病毒、新冠肺炎作為主題詞。爬取的時間段為2020年1月1日—3月31日。此時間段在微博大V的轉(zhuǎn)發(fā)和大量有關(guān)問責(zé)主管部門的輿情推動下,網(wǎng)民討論、轉(zhuǎn)發(fā)活躍度極高。采集以上時間段期間與該事件相關(guān)的熱門微博及其評論微博,共計72 497條,形成測試語料庫。

      經(jīng)過預(yù)處理和數(shù)據(jù)清洗后,隨機(jī)選取其中的5 000條文本進(jìn)行實驗。本文采用三人獨立標(biāo)注法,識別文本中的情感詞,為使標(biāo)注結(jié)果有效,只有當(dāng)3個人的標(biāo)注結(jié)果一致時才將標(biāo)注結(jié)果輸出。通過人工標(biāo)注,在給定語料的5 000條文本中,共有詞元13 211個,其中標(biāo)注為情感詞的有2 080個。詞典判定方面,利用上文中提及的HowNet情感分析用詞語集、臺灣大學(xué)自然語言處理實驗室構(gòu)建的NTUSD詞典、大連理工大學(xué)信息檢索研究室的情感詞匯本體庫3個通用詞典和本文2.4節(jié)得到的情感詞典,對5 000條文本的情感詞進(jìn)行情感標(biāo)注。

      3.2 實驗指標(biāo)

      為驗證本文所構(gòu)建的情感詞典的有效性,需采用合適的指標(biāo)對詞典進(jìn)行評價。情感分析中常用的評價指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-measure)[30]。準(zhǔn)確率(P)計算過程如公式(5)所示,召回率(R)計算過程如公式(6)所示,F(xiàn)1值計算過程如公式(7)所示。

      其中,公式(5)中n1表示正確判斷出情感極性的詞語數(shù),即被詞典和人工標(biāo)注一致的詞語數(shù),n2表示被詞典識別出情感極性的詞語數(shù);公式(6)中n3表示輿論文本中識別出情感極性的詞語數(shù)。將實驗結(jié)果分別帶入上式,即可計算出準(zhǔn)確率(P)、召回率(R)和F1值。

      3.3 實驗結(jié)果

      采用準(zhǔn)確率(P)、召回率(R)、F1值3個評估指標(biāo)評估采用本文構(gòu)建的情感詞典的性能,經(jīng)計算結(jié)果見表6。只有當(dāng)采用本文構(gòu)建的面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典在準(zhǔn)確率(P)與召回率(R)的得分上優(yōu)于上文中提及的HowNet情感分析用詞語集、臺灣大學(xué)自然語言處理實驗室構(gòu)建的NTUSD、大連理工大學(xué)信息檢索研究室的情感詞匯本體庫時,方可認(rèn)為該情感詞典符合突發(fā)公共事件網(wǎng)絡(luò)輿情分析的要求。

      表6 各詞典情感分類效果性能評估

      從表6可以看出,本文構(gòu)建的情感詞典進(jìn)行情感判別的準(zhǔn)確率為0.85,召回率為0.90,F(xiàn)1值為0.87。在突發(fā)公共事件輿論文本的情感識別中,本文構(gòu)建的情感詞典的表現(xiàn)要優(yōu)于3個通用詞典。所以,總體看來,本文中提出的領(lǐng)域情感詞典構(gòu)建方法具有較高的準(zhǔn)確性和可利用性。

      4 結(jié)語

      本文提出了一種面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典構(gòu)建方法,該方法充分利用語料庫和語義知識庫的優(yōu)點,在大規(guī)模網(wǎng)絡(luò)輿論語料的基礎(chǔ)上結(jié)合現(xiàn)有情感詞典進(jìn)行種子詞提取,通過深度學(xué)習(xí)中的Word2Vec模型訓(xùn)練詞向量,進(jìn)行情感詞的擴(kuò)展,并根據(jù)語義相似度計算獲得候選情感詞,從而生成領(lǐng)域情感詞典。通過準(zhǔn)確率和召回率驗證,本文提出的構(gòu)建方法具有較好的準(zhǔn)確性和可靠性。這種情感詞典的構(gòu)建方法同樣也可以推廣應(yīng)用于其他領(lǐng)域情感詞典的構(gòu)建。

      不過,本研究還存在一定的不足。為了保證所構(gòu)建情感詞典的準(zhǔn)確性,本研究在種子詞構(gòu)建、情感詞擴(kuò)展和新增情感詞強(qiáng)度判斷過程中都加入了人工判別,由于文本情感表達(dá)的不確定性,人工判斷文本情感也難免會有偏差,未來可結(jié)合多種語境和專家判別進(jìn)行情感詞類型和強(qiáng)度的修正。此外,用戶評論中的表情符號也影響情感類別的判定,未來的研究可結(jié)合表情符號進(jìn)行情感類型的判定。突發(fā)公共事件類型多樣,不同的事件會有不同的情感表達(dá)特征,后續(xù)研究需要進(jìn)一步考慮特定事件情感表達(dá)特征的識別。

      猜你喜歡
      極性語料詞典
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      跟蹤導(dǎo)練(四)
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      表用無極性RS485應(yīng)用技術(shù)探討
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      一種新型的雙極性脈沖電流源
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      仙游县| 乌海市| 内江市| 寿阳县| 晋宁县| 乌海市| 浦江县| 黄浦区| 信丰县| 凌云县| 新晃| 剑阁县| 安宁市| 阳信县| 萨嘎县| 荃湾区| 黔南| 白河县| 沙湾县| 合作市| 江达县| 江永县| 郁南县| 英吉沙县| 海晏县| 甘洛县| 洪湖市| 开封市| 长乐市| 南投县| 梁河县| 文山县| 老河口市| 邵阳县| 东平县| 无锡市| 姚安县| 枣庄市| 嵩明县| 广南县| 香格里拉县|