余安安,吳雪菲,李棟,任雍,劉光普
(1.福建省災害天氣重點實驗室,福州 350008;2.福建省大氣探測技術保障中心,福州 350008)
隨著互聯(lián)網(wǎng)的發(fā)展,微博已成為國內民眾交流信息和表達情緒的平臺,為了挖掘大眾對氣象的真實需求、動態(tài)評估及把握大眾的氣象感知,如何結合實際問題將社交媒體數(shù)據(jù)與氣象工作進行融合分析成為國內外學者研究的熱點與難點。氣象微博情感分析是建立在具體氣象情境下的社會計算應用,已應用在臺風災情評估、霧霾輿情分析和氣候舒適度評價等多方面研究,有助于推動災害研究與預防、輿情控制、環(huán)境保護等氣象工作的開展。
從自然語言處理的角度出發(fā),氣象微博情感分析是指對文本的情感傾向進行分類,目前的研究主要集中在粗粒度分類上,即采取二元(正向和負向)或三元(正向、負向、中性)的分類方法對情感進行分析。如Meng等[1]提出了將多種機器學習模型用于龍卷風、颶風、洪水、暴雪等天氣現(xiàn)象相關數(shù)據(jù)的正負向公眾情緒分析。Yz等[2]和陳齊超等[3]分別使用知網(wǎng)情感詞典和BosonNLP情感詞典對關于臺風“利馬奇”及“米克拉”的積極與消極情感進行分析。徐曉涵等[4]使用情感詞匯本體庫分析霧霾下的正負面情感。劉麗華等通過[5]SnowNLP平臺對鹽城623龍卷風冰雹輿情的正負向情感進行分析。張巖等[6]利用樸素貝葉斯情感分類方法分析臺風“山竹”發(fā)生時微博用戶的積極與消極情緒。張峰等[7]利用基于中文語料的ANN方法對干旱區(qū)景區(qū)氣候條件的感知進行分析。但是情感是一種復雜的態(tài)度體驗,不僅類型多樣,還可能同時存在多種類型,僅從二元或三元的角度分析大眾對氣象的情感過于籠統(tǒng),進一步細化情感為喜、怒、憂等更貼近生活中真實的情緒類別是必然且必須的。近年來,細粒度情感分析常用的手段主要有兩種,即機器學習法和語義詞典法?;跈C器學習的情感分析是通過訓練數(shù)據(jù)構建算法模型實現(xiàn)的,如Mondher等[8]建立隨機森林分類器將Twitter數(shù)據(jù)分成7種情感。Mari等[9]使用CNN-EISC模型將Twitter用戶情感分為4類。Jabreel等[10]建立了基于深度學習的二元轉換系統(tǒng)對11種情感類型進行分析。趙曉芳等[11]通過深度學習模型分別計算文本與繪文字(Emoji)表情的7種情感強度,實現(xiàn)對微博語句的7種情感強度檢測。王儒等[12]試驗了深度學習的8種模型在細分8類情感中的效果,并加入詞向量對模型進行了優(yōu)化。然而訓練文本選擇的不穩(wěn)定性以及情感標注的主觀性會對分析結果造成很大影響,機器學習法在缺乏情感標注的氣象領域存在一定局限性。語義詞典法則是通過構建情感詞典進行分析[13]。語義詞典法因其泛用性較強受到了許多研究者的青睞。馬海等[14]結合詞典及轉折詞、主張詞的判別將“紅黃藍幼兒園事件”中的情感分成14類。Schoene等[15]基于普魯契克情感色輪詞典和LDA模型將社交媒體情感分為8類。敦欣卉等[16]在DUTIR的基礎上構建疑問詞詞表及表情符號詞典,對8類情感進行分析并計算其強度。Loureiro等[17]和Drown[18]均依托加拿大研究中心構建的EmoLex詞匯表分別分析了英國及西班牙公眾關于氣候變化的8種情緒和活躍用戶關于全球氣候變暖的4種情緒。細粒度情感分析技術得到了一定程度的發(fā)展,但在氣象領域的研究與應用還相對較少。
福建是降雨大省,中國暴雨高頻區(qū)之一,全省平均年降水量為1 092.2~2 050.3 mm[19],分析福建居民對降雨的情感有助于氣象部門描述、分析甚至預測降雨對人們認知、人際關系、群體思維等產(chǎn)生的立體效應[20],從而使氣象服務更加精細,進一步促進人地和諧發(fā)展。因此,本研究在社會計算的指導下,嘗試借助DUTIR通用性強的優(yōu)勢對“福建降雨”的相關微博數(shù)據(jù)進行細粒度情感分析,結合關鍵詞挖掘技術進一步研究福建地區(qū)居民關于天氣及氣候方面的情感,使得分析結果更為具體、有針對性,為大數(shù)據(jù)背景下氣象工作提供參考[21]。
圖1 情感分析流程Figure 1 Sentiment analysis flowchart
本研究利用福建地區(qū)用戶發(fā)布的關于降雨的微博數(shù)據(jù),將用戶的情感傾向分為“樂、好、怒、哀、懼、惡、驚”7類,并得到每類情感的情感傾向度。情感分析流程如圖1所示。首先,通過網(wǎng)絡爬蟲采集原始數(shù)據(jù)。接著進行去噪等預處理,利用DUTIR對其進行細粒度情感分析。同時對預處理后的數(shù)據(jù)進行人工標注,利用精確率、召回率以及綜合評價指標對分析結果進行評估。此外,為了更深入地分析,利用關鍵詞挖掘技術TF-IDF(term frequency-inverse document 53)法對分詞后的結果進行統(tǒng)計,從而得知用戶關心內容和影響用戶情感的因素。
1.2.1數(shù)據(jù)采集與處理
選取微博范圍。由于時間久遠微博刪除等原因,2017年之前關于福建地區(qū)降雨的微博數(shù)據(jù)量很小,客觀性較弱,因此本研究時間段選為2017年1月1日至2021年4月15日,數(shù)據(jù)語言為中文,數(shù)據(jù)內容包括:1)關鍵詞為“降雨”、“下雨”或“雨”+“福建”或“福建九市名稱”;2)關鍵詞為“降雨”、“下雨”或“雨”且定位為福建省內區(qū)域。
采集原始數(shù)據(jù)。利用爬蟲技術,獲取微博字段包括用戶名、微博文本信息、轉發(fā)數(shù)量、評論數(shù)量和點贊數(shù)量。
處理原始數(shù)據(jù)。由于本研究是嘗試通過居民的微博描述來研究,故數(shù)據(jù)清洗時刪除了政府、企業(yè)、媒體等干擾數(shù)據(jù),也剔除了與研究無關的數(shù)據(jù)和重復數(shù)據(jù)。
1.2.2 大連理工大學中文情感詞匯本體庫
中文情感詞匯本體庫把情感分為7大類(樂、好、怒、哀、懼、惡、驚),21小類。
1.2.3 細粒度情感分析
本研究將處理后的每條微博看成獨立語句,進行分詞后,依據(jù)中文情感詞匯本體庫,利用公示(1)可以計算出每類情感的情感傾向度Sj。
(1)
式(1)中:j表示情感傾向,共有7種情感;S為每類情感傾向度;p為情感詞的情感強度;f為情感詞的出現(xiàn)次數(shù);i為語句中j類情感的情感詞個數(shù)。因此,通過計算每類情感傾向的情感傾向度Sj,可以通過公式(2)得到每條語句的情感傾向En:
En={j},j為Sjmax對應的情感傾向
(2)
式(2)中:n表示第n條微博。
由于微博屬于社會化媒體,具有參與、公開、交流等特性,具備轉發(fā)、評論和點贊等功能,因此轉發(fā)、評論和點贊在一定程度上也表達了該微博的情感,轉發(fā)、評論和點贊數(shù)量也體現(xiàn)了該微博的情感強度。本研究利用加權賦值法[8],得到每條微博的最終情感傾向度Sn,具體計算方法如公式(3)所示:
Sn=(1+0.02x+0.1y+0.2z)∑Sj(j∈{樂、好、怒、哀、懼、惡、驚})
(3)
式(3)中:x表示評論數(shù)量,y表示點贊數(shù)量,z表示轉發(fā)數(shù)量。
1.2.4 評估分析
由于實驗數(shù)據(jù)集的不對稱性,實驗中不僅采用準確率(Accuracy)作為評價指標,還采用精確率(Precision)、召回率(Recall)和綜合評價指標(F1-score)對實驗結果進行評估和分析。真正(True Positive,TP)表示將正類預測為正類數(shù)量,真負(True Negative,TN)表示將負類預測為負類數(shù)量,假正(False Positive,F(xiàn)P)表示將負類預測為正類數(shù)量,假負(False Negative,F(xiàn)N)表示將正類預測為負類數(shù)量。
準確率(Accuracy)為:
(4)
精確率(Precision)為:
(5)
召回率(Recall)為:
(6)
綜合評價指標(F1-score)為:
(7)
式(7)中:F1-score是精確率和召回率的綜合評價指標,F(xiàn)1-score值高,表示分類識別效果較好。最終評價結果采用宏平均(Macro Average)算法進行統(tǒng)計分析。
(8)
1.2.5 關鍵詞分析
TF-IDF是評估某個詞對于文件集中某份文件重要程度的方法。詞的重要性與它在文件中出現(xiàn)的次數(shù)成正比,與它在文件集中出現(xiàn)的次數(shù)成反比。
詞頻(Term Frequency,TF)指的是某個詞在文件中出現(xiàn)的次數(shù),如公式(9)所示:
(9)
逆向文件頻率(Inverse Document Frequency,IDF)表示如果包含詞條w的文件越少,IDF就越大。
(10)
TF-IDFw=TFw×IDFw
(11)
因此,TF-IDF可以過濾常見詞,挖掘關鍵詞。
本研究采用Python語言編程爬取微博數(shù)據(jù),經(jīng)清洗步驟后共獲得4 971條。
圖2 福建地區(qū)居民關于降雨的情感傾向分析結果Figure 2 The analysis results of the emotional tendency of residents in Fujian area about rainfall
2.2.1 情感傾向及情感傾向度結果與分析
采用本研究方法進行情感分析,得到的情感傾向和7類情感傾向度如圖2、圖3所示。由圖2、圖3可以看出福建地區(qū)居民對于降雨的情感傾向,其中以“好”最多,占據(jù)39%,同時表現(xiàn)出的情感傾向度也最強?!昂谩焙汀皹贰惫舱急?5%,“怒”和“驚”所占比重最小,說明福建地區(qū)居民對降雨的情感總體呈正面情緒。情感傾向度最小的是“懼”,說明福建地區(qū)居民可能長期以來適應了降雨環(huán)境,對降雨“懼”的情感傾向隨之較弱。
由于人的情感復雜且多變,僅從情感傾向及其強度值進行分析有失偏頗。因此,圖4展示了7類情感傾向中每類情感傾向度分布比例。由圖4橫向比較來看,福建地區(qū)居民對降雨的情感表現(xiàn)傾向于“驚”“懼”時,所包含的其他情感傾向度較低,且都不包含“怒”,說明此時居民對降雨的主觀感知比較一致。傾向于“怒”時,居民表達的其他情感強度強烈,其中“好”的占比較多,呈現(xiàn)兩極分化的趨勢,說明福建居民對降雨表達“怒”時,情緒比較矛盾。在各種情感傾向中,“好”的情感傾向度占比均不低,說明福建居民不論表現(xiàn)為何種情緒,對降雨都有一定偏愛,或者可能擁有將消極情緒轉化為積極情緒的良好心態(tài)。
圖3 福建地區(qū)居民關于降雨的7類情感傾向度分析結果Figure 3 The analysis results of the degree of inclination of seven emotions of residents in Fujian area about rainfall
圖4 福建地區(qū)居民關于降雨的7類情感傾向中每類情感傾向度分布比例Figure 4 The distribution ratio of each type of emotional inclination among the seven types of emotional inclinations of residents in Fujian area about rainfall
從縱向來看,如圖5所示,將每個季度的7類情感傾向進行比較,發(fā)現(xiàn)情感傾向與季度變化沒有明顯的相關性,“好”的占比均最多,“怒”和“驚”在各個季度占比均較小。統(tǒng)計每個季度福建地區(qū)居民的情感傾向度平均值表明,情感傾向度隨季度變化波動不明顯,波動范圍為9.5~10.5,呈現(xiàn)波浪式趨勢,如圖6所示。其中,夏季各類情感的傾向度較為集中,但情感傾向度平均值最低,說明在夏季福建居民對于降雨的情感并不濃烈但豐富,感受較不一致。
圖5 各個季度福建地區(qū)居民對于降雨的7類情感傾向分析結果Figure 5 The analysis results of seven types of emotional tendencies of residents in Fujian area about rainfall in each season
圖6 各個季度福建地區(qū)居民對于降雨的平均情感傾向度和7類情感傾向度分析結果Figure 6 The average emotional inclination of residents in Fujian aera and the analysis results of seven types of emotional inclinations for rainfall in each season
表1 不同分析方法的準確率及綜合評價指標 Table 1 Accuracy and comprehensive evaluation index of different analysis methods
本研究選取了兩名工作人員對原始數(shù)據(jù)的情感傾向進行人工判斷(兩人判斷結果不同時,經(jīng)商量后決定最終唯一結果),以人工標注的情感傾向為準,將SVM方法、LSTM方法[12]與本研究方法的分析結果分別與人工標注的情感傾向進行對比,得到結果如表1所示。
表 2 各種情感的精確率、召回率和綜合評價指標 Table 2 Precision rate,recall rate and comprehensive evaluation index of various emotions
由表1可以看出,可能由于SVM的詞向量求平均,詞的順序信息丟失,分類識別效果差于本研究方法與LSTM。LSTM記憶能力強,在文本處理方面表現(xiàn)好。本研究方法準確率為92.75%,平均綜合評價指標為68.28%,比CNN高0.32%、2.7%,比LSTM低0.9%、0.81%。雖然本研究方法不是最優(yōu),但本研究方法無需進行模型訓練,在實際氣象應用中擁有簡單便捷、通用性強的優(yōu)勢,同時也避免了訓練文本選擇不當對分類識別結果造成的偏差。
由表2可以看出,“怒”“驚”和“其他”的精確率相對較高,“好”和“哀”的召回率較高,說明本研究方法區(qū)別“怒”“驚”和“其他”與其他情感的能力較強,對“好”和“哀”情感的識別能力較強。綜合來看,本研究對“惡”“好”和“哀”情感的分析效果不錯。
表3為誤判個例,圖7為微博數(shù)據(jù)的混淆矩陣。結合表3和圖7可以看出,“好”和“哀”的精確率較低。出現(xiàn)誤判的原因一方面可能是生活中“樂”和“好”的情感相似處多,容易出現(xiàn)誤判。另一方面可能是基于詞典的情感分析方法的局限性,缺少對主題的分析,如表3所示,序號1和3對主題“降雨”都是“惡”的情感,序號2對“降雨”無情感,但數(shù)據(jù)中存在其他主題的情感詞,因此容易將其他主題的情感誤判成“降雨”的情感。
表 3 誤判個例Table 3 Examples of misjudgments
圖7 混淆矩陣Figure 7 Confusion Matrix
另外,“怒”和“驚”的召回率較低,如圖7所示。出現(xiàn)誤判的原因一方面可能是情感的相似性,有時人工也難以分辨“怒”“驚”“惡”。另一方面可能是因為詞典情感分析缺少聯(lián)系上下文和思考詞語的深層含義,許多具有反語的數(shù)據(jù)容易被誤判成相反情緒。
表 4 高頻特征詞 Table 4 High-frequency feature word list
2.2.2 關鍵詞結果與分析
本研究對所有數(shù)據(jù)進行分詞后,按照出現(xiàn)頻次進行排序,并刪除了一些無意義詞語,最終得到頻次前30的特征詞,如表4所示。
圖8 高頻特征詞各類情感傾向度分布比例Figure 8 The distribution ratio of various emotional tendencies of high-frequency feature words
由表4可知,人們關于降雨提到的內容主要包括4個方面:1)相關天氣現(xiàn)象,如“臺風”、“打雷”等;2)地點情況,比如各個城市、南北方、家里等;3)感受情況,比如“冷”“不喜歡”“希望”等;4)社會活動影響情況,比如“展銷會”、“演唱會”等。為了進一步了解福建地區(qū)居民提到的這些內容的情感傾向,本研究將包含高頻詞及具有同一含義的不同表達詞的微博進行情感分析,結果如圖8所示。由圖8可知,提到高頻詞時的主要情感是“好”,總體情感較傾向于樂觀。“吹大風”和“打雷”沒有“好”的情感,且“懼”的情感占比很大。提到“傘”時,居民情感中“怒”占比最多?!把莩獣敝小鞍А钡恼急容^大。
為了進一步分析影響居民情感的因素,本研究通過關鍵詞挖掘的方法分析各種情感的主題表達。通過計算每類情感特征詞的TF-IDF值,得到每類情感TF-IDF值排名前10的關鍵詞,如表5所示。由表5可知,降雨對居民相關活動影響情況易導致居民表達“怒”的情感,比如畢業(yè)典禮。降雨時的天氣現(xiàn)象易使居民表達“惡”“懼”的情感,比如吹大風、打雷等。降雨的時間易使居民表達“驚”情感,比如7月、夏天等。降雨所處地點易使居民表達“樂”與“哀”兩極化情感,比如廈門、窩等。降雨時的環(huán)境感受易使居民表達“好”情感,比如涼快、熱等。
本研究針對人類情感復雜多樣的特點,結合中文情感詞匯本體庫對福建居民關于降雨的情感進行了細粒度分析。本研究方法準確率為92.75%,平均綜合評價指標為68.28%,總體分類效果高于傳統(tǒng)機器學習法SVM,低于神經(jīng)網(wǎng)絡法LSTM近1%。雖然本研究方法不是最優(yōu),但本研究方法不用針對特定天氣、氣候情況(如暴雨、臺風、霧霾等)進行模型訓練,在實際氣象應用中具有簡單便捷、通用性高的優(yōu)勢,同時也避免了訓練文本選擇不當對分類識別結果造成的偏差。
表 5 關鍵詞Table 5 Keyword List
基于本研究方法,結合高頻特征詞提取及關鍵詞挖掘技術,可以得到以下結論:1)福建地區(qū)居民對于降雨總體呈現(xiàn)正面情感,情感傾向主要為“好”與“樂”,且情感濃烈。2)福建地區(qū)居民對降雨的情感是多樣的。福建地區(qū)居民對降雨雖有一定情感傾向,但呈現(xiàn)的情感較為豐富,經(jīng)常同時表達多種情感。3)福建地區(qū)居民對降雨的情感是比較穩(wěn)定的,各種情感隨時間變化波動較小,與季度變化沒有明顯的相關性。4)福建地區(qū)居民對降雨提到較多的內容主要包括4個方面:相關天氣現(xiàn)象、地點、環(huán)境感受、社會活動影響。影響居民“怒”情感的主要為降雨對居民社會活動的影響;影響居民“惡”“懼”情感的主要為相關天氣現(xiàn)象;影響居民“驚”情感主要為降雨時間;影響居民“樂”與“哀”情感的主要為降雨地點;影響居民“好”情感的主要為降雨時的環(huán)境感受。
利用本研究方法雖能夠分類識別出福建居民對降雨的7種不同情感,但仍存在一些不足:1)微博用戶多集中于大中城市年輕人,在年齡和地域上存在分布不均的問題。2)本研究方法對詞典依賴性強,當詞典更新速度低于網(wǎng)絡新語言出現(xiàn)速度時,可能會對結果造成不良影響。3)隱藏情感不易被發(fā)現(xiàn),從而引起結果偏差。氣象細粒度情感分析涉及到自然科學、社會科學、計算機科學等多個領域,而且領域交叉跨度大,本研究只是其中的一小點探索研究,今后可采用多模態(tài)的情感分析方式,結合多種特征數(shù)據(jù)(包括微博符號、表情、圖片等數(shù)據(jù)),利用深度學習等多種決策融合方法,對民眾關于氣候及天氣的情感進行分析討論。