摘要:震后對(duì)網(wǎng)絡(luò)輿情信息的監(jiān)控與分析,對(duì)于相關(guān)部門(mén)開(kāi)展震災(zāi)應(yīng)急救援、掌握救災(zāi)動(dòng)態(tài)、穩(wěn)定民眾情緒具有重要意義。為解決震后輿情信息數(shù)據(jù)量大、語(yǔ)言多義性等問(wèn)題,文章使用自回歸模型(XLNet)作為文本向量化表示層,將社交媒體地震數(shù)據(jù)文本轉(zhuǎn)化為包含上下文語(yǔ)義信息的媒體數(shù)據(jù)詞向量,同時(shí),使用雙向門(mén)控循環(huán)單元(BiGRU)網(wǎng)絡(luò)作為特征提取層,把詞向量序列輸入到BiGRU層,提取社交媒體地震數(shù)據(jù)的文本特征;將初步提取特征的文本輸入到注意力機(jī)制層(Attention),進(jìn)一步提取更為重要的情感類(lèi)別特征,并對(duì)重要特征進(jìn)行權(quán)重強(qiáng)化,構(gòu)建基于網(wǎng)絡(luò)地震應(yīng)急處置信息改進(jìn)的XLNet-BiGRU-Att地震輿情情感分析模型;最終,獲得社交媒體地震數(shù)據(jù)的輿情態(tài)勢(shì)。相比傳統(tǒng)的XLNet模型,文章模型在甘肅積石山縣6.2級(jí)與新疆烏什縣7.1級(jí)地震的輿情情感分析中能夠準(zhǔn)確,快速捕捉長(zhǎng)短文本數(shù)據(jù)特征,分析輿情態(tài)勢(shì),情感分析準(zhǔn)確率分別提升到92.45%和93.42%。
關(guān)鍵詞:輿情分析; XLNet; BiGRU; 甘肅積石山; 新疆烏什
中圖分類(lèi)號(hào): P315.9文獻(xiàn)標(biāo)志碼:A文章編號(hào): 1000-0844(2024)04-0955-10
DOI:10.20000/j.1000-0844.20240228002
Post-earthquake public opinion analysis based on improved XLNet
algorithm: a case study of the Jishishan, Gansu M6.2,
and Wushi, Xinjiang M7.1 earthquakesZHENG Tongyan WANG Kefeng HUANG Meng ZHANG Song
ZHOU Wentao YOU Qiao LIU Shuai
(1.China Earthquake Networks Center, Beijing 100045, China;
2.Institute of Disaster Prevention, Sanhe 065201, Hebei, China)Abstract:
The monitoring and analysis of public opinions on online platforms after earthquake aid is highly significant in emergency rescues, understanding disaster relief dynamics, and stabilizing public emotions. However, it is difficult to quickly gather and categorize these opinions given the large volume of post-earthquake public opinion data and polysemy of language. To address these problems, we employed the autoregressive model (XLNet) as a text vectorization layer, which converted the text of earthquake-related data on social media platforms into word vectors containing contextual semantic information. The bidirectional gated recurrent unit (BiGRU) network was used as the feature extraction layer, and the word vector sequence was input into the BiGRU layer to extract text features from these data. These texts were then input into the attention mechanism layer to extract features that are categorized based on sentiments that are highly important. The weights of important features were enhanced to construct an improved XLNet-BiGRU-Att sentiment analysis model based on the information gathered from online earthquake emergency responses. Finally, the public opinion situation of these data was obtained using the model. Compared with the traditional XLNet model, the proposed model yields higher accuracy and can more quickly capture the characteristics of both short and long text data gathered from the public opinion sentiment analysis of the Jishishan and Wushi earthquakes. We successfully increased the sentiment analysis accuracy to 92.45% and 93.42% for the Jishishan and Wushi earthquakes, respectively.
Keywords:public opinion analysis; XLNet; BiGRU; Jishishan in Gansu; Wushi in Xinjiang
0引言
地震災(zāi)害具有突發(fā)性和不可預(yù)測(cè)性,嚴(yán)重威脅人類(lèi)生命財(cái)產(chǎn)安全和經(jīng)濟(jì)社會(huì)穩(wěn)定[1-2]。地震發(fā)生后,通常會(huì)產(chǎn)生很多地震相關(guān)輿情,例如震感強(qiáng)弱、傷亡情況、余震情況和救援情況等[3]。將民眾對(duì)地震災(zāi)害的認(rèn)知、感知和響應(yīng)、適應(yīng)進(jìn)行研究,是減輕災(zāi)害損失與影響的重要途徑[4-5]。因此,震后社會(huì)輿情信息的監(jiān)控、分析、處置和引導(dǎo)對(duì)相關(guān)部門(mén)開(kāi)展震災(zāi)應(yīng)急救援和穩(wěn)定社會(huì)情緒具有重要意義。
近年來(lái),伴隨移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,蘊(yùn)含海量數(shù)據(jù)的社交媒體平臺(tái)為開(kāi)展地震輿情監(jiān)測(cè)與分析提供了豐富的數(shù)據(jù)源[6]。社交媒體平臺(tái)具有實(shí)時(shí)性、互動(dòng)性、強(qiáng)擴(kuò)散及空間分布廣泛等特點(diǎn),如微博評(píng)論已成為地震災(zāi)害輿情分析的主要數(shù)據(jù)源[7]。國(guó)內(nèi)外學(xué)者基于社交媒體數(shù)據(jù),對(duì)不同地震事件開(kāi)展了地震輿情時(shí)空變化分析及情感分析等方面的研究。薄濤等[1]以微博為數(shù)據(jù)源,通過(guò)機(jī)器學(xué)習(xí)中的人工神經(jīng)網(wǎng)絡(luò)模型,建立了基于社交媒體數(shù)據(jù)的地震烈度快速評(píng)估方法。 Kryvasheyeu等[8]以2012年美國(guó)桑迪颶風(fēng)為例,利用Twitter數(shù)據(jù)進(jìn)行了颶風(fēng)災(zāi)害損失評(píng)估,發(fā)現(xiàn)災(zāi)害損失越大,Twitter用戶(hù)活躍程度越高。徐敬海等[9]提出基于位置的微博地震災(zāi)情提取流程,并以云南永善地震為例進(jìn)行應(yīng)用,取得較好效果。楊天青等[10]提出一種基于公眾速報(bào)災(zāi)情信息的地震災(zāi)情過(guò)濾與推理方法,并以蘆山地震為案例進(jìn)行了方法驗(yàn)證。曹彥波等[11-12]以2014年景谷6.6級(jí)地震為例,基于微博輿情信息進(jìn)行震后有感范圍快速判定研究,并采用情感詞典和規(guī)則相結(jié)合的方法,以2013年四川蘆山7.0級(jí)和2017年九寨溝7.0級(jí)地震為例,基于震后24 h微博數(shù)據(jù)分析了地震災(zāi)區(qū)民眾情緒反應(yīng)特點(diǎn)。齊珉等[7]以2017年四川九寨溝7.0級(jí)地震為例,基于微博數(shù)據(jù)分析了社會(huì)民眾對(duì)此次地震事件的情感傾向,并研究了影響網(wǎng)民情感波動(dòng)的主要因素。鄭嶸等[13]以2017年九寨溝地震和林芝地震為例,提出災(zāi)害微博的實(shí)時(shí)處理框架,并驗(yàn)證了原型系統(tǒng)的可用性。Qu等[14]對(duì)2010年玉樹(shù)地震的新浪微博數(shù)據(jù)進(jìn)行分類(lèi)統(tǒng)計(jì),并分析了民眾對(duì)地震事件的情感。李亞芳等[3]分析了新疆伽師6.4級(jí)地震后48 h新浪微博相關(guān)的博文和評(píng)論,并將其可視化。陳昱杉等[15]以新浪微博關(guān)于“九寨溝地震”事件為例,提取響應(yīng)時(shí)間、響應(yīng)強(qiáng)度、傳播強(qiáng)度、主題分布等輿情擴(kuò)散特征的指標(biāo),研究了地理空間距離對(duì)網(wǎng)絡(luò)輿情信息擴(kuò)散的影響。
從社交媒體數(shù)據(jù)輿情持續(xù)時(shí)間與文本特點(diǎn)角度進(jìn)行分析的研究還比較少。針對(duì)震后社交媒體數(shù)據(jù)集文本特點(diǎn),本文結(jié)合震后72 h持續(xù)輿情變化,克服震后社交媒體數(shù)據(jù)集與通用數(shù)據(jù)集情感處理不同的困難,準(zhǔn)確把握震后輿情傳播趨勢(shì)。通過(guò)分析研判輿情動(dòng)向,強(qiáng)化網(wǎng)絡(luò)輿情監(jiān)測(cè),提出輿情的引導(dǎo)建議,為震后環(huán)境下的應(yīng)急機(jī)制提供參考依據(jù)。
具體來(lái)說(shuō),本文以2023年12月18日甘肅積山縣6.2級(jí)和2024年1月23日新疆烏什縣7.1級(jí)地震為例,采集了兩次震后72 h內(nèi)網(wǎng)絡(luò)信息數(shù)據(jù)近20萬(wàn)條,其中包含震感信息、救援信息、人員傷亡信息等地震信息。為解決震后輿情信息數(shù)據(jù)量大和語(yǔ)言多義性等問(wèn)題,擬采用XLNet模型作為預(yù)訓(xùn)練模型來(lái)捕捉短文本的數(shù)據(jù)特征,并結(jié)合雙向GRU和注意力機(jī)制模型,分別捕捉網(wǎng)絡(luò)剩余長(zhǎng)序列文本和重要信息特征,構(gòu)建一個(gè)基于雙向上下文語(yǔ)義信息提取和自注意力機(jī)制的動(dòng)態(tài)地震微博情感分析模型XLNet-BiGRU-Att,進(jìn)一步提高地震案例分析的速度和準(zhǔn)確率,以期為科學(xué)有效的地震應(yīng)急管理提供輔助參考。
1研究對(duì)象與數(shù)據(jù)處理
1.1甘肅積石山縣6.2級(jí)地震
2023年12月18日23時(shí)59分,在甘肅臨夏州積石山縣(35.7°N,102.79°E)發(fā)生6.2級(jí)地震,震源深度10 km,蘭州、定西、臨夏等地震感強(qiáng)烈。甘肅積石山6.2級(jí)地震最大烈度為Ⅷ度,Ⅵ度區(qū)及以上面積8 364 km2。震后泥石流、滑坡、崩塌等次生災(zāi)害隨之發(fā)生,地震還造成多處交通中斷。
1.2新疆烏什縣7.1級(jí)地震
2024年1月23日2時(shí)9分,在新疆維吾爾自治區(qū)阿克蘇地區(qū)烏什縣(41.26°N,78.63°E)發(fā)生7.1級(jí)地震,震源深度22 km。截至當(dāng)日8時(shí)統(tǒng)計(jì)顯示,全縣范圍內(nèi)房屋共倒塌房屋47間、受損78間。截至2024年1月26日8時(shí),共記錄到余震4 216次,其中,3.0級(jí)以下4 067次,3.0級(jí)及以上149次:3.0~3.9級(jí)121次,4.0~4.9級(jí)21次,5.0~5.9級(jí)7次。最大余震5.7級(jí),距主震震中約22 km。地震最大烈度為Ⅸ度,Ⅵ度區(qū)及以上面積27 926 km2。
1.3數(shù)據(jù)采集
地震應(yīng)急數(shù)據(jù)包括地震行業(yè)官網(wǎng)數(shù)據(jù)、主流新聞媒體網(wǎng)站數(shù)據(jù)、微博數(shù)據(jù)、論壇以及貼吧數(shù)據(jù)等,如圖1、2所示。本文從數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的角度出發(fā),采用基于Python的Selenium自動(dòng)化技術(shù),結(jié)合高級(jí)調(diào)度器模塊多時(shí)段分布式任務(wù)調(diào)度[16],從央視網(wǎng)、人民網(wǎng)、新浪新聞、網(wǎng)易新聞、搜狐新聞、新浪微博、抖音、快手等主流媒體網(wǎng)站中分別獲取了震后72 h內(nèi)甘肅積石山縣6.2級(jí)地震和新疆烏什縣7.1級(jí)地震應(yīng)急處置信息相關(guān)數(shù)據(jù)113 000條和91 800條,構(gòu)建地震應(yīng)急事件相關(guān)的輿情分析數(shù)據(jù)集,為模型實(shí)驗(yàn)提供了數(shù)據(jù)支持。社交媒體地震評(píng)論有其自身的數(shù)據(jù)特點(diǎn),如表1所列。
從社交媒體與新聞網(wǎng)站上采集到海量的震后相關(guān)輿情信息后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:首先,對(duì)海量的數(shù)據(jù)進(jìn)行清洗與去重操作,例如在數(shù)據(jù)中會(huì)包含“@XXX”、“#XX”等字符,對(duì)這類(lèi)文本進(jìn)行正則化,去除文本中的特殊字符、空格以及非中文字符;然后,處理地震社交媒體數(shù)據(jù)文本中的停用詞,提高文本處理的效率和準(zhǔn)確性,同時(shí)由于多數(shù)輿情評(píng)論文本中存在emoji表情,采用emoji-switch庫(kù)將emoji表情轉(zhuǎn)換為相應(yīng)的中文文本,與文本信息一起構(gòu)成數(shù)據(jù)集;最終,形成初步清洗后的地震網(wǎng)絡(luò)信息數(shù)據(jù)集,包含150 083條震后社交媒體數(shù)據(jù)。
之后,對(duì)清洗過(guò)的地震網(wǎng)絡(luò)信息數(shù)據(jù)集進(jìn)行情感標(biāo)注,以大連理工大學(xué)林鴻飛團(tuán)隊(duì)整理的中文情感詞匯本體庫(kù)作為模型的情感標(biāo)注來(lái)源,將“樂(lè)”“好”等定義為正向情感[積極],將“怒”“哀”“懼”“驚”等定義為負(fù)向情感[消極],其余為[中性];對(duì)這些數(shù)據(jù)進(jìn)行情感三分類(lèi)的標(biāo)注后,最終得到了經(jīng)過(guò)清洗、標(biāo)注、增強(qiáng)預(yù)處理的120 567條地震社交媒體數(shù)據(jù)。
2研究方法
2.1預(yù)訓(xùn)練語(yǔ)言模型
與基于自回歸語(yǔ)言建模的預(yù)訓(xùn)練處理方法相比,基于自編碼的預(yù)訓(xùn)練處理方法具有較強(qiáng)的雙向上下文建模能力,例如雙向編碼器表征法(Bidirectional Encoder Representations from Transformers,BERT)。然而,BERT模型使用掩碼破壞輸入的方式,更容易忽略掩碼位置之間的依賴(lài)性,會(huì)導(dǎo)致預(yù)訓(xùn)練-微調(diào)(pretrain-finetune)的差異。在2019年,谷歌提出了一種新的自然語(yǔ)言處理(Natural Language Processing,NLP)預(yù)訓(xùn)練模型XLNet,這是一種廣義的自回歸預(yù)訓(xùn)練模型方法。它實(shí)現(xiàn)了雙向的上下文學(xué)習(xí),通過(guò)最大化因子分解順序中所有排列的預(yù)期期望可能性進(jìn)行學(xué)習(xí)。XLNet通過(guò)自回歸公式克服了BERT依賴(lài)掩碼位置的局限性,并將Transformer-XL的思想結(jié)合到預(yù)訓(xùn)練模型中,在文本表示語(yǔ)言任務(wù)中表現(xiàn)出色。自回歸語(yǔ)言模型(AutoRegressive Language Modeling,AR)方法只能學(xué)習(xí)單詞之間的依賴(lài)關(guān)系,自編碼語(yǔ)言模型(AutoEncoding Language Modeling,AE)方法只能學(xué)習(xí)深度雙向語(yǔ)義信息,這兩種模型單獨(dú)使用時(shí)都有各自的優(yōu)點(diǎn)和劣勢(shì)問(wèn)題。而XLNet正是將AR和AE方法的優(yōu)勢(shì)結(jié)合起來(lái),基于AR模型融入雙向語(yǔ)言模型,提出一種隨機(jī)排序語(yǔ)言模型(Permutation Language Modeling,PLM),避免了原始的自回歸模型不能結(jié)合上下文信息,以及自編碼語(yǔ)言模型由于mask導(dǎo)致的獨(dú)立性和數(shù)據(jù)分布一致性等缺點(diǎn)。
XLNet的核心思想是以排列組合的方式重構(gòu)輸入的社交媒體地震數(shù)據(jù)文本,引入PLM的訓(xùn)練目標(biāo)并對(duì)全排序的序列進(jìn)行采樣優(yōu)化,在自回歸語(yǔ)言模型上實(shí)現(xiàn)了雙向預(yù)測(cè),并通過(guò)對(duì)上下文進(jìn)行語(yǔ)義特征雙向表示,可以解決在社交媒體地震數(shù)據(jù)文本中的詞語(yǔ)在不同語(yǔ)境下存在的多義性問(wèn)題。
接著使用XLNet模型中的Attention掩碼機(jī)制,其原理是在Transformer內(nèi)部遮蓋不需要的部分,使這部分在預(yù)測(cè)時(shí)不起作用。但從模型外部看,文本順序與輸入時(shí)一致,都為從左向右的單向輸入。圖3所示為XLNet掩碼機(jī)制實(shí)現(xiàn)方式舉例。圖中原始輸入句子為地震社交媒體數(shù)據(jù)文本[樓,蹦,迪,一,樣,嚇,死],假設(shè)隨機(jī)生成序列為[樓,蹦,迪,一,樣,嚇,死],但輸入到XLNet中的句子仍然是[樓,蹦,迪,一,樣,嚇,死],那么在XLNet內(nèi)部是以圖中掩碼矩陣實(shí)現(xiàn)的。對(duì)于排列后的“樓”字來(lái)說(shuō),由于在首位無(wú)參考信息,因此第一行無(wú)陰影,假設(shè)當(dāng)排列后的“迪”字位于最后一個(gè)位置,可以參考的信息有[樓,蹦,一,樣,嚇,死]。以此類(lèi)推,因此序列的真實(shí)的輸入順序并沒(méi)有改變,只是通過(guò)掩碼的操作展示出隨機(jī)排序的效果。
XLNet模型中PLM與Attention掩碼機(jī)制結(jié)合可以解決AR方法中不能看到上下文語(yǔ)義的問(wèn)題,具體是通過(guò)上下文雙向語(yǔ)義的特征表示,更加全面了解詞語(yǔ)在語(yǔ)境中的意思。但是在PLM模型中,全排序語(yǔ)序隨機(jī)打亂也帶來(lái)了原Transformer無(wú)法解決的問(wèn)題:例如輸入序列為[樓,蹦,迪,一,樣,嚇,死],給定一種排列方式為[死,樣,樓,迪,一,蹦,嚇],當(dāng)要預(yù)測(cè)第三個(gè)位置時(shí),即“樓”,其概率為P(樓|死,樣),如果此時(shí)給定另一種排列為[死,樣,蹦,一,樓,嚇,迪],當(dāng)要預(yù)測(cè)第三個(gè)位置,即“蹦”,其概率為P(蹦|死,樣),此時(shí)預(yù)測(cè)“樓” 和“蹦”的概率相等,但實(shí)際是表示了不同的詞義。這是由于原AR方法是按順序基于上文進(jìn)行預(yù)測(cè),不需要考慮位置信息,但PLM為全排列方式,當(dāng)位置打亂后就無(wú)法辨別出原始位置,即在PLM模型中不能將位置信息與要預(yù)測(cè)的內(nèi)容信息分離開(kāi)來(lái)進(jìn)行預(yù)測(cè)。
XLNet模型中的雙流自注意力模型可以解決這個(gè)問(wèn)題:雙流可以分為ContentStream和QueryStream,ContentStream用于表示每個(gè)token的內(nèi)容信息,QueryStream表示每個(gè)token在原始輸入句子中的位置信息。雙流自注意力模型的工作原理為:在ContentStream中,對(duì)于圖3,若要預(yù)測(cè)“樓”,需要編碼上下文的位置和內(nèi)容信息,以及“樓”本身的位置和內(nèi)容信息;在QueryStream中,若要預(yù)測(cè)“樓”,需要編碼其上下文信息以及“樓”本身的位置信息。圖4為XLNet模型的雙流模型圖。
式中:m為網(wǎng)絡(luò)層的數(shù)量;Q、K和V為注意力機(jī)制的Query、Key和Value,Query用于指定要關(guān)注的內(nèi)容或?qū)傩?,Key包含與查詢(xún)相關(guān)的信息,主要用于與查詢(xún)進(jìn)行比較,Value為包含實(shí)際的信息或?qū)傩?,我們希望從注意力機(jī)制中獲取這些值。一般情況下,內(nèi)容隱藏狀態(tài)會(huì)被初始化為e(x),表示隨機(jī)初始化的詞向量,查詢(xún)隱藏狀態(tài)會(huì)被初始化為一個(gè)變量w。XLNet預(yù)訓(xùn)練語(yǔ)言模型以Transformer-XL框架為核心,引入循環(huán)機(jī)制和相對(duì)位置編碼,充分利用了上下文語(yǔ)義信息,用模型學(xué)到的知識(shí)計(jì)算出文本的向量表達(dá),以解決社交媒體地震數(shù)據(jù)文本中出現(xiàn)的詞語(yǔ)在不同語(yǔ)境信息下語(yǔ)義不同的問(wèn)題。在XLNet-BiGRU-Att模型中,XLNet層將輸入序列轉(zhuǎn)化為可被BiGRU層接收的詞向量序列,進(jìn)行特征提取。
2.2注意力機(jī)制
注意力機(jī)制主要來(lái)源于人類(lèi)視覺(jué)的處理過(guò)程,通過(guò)瀏覽信息獲取人類(lèi)視覺(jué)的注意力焦點(diǎn),提取出文本所想表達(dá)的當(dāng)前任務(wù)中的關(guān)鍵信息。人類(lèi)的視覺(jué)生理就是一種Attention機(jī)制,將有限的注意力放在重要信息上,節(jié)省資源,以便快速獲得最有效的信息。注意力機(jī)制的本質(zhì)為許多Query、Key、Value所組成的函數(shù),通過(guò)關(guān)注輸入權(quán)重的分配,使模型可以得到更準(zhǔn)確的語(yǔ)義信息,以式(3)為注意力機(jī)制的目標(biāo)函數(shù):
注意力機(jī)制應(yīng)用于不同社交媒體地震數(shù)據(jù)進(jìn)行情感分析任務(wù)時(shí),將經(jīng)過(guò)XLNet模型向量化和BiGRU網(wǎng)絡(luò)提取后的地震評(píng)論文本特征輸入到其中,對(duì)地震評(píng)論文本序列中重要特征增加權(quán)重值,使模型更加注重于重要特征中的內(nèi)容,以此提升BiGRU網(wǎng)絡(luò)的特征提取能力。之后通過(guò)Softmax歸一化對(duì)加權(quán)后的向量進(jìn)行處理,得到句子的情感傾向值,至此模型的訓(xùn)練任務(wù)完成。
2.3情感分析方法
本文主要對(duì)震后輿情評(píng)論進(jìn)行情感分析,情感分析為傾向性分析和意見(jiàn)挖掘,是對(duì)帶有情感色彩的主觀性文本進(jìn)行自動(dòng)解釋和分類(lèi)情感(通常是積極、消極或中立)的分析過(guò)程。目前地震災(zāi)情獲取方法基本形成了基于遙感的方法、基于地震臺(tái)網(wǎng)方法和基于社會(huì)網(wǎng)絡(luò)(如短消息等)的方法等[16-18]。地震發(fā)生后,大量網(wǎng)友在新浪微博發(fā)布與地震相關(guān)的博文和評(píng)論,信息中包含民眾的各種情感色彩和情感傾向性的表達(dá),如高興、生氣、悲傷、贊揚(yáng)、譴責(zé)等。通過(guò)分析這些信息的主觀色彩,可以把握民眾輿論對(duì)于地震事件的看法和情感傾向。本文主要采用改進(jìn)的XLNet-BiGRU-Att地震輿情情感分析模型,對(duì)經(jīng)過(guò)預(yù)處理與標(biāo)注的數(shù)據(jù)進(jìn)行分析,針對(duì)輿情文本信息進(jìn)行情感評(píng)價(jià),即情感極性判定。其中,消極情緒主要是指民眾對(duì)地震表現(xiàn)出害怕、恐慌、悲觀等負(fù)面情緒;積極情緒主要是指民眾表現(xiàn)出樂(lè)觀、祝福、鼓勵(lì)等正面情緒;中性情緒是指其表達(dá)的正面和負(fù)面情緒相抵消,或未表現(xiàn)出主觀情緒。通過(guò)輿情情感分析結(jié)果,可視化表達(dá)民眾當(dāng)前的情感狀況。
3實(shí)驗(yàn)與模型評(píng)估
3.1XLNet-BiGRU-Att模型地震輿情情感分析
針對(duì)社交媒體地震數(shù)據(jù)的多義性和特征提取困難等問(wèn)題,為更好地捕捉震后社交媒體數(shù)據(jù)的文本特征,使用XLNet模型作為文本向量化表示層,將媒體數(shù)據(jù)文本轉(zhuǎn)化為包含上下文語(yǔ)義信息的媒體數(shù)據(jù)詞向量,使用BiGRU 網(wǎng)絡(luò)作為特征提取層,并把詞向量序列輸入到BiGRU層提取媒體數(shù)據(jù)的文本特征,再將初步提取特征的文本輸入到注意力機(jī)制層,進(jìn)一步提取情感類(lèi)別特征,對(duì)重要特征進(jìn)行權(quán)重強(qiáng)化,最終獲得媒體數(shù)據(jù)的情感傾向結(jié)果值。本文提出的XLNet-BiGRU-Att模型充分利用上下文的語(yǔ)境信息和與地震輿情相關(guān)的情感信息,在一定程度上解決了XLNet模型在媒體數(shù)據(jù)情感分析方面可提取特征少、未考慮單詞間句法依存導(dǎo)致的詞語(yǔ)多義性等問(wèn)題。其中XLNet-BiGRU-Att模型的體系結(jié)構(gòu)如圖5所示,主要由以下6個(gè)部分組成:文本輸入層、XLNet層、BiGRU層、注意力機(jī)制層、Softmax層和輸出層。實(shí)驗(yàn)過(guò)程如下:
(1) 數(shù)據(jù)預(yù)處理。對(duì)震后網(wǎng)絡(luò)輿情信息進(jìn)行情感動(dòng)向分析的第一步,即將數(shù)據(jù)文本去重、去除特殊符號(hào)、空格等;去除文本信息中的停用詞以及將emoji表情轉(zhuǎn)為相應(yīng)的中文字符;最后對(duì)震后輿情評(píng)論進(jìn)行情感詞性標(biāo)注。
(2) 文本輸入。將數(shù)據(jù)預(yù)處理后的地震微博文本輸入到XLNet中,對(duì)輸入的地震社交媒體數(shù)據(jù)文本進(jìn)行序列化表示。輸入文本的長(zhǎng)度為n,文本序列為X=(X1,X2,…,Xn),Xn表示文本數(shù)據(jù)的第n個(gè)字。
(3) 社交媒體地震數(shù)據(jù)文本向量化表示。針對(duì)XLNet模型中輸入的序列化媒體數(shù)據(jù)文本數(shù)據(jù),在查找字典后將每個(gè)詞轉(zhuǎn)化為對(duì)應(yīng)的字典編號(hào),得到序列化媒體數(shù)據(jù)文本數(shù)據(jù)E,利用Transformer-XL自回歸編碼器進(jìn)行訓(xùn)練,將媒體數(shù)據(jù)文本數(shù)據(jù)進(jìn)行動(dòng)態(tài)表示,得到媒體數(shù)據(jù)文本詞向量表示g。在使用Transformer-XL自回歸編碼器時(shí),計(jì)算當(dāng)前媒體數(shù)據(jù)文本中每個(gè)詞與其他詞之間的相對(duì)位置關(guān)系,利用相對(duì)位置信息去調(diào)整每個(gè)詞的權(quán)重,從而獲得媒體數(shù)據(jù)文本句子中每個(gè)詞對(duì)應(yīng)的詞向量。通過(guò)這種方法學(xué)習(xí)到的詞向量g,充分利用了媒體數(shù)據(jù)文本中詞的上下文關(guān)系,使得媒體數(shù)據(jù)文本中每個(gè)詞在不同上下文語(yǔ)境中具有更好的表達(dá)。
(4) 提取社交媒體地震數(shù)據(jù)語(yǔ)義特征。將從XLNet層中學(xué)習(xí)到的媒體數(shù)據(jù)文本對(duì)應(yīng)的詞向量傳給BiGRU層,利用前向GRU層和后向GRU層:前向GRU順序提取深層的語(yǔ)義特征,后向GRU逆序提取,經(jīng)過(guò)多個(gè)GRU隱藏單元的訓(xùn)練,最終得到兩個(gè)文本向量的上下文語(yǔ)義特征,分別記作媒體數(shù)據(jù)文本向量F1和F2。
(5) 文本特征拼接及權(quán)重賦值。拼接正向語(yǔ)義特征社交媒體地震數(shù)據(jù)文本向量F1和反向語(yǔ)義特征社交媒體地震數(shù)據(jù)文本向量F2,并通過(guò)Attention層對(duì)媒體數(shù)據(jù)的特征向量進(jìn)行權(quán)重賦值,使模型對(duì)媒體數(shù)據(jù)文本向量中的重要特征提高注意力,最后通過(guò)softmax激活函數(shù)輸出對(duì)應(yīng)媒體數(shù)據(jù)文本的情感分類(lèi)。
3.2模型評(píng)估
實(shí)驗(yàn)選取卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、BERT、FastTest、BERT+BiLSTM、XLNet等模型為6個(gè)對(duì)照實(shí)驗(yàn)組,與本文提出的基于XLNet算法的震后網(wǎng)絡(luò)輿情分析模型(XLNet-BiGRU-Att)通過(guò)社交媒體地震數(shù)據(jù)集進(jìn)行對(duì)比訓(xùn)練,并對(duì)甘肅積山縣6.2級(jí)和新疆烏什縣7.1級(jí)地震震后社交媒體數(shù)據(jù)進(jìn)行模型測(cè)試評(píng)估。
由于在積石山縣與烏什縣地震中含有較多地震相關(guān)特殊情況,如積石山縣地震震級(jí)相對(duì)較小,但傷亡嚴(yán)重,烏什縣地震震級(jí)大,但損失較小。因此,震后輿情評(píng)價(jià)的結(jié)果可以對(duì)比實(shí)驗(yàn)得出最適合地震領(lǐng)域的情感分析模型。本文的評(píng)價(jià)指標(biāo)為情感分類(lèi)模型性能常用指標(biāo),包括F1值(F1-score)、準(zhǔn)確率(Accuracy,ACC)。震后微博輿情數(shù)據(jù)實(shí)驗(yàn)的測(cè)試結(jié)果如表2、3所列。
通過(guò)表2、3中準(zhǔn)確率ACC值和F1值的實(shí)驗(yàn)結(jié)果可以看出,在甘肅積石山縣地震中,本文所提出的XLNet-BiGRU-Att模型的F1值與ACC最大,分別為91.37%與92.45%;在新疆烏什縣地震中,本文所提出的XLNet-BiGRU-Att模型的F1值與ACC最大,分別為93.52%與93.52%。其中BERT模型和XLNet模型是基于Transformer構(gòu)建的,在結(jié)合社交媒體地震數(shù)據(jù)上下文語(yǔ)義消除詞語(yǔ)多義性方面,優(yōu)于FastText、CNN模型的訓(xùn)練效果。XLNet模型在地震媒體數(shù)據(jù)領(lǐng)域文本的準(zhǔn)確率和F1值上更優(yōu)于BERT模型,尤其在地震特點(diǎn)明顯的震后社交媒體數(shù)據(jù)文本數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果更加突出。
實(shí)驗(yàn)表明,雖然XLNet方法的實(shí)驗(yàn)結(jié)果比較理想,但本文所提出的XLNet-BiGRU-Att模型在社交媒體地震數(shù)據(jù)文本中相較于基礎(chǔ)模型XLNet,準(zhǔn)確率及F1值都有一定程度的提升,表明在地震輿情分析領(lǐng)域,XLNet-BiGRU-Att模型具有良好的性能,彌補(bǔ)了其他對(duì)比模型在地震評(píng)論文本中詞語(yǔ)多義性和可提取特征少的問(wèn)題,能根據(jù)社交媒體地震數(shù)據(jù)領(lǐng)域上下文文本的語(yǔ)義更好地提取震后輿情的特征,適用于震后社交媒體數(shù)據(jù)的情感分析。
3.3地震實(shí)例輿情分析
以上實(shí)驗(yàn)是對(duì)甘肅積山縣6.2級(jí)和新疆烏什縣7.1級(jí)這兩次地震進(jìn)行輿情情感分析概況,兩次地震產(chǎn)生的輿情聲量存在較大差距,積石山地震震級(jí)相對(duì)小,然而產(chǎn)生的破壞大,在人員傷亡與房屋破損上明顯嚴(yán)重。反觀新疆烏什縣地震震級(jí)高,但是多數(shù)地區(qū)為無(wú)人居住,人員傷亡相對(duì)較少。本文通過(guò)對(duì)微博震后72 h數(shù)據(jù)實(shí)時(shí)爬取,進(jìn)行數(shù)據(jù)處理和輿情分析,得出以下分析結(jié)果。
圖6為積石山地震震后72 h的各輿論場(chǎng)趨勢(shì)分析,積石山縣地震在震后1 h、8 h、24 h左右出現(xiàn)較多輿論信息,震后24 h達(dá)到峰值8 520條。
4結(jié)論
本文以甘肅積山縣6.2級(jí)和新疆烏什縣7.1級(jí)地震為例,結(jié)合基于雙向上下文語(yǔ)義信息提取和自注意力機(jī)制的動(dòng)態(tài)地震微博情感分析模型XLNet-BiGRU-Att,研究震后網(wǎng)絡(luò)輿情情感分析,得出如下結(jié)論:
(1) 積石山縣6.2級(jí)和烏什縣7.1級(jí)地震的輿情存在差異,相比其他模型,使用改進(jìn)的XLNet模型能夠更準(zhǔn)確地捕捉社交媒體地震數(shù)據(jù)中短文本數(shù)據(jù)特征,并分析不同地震的輿情特點(diǎn)。前者震級(jí)相對(duì)小,但產(chǎn)生較大的人員傷亡、房屋倒塌以及次生災(zāi)害,輿情聲量大,而烏什縣地震震級(jí)高達(dá)7.1級(jí),造成損失反而較小。
(2) 使用改進(jìn)的XLNet與雙向GRU能更準(zhǔn)確地識(shí)別并捕捉海量網(wǎng)絡(luò)輿情信息中的長(zhǎng)短文本特征,并結(jié)合自注意力機(jī)制對(duì)動(dòng)態(tài)地震輿情進(jìn)行情感分析。相比其他模型,在甘肅積石山縣地震中,本文所提出的XLNet-BiGRU-Att模型在震后社交媒體數(shù)據(jù)的F1值與ACC處于最大,分別為91.37%與92.45%。在新疆烏什縣地震中,本文所提出的XLNet-BiGRU-Att模型在震后社交媒體數(shù)據(jù)的F1值與ACC處于最大,分別為93.52%與93.52%。表明在地震輿情領(lǐng)域,XLNet-BiGRU-Att模型能夠更準(zhǔn)確地提取震后輿情特征,彌補(bǔ)了其余對(duì)比模型在社交媒體地震數(shù)據(jù)文本中詞語(yǔ)多義性和可提取特征少的問(wèn)題。
(3) 通過(guò)輿情分析獲取到兩次地震的災(zāi)情相關(guān)信息??梢钥吹剑跃W(wǎng)絡(luò)輿情信息為基礎(chǔ)的AI提取分析模型雖然在輿情情感分析上取得了較好的結(jié)果,但是文本可能在震后輿情信息中覆蓋面過(guò)大,提取時(shí)會(huì)去除較多有用的信息。因此,特征提取模型在真實(shí)震例中應(yīng)不斷修正和積累,在之后的地震應(yīng)用中,不斷完善自主學(xué)習(xí)與更新修正過(guò)程。
參考文獻(xiàn)(References)
[1]薄濤,李小軍,陳蘇,等.基于社交媒體數(shù)據(jù)的地震烈度快速評(píng)估方法[J].地震工程與工程振動(dòng),2018,38(5):206-215.BO Tao,LI Xiaojun,CHEN Su,et al.Research of seismic intensity rapid assessment based on social media data[J].Earthquake Engineering and Engineering Dynamics,2018,38(5):206-215.
[2]劉磊,趙東升,朱瑜,等.1993—2017年我國(guó)大陸地震災(zāi)害損失的時(shí)空特征[J].自然災(zāi)害學(xué)報(bào),2021,30(3):14-23.LIU Lei,ZHAO Dongsheng,ZHU Yu,et al.Spatiotemporal characteristics of earthquake hazard losses in China's mainland during 1993-2017[J].Journal of Natural Disasters,2021,30(3):14-23.
[3]李亞芳,王新剛,梁慶云.基于新浪微博大數(shù)據(jù)的新疆伽師6.4級(jí)地震輿情分析及可視化研究[J].內(nèi)陸地震,2020,34(1):103-110.LI Yafang,WANG Xingang,LIANG Qingyun.Public opinion analysis and visualization of Xinjiang Jiashi MS6.4 earthquake based on Sina Weibo big data[J].Inland Earthquake,2020,34(1):103-110.
[4]蘇桂武,馬宗晉,王若嘉,等.汶川地震災(zāi)區(qū)民眾認(rèn)知與響應(yīng)地震災(zāi)害的特點(diǎn)及其減災(zāi)宣教意義:以四川省德陽(yáng)市為例[J].地震地質(zhì),2008,30(4):877-894.SU Guiwu,MA Zongjin,WANG Ruojia,et al.General features and their disaster-reduction education implications of the earthquake disaster cognition and responses of the social public in MS8.0 Wenchuan earthquake-hit area:a case study from Deyang prefecture-level city,Sichuan Province[J].Seismology and Geology,2008,30(4):877-894.
[5]王若嘉,蘇桂武,張書(shū)維,等.云南普洱地區(qū)中學(xué)生認(rèn)知與響應(yīng)地震災(zāi)害特點(diǎn)的初步研究:以2007寧洱6.4級(jí)地震災(zāi)害為例[J].災(zāi)害學(xué),2009,24(1):133-138.WANG Ruojia,SU Guiwu,ZHANG Shuwei,et al.A preliminary study on the characteristics of cognition on and response to earthquake disaster of the middle school students in Puer area,Yunnan Province,China:a case study on the 2007 ninger earthquake with MS6.4[J].Journal of Catastrophology,2009,24(1):133-138.
[6]楊騰飛,解吉波,閆東川,等.基于深度學(xué)習(xí)的社交媒體情感信息抽取及其在災(zāi)情分析中的應(yīng)用研究[J].地理與地理信息科學(xué),2020,36(2):62-68.YANG Tengfei,XIE Jibo,YAN Dongchuan,et al.Extracting sentiment information from social media based on deep learning and the research on disaster reduction[J].Geography and Geo-Information Science,2020,36(2):62-68.
[7]齊珉,齊文華,蘇桂武.基于新浪微博的2017年四川九寨溝7.0級(jí)地震輿情情感分析[J].華北地震科學(xué),2020,38(1):57-63.QI Min,QI Wenhua,SU Guiwu.2017 Sichuan Jiuzhaigou M7.0 earthquake sentiment analysis based on Sina Weibo[J].North China Earthquake Sciences,2020,38(1):57-63.
[8]KRYVASHEYEU Y,CHEN H H,OBRADOVICH N,et al.Rapid assessment of disaster damage using social media activity[J].Science Advances,2016,2(3):e1500779.
[9]徐敬海,褚俊秀,聶高眾,等.基于位置微博的地震災(zāi)情提?。跩].自然災(zāi)害學(xué)報(bào),2015,24(5):12-18.XU Jinghai,CHU Junxiu,NIE Gaozhong,et al.Earthquake disaster information extraction based on location microblog[J].Journal of Natural Disasters,2015,24(5):12-18.
[10]楊天青,姜立新,席楠.地震速報(bào)災(zāi)情信息過(guò)濾與推漫方法研究:以蘆山7.0級(jí)地震為例[J].自然災(zāi)害學(xué)報(bào),2015,24(1):96-103.YANG Tianqing,JIANG Lixin,XI Nan.Filtering and deduction method of rapidly-report earthquake disaster information:taking Lushan 7.0 magnitude earthquake as an example[J].Journal of Natural Disasters,2015,24(1):96-103.
[11]曹彥波,吳艷梅,許瑞杰,等.基于微博輿情數(shù)據(jù)的震后有感范圍提取研究[J].地震研究,2017,40(2):303-310.CAO Yanbo,WU Yanmei,XU Ruijie,et al.Research about the perceptible area extracted after the earthquake based on the microblog public opinion[J].Journal of Seismological Research,2017,40(2):303-310.
[12]曹彥波.基于社交媒體的地震災(zāi)區(qū)民眾情緒反應(yīng)分析[J].地震研究,2019,42(2):245-256.CAO Yanbo.Analysis of People's emotional response in earthquake-stricken areas based on the social media[J].Journal of Seismological Research,2019,42(2):245-256.
[13]鄭嶸,張晨曉,樂(lè)鵬,等.基于微博的災(zāi)害信息快速提取方法研究[J].測(cè)繪地理信息,2020,45(5):133-137.ZHENG Rong,ZHANG Chenxiao,LE Peng et al.Disaster information extraction from microblog[J].Journal of Geomatics,2020,45(5):133-137.
[14]QU Y,HUANG C,ZHANG P Y,et al.Microblogging after a major disaster in China:a case study of the 2010 Yushu earthquake[C]//Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work.Hangzhou China:ACM,2011:25-34.
[15]陳昱杉,李鳳全,王天陽(yáng),等.網(wǎng)絡(luò)輿情信息擴(kuò)散中距離的影響:以新浪微博“九寨溝地震” 事件為例[J].浙江師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,43(1):77-84.CHEN Yushan,LI Fengquan,WANG Tianyang,et al.The role of distance in Internet public opinion diffusion:taking Sina microblog “Jiuzhaigou earthquake” as an example[J].Journal of Zhejiang Normal University (Natural Sciences),2020,43(1):77-84.
[16]趙福軍,蔡山,陳曦.遙感震害快速評(píng)估技術(shù)在汶川地震中的應(yīng)用[J].自然災(zāi)害學(xué)報(bào),2010,19(1):1-7.ZHAO Fujun,CAI Shan,CHEN Xi.Application of rapid seismic damage assessment based on remote sensing to Wenchuan earthquake [J].Journal of natural disasters,2010,19(1):1-7.
[17]帥向華,鄭向.防震減災(zāi)公益服務(wù)短信技術(shù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].自然災(zāi)害學(xué)報(bào),2011,20(6):40-44.SHUAI Xianghua,ZHENG Xiang.Design and realization of SMS technology platform for earthquake disaster mitigation public service[J].Journal of Natural Disasters,2011,20(6):40-44.
[18]AMIRI G G,KHORASANI M,MIRZA H R,et al.Ground motion prediction equations of spectral ordinates and arias intensity for Iran [J].Journal of Earthquake Engineering,2009,14(1):1-29.
(本文編輯:賈源源)