劉鐘山
(天津工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300387)
中國(guó)互聯(lián)網(wǎng)絡(luò)中心(CNNIC)于2020年9月發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2020年6月,我國(guó)網(wǎng)民規(guī)模為9.40億,較2020年3月新增網(wǎng)民3625萬(wàn),互聯(lián)網(wǎng)普及率達(dá)67.0%,較2020年3月提升2.5個(gè)百分點(diǎn)。其中,50歲及以上萬(wàn)民群體占比由2020年3月的16.9%提升至22.8%,互聯(lián)網(wǎng)向中高年齡人群滲透的趨勢(shì)愈發(fā)明顯。
移動(dòng)互聯(lián)網(wǎng)使人們獲取信息更加方便快捷,但網(wǎng)絡(luò)中存在的謠言對(duì)公眾產(chǎn)生了較大的影響。雷霞將謠言定義為:沒(méi)有相應(yīng)事實(shí)基礎(chǔ)卻被捏造出來(lái)并通過(guò)一定手段推動(dòng)傳播的言論。文獻(xiàn)[1]特別對(duì)于識(shí)別信息能力較差的老年用戶,謠言使他們不能獲得正確的信息,阻擋了他們了解社會(huì)動(dòng)態(tài),謠言的傳播也對(duì)社會(huì)穩(wěn)定造成了不利影響。2020年12月,諸如“成都確診女孩照片”、“武昌職業(yè)學(xué)院士官生集體發(fā)燒”等謠言混淆公眾視聽(tīng),對(duì)社會(huì)影響十分惡劣。
傳統(tǒng)方法的謠言檢測(cè)通?;谖谋镜霓D(zhuǎn)發(fā)量、評(píng)論量、發(fā)布用戶的注冊(cè)時(shí)間、粉絲數(shù)等統(tǒng)計(jì)特征并結(jié)合SVM、機(jī)器學(xué)習(xí)等方法進(jìn)行識(shí)別。
2013年,賀剛等人[2]將謠言識(shí)別視為可信性分類問(wèn)題,引入識(shí)別謠言的符號(hào)特征、鏈接特征、關(guān)鍵詞分布特征和時(shí)間差等新特征并基于SVM機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)是否為謠言;
2013年,程亮等人[3]通過(guò)微博謠言的傳播特點(diǎn)和產(chǎn)生原因,利用BP神經(jīng)網(wǎng)絡(luò)模型及改進(jìn)其激發(fā)函數(shù)并引入沖量項(xiàng),對(duì)微博話題在傳播過(guò)程中演變?yōu)橹{言進(jìn)行檢測(cè);
2016年,毛二松等人[4]提出了一種基于深層特征和集成分類器的微博謠言檢測(cè)方法,首先對(duì)微博情感傾向性、微博傳播過(guò)程和微博用戶歷史信息進(jìn)行特征提取并利用訓(xùn)練的集成分類器進(jìn)行分類;
2017年,武慶圓等人[5]提出一個(gè)針對(duì)微信等短文本的在文本與標(biāo)簽之間引入語(yǔ)義層的多標(biāo)簽雙詞主題模型;
2017年,魏陽(yáng)等人[6]將網(wǎng)絡(luò)謠言的識(shí)別因素歸納為信息來(lái)源、信息量、互文性等7種指標(biāo)因素,采用灰色關(guān)聯(lián)分析方法構(gòu)建網(wǎng)絡(luò)謠言識(shí)別模型,并通過(guò)聚類分析網(wǎng)絡(luò)謠言案例進(jìn)行數(shù)據(jù)處理分析網(wǎng)絡(luò)謠言案例嚴(yán)重程度,對(duì)網(wǎng)絡(luò)謠言進(jìn)行分類處理,如圖1所示。
圖1 模型結(jié)構(gòu)
傳統(tǒng)方法的謠言檢測(cè)通?;诮y(tǒng)計(jì)特征進(jìn)行識(shí)別,如符號(hào)特征、轉(zhuǎn)發(fā)量、閱讀量、發(fā)布者的相關(guān)信息等。本文基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM),首先在Embedding層中使用Skip-Gram模型將文本中的內(nèi)容向量化并輸入LSTM層,形成句子級(jí)向量,最后使用Softmax進(jìn)行分類?;谖谋緝?nèi)容特征進(jìn)行謠言檢測(cè)。
本文首先通過(guò)Embedding層將中文文本向量化,輸出詞向量,并將詞向量輸入到LSTM層融合成句子向量,最后通過(guò)分類器進(jìn)行謠言于非謠言的判別。
傳統(tǒng)的文本向量表示通常使用One-Hot向量表示詞匯,但此方法通常存在以下兩個(gè)問(wèn)題[7]:
●One-Hot向量的維度等于詞匯量的大小,若詞匯量較大,那么得到的表示矩陣將非常稀疏。
●One-Hot向量無(wú)法得到詞匯之間的關(guān)聯(lián)信息。
2013年,Mikolov等人[8]提出了Word2Vec模型,其核心思想是同一上下文中的單詞語(yǔ)義相近,單詞可以由其上下文表示。
Embedding模型中,通常使用Continuous Bag of Words(CBOW)和Skip-Gram(SG)兩種模型,CBOW模型通過(guò)上下文預(yù)測(cè)目標(biāo)單詞,而SG模型通過(guò)輸入的目標(biāo)單詞預(yù)測(cè)上下文,CBOW模型和SG模型的結(jié)構(gòu)如圖2所示。
圖2
左:CBOW結(jié)構(gòu)圖,右:Skip-Gram模型結(jié)構(gòu)圖。
在Embedding層中,本文使用Skip-Gram訓(xùn)練來(lái)創(chuàng)建詞向量。通過(guò)無(wú)監(jiān)督的SG模型進(jìn)行文本特征化處理,將文本向量化,并作為L(zhǎng)STM層的輸入。
1996年Hochreiter等人[9]提出了長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM。
LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種,但輔助RNN決策的主要是最后輸入的信號(hào),缺少長(zhǎng)期依賴的關(guān)系,RNN對(duì)較遠(yuǎn)距離信息的處理能力不夠好。LSTM有效地克服了RNN的梯度消失問(wèn)題。
與RNN相比較,LSTM保留了RNN的基本結(jié)構(gòu)并進(jìn)行了改進(jìn),LSTM充分考慮到了“細(xì)胞”之間的自循環(huán),其結(jié)構(gòu)如圖3所示。LSTM引入輸入門、遺忘門、輸出門,主要通過(guò)三個(gè)“門”的結(jié)構(gòu)控制信息的添加與刪除,其中輸入們控制當(dāng)前時(shí)間步計(jì)算的狀態(tài)將以多少程度更新到記憶單元,遺忘門控制前一時(shí)間步傳來(lái)的信息將以多大程度被遺忘掉,輸出門控制當(dāng)前時(shí)間步的記憶單元將以多大程度輸出。
圖3 LSTM基本結(jié)構(gòu)
(1)遺忘門。遺忘門的作用是根據(jù)當(dāng)前的輸入、上一時(shí)刻的輸出和門的偏置項(xiàng)決定需要丟棄多少信息,若以ft表示當(dāng)前LSTM單元遺忘門的輸出值:
(2)輸入門。輸入門決定當(dāng)前輸入中有多少會(huì)寫入單元狀態(tài):
并將Ct-1時(shí)刻的信息更新到Ct:
(3)輸出門。輸出門決定最終輸出的值:
LSTM層將Embedding層輸出的詞向量融合為句子向量,通過(guò)Dropout層后經(jīng)分類器進(jìn)行分類。
在模型訓(xùn)練的過(guò)程中,通常會(huì)遇見(jiàn)過(guò)擬合問(wèn)題,過(guò)擬合問(wèn)題通常表現(xiàn)為模型在訓(xùn)練數(shù)據(jù)上損失函數(shù)較小,預(yù)測(cè)準(zhǔn)確率高,在測(cè)試集上損失大,預(yù)測(cè)準(zhǔn)確率較低,過(guò)擬合的模型會(huì)影響模型的預(yù)測(cè)效果。
2012年Hinton等人[10]提出Dropout,用于防止過(guò)擬合,Dropout通過(guò)修改神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元節(jié)點(diǎn)以防止訓(xùn)練的模型出現(xiàn)過(guò)擬合的現(xiàn)象,如圖4所示。
圖4 Dropout使用前
Dropout使用后刪掉了其中部分的隱藏層神經(jīng)元單元,每一次迭代都隨機(jī)刪除部分的隱藏層神經(jīng)元,隨著迭代次數(shù)的增多,每一次都用部分神經(jīng)元去訓(xùn)練整個(gè)網(wǎng)絡(luò),最終有效避免了過(guò)擬合,如圖5所示。
圖5 Dropout使用后
Softmax分類層是模型的最后一層,用于進(jìn)行有監(jiān)督化分類訓(xùn)練。文本經(jīng)LSTM層和Dropout層處理后,形成語(yǔ)句級(jí)特征向量,使用Softmax對(duì)其進(jìn)行分類,對(duì)文本是否為謠言進(jìn)行識(shí)別。
公式(7)為Softmax輸出函數(shù)的公式,輸出p表示y屬于m的概率,根據(jù)概率決定分類的類別,o為特征融合后的向量[11]。
公式(8)為Softmax代價(jià)損失函數(shù)的表達(dá)式,N代表訓(xùn)練、測(cè)試集,x、y對(duì)應(yīng)訓(xùn)練樣本。
本文使用劉知遠(yuǎn)等人[12]公開的微博謠言數(shù)據(jù)集,并對(duì)其中數(shù)據(jù)進(jìn)行整理,構(gòu)建數(shù)據(jù)字典與數(shù)據(jù)列表,并得到可用于模型訓(xùn)練的數(shù)據(jù)集如表1所示。
表1 訓(xùn)練數(shù)據(jù)
本文使用二分類問(wèn)題的精確率(P)、準(zhǔn)確率(A)、召回率(R)、F1值作為評(píng)價(jià)指標(biāo);定義非謠言為正類,謠言為負(fù)類,則:
True Positive(TP):將真實(shí)標(biāo)簽為正類的預(yù)測(cè)為正類,即正確識(shí)別非謠言;
False Positive(FP):將真實(shí)標(biāo)簽為負(fù)類的預(yù)測(cè)為正類,即將謠言識(shí)別為非謠言;
False Negative(FN):將真實(shí)標(biāo)簽為正類的預(yù)測(cè)為負(fù)類,即將非謠言識(shí)別為謠言;
True Negative(TN):將真實(shí)標(biāo)簽為負(fù)類的預(yù)測(cè)為負(fù)類,即正確識(shí)別謠言。
混淆矩陣如表2所示。
表2 混淆矩陣
本文采用二分類問(wèn)題的常見(jiàn)評(píng)價(jià)指標(biāo)對(duì)算法的識(shí)別結(jié)果做出評(píng)價(jià),各指標(biāo)計(jì)算方法如下:
準(zhǔn)確率表示測(cè)試集中全部預(yù)測(cè)正確的概率:
精確率表示該類別中預(yù)測(cè)為該類別的消息數(shù)中實(shí)際為該類別的比例;
F1值用來(lái)衡量模型的整體效果,是召回率和精確度的調(diào)和平均。
本文采用Adagrad優(yōu)化器,初始學(xué)習(xí)率為0.001,經(jīng)過(guò)200次迭代后得到實(shí)驗(yàn)結(jié)果如表3所示。
表3 本文算法實(shí)驗(yàn)結(jié)果
表4 實(shí)驗(yàn)結(jié)果對(duì)比
本文算法與上述算法比較,在準(zhǔn)確率、精確率、召回率、F1得分方面均取得了較好的效果,這也證明了本文基于文本內(nèi)容特征進(jìn)行謠言識(shí)別的謠言識(shí)別模型對(duì)謠言識(shí)別具有良好的效果。
本文首先通過(guò)Embedding層將文本向量化并輸入到LSTM層,基于文本的內(nèi)容充分發(fā)掘其特征,并利用Softmax分類器進(jìn)行分類,訓(xùn)練過(guò)程中,通過(guò)Dropout層避免模型過(guò)擬合,利用來(lái)自微博的文本數(shù)據(jù)進(jìn)行訓(xùn)練。經(jīng)實(shí)驗(yàn)得知,本文算法的準(zhǔn)確率為95.3%,謠言和非謠言的精確率為93.3%、96.9%,召回率分別為96.3%、94.5%,F(xiàn)1得分分別為94.8%、95.7%,均取得了不錯(cuò)的效果。
考慮到本文在訓(xùn)練模型時(shí)使用的數(shù)據(jù)量有限,且均來(lái)自新浪微博,并且在訓(xùn)練模型時(shí),沒(méi)有綜合考慮到用戶相關(guān)信息、轉(zhuǎn)發(fā)量等相關(guān)的統(tǒng)計(jì)特征,因此,下一步的工作重點(diǎn)是研究將來(lái)自文本內(nèi)容特征提取與統(tǒng)計(jì)特征提取綜合,并采用更高質(zhì)量的數(shù)據(jù)集訓(xùn)練模型,以加強(qiáng)謠言檢測(cè)的能力。