◆劉校麟 陳蕾
基于機器學習的突發(fā)事件微博謠言識別技術研究進展
◆劉校麟 陳蕾
(中國人民警察大學 河北 065000)
本文研究基于機器學習的突發(fā)事件微博謠言識別方面所取得的成果。對謠言識別技術研究現(xiàn)狀、謠言識別算法及相關技術、基于機器學習的微博謠言識別技術進行總結分析。采用深度學習方法已能將微博謠言識別的準確率、召回率、F1值等模型評價標準值提高到0.8以上,從謠言數(shù)據的基礎特征擴展到傳播特征、時間跨度特征甚至時情感特征等影響識別精度的因素特征。機器學習算法已發(fā)展日趨成熟,未來若能實現(xiàn)算法的自學習,自動完成特定時間節(jié)點的提取分類,實現(xiàn)對謠言快速有效地識別,將成為謠言識別方面的重大突破成果。
突發(fā)事件;微博謠言;機器學習;特征提?。恢{言識別
信息時代網絡用戶基數(shù)在與日俱增,為滿足公眾在網絡上的社交需求,微博、微信、Facebook等社交媒體應運而生,它為人們快速獲取信息提供了途徑,然而在為人們提供方便的同時,低成本的言論表達也帶來的極大的問題隱患——網絡謠言在各大網絡社交平臺肆意傳播,尤其是突發(fā)事件發(fā)生時,網絡謠言的隨意擴散極易引發(fā)社會矛盾,影響民眾生活與社會安定和諧,甚至是引起國家安全隱患問題。突發(fā)事件謠言的產生是難以預測的,它的傳播是快速的,且因其不受時間、空間和地點的限制,加之以代價低、發(fā)布隨意等特點,使其在突發(fā)事件中謠言所帶來的負面影響也更廣更深。它可能涉及公共衛(wèi)生、軍事政治、社會治安、體育娛樂等領域,因此在網絡謠言大面積傳播之前對其進行準確識別并加以制止傳播就成了急需解決的問題。本文總結了目前在機器學習算法研究與在網絡謠言識別方面的應用中已取得成果的研究文獻,從數(shù)據獲取、特征提取、謠言識別等實驗流程方面,對微博平臺中的網絡謠言識別技術進行研究。
為了應對處理微博謠言識別問題,社會各方面都采取了相應的應對措施,例如成立互聯(lián)網聯(lián)合辟謠平臺、推出微信辟謠助手、成立微博辟謠官方賬號等方法,力求將謠言的影響下降到最小,然而僅僅依靠人工識別謠言不僅耗費大量人力物力,識別的結果也不盡如人意,所能鑒別的謠言也有所限制,同時對謠言的鑒別結果也有著較大的誤差。目前一些機器學習新算法的出現(xiàn)為解決突發(fā)事件微博謠言識別問題帶來新的方法及新的思路。本文在分析和總結近年來在網絡謠言方面的相關研究現(xiàn)狀基礎上,對互聯(lián)網謠言的定義、特點以及網絡謠言識別技術的難點、主導技術方向方法、存在的問題等方面進行了系統(tǒng)的闡述,簡要分析了當前互聯(lián)網時代下突發(fā)事件微博謠言識別的幾種檢測方法,并以此為基礎闡述了應用于網絡謠言識別的幾種先進數(shù)據驅動算法,希望以此提升網絡謠言識別的準確性及適用性,更新和擴充智能突發(fā)事件微博謠言識別技術的適用范圍及可持續(xù)發(fā)展等方面做出貢獻。
初期所提出方法多以使用文本內容分析+特征詞提取訓練方式,并設計使用了大量人工制作的特征謠言檢測。Yang[1]通過微博客戶端程序收集整理傳統(tǒng)識別屬性、事件發(fā)生所在地屬性、客戶端類型屬性等屬性,并針對各項屬性對事件謠言與非謠言進行分類訓練,謠言識別精度達到70%以上,但因其數(shù)據集預處理、特征選取采用人工識別方式進行,因故其效率較低、成本較高。賀剛[2]采用SVM分類學習方法對微博謠言識別過程中的特征進行分類,綜合提取微博用戶粉絲數(shù)、年齡、已發(fā)布微博博文數(shù)量等微博用戶特征與符號、連接、關鍵詞分布等文本特征、轉發(fā)是否、次數(shù)與評論量等傳播特征構建多個特征模板,有效提高了謠言識別的準確性。程亮[3]采用BP神經網絡方法,基于謠言=(事件)重要性×(事件)模糊性×公眾批判能力的傳播學公式對微博特定事件有關謠言進行識別檢測,算法在運行效率與精度上相對于 SVM、KNN方法有顯著提高,具有更好的識別效果與更短的執(zhí)行用時。姜贏[4]利用 LanguageTool 構建基于XML的網絡謠言句式匹配規(guī)則,對獲取的謠言數(shù)據進行測試。采用五類網絡謠言文本句式特征分析方法,結合 LanguageTool工具構建了一套基于 XML 的網絡謠言句式匹配規(guī)則。通過對收集到的網絡謠言實驗測試,得出實驗結果,實現(xiàn)網絡謠言的自動識別和監(jiān)測,并大量減少前期人工識別成本的投入。
隨著近年來深度學習技術在自然語言處理、網絡文本特征分析等領域的出色表現(xiàn),研究專家希望利用深度神經網絡自動學習謠言潛在的深層表征,提取更有效的語義特征。潘德宇[5]提出一種基于卷積神經網絡(CNN)的微博謠言檢測模型,考慮到提取到的特征對輸出結果影響力問題,在經典的文本卷積神經網絡(Text CNN)上加入了注意力機制,通過 CNN 中的卷積層學習微博窗口的特征表示,再根據每個特征表示對輸出結果的影響力不同通過注意力機制賦予不同的權重來進行謠言事件的檢測,該謠言識別模型準確率達到96.8% ,相較于傳統(tǒng)的SVM方法有卓越的提升,并且在召回率和 F1 值上也有提升。李莎[6]通過建立一種多模態(tài)層次事件網絡,對從Twitter 和 Pheme兩社交平臺上獲取的文本數(shù)據進行分析識別,并運用 mean-pooling、RNN和 CNN 三種編碼策略來提高謠言檢測任務的性能。研究結果表明新的多模態(tài)多層次事件網絡模型比SVM方法有顯著提高,提升了謠言識別的性能。SVM方法在識別結果中的成績不佳,也表明人工構造文本特征的準確性較弱,無法良好運用于數(shù)據訓練。陳耿[7]運用半監(jiān)督學習算法ImCo-Forest搭建了微博謠言識別框架,該算法應用能夠通過優(yōu)化數(shù)據集測試訓練中少數(shù)異常類的分布狀態(tài),使得把偏差的誤分類代價賦予部分感興趣的少數(shù)類,進而增強謠言識別模型的辨識能力。在理想數(shù)據集的前提下,ImCo-Forest算法實驗所得聚類結果的G值和F值相較SVM方法有極大提高,但其對數(shù)據集要求較高,因此在數(shù)據訓練前要求對數(shù)據集進行嚴格預處理流程。
從當前謠言識別研究發(fā)展進程情況分析,傳統(tǒng)的謠言檢測模型是從謠言的內容、用戶、傳播深度三方面進行人工構造特征,這種方式往往存在考慮片面、人力成本高等問題。而在使用深度學習處理謠言識別時,通過循環(huán)神經網絡的學習訓練來分析文本深層特征,避免了人工特征構建的問題,且能夠發(fā)現(xiàn)人工難以察覺的特征,因此具有能夠大大提高謠言識別的準確性并降低人工成本的優(yōu)勢。
微博平臺是一個多用戶參與、開放的網絡平臺,謠言的傳播與謠言的評論并存,因此,用戶對微博謠言的評價以及用戶觀點都可以客觀的反映謠言的正確性,亦可作為微博謠言識別的重要依據,并且用戶評價可從另一個不同的角度為微博網絡謠言分類提供有效的特征變量,相比一些簡單的文本關鍵詞特征,用戶評價、用戶觀點更加有說服力。
在微博網絡謠言中,每一條評論的語句都有多個詞組,這些初始關鍵詞就是整體數(shù)據模型的第一層輸入,也即單元化基礎特征變量;整個評論中又分為多條評論語句,多個關鍵評論語句形成數(shù)據模型的第二層輸入。利用分層處理方法,首先對每一條評論進行離散化分詞,并使用特征工程將其轉化為特征向量,然后利用特征工程,對每一條特征向量進行分析,之后即可得出整條微博的特征信息,最后將這些特征信息送入數(shù)據模型分類器進行謠言的識別以及分類。
網絡微博謠言帶有很強的煽動性,希望得到廣泛的傳播與關注,因此微博謠言往往會帶有強烈的情感色彩,網絡謠言關鍵詞的情感傾向,往往是通過情感詞語表達出來的。目前,對于網絡謠言文本的分類方法主要有兩種,一種是基于情感詞典,另一種是根據在大規(guī)模數(shù)據集上的統(tǒng)計情況進行分類,即數(shù)據驅動的方法,這種方式往往依托于傳統(tǒng)的語言文本分類?;谇楦性~典的分類技術主要是通過統(tǒng)計正負情感詞的數(shù)量來完成情感傾向的判斷[8],基于數(shù)據驅動方法的情感分類與情感詞典分類的方式類似,但可以提高對情感詞的關注程度,往往可以取得較好的識別效果。
在微博謠言中,單一的特征往往只能獲得特定方面的含義,如謠言文本、謠言類型等,對謠言的分類與識別相對比較片面,基于用戶觀點和情感分類的融合謠言識別技術主要是借鑒了集成學習的基本思想[9],分別在不同的數(shù)據集中訓練子分類器,可以提取謠言中不同方面的特征,然后根據各自特征信息,互相彌補各子分類器之間的不足,包括數(shù)據訓練過程中的過擬合或欠擬合狀態(tài)。
目前,應用較多的基于用戶觀點和情感分類的融合謠言識別算法有以下幾類:
1)平均法,將謠言識別弱分類器的輸出結果取平均值,即可得到最終的預測結果,最簡單的就是算數(shù)平均,也可根據不同分類器的權重進行相應的加權平均。
2)投票法,對于謠言分類問題,投票法采用“少數(shù)服從多數(shù)”的方法,即從多個弱分類器的分類結果中,取分類數(shù)出現(xiàn)次數(shù)最多的結果作為最終的分類結果。
3)學習法,學習法是指在原來自學習器的基礎上再加上一層融合性質的學習器,也即將每個弱分類器的分類結果作為訓練的一部分,重新訓練一個專門用來處理融合操作的綜合分類器,增加其魯棒性。
目前對于基于機器學習算法的微博謠言的識別方式大致可以劃分為兩類:一類是基于傳統(tǒng)機器學習算法的識別技術,另一類是基于深度學習算法的識別技術,如圖1所示。
圖1 基于機器學習的微博謠言識別技術分類圖
在基于傳統(tǒng)機器學習算法的微博謠言識別技術方面,一般選用支持向量機(SVM),決策樹(DT),隨機森林(RF)等常用的分類算法來識別微博言論是否為謠言。然而,隨著微博謠言識別的特征變量所涉及的因素及特征信息越來越多,傳統(tǒng)機器學習算法在檢測分類特征變量選取以及識別性能方面不僅費時,面對復雜多變的微博謠言信息,其時效性也不盡如人意。
近年來,深度學習算法在各個領域都表現(xiàn)出較好的效果,這也為微博謠言識別提供了一種新的解決思路。深度學習能夠通過大量的訓練數(shù)據自動提取數(shù)據中更有效的特征信息,并挖掘深層次謠言特征信息,不僅能夠節(jié)省人力物力,在識別時效性、準確度方面也表現(xiàn)得較為優(yōu)秀。目前,運用比較普遍的幾種深度學習算法包括深度學習神經網絡,循環(huán)神經網絡以及相關的衍生長短周期記憶網絡,門控制循環(huán)單元和卷積神經網絡等。
在機器學習實現(xiàn)微博謠言識別的實驗中,通過采取針對某一事件的數(shù)據爬取、數(shù)據集預處理、數(shù)據特征提取、數(shù)據集分析識別這四項實驗步驟,來得到最終的謠言識別結果。而根據所采取機器學習算法構架的不同,對數(shù)據集預處理的要求也不盡相同,其對數(shù)據特征提取的特征因素也存在差異。具體實驗流程如圖2。
圖2 微博謠言實驗流程圖
數(shù)據收集:爬取微博上對某一特定事件的網民博文與評論等文本信息,根據不同算法還可收集網頁URL、用戶基本信息、博文傳播量的邊緣數(shù)據;具體的數(shù)據收集方法可采用新浪API或是微博爬蟲等手段。
數(shù)據預處理:在所獲得的批量化的數(shù)據集中,往往存在大量無效數(shù)據,一般采取去重、剔除無關該事件文本等方式來對原始數(shù)據集進行預處理,提高數(shù)據集純度,方便在后期數(shù)據特征分析階段得到更加準確的實驗結果。
特征提取和特征分組歸類:特征分析是選取出最能夠區(qū)分謠言與非謠言的特征以提高識別準確性。就謠言各項屬性分類可細分為謠言內容特征、用戶屬性特征、謠言傳播特征、謠言發(fā)布時間特征等。而就謠言文本內容屬性分類可細分為關鍵詞特征、符號特征、鏈接特征等相關特征。特征分類方式的不同對后續(xù)數(shù)據集分析的結果會有不同影響,應當就符合研究選定分析方法的分類方式進行特征分類。初期機器學習通常按照先驗知識來確定區(qū)分謠言的特征,而深度學習方法則采取神經網絡自動學習(CNN、RNN等)實現(xiàn)分類的特征。
數(shù)據集特征分析驗證和謠言檢測識別:通過結合各種機器學習算法對訓練集數(shù)據特征進行學習再使用訓練模型對測試數(shù)據集進行識別分析。對實驗分析結果是否準確往往結合準確度(Precision)、召回率(Recall)和 F 值(F-Score)這三項數(shù)據對模型進行評判。
目前謠言分析識別的研究取得較快發(fā)展,采用深度學習方法已經能將微博謠言識別的準確率、召回率、F1值等模型評價標準值提高到0.8以上,對謠言數(shù)據的特征分析也從符號、關鍵詞等基礎特征擴展到傳播特征、時間跨度特征甚至時情感特征等影響識別精度的因素特征。但對微博謠言識別仍然有許多困難和挑戰(zhàn),比如有些微博博文的真實性尚未得到有效證實,無法判斷是否是謠言。在面對這種存在歧義的情況時,如何將它與謠言以及是時區(qū)分開,就成了謠言識別的一項尚待解決的問題。多數(shù)研究員實驗中的謠言數(shù)據是在突發(fā)事件結束后獲取到的,雖能確保其有較高的識別準確性,但在實際應用中與現(xiàn)實問題存在差異,只有在網絡謠言產生并傳播的初期對其進行有效的識別判斷,才能及時阻止謠言的傳播,而早期謠言具有難以察覺、難以分辨的特性,因此早期網絡謠言實時識別一項極具挑戰(zhàn)的實際問題。而在完成了微博謠言識別判斷的過程后,仍存在對所識別謠言的取證工作。在謠言傳播的載體問題上,謠言的載體形式也在發(fā)生不斷變化,不再僅僅是以文本為載體,更出現(xiàn)了通過圖片甚至是視頻形式傳播的謠言。這就要求在未來的謠言識別實驗中加入針對圖片、視頻等數(shù)據的內容分析與判斷。
綜上所述,當下機器學習算法領域已發(fā)展完善,且深度學習和人工智能領域在近幾年也有重大研究突破,因此在解決微博謠言方面,又有了更多的解決方案和可能實現(xiàn)的新思路。而隨著大數(shù)據時代的到來,研究員們在解決謠言識別問題上嘗試新的算法,跟進算法領域新的研究方案。未來如果能夠實現(xiàn)算法的自學習,并能夠自動完成特定時間節(jié)點突發(fā)事件發(fā)生時微博中有關事件的數(shù)據特征提取分類,實現(xiàn)短時間內快速有效的謠言識別,降低人工成本,會成為謠言識別方面的重大突破成果。從單一事件的謠言識別到全網絡全時段全事件的謠言監(jiān)控,從個別社交平臺謠言監(jiān)控到多平臺多方位謠言監(jiān)控,那將極大改變目前網絡謠言識別的現(xiàn)狀,改善網絡環(huán)境。
隨著凈化網絡環(huán)境力度的加大,如何做到遏制微博謠言,避免網民因謠言受到非理性的錯誤引導,進而危害社會,為此面向謠言的識別研究就顯得非常必要。本文從機器學習解決突發(fā)事件的謠言方面切入,闡述了研究的背景與突發(fā)事件謠言識別的意義,對國內有關機器學習應用于網絡謠言識別的研究,做出回顧總結,結合網絡謠言分析識別的一般流程,歸納相關研究的不足及日后主攻方向。在面對突發(fā)事件時,及時識別網絡謠言是一個極具艱辛的任務,如何順應大數(shù)據時代發(fā)展,實現(xiàn)算法自學習并在謠言產生初期完成其有效識別,還需研究專家不斷實驗探索,實現(xiàn)人工智能在謠言識別方面的應用。
[1]Yang F,Liu Y,Yu X,et al. Automatic detection of rumor on Sina Weibo [C]// ACM SIGKDD Workshop on Mining Data Semantics.ACM,2012:1-7.
[2]賀剛,呂學強,李卓,等.微博謠言識別研究[J].圖書情報工作,2013,57(23):114-120.
[3]程亮,邱云飛,孫魯. 微博謠言檢測方法研究[J].計算機應用與軟件,2013,30(2):226-228.
[4]姜贏,張婧,朱玲萱,等.網絡謠言文本句式特征分析與監(jiān)測系統(tǒng)[J].電子設計工程,2017,25(23):7-10+15.
[5]潘德宇,宋玉蓉,宋波.一種新的考慮注意力機制的微博謠言檢測模型[J].小型微型計算機系統(tǒng),2021,42(02):348-353.
[6]李莎,張懷文,錢勝勝,等.多模態(tài)多層次事件網絡的謠言檢測[J].中國圖像圖形學報,2021,26(07):1648-1657.
[7]陳耿,黃取治.半監(jiān)督學習的微博謠言檢測分析[J].電腦知識與技術,2021,17(15):12-13+19.
[8]首歡容,鄧淑卿,徐健.基于情感分析的用戶評論過濾模型研究 [J].數(shù)據分析與知識發(fā)現(xiàn),2017,1(7):44-51.
[9]鄧勝利,付少熊.網絡謠言特征分析與預測模型設計:基于用戶信任視角 [J].情報科學,2017,35(11):8-12,22.