• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義不一致性的網絡暴力輿情預警方法*

      2024-04-25 01:45:26胡凱茜孫海春
      情報雜志 2024年4期
      關鍵詞:輿情暴力語義

      葉 瀚 胡凱茜 李 欣 孫海春

      (中國人民公安大學信息網絡安全學院 北京 102623)

      0 引 言

      隨著微博、百度貼吧等互聯網社交平臺的快速發(fā)展與移動終端的廣泛普及,在公開互聯網平臺中滋生的網絡暴力輿情發(fā)生地愈發(fā)頻繁。為此,及時預警網絡暴力輿情對于防止進一步的傷害并確保輿情可控至關重要。

      但網絡暴力輿情預警也面臨諸多挑戰(zhàn)。其關鍵挑戰(zhàn)之一是所需分析的目標數據量龐大。以主流社交媒體為例,每分鐘都有數以百萬計的帖子、評論和消息產生,導致很難實時識別潛在的網絡暴力內容。許多研究使用動力學模型來模擬和預測特定話題的輿論演化趨勢。然而,這些模型的構建需要大量的先驗知識或專家知識。另一個挑戰(zhàn)是網絡輿情內容本身的高度復雜性和變化性。俚語、諷刺、反語等表達方法的使用,為模型正確識別網絡暴力內容增加了極大的難度,為預測輿情整體趨勢增大了難度。此外,網絡暴力內容往往以極快的速度發(fā)展和變化。許多有監(jiān)督模型可能會受到訓練時所必需的人工標注數據的生產效率的制約,導致識別精度下降。

      受到軟件開發(fā)與自然語言處理中語義不一致性(Semantic Inconsistency,SI)概念的啟發(fā)[1-3],本文提出了基于語義不一致性的網絡暴力輿情預警方法,其原理是敏感地監(jiān)測當前內容相對于歷史內容的細微變化,從而實現預警。該方法能夠盡可能同時減少對于先驗知識的依賴、不需要全量完整數據、不依賴人工數據標注的方法來預警與網絡暴力相關的潛在事件的爆發(fā)。

      1 相關工作

      1.1 網絡暴力輿情的檢測與預警

      隨著互聯網的迅速發(fā)展,社交媒體平臺成為人們溝通日常、分享信息、表達觀點的重要渠道。然而,網絡暴力、極端主義、網絡色情等有害內容的泛濫已經成為網絡空間內的嚴重問題。這些內容不僅會損害個人心理健康,甚至有可能對社會穩(wěn)定和國家安全造成威脅。

      近年來,研究人員運用了多種機器學習技術來檢測和過濾網絡暴力等有害內容[4-7]。例如,Pawar等人的研究表明[8],在檢測社交媒體中的網絡暴力內容方面,支持向量機(Support Vector Machines,SVMs)等有監(jiān)督的機器學習算法能夠取得較高的準確率。Ghosal和Jain使用無監(jiān)督方法識別大規(guī)模數據集中的有害內容[9]。Mozafari等人研究使用預訓練語言模型來檢測和分類社交媒體上的網絡暴力言論[10]。雖然以上研究在探測網絡暴力內容中取得了較好的效果,但缺乏對于網絡暴力輿情的預警預測能力。

      在實現網絡暴力輿情的監(jiān)測預警方面已有多種不同角度的方案研究。研究人員開發(fā)了監(jiān)測系統(tǒng)以監(jiān)測Twitter中仇恨言論的演變[11]。此外,Lingiardi等人根據社交媒體內容和評論來實時監(jiān)測少數群體可能的異常行為[12]。另一些研究通過融合各種數據源或數據特征來預測網絡暴力輿情發(fā)生的可能性。Pratama等人提出利用社交網絡分析方法來預測網絡暴力輿情發(fā)生可能性[13]。類似地,Atoum設計了基于文本情感特征的方法來識別和預測可能參與網絡暴力的個體[14]。

      雖然這些研究在檢測和預防網絡暴力輿情方面取得了重大進展,但仍然缺乏能夠在網絡暴力內容大規(guī)模出現、造成嚴重網絡輿情發(fā)生之前進行精確預警的技術方法,需要更高效、通用、簡潔的方法以識別和預警網絡暴力等有害內容所造成的網絡輿情。

      1.2 網絡輿情趨勢預測

      網絡暴力輿情的產生與發(fā)展極為迅速且高度不確定,往往會引發(fā)意料之外的輿情危機。通過預測網絡輿情趨勢可以更好地應對潛在危機。近年來已有許多方法可以對輿情進行精確模擬[15-17],并且能夠預測互聯網上特定主題的輿情趨勢。

      在早期的預測網絡輿情趨勢的研究中,研究人員通過輿情趨勢預測現實活動。Tumasjan等人運用情感分析技術識別推文中蘊含的情感,然后基于Twitter數據探測選民的政治傾向,從而預測2009年德國聯邦大選結果[18]。另外,Rizk等人結合情感分析技術[19-21]和機器學習技術,從基于地理位置的Twitter推文中預測2020年美國總統(tǒng)大選的結果[22]。

      另一種預測輿情趨勢的方法是在大規(guī)模的文本數據中使用主題建模技術識別潛在的主題以預測輿情[23]。Wang等人提出了基于主題建模技術的社交媒體輿情檢測方法[24]。Zhang等人將主題建模技術應用于大型微博語料庫中[25],分析了COVID-19疫情發(fā)展期間的輿情演化。

      目前,基于深度學習的方法已經廣泛應用于網絡輿情趨勢的預測中。例如,Ali等人在Twitter等社交媒體平臺的基礎上[26],設計了用于預測巴基斯坦大選結果的深度學習模型。Qian等人利用深度神經網絡GloVe分析推文數據[27],以研究NFT交易量與Twitter相應主題的每日活躍度之間的相關性。

      此外,研究人員還使用時間序列分析來預測網絡輿情趨勢。例如,Su等人提出基于ARIMA模型和改進的季節(jié)性灰色分解的集成模型[28],應用于“杭州林生斌事件”和“唐山打人案”這兩個事件的輿論熱度預測中,相較于與其他方法相比取得了較高的準確率。

      綜上所述,近年來研究人員已經應用情感分析、主題建模、深度學習和時間序列分析等多種方法以預測網絡輿情趨勢。這些方法達到了較好的效果,在實際應用中具有很大的潛力。而本文在上述研究基礎之上,提出了一種專注于建模和監(jiān)測語義不一致性的方法,以期實現網絡暴力輿情的預警。

      2 基于不同時序語義不一致性的網絡暴力輿情預警方法

      2.1 現實條件下的理想網絡暴力預警模型

      為設計現實條件下具備實踐意義的預警模型,本文首先基于現實需求分析網絡暴力輿情預警模型理應具備的基本特征。

      a.低先驗知識。很多預警模型在進行仿真實驗時定向收集了特定關鍵詞的數據,然而這在真實條件下是難以滿足的。因此,為了提升網絡暴力預警模型的現實可用性,本文所設計預警模型應當盡量減少對于事件關鍵詞的依賴。因為網絡暴力內容的主題是多樣的、變化迅速的。

      b.及時性。預警模型發(fā)出網絡暴力輿情預警時,該事件應當仍然處于萌芽期或發(fā)展期。如果發(fā)出預警時事件熱度已經處于頂峰,此時再發(fā)出預警將不具備現實意義。因此,理想的預警模型應當在網絡暴力輿情討論熱度達到頂峰前的合理時間發(fā)出預警信號。

      c.數據可行性。真實環(huán)境下的數據量過于龐大,難以全量獲取數據,無法實現實時的內容分析。理想且可行的模式是通過采樣的方式抽取部分特定內容以實現有效預警,而不必需要對目標網站的所有內容進行分析。

      綜上所述,本文認為現實需要的預警模型應當至少滿足以下三個基本條件:①不需要與事件直接相關的特定關鍵詞;②應當在事件討論熱度到達頂峰前的合理范圍內進行預警;③不需要全量獲取目標站點或平臺的所有數據。

      2.2 基于不同語義不一致性的網絡暴力輿情預警模型

      為了在上述條件下成功實現預警,需要考慮一個基本的事實:對于任意一個關鍵詞,如果無人使用該詞語在互聯網中發(fā)表新的內容,那么不論何時搜索包含該關鍵詞的內容,搜索結果的“內容成分”應當是保持相對不變的。相反,如果網絡中即將出現某件極高討論度的事件,那么將會出現大量相同主題的評論、轉發(fā)內容和原創(chuàng)帖子。

      考慮到上述事實,便可以著手考慮如何監(jiān)測網絡暴力輿情的發(fā)生。由上述分析可知,高熱度的突發(fā)事件在發(fā)展過程中,必然存在一個用戶討論陡然激增的時期。在這一時期中,將會有大量文本內容集中于同一主題。因此,如果預警模型能夠靈敏地捕捉到某個主題內容的快速激增,便可以實現網絡暴力輿情的預警。

      但問題在于,預警模型并不了解即將發(fā)生的網絡暴力輿情的直接相關關鍵詞。如果想要捕捉到有關某一個網絡暴力輿情主題內容的快速激增,就只能實時監(jiān)測目標平臺的所有數據。這顯然與2.1節(jié)提到的限制條件相悖。

      為解決這一問題,本文考慮了網絡暴力內容監(jiān)測的特殊性。雖然每一起事件的直接相關關鍵詞并不相同,但是網絡暴力言語中的侮辱性詞匯一般相對固定。這是因為人們向某一對象施加言語暴力時所使用的核心詞匯并不會發(fā)生劇烈變化。

      因此,利用上述假設提出以下預警監(jiān)測方法:首先,收集網絡暴力言語中常用的侮辱性詞匯。這些詞語往往相對固定,且在一系列網絡暴力輿情中都被反復利用。然后,收集過去一段時間內包含侮辱性詞匯的內容,并分析其語義。同時收集給定的歷史時間段內包含這些詞匯的內容。最后,比較過去一段時間和給定歷史時期內的語義是否一致,如果存在較大變化,即可判定網絡暴力輿情發(fā)生的可能性。

      總的來說,如果能不斷地監(jiān)測和比對本時段和先前時段涉及特定關鍵詞的內容的整體內容相異性,就可以對即將發(fā)生的高討論度、高熱度事件作出預報。本文模型的主要思路見圖1,該圖闡述了應用該思路的預警模型的主要框架。

      圖1 本文所提方法的框架

      如圖1所示,本文將整個過程劃分為三個不同階段:數據采樣和主題建模、計算語義不一致性、語義不一致性指數監(jiān)測。

      a.數據采樣和主題建模。該階段需要從實時數據源中獲取最近一個時段和過去一個時段中有關特定核心詞匯的文本內容。然后利用主題建模技術對兩個不同時段的內容進行分析,獲取兩個時段內的主題內容;

      b.語義不一致性建模。該階段將根據兩個時段的主題內容計算語義的不一致性(SI)。SI越大,意味著兩組不同時段的語義之間的差異性越大;

      c.SI值監(jiān)測。該階段需要對SI時間序列進行監(jiān)測,一旦出現異常值則會觸發(fā)預警。

      上述框架的實現存在以下幾個難點:采用何種策略和方法進行實時數據的采樣?采用何種主題建模技術?如何計算兩組內容之間的語義不一致性?如何確認SI時間序列中的異常值的出現并據此發(fā)布預警?

      2.3 實時數據采樣策略

      如圖2所示,對實時數據源采用的采樣策略可以描述如下:模型需要對時間窗口A和時間窗口B的文本內容同時進行主題建模,分別以CA和CB表示。如式1所示,時間窗口A僅包含基礎窗口(CBasic)中的文本,即過去一段時間的文本。如式2所示,時間窗口B同時包含了基礎窗口和增量窗口(CIncre)中的文本。增量窗口中的文本是指發(fā)布時間距離當前時間最近的一部分文本內容。所有被采樣的數據都必然包含與網絡暴力直接相關的核心詞匯。這些核心詞匯被事先指定,因此采樣時不需要獲取平臺中的所有數據。

      圖2 采樣策略

      CA=CBasic

      (1)

      CB=CBasic+CIncre

      (2)

      進一步來講,在采樣窗口B中同時獲取基礎窗口和增量窗口的數據,是因為如果僅采用增量窗口將會使得預警模型過于敏感。現有的采樣策略能夠很好的凸顯出增量窗口與基礎窗口之間的內容變化程度。

      2.4 用于主題建模的LDA模型

      LDA(Latent Dirichlet Allocation)是一種用于主題建模等領域的文檔主題生成模型[29-30]。LDA模型在處理文本數據時,其輸出作為輸入文本的摘要,經常被用于各種領域。其輸出可描述為:描述主題zn的一組詞語Wz(以主題詞命名)和屬于主題zn的Wz中每個詞wi的權重。

      根據上述描述,LDA模型可以發(fā)現存在于文本文檔x的潛在主題z,并將每個文檔x分配到一個主題集中。LDA還將相關單詞或標記映射到潛在主題集合z中,可以通過觀察LDA的生成過程來理解它的輸出。

      文檔x在LDA模型中的主題生成過程可以用以下步驟表示[31]:①選擇N∈Poisson(σ);②選擇θ∈Dirichlet(α);③對于長度為N的文檔中的每個詞語wn,選擇一個主題zn∈Multinominal(θ),然后從p(wn|zn,β)中選擇一個詞語wn,即一個基于主題zn的多項式概率。

      其中主題數K是預先定義的。而由一組詞語組成的文檔xi的邊緣分布的定義見式(3):

      (3)

      詞語概率由矩陣β∈[0,1)K×#W實現參數化。模型參數α和β可以通過使用最大似然估計或貝葉斯推斷從語料庫中觀察到的詞語計數來估計其數值。

      如式(4)和式(5)所示,采樣窗口A和采樣窗口B (CA和CB)中的內容需要經過LDA模型處理。LDA模型的輸出(ZA和ZB)如圖3所示。每一行代表文本中的一個話題。方框中的詞語為該主題中的一個主題詞,箭頭所指的數字為該主題詞在本主題中對應的權重。

      圖3 LDA模型輸出示例

      ZA=LDA(CA)

      (4)

      ZB=LDA(CB)

      (5)

      2.5 語義不一致性建模

      在本文模型中,主題建模實現了對語義內容的提取,其輸出的文本主題即為文本語義內容的高度概括。為了實現語義不一致性的建模,接下來需要計算兩組主題間的不一致性。兩組主題間的語義不一致性直接反映了兩個時間窗口內語料語義的不一致性。

      在每一組主題中往往包含著多個獨立的主題。在計算兩組主題的不一致性之前,需要考慮單獨的兩個主題之間的相似度如何計算。因為將兩個主題之間的相似度取倒數或者取負數即可表征主題之間的不一致性,也即主題的語義相異性。本節(jié)基于LDA主題模型的輸出結果,提出了一種權重加和算法以解決主題相似度的計算問題,如算法1所示。該算法的核心思想是,如果兩個主題之間相同位置順序(按詞語權重大小排序)上相同的詞語越多,則兩個主題越相似。縮放因子(記為t)用于將最終輸出分數s縮放到合理的范圍。

      算法1 主題相似性計算

      輸入:主題1的詞匯集合WA,主題1的詞匯權重QA,主題2的詞匯集合WB,主題2的詞匯權重QB.

      輸出:主題1與主題2的相似性分數s.

      c←0

      end if

      end for

      Returns

      算法1的流程如下:

      第1步,先輸入相關數據集:分別為主題1、2的詞集WA、WB,兩個詞集中每個詞的權重QA、QB,縮放因子t。

      第2步,初始化累加器c。

      第3步,比較兩個詞集相同位置順序(按照詞語權重大小排序)的詞語是否相同,如果相同,則把相同位置上詞語的權重和累加入累加器c。

      第4步,重復步驟3直至對兩詞集完成遍歷。

      第5步,.計算兩個主題的相似度得分s。兩個主題相同位置順序上相同的詞語越多,則兩個主題越相似。再通過縮放因子將最終輸出分數縮放到合理的范圍。

      接下來將描述兩組主題之間的語義不一致性如何計算。首先,假設兩組主題完全相似,那么這兩組主題的語義不一致性指數應該非常低。一組主題中的任意一個應當可以找到另一組主題中的唯一一個與其對應。然而,主題模型輸出主題時往往不具備特定的順序。因此,本節(jié)使用遍歷計算的方法,在一組主題中選擇一個主題,并計算它與另一組主題中每個主題的相似度。然后保存這個過程中產生的最高分。最后將所有的最高分綜合起來,作為兩組主題的語義不一致性。更為重要的是,如果發(fā)現在最近一個時間段內的某一個主題無論如何也找不到與上一個時段相匹配的主題,那么該主題就有可能是即將發(fā)生的網絡暴力輿情的主題。具體見算法2。

      算法2 語義不一致性計算

      輸入:A主題集TA,B主題集TB.

      輸出:A主題組所代表的語料與B主題組所代表的語料之間的語義不一致性數值st.

      st←0

      smax←0

      ifstmp>smaxthen

      smax←stmp

      end if

      end for

      st←st+fs(smax)

      end for

      Returnst

      算法2是基于遍歷計算的方法來解決兩組主題之間語義相異性的計算問題。假設兩組主題完全相似,一組主題中的任何一個應當可以找到另一組主題中唯一一個與其對應。但是考慮到主題模型輸出主題時往往不具備特定的順序,本算法使用遍歷計算的方法。算法過程描述如下:

      第1步,輸入主題集TA、TB。每個主題集都有相同數量的主題。

      第2步,選取主題集A中的一個主題,同時遍歷主題集B中所有主題,利用算法1計算主題集A中的那個主題與主題集B中最不相似的主題的語義不一致性數值。

      第3步,重復步驟2到步驟3直至主題集A中每一個主題都計算了其與主題集B中最不相似的主題之間的語義不一致性數值。

      第4步,將主題集A中所有主題與主題集B中最不相似的主題之間的語義不一致性數值加和,輸出兩主題集相異性得分st。

      t時刻SI計算可以描述為:

      TDIt=FA(ZA,ZB)

      (6)

      式中FA代表算法2。

      在實際計算過程中,算法2包含感應函數fs。公式st←st+fs(smax)將由算法1輸出的主題相似度分數轉化為SI,因此稱之為相異性感應函數。本節(jié)設計了如下兩種函數,分別稱為函數A(式7)和函數B(式8),分別適用于不同的場景。

      y=x-2

      (7)

      y=(log(x))2

      (8)

      為充分說明兩種函數的性質,圖4展示兩個函數的圖像。虛線代表基于反比例函數設計的相異性感應函數A,而實線是基于對數函數設計的相異性感應函數B。

      圖4 算法2中的兩個可用函數

      由于算法1輸出的主題相似度分數的值域是[0,1],故相異性感應函數需要在[0,1]區(qū)間之內保持單調遞減。如果兩個主題越相似,那么他們的不一致性分數應該越低。

      而本文提供的兩種相異性函數均滿足上述基本要求,但是這兩種函數還是存在一些微妙的不同,因而適合不同的場景。如圖4所示,函數A在輸入為1時輸出也為1,而函數B在輸入為1時輸出為0(參考圖中垂直虛線與水平虛線)。隨著輸入x的減小,函數B的輸出增長速度顯然慢于函數A。這意味著函數A會非常顯著地放大兩個主題間的任何不同。但是函數B則不如函數A敏感。除非兩個主題非常不同,否則主題間的差異很難用函數B感知。這兩種函數具有不同的感受特性,在后續(xù)的實驗中將會證實這兩種函數具有不同的應用場景。

      2.6 基于異常檢測的不同時序語義不一致性的監(jiān)測

      在預警模型的實際運行中,每隔一段時間就會輸出該段時間的SI。SI數值的時序序列處于波動之中,但并沒有一個確切的預警閾值,須比較過往時間段內的SI數值來判斷本時段的SI數值是否存在異常。

      為此考慮使用無監(jiān)督的時序異常檢測方法來進行對SI數值的監(jiān)測。無監(jiān)督方法的優(yōu)勢在于無需人工識別和數據標注即可發(fā)現異常值,正是本文所指出的應用場景的關鍵需求。

      本節(jié)采用雙窗口波動率檢測法對SI數值進行監(jiān)測。兩個窗口內數據(Dt1和Dt2)之間的波動率vn可以定義為:

      (9)

      其中σ(D)的定義是:

      (10)

      [Q1-c×IQR,Q3+c×IQR]

      (11)

      IQR由式(10)定義。

      IQR=Q3-Q1

      (12)

      其中,Q1代表整體時序數據的第一四分位數,Q3代表第三四分位數。c是調節(jié)因子。

      3 實 驗

      為了驗證本文模型的有效性,本文需要確定現實世界中所存在的網絡暴力輿情。因此,首先收集了社交媒體“微博”的真實數據,并為檢測本文模型的性能而界定了高熱度事件的標準,使用本文模型進行模擬預警。最后,通過比較真實數據和模擬的預警數據來計算本文模型的預警準確率和覆蓋率。

      3.1 數據收集與分析

      本節(jié)首先確定了在互聯網社交媒體中所存在的一系列網絡暴力內容中所使用的高頻關鍵詞。然后基于這些關鍵詞收集了2022年第三季度社交媒體“微博”中的語料內容,總計218 395條。每月發(fā)帖數量見表1。

      表1 預處理后的數據統(tǒng)計

      為了驗證本文模型有效性,需要確認在此期間該社交媒體中出現了哪些高討論度的網絡暴力輿情。使用LDA模型對2022年第三季度內的每個月進行主題建模后,獲取該月份內的語料中存在的主題內容,以及相關主題內容的時間分布。表2展示了部分月份的主要主題及主題詞。部分主題涉及政治、性別、地域爭議或嚴重的人身攻擊,為避免不必要的爭議,本文未詳細闡述和展示所有主題,僅節(jié)選了部分主題進行展示。

      表2 2022年7—9月期間部分主題內容總結

      3.2 實驗設置與評價指標

      3.2.1實驗設置

      在數據預處理階段,出現次數較多的詞語不能突出不同文本樣本之間的差別,而出現次數較少的詞語能提供的有效語義信息較少且徒增計算量,因此,為合理地降低LDA模型所使用的詞典大小,減少實際應用過程中運算及預警所需的時間,本節(jié)通過LDA模型實現詞語的輕量過濾:如果一個詞在LDA主題模型聚類詞典中出現的次數少于10次或超過60 %,則在預處理過程中直接刪除該詞。

      經大量測試實驗發(fā)現,最佳的基礎時間窗口大小為48~96小時。從原理上分析,如果采樣時間過短,則主題內容的波動往往過大,導致預警的準確率急劇下降。如果采樣時間過長,當前時間窗口內的數據變化將不再顯著,同樣會影響預警準確率。

      本文將LDA模型進行文本成分分析時最佳的主題詞數量設置為4~5。該數值范圍的設置一方面是基于實驗測試,另一方面可以由模型預警的原理進行分析:如果輸出的主題數量過多(>10),就會導致語料整體語義的不一致性分散在不同的主題中,模型將難以靈敏地檢測到兩個時段中不同語料間的不一致性。另外,如果輸出的主題數量過少(<4),兩段語料的不一致性就會在極少的主題中被不合比例地放大,導致模型的誤報率過高,同樣影響預警模型的實際性能?;A時間窗口的采樣數據量一般可以設置為1500(不超過2000)。如果采樣數據量過大將會影響計算效率,從而大幅增加預警的時間消耗。

      實驗發(fā)現,為確保模型的有效性,增量時間窗口與基礎時間窗口的采樣比例應當不小于10%,不大于50%。因此本節(jié)將增量時間窗口的采樣數據量設置為不超過基礎時間窗口樣本的37%。模型參數如表3所示。

      表3 模型參數

      3.2.2評價指標

      本實驗選擇準確率作為評價指標之一,準確率可以定義為:

      (13)

      其中TP表示正確預測網絡暴力輿情的預警次數,TN表示錯誤預測的預警次數。

      另一個指標是覆蓋率。覆蓋率的含義是正確的預警覆蓋了多少真實發(fā)生的事件,即有百分之多少的真實事件被正確地預報了。其計算公式如下:

      (14)

      其中,FP表示未被正確預測的網絡暴力輿情的數量。

      3.2.3網絡暴力輿情的特征界定與有效預警界定

      輿情事件內容熱度變化基本符合正態(tài)分布假設,本節(jié)考慮到模型的靈敏性和通用性。本節(jié)提出了一種基于實際監(jiān)測需求的網絡暴力輿情的判別方法:如果某日該主題的發(fā)帖數量同時超過前兩天任意一天發(fā)帖數量的2.5倍,則可以認為發(fā)生了網絡暴力輿情。該判別標準還可以描述為:任意一天某主題的發(fā)帖數量相比于前兩天任意一天的發(fā)帖數量增長率均超過了150%,則該主題所指向的輿情歸類為突發(fā)網絡暴力輿情。上述定義可以描述為:

      ct=now>2.5×ct=now-△t∩ct=now>2.5×ct=now-2△t

      (15)

      其中ct=now表示當天在某一特定主題上的發(fā)帖數量。

      該判別標準主要突出事件的突發(fā)性,即滿足該標準的事件往往是討論量突然激增的事件,符合對網絡暴力輿情監(jiān)測的要求。此外,在本文驗證實驗中,上述標準作為數據篩選的標準,所有驗證數據還經過了人工進一步確認。

      考慮到現實應用中,相關人員往往需要充足的時間和討論以應對相關事態(tài)和作出有益的決定,因此一次有效預警信號發(fā)出的時間應當顯著地早于網絡暴力輿情的討論熱度到達最高點的時期。為有效檢驗本文模型的預警效率,在實驗中將有效預警的標準界定為:高熱度事件達到討論峰值的當天12:00前36小時內發(fā)出預警信號即為有效預警。

      3.3 實驗結果

      3.3.1模型預警結果

      為了更好地展示相應主題的熱度,圖5、圖6和圖7中僅保留了表2中相應主題的熱度折線,展示了網絡暴力輿情的實際發(fā)生情況與模型發(fā)出預警的情況。需要說明的是,即便實驗是在模擬場景下使用模型進行預警,但是模型進行預警時,僅能獲取當前時間窗口的數據。因此模型的預警條件與真實應用場景無異。此外,網絡暴力輿情的實際發(fā)生情況是基于當月的全量數據進行分析的,以確保對于事件發(fā)生時間和事件內容描述的準確性。

      圖5 2022年7月預警結果

      圖7 2022年9月預警結果

      首先,每張圖片上方的柱狀圖為當月每4小時一次所計算的SI。為了更好地觀察其變化趨勢,取所有SI的相反數繪制成圖。這意味著,對圖中SI取絕對值才是真實的語義不一致性。其中白色條塊表示該時段內的SI處于正常范圍。而黑色條塊表示該時段內的SI已被時序異常檢測模塊監(jiān)測為異常值,模型發(fā)布預警,且在36小時內確實發(fā)生了網絡暴力輿情,即有效預警。而灰色條塊同樣為時序異常檢測模塊檢測為異常值,但是36小時內并沒有發(fā)生網絡暴力輿情,即錯誤預警。黑色區(qū)塊越多,意味著模型預警的準確率越高。灰色區(qū)塊越多,意味著模型的預警準確率越低。區(qū)塊的高度代表該時段內SI數值。

      然后是每張圖片下方的柱狀圖。每一個條塊意味著當天有網絡暴力輿情的發(fā)生,其中有白色和灰色的條塊。灰色條塊即為模型成功預警的網絡暴力輿情。白色條塊為模型沒有成功預警的輿情。而條塊的高度表示著當天所發(fā)生的網絡暴力輿情的討論熱度。

      最后是每張圖片下方的折線圖。折線圖為不同主題在每一天的發(fā)帖數量,與3.1節(jié)數據相同,詳細的準確率和覆蓋率數據匯總在表4中。

      表4 準確率和覆蓋率統(tǒng)計單位:%

      3.3.2實驗結果分析

      從表4及圖5—圖7可以觀察到,在長達92天的真實數據預測中,7月和8月的預測準確率和覆蓋率均較高。模型在7月份準確預測了發(fā)生在7月10—7月24日之間的密集的高討論度事件。模型在8月份的預警結果中表現出最高的準確率和覆蓋率,除了8月16—24日之間的部分事件未能成功預測,其他的高討論度事件均得到了很好的預測。在9月份,模型的預測準確度仍然比較高,但是模型的預測覆蓋率大幅度下降,僅達到38%。經分析,可能是因為在9月份中存在部分主題(如圖7中的Topic 10)持續(xù)保持較高的討論熱度,導致預測不準確。

      為此使用函數B重新對9月的數據進行另外的模擬預警實驗,如圖8所示。實驗結果表明,使用函數B大幅度提升了預警模型在9月的預警效果,預警的準確率和覆蓋率均得到了顯著提升。在圖7中可見原本使用函數A時無法準確預警的事件(9月4—11日之間)大多數在使用函數B時都得到了準確的預警。由此可見,函數B更加適合在有大量數據干擾的情形下進行準確預測。

      圖8 2022年9月函數B的預警結果

      從實驗數據來看,預警模型的整體覆蓋率存在一定的波動,但就本文所采集的樣本數據所進行的實驗結果平均來看均能達到60%以上。通過仔細檢閱未能覆蓋的事件可以發(fā)現,未能覆蓋且符合本文定義的、需要進行預警的網絡輿情大多是早期事件的再次爆發(fā)或者反轉內容。此時由于相關的主題信息已經存在于既往的時間窗口內,因此需要建立更加敏感的感應函數以探測極為細微的語義組織變化??偟膩碚f,本文中所提到的“函數A”更適合監(jiān)測事件剛開始的初期,“函數B”更適合監(jiān)測已經發(fā)酵的事件是否存在突發(fā)反轉或新的討論點。此外,本文模型雖然未能達到絕對精準的預測預警精度,但可為“無先驗知識預警”提供具備一定參考意義的實現方法。

      3.3.3不同時序異常監(jiān)測方法的比較

      為了說明本文為語義不一致性所應用的時序異常監(jiān)測方法具備相對的合理性,本文選取了三種主流無監(jiān)督時序異常監(jiān)測方法進行對比實驗。表5和表6分別展示了包括本文方法在內的4種檢測方法的準確率與覆蓋率。其中方法1是基于時間窗口中位數波動的異常檢測方法,方法2是基于時序數據廣義方差的檢測方法,方法3是基于自回歸的異常監(jiān)測方法。從表5和表6中的數據對比可見,本文方法在監(jiān)測語義不一致性的異常方面具備較優(yōu)越的性能。

      表5 不同時序異常檢測方法的準確率比較 單位:%

      表6 不同時序異常檢測方法的覆蓋率比較 單位:%

      3.3.4預警案例研究為了展示本文預警模型對于網絡暴力內容主題的預警能力,將展示2022年8月9日達到討論最高峰的網絡暴力輿情。該輿情的主題已經在表2中第6行展示,即8月的“Topic 10”《光與夜之戀》游戲官方運營的玩家社區(qū)被指責縱容社區(qū)中的網絡暴力行為。

      在圖9所示的細節(jié)放大圖中,描述了主題“Topic 10”的相關內容在8月7—14日一周之內的熱度。折線圖表示關于該特定主題的帖子數量,條形圖則顯示預警模型輸出的SI數值。其中黑色的條塊是對網絡暴力輿情的成功預警,灰色條塊代表該時段內模型未預警且沒有網絡暴力輿情發(fā)生。出于分析的目的,僅對圖5中的相關主題進行說明。

      圖9 2022年8月9日爆發(fā)的網絡暴力輿情

      從圖9中可以觀察到,在8月7日時僅有兩條相關的討論。而在8月8日時相關討論已經迅速增長到492條。最后在8月9日達到最高峰,采集數據達到了2295條。此后逐漸減弱,略有波動。

      如表7所示,模型共有兩次相關的預警,分別是圖9中箭頭所指的預警A和預警B。兩次預警都成功輸出了與所選事件相關的關鍵詞。其中,加粗的關鍵詞代表與所選事件成功匹配的關鍵詞。對比實際的“Topic 10”內容可見,本文模型不僅可以對是否將要發(fā)生網絡暴力輿情進行預警,還能夠輸出相關的主題關鍵詞,為實際的預警監(jiān)測與干預提供進一步的支撐。

      表7 預警案例

      4 結 語

      互聯網中的網絡暴力內容正隨著社交媒體的深度滲透而廣泛存在且極易造成惡劣影響,但目前對于網絡暴力輿情的預警仍然較為困難。因而本文提出了基于語義不一致性的網絡暴力輿情預警模型。本文使用微博真實數據進行了長時間、大窗口的現實仿真實驗與突發(fā)事件模擬預警。在長達92天的現實世界真實數據中,模型對網絡暴力輿情的預測取得了較高的準確率和覆蓋率。希望本文能夠激發(fā)更多關于開發(fā)有效的網絡暴力預警系統(tǒng)的研究,為創(chuàng)造一個更安全、更和諧的網絡環(huán)境做出貢獻。此外,模型所具備的“早期預警”特性和輸出主題詞的預警方法在一定程度上能夠溯源重大網絡輿情傳播的起點,為相關工作人員提供指引,以及時關注實際應用中引發(fā)輿情的事實與緣由。

      猜你喜歡
      輿情暴力語義
      反性別暴力
      “暴力”女
      語言與語義
      暴力云與送子鸛
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      “上”與“下”語義的不對稱性及其認知闡釋
      現代語文(2016年21期)2016-05-25 13:13:44
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      認知范疇模糊與語義模糊
      向暴力宣戰(zhàn)
      昭平县| 晋江市| 蒙自县| 大城县| 沁阳市| 民勤县| 辽宁省| 梁平县| 咸阳市| 南皮县| 连江县| 宁陵县| 原阳县| 马山县| 马尔康县| 聂荣县| 吴旗县| 蓝田县| 隆子县| 师宗县| 大英县| 和平县| 定陶县| 双鸭山市| 高青县| 达拉特旗| 安多县| 仙桃市| 绥滨县| 海原县| 惠来县| 白城市| 容城县| 仁寿县| 平安县| 丰城市| 刚察县| 库尔勒市| 罗定市| 江安县| 射洪县|