• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于RNN的網(wǎng)絡(luò)輿情謠言判斷研究

    2020-09-26 11:43:52王淼郭陽(yáng)明陳澤林鐘林龍
    電腦知識(shí)與技術(shù) 2020年24期
    關(guān)鍵詞:網(wǎng)絡(luò)輿情

    王淼 郭陽(yáng)明 陳澤林 鐘林龍

    摘要:【目的/意義】對(duì)網(wǎng)絡(luò)中大量的輿情進(jìn)行真實(shí)與虛偽信息的判斷,保留真實(shí),去掉虛假,同時(shí)為政府輿情工作者提供謠言判斷進(jìn)行借鑒?!痉椒?過(guò)程】采集微博的謠言與非謠言的主題、回復(fù)等數(shù)據(jù)作為數(shù)據(jù)集,使用Paddle Fluid API編程,并配置循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network),使用數(shù)據(jù)集進(jìn)行模型訓(xùn)練,最后進(jìn)行模型分析檢測(cè)?!窘Y(jié)果/結(jié)論】通過(guò)RNN模型訓(xùn)練和數(shù)據(jù)分析,使輿情中的謠言事件數(shù)據(jù)化,挖掘文本中的虛假信息特征集,從而進(jìn)行更好的謠言判斷,同時(shí)也能使輿情工作者更好的控制謠言。

    關(guān)鍵詞:網(wǎng)絡(luò)輿情;循環(huán)神經(jīng)網(wǎng)絡(luò);謠言判斷

    中圖分類號(hào):TP311 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1009-3044(2020)24-0018-03

    1 引言

    根據(jù)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)2019年發(fā)展報(bào)告[1],到2018年底,中國(guó)網(wǎng)民的規(guī)模上漲到8.29億,新增5663萬(wàn)人,普及率高達(dá)59.6%,與2017年底相比增長(zhǎng)3.8%,比全球的平均水平高2.6%。伴隨著中國(guó)因特網(wǎng)產(chǎn)業(yè)的不斷發(fā)展,因特網(wǎng)在人們生活中的普及程度不斷提高,使得更加便利的新興產(chǎn)業(yè)也在迅速發(fā)展。與此同時(shí),信息爆炸的時(shí)代,新聞傳播變得更加重要,網(wǎng)絡(luò)信息傳播越來(lái)越快捷和方便,不僅讓公眾更容易發(fā)布信息,也縮短了信息傳播的時(shí)間,但也使得輿論容易受到大眾的影響,產(chǎn)生不同程度的謠言和虛假信息。因?yàn)槎喾矫娴脑颍行┦录倓偘l(fā)生,尚未被人們充分認(rèn)識(shí),一些虛假的言論往往會(huì)影響公眾的態(tài)度,從而導(dǎo)致突發(fā)事件的輿論在短時(shí)間內(nèi)迅速發(fā)酵[2],引發(fā)社會(huì)動(dòng)蕩。所以對(duì)網(wǎng)絡(luò)輿論中謠言判斷的研究就顯得非常重要,這有利于維護(hù)社會(huì)穩(wěn)定,營(yíng)造良好的網(wǎng)絡(luò)輿論氛圍。目前對(duì)于我國(guó)的輿情的研究現(xiàn)狀[3],存在多種研究方向,其中包括:研究輿情指標(biāo)體系、演化模型、輿情傳播途徑[4]、輿情識(shí)別分析、輿情數(shù)據(jù)分析、輿情預(yù)警等,在數(shù)據(jù)分析中又可以分為幾個(gè)小類,包括但不限于:用戶情感分析、用戶行為分析、謠言檢測(cè)判斷等。謠言檢測(cè)判斷的工作對(duì)于輿情工作者來(lái)說(shuō),重要性不低于輿情識(shí)別與輿情預(yù)警,有一個(gè)完善的謠言判斷機(jī)制可以大大節(jié)省輿情工作的時(shí)間和精力。根據(jù)以上情況,本文通過(guò)對(duì)微博的謠言與非謠言的主題、回復(fù)等數(shù)據(jù)進(jìn)行分析,通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)虛假數(shù)據(jù)的文本信息進(jìn)行捕捉和分析,對(duì)該謠言的特征集有一個(gè)更直觀清晰的認(rèn)識(shí),并對(duì)其進(jìn)行總結(jié)概括,尋找其不足和成熟之處??茖W(xué)有效地進(jìn)行謠言的甄別,為政府研判、預(yù)警機(jī)制建立以及應(yīng)急方案的確立等提供理論依據(jù)。通過(guò)對(duì)網(wǎng)絡(luò)輿情謠言的判斷檢測(cè)的深入研究打下基礎(chǔ),促進(jìn)對(duì)于網(wǎng)絡(luò)輿情實(shí)時(shí)監(jiān)控[5]、正確引導(dǎo)和科學(xué)控制的發(fā)展,以達(dá)到降低或避免因負(fù)面突發(fā)事件網(wǎng)絡(luò)輿情帶來(lái)的社會(huì)危害。

    2 相關(guān)謠言判斷方法分析

    目前在謠言識(shí)別領(lǐng)域主流的三種模型分別是基于內(nèi)容的建模如面向知識(shí)庫(kù)以及基于社交網(wǎng)絡(luò)的模型,下文主要介紹面向知識(shí)庫(kù)、面向內(nèi)容風(fēng)格、基于社交網(wǎng)絡(luò)這三種謠言判斷方法。

    2.1 面向知識(shí)庫(kù)

    面向知識(shí)庫(kù),即根據(jù)現(xiàn)有的專家系統(tǒng)進(jìn)行研究,加以利用,從而實(shí)現(xiàn)謠言判斷。事實(shí)確認(rèn)[6]系統(tǒng)與謠言識(shí)別[7]系統(tǒng)有些相似。該系統(tǒng)校真了文章中描述的觀點(diǎn)和目標(biāo)。與QA系統(tǒng)類似,它是NLP相對(duì)復(fù)雜的領(lǐng)域,作為知識(shí)的表達(dá)和知識(shí)的推理。知識(shí)數(shù)據(jù)庫(kù)數(shù)據(jù)集具有集中式分區(qū)方案。 1)專家系統(tǒng)[8]:由各個(gè)領(lǐng)域的專家創(chuàng)建的知識(shí)數(shù)據(jù)庫(kù)。顯然,這種方法的效率和可擴(kuò)展性很差。但是,對(duì)于垂直類別(生物學(xué),歷史記錄),可以嘗試使用更客觀的事實(shí)進(jìn)行分類。 2)集體智慧[9]:從用戶的集體知識(shí)的反饋中建立的一系列知識(shí)數(shù)據(jù)庫(kù)。在1和2可用之后,可以使用類似的檢索方法來(lái)評(píng)估新內(nèi)容的相似性,并充分利用累積的歷史內(nèi)容特征。 3)算法分類[10]:使用知識(shí)或案例圖來(lái)評(píng)估內(nèi)容的可靠性。當(dāng)前,最主要的開(kāi)放知識(shí)圖譜是DB Pedia和Google Relation Extraction的數(shù)據(jù)集。

    2.2 面向內(nèi)容風(fēng)格

    面向內(nèi)容風(fēng)格的謠言判斷方式是指:使用文章內(nèi)容本身的寫作風(fēng)格來(lái)保留句子的句法結(jié)構(gòu),并通過(guò)上下文無(wú)關(guān)的語(yǔ)法或其他深層的NLP模型(例如RST修辭依賴?yán)碚摚﹣?lái)捕獲語(yǔ)法信息。根據(jù)所記錄的文字信息的描述類型,作者分為兩類。這檢測(cè)了欺騙的程度以及主觀和客觀解釋的程度(更客觀和更公平的可能性更大)。令人震驚體的標(biāo)題黨屬于這一類。其中,可以與欺騙性新聞也許會(huì)使用的特征包括常規(guī)特征和聚合特征兩類。常規(guī)特征,例如頁(yè)面,文本,圖像,標(biāo)題等。聚合特征是幾種常規(guī)特征和子模型問(wèn)題的有監(jiān)督訓(xùn)練的結(jié)合。這些子模型的輸出可以用作欺騙消息區(qū)域中的聚合函數(shù)。圖1顯示了使用的主要特征集,主要通過(guò)圖文靜態(tài)內(nèi)容的樣式維度、文本維度[11]、圖片維度[12]、標(biāo)題維度四個(gè)維度特征進(jìn)行分類判斷,再通過(guò)對(duì)這四個(gè)維度特征進(jìn)行細(xì)化分類,最終得出判斷方式。

    2.3 基于社交網(wǎng)絡(luò)建模

    基于社交網(wǎng)絡(luò)主要是根據(jù)用戶在社交網(wǎng)絡(luò)中的行為和謠言傳播的軌跡構(gòu)建模型的一種建模方式。分為兩種,基于立場(chǎng)和基于傳播行為的。前者主要是基于用戶對(duì)內(nèi)容的操作(評(píng)論,點(diǎn)贊 ,舉報(bào)等等)構(gòu)建矩陣或者圖模型。而基于傳播行為對(duì)對(duì)象建模,類似 PageRank [13]的行為傳遞。1. 對(duì)虛假新聞的傳播游走軌跡跟蹤, 以及通過(guò)圖模型和演化模型中針對(duì)特定假新聞的進(jìn)一步調(diào)查;2. 識(shí)別虛假新聞的關(guān)鍵傳播者,對(duì)于減輕社交媒體的傳播范圍至關(guān)重要。

    3 模型構(gòu)建

    3.1 數(shù)據(jù)采集

    本次實(shí)踐所使用的數(shù)據(jù)是從新浪微博不實(shí)信息舉報(bào)平臺(tái)抓取的中文謠言數(shù)據(jù),數(shù)據(jù)集其中包括謠言2458條、非謠言2206條,其中數(shù)據(jù)格式都為json格式。如下圖中,text中字段為原文文字:

    數(shù)據(jù)的處理準(zhǔn)備階段的整體流程如圖2所示:

    1) 解壓數(shù)據(jù),讀取數(shù)據(jù)并解析,生成all_data.txt文件。需導(dǎo)入的包分別為:zipfile、os、random、PIL中的Image、PIL中的ImageEnhance、json

    (1)原始數(shù)據(jù)的解壓,將數(shù)據(jù)解壓為.txt文件格式,并且提取其中中文字段為數(shù)據(jù)元組。

    (2)劃分謠言與非謠言數(shù)據(jù)并將謠言與非謠言進(jìn)行標(biāo)記并統(tǒng)計(jì),將謠言數(shù)據(jù)、非謠言數(shù)據(jù)、全部數(shù)據(jù)分文件放入。并且將謠言標(biāo)注為0,非謠言標(biāo)注為1,同時(shí)運(yùn)用遍歷數(shù)據(jù)的方法解析謠言、非謠言數(shù)據(jù)總量,分別統(tǒng)計(jì)謠言、非謠言數(shù)據(jù)總數(shù)。最終統(tǒng)計(jì)結(jié)果為:謠言數(shù)據(jù)總量為:2458,非謠言數(shù)據(jù)總量為:2206。

    (3)之后將全部數(shù)據(jù)進(jìn)行亂序排列,寫入all_data.txt中。

    2) 生成數(shù)據(jù)字典。

    需導(dǎo)入的包分別為:os、multiprocessing中的cpu_count、numpy、shutil、paddle、paddle.fluid、PIL中的Image、matplotlib.pyplot。生成數(shù)據(jù)字典:讀取全部數(shù)據(jù)、并將數(shù)據(jù)生成一個(gè)元組,隨后將元組轉(zhuǎn)換成字典,保存在本地。

    3) 生成數(shù)據(jù)列表,并且對(duì)訓(xùn)練集以及驗(yàn)證集進(jìn)行劃分。

    對(duì)訓(xùn)練集和驗(yàn)證集進(jìn)行劃分:創(chuàng)建序列化表示的數(shù)據(jù),按照比例劃分訓(xùn)練集以及驗(yàn)證集,將其分別存放至eval_list.txt和train_list.txt。

    3.3 模型配置與訓(xùn)練

    3.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的介紹

    循環(huán)神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的算法之一,是一類以序列數(shù)據(jù)為輸入,在序列的推進(jìn)方向進(jìn)行遞歸且所有循環(huán)單元以鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。其中雙向循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)是比較常見(jiàn)的兩種循環(huán)神經(jīng)網(wǎng)絡(luò)。主要運(yùn)用于語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等領(lǐng)域,同時(shí)也可以處理包含序列輸入的計(jì)算機(jī)視覺(jué)問(wèn)題。

    3.3.2 模型配置

    在數(shù)據(jù)準(zhǔn)備的工作之后,我們就搭建了一個(gè)循環(huán)的神經(jīng)網(wǎng)絡(luò),并且對(duì)其中的文本特征鏡像了提取,完成微博謠言的檢測(cè)。其中,paddlePaddle API中dynamic_lstm接口已經(jīng)給我們實(shí)現(xiàn)了LSTM[14]。并且還定義了損失函數(shù)[15]以及準(zhǔn)確率的函數(shù)。

    (1) 搭建循環(huán)神經(jīng)網(wǎng)絡(luò)[16]。

    首先定義長(zhǎng)短期記憶網(wǎng)絡(luò),以數(shù)據(jù)的IDs作為輸入,以softmax作為全連接的輸出層,大小為2,也就是正負(fù)面。

    (2) 定義數(shù)據(jù)類型。

    定義輸入數(shù)據(jù),lod_level不為0指定輸入數(shù)據(jù)為序列數(shù)據(jù)

    (3) 定義損失函數(shù)和準(zhǔn)確率函數(shù)。

    ① 定義了一個(gè)損失函數(shù)之后,還有對(duì)它求平均值,因?yàn)槎x的是一個(gè)Batch的損失值。定義損失函數(shù)的作用是衡量模型預(yù)測(cè)的好壞。

    ② 我們還定義了一個(gè)準(zhǔn)確率函數(shù),這個(gè)可以在我們訓(xùn)練的時(shí)候輸出分類的準(zhǔn)確率。

    (4) 循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與評(píng)估。

    對(duì)模型進(jìn)行訓(xùn)練,在每一輪訓(xùn)練結(jié)束之后,使用驗(yàn)證集進(jìn)行驗(yàn)證,并求出相應(yīng)的損失值Cost和準(zhǔn)確率acc,并展示訓(xùn)練曲線以及訓(xùn)練結(jié)果。

    經(jīng)過(guò)以上步驟之后得到準(zhǔn)確率,表2展示的是損失值及準(zhǔn)確率。

    圖3為模型訓(xùn)練過(guò)程中的曲線圖,由此可以看出,當(dāng)損失值Cost值越小時(shí),準(zhǔn)確率acc值越高,最終的準(zhǔn)確率達(dá)到84%。

    4 研究結(jié)果與討論

    本文的研究從面向知識(shí)庫(kù)、面向內(nèi)容風(fēng)格、基于社交網(wǎng)絡(luò)建模這三方面在理論上方面說(shuō)明了謠言的判斷檢測(cè)可以從不同的方法路徑去了解文本數(shù)據(jù)的信息,獲取虛假信息的特征集。以微博的謠言與非謠言的主題和回復(fù)等數(shù)據(jù)作為數(shù)據(jù)集,采用Paddle Fluid API編程,并配置循環(huán)神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)定義網(wǎng)絡(luò)、定義損失函數(shù)、定義優(yōu)化的方案等來(lái)訓(xùn)練謠言與非謠言數(shù)據(jù)集,最后經(jīng)過(guò)模型的評(píng)估,來(lái)對(duì)信息進(jìn)行謠言的甄別。研究的結(jié)果顯示,經(jīng)過(guò)訓(xùn)練后的模型,在一定程度上可以通過(guò)虛假數(shù)據(jù)的特征集,從而來(lái)征甄別謠言和非謠言。同時(shí),為了更好地判斷謠言,可以選取以下特征集來(lái)進(jìn)行謠言判斷:

    (1) 非官方報(bào)社的轟動(dòng)型消息。網(wǎng)絡(luò)中出現(xiàn)的大新聞,例如:某癌癥被攻克,某衛(wèi)星將撞擊地球,需確定此類消息的來(lái)源,如果是某小媒體,或者個(gè)人消息來(lái)源,官方還為發(fā)布,這就是謠言。

    (2) 非共識(shí)的恐嚇。人對(duì)于未知的事物,本能地害怕。什么危險(xiǎn)會(huì)危及生命,基本上都是主流的專家專注領(lǐng)域,大體都會(huì)有全社會(huì)的共識(shí),比如對(duì)于心臟病、車禍、癌癥等這些危害,大家都有一個(gè)共同的認(rèn)識(shí)。但面對(duì)未知的領(lǐng)域的威脅,大眾選擇了“相信它的危害,而不相信它的無(wú)害”,而沒(méi)有精力和時(shí)間去研究這些問(wèn)題的真相。因此,只要你夸大事實(shí),恐嚇?biāo)?,并且主流科學(xué)和媒體沒(méi)有明確地?cái)喽ㄓ泻?,那就是謠言。

    (3) 來(lái)歷不明的信息。所有信息都要看發(fā)布人的身份,凡事假扮內(nèi)行,往往就是謠言。專家們會(huì)在他們的領(lǐng)域里有獨(dú)到的見(jiàn)解,但在其他領(lǐng)域里可能會(huì)出錯(cuò)。即使是著名記者,如果他的信息不是來(lái)自專業(yè)領(lǐng)域的權(quán)威專家,也不值得相信,比如張杰,作為一名歌唱家,根本就不是一名物理專家,那么他在物理領(lǐng)域的洞察力就不可信。即使是同一門學(xué)科的不同門類也不能含糊,如呼吸科對(duì)骨科所發(fā)表的見(jiàn)解,基本上也是隔行如隔山,沒(méi)有可信度。

    參考文獻(xiàn):

    [1] CNNIC. 中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].http://www.cac.gov.cn/2019-02/28/c_1124175677.htm,2019-02-28.

    [2] 張玉亮.基于發(fā)生周期的突發(fā)事件網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系[J].情報(bào)科學(xué),2012,30(7):1034-1037,1043.

    [3] 蔣研川, 肖鐵巖, 凌曉明. 新媒體環(huán)境下高校校園網(wǎng)絡(luò)輿論的現(xiàn)狀及引導(dǎo)策略研究[J]. 重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2012(1):142-148.

    [4] 趙劍華,萬(wàn)克文.基于信息傳播模型-SIR傳染病模型的社交網(wǎng)絡(luò)輿情傳播動(dòng)力學(xué)模型研究[J].情報(bào)科學(xué),2017,35(12):34-38.

    [5] 唐濤. 基于情報(bào)學(xué)方法的網(wǎng)絡(luò)輿情監(jiān)測(cè)研究[J]. 情報(bào)科學(xué), 2014(1).

    [6] 熊炎. 反駁改述謠言能夠消除事實(shí)幻覺(jué)效應(yīng)[J]. 現(xiàn)代傳播, 2018, 040(003):74-79.

    [7] 賀剛,呂學(xué)強(qiáng),李卓,等.微博謠言識(shí)別研究[J].圖書(shū)情報(bào)工作,2013,57(23):114-120.

    [8] 劉漢波. 作為風(fēng)險(xiǎn)文化的微信謠言——"無(wú)知羞恥"下的信息互酬與角色扮演[J]. 民族藝術(shù), 2017,(5):36-41.

    [9] 占欣, 夏志杰, 羅夢(mèng)瑩,等. 影響群體智慧抑制社會(huì)化媒體謠言傳播的因素研究[J]. 圖書(shū)館, 2018(8):85-90.

    [10] 林榮蓉. 基于敏感詞庫(kù)的微博謠言識(shí)別研究[D]. 中南財(cái)經(jīng)政法大學(xué), 2018.

    [11] 姜贏, 張婧, 朱玲萱,等. 網(wǎng)絡(luò)謠言文本句式特征分析與監(jiān)測(cè)系統(tǒng)[J]. 電子設(shè)計(jì)工程, 2017, 025(023):7-10,15.

    [12] 鄧勝利, 付少雄. 社交媒體附加信息對(duì)用戶信任與分享健康類謠言的影響分析[J]. 情報(bào)科學(xué), 2018,36(3):51-57.

    [13] Zhiwei Jin, Juan Cao, Yongdong Zhang,等. News Verification by Exploiting Conflicting Social Viewpoints in Microblogs[C]// Thirtieth Aaai Conference on Artificial Intelligence. AAAI Press, 2016.

    [14] 陳帆. 基于LSTM情感分析模型的微博謠言識(shí)別方法研究[D]. 重慶大學(xué),2018.

    [15] 楊桂元, 唐小我. 一種新的預(yù)測(cè)評(píng)價(jià)方法——損失函數(shù)法[J].預(yù)測(cè),1998,17(3):38-40.

    [16] 劉禮文, 俞弦. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及應(yīng)用研究[J].科技視界,2019(32):54-55..

    【通聯(lián)編輯:梁書(shū)】

    猜你喜歡
    網(wǎng)絡(luò)輿情
    新媒體環(huán)境下網(wǎng)絡(luò)輿情預(yù)警體系研究
    微博問(wèn)政與回應(yīng)中的政府形象塑造
    試論高校大學(xué)生網(wǎng)絡(luò)輿情引導(dǎo)方略
    自媒體時(shí)代下高校網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系構(gòu)建
    山東青年(2016年9期)2016-12-08 16:45:59
    新媒介生態(tài)環(huán)境下高職院校網(wǎng)絡(luò)輿情特點(diǎn)及研判機(jī)制思考
    山東青年(2016年9期)2016-12-08 16:38:43
    網(wǎng)絡(luò)輿情編輯能力構(gòu)成因素淺析
    今傳媒(2016年10期)2016-11-22 13:04:37
    網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
    數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
    “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
    淺析網(wǎng)絡(luò)輿情治理
    虞城县| 桂林市| 绿春县| 宿迁市| 蓬安县| 股票| 宣汉县| 锦州市| 南宫市| 牟定县| 海林市| 绵竹市| 山西省| 五台县| 惠东县| 凤山市| 抚远县| 鲜城| 廉江市| 乃东县| 阳朔县| 错那县| 汉中市| 沙田区| 西昌市| 乐陵市| 太谷县| 武城县| 惠水县| 花垣县| 临朐县| 河东区| 南充市| 刚察县| 德庆县| 朝阳县| 勐海县| 环江| 寿宁县| 普安县| 西乡县|