• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于時(shí)間序列的微博謠言檢測*

    2022-09-28 01:40:30韓連金潘偉民張海軍
    關(guān)鍵詞:時(shí)間段謠言聚類

    韓連金 潘偉民 張海軍

    (新疆師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 烏魯木齊 830054)

    1 引言

    微博是幫助人們發(fā)布、傳播和共享信息的開放式社交媒體平臺(tái)。憑借文本簡短及使用便捷等特點(diǎn),吸引了大量用戶,改變了社會(huì)的信息傳播格局。作為開放的公共信息平臺(tái),微博的低門檻造就了謠言產(chǎn)生的低成本,導(dǎo)致其不可避免地被注入大量謠言[1],而這些謠言的傳播會(huì)對(duì)用戶使用、平臺(tái)發(fā)展和國家穩(wěn)定造成不良影響[2]。因此,研究如何快速有效地檢測微博中的謠言具有重要的現(xiàn)實(shí)意義。

    微博事件是由源微博及其相關(guān)的微博、轉(zhuǎn)發(fā)和評(píng)論一起組成,是典型的時(shí)間序列數(shù)據(jù),包含豐富的上下文信息[3]。對(duì)于龐大的時(shí)間序列數(shù)據(jù),可以將一個(gè)較長的時(shí)間序列劃分為幾個(gè)相對(duì)較短的子序列[4]。分割后的時(shí)間序列數(shù)據(jù)進(jìn)行了一定的壓縮,模型復(fù)雜度會(huì)降低,有利于計(jì)算[5]。針對(duì)分割后時(shí)間序列的數(shù)據(jù)挖掘,同樣符合數(shù)據(jù)變化的模式和規(guī)律[6]。因此,本文針對(duì)時(shí)間序列劃分方法進(jìn)行研究,提出基于聚類的微博事件劃分方法。根據(jù)微博在時(shí)間上的聚合程度,針對(duì)時(shí)間戳進(jìn)行聚類,將微博事件分割成若干時(shí)間段,構(gòu)建時(shí)間序列。同時(shí),基于GRU 網(wǎng)絡(luò)構(gòu)建事件分類模型,自動(dòng)捕捉微博事件特征隨時(shí)間變化的情況,對(duì)謠言事件進(jìn)行檢測。實(shí)驗(yàn)結(jié)果表明,本文提出的基于時(shí)間序列的微博謠言檢測方法可以有效檢測謠言事件。

    2 相關(guān)工作

    早期謠言檢測普遍采用基于機(jī)器學(xué)習(xí)的方法,其核心技術(shù)包括特征提取和訓(xùn)練分類器。Castillo等[7]提取基于文本、用戶信息、話題和消息傳播的特征,利用J48 決策樹進(jìn)行檢測,準(zhǔn)確率達(dá)到86%;Yang等[8]從微博中提取基于內(nèi)容、賬號(hào)、傳播、客戶端和位置的特征,在基于SVM 構(gòu)建的檢測模型上獲得了5%左右的性能提升;毛二松等[9]開始考慮情感傾向性和意見領(lǐng)袖傳播影響力等深層特征。此外,也有研究通過構(gòu)建時(shí)間序列獲得更高的謠言檢測性能。Kwon 等[10]引入時(shí)間序列擬合模型來捕獲傳播過程中特征隨時(shí)間變化的情況,根據(jù)選擇的特征對(duì)謠言進(jìn)行分類,召回率在87%到92%之間;Ma 等[11]在Kwon 等[10]的基礎(chǔ)上使用動(dòng)態(tài)時(shí)間序列擴(kuò)展了時(shí)間序列擬合模型;王志宏等[12]引入域劃分的思想,通過構(gòu)造動(dòng)態(tài)時(shí)間序列特征提高謠言檢測準(zhǔn)確度。總體上講,基于機(jī)器學(xué)習(xí)的方法初具成效,特征提取開始挖掘深層特征,同時(shí)通過構(gòu)建時(shí)間序列提升性能。但該類方法依賴于特征工程,需要耗費(fèi)大量的人力、物力和時(shí)間,并且需要一定的專業(yè)背景。

    為了解決基于機(jī)器學(xué)習(xí)方法存在的問題,研究者探索出基于深度學(xué)習(xí)的方法,自動(dòng)學(xué)習(xí)數(shù)據(jù)中包含的特征。Ma等[13]首次使用深度學(xué)習(xí)進(jìn)行謠言檢測,利用tf-idf得到時(shí)間段向量表示,然后訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)微博特征,在雙層GRU 網(wǎng)絡(luò)上獲得91%的準(zhǔn)確率;Yu 等[14]利用doc2vec 獲取時(shí)間段向量表示,采用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)微博特征,在評(píng)價(jià)指標(biāo)上優(yōu)于支持向量機(jī)等對(duì)比方法;Chen 等[15]將微博按固定數(shù)量分成時(shí)間段,通過注意力機(jī)制選擇性地學(xué)習(xí)時(shí)間序列內(nèi)的特征用于謠言檢測。基于深度學(xué)習(xí)的方法可以自動(dòng)學(xué)習(xí)特征,取得了較好的檢測效果。同時(shí),由于事件之間的微博發(fā)帖數(shù)量存在很大的差異,每個(gè)神經(jīng)元不可能只處理一條微博。因此,出現(xiàn)了基于等長時(shí)間間隔(TETS)[13]和基于固定帖子數(shù)(PETS)[15]的微博事件時(shí)間序列構(gòu)建方法。其中,TETS 方法可以保證模型具有合適的輸入序列,而PETS 方法可以使每個(gè)時(shí)間段有合理的數(shù)量[16]。上述方法雖然都考慮了要合理劃分時(shí)間序列,但是時(shí)間長度固定會(huì)導(dǎo)致時(shí)間序列內(nèi)帖子數(shù)量不合理,出現(xiàn)帖子數(shù)量過多或過少的問題;固定帖子數(shù)劃分出的時(shí)間序列又不能保證模型得到合適的輸入序列。在這種情況下,本文考慮事件在時(shí)間維度上的分布,提出基于聚類的微博事件劃分方法,構(gòu)建合理的時(shí)間序列作為模型輸入,訓(xùn)練GRU 網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征,對(duì)謠言事件進(jìn)行檢測。

    3 本文模型介紹

    謠言事件檢測可以看作是二分類問題,對(duì)給定的微博事件集合E={Ei},本文任務(wù)就是檢測事件Ei是不是謠言。其中,Ei={pij} 包括源微博及其相關(guān)的微博、轉(zhuǎn)發(fā)和評(píng)論,pij表示事件的某一條文本。在本文提出的基于時(shí)間序列的謠言檢測模型中,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,其中包括去噪、去停留詞和分詞;然后基于k-mean 算法針對(duì)時(shí)間戳進(jìn)行聚類,實(shí)現(xiàn)對(duì)微博事件的分割,構(gòu)建時(shí)間序列;最后將時(shí)間序列使用doc2vec 進(jìn)行向量化作為GRU 網(wǎng)絡(luò)的輸入,并進(jìn)行參數(shù)調(diào)優(yōu),返回謠言和非謠言這兩個(gè)類別的概率。具體結(jié)構(gòu)如圖1 所示。

    圖1 謠言檢測模型結(jié)構(gòu)

    3.1 時(shí)間序列構(gòu)建

    本文提出基于聚類的微博事件劃分方法,首先將源微博作為時(shí)間序列的第一個(gè)時(shí)間段,之后基于k-mean 算法根據(jù)每條微博的時(shí)間戳進(jìn)行聚類,將微博事件劃分成若干時(shí)間段,將所有的時(shí)間段按時(shí)間順序組成時(shí)間序列。描述如下:對(duì)于每一個(gè)事件Ei={(Pij,tij)},Pij表示事件相關(guān)的微博,tij是對(duì)應(yīng)微博的時(shí)間戳。設(shè)置k-mean 的聚類數(shù)目為K,即將事件劃分為K 個(gè)時(shí)間段。基于聚類的微博事件劃分方法偽代碼如算法1所示。

    算法1:基于聚類的微博事件劃分算法

    3.2 GRU網(wǎng)絡(luò)

    循環(huán)神經(jīng)網(wǎng)絡(luò)是處理序列數(shù)據(jù)的常用神經(jīng)網(wǎng)絡(luò),在許多自然語言處理任務(wù)中取得了良好的效果。其中GRU網(wǎng)絡(luò)對(duì)謠言事件的檢測效果較好[13],可以學(xué)習(xí)語法特征和語義特征。因此,本文采用GRU 網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),其包括四個(gè)部分的計(jì)算,結(jié)構(gòu)如圖2所示。

    圖2 GRU單元結(jié)構(gòu)

    首先是重置門。GRU 使用重置門選擇前一時(shí)刻要放棄的信息,其中Wz和Uz為權(quán)重,ht-1為前一時(shí)刻的輸出值,bz為偏置:

    接下來是更新門。GRU 通過更新門選擇有多少信息需要保存并更新當(dāng)前時(shí)刻,其中Wr、Ur為權(quán)重,ht-1為前一時(shí)刻的輸出值,br為偏置:

    然后GRU 決定如何合并之前的信息和新的輸入,這是計(jì)算當(dāng)前輸出的一個(gè)重要步驟,其中Wa和Ua為權(quán)重,ba為偏差:

    最后,GRU根據(jù)以上結(jié)果計(jì)算輸出:

    隨后將GRU 網(wǎng)絡(luò)輸出的特征矩陣傳入由神經(jīng)元和Softmax 激活函數(shù)構(gòu)成的全連接層,進(jìn)行Softmax操作計(jì)算謠言和非謠言這兩個(gè)類別的概率。

    4 實(shí)驗(yàn)及結(jié)果分析

    本文采用Ma 等[13]公開的用于謠言檢測的數(shù)據(jù)集,包含4664 個(gè)事件及事件對(duì)應(yīng)的標(biāo)簽,其中包含謠言事件2313 件和非謠言事件2351 件,微博總數(shù)3752459條,表1為實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)表。同時(shí),在謠言檢測任務(wù)中使用準(zhǔn)確率、精確率、召回率和F1值做為評(píng)價(jià)指標(biāo)。

    表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)表

    4.1 驗(yàn)證時(shí)間序列劃分方法

    本文首先對(duì)提出的劃分方法所構(gòu)建時(shí)間序列的合理性進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如圖3 所示。同時(shí)為了驗(yàn)證基于聚類劃分方法的有效性,本文和基于等長時(shí)間間隔(TETS)及基于固定帖子數(shù)(PETS)的時(shí)間序列劃分方法做對(duì)照實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4 所示。

    圖3 不同聚類數(shù)目的檢測結(jié)果

    圖4 不同劃分方法的檢測結(jié)果

    通過圖3 可以看出,在構(gòu)建謠言事件時(shí)間序列的過程中,合理的時(shí)間序列劃分能夠影響謠言檢測任務(wù)的性能。其中,聚類數(shù)目在50 和90 時(shí)獲得了94%的準(zhǔn)確率,時(shí)間序列劃分能反映事件在時(shí)間上的聚合程度。上述實(shí)驗(yàn)結(jié)果表明,構(gòu)建時(shí)間序列應(yīng)該考慮事件在時(shí)間上的分布特點(diǎn),合理的事件劃分得到的時(shí)間序列應(yīng)該跟數(shù)據(jù)在時(shí)間上的分布有關(guān)。

    圖4 實(shí)驗(yàn)結(jié)果表明,PETS 對(duì)謠言檢測的性能提升最少,在準(zhǔn)確率上與TETS 相差3.4%。由表1可以看出,事件平均時(shí)長是2460.7h。因此,固定的時(shí)間間隔劃分可以得到合適的輸入序列,取得優(yōu)于PEST 的性能。由表1 還可以看出事件最大帖數(shù)為59318 而最小帖數(shù)只有10,事件發(fā)帖數(shù)在時(shí)間維度上分布是不均勻的,所以固定的時(shí)間長度會(huì)導(dǎo)致時(shí)間序列內(nèi)部分時(shí)間段的帖子數(shù)過多或過少。相反,基于聚類的方法根據(jù)設(shè)定聚類數(shù)目保證了合適的輸入序列,同時(shí)k-mean算法利用時(shí)間戳進(jìn)行聚類,根據(jù)時(shí)間上的聚合程度,保證了每個(gè)時(shí)間段具有合理的帖數(shù)。與這兩種方法相比在準(zhǔn)確率、精確度、召回率和F1 值上都取得了更好的結(jié)果,能提高謠言檢測性能。

    4.2 驗(yàn)證基于時(shí)間序列的謠言檢測模型

    為了驗(yàn)證基于時(shí)間序列的謠言檢測模型的有效性,本文將與選取的基準(zhǔn)方法在相同的數(shù)據(jù)集上開展實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示,以下為4個(gè)選取的基準(zhǔn)方法。

    表2 不同模型的檢測結(jié)果

    1)DTC 模型[7]。該模型屬于基于機(jī)器學(xué)習(xí)的方法,通過特征工程提取特征,并采用J48 決策樹進(jìn)行分類。

    2)SVM-TS 模型[11]。該模型通過動(dòng)態(tài)時(shí)間序列模型來捕獲微博傳播過程中特征隨時(shí)間變化的情況,采用SVM分類器進(jìn)行分類。

    3)GRU-2 模型[13]。該模型先構(gòu)建時(shí)間序列,然后采用tf-idf 計(jì)算得到每個(gè)時(shí)間段的向量表示,最后采用雙層的GRU 網(wǎng)絡(luò)來學(xué)習(xí)微博特征實(shí)現(xiàn)對(duì)謠言事件的檢測。

    4)CAMI模型[14]。該模型先將微博事件劃分為等長的時(shí)間段,并利用doc2vec 方法獲取時(shí)間段內(nèi)向量表示,之后利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)微博特征進(jìn)行事件的分類。

    實(shí)驗(yàn)結(jié)果表2 表明,基于機(jī)器學(xué)習(xí)方法的DTC模型和SVM-TS 模型實(shí)驗(yàn)結(jié)果在評(píng)價(jià)指標(biāo)上相對(duì)較低。其原因在于通過人工提取特征進(jìn)行謠言檢測,特征選取主觀性強(qiáng)且無法獲得深層潛在特征及其關(guān)系。同時(shí),本文提出的方法和GRU-2 模型使用了相同的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)謠言事件的召回率同樣達(dá)到95.6%,能很好地學(xué)習(xí)語義等特征。而在基于聚類的微博事件劃分方法的幫助下準(zhǔn)確率能達(dá)到96.7%,比利用卷積神經(jīng)網(wǎng)絡(luò)的CAMI 模型高出3.4%。與其他基準(zhǔn)方法相比,本文方法的實(shí)驗(yàn)結(jié)果在其他評(píng)價(jià)指標(biāo)上同樣表現(xiàn)更好,由此驗(yàn)證了所提方法可以有效地檢測微博中的謠言。

    5 結(jié)語

    本文提出了一種基于時(shí)間序列的微博謠言檢測方法,利用基于聚類的微博事件劃分方法,根據(jù)微博在時(shí)間上的聚合程度將微博事件分割成若干個(gè)時(shí)間段,構(gòu)建的時(shí)間序列能提高謠言檢測性能。同時(shí),基于GRU 網(wǎng)絡(luò)構(gòu)建謠言檢測模型,捕捉微博事件特征隨時(shí)間變化的情況。該方法在對(duì)微博數(shù)據(jù)集的實(shí)驗(yàn)中取得了理想的效果,準(zhǔn)確率達(dá)到96.7%,為微博謠言檢測提供了新的有效方法。在進(jìn)一步的研究中計(jì)劃對(duì)時(shí)間序列內(nèi)每個(gè)時(shí)間段進(jìn)行特征提取,獲得更細(xì)粒度的特征,進(jìn)一步提升謠言檢測的效果。

    猜你喜歡
    時(shí)間段謠言聚類
    中國使館駁斥荒謬謠言
    夏天曬太陽防病要注意時(shí)間段
    當(dāng)謠言不攻自破之時(shí)
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    發(fā)朋友圈沒人看是一種怎樣的體驗(yàn)
    意林(2017年8期)2017-05-02 17:40:37
    謠言
    謠言大揭秘
    基于改進(jìn)的遺傳算法的模糊聚類算法
    不同時(shí)間段顱骨修補(bǔ)對(duì)腦血流動(dòng)力學(xué)變化的影響
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    宣汉县| 闻喜县| 县级市| 乌拉特前旗| 三明市| 遵义市| 上饶市| 永春县| 连南| 灵川县| 海晏县| 乌兰察布市| 兴城市| 岳普湖县| 商河县| 加查县| 大新县| 和政县| 沙雅县| 广西| 淳化县| 图们市| 湖北省| 新余市| 普安县| 招远市| 元氏县| 永平县| 承德市| 开化县| 沂水县| 合肥市| 瓦房店市| 汶上县| 墨竹工卡县| 麟游县| 永城市| 靖安县| 饶平县| 封开县| 亳州市|