基于邊增強(qiáng)一致性與半監(jiān)督學(xué)習(xí)的謠言檢測研究

2024-09-22 00:00:00張巖珂但志平李琳魯雨潔

現(xiàn)代電子技術(shù) 2024年17期

摘" 要：針對現(xiàn)有的謠言檢測方法對故意偽造的突發(fā)事件檢測表現(xiàn)不佳的現(xiàn)象，同時考慮到現(xiàn)實(shí)中突發(fā)事件的標(biāo)記數(shù)據(jù)難以獲得，從而導(dǎo)致現(xiàn)有的監(jiān)督學(xué)習(xí)方法性能受限，提出基于邊增強(qiáng)一致性與半監(jiān)督學(xué)習(xí)的謠言檢測方法（EECS）。首先通過邊增強(qiáng)方法提高數(shù)據(jù)質(zhì)量，然后分離出高一致性特征與低一致性特征來深入挖掘內(nèi)聯(lián)關(guān)系，使用雙通道圖卷積網(wǎng)絡(luò)捕獲特征，依據(jù)半監(jiān)督學(xué)習(xí)方法有效利用大量無標(biāo)記數(shù)據(jù)增強(qiáng)模型的泛化性，最后采用加權(quán)的有監(jiān)督交叉熵?fù)p失和無監(jiān)督一致性損失優(yōu)化模型。實(shí)驗(yàn)結(jié)果表明，在公開的Twitter15、Twitter16和Weibo數(shù)據(jù)集上，所提出的模型在30%標(biāo)記樣本下準(zhǔn)確率達(dá)到87.8%、89.5%和95.0%，使用少量標(biāo)記樣本便可達(dá)到優(yōu)異的成績。

關(guān)鍵詞：謠言檢測；半監(jiān)督；邊增強(qiáng)；雙通道圖卷積；無標(biāo)記數(shù)據(jù)；一致性特征

中圖分類號： TN919?34； TP391" " " " " " " " " " " 文獻(xiàn)標(biāo)識碼： A" " " " " " " " " "文章編號： 1004?373X（2024）17?0129?07

Rumor detection based on edge enhanced consistency and semi?supervised learning

ZHANG Yanke1， 2， DAN Zhiping1， 2， LI Lin1， 2， LU Yujie1， 2

（1. Hubei Key Laboratory of Intelligent Vision Based Monitoring for Hydroelectric Engineering， Yichang 443002， China;

2. College of Computer and Information Technology， China Three Gorges University， Yichang 443002， China）

Abstract： The existing rumor detection methods do not perform well in detecting intentionally forged emergencies. At the same time， it is difficult to obtain the labeled data of emergencies in reality， which leads to the limited performance of the existing supervised learning methods. In view of the above， a rumor detection method based on edge enhanced consistency and semi?supervised learning （EECS） is proposed. The edge enhanced method is used to improve data quality， and then， high consistency features and low consistency features are separated from the whole features， so that the internal connection relationships can be explored deeply. A dual?channel graph convolutional network is used to capture features. By the semi?supervised learning method， a large amount of unlabeled data are utilized effectively to enhance the generalization of the model. The model is optimized with weighted supervised cross entropy loss and unsupervised consistency loss. The experimental results show that on the publicly available datasets Twitter15， Twitter16 and Weibo， the proposed model achieves accuracy rate of 87.8%， 89.5% and 95.0% under 30% labeled samples， and achieves excellent results with a small number of labeled samples.

Keywords： rumor detection; semi?supervised; edge enhancement; dual?channel graph convolution; unlabeled data; consistency feature

0" 引" 言

如今，網(wǎng)絡(luò)社交媒體已成為人們獲取信息和發(fā)表看法的主流方式，如Twitter和Weibo等在線社交媒體打破了人們的交流屏障，但同時也為謠言的傳播提供了溫床。例如，在新冠疫情期間，一則謠言聲稱家用漂白劑是抗病毒的靈丹妙藥，導(dǎo)致約800人因此死亡，5 000多人住院。因此，快速高效的檢測謠言具有很高的實(shí)際應(yīng)用價值。對于謠言的界定，在不同時期背景和不同場合下很難統(tǒng)一。在日常生活中，人們往往將謠言視作與事實(shí)真相不符或故意誤導(dǎo)的信息。但從學(xué)術(shù)角度出發(fā)，盡管謠言與傳說、八卦有一定的相似之處，但它仍擁有獨(dú)特的特質(zhì)。

為了解決謠言檢測的問題，人們提出了多種檢測方法，包括傳統(tǒng)基于機(jī)器學(xué)習(xí)[1?2]的檢測模型和基于深度學(xué)習(xí)[3?4]的檢測模型。傳統(tǒng)機(jī)器學(xué)習(xí)檢測模型主要是通過手工標(biāo)注特征，利用大量的標(biāo)注數(shù)據(jù)訓(xùn)練得到分類器，如決策樹[1]、隨機(jī)森林[2]等方法。由于機(jī)器學(xué)習(xí)方法存在太多的局限性，研究人員把目光轉(zhuǎn)向深度學(xué)習(xí)。許多學(xué)者從謠言的文本信息、用戶信息和傳播結(jié)構(gòu)等方面進(jìn)行檢測研究并取得了優(yōu)異的成績。

對于機(jī)器學(xué)習(xí)的謠言檢測來說，特征提取扮演著更為關(guān)鍵的角色，它是影響算法檢測效果的核心因素。例如，文獻(xiàn)[1]通過在Twitter數(shù)據(jù)集內(nèi)提取文本、用戶、主題和傳播特征，并運(yùn)用決策樹模型學(xué)習(xí)Twitter上帖子的可信度。文獻(xiàn)[2]通過結(jié)合分析時間、結(jié)構(gòu)和語言特征，運(yùn)用隨機(jī)森林分類器和邏輯回歸篩選出信息量最為豐富的特征，從而更有效地進(jìn)行謠言檢測。

由于傳統(tǒng)的機(jī)器學(xué)習(xí)方法存在太多的局限性，研究人員把目光轉(zhuǎn)向深度學(xué)習(xí)。文獻(xiàn)[5]將文本內(nèi)容和評論信息作為節(jié)點(diǎn)的嵌入信息，捕獲隨時間發(fā)展的隱藏特征。文獻(xiàn)[6]使用CNN來獲得鄰域內(nèi)的隱藏特征?，F(xiàn)有的方法關(guān)注謠言的傳播結(jié)構(gòu)。文獻(xiàn)[7]通過構(gòu)建謠言的傳播樹來獲取傳播信息，提出基于內(nèi)核的傳播樹核評估謠言傳播樹特征的相似性用來檢測謠言，并證實(shí)傳播結(jié)構(gòu)有助于提升謠言檢測的準(zhǔn)確率。文獻(xiàn)[8]將樹結(jié)構(gòu)擴(kuò)展為圖結(jié)構(gòu)，并引入GCN網(wǎng)絡(luò)進(jìn)行謠言檢測。

然而，這些方法的性能受限于標(biāo)記數(shù)據(jù)的數(shù)量，而在實(shí)際場景中，社交媒體平臺每天都會發(fā)布各種各樣的信息，新出現(xiàn)的事件很難及時獲得足夠的標(biāo)記數(shù)據(jù)[9]。因此要有效利用更易獲得的無標(biāo)記樣本，半監(jiān)督學(xué)習(xí)是解決這一問題的主要方法之一[10]。半監(jiān)督學(xué)習(xí)是針對有標(biāo)記樣本數(shù)量不足而提出的解決方法，已經(jīng)被廣泛運(yùn)用在計(jì)算機(jī)視覺和文本分類領(lǐng)域中[11?12]。由于半監(jiān)督擺脫了對有標(biāo)記數(shù)據(jù)較強(qiáng)的依賴性，可以利用大量的無標(biāo)簽數(shù)據(jù)，因此半監(jiān)督學(xué)習(xí)契合需要快速響應(yīng)的謠言檢測任務(wù)。同時，為了解決無標(biāo)記數(shù)據(jù)難以利用的問題，數(shù)據(jù)增強(qiáng)的方法也逐步應(yīng)用到半監(jiān)督學(xué)習(xí)中，但大部分關(guān)注于圖像分類任務(wù)[13?14]。

同時，大部分謠言檢測方法都是基于可靠的拓?fù)浣Y(jié)構(gòu)和數(shù)據(jù)樣本進(jìn)行分析學(xué)習(xí)的，但為了獲得公眾的信任，謠言往往在文字和傳播過程中偽造相關(guān)部分，使其看起來更加可靠[15?16]。因此現(xiàn)有的大部分謠言檢測忽視了謠言的一致性和潛在的不一致性，同時也造成了謠言特征不穩(wěn)的建模，從而導(dǎo)致檢測性能受限。

為了解決大量無標(biāo)記數(shù)據(jù)的有效利用和謠言一致性問題，本文提出一種基于邊增強(qiáng)一致性與半監(jiān)督學(xué)習(xí)的謠言檢測模型，通過對邊權(quán)值的自適應(yīng)調(diào)整進(jìn)行數(shù)據(jù)增強(qiáng)，進(jìn)而分離一致性信息和不一致性信息，并結(jié)合雙通道圖卷積網(wǎng)絡(luò)分別捕獲一致性特征與不一致性特征，最后利用加權(quán)有監(jiān)督的交叉熵?fù)p失和無監(jiān)督的一致性損失優(yōu)化模型，增強(qiáng)模型的魯棒性并高效地利用大量無標(biāo)記數(shù)據(jù)。

綜上所述，本文的主要貢獻(xiàn)如下：

1）關(guān)注常常被忽視的謠言一致性信息，提出自適應(yīng)的邊權(quán)重以分離謠言一致性信息和不一致信息。

2）不同于傳統(tǒng)監(jiān)督學(xué)習(xí)，提出使用雙通道圖卷積網(wǎng)絡(luò)的半監(jiān)督方法以解決大量無標(biāo)記數(shù)據(jù)有效利用的問題。

3）在公開數(shù)據(jù)集上的實(shí)驗(yàn)表明，提出的EECS模型能有效利用大量無標(biāo)記數(shù)據(jù)提升模型的泛化能力，提高謠言檢測的準(zhǔn)確率。

1" 半監(jiān)督謠言檢測模型

基于邊增強(qiáng)一致性與半監(jiān)督學(xué)習(xí)（Edge Enhanced Consistency and Semi?supervised Learning， EECS）的謠言檢測模型總體框架如圖1所示，主要分為輸入處理模塊、邊增強(qiáng)一致性模塊、雙通道檢測模塊和損失函數(shù)模塊。

1.1" 輸入處理模塊

EECS模型是針對事件級的謠言檢測，通過深入分析同一主題事件下的所有相關(guān)帖子并捕獲其特征，從而實(shí)現(xiàn)對該事件進(jìn)行高效謠言檢測。

本文對文本數(shù)據(jù)進(jìn)行處理，將源帖子和其響應(yīng)帖子的文本內(nèi)容轉(zhuǎn)換為TF?IDF值，不同于以往有向結(jié)構(gòu)建模，本文構(gòu)建了無向拓?fù)鋱D結(jié)構(gòu)，探索圖節(jié)點(diǎn)之間的全局交互信息。具體而言，給定事件[ci]的初始化文本特征并使用向量[Xi=[xi0，xi1，…，xini-1]∈RNi×Di]進(jìn)行表示，[Di]為特征維度，并將其嵌入到圖節(jié)點(diǎn)中，構(gòu)成無向拓?fù)鋱D[Gi={Ei，Vi}]，其中，[Ei={cstis，t=0，1，2，…，ni-1}]為事件[ci]中所有轉(zhuǎn)發(fā)節(jié)點(diǎn)與評論節(jié)點(diǎn)之間邊的集合，[Vi={mi，ni1，ni2，…，nii-1}]為事件源帖和相應(yīng)貼子之間的節(jié)點(diǎn)集合。

最后構(gòu)建事件[ci]無向拓?fù)鋱D的鄰接矩陣[Ai∈{0，1}Ni×Ni]，[Ni]為節(jié)點(diǎn)數(shù)目，如果節(jié)點(diǎn)之間有聯(lián)系值為1，否則為0。

1.2" 邊增強(qiáng)一致性模塊

在現(xiàn)實(shí)生活中，謠言制造者為了獲取公眾的信任，往往會加入高相關(guān)性部分，偽造連貫一致性。因此，等價看待每一個傳播路徑會使模型偏離正確方向。本文通過對邊進(jìn)行增強(qiáng)并研究一致性關(guān)系，深入還原謠言信息。

具體來說，使用圖卷積網(wǎng)絡(luò)更新圖中的節(jié)點(diǎn)特征。第[l]層節(jié)點(diǎn)特征[H（l）=[h（l）0，h（l）1，h（l）2，…，h（l）n-1]]定義為：

[H（l）=σ（A（l-1）H（l-1）Wl+bl）] （1）

式中：[σ（x）]為激活函數(shù)；[W]為參數(shù)矩陣。

接著通過計(jì)算一個基于當(dāng)前層節(jié)點(diǎn)的變換函數(shù)[fc（ · ;θt）]重新調(diào)整事件[ci]的圖的邊權(quán)重，從而更新鄰接矩陣[A（l）]：

[g（l）t=fch（l-1）i-h（l-1）j;θt] （2）

[A（l）=t=1Tσ（W（l）tg（l）t+b（l）t）?A（l-1）] （3）

式中：[h（l-1）i-h（l-1）j]為第[（l-1）]層有聯(lián)系的節(jié)點(diǎn)[i]和節(jié)點(diǎn)[j]特征的差值的絕對值；[fc（ · ;θt）]由卷積層和激活函數(shù)組成；[T]為潛在關(guān)系數(shù)量；[σ（·）]為Sigmoid函數(shù)；[W（l）t]為可學(xué)習(xí)參數(shù)。

經(jīng)過邊增強(qiáng)后，生成的新的軟連接的圖增強(qiáng)了謠言的一致性特征，同時為了兼顧潛在的不一致性，揭示謠言中與常識不一致的特征，分離出一致性與不一致性矩陣。具體地，使用余弦相似度來計(jì)算原圖和新的軟連接增強(qiáng)圖的相關(guān)性。

[sij=HiHTjHiHj] （4）

式中：[Hi]為原圖節(jié)點(diǎn)特征；[Hj]為增強(qiáng)圖節(jié)點(diǎn)特征；[sij]為兩圖的相關(guān)性評分。

為了分離出一致性和不一致性特征，使用閾值[λ∈[0，1）]將相關(guān)矩陣[S]分為如下兩部分：

[Sm={sijgt;λ}Sc={sij≤λ}] （5）

式中：[Sm]表示一致性部分；[Sc]表示不一致性部分。

1.3" 雙通道檢測模塊

為了更好地利用1.2節(jié)中分離出的一致性和不一致性信息，本文使用雙通道圖卷積網(wǎng)絡(luò)分別對一致性信息和不一致信息進(jìn)行深入捕獲，每個圖卷積層包含兩個圖卷積網(wǎng)絡(luò)和一個均值池化層，具體結(jié)構(gòu)如圖2所示。

具體地，將一致性部分[Sm]和不一致性部分[Sc]分別作為雙通道圖卷積網(wǎng)絡(luò)的輸入，并各自輸出一個向量矩陣[S∈RN×c]，[N]是節(jié)點(diǎn)數(shù)，[c]是分類數(shù)。

[S（d+1）i=σ（D-12AD-12SdiWd）=σ（ASdiWd）] （6）

式中：[A=D-12AD-12]表示鄰接矩陣[A]進(jìn)行歸一化后的矩陣；[D]為矩陣[A]的對角矩陣；[Si∈{Sm，Sc}]；[σ（x）]為非線性激活函數(shù)ReLU；[d]是網(wǎng)絡(luò)層數(shù)。

層級間傳遞通常會流失部分信息。為了彌補(bǔ)流失信息的損失，將當(dāng)前特征與上層隱藏信息進(jìn)行補(bǔ)充：

[Sdi=concat（Sdi，S（d-1）i）] （7）

然后對[Si]進(jìn)行均值池化以獲取所有節(jié)點(diǎn)的特征信息：

[Si=meanpooling（Sdi）] （8）

接著使用全連接層進(jìn)行維度降低，對降低維度的輸出進(jìn)行歸一化以更直觀地表示。

[y=SoftmaxFC（Sm）] （9）

全連接層[FC（S）=WiS+bi]，其中，[Wi]和[bi]分別為可學(xué)習(xí)的權(quán)重矩陣和偏置項(xiàng)。

此外，在實(shí)際檢測中，當(dāng)分類問題比較困難或者有標(biāo)簽樣本數(shù)量非常少的情況下，雙通道檢測模塊對一致信息和不一致信息的預(yù)測結(jié)果可能會過平滑，因此使用銳化函數(shù)優(yōu)化預(yù)測結(jié)果。

[sharpen（yi，T）=exp（yiT）exp（yiT）] （10）

式中：[T]是超參數(shù)，當(dāng)[T→0]時，預(yù)測結(jié)果趨向于one?hot向量。

1.4" 損失函數(shù)

謠言檢測是一個多分類的任務(wù)，EECS模型的交叉熵?fù)p失如式（11）所示：

[Lti=-1Bi∈B?Clogyi[yi]] （11）

式中：[B]是學(xué)習(xí)的小批次；[yi]是謠言事件[ci]對應(yīng)的標(biāo)簽；[yi]是事件[ci]經(jīng)過學(xué)習(xí)的預(yù)測結(jié)果。

對于無標(biāo)簽數(shù)據(jù)[X]，因?yàn)殡p通道圖卷積網(wǎng)絡(luò)中的輸入權(quán)重不同，因此對于同一事件的輸出也會有差異，將兩個輸出進(jìn)行KL離散計(jì)算，最小化兩個輸出之間的度量，進(jìn)行一致性約束。無監(jiān)督一致性損失為：

[Lui=Z′ilnZ′iZ″i] （12）

式中：[Z′i]為無標(biāo)記數(shù)據(jù)[ci]使用一致性信息[Sm]作為輸入后的預(yù)測輸出；[Z″i]為該無標(biāo)簽數(shù)據(jù)不一致性信息[Sc]的預(yù)測輸出。

通過約束不同輸入的相同輸出，一致性訓(xùn)練提升了模型的泛化能力，降低了噪聲對模型的影響。EECS模型的總體損失函數(shù)為：

[L=μLti+（1-μ）Lui] （13）

式中[μ]是權(quán)重系數(shù)，用來衡量交叉熵?fù)p失和一致性損失的貢獻(xiàn)。

2" 實(shí)驗(yàn)與分析

2.1" 數(shù)據(jù)集

本文選擇公開的社交媒體謠言數(shù)據(jù)集Twitter15[17]、Twitter16[18]與Weibo[5]作為實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集信息如表1所示。

將部分?jǐn)?shù)據(jù)的標(biāo)簽隱去后，劃分結(jié)果如表2所示。

2.2" 實(shí)驗(yàn)指標(biāo)與設(shè)置

對EECS模型進(jìn)行評價，選取準(zhǔn)確率（Accuracy）、[F1]值與召回率（Recall）作為指標(biāo)與基線模型進(jìn)行對比，計(jì)算公式為：

[Recall=TPTP+FN] （14）

[F1=2TP2TP+FP+FN] （15）

[Accuracy=TP+TNTP+TN+FP+FN] （16）

TP、TN、FP、FN的具體含義見表3混淆矩陣。

模型實(shí)驗(yàn)最大迭代次數(shù)為200次，并使用早停機(jī)制，當(dāng)損失連續(xù)10次不下降時便結(jié)束，激活函數(shù)為ReLU。學(xué)習(xí)率在前30個epoch設(shè)置為0.001，后面降低為0.000 5，損失權(quán)重系數(shù)[μ]取值為0.3。

2.3" 實(shí)驗(yàn)結(jié)果與分析

本文選取優(yōu)秀的模型PPC[19]、RvNN[7]、BiGCN[8]、DDGCN[20]、EBGCN[21]和PPTK[22]作為基線方法，并在上述數(shù)據(jù)集中進(jìn)行對比實(shí)驗(yàn)，結(jié)果見表4～表6。

根據(jù)上述的實(shí)驗(yàn)結(jié)果，可以得出以下結(jié)論：

1） EECS模型總體性能優(yōu)于基線方法，在Twitter15數(shù)據(jù)集上使用30%的標(biāo)簽數(shù)據(jù)準(zhǔn)確率優(yōu)于使用全部標(biāo)簽數(shù)據(jù)的基線模型。在Twitter16數(shù)據(jù)集上使用30%的標(biāo)簽數(shù)據(jù)準(zhǔn)確率與最優(yōu)的基線模型持平。同樣地，在Weibo數(shù)據(jù)集上使用30%的標(biāo)簽數(shù)據(jù)準(zhǔn)確率優(yōu)于使用全部標(biāo)簽數(shù)據(jù)的基線模型。

2） EECS模型利用動態(tài)的邊增強(qiáng)學(xué)習(xí)了謠言傳播結(jié)構(gòu)隱藏的一致性特征，并使用半監(jiān)督學(xué)習(xí)方法有效利用大量無標(biāo)簽數(shù)據(jù)，增強(qiáng)了模型的泛化能力，可以更好地應(yīng)對模型中的噪聲，因此在多項(xiàng)評價指標(biāo)達(dá)到最優(yōu)。

3） EECS模型在三個不同的數(shù)據(jù)集上都展現(xiàn)出不錯的性能，表明EECS模型可以有效應(yīng)對不同突發(fā)事件下的謠言檢測任務(wù)。

圖3為EECS模型在Tiwtter15、Twitter16和Weibo數(shù)據(jù)集上準(zhǔn)確率隨訓(xùn)練次數(shù)的變化曲線。圖4為EECS模型損失率隨訓(xùn)練次數(shù)的變化曲線。

2.4" 參數(shù)分析

2.4.1" 無標(biāo)簽數(shù)據(jù)數(shù)量的影響

為了驗(yàn)證無標(biāo)簽數(shù)據(jù)對EECS模型準(zhǔn)確率的影響，在30%有標(biāo)簽數(shù)據(jù)下，將無標(biāo)簽數(shù)據(jù)按比例在Twitter15、Twitter16和Weibo數(shù)據(jù)集上進(jìn)行了多批次不同無標(biāo)簽數(shù)據(jù)占比的對比，其中每種類別均取同樣的標(biāo)記數(shù)據(jù)比例。

無標(biāo)記數(shù)據(jù)影響如圖5所示，隨著有標(biāo)簽數(shù)據(jù)占比增加，準(zhǔn)確率先增加后平緩。具體來說，當(dāng)標(biāo)記數(shù)據(jù)從10%提升到30%時，模型在三個數(shù)據(jù)集上的準(zhǔn)確率顯著提高。接著，隨著標(biāo)記數(shù)據(jù)的占比繼續(xù)增高，無標(biāo)記數(shù)據(jù)的占比下降，模型的準(zhǔn)確率開始降低。因此可以得出，在EECS模型中，標(biāo)記數(shù)據(jù)引導(dǎo)模型的正確訓(xùn)練方向，無標(biāo)記數(shù)據(jù)可以增強(qiáng)模型的泛化能力，減少模型過擬合現(xiàn)象，從而有效應(yīng)對突發(fā)事件缺少樣本的情況。

2.4.2" 閾值[λ]對模型的影響

為了驗(yàn)證一致性信息分離時不同閾值對EECS模型準(zhǔn)確率的影響，進(jìn)行了多批次不同閾值取值的對比實(shí)驗(yàn)，觀察模型隨著閾值[λ]取值改變的準(zhǔn)確率變化，結(jié)果如圖6所示。

從圖6中可以發(fā)現(xiàn)，不同的閾值取值對模型的準(zhǔn)確率有明顯的影響。在Twitter15、Twitter16和Weibo數(shù)據(jù)集上的最優(yōu)[λ]取值分別為0.4、0.3和0.4。結(jié)果證明了一致性信息分離對模型的有效性，分離一致性信息可以有效避免由于刻意偽造的相關(guān)性謠言信息引入的噪聲。

2.5" 消融實(shí)驗(yàn)

圖7為在Twitter15數(shù)據(jù)集中使用30%標(biāo)簽數(shù)據(jù)的消融實(shí)驗(yàn)結(jié)果。從EECS模型中分別移除一致性部分（CO）、非一致性部分（NCO）和無監(jiān)督損失（CT_Loss）部分來檢驗(yàn)不同模型的貢獻(xiàn)。

由圖7不難看出：移除一致性部分（CO）、非一致性部分（NCO）和無監(jiān)督損失（CT_Loss）部分后，準(zhǔn)確率分別下降1.5%、1.2%和3.6%；[F1]值分別降低了3.0%、2.9%和6.1%。這證明了邊增強(qiáng)一致性模塊的必要性，可以有效地學(xué)習(xí)故意偽造的一致性信息，同時也表明一致性訓(xùn)練對無標(biāo)簽樣本具有較好的利用率，有效地提升了模型的魯棒性。

3" 結(jié)" 語

為了解決現(xiàn)有謠言檢測算法大都為監(jiān)督算法，嚴(yán)重依賴標(biāo)記數(shù)據(jù)，同時忽視了故意偽造的謠言一致性問題導(dǎo)致檢測滯后和性能受限的問題，本文提出了一種邊增強(qiáng)一致性與半監(jiān)督學(xué)習(xí)的謠言檢測方法（EECS），通過邊增強(qiáng)以提高數(shù)據(jù)質(zhì)量，并分離一致性信息和非一致性信息，使用雙通道圖卷積網(wǎng)絡(luò)挖掘分離特征，并使用半監(jiān)督框架有效利用大量無標(biāo)記數(shù)據(jù)，使用加權(quán)損失來約束模型。實(shí)驗(yàn)表明，EECS模型可以在缺少標(biāo)簽數(shù)據(jù)的情況下，通過無標(biāo)簽數(shù)據(jù)的高效利用進(jìn)行謠言檢測，并在多個指標(biāo)上均優(yōu)于基線模型。后續(xù)將探究不均衡標(biāo)簽的有效利用。

注：本文通訊作者為但志平。

參考文獻(xiàn)

[1] CASTILLO C， MENDOZA M， POBLETE B. Information credibility on Twitter [C]// Proceedings of the 20th International Conference on World Wide Web. New York： ACM， 2011： 675?684.

[2] KWON S， CHA M， JUNG K， et al. Prominent features of rumor propagation in online social media [C]// 2013 IEEE 13th International Conference on Data Mining. New York： IEEE， 2013： 1103?1108.

[3] CHEN Y X， LI D S， ZHANG P， et al. Cross?modal ambiguity learning for multimodal fake news detection [C]// Proceedings of the ACM Web Conference 2022. New York： ACM， 2022： 2897?2905.

[4] DHRUV K， JAIPAL S G， MANISH G， et al. Multimodal variational autoencoder for fake news detection [C]// The World Wide Web Conference. New York： ACM， 2019： 2915?2921.

[5] MA J， GAO W， MITRA P， et al. Detecting rumors from microblogs with recurrent neural networks [C]// Twenty Fifth International Joint Conference on Artificial Intelligence. [S.l.： s.n.]， 2016： 3818?3824.

[6] YU F， LIU Q， WU S， et al. Attention?based convolutional approach for misinformation identification from massive and noisy microblog posts [J]. Computers security， 2019， 83： 106?121.

[7] MA J， GAO W， WONG K F. Rumor detection on Twitter with tree?structured recursive neural networks [C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. [S.l.]： ACL， 2018： 1980?1989.

[8] BIAN T， XIAO X， XU T Y， et al. Rumor detection on social media with bi?directional graph convolutional networks [C]// Proceedings of the Thirty?fourth AAAI Conference on Artificial Intelligence. [S.l.]： AAAI， 2020： 549?556.

[9] CHAWLA N V， KARAKOULAS G I. Learning from labeled and unlabeled data： An empirical study across techniques and domains [EB/OL]. [2018?08?13]. http：//arxiv.org/abs/1109.2047.

[10] 盛曉輝，沈海龍.基于數(shù)據(jù)增強(qiáng)和相似偽標(biāo)簽的半監(jiān)督文本分類算法[J].計(jì)算機(jī)應(yīng)用研究，2023，40（4）：1019?1023.

[11] 劉建偉，劉媛，羅雄麟.半監(jiān)督學(xué)習(xí)方法[J].計(jì)算機(jī)學(xué)報，2015，38（8）：1592?1617.

[12] CUI H Y， WANG G K， LI Y X， et al. Self?training method based on GCN for semi?supervised short text classification [J]. Information sciences， 2022， 611： 18?29.

[13] 劉致遠(yuǎn)，但志平.基于注意力增強(qiáng)的CycleGAN圖像去霧[J].國外電子測量技術(shù)，2023，42（9）：162?168.

[14] YUN S， HAN D， OH S J， et al. CutMix： Regularization strategy to train strong classifiers with localizable features [EB/OL]. [2019?05?13]. https：//arxiv.org/abs/1905.04899v1.

[15] 劉楠，張鳳荔，尹嘉奇，等.基于邊推斷增強(qiáng)對比學(xué)習(xí)的社交媒體謠言檢測模型[J].計(jì)算機(jī)科學(xué)，2023，50（11）：49?54.

[16] 李奧，但志平，董方敏，等.基于改進(jìn)生成對抗網(wǎng)絡(luò)的謠言檢測方法[J].中文信息學(xué)報，2020，34（9）：78?88.

[17] LIU X M， NOURBAKHSH A， LI Q Z， et al. Real?time rumor debunking on Twitter [C]// Proceedings of the 24th ACM International Conference on Information and Knowledge Management. New York： ACM， 2015： 1867?1870.

[18] MA J， GAO W， WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning [C]// Procee?dings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.]： ACL， 2017： 708?717.

[19] RAFFEL C， SHAZEER N， ROBERTS A， et al. Exploring the limits of transfer learning with a unified text?to?text transformer [J]. Journal of machine learning research， 2020， 21： 1?67.

[20] KHOO L M S， CHIEU H L， QIAN Z， et al. Interpretable rumor detection in microblogs by attending to user interactions [J]. Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]： AAAI， 2020： 8783?8790.

[21] WEI L W， HU D， ZHOU W， et al. Towards propagation uncertainty： Edge?enhanced Bayesian graph convolutional networks for rumor detection [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. [S.l.]： ACL， 2021： 3845?3854.

[22] 徐建民，孫朋，吳樹芳.傳播路徑樹核學(xué)習(xí)的微博謠言檢測方法[J].計(jì)算機(jī)科學(xué)，2022，49（6）：342?349.

現(xiàn)代電子技術(shù)2024年17期

現(xiàn)代電子技術(shù)的其它文章: 基于RFID的輕量化的動作識別方法; 解耦知識蒸餾優(yōu)化的域自適應(yīng)跨庫情感識別; 基于OpenMV攝像頭的運(yùn)動目標(biāo)控制與自動追蹤系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); 基于語義上下文感知的文本數(shù)據(jù)增強(qiáng)方法研究; 基于相似日與加權(quán)馬爾可夫模型的風(fēng)力發(fā)電功率區(qū)間預(yù)測; 細(xì)化算法在干涉圓環(huán)參數(shù)提取中的作用