• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合時(shí)序文本與高階交互拓?fù)涞脑诰€抗議預(yù)測(cè)

      2020-12-15 04:55:58羅森林李東超吳舟婷潘麗敏吳倩
      關(guān)鍵詞:高階時(shí)序抗議

      羅森林,李東超,吳舟婷,潘麗敏, 吳倩

      (1.北京理工大學(xué) 信息與電子學(xué)院,北京 100081; 2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100094)

      隨著互聯(lián)網(wǎng)的快速發(fā)展,推特、微博等社交媒體成為公眾集中表達(dá)個(gè)人觀點(diǎn)與情緒的主流媒介. 同時(shí)由于社交媒體具備平臺(tái)開(kāi)放性、資訊時(shí)效性且傳播快速等特點(diǎn),社交媒體容易被不法分子利用,嚴(yán)重危害國(guó)家政治安全和用戶信息安全[1].

      基于社交媒體的在線抗議預(yù)測(cè)任務(wù)包括抗議活動(dòng)發(fā)生的時(shí)間、地點(diǎn)的預(yù)測(cè)以及用戶抗議傾向的預(yù)測(cè). 目前對(duì)抗議活動(dòng)發(fā)生的時(shí)間地點(diǎn)的預(yù)測(cè)通常利用社交媒體產(chǎn)生的文本內(nèi)容及時(shí)間戳[2]、hashtag[3]等結(jié)構(gòu)化信息預(yù)測(cè)抗議活動(dòng)發(fā)生的時(shí)間或地點(diǎn),如EMBERS系統(tǒng)[3]. 通過(guò)預(yù)測(cè)抗議活動(dòng)當(dāng)天用戶推文的抗議傾向性,能夠幫助安全監(jiān)管部門(mén)提前預(yù)知抗議活動(dòng)參與者的規(guī)模,做出相應(yīng)級(jí)別的預(yù)防措施.

      社會(huì)學(xué)研究表明通過(guò)信息的流通,能夠讓那些本來(lái)就享有共同偏好的用戶匯聚在一起,同時(shí)還改變了那些社會(huì)運(yùn)動(dòng)潛在參與者的偏好,讓他們走出沉默,通過(guò)話語(yǔ)或行動(dòng)表達(dá)訴求[4]. 如果用戶在過(guò)去發(fā)表過(guò)抗議相關(guān)推文,那么用戶將更有可能參與抗議活動(dòng),同時(shí)如果用戶被抗議相關(guān)的推文@,該用戶則更具備抗議傾向性[5];另外如果用戶感興趣的人發(fā)表了抗議相關(guān)推文,那么該用戶的抗議傾向性就會(huì)得到加強(qiáng)[6]. 所以用戶抗議傾向性既與用戶發(fā)表推文內(nèi)容及交互推文內(nèi)容相關(guān),也受用戶的交互拓?fù)溆绊?

      當(dāng)前用戶抗議傾向預(yù)測(cè)的方法主要利用用戶發(fā)表推文內(nèi)容及交互推文內(nèi)容預(yù)測(cè)用戶下一條推文狀態(tài)[7-9],沒(méi)有考慮用戶間高階交互拓?fù)鋵?duì)用戶屬性建模的影響. 因此引入網(wǎng)絡(luò)嵌入方法對(duì)用戶間高階交互拓?fù)溥M(jìn)行建模,網(wǎng)絡(luò)嵌入是一種通過(guò)編碼節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)建模節(jié)點(diǎn)屬性的方法,其中通過(guò)融合節(jié)點(diǎn)文本內(nèi)容與交互拓?fù)涞乃惴商岣吖?jié)點(diǎn)分類效果. 然而,網(wǎng)絡(luò)嵌入方法尚未用于抗議傾向預(yù)測(cè)任務(wù). 同時(shí),由于社交媒體信息迭代快,用戶屬性變化頻率高,同一個(gè)用戶的行為特點(diǎn)在一定時(shí)間段內(nèi)會(huì)發(fā)生多次變化,用戶屬性的分析結(jié)果往往具有一定的時(shí)效性[10],所以用戶推文信息的時(shí)序性對(duì)用戶抗議傾向性也有重要的影響.

      早期基于社交媒體的研究多集中于利用文本信息進(jìn)行事件預(yù)測(cè). Williams等[11]利用Facebook數(shù)據(jù)對(duì)美國(guó)總統(tǒng)大選中的候選人支持率進(jìn)行預(yù)測(cè). Bollen等[12]基于Twitter數(shù)據(jù),分析用戶集體情緒狀態(tài),預(yù)測(cè)美國(guó)道瓊斯工業(yè)平均指數(shù). Balanco等[13]從Twitter數(shù)據(jù)中抽取有價(jià)值的用戶信息,預(yù)測(cè)世界杯錦標(biāo)賽的比賽結(jié)果.

      在線抗議預(yù)測(cè)是根據(jù)社交媒體信息,對(duì)未來(lái)發(fā)生的抗議活動(dòng)的時(shí)間、地點(diǎn)或人物抗議傾向進(jìn)行預(yù)測(cè). 在線抗議預(yù)測(cè)近年來(lái)逐漸引起研究者的重視. Kallus[2]利用事件抽取技術(shù)從Twitter文本中抽取事件、實(shí)體、時(shí)間等特征,用于預(yù)測(cè)一段時(shí)間內(nèi)發(fā)生抗議活動(dòng)的概率. Muthiah等[3]基于新聞和社交媒體的文本信息,利用關(guān)鍵詞過(guò)濾等技術(shù)提取抗議活動(dòng)的關(guān)鍵信息,提出了一個(gè)可以預(yù)測(cè)抗議活動(dòng)發(fā)生的時(shí)間、地點(diǎn)的EMBERS系統(tǒng). Korolov等[13]提出用戶參與抗議活動(dòng)的狀態(tài)變化分為四個(gè)階段,并利用邏輯回歸算法預(yù)測(cè)發(fā)生抗議活動(dòng)的概率. Qiao等[14]基于隱馬爾可夫算法提出了一個(gè)預(yù)測(cè)抗議活動(dòng)是否發(fā)生的模型. Wu等[15]證實(shí)了抗議活動(dòng)的發(fā)生與推文的數(shù)量變化有顯著相關(guān)性. 這些對(duì)抗議活動(dòng)發(fā)生的時(shí)間、地點(diǎn)進(jìn)行預(yù)測(cè)的方法已經(jīng)取得了不錯(cuò)的效果. 對(duì)人物抗議傾向性的研究也取得一定進(jìn)展,Godin等[5]通過(guò)模擬用戶之前發(fā)表推文的主題來(lái)預(yù)測(cè)用戶下一條推文的特征. Kywe等[4]使用協(xié)同過(guò)濾的方法,將相似用戶的推文內(nèi)容結(jié)合,用以預(yù)測(cè)用戶下一條推文的特點(diǎn). Ma等[16]將用戶的推文、時(shí)間信息與候選用戶間的推文交互相結(jié)合,預(yù)測(cè)該用戶下一條推文的狀態(tài). Ranganath等[6]基于幾何布朗運(yùn)動(dòng),建模用戶發(fā)表的推文信息與交互推文信息對(duì)用戶狀態(tài)的影響,預(yù)測(cè)用戶的下一條推文是否在宣稱抗議.

      交互拓?fù)湫畔⑹潜硎居脩羯缃魂P(guān)系的重要特征,隨著網(wǎng)絡(luò)嵌入技術(shù)的發(fā)展,利用網(wǎng)絡(luò)嵌入技術(shù)對(duì)交互拓?fù)渲械挠脩艄?jié)點(diǎn)進(jìn)行向量化表示,成為獲取用戶交互拓?fù)湫畔⒌闹匾侄? Belkin等[17]提出利用歐氏距離度量?jī)蓚€(gè)節(jié)點(diǎn)的距離,并假設(shè)相連的節(jié)點(diǎn)距離相近,構(gòu)建了Laplace特征表;Chen等[18]通過(guò)將不同節(jié)點(diǎn)的損失權(quán)重差異化,進(jìn)一步改進(jìn)了Laplace特征表方法. 隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的進(jìn)步,深度學(xué)習(xí)技術(shù)也被引入到網(wǎng)絡(luò)表示學(xué)習(xí)中來(lái). Perozzi等[19]DeepWalk算法,充分利用隨機(jī)游走序列的信息,應(yīng)用Skip-gram模型學(xué)習(xí)節(jié)點(diǎn)的分布式表示;Tang等[20]提出大規(guī)模信息網(wǎng)絡(luò)嵌入(large-scale information network embedding,LINE)算法,旨在處理節(jié)點(diǎn)間關(guān)系建模過(guò)程中的一階稀疏問(wèn)題,通過(guò)非直接相連節(jié)點(diǎn)的共同鄰居刻畫(huà)這兩個(gè)節(jié)點(diǎn)的二階相似度,挖掘了用戶之間的深層次連接,豐富了交互拓?fù)? Tu等[21]提出上下文感知網(wǎng)絡(luò)嵌入(context-aware network embedding,CANE)算法,在LINE算法基礎(chǔ)上引入文本信息,并利用注意力機(jī)制關(guān)注用戶間交互推文信息特征,生成用戶向量表示. 當(dāng)前算法只關(guān)注于用戶之間交互推文的特征,缺失對(duì)用戶本身文本時(shí)序差異性的關(guān)注,忽視了用戶不同時(shí)間段產(chǎn)生的不同主題性文本內(nèi)容對(duì)用戶屬性刻畫(huà)的貢獻(xiàn)度不一.

      針對(duì)當(dāng)前在線抗議預(yù)測(cè)對(duì)用戶個(gè)人屬性利用不充分的問(wèn)題,提出一種融合時(shí)序文本與高階交互拓?fù)涞脑诰€抗議預(yù)測(cè)方法,利用自注意力機(jī)制關(guān)注用戶本身內(nèi)容時(shí)序差異性對(duì)用戶表征的影響,結(jié)合用戶間交互推文信息特征建模用戶文本向量表示,同時(shí)融合用戶高階交互拓?fù)湫畔?,?duì)用戶節(jié)點(diǎn)進(jìn)行向量化表示,并對(duì)其下一條推文的抗議傾向性進(jìn)行預(yù)測(cè).

      1 融合時(shí)序文本與高階交互拓?fù)涞脑诰€抗議人物預(yù)測(cè)方法

      1.1 原理框架

      方法原理圖如圖1所示,通過(guò)關(guān)鍵詞篩選和專家判斷,對(duì)用戶最新一條推文進(jìn)行抗議傾向性標(biāo)注,得到正負(fù)樣本用戶集;利用用戶推文信息和用戶間交互拓?fù)錁?gòu)建用戶表示向量. 文本信息的處理方式通過(guò)定義目標(biāo)函數(shù)Lt(e),既關(guān)注用戶自身推文的時(shí)序差異性,也學(xué)習(xí)了用戶間交互推文信息特征對(duì)用戶表征的影響;另外基于用戶間交互拓?fù)浣Y(jié)構(gòu),學(xué)習(xí)用戶間高階交互拓?fù)涮卣鳎瑯?gòu)建目標(biāo)函數(shù)Ls(e);結(jié)合Lt(e)和Ls(e),用戶表示向量學(xué)習(xí)的目標(biāo)函數(shù)構(gòu)建如式(1)所示為

      L(e)=Lt(e)+Ls(e).

      (1)

      對(duì)于用戶u,經(jīng)過(guò)模型訓(xùn)練得到用戶文本表示向量ut和用戶交互表示向量us,結(jié)合兩種向量表示構(gòu)成用戶表示向量u. 基于用戶表示向量,構(gòu)建分類器,預(yù)測(cè)用戶的下一條推文是否在宣稱抗議.

      1.2 時(shí)序文本表示建模

      社交媒體話題種類豐富,更新迭代速度快,用戶不同時(shí)間段發(fā)表的推文對(duì)于用戶當(dāng)前狀態(tài)的判定會(huì)出現(xiàn)不同程度的影響,所以關(guān)注用戶自身發(fā)表推文的時(shí)序差異性對(duì)于用戶抗議傾向判定的影響十分必要.

      自注意力機(jī)制在模型訓(xùn)練過(guò)程中通過(guò)學(xué)習(xí)用戶推文的時(shí)序差異性,對(duì)不同時(shí)間發(fā)表的不同重要程度內(nèi)容賦予不同權(quán)重信息[24]. 時(shí)序文本建?;谧宰⒁饬C(jī)制對(duì)用戶推文內(nèi)容進(jìn)行處理,通過(guò)構(gòu)建自注意權(quán)重矩陣,關(guān)注用戶自身推文由于內(nèi)容發(fā)表時(shí)序差異性對(duì)用戶向量表示所帶來(lái)的影響.

      首先利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)單元處理原始推文文本S=(w1,w2,…,wn),wi代表單詞文本,利用looking-up層操作將wi表示成單詞向量wi,得到推文文本序列S=[w1w2…wn]. 然后將文本序列輸入到卷積層和池化層中,得到推文表示向量T′=[r1r2…rn]T,其中ri∈Rd,d為詞向量維度,n為文本長(zhǎng)度.

      基于自注意力機(jī)制思想學(xué)習(xí)帶有時(shí)序權(quán)重信息的推文文本表示,構(gòu)建時(shí)序矩陣Aself∈Rd×d. 對(duì)用戶推文內(nèi)容T′進(jìn)行處理,關(guān)注用戶個(gè)人文本信息,學(xué)習(xí)用戶推文內(nèi)容的時(shí)序差異性,最終得到用戶時(shí)序權(quán)重推文表示T,如式(2)所示.

      (2)

      通過(guò)時(shí)序文本建模方式對(duì)用戶推文進(jìn)行處理,得到每個(gè)用戶k的文本表示向量Tk∈Rn×d,其中n是文本長(zhǎng)度,即單詞數(shù)量,d是詞向量維度.

      用戶之間會(huì)根據(jù)交互對(duì)象的不同而產(chǎn)生不同的文本,所以需要建模用戶間的交互推文信息特征. 首先構(gòu)建注意力矩陣A∈Rd×d,對(duì)于一對(duì)用戶u和v,根據(jù)時(shí)序文本建模方法得到對(duì)應(yīng)的文本表示Tu和Tv,計(jì)算得到用戶間的關(guān)聯(lián)矩陣F∈Rn×n,如式(3)所示為

      (3)

      F矩陣的每一個(gè)元素代表著用戶間文本單詞與單詞的交互權(quán)重分值,通過(guò)行池化和列池化操作得到Au和Av向量,如式(4)(5)所示為

      (4)

      (5)

      (6)

      最終,得到用戶文本表示向量u′t和v′t,如式(7)(8)所示為

      u′t=Tuau.

      (7)

      v′t=Tvav.

      (8)

      1.3 高階交互拓?fù)浣?/h3>

      用戶的社交網(wǎng)絡(luò)包含豐富的特征信息,用戶之間的一階顯性聯(lián)系容易統(tǒng)計(jì)得到,但是用戶之間的高階隱性關(guān)聯(lián)需要通過(guò)算法進(jìn)行挖掘. 如圖2所示,圖中實(shí)線代表顯性聯(lián)系,虛線代表隱性聯(lián)系,當(dāng)用戶與兩個(gè)團(tuán)體均有同等程度聯(lián)系時(shí),通過(guò)非顯性連接用戶之間的鄰居用戶構(gòu)建隱性連接,分析該用戶的隱含社交關(guān)系,從而判斷該用戶與抗議團(tuán)體聯(lián)系更緊密,與非抗議團(tuán)體關(guān)聯(lián)相對(duì)較弱. 通過(guò)使用LINE算法,對(duì)用戶的隱含社交關(guān)系進(jìn)行挖掘,通過(guò)保持用戶之間的二階相似性,構(gòu)建高階交互拓?fù)?,得到用戶的交互特征向量表?

      圖中顯性關(guān)系定義為一階相似性,對(duì)于由邊(u,v)連接的每對(duì)頂點(diǎn),該邊緣的權(quán)重wu,v表示u和v之間的一階相似性,如果頂點(diǎn)之間沒(méi)有觀察到邊緣,他們的一階相似性為0. 對(duì)于每個(gè)無(wú)向邊(u,v),定義頂點(diǎn)u和v的聯(lián)合概率分布為

      (9)

      (10)

      圖中的隱性關(guān)系定義為二階相似性,二階相似性指的是在網(wǎng)絡(luò)中一對(duì)頂點(diǎn)之間的接近程度是其鄰域網(wǎng)絡(luò)結(jié)構(gòu)之間的相似性. 二階相似性假定與其他頂點(diǎn)共享鄰居頂點(diǎn)的兩個(gè)點(diǎn)彼此相似.

      數(shù)學(xué)上,讓pk=[wk,1…wk,|V|]表示k與附近所有其它頂點(diǎn)的一階相似性,那么k和h之間的二階相似性由pk和ph之間的相似性來(lái)決定. 如果沒(méi)有一個(gè)頂點(diǎn)同時(shí)與k與h連接,那么k和h的二階相似性是0. 對(duì)于每個(gè)有向邊(u,v),定義頂點(diǎn)v是頂點(diǎn)u的鄰居的概率:

      (11)

      式中:|V|表示頂點(diǎn)集合;v′和v″分別為表示頂點(diǎn)本身和其他頂點(diǎn)的鄰居時(shí)的向量.

      另外,二階相似性的目標(biāo)函數(shù)為

      (12)

      1.4 目標(biāo)函數(shù)

      根據(jù)前面所述,定義優(yōu)化目標(biāo)函數(shù)如下

      L(e)=Lt(e)+Ls(e).

      (13)

      Ls(e)=wu,vlnp2(v′s|u′s).

      (14)

      Lt(e)=αLtt(e)+βLts(e)+γLst(e).

      (15)

      Ltt(e)=wu,vlnp2(v′t|u′t).

      (16)

      Lts(e)=wu,vln p2(v′t|u′s).

      (17)

      Lst(e)=wu,vlnp2(v′s|u′t).

      (18)

      模型的目標(biāo)是通過(guò)最大化以上目標(biāo)函數(shù)L(e),獲得用戶u基于文本的向量表示u′t和基于交互拓?fù)涞南蛄勘硎緐′s,然后將兩種向量表示結(jié)合作為用戶節(jié)點(diǎn)向量表示為

      u=u′t+u′s.

      (19)

      但是直接優(yōu)化以上目標(biāo)函數(shù)的代價(jià)太高,會(huì)消耗大量的計(jì)算資源,所以實(shí)驗(yàn)過(guò)程中采用負(fù)采樣的方法對(duì)目標(biāo)函數(shù)進(jìn)行了修改,如式(20)所示,

      (20)

      利用訓(xùn)練得到的用戶表示向量u進(jìn)行抗議傾向性預(yù)測(cè),判斷用戶是否為抗議人物. 利用公式(21)計(jì)算得到用戶抗議性傾向預(yù)測(cè)值y′,與真實(shí)標(biāo)簽進(jìn)行對(duì)比,計(jì)算預(yù)測(cè)準(zhǔn)確率.

      y′=softmax(wu+b).

      (21)

      2 實(shí)驗(yàn)分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      數(shù)據(jù)來(lái)源于Apollo Social Sensing Toolkit提供的開(kāi)放數(shù)據(jù),數(shù)據(jù)集中包括大約1 800萬(wàn)條推文,包含172 388位用戶.

      數(shù)據(jù)集收集于2011年1月31號(hào)到2011年2月18號(hào)的埃及革命期間,該時(shí)段埃及爆發(fā)了一系列的街頭示威、游行、集會(huì)、罷工等抗議活動(dòng). 社會(huì)學(xué)研究表明,埃及革命抗議活動(dòng)期間,社交媒體起到了積極的推動(dòng)作用,埃及革命也被稱為“推特革命”[23-24]. 該數(shù)據(jù)集包含了用戶在埃及革命期間發(fā)表的推文,同時(shí)數(shù)據(jù)集中包含了大量用戶相互@的信息,能夠還原抗議期間用戶之間的社交聯(lián)系.

      實(shí)驗(yàn)過(guò)程中,選取5 d作為一個(gè)用戶的狀態(tài)持續(xù)時(shí)間,比如使用1月31號(hào)到2月5號(hào)期間的推文,根據(jù)設(shè)定的關(guān)鍵詞對(duì)用戶該時(shí)段的最新一條推文進(jìn)行初步篩選,再通過(guò)人工判斷該用戶的最新一條推文是否在表達(dá)抗議,最終完成數(shù)據(jù)集的標(biāo)注處理,數(shù)據(jù)處理流程如圖3所示.

      最終,實(shí)驗(yàn)過(guò)程中使用到的數(shù)據(jù)情況如表1所示,其中正樣本代表有抗議傾向的用戶樣本,負(fù)樣本代表沒(méi)有抗議傾向的用戶樣本.

      表1 實(shí)驗(yàn)數(shù)據(jù)Tab.1 Experimental datasets

      2.2 評(píng)價(jià)方法

      實(shí)驗(yàn)采用準(zhǔn)確率(Rac)對(duì)結(jié)果進(jìn)行評(píng)價(jià)與比較,準(zhǔn)確率是實(shí)驗(yàn)過(guò)程中常用的評(píng)價(jià)標(biāo)準(zhǔn),該評(píng)價(jià)方法綜合考慮了實(shí)驗(yàn)過(guò)程把正類和負(fù)類分對(duì)的情況,具體計(jì)算方法如公式(22)所示.

      (22)

      式中:NTP為將正類預(yù)測(cè)為正類的樣本數(shù)目;NTN為將負(fù)類預(yù)測(cè)為負(fù)類的樣本數(shù)目;NFP為將負(fù)類預(yù)測(cè)為正類的樣本數(shù)目;NFN為將正類預(yù)測(cè)為負(fù)類的樣本數(shù)目.

      2.3 抗議傾向性預(yù)測(cè)

      為了驗(yàn)證引入融合時(shí)序文本與高階交互拓?fù)涞姆椒▽?duì)抗議預(yù)測(cè)的實(shí)驗(yàn)結(jié)果帶來(lái)的積極影響,與當(dāng)前先進(jìn)算法進(jìn)行對(duì)比. 同時(shí)為了證明算法的普適性,分別在不同時(shí)間段的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn). 選用5 d為時(shí)間窗口,該時(shí)段內(nèi)的信息量能夠代表用戶的最近狀態(tài). 利用時(shí)間窗口,將原始數(shù)據(jù)集切分為8個(gè)子數(shù)據(jù)集,以數(shù)據(jù)集內(nèi)最新一條推文對(duì)用戶進(jìn)行標(biāo)注,以80%的數(shù)據(jù)作為訓(xùn)練集,10%作為驗(yàn)證集,10%作為測(cè)試集. 為了公平,所有對(duì)比算法在實(shí)驗(yàn)過(guò)程中均設(shè)置用戶表示向量的維度為200,實(shí)驗(yàn)結(jié)果如表2所示.

      表2 用戶抗議傾向預(yù)測(cè)準(zhǔn)確率Tab.2 User protest tendency prediction accuracy

      由實(shí)驗(yàn)結(jié)果可以看出,在多數(shù)數(shù)據(jù)集上,融合時(shí)序文本與高階交互拓?fù)涞脑诰€抗議預(yù)測(cè)方法取得了良好的實(shí)驗(yàn)效果,優(yōu)于當(dāng)前先進(jìn)算法. 實(shí)驗(yàn)結(jié)果說(shuō)明,通過(guò)時(shí)序文本建模方法對(duì)用戶個(gè)人推文信息進(jìn)行表示,能夠?qū)W習(xí)到用戶推文時(shí)序差異性對(duì)用戶屬性建模的影響,同時(shí)通過(guò)融合高階交互拓?fù)湫畔?,能夠還原用戶真實(shí)社交情況,有利于用戶屬性建模,能夠提高抗議人物預(yù)測(cè)準(zhǔn)確率. 另外,隨著時(shí)間推移,預(yù)測(cè)的準(zhǔn)確率總體呈下降趨勢(shì). 原因是在抗議活動(dòng)的尾聲,用戶對(duì)抗議活動(dòng)的關(guān)注度減弱,推特對(duì)抗議活動(dòng)的話題討論不再集中,使得推特中的推文信息噪聲增多,導(dǎo)致預(yù)測(cè)準(zhǔn)確率下降.

      2.4 維度特征實(shí)驗(yàn)

      為了評(píng)估不同維度用戶表示向量對(duì)在線抗議預(yù)測(cè)性能的影響,利用算法訓(xùn)練不同維度的用戶表示向量,對(duì)用戶的抗議傾向進(jìn)行預(yù)測(cè),并在前4組數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示.

      由實(shí)驗(yàn)結(jié)果可以看出,當(dāng)用戶表示向量的維度設(shè)置為200時(shí),預(yù)測(cè)準(zhǔn)確率最高. 特征維度設(shè)定為300時(shí),預(yù)測(cè)結(jié)果波動(dòng)較小,設(shè)定為400時(shí),整體波動(dòng)較大. 同時(shí),由實(shí)驗(yàn)結(jié)果圖可以看出,當(dāng)維度設(shè)置小于400維時(shí),特征維度不同造成的最終結(jié)果差異不大,準(zhǔn)確率最多相差一個(gè)百分點(diǎn).

      2.5 抗議規(guī)模預(yù)測(cè)

      為了表明本文提出的方法對(duì)抗議活動(dòng)規(guī)模預(yù)測(cè)具有直觀的借鑒意義,利用本文提出的方法對(duì)抗議活動(dòng)各時(shí)段用戶的推文狀態(tài)進(jìn)行判斷,并統(tǒng)計(jì)預(yù)測(cè)的抗議用戶數(shù)量和Twitter中明確宣稱抗議的用戶數(shù)量,結(jié)果如圖5所示.

      由實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法預(yù)測(cè)的抗議規(guī)模與線上真實(shí)抗議規(guī)模有很高的契合度,在第二組實(shí)驗(yàn)中,線上真實(shí)抗議規(guī)模和預(yù)測(cè)抗議規(guī)模都達(dá)到頂峰,這與現(xiàn)實(shí)世界中該時(shí)段集中爆發(fā)抗議活動(dòng)的表現(xiàn)一致. 同時(shí),從圖中可以觀察到,隨著抗議活動(dòng)接近尾聲,抗議分子的數(shù)量也在規(guī)律性的下降,說(shuō)明隨著時(shí)間推移,民眾的抗議情緒也在消退. 所以本文提出的方法能夠協(xié)助安全監(jiān)管部門(mén)感知、預(yù)測(cè)、預(yù)警未來(lái)抗議活動(dòng)的規(guī)模狀況,主動(dòng)作出相應(yīng)級(jí)別的決策反應(yīng),顯著提高社會(huì)治理能力,保障國(guó)家安全.

      2.6 案例分析

      為了更好地說(shuō)明算法的有效性,選取數(shù)據(jù)集中的正樣本用戶Indiffirent,分析其在抗議活動(dòng)期間的交互情況和推文內(nèi)容. 該用戶在抗議活動(dòng)期間的交互情況如表3所示,交互用戶users代表用戶Indiffirent@過(guò)的用戶們,用戶標(biāo)簽代表其中一個(gè)用戶u的標(biāo)簽屬性,1代表正樣本,0代表負(fù)樣本,交互次數(shù)是用戶Indiffirent與各個(gè)用戶u互相@的次數(shù),比如Indiffirent和marwame 之間相互@了1次.u與正樣本用戶交互次數(shù)代表用戶u的交互過(guò)程中,正樣本用戶所占的次數(shù).

      表3 正樣本用戶Indiffirent交互情況說(shuō)明Tab.3 Positive sample user Indiffirent interaction description

      從表3中可以看出,正樣本用戶Indiffirent在抗議活動(dòng)期間直接交互的用戶多數(shù)正樣本用戶,這是該用戶的一階拓?fù)涮匦? 另外,所有交互用戶users的互動(dòng)過(guò)程中,正樣本的比例遠(yuǎn)高于負(fù)樣本的比例,這是用戶Indiffirent的高階拓?fù)涮匦? 從現(xiàn)實(shí)世界的交互情況可以看出,算法構(gòu)建的高階拓?fù)浣Y(jié)構(gòu)能夠深度構(gòu)建用戶交往圈,完善用戶屬性建模.

      用戶Indiffirent在抗議活動(dòng)期間發(fā)表的推文內(nèi)容如表4所示,從推文內(nèi)容可以看出,該用戶在抗議活動(dòng)初期只是關(guān)注于抗議活動(dòng)進(jìn)展,隨著時(shí)間推移,該用戶開(kāi)始在推文中出現(xiàn)煽動(dòng)網(wǎng)絡(luò)用戶去參加抗議的內(nèi)容. 所以,在抗議活動(dòng)初期,該用戶并不具備抗議傾向,但是在預(yù)測(cè)的節(jié)點(diǎn),該用戶已經(jīng)變成了具有抗議傾向的抗議分子,所以用戶推文內(nèi)容的時(shí)間差異性對(duì)用戶抗議屬性的判斷起著重要的作用.

      表4 用戶Indiffirent推文內(nèi)容Tab.4 User Indiffirent tweet content

      3 結(jié) 論

      針對(duì)在線抗議預(yù)測(cè)中缺少對(duì)用戶自身推文時(shí)序差異性及交互拓?fù)涞年P(guān)注,從而影響抗議預(yù)測(cè)準(zhǔn)確率的問(wèn)題,提出了一種融合時(shí)序文本與高階交互拓?fù)涞脑诰€抗議預(yù)測(cè)方法. 該方法考慮用戶自身推文時(shí)序差異性對(duì)用戶屬性建模的影響,通過(guò)引入自注意力機(jī)制,學(xué)習(xí)用戶自身推文內(nèi)容時(shí)序差異性的權(quán)重矩陣,建模用戶時(shí)序推文表示,再結(jié)合用戶間交互推文信息特征構(gòu)成用戶文本表示向量,然后融合用戶高階交互特征向量共同構(gòu)建用戶特征向量,最后基于用戶特征向量預(yù)測(cè)其下一條推文是否在宣稱抗議. 實(shí)驗(yàn)結(jié)果表明,在多組實(shí)驗(yàn)數(shù)據(jù)集中,實(shí)驗(yàn)效果優(yōu)于當(dāng)前先進(jìn)算法,準(zhǔn)確率最高能達(dá)到93.9%. 該方法融合時(shí)序文本與高階交互拓?fù)?,能夠有效提升在線抗議預(yù)測(cè)的準(zhǔn)確率,對(duì)抗議規(guī)模的預(yù)測(cè)有直觀的借鑒意義. 將來(lái)的研究可以在以下三方面進(jìn)行:①在線抗議中心人物判斷;②在多地區(qū)數(shù)據(jù)集上證明本方法的適用性;③線上抗議活動(dòng)演變趨勢(shì)預(yù)測(cè).

      猜你喜歡
      高階時(shí)序抗議
      時(shí)序坐標(biāo)
      基于Sentinel-2時(shí)序NDVI的麥冬識(shí)別研究
      有限圖上高階Yamabe型方程的非平凡解
      高階各向異性Cahn-Hilliard-Navier-Stokes系統(tǒng)的弱解
      滾動(dòng)軸承壽命高階計(jì)算與應(yīng)用
      哈爾濱軸承(2020年1期)2020-11-03 09:16:02
      “藝”心抗議
      南風(fēng)(2020年8期)2020-08-06 10:25:56
      抗議之歌
      一種毫米波放大器時(shí)序直流電源的設(shè)計(jì)
      電子制作(2016年15期)2017-01-15 13:39:08
      縫線抗議
      基于Bernstein多項(xiàng)式的配點(diǎn)法解高階常微分方程
      裕民县| 周口市| 霞浦县| 平潭县| 临澧县| 日喀则市| 永登县| 榆社县| 河曲县| 锡林浩特市| 通城县| 湘潭县| 苍梧县| 吉首市| 阜阳市| 泰兴市| 蛟河市| 凌海市| 壶关县| 孟连| 贵德县| 湖州市| 霍州市| 广南县| 驻马店市| 祁门县| 天祝| 剑阁县| 遂平县| 岳西县| 临漳县| 邵阳县| 珲春市| 板桥市| 鹤峰县| 木里| 若尔盖县| 睢宁县| 沅陵县| 威远县| 叶城县|