• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      社交媒體主題的周期性對其主題觸發(fā)能力的影響 基于新浪微博的樣本分析

      2024-04-25 01:45:28徐舟爽
      情報雜志 2024年4期
      關(guān)鍵詞:周期性向量社交

      徐 翔 徐舟爽

      (同濟大學(xué)藝術(shù)與傳媒學(xué)院 上海 201804)

      0 引 言

      在社交媒體與互聯(lián)網(wǎng)逐漸融入公眾日常生活的當(dāng)下,每天有海量信息被生產(chǎn),社交媒體中不同主題的議程與討論也在不斷消長。本研究從主題周期對主題觸發(fā)能力的改變切入,解釋主題周期的特征與功能。傳統(tǒng)的研究認(rèn)為社交媒體的主題變化往往具有隨機性、不具有周期性規(guī)律[1],然而新近的研究發(fā)現(xiàn)社交媒體主題演化也存在其規(guī)律性。許多研究通過不同話題的生命周期切入[2-3],關(guān)注單一輿情事件的時間演化[4],試圖總結(jié)不同輿論事件的傳播規(guī)律。此外,部分輿情演化的宏觀研究從演化形態(tài)、演化主體、演化階段和演化機制等方面切入[5],認(rèn)為社會、金融、文化等因素會影響輿情的變化。然而,單一事件的生命周期研究與輿論的宏觀研究都無法為社交媒體主題傳播提供詳細(xì)的消長規(guī)律解讀,故這些研究提出的社交媒體輿情調(diào)控手段缺乏具體有效的措施和實質(zhì)性的推進。

      1 研究回顧與問題分析

      社交媒體主題周期性是本研究的前提。國內(nèi)外研究從社交媒體在主題周期性、用戶發(fā)帖內(nèi)容周期性、社交媒體情緒周期性維度發(fā)現(xiàn)周期性波動特征,這為主題內(nèi)容的周期研究提供了三個側(cè)面的佐證。主題周期方面,Lehmann等發(fā)現(xiàn)推特的部分標(biāo)簽具有周期性活動的規(guī)律[6]。一項針對新浪微博的用戶興趣研究表明用戶的興趣存在周期性規(guī)律[7]。部分仿真模型建模發(fā)現(xiàn)了網(wǎng)絡(luò)的周期性特征[8]。用戶發(fā)貼內(nèi)容的周期、社交媒體的情緒周期可以從側(cè)面佐證社交媒體內(nèi)容周期性的存在。Yi等從人類動態(tài)的角度了解已認(rèn)證用戶的發(fā)布行為,發(fā)現(xiàn)新浪微博認(rèn)證用戶發(fā)帖具有周期性[9]。Zhao等基于今日頭條和百度新聞進行模擬,發(fā)現(xiàn)用戶陷入信息繭房具有大約7天的周期性信息繭[10]。徐翔等通過小波分析研究新浪微博的情緒周期,發(fā)現(xiàn)微博多數(shù)類型的情緒存在周期[11]。Lansdall等提取了英國 980 多萬用戶在 31 個月中產(chǎn)生的 4.84億條推文中有關(guān)情緒的詞語頻率變化,確定了推特的情緒周期[12]。根據(jù)以上社交媒體在主題周期性、用戶發(fā)帖內(nèi)容周期性、社交媒體情緒周期性研究,本研究推測社交媒體主題可能存在周期性規(guī)律,這些周期性規(guī)律的存在和演化為輿情的調(diào)控及其演化提供了必要前提和可切入的角度。

      社交媒體中存在主題的帶動與觸發(fā)關(guān)系,但目前的研究對這種關(guān)系的影響原因、作用機制的討論尚不透徹。Leskovec等[13]研究了新聞領(lǐng)域的話題演變,關(guān)注一個話題的增長如何影響博客圈中其他話題的增長。他們識別并跟蹤了一小部分熱門話題的閱讀量,結(jié)果表明,一個話題上帖子數(shù)量的增長會對其他話題的增長產(chǎn)生影響。對于時間序列上的話題演化與觸發(fā)的研究較少,大多研究聚焦熱點話題的形成因素。社交媒體輿情演化存在背后的動力和動因,主題的周期波動是輿情演化背后動力的外在表現(xiàn)之一。然而當(dāng)前國內(nèi)外針對主題的周期性對于輿情的觸發(fā)規(guī)律的研究較少。結(jié)合對研究的回顧,本文提出假設(shè)(后文H1、H2、H3、H4)的主要考慮如下:

      a.特定頻率的主題周期具有其獨特的作用,對主題的觸發(fā)能力有影響。人類的自然周期和節(jié)律是社交媒體主題周期產(chǎn)生及主題觸發(fā)的共同原因。因此,本研究認(rèn)為特定周期對主題觸發(fā)和能力有影響。社交媒體主題有特定的周期,對應(yīng)特定的輿情動因,影響到主題的觸發(fā)能力。Malmgren等人分析了電子郵件活動[14],證明了事件間時間分布的近似冪律縮放是人類活動的晝夜節(jié)律和每周周期的結(jié)果。在主題擴散與觸發(fā)方面,Lehmann等[6]研究了Twitter中話題標(biāo)簽的動態(tài)傳播。他們發(fā)現(xiàn)用戶關(guān)注網(wǎng)絡(luò)的傳播內(nèi)源因素對標(biāo)簽流行的影響較小,事件的流行程度主要是由媒體及平臺外源因素驅(qū)動的。已有研究表明體育運動[15]、旅游目的地[16]、音樂[17]等話題參與均有日度、季度的季節(jié)性波動,能帶動特定的主題討論?,F(xiàn)有研究表明,人類活動的特定規(guī)律是主題演化的動因,也外在表現(xiàn)為周期性的活動規(guī)律,這為后文H1的提出形成支持,也即存在特定周期類型和主題對其他主題的觸發(fā)能力有關(guān)。

      b.主題具有的周期種類與主題的觸發(fā)能力有關(guān)。主題的周期種類多意味著主題的潛在動因豐富,也有更大可能與其他主題產(chǎn)生同頻共振。由假設(shè)H1可推出,社交媒體主題有特定的周期,對應(yīng)特定的輿情動因,對主題的觸發(fā)能力有影響。由假設(shè)H1可以推出,震蕩屬性越強,即特定主題的周期數(shù)量越多,代表特定主題的潛在動因更豐富,主題輿情的傳遞與觸發(fā)能力越強。一項在AOL的搜索引擎、社交書簽系統(tǒng)——delicious、短消息通信網(wǎng)絡(luò)及Twitter共四個大型系統(tǒng)上進行了廣泛的實驗的研究表明,在許多人類激活的系統(tǒng)中廣泛觀察到時間爆發(fā),其認(rèn)為這可能是由內(nèi)源機制(如最高優(yōu)先級優(yōu)先協(xié)議)和外源因素(如活動的季節(jié)性)引起的[18]。當(dāng)有多種季節(jié)性、社會性因素對同一主題產(chǎn)生影響,特定的主題背后的能量場就越復(fù)雜、對其他主題的觸發(fā)能力就越強,這為本文的研究問題H2提供參考,也即主題具有的周期數(shù)量與主題對其他主題的觸發(fā)能力有關(guān)。

      c.主題具有的最長周期與主題的觸發(fā)能力有關(guān)。主題的最長周期代表社交媒體主題震蕩的穩(wěn)定性,這一關(guān)聯(lián)的形成可能與具有相對穩(wěn)定震蕩周期的主題背后驅(qū)動的文化因素有關(guān)。具有較長周期的主題可能有更加深層的文化周期因素影響,具有較長較穩(wěn)定的深層社會性、季節(jié)性影響因素。一項針對推特的季節(jié)性負(fù)面關(guān)鍵詞的研究表明,季節(jié)的變化會導(dǎo)致生活在溫帶地區(qū)的人們產(chǎn)生不同的生理、行為和心理變化[19]。這些變化,一方面是機體,特別是神經(jīng)系統(tǒng)對季節(jié)變化所帶來的環(huán)境變化的適應(yīng)性反應(yīng)。另一方面,由于社會生活的季節(jié)嵌入性,季節(jié)變化除了心身因素外,還通過不同的社會因素對人類行為產(chǎn)生影響。季節(jié)性對人類的心理影響因素和文化的深層波動性也直接導(dǎo)致長周期的作用機理相對短周期更難明確解釋。季節(jié)性因素導(dǎo)致的長周期可能導(dǎo)致主題演化觸發(fā)的能力不同,這為后文H3提供解釋,也即主題具有的最長周期和主題觸發(fā)能力有關(guān)。

      d.社交媒體主題的最短周期與主題觸發(fā)能力有關(guān)。此種關(guān)聯(lián)可能和主題的震蕩頻次與信息傳播速率有關(guān)。用戶之間的關(guān)系網(wǎng)絡(luò)與信息的傳遞速度可能是背后的作用機制。一項針對推特的標(biāo)簽研究表明[20],政治上有爭議的話題標(biāo)簽的采用受到重復(fù)暴露的影響,而這種重復(fù)暴露對會話習(xí)語的采用的邊際效應(yīng)要小得多。用戶的關(guān)系網(wǎng)和用戶的相似性為這一發(fā)現(xiàn)提供解釋。信息擴散的時間模式研究中,不同信息具有不同的被采用的時間速率[21]。主題傳播與接受的速度越快、主題參與用戶的關(guān)系網(wǎng)絡(luò)越密切,主題震蕩頻次就越高,進而影響主題的影響與觸發(fā)關(guān)系,這為H4的提出提供支持,也即主題具有的最短周期和主題觸發(fā)能力有關(guān)。

      本研究中,主題的觸發(fā)能力代指某主題波動變化影響其他主題波動變化的能力。某主題能影響盡可能多的其他主題發(fā)生變化代表該主題觸發(fā)能力越強。

      根據(jù)現(xiàn)有關(guān)于主題周期性形成規(guī)律的研究,本研究提出以下研究假設(shè):

      H1:存在特定周期類型和主題對其他主題的觸發(fā)能力有關(guān);

      H2:主題具有的周期數(shù)量與主題對其他主題的觸發(fā)能力有關(guān)。

      由H1、H2兩個問題,為探究主題周期和主題議程觸發(fā)能力更深層的關(guān)聯(lián),對周期的長度與主題議程觸發(fā)能力進行提出進一步假設(shè):

      H3:主題具有的最長周期和主題對其他主題的觸發(fā)能力有關(guān);

      H4:主題具有的最短周期和主題對其他主題的觸發(fā)能力有關(guān)。

      由上述四個假設(shè),本研究提出,主題的周期特征對該主題在輿論中其他主題消長的觸發(fā)能力有共同影響,即形成可實際預(yù)測的決策樹模型M1:通過主題的特定周期和其數(shù)量、長度可以預(yù)測該主題在社交網(wǎng)絡(luò)輿論中的觸發(fā)能力。對于本假設(shè),本文將通過CRT回歸決策樹來闡述自變量和因變量之間的可預(yù)測關(guān)系及其模型。

      四個問題和模型的邏輯關(guān)系如圖1所示。

      圖1 研究假設(shè)關(guān)系圖

      2 研究設(shè)計與研究方法

      本研究選擇國內(nèi)重要社交平臺新浪微博為研究對象,采用“八爪魚”軟件結(jié)合Python+Selenium爬蟲工具,抽取32 779 920條貼文進行時間序列分析。運用Word2vec和Kmeans結(jié)合的方式計算貼文主題。運用Word2vec詞向量及平均池化的方式得到帖子的句向量。用Kmeans對句向量進行聚類得到每一條貼文對應(yīng)的主題。通過上述步驟得到400個主題每日發(fā)帖數(shù)量的時間序列,形成400×1095的主題的時間序列矩陣。然后利用小波分析的方法得到400個主題的周期特征,得到不同主題具有的周期。利用格蘭杰因果分析的方法檢驗400個主題之間的共變、觸發(fā)關(guān)系,得到400×400的主題觸發(fā)因果矩陣。其后,基于400*400的觸發(fā)因果矩陣計算400個主題的點度中心度,即400個主題各自對所有主題的觸發(fā)能力水平。最后,從特定周期、周期數(shù)量、最長周期、最短周期四個角度分析主題間的觸發(fā)能力與主題自身周期的影響機制,并針對所分析出的影響機制提出社交網(wǎng)絡(luò)輿論傳播管理、引導(dǎo)的對策建議。

      2.1 概念與指標(biāo)界定

      本文從主題貼文數(shù)時間序列對其他主題的預(yù)測程度測量主題的“觸發(fā)能力”程度,操作化定義為:主題發(fā)帖數(shù)量序列之間的格蘭杰因果矩陣的中心度。格蘭杰因果檢驗可以體現(xiàn)主題與主題之間是否存在觸發(fā)帶動的因果關(guān)系,計算格蘭杰因果檢驗矩陣的中心度可以得到不同主題在所有主題的觸發(fā)帶動網(wǎng)絡(luò)中的重要程度。根據(jù)這一測量方式,每個主題都具有“觸發(fā)能力”和“被觸發(fā)能力”值,觸發(fā)能力越高,其引發(fā)其他主題的能力越強,說明該主題的關(guān)注更容易轉(zhuǎn)移到其他主題中。

      2.2 數(shù)據(jù)采集與樣本抽取

      本研究選擇國內(nèi)重要社交平臺新浪微博為研究對象,新浪微博發(fā)布的財報顯示,微博2023年3月的月活躍用戶為5.93億,2023年3月的平均日活躍用戶為2.55億。數(shù)據(jù)抓取采用“八爪魚”軟件結(jié)合python+selenium爬蟲工具,使用滾雪球的方法進行。滾雪球的數(shù)據(jù)抓取方法在社會網(wǎng)絡(luò)研究領(lǐng)域中具有可借鑒的使用,例如Patton等人的研究[22]以一個幫派成員作為種子用戶,對其Twitter好友列表進行滾雪球,證明滾雪球有利于收集具有廣泛性的可用的數(shù)據(jù),對結(jié)論形成良好支持。

      首先,運用“八爪魚”軟件以及Python和Selenium編寫動態(tài)網(wǎng)頁抓取程序進行網(wǎng)絡(luò)數(shù)據(jù)抓取。從新浪微博首頁47個內(nèi)容版塊(社會、國際、科技、科普、數(shù)字、財經(jīng)、股市、明星、綜藝、電視劇、電影、音樂、汽車、體育、運動健身、健康、瘦身、養(yǎng)生、軍事、歷史、美女模特、美圖、情感、搞笑、辟謠、正能量、政務(wù)、游戲、旅游、育兒、校園、美食、房產(chǎn)、家居、星座、讀書、三農(nóng)、設(shè)計、藝術(shù)、時尚、美妝、動漫、宗教、萌寵、法律、視頻、同城)中,各個版塊每天早晚各抓取一次,持續(xù)1個月,根據(jù)url去除重復(fù)后獲得65 650條帖子。本次抓取歷時一個月,避免了短時間內(nèi)大量抽取的樣本偏差;并借助微博自身的分區(qū)設(shè)置,使得樣本廣泛而大致均衡地分布在47個不同板塊中,具有較大的覆蓋面和良好程度的代表性。

      然后從這些種子帖做一輪“滾雪球”抽樣的擴散,每條種子帖抓取500條評論的評論者(不足500條的則全部抓取)。其后去除重復(fù)用戶和無效用戶、抓取失敗的用戶后,獲取其發(fā)布者和評論者共計3 501 153個用戶的初始庫,并從中隨機取10萬個用戶,其中有效抓取到87 739個用戶所發(fā)的131 770 017條帖子及其相關(guān)數(shù)據(jù),包括帖子的發(fā)布時間、點贊數(shù)、評論數(shù)。對用戶的粉絲數(shù)、發(fā)帖數(shù)、關(guān)注他人數(shù),其原始值加1后取以2為底的對數(shù),統(tǒng)計特征描述如下:用戶關(guān)注他人數(shù)的均值為5.74,標(biāo)準(zhǔn)差為1.137;粉絲數(shù)的均值為6.58,標(biāo)準(zhǔn)差為2.884;發(fā)微博條數(shù)的均值為7.970,標(biāo)準(zhǔn)差為2.090。

      131 770 017帖子的發(fā)帖時間為2012年12月30日到2020年12月29日,為排除新冠疫情對微博用戶發(fā)帖主題分布的影響,選取2016年11月1日到2019年10月31日共三年1 095天的發(fā)帖。此外,為保證每一天貼文總數(shù)的統(tǒng)一性,抽取1095天內(nèi)所有發(fā)帖最少日期的貼文數(shù)量,即每天抽29 936條帖子,共327 79 920條貼文進行時間序列分析。

      2.3 文本內(nèi)容的特征提取與向量化表示

      運用Python進行主題聚類和識別需要讀取向量化后的矩陣進行計算。本文采用 Word2vec詞向量及其平均池化的方式對分詞后的帖子內(nèi)容進行轉(zhuǎn)化。Shen等[23]對詞向量采取等權(quán)求平均向量的方法,與循環(huán)和卷積網(wǎng)絡(luò)進行比較發(fā)現(xiàn),在大多數(shù)情況下前者表現(xiàn)出更高性能。Word2vec是 Mikolov等[24]于2013年提出的淺層神經(jīng)網(wǎng)絡(luò)語言模型。通過無監(jiān)督訓(xùn)練將文本數(shù)據(jù)轉(zhuǎn)化為低維實數(shù)向量,通過語言模型對語義和語法信息進行訓(xùn)練并投影到多個向量空間,從而完成文本的結(jié)構(gòu)化處理。向量空間模型(Vector Space Model)是常用的文本表示模型,對于特征覆蓋性較全,但它并不能解決詞匯相似度和“詞匯鴻溝”的問題。Word2vec基于神經(jīng)網(wǎng)絡(luò)的詞嵌入則可以很好地解決這一問題。對于 Word2vec模型的搭建和訓(xùn)練,采 用 開 源 模 塊 Gensim實現(xiàn)。訓(xùn)練 Word2vec所使用的語料采用26G 的中文語料庫,來源包括媒體新聞庫、網(wǎng)絡(luò)論壇帖子抓取、經(jīng)典名著和文學(xué)文本等,該詞向量訓(xùn)練結(jié)果包括5 830 979個詞匯的嵌入式表示,訓(xùn)練效果良好。Word2vec詞向量及平均池化的計算方式如下:Word2vec的詞向量對帖子進行等權(quán)平均計算形成句向量,對 Word2vec的參數(shù)設(shè)定300維空間。將樣本中的帖子按照分詞后的結(jié)果,把每一個單詞轉(zhuǎn)換成一個300維的詞向量,然后計算每個詞向量的平均值,得到該帖子、短文本的語句向量。具體來說,逐一將樣本中的帖子 T1中的每一個詞(A/B/C/D)各表示為形如V=[0.01,1.002,-0.02,…2.26,0.05,3.97]的300維的向量。接著計算 T 所有詞向量的等權(quán)平均值(也即平均池化)∶

      VT1=(VA+VB+VC+VD)÷n

      (1)

      Word2vec 包括 CBOW 和 Skip-Gram 模型,本文采用其中的 CBOW 模型。CBOW 模型的主要思想是上下文信息作為輸入,當(dāng)前詞作為監(jiān)督數(shù)據(jù)或監(jiān)督標(biāo)簽訓(xùn)練目標(biāo)是使當(dāng)前詞出現(xiàn)的概率最大,而當(dāng)前詞的后驗概率如下:

      (2)

      用詞向量表示句子或短文本,采取對詞向量求平均池化值,也即計算各向量等權(quán)后的平均向量[25]。Shen 等的研究將簡單詞向量模型(SWEM),也即對詞向量進行等權(quán)求平均向量的方法,與循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)進行比較得出在大多數(shù)情況下 SWEM 表現(xiàn)出高性能14?;?Word2vec詞向量進行平均池化得到帖子向量,具有良好基礎(chǔ)與現(xiàn)實應(yīng)用性。

      2.4 主題內(nèi)容聚類及時間序列矩陣生成

      得到貼文的句向量后,運用K-means聚類把貼文分兩步聚類為400個主題并得到各主題貼文數(shù)的時間序列。抽取1 500萬條帖子的句向量先進行第一步的K-means聚類。通過肘拐點判斷合適的聚類數(shù)量。基于每個帖子的向量,通過 K-means算法進行若干種聚類類型的試驗,最大迭代次數(shù)設(shè)為 6。由于隨著聚類數(shù)量K的增長,其簇內(nèi)誤差平方和(K-means Inertia)變化較為平穩(wěn),而太低的聚類數(shù)量不利于統(tǒng)計檢驗,過多的聚類數(shù)量會出現(xiàn)類型分布極不均衡的情況。因此根據(jù)實際的可操作性,選擇將帖子聚為 400 類。K-means的簇內(nèi)平方和隨其數(shù)量變化如圖2所示。

      圖2 K-means聚類誤差變化

      由于待聚類的數(shù)據(jù)規(guī)模大,調(diào)用K-means的fit_predict模塊進行全體帖子的聚類。通過上述步驟得到32 779 920條貼文的日期、主題,統(tǒng)計400類帖子在1 095天的每日29 936條帖子中的比例,得到各類的貼文數(shù)隨日期演變的時間序列。

      2.5 對于各主題每日發(fā)帖數(shù)量變化的周期性分析方法

      采取小波分析法對不同主題的波動情況進行處理,判斷微博主題發(fā)帖波動的周期性特征。由Morlet所提出的時-頻小波分析(WaveletAnalysis)是時間(空間)的局部化分析,從而反映出不同時間尺度下的變化趨勢。Morlet小波變換其時域及頻域局部性均較好,廣泛應(yīng)用于地理學(xué)[26]、天文學(xué)[27]、選舉周期[28]等具有周期性波動變化的時間序列分析。在Morlet小波分析所呈現(xiàn)的結(jié)果中,小波系數(shù)實部等值線圖能反映特定時間序列不同時間尺度的周期變化及其在時間域中的分布,進而能判斷在不同時間尺度上該時間序列的未來變化趨勢;小波方差圖則能反映特定時間序列的波動能量隨尺度的分布情況,可用來確定采樣樣本在演化過程中存在的主周期。在通過白噪音檢驗或紅噪音檢驗的情況下,其峰值對應(yīng)的時間尺度為數(shù)據(jù)的主周期。

      采取matlab軟件進行小波分析的計算。首先,為消除時間序列兩端的“邊界效應(yīng)”,對數(shù)據(jù)進行小波信號延伸處理,將時間序列進行對稱性延伸。其后,對主題貼文數(shù)量的時間序列進行連續(xù)小波變換,選擇復(fù)morlet小波函數(shù)計算小波系數(shù),隨后去掉兩端延伸數(shù)據(jù)的小波變換系數(shù),保留原數(shù)據(jù)序列時段內(nèi)的小波系數(shù)。之后在明確小波系數(shù)的基礎(chǔ)上,繪制小波方差圖。小波方差圖能反映波動能量隨尺度(天)的分布情況,通過其峰值可確定微博各主題分布波動過程中可能存在的周期。較多的采取小波分析對周期進行研究的論文中并未對周期加以顯著性檢驗,一定程度上影響了研究的信度和效度。對此,紅噪聲和白噪聲標(biāo)準(zhǔn)譜是可行的檢驗方法。一階自相關(guān)系數(shù)較大的時間序列較多地采用紅噪聲標(biāo)準(zhǔn)譜進行檢驗,該方法作為驗證小波方差圖的顯著性檢驗標(biāo)準(zhǔn)具有較強的可行性,在高能粒子變化[29]、地震活動變化[30]、極端氣溫變化[31]等的周期性顯著的數(shù)據(jù)檢驗中均有良好的運用。

      本研究通過紅噪聲對所得到的各種主題分布周期進行顯著性的檢驗。目前關(guān)于微博中的輿論生命周期的研究統(tǒng)計時長往往為兩個月以內(nèi)[32-33]。另一方面,根據(jù)兩個月的自然天考慮,把主題波動周期的檢驗尺度定為60天。對400類的主題的時間序列逐個進行小波分析。按照等距抽樣選取序號為50、150、250、350的主題,呈現(xiàn)其小波分析的結(jié)果如下述幾圖所示。圖中,波峰為該主題的周期,小方格虛線為紅噪聲檢驗線,在虛線以上的波峰為顯著周期。隨機抽取的序號為50、150、250、350的主題小波方差圖如圖3、圖4、圖5、圖6所示。

      圖3 序號為50的主題的小波方差圖

      圖4 序號為150的主題的小波方差圖

      圖5 序號為250的主題的小波方差圖

      圖6 序號為350的主題的小波方差圖

      2.6 主題間觸發(fā)矩陣計算

      為得到400×400的主題間觸發(fā)的因果關(guān)系,本文運用格蘭杰檢驗的方法計算各主題發(fā)帖數(shù)量時間序列的相互影響。格蘭杰因果檢驗是一種假設(shè)鑒定的統(tǒng)計方法,用來測量一個時間序列是否有助于預(yù)測另一個時間序列。本文采用格蘭杰因果分析的方法,檢驗了400個主題的時間序列之間潛在的格蘭杰因果關(guān)系,從而得到主題的影響和觸發(fā)規(guī)律。

      首先,本研究對需要分析的400個時間序列進行了ADF單位根檢驗(augmented dickey-fullertest)[34],以確保時間序列的平穩(wěn)性。通過檢驗結(jié)果我們發(fā)現(xiàn),部分變量存在單位根,均為不平穩(wěn)序列,因此對所有主題的時間序列進行一階差分后再進行ADF檢驗,所有主題的時間序列一階差分后,在 1% 顯著水平上均不存在單位根(ADF 統(tǒng)計值小于 1% 臨界值),以上差分后變量均可視為平穩(wěn)序列。接下來,我們對研究問題中涉及的變量間關(guān)系進行了協(xié)整檢驗,以判斷變量間是否長期穩(wěn)定均衡的關(guān)系,避免變量間偽回歸關(guān)系的存在。一般認(rèn)為 E-G兩步法適合兩個變量之間的協(xié)整關(guān)系檢驗,即在變量平穩(wěn)的情況下,建立兩變量之間的回歸,只要檢驗其殘差是否平穩(wěn)即可,如果殘差平穩(wěn),則可以認(rèn)為變量之間存在協(xié)整關(guān)系,反之,變量之間不存在協(xié)整關(guān)系。經(jīng)檢驗,400個主題之間的數(shù)量序列經(jīng)一階差分后,均能通過兩兩協(xié)整關(guān)系檢驗。

      在進行格蘭杰因果檢驗之前,對變量的原始數(shù)據(jù)進行了相關(guān)分析。格蘭杰檢驗可以解釋一定滯后期內(nèi)時間序列之間的共變特征,相關(guān)系數(shù)則有助于我們了解它們之間的同期共變趨勢。我們認(rèn)為,主題熱度對其他主題可能存在同期影響,但反過來,受到輿論發(fā)酵時間和熱度轉(zhuǎn)移的影響,主題的觸發(fā)往往存在一定的滯后期[35]。根據(jù)分析結(jié)果,部分主題之間討論數(shù)量序列具有顯著的相關(guān)關(guān)系,表明主題之間的發(fā)帖趨勢可能存在同步性。主題1到主題10的時間序列相關(guān)性如表1所示。

      表1 主題間時間序列相關(guān)性示意(抽取10個主題為例)

      2.7 各主題在觸發(fā)網(wǎng)絡(luò)的點度中心度

      通過400維主題的影響網(wǎng)絡(luò),本研究需要得到不同主題對其他主題的影響程度,采用社會網(wǎng)絡(luò)分析的中心性指標(biāo)對主題在觸發(fā)網(wǎng)絡(luò)中的中心地位進行衡量,而得到該主題在彼此影響關(guān)系網(wǎng)絡(luò)中的重要性和關(guān)鍵性。在社會網(wǎng)絡(luò)分析法中,中心性測量了行動者在社會網(wǎng)絡(luò)中所處的核心地位和權(quán)力影響,指標(biāo)包括點度中心度、中介中心度、接近中心度、特征向量中心性等。其中,點度中心度指的是在社會網(wǎng)絡(luò)中一個行動者與其他行動者發(fā)生直接聯(lián)系的能力,點度中心度越高,意味著節(jié)點在社會連接網(wǎng)絡(luò)越居于中心位置,從而擁有較大的影響力。在本研究中主題在觸發(fā)網(wǎng)絡(luò)的點度中心度越高,其對其他主題議程的影響、觸發(fā)能力就越強。

      通過上述步驟,得到400個主題的特定周期、周期數(shù)量、最長周期、最短周期及其在主題觸發(fā)網(wǎng)絡(luò)中的中心度如表2所示(隨機抽取15個主題為例)。

      表2 研究統(tǒng)計檢驗的變量示意表

      3 社交媒體主題周期影響主題觸發(fā)規(guī)律的實證檢驗結(jié)果

      通過上節(jié)研究設(shè)計與研究方法,得到400個主題的議程周期及其輿情觸發(fā)能力。通過檢驗周期的四個特性:特定周期類型、周期數(shù)量、最長周期、最短周期對主題輿情觸發(fā)能力的影響解讀社交媒體主題周期對輿情的影響。

      3.1 假設(shè)H1:存在特定周期類型與主題對其他主題的觸發(fā)能力有關(guān)

      對400個主題的不同周期的觸發(fā)網(wǎng)絡(luò)中心度進行獨立樣本T檢驗,統(tǒng)計不同主題周期對主題觸發(fā)能力是否有顯著影響。結(jié)果如表3所示(抽取前10個主題為例)。

      表3 部分主題特定周期獨立樣本T檢驗結(jié)果

      經(jīng)獨立樣本T檢驗,結(jié)果表明7天、49天、55天、57天的周期對主題觸發(fā)能力有顯著正面影響;4天、6天、8天、9天、11天的周期對主題觸發(fā)能力有顯著負(fù)面影響。其他周期對主題觸發(fā)能力的影響并不顯著。除了7天的短周期以外,正向影響主題觸發(fā)能力的周期只有長周期。除7天以外的短周期波動對主題的觸發(fā)能力有負(fù)面影響。說明存在若干種周期與主題的觸發(fā)能力有關(guān)聯(lián)。

      7天、35天、49天、55天、56天、57天的周期對主題被觸發(fā)程度有正面影響;3天、5天、6天、9天的周期對主題的被觸發(fā)程度有負(fù)面影響。其他周期對主題被觸發(fā)程度的影響并不顯著。從被觸發(fā)程度的影響周期可以發(fā)現(xiàn),影響被觸發(fā)程度的周期與影響主題觸發(fā)能力的周期不一致,其中的原因還有待后續(xù)研究的深挖。周期對主題觸發(fā)、被觸發(fā)的影響有相似的規(guī)律,除了7天的短周期外,對主題觸發(fā)能力正向影響較大的往往是長周期,且多為7的整數(shù)倍數(shù)周期。短周期方面,除了7天的周期以外,大多短周期對主題的觸發(fā)能力、被觸發(fā)有負(fù)面影響。

      3.2 假設(shè)H2:主題具有的周期數(shù)量與主題對其他主題的觸發(fā)能力有關(guān)

      本研究統(tǒng)計的400個主題的周期數(shù)量為0~5之間的整數(shù),主題的觸發(fā)能力用主題在觸發(fā)網(wǎng)絡(luò)的出度衡量,為0.020~0.486之間的小數(shù)。運用誤差條形圖對周期數(shù)量和主題的觸發(fā)能力進行可視化處理可以直觀展現(xiàn)主題周期數(shù)量與主題觸發(fā)能力的變化關(guān)系。主題的周期數(shù)量和其輿情觸發(fā)能力的誤差條形圖如圖7所示。

      圖7 周期數(shù)量與觸發(fā)矩陣出度誤差條形圖

      由圖7可見,周期數(shù)量越多,該主題在觸發(fā)矩陣中的出度越大,即主題的觸發(fā)能力越強。經(jīng)檢驗,主題波動的周期數(shù)和占比網(wǎng)絡(luò)的中心性出度的皮爾遜相關(guān)系數(shù)為0.309(P<0.001,N=400),為顯著正相關(guān)。即主題波動的周期數(shù)量越多,主題在觸發(fā)網(wǎng)絡(luò)的出度越高,主題在觸發(fā)網(wǎng)絡(luò)中越具有更高的影響力,越容易引發(fā)其他主題的討論。

      主題波動的周期數(shù)和占比網(wǎng)絡(luò)的中心性入度的相關(guān)系數(shù)為0.298(P<0.001,N=400),為顯著正相關(guān)。即主題波動的周期數(shù)量越多,主題在被觸發(fā)網(wǎng)絡(luò)的出度中心度越高,主題在觸發(fā)網(wǎng)絡(luò)中越容易被其他主題影響。

      3.3 假設(shè)H3:主題具有的最長周期和主題觸發(fā)能力有關(guān)

      經(jīng)檢驗主題的最長周期和主題觸發(fā)網(wǎng)絡(luò)的入度、出度都有正相關(guān)關(guān)系,主題最長周期和主題觸發(fā)網(wǎng)絡(luò)中心度出度的皮爾遜相關(guān)系數(shù)為0.290(P<0.001,N=386),主題最長周期和主題出發(fā)網(wǎng)絡(luò)中心度入度的皮爾遜相關(guān)系數(shù)為0.258(P<0.001,N=386)。說明最長周期越長,主題在觸發(fā)網(wǎng)絡(luò)中越處于中心,越容易引發(fā)其他主體的占比變化,也越容易被其他主題影響、觸發(fā)。

      3.4 假設(shè)H4:主題具有的最短周期和主題觸發(fā)能力有關(guān)

      經(jīng)相關(guān)性檢驗,主題的最長周期和主題觸發(fā)網(wǎng)絡(luò)的入度、出度都有負(fù)相關(guān)關(guān)系。主題最短周期和主題觸發(fā)網(wǎng)絡(luò)中心度出度的皮爾遜相關(guān)系數(shù)為-0.168(P=0.000,N=386),主題最短周期和主題出發(fā)網(wǎng)絡(luò)中心度入度的皮爾遜相關(guān)系數(shù)為-0.265(P=0.000,N=386)。說明最短周期越短,主題在觸發(fā)網(wǎng)絡(luò)中越處于中心,越容易引發(fā)其他主體的占比變化,也越容易被其他主題影響、觸發(fā)。這個結(jié)果反映出主題的震動頻率越快,主題越容易影響、觸發(fā)其他主題,也更容易被其他主題影響、觸發(fā)。

      4 主題觸發(fā)能力的回歸樹模型

      由前文圖1所示,在H1、H2、H3、H4的基礎(chǔ)上,可將其整合為M1所提出的綜合性的預(yù)測模型。回歸樹是一種非參數(shù)模型,是基于描述的樹形結(jié)構(gòu)算法[36]。給定一組訓(xùn)練數(shù)據(jù), 采用從上到下、分而治之的學(xué)習(xí)策略, 將該組訓(xùn)練數(shù)據(jù)不斷劃分為無重復(fù)的子集。結(jié)束劃分后, 將每個子集中數(shù)據(jù)樣本的響應(yīng)均值作為輸出, 從而建立預(yù)測模型?;谇拔乃膫€假設(shè),本文繼而提出用周期特征預(yù)測某個主題對其他主題消長的觸發(fā)能力的回歸樹模型。

      為獲得泛化能力強、預(yù)測精度高的模型,通常需要對模型相關(guān)參數(shù)進行調(diào)整,由于回歸樹模型算法模型簡單, 參數(shù)選擇不復(fù)雜, 所以使用實現(xiàn)簡單、原理易懂的交叉驗證法和網(wǎng)格搜索法來進行參數(shù)選擇。本文交叉驗證法和網(wǎng)格搜索法的實現(xiàn)調(diào)用Sklearn機器學(xué)習(xí)工具包中GridSearchCV模塊。運用網(wǎng)格搜索法選擇回歸樹的模型最優(yōu)參數(shù)。影響回歸樹模型效果的的參數(shù)及其尋優(yōu)范圍、最優(yōu)值如表4所示,使用模型的R2作為評估算法預(yù)測精度的指標(biāo),交叉驗證設(shè)置為10折,搜索得到回歸樹模型的各參數(shù)最優(yōu)值。回歸樹模型尋優(yōu)參數(shù)示意、范圍、最優(yōu)值如表4所示。

      表4 回歸樹模型尋優(yōu)參數(shù)示意、范圍、最優(yōu)值

      4.1 主題具有的特定周期對該主題觸發(fā)能力有作用,對應(yīng)本研究假設(shè)H1

      從回歸樹中可以看到,對主題觸發(fā)能力影響最大的周期特征為是否存在55天的周期,為回歸樹的第一個分支,有55天周期的主題觸發(fā)能力的平均值為0.2573(N=44),顯著高于無55天周期的主題平均觸發(fā)能力(Value=0.1014,N=316)。具有55天周期的主題中,同時具有49天周期的主題的觸發(fā)能力平均值達到0.3454,顯著高于具有55天周期而沒有49天周期的主題平均觸發(fā)能力(0.2315)。對于55天周期的影響原因,一方面可能與7天的倍數(shù)周期56天有關(guān),另一方面,可能存在中長尺度的其他因素的復(fù)合影響和干擾,另外,還可能存在部分其他偶然因素。

      4.2 主題的周期長度對其觸發(fā)能力有影響,對應(yīng)本研究假設(shè)H2、H3

      回歸樹中具有特定周期的主題有不同的最長周期、最短周期,其觸發(fā)能力有顯著差異。如不存在55天、7天、16天周期的主題中,最短周期大于7的主題具有更強觸發(fā)能力(Value=0.0926,N=163),大于最短周期小于7天的主題(Value=0.0698,N=37)。在不存在55天、48天、46天周期但具有7天的主題中,最長周期小于等于43天的主題的平均觸發(fā)能力為0.1204,高于最長周期大于56的主題的平均觸發(fā)能力為(Value=0.0989,N=28)。

      4.3 主題具有的周期數(shù)量對其觸發(fā)能力有影響,對應(yīng)本研究假設(shè)H4

      決策樹分析結(jié)果顯示,對于同時具有55、49天周期的主題,周期數(shù)量小于等于4.5的主題觸發(fā)能力平均值為0.3233,低于周期數(shù)量大于4.5的主題平均觸發(fā)能力0.3674。也即主題具有的周期種類對此類主題有影響。

      運用十折法計算模型的預(yù)測能力,該回歸樹模型的R方是0.6878?;貧w樹的均方誤差(mean squared error,MSE值)(用scikit-learn中metrics.mean_squared_error函數(shù)計算)為0.00208,該值越小表示模型性能越好。在回歸樹中,MSE不只是分枝質(zhì)量衡量指標(biāo),也是常用的衡量回歸樹回歸質(zhì)量的指標(biāo)?;貧w決策樹結(jié)果表明,結(jié)合H1、H2、H3、H4之后的主題的周期屬性對于主題的觸發(fā)能力有必要的預(yù)測能力,可幫助改善對于主題作用的預(yù)測效果。考慮到圖片大小,回歸樹截取局部示意如圖8所示。

      圖8 主題輿情觸發(fā)能力影響因素的回歸樹模型分析

      5 結(jié) 論

      隨著社交媒體的發(fā)展,網(wǎng)絡(luò)空間中的主題討論與輿論走向?qū)ΜF(xiàn)實事件的作用越來越大,把握看似隨機的議題討論背后的規(guī)律,對社交媒體輿論調(diào)控具有重要意義。本文在中國網(wǎng)絡(luò)輿情演化語境下,以新浪微博主題討論為例,創(chuàng)新地提出并證實社交媒體主題波動周期性、主題觸發(fā)能力概念,并從多個維度系統(tǒng)分析了主題波動周期對主題觸發(fā)能力的影響。首先,本研究發(fā)現(xiàn)大部分社交媒體主題存在周期性波動規(guī)律,且此種周期性規(guī)律對社交媒體主題具有影響。其中,7天、49天、55天、57天的周期對主題觸發(fā)能力有正面影響,4天、6天、8天、9天、11天的周期對主題觸發(fā)能力有負(fù)面影響。7天、35天、49天、55天、56天、57天的周期對主題被觸發(fā)能力有正面影響,3天、5天、6天、9天的周期對主題的被觸發(fā)能力有負(fù)面影響??傮w來說,主題的觸發(fā)能力和被觸發(fā)能力成正比。此外,研究發(fā)現(xiàn)最短周期越短、最長周期越長的主題具有更強的觸發(fā)能力。說明更具穩(wěn)定波動周期和具有更短共振頻率的主題具有更強的影響其他主題議程的能力。通過回歸樹可說明H1、H2、H3、H4對主題的觸發(fā)能力得到有效預(yù)測,預(yù)測R方值達0.6878。

      在當(dāng)前社交媒體輿情迅速變化的語境下,社交媒體的主題周期研究及主題周期的形成機制、應(yīng)用價值仍然是亟待填補之處。本研究從主題的周期特征切入進行探討,指出主題周期的潛在重要作用,從主題周期性對主題觸發(fā)能力的影響角度初探主題周期這一因素對社交媒體議程轉(zhuǎn)移與傳遞的影響。從理論角度,主題的周期性與觸發(fā)能力的分析說明了內(nèi)容周期的存在性和其與議程的關(guān)聯(lián),提出社交媒體輿論中主題的周期的形成、作用機理研究是有意義的研究空間。從實踐角度,可以從主題過去的周期預(yù)判其未來的波動情況及其對其他主題的觸發(fā)能力,對不同的主題進行針對性調(diào)控,為社交媒體輿論治理提供了一種解讀輿論傳播調(diào)控策略的可開拓空間。

      第一,基于主題周期的輿論調(diào)控研究有助于推動社交媒體輿論研究的新領(lǐng)域的拓展和深化。現(xiàn)有研究缺乏對社交媒體主題內(nèi)容周期性研究的審視,社交媒體主題的周期性這一變量的重要性未被充分重視。目前對內(nèi)容周期性、波動性的研究往往著眼于單一事件、話題與標(biāo)簽的生命周期[5][12],缺乏對宏觀的內(nèi)容季節(jié)性、波動性、周期性探討。本研究創(chuàng)新性地提出社交媒體主題的周期性規(guī)律,彌補了當(dāng)下社交媒體內(nèi)容、主題周期性規(guī)律的欠缺。此外,社交媒體主題周期長度與節(jié)律可能和多種因素有關(guān),如主題短周期與社交媒體淺層輿論、社交媒體平臺的議程設(shè)置有關(guān),主題的中長周期隱藏的深層輿論、文化長周期等也值得學(xué)界探討,此類潛在的作用機理可以為后續(xù)社交媒體研究提供新的角度參考。

      第二,周期對主題觸發(fā)能力的影響闡明了社交媒體主題周期研究價值。本研究在提出社交媒體主題周期的基礎(chǔ)上,從主題觸發(fā)能力的角度解讀社交媒體主題周期性的研究價值。本研究發(fā)現(xiàn),存在特定周期對主題的觸發(fā)、被觸發(fā)能力有影響。說明主題周期性與社交媒體議程演化存在此前未發(fā)現(xiàn)的關(guān)聯(lián)。此種作用是否和社交媒體平臺繭房化有關(guān)還有待后續(xù)研究探索。在主題周期長度和主題觸發(fā)能力關(guān)系的研究中發(fā)現(xiàn),是否具有如49天、55天的中長周期對主題觸發(fā)能力的影響較大。后續(xù)的研究需要重視社交媒體主題中長周期的作用,其對主題議程觸發(fā)能力的影響機制需要更深入的探索。

      第三,基于主題周期性的社交媒體輿論調(diào)控在事件中具有操作可能性。主題的周期性及其影響為社交媒體的輿論引導(dǎo)、管理和調(diào)控打開了新的窗口,有實際的應(yīng)用空間和價值。在具體的調(diào)控場景中,主題的觸發(fā)能力,即主題引發(fā)其他主題的變化能力具有較強的調(diào)控和監(jiān)測價值。本研究發(fā)現(xiàn),7天、49天等特定長度的周期對主題觸發(fā)能力有正面影響。利用這些主題的周期性規(guī)律,關(guān)注具有特定周期的主題,可以利用此類主題對社交媒體輿論進行引導(dǎo)和調(diào)控。主題長度方面,本研究發(fā)現(xiàn)具有短周期的主題更適合快速介入調(diào)控。在實際輿論調(diào)控場景中,可以通過主題的周期性監(jiān)測判斷主題的觸發(fā)能力,易于精準(zhǔn)的社交媒體輿論調(diào)控。

      第四,本研究還存在著一些需要繼續(xù)深化探討之處。a.在周期長度方面,受限于樣本數(shù)據(jù)本身的時間跨度和實際調(diào)控難度,是否存在著更長的社交網(wǎng)絡(luò)主題周期,以及這些更長的周期對調(diào)控有何意義,這些問題依然有待更大規(guī)模的數(shù)據(jù)加以檢驗。b.主題的特定周期對該主題在輿論場中的觸發(fā)能力的潛在成因及其詳細(xì)的作用機制,有待深入揭示與驗證。主題的周期性何以產(chǎn)生主題觸發(fā)及其調(diào)控機理有望觸發(fā)新的研究領(lǐng)域拓展。本研究推測周期可能推出主題震蕩的“長波”和“短波”等頻率特征,從而影響主題在議程網(wǎng)絡(luò)中的影響力。希望在后續(xù)的研究中能夠更為深入地展現(xiàn)社交網(wǎng)絡(luò)中的主題波動周期與觸發(fā)關(guān)系的細(xì)化特征和規(guī)律。

      猜你喜歡
      周期性向量社交
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      社交距離
      數(shù)列中的周期性和模周期性
      你回避社交,真不是因為內(nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      一類整數(shù)遞推數(shù)列的周期性
      向量垂直在解析幾何中的應(yīng)用
      基于擴頻碼周期性的單通道直擴通信半盲分離抗干擾算法
      岢岚县| 张北县| 凤翔县| 前郭尔| 兰西县| 丰原市| 马山县| 曲水县| 玉山县| 鹤壁市| 临海市| 噶尔县| 罗山县| 隆子县| 藁城市| 泰宁县| 余江县| 叙永县| 普陀区| 宣汉县| 张家川| 台州市| 邢台市| 龙门县| 扶沟县| 通城县| 徐闻县| 荆门市| 景泰县| 贵德县| 沽源县| 河南省| 磴口县| 武穴市| 贵定县| 周口市| 桂阳县| 郸城县| 梁山县| 盐山县| 海伦市|