魏杰明,何 慧
(哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,哈爾濱150001)
社交網(wǎng)絡(luò)中的信息傳播形式已經(jīng)隨著傳播媒介的改變,發(fā)生了本質(zhì)性的變化。在社交網(wǎng)絡(luò)中,社會事件的傳播過程存在著復(fù)雜的組成原因。社交網(wǎng)絡(luò)中用戶的行為模式是復(fù)雜而多樣化的[1]。交互的行為使得信息在網(wǎng)絡(luò)空間快速傳播。用戶行為規(guī)律分析,已成為當(dāng)下最熱門并且亟待解決的研究課題。
同時,社交網(wǎng)絡(luò)中的影響力可以改變用戶行為[2],這種影響力可通過信息傳播過程得以發(fā)揮作用,并因節(jié)點影響力強弱而呈現(xiàn)不同的作用效果。社交網(wǎng)絡(luò)中影響力包含2種能力,即:信息傳播能力和傳播效能。有著高影響力的節(jié)點[3-4]可以快速地傳播信息,并且依靠接收者進(jìn)行多層次的迭代傳播。同時,接收者獲取到該信息后,會因信息傳遞的內(nèi)容改變自己的用戶行為,配合信息調(diào)整活動。
用戶的行為方式大致可分為2類:發(fā)布行為和回復(fù)行為。其中,發(fā)布行為是用戶進(jìn)行信息傳遞的起點,其中涵蓋了發(fā)布時間特征、貼文類型特征、活躍度特征以及發(fā)布內(nèi)容特征等4個方面。而回復(fù)行為是用戶接收信息并進(jìn)一步傳遞的過程[5],主要包括回復(fù)時間特征、回復(fù)內(nèi)容特征、回復(fù)活躍度特征等3個方面。通過對以上2種行為的研究,可以分析出節(jié)點影響力的組成因素[6-7]。
研究可知,國際上影響力模型的建立,大都是基于3個關(guān)鍵屬性:追隨者數(shù)量、話題討論度和轉(zhuǎn)發(fā)傳播效能。通過比對各標(biāo)定對象的屬性值,繼而進(jìn)行計算和比較。由用戶的行為參數(shù)度,判斷出該節(jié)點的影響力強弱。
針對社交網(wǎng)絡(luò)中影響力模型提出了系統(tǒng)性的結(jié)論。將各種因素匯總,歸納總結(jié)出了4類影響力模型[8-9],分別是:基于 PageRank算法的影響力計算模型、基于用戶行為的影響力計算模型、綜合前兩種算法的影響力計算模型、以及基于社交網(wǎng)絡(luò)貼文地址的影響力模型。這4類影響力模型,涵蓋了當(dāng)今學(xué)術(shù)界對于社交網(wǎng)絡(luò)中該課題的所有計算方案,都在應(yīng)用層面取得了非常好的實驗效果[10]。
本文的研究重點在于社交網(wǎng)絡(luò)中用戶行為與節(jié)點影響力分析,在此基礎(chǔ)上實現(xiàn)對影響力模型的建立。通過從爬取的社交網(wǎng)絡(luò)數(shù)據(jù)集中進(jìn)行特征提取,使用統(tǒng)計分析的方法,進(jìn)而對用戶行為和貼文特征開展深入研究。從2類節(jié)點的特征中,歸納總結(jié)出節(jié)點的影響力組成規(guī)律,最終形成針對社交網(wǎng)絡(luò)中節(jié)點影響力模型。在定量計算中,需要確定節(jié)點的影響力權(quán)值。通過對節(jié)點影響力的全面分析,確定其影響力組成因素。使用PCA主成分分析算法,求得節(jié)點影響力函數(shù)表達(dá)式。
本文以Facebook為研究對象,采用基于爬蟲技術(shù)的社交網(wǎng)絡(luò)數(shù)據(jù)自動獲取程序。對待分析樣本,進(jìn)行數(shù)據(jù)采集,通過設(shè)定不同情況下,不同數(shù)據(jù)集下的數(shù)據(jù)清洗、數(shù)據(jù)融合以及數(shù)據(jù)歸一化處理的方式,將數(shù)據(jù)按照一定的規(guī)則進(jìn)行組織,并最終通過使用歸一化處理后的數(shù)據(jù)構(gòu)建社交網(wǎng)絡(luò)信息數(shù)據(jù)集。對此研究,可做闡釋論述如下。
在數(shù)據(jù)采集上,采用編寫抓取程序和調(diào)用Facebook提供的API以及開放數(shù)據(jù)等方式相結(jié)合,盡量使數(shù)據(jù)足夠完整和具有代表性。
Facebook面向外部開發(fā)者推出了一套比較成熟的API接口,開發(fā)者通過實名認(rèn)證可以獲得相應(yīng)的開發(fā)者口令A(yù)ccess token。
首先,建立一個token池。該token池保存從Facebook上申請得到的開發(fā)者Access token。其次,建立一個目標(biāo)用戶池。該目標(biāo)池保存要爬取的目標(biāo)用戶在Facebook上的賬號ID。調(diào)取API需要用到一個請求信息,該請求信息由接口地址和請求數(shù)據(jù)段組成。根據(jù)所需要爬取的數(shù)據(jù)組合出目標(biāo)請求,目標(biāo)請求和token參數(shù)組合成一個爬蟲任務(wù)存放到請求信息池中??紤]到要爬取的目標(biāo)用戶很多,因此需要使用多線程來提高爬取速率。從目標(biāo)用戶池中取出一個用戶賬戶ID和請求信息池中的一條請求信息組成一個爬取線程,調(diào)用對應(yīng)的Post API接口,即可獲取貼文信息。
從Facebook上爬取的數(shù)據(jù)樣本集中含有大量的噪聲信息。例如貼文文本中的表情符號屬于社交平臺的自定義符號干擾數(shù)據(jù)庫的保存,需要進(jìn)行過濾;伊朗文、拉丁文等非英文的語種需要單獨處理,否則數(shù)據(jù)庫會產(chǎn)生異常。因采集的數(shù)據(jù)來源于全世界各地,時區(qū)的不同將直接影響對于時間類型行為的研究分析。這些噪聲信息會對開發(fā)中的后續(xù)研究工作造成麻煩。因此,需要將爬取到的數(shù)據(jù)進(jìn)行預(yù)處理,清除掉數(shù)據(jù)中的噪聲。
對采集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)持久化。建立2張數(shù)據(jù)表,詳見表1、表2,可用于分別存儲貼文數(shù)據(jù)以及貼文的評論數(shù)據(jù)。
表1 貼文數(shù)據(jù)Tab.1 Posts data
表2 評論數(shù)據(jù)Tab.2 Comments data
將獲得的數(shù)據(jù)分別存儲在2張數(shù)據(jù)表中,本文的數(shù)據(jù)集中共獲取貼文數(shù)據(jù)三百多萬,評論數(shù)據(jù)五百多萬。數(shù)據(jù)足夠完整和具有代表性,符合實驗的要求。
社交網(wǎng)絡(luò)中用戶的行為是復(fù)雜而多樣的,包括了建立好友關(guān)系、發(fā)布原創(chuàng)的貼文信息、評論其它人的貼文內(nèi)容、使用其它的應(yīng)用等等。這里將社交網(wǎng)絡(luò)的用戶行為分為3類,具體如圖1所示。由圖1分析可知,社交網(wǎng)絡(luò)中的用戶行為在交互過程中將產(chǎn)生巨大的信息量。為了有針對性地分析用戶行為規(guī)律,需要系統(tǒng)、全面地研究社交網(wǎng)絡(luò)中的行為細(xì)節(jié),從中挑選有關(guān)鍵特征的信息。而在信息的傳播過程中,重要的用戶行為可歸納為典型的5種,內(nèi)容解析參見表3。
圖1 社交網(wǎng)絡(luò)中用戶行為Fig.1 User behavior in social networks
表3 用戶行為Tab.3 User behavior
社交網(wǎng)絡(luò)中用戶的內(nèi)容創(chuàng)作行為和用戶之間的各種交互行為構(gòu)成了社交網(wǎng)絡(luò)的主體,其中展現(xiàn)的各種規(guī)律將會客觀反映社交網(wǎng)絡(luò)的主要特征?;诖?,擬展開如下研究論述。
用戶發(fā)布貼文的時間點可以反映用戶的日常行為習(xí)慣,不同的人會選擇在不同的時間點來發(fā)布信息。因此,發(fā)布貼文的時間特征是一個重要的用戶行為特征。這里即以日分布時間為周期進(jìn)行數(shù)據(jù)統(tǒng)計,并由此來探尋時間特征規(guī)律。研究得到的日分布特征折線結(jié)果如圖2所示。
圖2 日分布特征統(tǒng)計圖Fig.2 Statistical chart of daily distribution characteristics
由圖2分析可知,凌晨5點到早上9點的時間段內(nèi),用戶發(fā)布貼文的比例最低,接近于零點。從早上九點開始,用戶發(fā)貼行為開始逐漸增加。在下午三點到達(dá)用戶發(fā)帖量第一個高峰,僅在三點到四點這一個小時內(nèi),發(fā)布的貼文數(shù)量就超過了全天發(fā)布數(shù)量的10%。隨后用戶發(fā)帖量從下午三點的峰值開始下降,在下午六點附近逐漸反彈,形成一個拐點。一直到晚上九點,用戶發(fā)帖量到達(dá)第二個高峰。隨著時間的不停前行,發(fā)帖量開始逐漸下降,直至凌晨五點時基本接近零點。
在這一過程中,可以發(fā)現(xiàn)2個關(guān)鍵信息。對此表述如下。
(1)半夜和凌晨是發(fā)貼行為比例最低的時候。考慮到此時大部分用戶都處于休息狀態(tài),沒有時間和精力發(fā)布貼文。
(2)午后和傍晚是發(fā)貼行為比例最高的時候。考慮到午后和晚飯后的時光,用戶普遍比較閑適,有充足的時間瀏覽和發(fā)布貼文。
該分析結(jié)果與用戶的日常行為相吻合。因此,在午后和傍晚發(fā)布貼文有較大概率會獲得良好的信息傳播效果。
社交網(wǎng)絡(luò)平臺給用戶提供了4種待選擇的貼文類型:鏈接類、狀態(tài)類、圖片類、視頻類。每種貼文類型傳遞信息的方式各不相同,產(chǎn)生的效果也不同。因此,用戶選擇貼文類型的行為是一個重要的用戶行為特征。下面即從貼文類型的分布進(jìn)行數(shù)據(jù)統(tǒng)計,并由此來探尋用戶發(fā)布的貼文類型的特征規(guī)律。研究得到的貼文類型分布統(tǒng)計結(jié)果如圖3所示。
圖3 貼文類型分布統(tǒng)計圖Fig.3 Post text type distribution statistics
對圖3討論分析后,可以發(fā)現(xiàn)2個關(guān)鍵信息。對此可描述如下。
(1)圖片類貼文的占比高,說明了現(xiàn)實生活中,用戶更傾向于圖文并茂地表達(dá)自己的想法,這樣更容易讓其它用戶理解自己的表達(dá)。
(2)其它貼文類型發(fā)布信息的效率不如圖片類效率高。發(fā)布視頻信息編輯加工的時間成本高、專業(yè)性強、操作難度大。鏈接類和文本類的發(fā)布,需要編寫大量的文字信息,不如發(fā)布圖片快捷,需要的思考時間更長。
用戶發(fā)布貼文的內(nèi)容長度可以反映用戶的日常行為習(xí)慣,不同的人發(fā)布信息的內(nèi)容長度是不同的。因此,發(fā)布貼文的內(nèi)容長度特征是一個重要的用戶行為特征。下面主要對用戶發(fā)布信息內(nèi)容的外部特征進(jìn)行統(tǒng)計計算,并由此探尋發(fā)布貼文的內(nèi)容長度特征規(guī)律。研究得到的貼文內(nèi)容量分布統(tǒng)計結(jié)果如圖4所示。
圖4 貼文內(nèi)容量分布統(tǒng)計圖Fig.4 The capacity distribution statistics in the post text
對圖4討論分析后可以發(fā)現(xiàn),可以發(fā)現(xiàn)3個關(guān)鍵信息。對此可表述如下。
(1)中少字?jǐn)?shù)的貼文占有比例高。當(dāng)今的社交網(wǎng)絡(luò)環(huán)境中,簡潔明了的信息表達(dá)特征已更趨明顯。
(2)長篇內(nèi)容的貼文部分仍然占有很重要的比例。專業(yè)化程度高,信息量充足的貼文數(shù)量開始增加。
(3)信息內(nèi)容長度的兩極分化程度加劇,信息傳遞的目的性、針對性日漸增強。
貼文發(fā)布后,開始通過社交網(wǎng)絡(luò)進(jìn)行信息傳遞,傳遞過程中產(chǎn)生的互動數(shù)據(jù)反映了貼文本身的特性。這種貼文特性由發(fā)布時間、貼文類型、發(fā)布者等因素共同決定。下面詳細(xì)地計算出貼文中各項特征的統(tǒng)計結(jié)果,由此探尋出其中的規(guī)律。研究得到的發(fā)布時間與互動量統(tǒng)計曲線如圖5所示。
圖5 發(fā)布時間與互動量統(tǒng)計圖Fig.5 Release time and interaction statistics
由圖5分析可知,從整體趨勢上看,從早上七點到下午五點,互動量均呈上升趨勢。在下午五點到下午六點的時間段內(nèi),發(fā)布的貼文獲得了最高的用戶互動量。在這一小時內(nèi)發(fā)布的貼文獲得的互動量占到全部樣本的接近8%。在此之后的互動量比例逐漸下降,到凌晨3點附近到達(dá)谷底。
在這一過程中,可以發(fā)現(xiàn)2個關(guān)鍵信息。對此可表述如下。
(1)下午五點附近發(fā)布的貼文最容易獲得其它用戶的關(guān)注,并產(chǎn)生互動行為。這個時間點發(fā)布的貼文,正值其它用戶的使用高峰期,被瀏覽的概率最高。因而會產(chǎn)生最佳的信息傳播效果。
(2)在半夜或凌晨發(fā)布的貼文信息傳遞效果不好,很難與其它用戶產(chǎn)生交互。這個時期正是人們休息的時間,是整個社交網(wǎng)絡(luò)的使用低谷期,活躍度低。而且信息還具有時效性,經(jīng)過數(shù)個小時后,其它發(fā)布的新貼文會將該信息覆蓋掉,故而更難展示在其它用戶面前。因而造成了信息傳播效果不佳,互動量低的現(xiàn)象。
在社交網(wǎng)絡(luò)平臺中,每種貼文類型傳遞信息的方式各不相同,產(chǎn)生的效果也不同,有著明顯的熱度區(qū)分。貼文選擇以不同的類型進(jìn)行發(fā)布,信息的傳遞速度、范圍以及傳遞效果也將表現(xiàn)出較大的差別。這些差別可以從貼文產(chǎn)生的互動數(shù)據(jù)中獲得,下面將詳細(xì)地計算出貼文類型與互動量的統(tǒng)計結(jié)果,由此來探尋其中的規(guī)律。研究得到的貼文類型與互動量統(tǒng)計結(jié)果如圖6所示。
圖6 貼文類型與互動量統(tǒng)計圖Fig.6 Post type and interaction statistics
對圖6分析討論后可以發(fā)現(xiàn),圖片類貼文獲得了最多的關(guān)注,互動量遙遙領(lǐng)先于其它3類貼文。圖片相較于文字更加直觀、感染力更加強大,更能調(diào)動用戶參與討論的熱情。圖片類在獲得用戶互動行為上都更加明顯地優(yōu)于其它類別。一定程度上,也說明了用戶行為的興趣點中,更傾向于直觀的體驗,而不是枯燥無味文字的堆積和疊加。純文字的貼文更容易讓用戶失去興趣,進(jìn)而不參與直接的互動。而視頻類的耗時較長,需要一定的觀看時間才能讓用戶真正理解其意圖,雖然不及簡單直觀的圖片傳播,但是效果也很好,互動的積極性也很高。純文本的占比很少,這在一定程度上說明了純文本類貼文在現(xiàn)實生活中的吸引力已經(jīng)趨于弱化。
從用戶行為分析中,用戶發(fā)布原創(chuàng)貼文的頻率越高,該用戶越容易獲得高關(guān)注度。擁有高粉絲數(shù)量的用戶,發(fā)布的貼文可以贏得更多的話題度和討論度。發(fā)布貼文的轉(zhuǎn)發(fā)量增加,會正向帶動貼文的閱讀量和評論量。結(jié)合以上統(tǒng)計特征,去對比社交網(wǎng)絡(luò)中節(jié)點影響力的2個關(guān)鍵因素??梢缘贸鲆韵碌姆治鼋Y(jié)果:一個用戶節(jié)點的信息傳播能力主要由其粉絲數(shù)、關(guān)注數(shù)、發(fā)帖量、發(fā)貼頻率、轉(zhuǎn)發(fā)量五種因素組成;而該用戶節(jié)點的傳播效果主要由點贊量和評論量這2種因素組成。
因此,本文對用戶節(jié)點的影響力分析,將著重從6個方面做出研究,可將其表述為:粉絲量,該用戶的粉絲數(shù);發(fā)帖量,該用戶發(fā)布貼文的數(shù)量;活躍度,該用戶發(fā)布原創(chuàng)貼文的頻率;點贊量,用戶貼文的點贊數(shù)量;評論量,用戶貼文的評論數(shù)量;轉(zhuǎn)發(fā)量,貼文節(jié)點的轉(zhuǎn)發(fā)數(shù)量。
在眾多研究中,為了分析目標(biāo)對象的特征規(guī)律,經(jīng)常需要對此對象進(jìn)行數(shù)據(jù)建模。在建模過程中,為了描述一類對象,要使用多種變量從各個角度,對其予以解釋說明。在這種情況下,PCA主成分分析法很好地解決了變量多維度的難題。在對各個指標(biāo)進(jìn)行全面分析的同時,將多維度空間進(jìn)行降維。既保證信息研究的準(zhǔn)確性,又降低分析算法的復(fù)雜度。
PCA算法是一種重要的機器學(xué)習(xí)算法,屬于無監(jiān)督學(xué)習(xí)。PCA算法的基本思想是將研究對象的多維特征在盡可能不丟失信息的情況下,在經(jīng)降維操作后,轉(zhuǎn)換為一組新向量。這組新向量是正交的,也就是說在原數(shù)據(jù)的基礎(chǔ)上做正交變換,生成在低維度空間上的正交映射。目的是將原始基轉(zhuǎn)換為互不相關(guān)的新基,并以新基來替代原始基,從而簡化復(fù)雜問題的一種分析方法。
構(gòu)建初始數(shù)據(jù)矩陣,將樣本數(shù)據(jù)標(biāo)準(zhǔn)化。首先,根據(jù)用戶節(jié)點的影響力組成因素來設(shè)計構(gòu)建數(shù)據(jù)樣本集。本次研究中部分原始數(shù)據(jù)如圖7所示。
圖7 部分原始數(shù)據(jù)Fig.7 Partial raw data
其次,將數(shù)據(jù)樣本全部轉(zhuǎn)換為用戶節(jié)點影響力向量進(jìn)行保存。同時,建立初始的數(shù)據(jù)矩陣M,將Facebook貼文數(shù)據(jù)傳入SPSS函數(shù)中,通過SPSS函數(shù)模塊進(jìn)行數(shù)據(jù)初始化。分別計算各向量指標(biāo)的均值和方差,將采集到的社交網(wǎng)絡(luò)中的原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化的加工環(huán)節(jié)后,隨即轉(zhuǎn)入指標(biāo)之間的相關(guān)性判定研究,此時需建立系數(shù)矩陣即如圖8所示。
圖8 相關(guān)性系數(shù)矩陣Fig.8 Correlation coefficient matrix
根據(jù)各個指標(biāo)的相關(guān)性值,分析出各個指標(biāo)之間的關(guān)系。從相關(guān)性系數(shù)矩陣中,最終可分析探得規(guī)律如下:活躍量與粉絲量有很強的相關(guān)性,從這個數(shù)據(jù)可以反映出活躍度高的用戶會更容易吸引粉絲關(guān)注。發(fā)帖量與活躍度有很強的相關(guān)性,從這個數(shù)據(jù)可以反映出發(fā)帖量大的用戶,發(fā)貼頻率也很高。粉絲量與轉(zhuǎn)發(fā)量有很高的相關(guān)性,從這個數(shù)據(jù)可以反映出,粉絲量高的用戶發(fā)布的貼文獲得的互動量也越高。
經(jīng)過主成分分析后,從中取出累計貢獻(xiàn)率超過80%的特征值,組成主成分分量。研究中根據(jù)主成分的貢獻(xiàn)率和累積貢獻(xiàn)率,統(tǒng)計出總方差的統(tǒng)計結(jié)果如圖9所示。
圖9 總方差的解釋Fig.9 The interpretation of the total variance
由圖9中可以看到,第一個子成分的累積貢獻(xiàn)率已經(jīng)超過80%,已經(jīng)符合PCA算法對于主成分計算的要求。因此,可以將用戶影響力組成因素合成為一個主成分,并以此表示用戶節(jié)點的影響力。
主成分分量由一個子分量構(gòu)成,該子分量由初始數(shù)據(jù)中6個指標(biāo)的系數(shù)組成。各個系數(shù)如圖10所示。至此,研究根據(jù)影響力組成因素求得了社交網(wǎng)絡(luò)中用戶影響力評估函數(shù)表達(dá)式。建立了社交網(wǎng)絡(luò)中用戶影響力評估的重要模型。
圖10 成分分量系數(shù)組成圖Fig.10 Composition diagram of component coefficients
在本次研究中,系統(tǒng)地分析了社交網(wǎng)絡(luò)中用戶的行為模式以及表現(xiàn)出的行為規(guī)律。提出了一種針對社交網(wǎng)絡(luò)中用戶影響力評估算法。通過從社交網(wǎng)絡(luò)數(shù)據(jù)集中有效地提取關(guān)鍵信息,而且從時間特征、貼文類型、內(nèi)容量等方面,充分探討、并研究了數(shù)據(jù)特征。根據(jù)用戶行為數(shù)據(jù),通過使用統(tǒng)計學(xué)方法進(jìn)行規(guī)律總結(jié),深入研究影響力的組成因素。同時,又根據(jù)數(shù)據(jù)的分布情況,進(jìn)一步推導(dǎo)出了各個組成因素的權(quán)值。
采用PCA主成分分析算法,既保證信息研究的準(zhǔn)確性,又降低分析算法的復(fù)雜度。結(jié)合6種用戶影響力組成因素,生成一套影響力函數(shù)表達(dá)式,可以定量計算出用戶的影響力大小。建立了社交網(wǎng)絡(luò)中用戶影響力評估的重要模型。
在未來的工作中,研究將考慮把影響力評估算法應(yīng)用到其它方面,比如信息傳播、廣告營銷、輿情分析等等。將用戶的影響力作用發(fā)揮到最大程度。