趙群
摘要:網(wǎng)絡中結構洞和非結構洞節(jié)點所處位置不同,獲得信息的方式和信息量均不同,從而可能導致這兩種節(jié)點的行為方式不同。該文主要通過數(shù)據(jù)挖掘、統(tǒng)計學、社會學等方法,分析在新浪微博虛擬網(wǎng)絡中結構洞和非結構洞節(jié)點的投票觀點統(tǒng)計數(shù)據(jù),發(fā)現(xiàn)結構洞與非結構洞兩種節(jié)點的行為存在差異。同時,該文還對虛擬網(wǎng)絡的社區(qū)中觀點的抱團現(xiàn)象進行了統(tǒng)計分析,并發(fā)現(xiàn)了在虛擬網(wǎng)絡社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
關鍵詞:結構洞;行為差異;社區(qū);虛擬網(wǎng)絡
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)08-0257-04
Abstract: In the network,the structural holes and non structural holes of different node position,the way to get information and information content are different,which may lead to the two node in different ways.This paper mainly through data mining, statistics,sociology method,analysis on Sina micro-blog virtual network structural holes and non structural hole nodes vote view statistical data,found that the structural holes and non structural holes two node behavior differences.At the same time,this paper also Baotuan phenomenon view of virtual network community are analyzed,and found in the virtual network community does not exist in "the spiral of silence"phenomenon.
Key words: structural holes; behavioral differences; community; virtual network
在社會網(wǎng)絡研究中,人們通常把緊密聯(lián)系在一起的節(jié)點集合看作一個網(wǎng)絡社區(qū),結構洞是連接不同網(wǎng)絡社區(qū)之間的捷徑,看上去就是存在于網(wǎng)絡中兩個沒有緊密聯(lián)系的節(jié)點集合之間的‘空地[1]。相比非結構洞節(jié)點,結構洞節(jié)點連接多個不同的社區(qū)群體,能夠獲得網(wǎng)絡中多種互不交叉部分的信息,得到更多的信息量。而信息量不同對節(jié)點行為有可能存在影響。
目前在社會網(wǎng)絡研究中對結構洞的研究較少,缺乏數(shù)據(jù)支持,存在主觀性。隨著虛擬網(wǎng)絡的日益普及,越來越多的用戶選擇在虛擬網(wǎng)絡上表達自己對某個事件的觀點,這為本文的研究提供了便利條件。新浪微博在中國是最大的虛擬網(wǎng)絡之一,用戶可以通過新浪微博的投票應用對自己就某個事件的觀點進行投票,以此來表明自己的態(tài)度立場等,本文選取了新浪微博比較有代表性的三個投票內(nèi)容作為研究對象,首先對投票內(nèi)容進行了抓取并構建出相應的網(wǎng)絡,然后利用[2]中的社區(qū)發(fā)現(xiàn)算法找出網(wǎng)絡中的社區(qū),利用[3]中所提出的算法找出結構洞,最后對結構洞和非結構洞節(jié)點對各種觀點的投票比例進行統(tǒng)計分析,驗證了在虛擬網(wǎng)絡中結構洞的行為和非結構洞節(jié)點確實存在不同。同時,本文還通過比較虛擬社區(qū)中各觀點所占比例與樣本空間中各觀點所占比例的差異,對社區(qū)中觀點抱團現(xiàn)象進行了統(tǒng)計;并且通過對社區(qū)中各觀點比例隨時間的變化進行統(tǒng)計,發(fā)現(xiàn)了在虛擬網(wǎng)絡社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
1 相關設定
設每個投票事件的全部用戶集合為T,此投票中給觀點i投票的用戶集合為Topi,則全部投票中觀點i的投票比例為|Topi|/|T|。
設每個投票事件所被抓取到的樣本空間中所有用戶集合為C,在此樣本空間中給觀點i投票的用戶集合為Copi,則樣本空間中觀點I的投票比例為|Copi|/|C|。
設每個投票事件中結構洞用戶集合為 H,在此結構洞集合中給觀點i投票的用戶集合為Hopi,則結構洞集合中觀點i的投票比例為|Hopi|/|H|。
設每個投票事件所構建網(wǎng)絡中的某個緊密連接的用戶集合為社區(qū)Sj,社區(qū)Sj中給觀點i投票的用戶集合為Sjopi,則社區(qū)Sj中觀點i的投票比例為|Sjopi|/|Sj|;設社區(qū)Sj中觀點i在日期Dl的累計票數(shù)為SjDlOpi,社區(qū)Sj中所有觀點在日期Dl的累計票數(shù)和為SjDl,則社區(qū)Sj中觀點i在日期Dl累計的投票比例為|SjDlOpi|/|SjDl|。
社區(qū)的抱團現(xiàn)象指在社區(qū)中某觀點i的投票比例與樣本空間中觀點i的投票比例差值高于閾值β。
2 數(shù)據(jù)收集
2.1 數(shù)據(jù)選取
為了研究虛擬網(wǎng)絡中用戶的行為,本文選取了新浪微博中投票數(shù)據(jù)作為研究對象,投票可以明確地反映出用戶的行為和態(tài)度。本文選用三個有代表性的投票內(nèi)容:“運營商準備向微信業(yè)務收費,你是同意還是反對?”(下文稱為微信事件),“舒淇退出微博你怎么看?”(下文稱為舒淇事件)以及“你贊成清明節(jié)上墳燒香嗎?”(下文稱為清明節(jié)事件)。三個投票的具體信息如表1所示。
2.2 投票數(shù)據(jù)抓取方法及結果
新浪微博api沒有相應的投票數(shù)據(jù)接口,本文使用java程序抓取投票數(shù)據(jù),使用投票的關鍵詞在新浪微博頁面進行搜索,解析返回的結果頁面,提取出需要的投票詳細信息:投票人昵稱,投票觀點和投票時間。由于新浪微博的數(shù)據(jù)保護措施,利用程序抓取數(shù)據(jù)存在一定的時間限制和數(shù)量限制,無法獲取每個時間節(jié)點的所有數(shù)據(jù),最終抓取到的三個話題的用戶及內(nèi)容數(shù)據(jù)如圖1所示。
原始數(shù)據(jù)中存在重復抓取戶和未投票只轉(zhuǎn)發(fā)的用戶,所以去除重復抓取和未投票的用戶后,三個投票的用戶及內(nèi)容數(shù)據(jù)如圖 2 所示。
2.3 網(wǎng)絡構建方法及結果
為了構建虛擬社交網(wǎng)絡,需要投票用戶之間的關注信息,新浪微博用戶關注列表和粉絲列表對構建虛擬網(wǎng)絡效果相同,并且關注列表相對較小,因此本文使用微博api抓取了上述三個投票用戶的所有關注列表,進而形成投票用戶間的社交網(wǎng)絡。投票用戶關注列表數(shù)據(jù)如圖3所示。
使用上述投票用戶及其關注列表,去除對結果沒有作用的孤立點,構建出三個話題數(shù)據(jù)投票用戶之間的虛擬社交網(wǎng)絡。投票用戶網(wǎng)絡規(guī)模如表2所示。
2.4 社區(qū)發(fā)現(xiàn)
為了發(fā)現(xiàn)網(wǎng)絡中的結構洞,需要先將社交網(wǎng)絡中的社區(qū)尋找出來。本文使用[2]中的社區(qū)發(fā)現(xiàn)算法,通過pagerank得到節(jié)點在投票用戶網(wǎng)絡中的全局重要度排序,使用值傳播,發(fā)現(xiàn)用戶的局部重要度;然后根據(jù)核心團體中節(jié)點重要度都比較高的特點構建核心團體;最后基于同心圓模型對核心團體進行擴展發(fā)現(xiàn)社區(qū)。 三個投票的社區(qū)數(shù)據(jù)如圖4所示。
可以看出,三類投票網(wǎng)絡分別代表了不同的網(wǎng)絡結構,微信事件投票社區(qū)規(guī)模分布極端,存在少量特大規(guī)模的社區(qū)和絕大多數(shù)的小規(guī)模社區(qū);舒淇事件投票社區(qū)規(guī)模分布均勻,社區(qū)規(guī)模大小比較平均;清明節(jié)事件投票社區(qū)都是較小規(guī)模。
2.5 挖掘結構洞
使用[3]中的算法找出結構洞,論文針對twitter數(shù)據(jù)集設計了兩個算法HIS和MaxD來找出結構洞。本文選擇了其中效果稍好的HIS算法,該算法的主要思想是:如果某個節(jié)點連接了許多社區(qū)的意見領袖節(jié)點,那么它更有可能是結構洞節(jié)點;而如果某個節(jié)點連接了許多的結構洞節(jié)點,它將更有可能是意見領袖節(jié)點。HIS算法通過對每個節(jié)點計算它在許多社區(qū)中的Influence(v,Ci)值來表示它在這些社區(qū)中的重要性,Influence(v,Ci)值越大表示節(jié)點v越可能是社區(qū)i的意見領袖節(jié)點;同時,用sh(v,S)表示節(jié)點v在節(jié)點集S中的結構洞值,即該值越大,節(jié)點v越有可能是結構洞節(jié)點。根據(jù)算法的主要思想,節(jié)點v的Influence值是由v的鄰居的Influence值和sh值共同決定的;而節(jié)點v的sh值是其在所有社區(qū)中的Influence值的最小值。使用如此方法,Influence值和sh值的計算過程中相互迭代求解。
本文利用HIS算法對三個投票的數(shù)據(jù)集進行結構洞挖掘,對三個投票網(wǎng)絡中節(jié)點的sh值按照從大到小的順序排列,取前15%的節(jié)點為結構洞,各事件結構洞節(jié)點數(shù)量如表3所示。
3 數(shù)據(jù)分析及結果
3.1 結構洞投票差異分析
本文比較了結構洞節(jié)點投票比例,樣本總體投票比例,微博上總體投票比例 之間的差異,在統(tǒng)計中發(fā)現(xiàn)微信事件用戶存在重復投票的情況,在樣本空間中共 有 49 個用戶重復投了兩次票,每次都投了不同的觀點,在結構洞節(jié)點中共有 6 個用戶重復投了兩次票,每次都投了不同的觀點。則,樣本空間中重復投票用戶 占比為 49/14350=0.34%,結構洞節(jié)點集中重復投票用戶占比為 6/450=1.33%,如 圖 6 所示,藍色為結構洞節(jié)點中重復投票用戶所占個數(shù)的比例,紅色為總體樣本 節(jié)點中重復投票用戶所占個數(shù)的比例。舒淇事件和清明節(jié)事件中不存在重復投票的現(xiàn)象。圖 6 可以從一定程度上反映出結構洞節(jié)點更傾向于重復投票,即給兩個觀點都投了票,說明可能結構洞節(jié)點比普通節(jié)點的觀點更搖擺。
接下來分析各事件的結構洞節(jié)點集合各觀點的投票比例與樣本空間中各觀點的投票比例,以及全部投票中各觀點的投票比例(計算定義見第二章)之間的差異,從而分析結構洞節(jié)點是否和非結構節(jié)點的行為存在差異,數(shù)據(jù)分析結果如圖7所示。
由圖7可以看出,三個事件的樣本空間中各觀點投票比例和微博投票應用公布的全部投票比例相差在4.1%以內(nèi),說明了樣本空間的有效性。還可以看出,舒淇事件和清明節(jié)事件的結構洞節(jié)點集合中各觀點的投票比例與樣本空間中各觀點的投票比例相差普遍在20%左右,可以說明在這兩個事件中結構洞節(jié)點與非結構洞節(jié)點的行為是有差異的;而微信事件中此兩種比例卻相差較少,一方面可 能由于微信事件比較特殊,用戶幾乎都是一邊倒的支持一類觀點(反對觀點),同意觀點只占3%左右,其一點點提升都非常不易,由圖7可以看到盡管相差較少但還是有差別,可以理解為結構洞節(jié)點與非結構洞節(jié)點的行為存在差異,另一方面對于微信事件,由圖6可以看出結構洞中重復投票的用戶占比與樣本空間中 重復投票的用戶占比相比,從0.34%提高到了1.33%,提高了3倍左右,由此可 以看出在微信事件中結構洞節(jié)點的觀點可能要比非結構洞節(jié)點的觀點更加搖擺不定,這也可以理解為結構洞節(jié)點與非結構節(jié)點的行為差異。
由以上數(shù)據(jù)結果及分析可以看出,在虛擬網(wǎng)絡中結構洞節(jié)點與非結構洞節(jié)點確實存在行為差異。
3.2 社區(qū)分析
3.2.1 社區(qū)中的抱團現(xiàn)象
為了研究社區(qū)中是否存在用戶抱團現(xiàn)象,本文統(tǒng)計了三個投票數(shù)據(jù)中規(guī)模大于一定閾值的社區(qū)中各觀點投票比例和樣本空間中各觀點投票比例差異,在設定社區(qū)規(guī)模閾值時,可以認為小規(guī)模社區(qū)不存在抱團現(xiàn)象,根據(jù)實驗經(jīng)驗將三個事件中社區(qū)規(guī)模閾值和觀點差異閾值設置如表4,統(tǒng)計結果依然用表4展示。
可以看出微信事件中社區(qū)規(guī)模大于20的社區(qū)有7個,其中14.3%的社區(qū)在觀點1上存在抱團現(xiàn)象,舒淇事件中社區(qū)規(guī)模大于20的社區(qū)有4個,其中全部都在觀點1和觀點2上出現(xiàn)了抱團現(xiàn)象,清明節(jié)事件中社區(qū)規(guī)模大于10的社區(qū)有3個,分別有33.3%的社區(qū)在觀點3和觀點4上出現(xiàn)了抱團現(xiàn)象。因此可以得出在社區(qū)中抱團現(xiàn)象跟事件性質(zhì)和具體觀點有關,不具有一般性。
3.2.2社區(qū)中“沉默的螺旋”理論
根據(jù)社區(qū)投票數(shù)據(jù),本文通過統(tǒng)計各個事件中規(guī)模top2的社區(qū)中各觀點隨時間累積的投票比例的變化趨勢,分析社區(qū)中是否存在“沉默的螺旋”[4]現(xiàn)象,具體的統(tǒng)計信息如圖8所示。
通過圖8可以看出,三個事件中各觀點的投票比例隨時間變化并不明顯,最終都趨于穩(wěn)定,沒有出現(xiàn)強勢觀點比例隨時間明顯增多,弱勢觀點隨時間逐漸消失的現(xiàn)象,可以得出在社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
4 結論
本文選取了新浪微博比較有代表性的三個投票內(nèi)容作為研究對象,所做工作如下:
1)利用網(wǎng)頁解析和新浪微博API對投票內(nèi)容及用戶關系進行了抓取并構建出相應的網(wǎng)絡;
2)利用[2]中的社區(qū)發(fā)現(xiàn)算法找出各事件網(wǎng)絡中的社區(qū);
3)利用[3]中所提出的算法找出各事件網(wǎng)絡中的結構洞;
4)對結構洞和非結構洞節(jié)點對各種觀點的投票比例進行統(tǒng)計分析,驗證了在虛擬網(wǎng)絡中結構洞的行為和非結構洞節(jié)點確實存在不同。
5)通過比較虛擬社區(qū)中各觀點所占比例與樣本空間中各觀點所占比例的差異,對社區(qū)中觀點抱團現(xiàn)象進行了統(tǒng)計;并且通過對社區(qū)中各觀點比例隨時間的變化進行統(tǒng)計,發(fā)現(xiàn)了在虛擬網(wǎng)絡社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
另外,由于新浪微博的數(shù)據(jù)限制,本文中所能獲得的每個事件的樣本量有限,同時由于抓取數(shù)據(jù)時間較長,時間限制只選擇了三個有代表性的投票網(wǎng)絡進行了分析,這是本文還存在的一些可以提升改進的地方。
參考文獻:
[1] 李曉明,等,譯.網(wǎng)絡、群體與市場[M].北京:清華大學出版社,2011.
[2] Cheng X,Lu Q,He L,et al.Communities discovery in mobile call records[C]//Fuzzy Systems and Knowledge Discovery (FSKD), 2010 Seventh International Conference on IEEE,2010,6:2541-2545.
[3] Lou T,Tang J.Mining structural hole spanners through information diffusion in social networks[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee,2013:825-836.
[4] http://baike.baidu.com/view/18306.htm.
[5] 劉軍.社會網(wǎng)絡分析導論[M].北京:社會科學文獻出版社,2004.
[6] 朱伶俐,劉黃玲子,黃榮懷.基于交互分析的協(xié)同知識建構的分析[J].開放教育研究,2005(2):31-37.
[7]王艷,李玉斌.虛擬社區(qū)學習動力機制研究——以新浪UC網(wǎng)絡社區(qū)為例[J].中國電化教育,2011(1):57-60+65.
[8]朱永真,夏正友,卜湛,等.虛擬社區(qū)中的社團結構研究與分析[J].計算機技術與發(fā)展,2011,21(1):46-49.
[9]樓天陽,褚榮偉,李儀凡,等.虛擬社區(qū)成員參與心理機制研究述評[J].外國經(jīng)濟與管理,2011,33(5):33-40.