黃濤,王勝烽,吳曄,張鵬,肖井華
(1.北京郵電大學 a.理學院;b.信息與通信工程學院,北京100876;2.北京師范大學 計算傳播學研究中心,廣東 珠海 519087)
知識是人類認知世界的成果,是社會化合作進程的產(chǎn)物[1].知識網(wǎng)絡是知識體系的具象化,其結構特征和演化機制是探究知識發(fā)展脈絡和創(chuàng)新趨勢的基礎,對研究知識的發(fā)展與創(chuàng)新具有重要意義[2].知識網(wǎng)絡從研究內容上可以分為兩類,一是以科學文獻、專業(yè)知識為主要研究對象的專家知識網(wǎng)絡,比如引證網(wǎng)絡[3-4]、關鍵詞網(wǎng)絡[5-6]、合著網(wǎng)絡[7]等;另一類是以互聯(lián)網(wǎng)信息、大眾知識為主要研究對象的大眾知識網(wǎng)絡,如問答平臺標簽網(wǎng)絡[8]、Wiki知識網(wǎng)絡[9]、博客交流網(wǎng)絡[10]等.
已有的研究證實,專家知識網(wǎng)絡具有復雜的網(wǎng)絡結構.如徐漢青等[11]利用學術網(wǎng)站CiteUlike上的數(shù)據(jù)構建領域知識網(wǎng)絡,分析得出網(wǎng)絡始終保持小世界特性并逐步趨近于穩(wěn)定的無標度網(wǎng)絡.耿志杰等[12]獲取CSSCI數(shù)據(jù)庫中情報學領域的期刊文獻數(shù)據(jù),基于關鍵詞的共現(xiàn)關系構建關鍵詞網(wǎng)絡,運用復雜網(wǎng)絡分析方法發(fā)現(xiàn)關鍵詞知識網(wǎng)絡是典型的無標度網(wǎng)絡,并且滿足小世界特性.滕廣青等[13]基于中國知網(wǎng)的文獻數(shù)據(jù)和文獻標注系統(tǒng)中的文獻數(shù)據(jù)分別構建關鍵詞知識網(wǎng)絡和標簽知識網(wǎng)絡,并通過對原始網(wǎng)絡和提取的層次知識網(wǎng)絡分析,發(fā)現(xiàn)無論是關鍵詞知識網(wǎng)絡還是標簽知識網(wǎng)絡,都具備無標度特性和小世界特性.
大眾知識網(wǎng)絡涉及的知識主題廣泛全面,其網(wǎng)絡構建取決于擁有不同教育背景,思想觀念和行為的全部參與者,所以大眾知識網(wǎng)絡也擁有復雜的網(wǎng)絡結構.有很多學者就大眾知識網(wǎng)絡的網(wǎng)絡結構展開了分析研究,如潘旭偉等[14]以Wikipedia為研究對象,結合復雜網(wǎng)絡分析方法,對構建的Wiki詞條和主題參考網(wǎng)絡實證分析,結果表明Wiki知識網(wǎng)絡的入度服從冪律分布,網(wǎng)絡具有小世界效應.標簽知識網(wǎng)絡作為大眾知識網(wǎng)絡的一種,其本質是一種共現(xiàn)網(wǎng)絡[15].網(wǎng)絡基礎數(shù)據(jù)是Folksonomy模式下生成的文字標簽.這些標簽數(shù)據(jù)被認為包含了大量用戶的思維觀點、行為特征和喜愛偏好,而且這些數(shù)據(jù)相結合能夠生成新穎的知識和見解[16].對標簽知識網(wǎng)絡的研究能夠幫助把握大眾知識體系的發(fā)展趨勢,推動知識的創(chuàng)新.已有的很多文獻(如[17-18])揭示了在標簽知識網(wǎng)絡中也存在冪律分布主導網(wǎng)絡的情況,也就是網(wǎng)絡具有無標度特性.
除了靜態(tài)結構分析以外,作為一種知識網(wǎng)絡,標簽知識網(wǎng)絡的演化特征和演化機制的研究也逐漸得到了關注.有學者基于復雜模體分析了標簽網(wǎng)絡的演化特征,得出問答平臺上的知識標簽網(wǎng)絡在網(wǎng)絡結構上由趨于穩(wěn)定的態(tài)勢[19].BARABSI等人[20]提出的BA模型被用于解釋知識網(wǎng)絡的無標度特性.模型中新節(jié)點優(yōu)先連接度值大的節(jié)點,擇優(yōu)概率一般采用Π(ki)=g(ki)/∑g(ki),ki表示節(jié)點的度值,經(jīng)典BA模型中g(ki)=ki,為線性擇優(yōu)[20].后來學者們研究發(fā)現(xiàn)在一些實際網(wǎng)絡中并不一定是線性擇優(yōu),所以對經(jīng)典BA模型進行了改進,如提出的非線性擇優(yōu)模型[21],當r>1時為超線性相關[22],當1>r>0時為亞線性相關[23].關于標簽知識網(wǎng)絡的演化機制研究方面,韓儀等人在經(jīng)典BA模型上引入“批量增長”和“交叉連接”特性[24],對知識標簽網(wǎng)絡社團形成進行了解釋.
綜合上述研究,知識網(wǎng)絡具有無標度和社團共存的宏觀特性,BA網(wǎng)絡模型被用于解釋其形成原因.盡管類似BA的優(yōu)先增長規(guī)律被廣泛認可,但是對于標簽網(wǎng)絡的增長在哪個層面遵循此規(guī)律還需要進一步探索.在標簽知識網(wǎng)絡的形成中,BA網(wǎng)絡模型中每一個新節(jié)點的加入作為網(wǎng)絡的增長周期.這并不符合所有的實際標簽知識網(wǎng)絡.例如在問答平臺標簽網(wǎng)絡中,網(wǎng)絡每一次增長都是因為新問題的出現(xiàn),而且在這一過程中,新節(jié)點是否生成以及生成數(shù)目都是不確定的,所以,對于各種實際存在的標簽知識網(wǎng)絡,還需要構建從問題出發(fā)的標簽模型解釋標簽知識網(wǎng)絡的演化機制.
鑒于此,本文研究了中國知名在線問答平臺——知乎網(wǎng)站上標簽網(wǎng)絡的形成機制.研究了知乎標簽網(wǎng)絡動態(tài)演化特性,如新標簽的產(chǎn)生情況、標簽之間的連接傾向情況.基于研究結果,提出了一個新的網(wǎng)絡動態(tài)增長模型,具體上,模型以新問題的出現(xiàn)為網(wǎng)絡增長周期,假定問題由知識標簽激發(fā)生成,知識標簽激發(fā)問題的能力與其度值正相關.模型能夠很好地再現(xiàn)知乎知識標簽網(wǎng)絡的無標度特性和社團結構.
第一部分介紹了使用的數(shù)據(jù)集,構建并分析了標簽網(wǎng)絡的度分布和社團結構.第二部分統(tǒng)計分析了標簽網(wǎng)絡的動態(tài)演化特性.第三部分提出標簽網(wǎng)絡生長模型,模型生成的網(wǎng)絡跟實際網(wǎng)絡相符,進一步也分析了標簽網(wǎng)絡模型的參數(shù)隨著時間的變化.第四部分對全文進行總結.
使用來自知乎網(wǎng)站的問題和標簽數(shù)據(jù).知乎網(wǎng)站是國內知名的在線問答平臺,網(wǎng)站上的問題涉及領域非常廣泛,包含了社會生活中方方面面的知識.網(wǎng)站上的問題都會攜帶至少一個標簽.這些標簽由用戶選定,用于標記問題討論的內容.使用的數(shù)據(jù),其構成個體為問題.每個數(shù)據(jù)個體包括了問題的編號,問題的詳細文字描述,問題創(chuàng)建的時間以及問題所攜帶的標簽.經(jīng)過數(shù)據(jù)清洗和篩選,研究數(shù)據(jù)包括了656 387個問題以及58 632個不同的標簽.
這些問題和標簽數(shù)據(jù)的時間跨度為2011年至2017年,以自然年份為時間窗口,統(tǒng)計每一個時間窗口內出現(xiàn)的問題數(shù)目和標簽數(shù)目,結果如表1所示.知乎網(wǎng)站自2013年開放注冊,之后幾年發(fā)展迅速,問題和標簽數(shù)目在2015年開始有較大增長.
表1 時間窗口內的問題和標簽的累積數(shù)目
標簽網(wǎng)絡將標簽作為節(jié)點,以標簽間的共現(xiàn)關系構建連邊.在知乎網(wǎng)站中,標簽的共現(xiàn)關系即兩個標簽為同一個問題攜帶,所以每個問題攜帶的標簽,其兩兩之間都存在共現(xiàn)關系.如圖1,按照問題出現(xiàn)的時間排序,將標簽及標簽間的連邊關系加入網(wǎng)絡,就構建了標簽知識網(wǎng)絡.
以自然年份為時間窗口,基于每個時間窗口的問題和標簽數(shù)據(jù)構建出標簽知識網(wǎng)絡,在本小節(jié)的研究中,分別從網(wǎng)絡度分布、社團劃分對網(wǎng)絡進行了分析,得到了知乎標簽知識網(wǎng)絡中無標度特性和社團化共存的情況.
從網(wǎng)絡度分布結果上可以看出知識標簽網(wǎng)絡的加權度分布符合冪律分布.設定自然年份為時間窗口,基于時間窗口內的數(shù)據(jù)構建標簽子網(wǎng)絡.網(wǎng)絡為有權網(wǎng)絡,統(tǒng)計2013年標簽子網(wǎng)絡的加權度分布數(shù)據(jù)并進行擬合,結果如圖2(a)所示.擬合的冪律分布說明標簽網(wǎng)絡度的分布極不均勻,在標簽網(wǎng)絡中較少的標簽和大量標簽相連,說明了知乎上的問題具有很多相同的標簽.統(tǒng)計得到各年份知乎標簽網(wǎng)絡度分布的擬合冪指數(shù)α較為平穩(wěn),處于1.8~2.0之間,見圖2(c).
現(xiàn)實中的很多網(wǎng)絡都具有良好的社團結構,社團結構體現(xiàn)了網(wǎng)絡的區(qū)域聚集特性.具有社團結構的網(wǎng)絡,社團內部連接相對緊密,而社團之間的連接較為稀疏.網(wǎng)絡社團劃分所使用的指標通常是模塊度.模塊度的數(shù)值大小對應網(wǎng)絡社團劃分的質量,社團劃分結果越好模塊度越大.每年的標簽子網(wǎng)絡中節(jié)點數(shù)目眾多,而大部分節(jié)點的度很小,所以截取節(jié)點度大的核心部分節(jié)點,使用Louvain社區(qū)劃分算法,得到網(wǎng)絡模塊度最大的社團劃分結果.Louvain社區(qū)劃分算法的工作過程就是動態(tài)調動節(jié)點所屬的社團,以得到網(wǎng)絡最大模塊度的社團劃分結果[25].圖2(b)為2013年子網(wǎng)絡社區(qū)劃分結果.節(jié)點大小對應節(jié)點度值,顏色相同的節(jié)點屬于同一社區(qū),點間的連邊的顏色為連邊兩個節(jié)點顏色的混合,相同社區(qū)節(jié)點之間的緊密連接,可以形成不同顏色的社區(qū)塊.可以看出知乎標簽網(wǎng)絡可以形成不同的社區(qū)塊,網(wǎng)絡模塊度q一直能保持較高的數(shù)值,網(wǎng)絡具有良好的社團結構.
基于知乎問答平臺數(shù)據(jù)構建的標簽知識網(wǎng)絡,具備無標度特性,網(wǎng)絡還擁有良好的社團結構.網(wǎng)絡的復雜結構特性是在其演化過程中形成的,反映了其復雜的演化機制,對于知乎標簽網(wǎng)絡的研究還需要從動態(tài)角度對其進行分析.
其中,a為歸一化常數(shù),(aN-b)表示新生問題攜帶的任一標簽為新標簽的概率取決于新生問題出現(xiàn)時網(wǎng)絡已有標簽總數(shù).所以當網(wǎng)絡中的標簽數(shù)目增大時,對應的標簽新生速率降低了,新問題攜帶新生標簽的概率降低了.
根據(jù)前面的分析結果,提出了一個標簽網(wǎng)絡生長模型.在線問答平臺是由問題組成的,從問題生成的角度出發(fā)構建知識標簽網(wǎng)絡的演變更貼合實際情況.而每一個問題都是有核心討論點的,問題包括問題的回答、評論等互動都是圍繞核心討論點展開的,換言之,問題的提出立足于核心討論點,這個核心討論點可以視為激發(fā)問題的知識標簽,模型演化如圖4,模型設定標簽網(wǎng)絡變化由問題更新周期組成,每個更新周期都會產(chǎn)生一個新問題.新問題由父標簽激發(fā)產(chǎn)生,相對于其他標簽,新生問題更傾向于與父標簽距離近的鄰居標簽.
在模型中,一個更新周期中,標簽i被選為父標簽的概率Pi與節(jié)點i的度值ki的關系為
其中,m為度值影響因子,m>0.當0
標簽網(wǎng)絡生長模型的算法如下:
1)確定新生問題的攜帶的標簽數(shù)目N,其中0 2)根據(jù)新生率確定新生問題攜帶的新生標簽數(shù)目n,其中0≤n≤6.新生率為已有標簽數(shù)的冪函數(shù),隨已有標簽數(shù)目的增大而降低.所以可能出現(xiàn)一個新生問題攜帶標簽皆為新標簽的情況Pw=aN-b. 3)以概率Pi選擇新生問題父標簽. 5)對于還未確定的標簽空位,優(yōu)先選擇父標簽的近鄰標簽,具體實現(xiàn)為隨機選擇步驟4)中選定的標簽為第二父標簽,重復步驟4),優(yōu)先選擇第二父標簽的直接鄰居標簽.問答平臺上問題的核心討論點可能不止一個,問題可能圍繞多個不同的知識點展開,所以模型中的父標簽也可能不止一個. 6)取與父標簽距離為3及3以內的標簽為父標簽的近鄰標簽,所以步驟5)可能重復實現(xiàn),如果近鄰標簽的優(yōu)先選擇并未確定新生問題的所有攜帶標簽,則由步驟3)開始再選擇父標簽重復實現(xiàn).此時視為新生問題由多個知識標簽激發(fā),而且問題圍繞展開的知識點之間差異較大. 標簽網(wǎng)絡模型的生成算法所需要的各種參數(shù)將從實際網(wǎng)絡的分析中得到.需要的參數(shù)包括新生問題攜帶標簽數(shù)的概率分布、標簽的增長速率、標簽選擇鄰居標簽的概率. 根據(jù)每年子網(wǎng)絡演化起點的真實數(shù)據(jù)構建仿真初始環(huán)境,按照知識激發(fā)問題模型調整仿真參數(shù)生成仿真數(shù)據(jù),得到仿真網(wǎng)絡并與實際標簽知識網(wǎng)絡對比分析. 選擇2013年仿真網(wǎng)絡和實際網(wǎng)絡的度值互補累計分布進行比對,結果如圖5(a),仿真實現(xiàn)的網(wǎng)絡度分布也符合冪律分布且兩者之間差距在合理范圍之內.對2013年仿真網(wǎng)絡同樣進行社團劃分,得到的結果如圖5(b),網(wǎng)絡具有良好的社團結構.圖5說明了模型得到的網(wǎng)絡具有無標度特性且網(wǎng)絡有良好的社團結構,說明構建的網(wǎng)絡模型在節(jié)點度生長方面符合實際網(wǎng)絡情況. 進一步分析標簽激發(fā)問題能力的變化情況,也就是影響因子m的變化情況.仿真實現(xiàn)網(wǎng)絡生長并比對每年份的實際子網(wǎng)絡,發(fā)現(xiàn)網(wǎng)絡的度值影響因子m逐年減小(見圖6).在網(wǎng)絡發(fā)展初期,如2011年,分別設定度值影響因子m為1.55和1.0實現(xiàn)網(wǎng)絡生長得到仿真2011年子網(wǎng)絡并與實際網(wǎng)絡對比度值累計分布.可以看出m取1.55時,仿真結果更貼合實際情況.再分別仿真其他年份子網(wǎng)絡的生長,得到度值影響因子逐年減小.影響因子的減小對應了度值大的標簽激發(fā)問題的能力的下降.知識標簽激發(fā)問題的能力與其度值由超線性相關走向了亞線性相關.這樣的網(wǎng)絡生長特點揭示了知乎網(wǎng)站知識體系發(fā)展前期,熱門的知識話題受到了更大比例的關注度,知識體系發(fā)展后期,熱門話題的關注度得到了一定的平均化. 前面的實證分析可以得到標簽新增連邊存在優(yōu)先選擇直接鄰居標簽的情況.假設優(yōu)先選擇只存在于父標簽的直接鄰居標簽而不考慮其近鄰標簽(與父標簽距離3以內).仿真實現(xiàn)網(wǎng)絡生長并與實際網(wǎng)絡和原有模型仿真網(wǎng)絡對比計算網(wǎng)絡模塊度,結果如圖7.當優(yōu)先選擇僅考慮父標簽的鄰居標簽時,生成網(wǎng)絡的模塊度明顯小于實際網(wǎng)絡,而當優(yōu)先選擇存在于父標簽的鄰居標簽和近鄰標簽時,生成網(wǎng)絡的模塊度更接近實際網(wǎng)絡.說明網(wǎng)絡的優(yōu)先連接發(fā)生在距離較近的標簽之間,即新生問題更傾向于選擇攜帶父標簽一定距離范圍內的標簽. 本文以知乎網(wǎng)站知識標簽網(wǎng)絡為研究對象,收集了知乎網(wǎng)站2011年至2017年的問題以及標簽數(shù)據(jù),基于標簽的共現(xiàn)關系構建了網(wǎng)絡.從統(tǒng)計分析層面上得出知識標簽網(wǎng)絡具有復雜的網(wǎng)絡結構,其度分布符合冪律分布,并且網(wǎng)絡模塊度較大,形成明顯的抱團結構. 通過分析知乎知識標簽網(wǎng)絡的演化,得出網(wǎng)絡新節(jié)點的出現(xiàn)速率會隨網(wǎng)絡節(jié)點的增加而放緩;節(jié)點新增連邊選擇連接已有連邊的鄰居節(jié)點的概率遠高于隨機,并且隨著節(jié)點度的增大.這個概率也會增加.這些動態(tài)演化特點說明知乎知識體系中,新知識話題的產(chǎn)生受到已有知識話題的限制,有過關聯(lián)的知識話題之間存在偏好連接. 基于得到的網(wǎng)絡動態(tài)演化特性,本文提出了知識激發(fā)問題的標簽網(wǎng)絡生長模型,模型能夠很好地再現(xiàn)知乎標簽知識網(wǎng)絡的網(wǎng)絡結構.從問題出現(xiàn)的角度出發(fā),提出了一個新的標簽網(wǎng)絡生長模型.模型以問題生成為網(wǎng)絡演化周期,問題由父標簽激發(fā),標簽激發(fā)問題的能力由其度值決定.新生問題在選擇攜帶標簽時優(yōu)先選擇父標簽的近鄰標簽.根據(jù)模型得到仿真網(wǎng)絡,對比實際網(wǎng)絡,仿真網(wǎng)絡能夠再現(xiàn)知乎知識標簽網(wǎng)絡的無標度特性和社團結構,進一步分析得到知識標簽激發(fā)問題的能力與其度值由超線性相關逐漸走向亞線性相關.相對以往的標簽網(wǎng)絡模型,本文的模型通過實證分析得到優(yōu)先增長率在標簽網(wǎng)絡生長過程中的具體表現(xiàn),因此建立的標簽生長模型包含了更多演化信息.知識話題激發(fā)問題的模型從標簽網(wǎng)絡的微觀增長出發(fā),構建了具有復雜結構的標簽網(wǎng)絡,為研究其他知識網(wǎng)絡的生成機制提供了一個新的視角.3.2 結果
4 結論和討論