陳耀華 楊現(xiàn)民
?
開放知識社區(qū)用戶分類研究*——以中文維基百科為例
陳耀華1楊現(xiàn)民2
(1.北京師范大學遠程教育研究中心,北京 100875;2.江蘇師范大學智慧教育學院,江蘇徐州221116)
開放知識社區(qū)既是知識創(chuàng)新與分享的重要聚集地,又是智慧的策源地。在開放知識社區(qū)中,用戶是內容的分享者、創(chuàng)建者和智慧的提供者,對用戶的類型加以區(qū)分和研究,可促進人們在開放知識社區(qū)中發(fā)揮更加積極的作用,更好地促進知識的分享、創(chuàng)新與智慧生成。文章采用數(shù)據(jù)挖掘等研究方法,深入研究用戶分類,研究不同類型用戶之間的協(xié)作模式,基于對大量數(shù)據(jù)的分析將用戶分為領導者、領域專家、詞條貢獻者、詞條維護者、邊緣用戶等5種類型,并提出資源進化中的用戶協(xié)作模式。
開放知識社區(qū);用戶分類;維基百科;資源進化;知識創(chuàng)新
隨著Web 2.0技術及其帶來的開放共享理念的普及,開放知識社區(qū)應運而生并迅速發(fā)展壯大,它已成為信息時代知識創(chuàng)新與分享的重要聚集地,在學習型社會構建中的作用愈發(fā)突出[1],成為終身學習信息資源建設的重要組成部分[2][3]。在人類由信息社會走向智慧社會、教育由教育信息化走向智慧教育的新時代[4],開放知識社區(qū)將成為智慧的策源地。對開放知識社區(qū)中的用戶進行研究,成為近幾年圖書情報界、管理學界、教育技術界、遠程教育界等學界研究的新熱點。學界對網(wǎng)絡知識社區(qū)服務中的用戶持續(xù)使用行為影響[5]、用戶參與虛擬社區(qū)中產(chǎn)品創(chuàng)新的影響因素[6]、專業(yè)虛擬社區(qū)用戶忠誠度[7]、知識社區(qū)用戶關系及其對知識共享行為[8]、虛擬社區(qū)用戶知識隱藏行為[9]、虛擬知識社區(qū)用戶知識貢獻行為等進行了研究[10],研究呈現(xiàn)出不斷向縱深發(fā)展的趨勢。用戶的行為受各種因素影響,導致不同類型的用戶有其不同的行為方式。因此,有必要對用戶的類型加以區(qū)分,針對不同用戶類型進行優(yōu)化施策,以促進人們在開放知識社區(qū)中發(fā)揮更加積極的作用,更好地促進知識的分享、創(chuàng)新與智慧生成。
1 研究對象
本研究在廣泛調研和論證的基礎上,選擇了世界上用戶量最大、最具影響力的開放知識社區(qū)的典型代表——維基百科作為研究樣本。維基百科是由280多種語言編寫的網(wǎng)絡百科全書式的開放知識社區(qū),截至2015年11月1日,所有語言的獨立運作版本共3700萬個條目,總登記用戶超過5900萬人,總編輯次數(shù)超過21億次。為了使所分析的研究能對我國的開放知識社區(qū)有更廣泛的借鑒意義,本研究選擇中文維基百科作為研究對象進行深入研究。
2 數(shù)據(jù)來源
維基基金會大約每隔3周對屬下所有語言版本維基百科的數(shù)據(jù)下載備份,形成一個時間點的歸檔(下載地址為http://download.wikipedia.com/zhwiki/)。備份的目的除了用于災難恢復,更重要的是為所有有志于參與維基百科學術研究的個人和團體提供數(shù)據(jù)支持;備份的內容除了所有條目的內容,還包括頁面鏈接的列表以及圖片元數(shù)據(jù)等內容。維基基金會提供了不同時段的pages-meta-history備份(提供所有頁面的所有歷史版本,適合于學術研究),隨著建設的不斷延續(xù),備份數(shù)據(jù)量越發(fā)龐大,最近的備份數(shù)據(jù)量在未壓縮的情況下達到140Gb。利用這些信息可以得到所有用戶協(xié)同行為的量化屬性值,這為分析用戶行為并分類奠定了良好的基礎。
3 數(shù)據(jù)過濾
本研究所探討的開放知識社區(qū)用戶,應是具有建設行為并努力為社區(qū)的發(fā)展貢獻力量的用戶。但是,由于維基百科社區(qū)的開放性,難免魚龍混雜,也會出現(xiàn)一些危害社區(qū)發(fā)展、給學術研究造成困難的情形。因此文章在進行統(tǒng)計分析時,首先將維基百科社區(qū)中的以下5類用戶剔除[11]:被封禁的用戶、傀儡用戶、用戶名不規(guī)范的用戶、機器人用戶及匿名用戶。此外,在所有的內容條目中,有一些條目也不適于納入研究范疇,需要從數(shù)據(jù)集中剔除,主要包括重定向頁面、消歧頁和列表頁。
用戶對每個詞條進化的平均貢獻,反映了用戶對詞條的投入程度及其所發(fā)揮的作用,是區(qū)分不同用戶類型的重要依據(jù),而其貢獻取決于用戶自身的知識水平和將知識轉化為符合維基百科標準的資源內容的興趣與能力。
對中文維基百科數(shù)據(jù)轉儲文件的page數(shù)據(jù)表進行處理,在去除了重定向頁面、消歧頁和列表頁之后,共得到743432個詞條頁面,所有用戶都圍繞這些詞條開展協(xié)同建設。社區(qū)中共有注冊用戶192345人,共協(xié)同完成了13156445次編輯,平均每個用戶進行了68.4次編輯,平均每個詞條有17.7次編輯(僅計算注冊用戶對詞條的編輯)。
對清洗出的數(shù)據(jù)進行處理,將用戶在同一詞條的編輯貢獻累加,可以得到該用戶為該詞條進化所做的貢獻;將用戶所有編輯詞條的貢獻量累加,則可以得到用戶為整個社區(qū)資源進化所做的貢獻。由于用戶對詞條的編輯可能既有增加,也有刪減,所以用戶貢獻有可能為負值,即用戶對該詞條的編輯以刪減內容為主。
圖1 用戶的平均貢獻量分布表
圖1顯示了每個貢獻度區(qū)間內的用戶數(shù)量,可以看到貢獻度的分布明顯可以分為幾個部分:在[0.9, 0.5]區(qū)間(即貢獻50%~90%的區(qū)間),可以看出用戶分布非常均勻,幾乎每個區(qū)間的用戶數(shù)量差別不是很大;在[0.5, 0.1]區(qū)間,用戶數(shù)量開始穩(wěn)步提升;在[0.1, -0.1]區(qū)間,用戶數(shù)量暴漲,在這個區(qū)間的用戶數(shù)達到了總用戶數(shù)的69%,隨后用戶數(shù)量迅速減少。
不同區(qū)間的用戶,其行為特點也有所差異。對于平均貢獻大于0.5的用戶來說,這意味著一個詞條中有超過一半的內容是由該用戶貢獻的,該用戶為該詞條的主導者。這類用戶除了親自編寫內容外,往往還會負責引領詞條的進化方向、規(guī)劃內容的結構等,是詞條建設的積極組織者和帶頭人。對于平均貢獻在0.1~0.5這個區(qū)間的用戶來說,他們盡管在詞條協(xié)同進化中不占主導地位,卻是整個協(xié)同進化過程中不可或缺的中堅力量——畢竟,詞條建設“帶頭人”的群體只占總用戶數(shù)量的6.6%,面對數(shù)量如此眾多的詞條,僅靠這一小部分“帶頭人”是無法完成的。平均貢獻在0.1~0.5這個區(qū)間用戶是前一類用戶積極的追隨者和穩(wěn)定的協(xié)作者,按照詞條編輯的預定目標,最大程度地貢獻自己的力量。另一類用戶是整個用戶群體的低端用戶,他們的平均貢獻不超過0.1。這意味著他們在詞條編輯過程中所起的作用微不足道,但是這個數(shù)量龐大的群體卻是社區(qū)存在的堅實基礎。
圖2 用戶參與詞條數(shù)量分布表(≤10)
用戶參與編輯的詞條數(shù)量,往往反映用戶的參與和活躍程度。用戶越是活躍,越是積極參與,那么該用戶所涉及的詞條也就越多。與用戶的平均貢獻類似,用戶參與編輯的詞條數(shù)量分布也是極不均衡。絕大部分用戶在其加入社區(qū)的整個周期內只參與了一兩個詞條的協(xié)同編輯。圖2顯示了參與詞條數(shù)量在10以內的用戶分布。
由統(tǒng)計數(shù)據(jù)得知,只參與了一個詞條編寫的用戶數(shù)量高達100029人,占總用戶數(shù)的52%,即有超過一半的用戶處于極度不活躍的狀態(tài)。編輯詞條數(shù)在5個以下的用戶數(shù)共計157411人,占總用戶數(shù)的81.83%。這一部分用戶可以視為社區(qū)中的不活躍人群,是社區(qū)沉默者,社區(qū)流失的成員大部分來自于這個群體。從用戶的分布數(shù)量看,編輯詞條數(shù)量在1~5之間的用戶數(shù)量從100029人急劇減少,隨后人數(shù)呈緩慢下降趨勢。圖3進一步顯示了較活躍用戶(詞條數(shù)量大于6)的數(shù)量分布。
圖3顯示用戶數(shù)量先是顯著下降,當?shù)竭_51~60這個區(qū)間段后開始平緩下降??梢哉J為從這個區(qū)間段開始,用戶表現(xiàn)出了非常顯著和活躍的協(xié)同建設行為。當一個用戶參與詞條的數(shù)量超過50,可認為該用戶已經(jīng)完全熟悉并掌握了社區(qū)的基本規(guī)則,并以積極的態(tài)度參與社區(qū)詞條的協(xié)同建設。盡管他們可能不具有很多的專業(yè)知識,不能引領每一個詞條的發(fā)展方向,但是他們盡可能地發(fā)揮自身的優(yōu)勢,為社區(qū)做出自己的貢獻。在這類用戶中還存在一些“超人”用戶:有21個用戶參與詞條數(shù)量超過10000,其中參與建設詞條最多的用戶竟參與建設了33264個詞條。正是這類活躍用戶的努力,繁榮了整個社區(qū)。第三類用戶是處于上述兩類用戶之間的“中間用戶”。這類用戶逐漸從不活躍的狀態(tài)向活躍的狀態(tài)轉變,開始有意識地尋找一些自己關心或是感興趣的詞條,試圖從中發(fā)現(xiàn)可以貢獻自身知識的機會。由于人數(shù)上的優(yōu)勢(約為活躍用戶的4倍),這類用戶也是社區(qū)繁榮的支撐力量。
圖3 用戶參與詞條數(shù)量分布(>6)
通過以上分類分析,可以得出適用于分析用戶協(xié)作貢獻行為及其特征的分類法,進而所有的用戶按照分類法都會分到一個恰當?shù)念悇e中,分類的結果如表1所示。
表1 用戶分類結果
初始的分類結果形成9個類,并且不同類間用戶數(shù)量差別非常大。由于本研究的目的是考察不同類型的用戶參與社區(qū)資源協(xié)同建設的動機因素,因此形成的用戶分類應該具備兩個特點:①分類之間的界限明顯,分類應該突出本類別用戶的明顯特點;②分類應該與時間關聯(lián)較小。由于用戶加入社區(qū)的時間有先后,因此用戶特征會隨時間變化,從一種類型的用戶轉變?yōu)榱硪环N類型的用戶。如果分類本身與時間的關聯(lián)度很高,則意味著該類別的用戶轉換速度非???,該分類很可能只是用戶的過渡狀態(tài),而用戶的真實行為特征并不一定與分類特征相符合。
基于以上特點要求,故要相應地合并一些分類。合并的依據(jù)是將人數(shù)較少的分類合并到相似的分類中,并將區(qū)分度不夠明顯的分類合并為一類。經(jīng)過進一步分析數(shù)據(jù),表1中分類2和分類3的界限并不明顯,分類2的用戶平均貢獻度同分類3非常接近,參與編輯詞條的數(shù)量僅略高于分類3,同時分類2的用戶數(shù)量非常少,故將分類2和分類3合并;對于分類4、分類5及分類6,這三類用戶有著相似的用戶平均貢獻度,參與的詞條數(shù)量多少與加入社區(qū)的時間長短有較大關系,即經(jīng)過一段時間后會有相當一部分用戶從“低級”的分類向“高級”的分類轉化,因此將分類4、分類5及分類6合并;基于同樣的原因,將分類7和分類8合并。最終,將維基百科的協(xié)同用戶劃分為5個類別:領導者、領域專家、詞條貢獻者、詞條維護者、邊緣用戶。
1 領導者的貢獻及行為分析
在知識社區(qū)中,“領導者”是所有類別中人數(shù)最少的,但卻是最投入的群體。領導者共參與了135269個詞條的編寫,平均每個人參與了647個詞條。該類用戶的另外一個特點是參與的詞條貢獻均值很高,但是貢獻的方差很大。在參與的所有詞條中對41.7%的詞條貢獻度超過80%,幾乎達到了單個“領導者”獨立編寫詞條的程度;與之相對的有39.2%的詞條領導者用戶的貢獻度不足10%。通過進一步分析發(fā)現(xiàn),領導者用戶還同時兼有維護者的特征,但領導者用戶所做的維護工作與維護者所做的維護工作略有不同——領導者用戶不是以消除文字錯誤、更新信息等為目的,而是以糾正其他用戶錯誤的或不適當?shù)男袨闉槟康?。由于維基百科對用戶參與的要求較高,除了必須有一定的獨立撰寫能力、遵從維基百科的編寫規(guī)范,還必須熟悉編寫系統(tǒng)和標記語言的用法。對于沒有經(jīng)驗的用戶來說很容易犯錯,領導者用戶于是承擔著引導用戶的責任,希望用戶能在參與編輯的過程中不斷提升自身的水平。
2 領域專家的貢獻及行為分析
領域專家擁有和領導者類似的平均詞條貢獻,但是其參與詞條的數(shù)量要少得多。領域專家共有11869人,參與了26873個詞條的編寫,平均每個人參與不到2.3個詞條。與領導者不同,領域專家的詞條貢獻離散程度要小得多,說明該類用戶的協(xié)作模式非常穩(wěn)定。每參與一個詞條,就盡全力將其做好,而對于其它詞條則完全不予理睬。
領域專家用戶和領導者用戶都屬于能夠主導詞條進化方向的用戶。同時有領導者和領域專家參與編寫的詞條共計1251個,只占領域專家參與詞條總數(shù)的4.7%,占領導者參與詞條的比例更是微不足道。這說明這兩類用戶彼此之間很少發(fā)生協(xié)作行為,但并不意味著這兩類用戶是特立獨行的。事實上,在有領域專家和領導者參與的詞條中,參與協(xié)作的用戶數(shù)量平均為136人/詞條,遠遠高于社區(qū)的均值48人/詞條。盡管這兩類用戶掌控了詞條的編輯工作,但是似乎“獨裁”并未影響用戶的參與程度,反倒是由于這兩類用戶的積極投入,給其他用戶帶來了更多的參與機會去豐富詞條的內容并提升詞條的質量。
3 詞條貢獻者的貢獻及行為分析
詞條貢獻者是所有用戶中參與范圍最廣的群體,共參與了698188個詞條的編寫,占整個維基百科詞條數(shù)量的93%,平均每個用戶參與編寫18.6個詞條。巨大的參與數(shù)量意味著該類用戶與其他幾類用戶都具有較強的聯(lián)系。其中,詞條貢獻者與領導者協(xié)作參與了93511個詞條,占領導者參與總量的69.1%;與領域專家協(xié)作參與了19673個詞條,占領域專家參與總量的73.2%。說明詞條貢獻者積極地參與了這兩類用戶領導的詞條的編寫工作。另外,盡管領導者和領域專家都是維基百科社區(qū)的優(yōu)質用戶,但是其參與的詞條總數(shù)只占社區(qū)中詞條總數(shù)的21.6%。社區(qū)的精英并不能完成所有的工作,還必須要依靠那些熱心的普通用戶配合。
4 維護者的貢獻及行為分析
維護者也是一個廣泛參與資源協(xié)作建設的群體。該類用戶共參與了536759個詞條的編寫,約占詞條總量的72.2%,平均每個用戶參與編輯26.2個詞條。維護者與詞條貢獻者具有類似的特征,同以上3類用戶的聯(lián)系也非常緊密。其中,維護者與領導者共同參與了75561個詞條,占領導者參與總量的55.9%;與領域專家共同參與了19251個詞條,占領域專家參與總量的71.6%;與詞條貢獻者共同參與了489191個詞條,占貢獻者參與總量的70.1%。由此可見,維護者與社區(qū)中前3類用戶的協(xié)作關系明顯。
5 邊緣用戶的貢獻及行為分析
邊緣用戶是人數(shù)最多的一類用戶,但只參與了126092個詞條的編寫,平均每人參與的詞條為1.03個,是所有類型用戶中對詞條貢獻最少的。邊緣用戶與其他類用戶的協(xié)作呈現(xiàn)兩極分化的特征:與領導者共同參與了18031個詞條,占領導者參與總量的13.3%;與領域專家共同參與了4407個詞條,占領域專家參與總量的16.4%。而與之相對的,與詞條貢獻者共同參與了123948個詞條,占邊緣用戶參與總量的98.3%;與維護者共同參與了119787個詞條,占邊緣用戶參與總量的95.0%??梢?,邊緣用戶幾乎所有的協(xié)作行為都是與詞條貢獻者和維護者之間發(fā)生的,而與領導者和領域專家的協(xié)作非常少。
從以上5類用戶之間協(xié)作的交集可以看出,社區(qū)中主要存在兩種形式的協(xié)同:一種是以領導者或者領域專家為主導,詞條貢獻者和維護者參與輔助性工作,最終完成詞條建設的協(xié)同;另一種是參與詞條建設的用戶中沒有真正的主導者,而是由多個詞條貢獻者和維護者通力合作,利用集體的力量共同完成建設的協(xié)同。不同類型的用戶通過不同的協(xié)同模式為社區(qū)貢獻力量,最終才造就了維基百科的繁榮和成功?;诖耍ㄗh我國在未來建設開放知識社區(qū)時,增設三項措施:一是增設類似傳統(tǒng)媒體的把關人制度,請相關領域的專家對所擅長的條目內容進行完善性把關;二是對以上5類用戶設置不同的權限,以保障條目內容始終維持高質量的水平;三是制定針對以上5種用戶的激勵措施,以保障開放知識社區(qū)的可持續(xù)發(fā)展。
[1]楊現(xiàn)民.開放知識社區(qū)中學習資源進化現(xiàn)狀與問題分析——以學習元平臺為例[J].中國電化教育,2015,(11):45-53.
[2]陳琳,王矗,陳耀華.終身學習信息資源建設的戰(zhàn)略意義與模式創(chuàng)新[J].現(xiàn)代遠程教育研究,2012,(4):41-46.
[3]陳琳,陳耀華.以信息化帶動教育現(xiàn)代化路徑探析[J].教育研究,2013,(11):114-118.
[4]陳琳,陳耀華,張虹,等.教育信息化走向智慧教育論[J].現(xiàn)代教育技術,2015,(12):12-18.
[5]高靈,胡昌平.網(wǎng)絡知識社區(qū)服務中的用戶持續(xù)使用行為影響分析[J].現(xiàn)代情報,2014,(1):14-17.
[6]錢坤,孫銳.用戶參與虛擬社區(qū)中產(chǎn)品創(chuàng)新的影響因素研究——扎根理論研究方法的運用[J].科技管理研究,2014,(6):5-10.
[7]谷斌,徐菁.基于知識共享的專業(yè)虛擬社區(qū)用戶忠誠度挖掘[J].情報科學,2015,(1):105-110.
[8]胡昌平,萬莉.虛擬知識社區(qū)用戶關系及其對知識共享行為的影響[J].情報理論與實踐,2015,(6):71-76.
[9]甘文波,沈校亮.虛擬社區(qū)用戶知識隱藏行為影響因素研究[J].情報雜志,2015,(11):168-174.
[10]萬莉,程慧平.虛擬知識社區(qū)用戶知識貢獻行為影響因素研究——貢獻者和潛水者比較[J].情報理論與實踐,2015,(12):93-97.
[11]Greenstein S, Zhu F. Is Wikipedia biased? [J]. The American Economic Review, 2012,(3):343-348.
編輯:小西
Research on the Classification of Users in Open Knowledge Community——A Case Study of Chinese Wikipedia
CHEN Yao-hua1YANG Xian-min2
Open knowledge communities are becoming important gathering places for knowledge innovation and sharing. In the open knowledge communities, users are the creators and participators of content and also the providers of wisdom. Classifying the type of users would help people play a more positive role in the open knowledge communities, and improve the innovation, sharing of knowledge and generation of wisdom more preferably. This paper researcher the users classification and the collaboration mode between different types of users employing the methods of data mining. On the basis of analyzing massive data, users were divided into five categories such as leaders, domain experts, article contributors, article maintainers and marginal users and the collaboration mode between users was put forward in the evolution of resources.
open knowledge community; users classification; Wikipedia; resource evolution; knowledge innovation
G40-057
A
1009—8097(2016)06—0047—07
10.3969/j.issn.1009-8097.2016.06.007
本文為國家社會科學基金教育學青年課題“開放環(huán)境下學習資源進化機制設計與應用研究”(項目編號:CCA130134)的階段性研究成果。
陳耀華,在讀博士,研究方向為知識進化、智慧教育,郵箱為chenyaohwa@126.com。
2016年4月5日