馮翠翠 易明 莫富傳
摘?要:[目的/意義]在社會化標注系統(tǒng)中,用戶通過自建或引用標簽對資源進行標注,最終形成反映大眾分類標準的社會化高頻標簽集。分析用戶協(xié)同標注行為的特征,有助于促進對協(xié)同標注過程和大眾分類標準涌現(xiàn)的認識和理解。[方法/過程]本文采集豆瓣網(wǎng)的電影標簽數(shù)據(jù)進行實證分析,揭示社會化標簽系統(tǒng)中用戶協(xié)同標注行為的特性和規(guī)律。[結(jié)果/結(jié)論]研究發(fā)現(xiàn),用戶協(xié)同標注行為呈現(xiàn)以下特征:用戶傾向于使用多種類型的標簽進行標注,但大眾標簽構(gòu)成了高頻標簽群的主體;高頻標簽的首創(chuàng)者并非為系統(tǒng)的資深用戶,但得到大量用戶的追隨;用戶標注行為由自建標簽到引用標簽并形成高頻標簽表明大眾分類標準最終涌現(xiàn)。
關(guān)鍵詞:協(xié)同標注;社會化標簽;個性化標簽;大眾分類
DOI:10.3969/j.issn.1008-0821.2021.08.003
〔中圖分類號〕G254.1?〔文獻標識碼〕A?〔文章編號〕1008-0821(2021)08-0027-09
Research?on?the?Characteristics?of?Collaborative?Tagging?Behavior
——Based?on?the?Empirical?Analysis?of?Douban?Movie?Label?Data
Feng?Cuicui1?Yi?Ming1?Mo?Fuchuan2
(1.School?of?Information?Management,Central?China?Normal?University,Wuhan??430079,China;
2.School?of?Information?Management,Wuhan?University,Wuhan?430072,China)
Abstract:[Purpose/Significance]In?the?social?tagging?system,users?tag?resources?through?creating?or?citing?tags,and?finally?the?High-frequency?social?tags?set?that?reflecting?the?folksonomy?have?emerged.Analyzing?the?characteristics?of?collaborative?tagging?behavior?is?helpful?to?understand?the?process?of?collaborative?tagging?and?the?emergence?of?folksonomy.[Method/Process]Taking?Douban?movies?tags?data?as?an?example,this?paper?analyzes?the?characteristics?and?rules?of?users?collaborative?tagging?behavior?in?the?social?tagging?system.[Result/Conclusion]It?is?found?that?the?characteristics?of?collaborative?tagging?behavior?are?follows:Users?tend?to?use?multiple?types?of?tags?for?tagging,but?public?tagging?constitutes?the?main?body?of?high?frequency?tags.Most?of?the?creators?of?high-frequency?tags?arent?the?senior?users?of?the?system,but?are?followed?by?a?large?number?of?other?ordinary?users.The?formation?of?high-frequency?labeling?shows?that?the?folksonomy?finally?emerged.
Key?words:collaborative?tagging;social?tags;personalized?tags;folksonomy
社會化標簽系統(tǒng)為用戶的協(xié)同信息行為提供了良好的平臺,也為協(xié)同信息行為方面的研究提供了極大便利。在社會化標簽系統(tǒng)中,用戶通過自建或反復(fù)參考、借鑒和引用已有標簽對資源進行標注,最終形成“用戶—資源—標簽”三元交互的動態(tài)網(wǎng)絡(luò)關(guān)系和反映大眾分類標準的社會化高頻標簽群。社會化標簽既是用戶對網(wǎng)絡(luò)信息資源所定義的一個或多個描述,是對網(wǎng)絡(luò)信息資源的內(nèi)容的凝練;也是一種準確、開放的分類方式,幫助用戶通過社會化標簽查找優(yōu)質(zhì)的信息資源。
目前,協(xié)同標注行為得到了國內(nèi)外研究人員的廣泛關(guān)注,使之逐漸成為信息管理領(lǐng)域的研究熱點之一。但現(xiàn)有研究主要關(guān)注協(xié)同標注行為的內(nèi)涵、動機和影響因素等內(nèi)容,部分學(xué)者從標簽角度對協(xié)同標注行為中的標簽功能類型[1]、標簽詞匯頻率及詞匯共現(xiàn)頻率[2]、中文博客平臺標簽標注特征[3]等進行分析,尚缺少用戶在參與協(xié)同標注過程中的個體及群體行為特征研究。本文采集豆瓣網(wǎng)的電影標簽數(shù)據(jù)進行實證分析,分析社會化標簽系統(tǒng)中協(xié)同標注行為的參與用戶、用戶標注行為和用戶認知演化過程等方面的特征,以揭示社會化標簽系統(tǒng)中用戶行為和標簽使用的特性和規(guī)律。
1?協(xié)同標注行為概述
目前,學(xué)界從行為學(xué)和信息組織學(xué)等角度界定協(xié)同標注行為的內(nèi)涵。從行為學(xué)的角度出發(fā),研究人員認為協(xié)同標注行為是指眾多用戶協(xié)作參與的標注行為。例如Voss?J認為,協(xié)同標注指的是眾多用戶協(xié)作完成的標注行為,用戶通過添加標簽以達到個人的或者社群的目的,這種零散的且是個人的行為在大量草根用戶的協(xié)同參與下具有了社會性價值[4-5]。李京生認為,用戶可以對自己發(fā)布的信息進行標注,也可以對其他用戶發(fā)布的信息進行標注,當多個用戶對多個對象添加標簽時,標簽就具有了社會性,也就成為了社會化標簽[6]。從信息組織學(xué)的角度出發(fā)的研究者將協(xié)同標注行為視為一種對目標資源進行分析并賦予標簽的過程。楊青云等認為,協(xié)同標注是眾多信息用戶根據(jù)自己的需求,選擇合適的網(wǎng)絡(luò)信息資源,并根據(jù)自己的認知水平,確定與之相匹配的社會化標簽進行標注的過程[7]。Zauder?K等認為,協(xié)作標注是用戶在在線社區(qū)中瀏覽或者收集網(wǎng)上資源時,以非受控的詞語為資源標注標簽,用以表明該資源的主題、性質(zhì)和主要內(nèi)容等[8],反映了標注對象與標注結(jié)果之間的相關(guān)關(guān)系[9]。
本文認為,協(xié)同標注行為是指眾多信息用戶在社會化標簽系統(tǒng)中根據(jù)自己對網(wǎng)絡(luò)信息資源的認知,通過獨立自主自建標簽或借鑒他人標注行為、接受社會化標簽系統(tǒng)推薦的標簽,以標簽的形式對網(wǎng)絡(luò)信息資源進行標注和分類,并逐漸形成被大部分標注用戶所認同的社會化標簽和大眾分類標準的行為。具體來看,協(xié)同標注行為包含以下內(nèi)容:
1)協(xié)同標注行為是一種協(xié)同信息行為。協(xié)同標注行為強調(diào)的是眾多用戶在社會化標簽系統(tǒng)上使用社會化標簽對信息資源進行標注,社會化標簽系統(tǒng)具備協(xié)同標注功能,允許用戶在標注過程中相互借鑒和引用,最終形成大眾分類標準,實現(xiàn)對所標注的網(wǎng)絡(luò)信息資源充分地分類、組織、管理及利用。
2)協(xié)同標注行為主要包含兩個子行為:自建行為與引用行為。自建行為是指用戶根據(jù)自己對目標資源的認知獨立地對其以標簽的形式進行標注的行為,自建行為的發(fā)生會產(chǎn)生新的標簽。由于用戶的非獨立性和系統(tǒng)的開放性,用戶既可以觀察、參考甚至直接采納其他用戶的標注結(jié)果,也會直接選用系統(tǒng)提供的標簽進行標注,即借鑒他人標注結(jié)果或系統(tǒng)推薦標簽對目標資源進行標注的行為就是引用行為。引用行為的發(fā)生只會增加已有標簽的標注次數(shù),而不會產(chǎn)生新的標簽。
3)在協(xié)同標注行為過程中形成了“用戶—資源—標簽”三元交互的動態(tài)網(wǎng)絡(luò)關(guān)系。用戶對目標資源賦予標簽、用戶可以引用他人標簽、以及同一標簽?zāi)軐⒉煌Y源匯聚起來,這就使得用戶之間、資源之間以及用戶與資源之間通過標簽產(chǎn)生了聯(lián)系。而后續(xù)更多用戶通過自建或引用標簽的形式對相同或不同的目標資源賦予標簽,將導(dǎo)致“用戶—資源—標簽”三元交互的網(wǎng)絡(luò)關(guān)系呈現(xiàn)動態(tài)變化。
4)協(xié)同標注行為能夠最終形成大眾分類標準。在協(xié)同標注行為中,雖然每個用戶標注資源的信息動機不同,但是他們的標注行為通過社會化標簽系統(tǒng)的集成便能產(chǎn)生整體效應(yīng),“涌現(xiàn)”出對應(yīng)某個資源的、被大多數(shù)群體用戶所認同的大眾分類標準。
可見,協(xié)同標注行為作為一種典型的協(xié)同信息組織行為,包含了雜亂無章的初始階段、局部共識的中級階段和全局共識的終極階段的3個子過程以及群體用戶意見發(fā)散、收斂和凝聚的3個子環(huán)節(jié),描述了協(xié)同標注行為由量變到質(zhì)變、群體智慧最終涌現(xiàn)的過程[10]。
2?實證研究
2.1?研究設(shè)計
從協(xié)同標注行為的過程看,首先,目標資源在社會化標簽系統(tǒng)中出現(xiàn)時用戶行為主要以自建標簽為主。社會化標簽系統(tǒng)建立在“無知觀”的假設(shè)基礎(chǔ)上,即任何用戶都不可能對日漸復(fù)雜的對象系統(tǒng)及問題全域有一個全面的把握,只能按照自己的知識背景對某一領(lǐng)域的某一問題有著一定了解[11]。因此,用戶只需要基于不同的信息動機和主觀認知,就能通過自建標簽的方式對目標資源進行標注。由于用戶對目標資源認知的差異性,不同用戶針對同一目標資源的標注結(jié)果也會不盡相同,從而產(chǎn)生不同種類標簽。雖然隨著其他用戶的參與,目標資源相關(guān)的標簽種類、數(shù)量會逐漸增加,少數(shù)標簽數(shù)量可能會相對占優(yōu),但總體上規(guī)模相對較少。
其次,隨著標注用戶的不斷增加,協(xié)同標注行為進入到引用行為占優(yōu)的階段。隨著目標資源的標注用戶迅速增加,標簽的種類、數(shù)量也在激增,從而形成了較好的基礎(chǔ)數(shù)據(jù)集,為協(xié)同功能的發(fā)揮提供了重要支持。用戶可以看到目標資源的已有標簽以及系統(tǒng)推薦標簽,導(dǎo)致引用標簽的概率上升,并在系統(tǒng)協(xié)同功能的支撐下不斷產(chǎn)生重復(fù)標簽,針對該目標資源可能會出現(xiàn)高頻標簽。但由于標注用戶還在持續(xù)增加,所以此時的高頻標簽只能代表一種階段性的局部共識。也就是說,少數(shù)標簽一直緩慢增加,吸引了其他用戶的跟隨,成為最終的高頻標簽;但是不排除在這個階段會出現(xiàn)新的標簽,成為最終的高頻標簽。
最后,在后續(xù)標注用戶的推動下,協(xié)同標注行為最終會形成大眾分類體系。一方面,標注用戶持續(xù)增加,達到了群體用戶規(guī)模;另一方面,群體用戶針對目標資源的分類標準出現(xiàn)重疊的情形越來越多,使得原有的部分高頻標簽會得到更多用戶的認同和引用。即引用標簽行為已經(jīng)占據(jù)絕對主導(dǎo)地位,并形成了穩(wěn)定的代表群體用戶意見的高頻標簽群。
在協(xié)同標注行為過程中,個體用戶在對某一資源進行標注時,既采取自建行為,也往往會引用他人標注或系統(tǒng)推薦的標簽。自建行為產(chǎn)生新的標簽,引用標簽則不斷產(chǎn)生重復(fù)標簽而形成高頻標簽。即協(xié)同標注行為經(jīng)歷由自建標簽策略為主到以引用標注策略為主的過程,同時形成穩(wěn)定的代表群體用戶意見的高頻標簽群,群體用戶對目標資源的主觀認知由發(fā)散趨于一致,最終形成大眾分類標準。這一過程反映了用戶在參與協(xié)同標注行為過程中,用戶的角色、用戶具體的標簽標注行為以及用戶對社會化標簽與目標資源的認知均呈現(xiàn)了一定動態(tài)變化。
基于以上分析,本研究采集豆瓣網(wǎng)的電影標簽數(shù)據(jù)進行實證分析,重點以電影高頻標簽數(shù)據(jù)為樣本,關(guān)注協(xié)同標注行為的用戶,從標注用戶、用戶標注行為、用戶認知演化過程3個層面分析協(xié)同標注行為的特征,解決協(xié)同標注行為中的3個問題:用戶角色“是普通用戶還是領(lǐng)袖用戶”、用戶進行標簽標注時“傾向使用個性化標簽還是大眾標簽”、用戶認知“發(fā)散和收斂之間如何演化”,以揭示社會化標簽系統(tǒng)中用戶行為和標簽使用的特性和規(guī)律。本研究的思路如圖1所示。
2.2?數(shù)據(jù)采集與篩選
2.2.1?數(shù)據(jù)樣本的選擇
豆瓣網(wǎng)是一個提供關(guān)于書籍、電影、音樂等作品信息的社區(qū)網(wǎng)站,無論是對作品進行描述還是評論都由用戶提供。豆瓣電影是中國最大的電影分享與評論社區(qū),用戶可以對電影標記想看、在看或者看過后進行評分,并發(fā)表長評或者短評。在這個過程中,用戶產(chǎn)生了大量的、動態(tài)的電影標簽,形成了豐富的用戶、標簽、資源數(shù)據(jù)集,一定意義上形成了評論共同體,有利于開展協(xié)同標注行為方面的研究。
首先,在豆瓣電影中,電影標簽是部分可見的,即參與標注的用戶可以看見前面用戶已給出的部分標簽,標簽按照用戶提供標簽的時間進行排列,最
圖1?協(xié)同標注行為特征的分析框架
新的標簽排在最上面;其次,系統(tǒng)將高頻標簽以標注次數(shù)進行排列和展示,幫助用戶快速了解該電影的受歡迎標簽;最后,在用戶提供標簽的界面,系統(tǒng)還會給出10個標簽供用戶參考。由于這種特殊性,豆瓣電影標簽的標注會產(chǎn)生一定數(shù)量的高頻標簽群?;谝陨峡紤],本文選擇豆瓣網(wǎng)站作為數(shù)據(jù)來源,重點采集豆瓣網(wǎng)電影標簽數(shù)據(jù)作為實驗數(shù)據(jù)集。
2.2.2?數(shù)據(jù)采集與預(yù)處理
由于豆瓣網(wǎng)對電影標簽數(shù)據(jù)每天最多保留10個頁面,新的標簽數(shù)據(jù)將覆蓋舊的數(shù)據(jù)。因此,本文使用R語言自編程序于2018年11月—2019年9月實時爬取了豆瓣電影的標簽數(shù)據(jù),共獲取了528部電影的數(shù)據(jù)。根據(jù)研究的需要,對標簽數(shù)據(jù)進行了逐層篩選:
1)網(wǎng)絡(luò)信息生命周期理論認為,網(wǎng)絡(luò)信息從產(chǎn)生到消亡整個過程分為成長期、成熟期和衰退期3個階段[12]:網(wǎng)絡(luò)信息產(chǎn)生之后很快進入成長期,其訪問量迅速上升;接著進入成熟期,網(wǎng)絡(luò)信息的訪問量達到最大值;然后就進入到衰退期,此時網(wǎng)絡(luò)信息的訪問量將逐漸降低并趨近于零;但處于衰退期甚至已經(jīng)消亡的網(wǎng)絡(luò)信息的效用價值也有可能被重新激活,開始新的生命周期??紤]到在開始采集后的一段時間內(nèi),部分先前已開放的電影受關(guān)注度已經(jīng)極低,進入衰退期,雖然有可能開始新的生命周期,但已不是完整的成長過程;或者部分電影正處于成熟期而無法獲知成長期的情況;同樣地,在結(jié)束采集前一段時間內(nèi),部分剛上線的電影資源受關(guān)注度還不高,處于成長期,無法獲知成熟期、衰退期、甚至新一輪生命周期的情況;或者部分電影正處于成熟期而無法獲知衰退期和新一輪生命周期的情況。因此,需要剔除在采集時間段內(nèi)生命周期不完整的部分電影。對528部電影在數(shù)據(jù)采集周期內(nèi)參與標注的用戶數(shù)進行分析后發(fā)現(xiàn),大多數(shù)電影需要1個月左右的時間才能形成第一輪完整的生命周期。對此,本文以開始采集后的1個月和截至采集前1個月為時間節(jié)點對數(shù)據(jù)進行初步篩選,選取了于2018年12月—2019年6月上映且于2019年8月31日前開放觀看的158部電影的標簽數(shù)據(jù)。
2)對于單部電影而言,當標注數(shù)量在連續(xù)1周及以上時間內(nèi)為個位數(shù)或零時,認為其生命周期尚未開始或已經(jīng)結(jié)束,應(yīng)停止數(shù)據(jù)采集工作。也就是說,上述158部電影中,部分電影仍有可能持續(xù)不受用戶關(guān)注,導(dǎo)致其遲遲沒有進入成長期,或在短時間內(nèi)受到用戶的高度關(guān)注、由于特殊原因又快速進入衰退期,即生命周期不完整,本文對這部分電影數(shù)據(jù)也進行剔除。通過分析,共有78部電影標簽數(shù)據(jù)在其生命周期內(nèi)不完整,剔除此部分電影后得到80部電影標簽數(shù)據(jù)。
3)為使樣本數(shù)據(jù)更有代表性,本研究僅篩選全部標簽標注次數(shù)不低于500的電影,最終得到58部電影標簽數(shù)據(jù)作為本文的研究數(shù)據(jù)。
2.3?實證研究結(jié)果
2.3.1?協(xié)同標注行為的用戶角色特征及其討論
1)協(xié)同標注行為的用戶角色特征
高頻標簽顯然是由后續(xù)用戶反復(fù)參考、借鑒和引用已有標簽而形成,追溯高頻標簽的首創(chuàng)者(指高頻標簽首次出現(xiàn)時的使用者),對于探究高頻標簽的用戶特征更有意義。選取58部電影中首創(chuàng)高頻標簽數(shù)≥5的用戶作為分析對象,并進一步獲取該用戶群體加入豆瓣網(wǎng)時間、電影數(shù)量、標簽個數(shù)、標注次數(shù)以及當前電影下首創(chuàng)的高頻標簽中屬于已標注高頻標簽群比值等信息,如表1所示。
由表1可知,從加入豆瓣網(wǎng)的時間角度看,高頻標簽的首創(chuàng)用戶加入豆瓣網(wǎng)的時間相對于豆瓣電影板塊上線時間(2005年5月2日)和電影標簽功能上線時間(2005年6月6日)來說較晚,高頻標簽的首創(chuàng)用戶并非為豆瓣電影板塊及其標簽功能的早期用戶。從關(guān)注電影數(shù)量角度看(包括“在看”電影、“想看電影”和“看過”電影3種類型),大多數(shù)用戶對電影資源保持著較高的關(guān)注度,持續(xù)關(guān)注電影資源從宣傳、熱映到開放的發(fā)展情況,更有著較為豐富的觀影經(jīng)歷,為保證其全面認識電影資源奠定基礎(chǔ)。從標簽標注角度看,大多數(shù)用戶并非對所關(guān)注的電影資源都進行標注,但傾向于反復(fù)使用自己使用過的標簽。這與Golder?S?A、Sen?S等的研究結(jié)論相符:Golder?S?A的研究發(fā)現(xiàn)對于目標資源的標簽來說,各個標簽的相對比例隨著時間的推移呈現(xiàn)一個相對穩(wěn)定的趨勢,即用戶受到前期用戶標注行為的影響[13];Sen?S的研究也證明用戶未來傾向使用的標簽與他們過去使用過的標簽相似[14]。進一步地,從首創(chuàng)高頻標簽歸屬比例(即在某用戶的首創(chuàng)高頻標簽集中屬于該用戶所有高頻標簽集的首創(chuàng)高頻標簽數(shù)所占的比值)情況看,用戶在面對新的電影資源時,會從自有高頻標簽集中選取部分標簽進行標注。表明用戶在進行標簽標注時容易受到標注習(xí)慣的影響;或者由于用戶所關(guān)注的電影資源之間存在較大的相似性,導(dǎo)致用戶在面對新的電影資源時,選擇同一類型的電影資源的標簽進行新的標注。
2)協(xié)同標注行為用戶角色特征的討論分析
高頻標簽首創(chuàng)者一方面具有較為豐富的標注經(jīng)驗和成熟的標注習(xí)慣,能夠引領(lǐng)群體用戶的協(xié)同標注行為,可視為協(xié)同標注行為的領(lǐng)袖用戶;而其他大多用戶通過引用他人或接受系統(tǒng)推薦的標簽進行標注,屬于“追隨”他人的普通用戶。因此,參與協(xié)同標注行為的用戶在角色上的特征顯著地表現(xiàn)為領(lǐng)袖用戶的引領(lǐng)作用和普通用戶的數(shù)量占優(yōu)。
首先,協(xié)同標注行為具有顯著的群體性特征,大多用戶屬于“追隨”他人的普通用戶。協(xié)同標注行為強調(diào)的是大量信息用戶的參與,是一個群體協(xié)同行為。相對于初期用戶來說,后續(xù)加入的用戶既有可能自建標簽進行標注,但更有很大的概率直接引用已有標簽進行標注。在自建標簽情形下,由于用戶無法完整、正確地獲取網(wǎng)絡(luò)資源的信息,或者用戶需要花費大量的時間和精力才能完整、正確地獲取網(wǎng)絡(luò)資源的信息而選擇采取引用標簽策略,或者用戶出于標新立異的心態(tài)使用個性化標簽,以及盡管是在全面了解目標資源的基礎(chǔ)上進行標注,也有可能只是已有標簽的重復(fù)使用,導(dǎo)致用戶不會得到其他用戶的廣泛認可而淪為“普通用戶”。在引用標簽情形下,用戶引用已有標簽只是對他人標注成果的又一次復(fù)用,進而成為領(lǐng)袖用戶的“追隨者”。
其次,高頻標簽的首創(chuàng)者引領(lǐng)了協(xié)同標注行為整個過程,是協(xié)同標注行為的領(lǐng)袖用戶。高頻標簽首創(chuàng)者能夠在目標資源上線的初期快速做出反應(yīng),基于自己較為全面的認知和成熟的標注習(xí)慣對資源進行標注。高頻標簽首創(chuàng)者所標注的標簽?zāi)軌蚍磻?yīng)目標資源的信息、標注行為較為規(guī)范,后續(xù)用戶將以參考、借鑒、直接引用標簽等形式去“追隨”高頻首創(chuàng)標簽者,使其成為整個協(xié)同標注行為的“意見領(lǐng)袖”。在意見領(lǐng)袖的作用下,群體意見能夠快速匯聚,最終“涌現(xiàn)”出對應(yīng)某個資源的、被大多數(shù)群體用戶所認同的大眾分類標準。
最后,普通用戶不斷“追隨”使得領(lǐng)袖用戶的引領(lǐng)作用進一步強化。雖然領(lǐng)袖用戶在整個協(xié)同標注行為過程中發(fā)揮引領(lǐng)作用,但也正是普通用戶的不斷“追隨”才能使得領(lǐng)袖用戶具有引領(lǐng)作用,并使其引領(lǐng)作用進一步強化。領(lǐng)袖用戶并非都是社會化標簽系統(tǒng)的資深用戶,僅在某個或若干資源的標注過程中發(fā)揮引領(lǐng)作用,意味著當這一資源下的領(lǐng)袖用戶在面對新的資源時未能準確做出標注,則有可能淪為其他用戶的追隨者。而先前屬于“追隨者”的普通用戶也將有可能成為領(lǐng)袖用戶,引領(lǐng)新一輪的協(xié)同標注行為。
2.3.2?協(xié)同標注行為的標簽使用類別特征及其討論
1)協(xié)同標注行為的標簽使用類別特征
為探究用戶參與協(xié)同標注行為過程中的標簽使用情況,本研究首先以天為單位,依次計算電影標簽個數(shù)的累積值和高頻標簽與全部標簽個數(shù)之比,并根據(jù)計算結(jié)果繪制雙坐標圖,如圖2所示。圖2顯示,在整個協(xié)同標注行為過程中,標簽個數(shù)逐步增加。表明隨著用戶活躍度的提高,用戶使用個性化標簽的可能性在增加,導(dǎo)致標簽類型不斷豐富。
從用戶標注時標簽數(shù)量規(guī)律上看,用戶也傾向于使用多個標簽進行標注。如表2所示,接近20%的用戶僅對目標資源標注1個標簽,37.70%的用戶在標注時使用2~3個標簽,30.58%的用戶使用4~6個標簽對資源進行標注,9.32%的用戶對資源標注7~10個標簽,僅有少部分用戶對目標資源標注10個以上的標簽。即68.28%的用戶傾向于使用2~6個標簽進行標注,標簽類型具有多樣性。
進一步地,以單部電影為對象,逐一計算26部電影中用戶所使用的標簽中屬于高頻標簽的比例并繪制箱線圖,如圖3所示。由圖3可知,大部分用戶所使用的標簽中僅有20%左右的標簽屬于高頻標簽,且當用戶所使用標簽中有一半及以上為高頻標簽已經(jīng)屬于異常值。這表明,雖然用戶不可避免參考甚至直接引用他人標簽,或者接受系統(tǒng)推薦的高頻標簽,但大量用戶仍傾向于同時使用個性化標簽對資源進行標注。
2)協(xié)同標注行為標簽使用特征的討論分析
高頻標簽的過程特征表明,雖然在整個協(xié)同標注行為過程中,標簽個數(shù)逐步增加,標簽類型不斷豐富,個性化標簽數(shù)量占優(yōu),但先前受群體用戶關(guān)注和引用的大眾標簽不斷得到更多新的關(guān)注和引用,大眾標簽始終構(gòu)成了高頻標簽群的主體。即協(xié)同標注行為存在“個性化標簽數(shù)量占優(yōu)、而大眾標簽構(gòu)成高頻標簽主體”的一對張力點。個性化標簽數(shù)量占優(yōu)表明用戶在進行標注時傾向于使用個性化標簽,大眾標簽構(gòu)成高頻標簽主體用表明用戶在進行標簽標注時參考、引用了其他用戶使用過或系統(tǒng)推薦的大眾化標簽。
首先,由于用戶對目標資源認知的差異性,不同用戶針對同一目標資源的標注結(jié)果也會不盡相同,從而產(chǎn)生不同種類標簽。雖然隨著其他用戶的參與,目標資源相關(guān)的標簽種類、數(shù)量會逐漸增加,少數(shù)標簽數(shù)量可能會相對占優(yōu),但總體上規(guī)模相對較少。
其次,引用行為在系統(tǒng)協(xié)同功能的支撐下不斷產(chǎn)生重復(fù)標簽,針對該目標資源可能會出現(xiàn)高頻標簽。但由于標注用戶還在持續(xù)增加,所以此時的高頻標簽只能代表一種階段性的局部共識。也就是說,少數(shù)標簽一直緩慢增加,吸引了其他用戶的跟隨,成為最終的高頻標簽;但是不排除在這個階段會出現(xiàn)新的標簽,成為最終的高頻標簽。
最后,在后續(xù)標注用戶的推動下,一方面,標注用戶持續(xù)增加,達到了群體用戶規(guī)模;另一方面,群體用戶針對目標資源的標注結(jié)果出現(xiàn)重疊的情形越來越多,使得原有的部分高頻標簽會得到更多用戶的認同和引用,并形成了穩(wěn)定的代表群體用戶意見的高頻標簽群。
2.3.3?協(xié)同標注行為的用戶認知變化過程特征及其討論
1)協(xié)同標注行為的用戶認知變化過程特征
在統(tǒng)計高頻標簽的時間分布基礎(chǔ)上,本研究集中繪制了高頻標簽與全部標簽個數(shù)比、高頻標簽與全部標簽次數(shù)比、當前高頻標簽與累積高頻標簽一致性等高頻標簽相關(guān)比值的時間分布圖,如圖4所示。由圖4可知,在整個協(xié)同標注行為過程中,雖然高頻標簽個數(shù)與全部標簽個數(shù)之比逐漸降低,但高頻標簽被標注次數(shù)與全部標簽被標注次數(shù)之比始終維持較高水平,且當前高頻標簽與累積高頻標簽一致性逐漸穩(wěn)定于較高水平。
圖4?部分電影高頻標簽相關(guān)比值的時間分布圖
高頻標簽個數(shù)與全部標簽個數(shù)之比在協(xié)同標注行為初期處于高峰,以及如圖5所示的大部分電影的高頻標簽集中出現(xiàn)在協(xié)同標注行為發(fā)生后的兩個月內(nèi),反映了高頻標簽早在協(xié)同標注行為的初期已經(jīng)出現(xiàn),只是由于能夠占據(jù)全部標簽被標注次數(shù)的80%的高頻標簽數(shù)量有限,其他低頻標簽數(shù)量不斷增多,導(dǎo)致高頻標簽個數(shù)與全部標簽個數(shù)之比隨時間下降。高頻標簽被標注次數(shù)與全部標簽被標注次數(shù)之比始終維持較高水平則表明隨著時間推進,群體用戶對初期已經(jīng)出現(xiàn)的高頻標簽高度認可和反復(fù)引用,先前受群體用戶關(guān)注和引用的大眾標簽不斷得到更多新的關(guān)注和引用,大眾標簽始終構(gòu)成了高頻標簽群的主體。當前高頻標簽與累積高頻標簽一致性逐漸穩(wěn)定于較高水平,則說明高頻標簽群的構(gòu)成逐步趨于穩(wěn)定狀態(tài),群體用戶對目標資源的認知趨于一致,大眾分類標準最終涌現(xiàn)。
圖5?58部電影高頻標簽首次出現(xiàn)的時間分布
2)協(xié)同標注行為用戶認知變化過程特征的討論分析
基于社會認同理論和信息搜尋理論的研究認為,用戶遵循最省力原則使用系統(tǒng)推薦的標簽而不是通過自我思考自建標簽,大量的此類標注行為將提升信息率[15]。Cosley?D等的研究也表明,系統(tǒng)推薦功能會導(dǎo)致行為的一致性[16]。在協(xié)同標注行為過程中,用戶標注策略由自建標簽為主到以引用標注為主,逐漸導(dǎo)致少數(shù)標簽被絕大部分用戶用于標注,且隨著協(xié)同標注行為的推進,這些少數(shù)標簽將形成穩(wěn)定的高頻標簽群。如果將標注某標簽的行為視為用戶對該標注所反映的意見的認可,則少量標簽組成的穩(wěn)定的高頻標簽群所反映的意見即是參與協(xié)同標注行為的群體用戶的意見。雖然在協(xié)同標注初期自建標簽使得用戶意見較為發(fā)散,但群體用戶意見終將由發(fā)散向收斂轉(zhuǎn)移,并最終形成目標資源的大眾分類標準。即協(xié)同標注行為存在群體用戶意見經(jīng)歷由發(fā)散向收斂轉(zhuǎn)移的過程。
一方面,用戶標注策略由自建標簽為主到以引用標簽為主。從協(xié)同標注行為過程分析來看,在協(xié)同標注行為初期,協(xié)同標注參與者的標注策略以自建標簽為主;但隨著協(xié)同標注行為的推進,后續(xù)參與者出于節(jié)約成本或者忽視個人獨特認知的原因,在對目標資源進行標注時直接引用其他用戶使用的標簽或者接收社會化標簽系統(tǒng)推薦的標簽。自建標簽策略的使用表明標注用戶對目標資源的認知存在差異,對目標資源的分類標準的意見也不統(tǒng)一。引用標簽策略逐漸占優(yōu)并成為主要標注策略,表明后續(xù)標注用戶對前期已被使用的標簽及標簽所代表的群體意見認可度逐漸提高,對目標資源的分類標準的意見趨于一致;另一方面,協(xié)同標注行為能夠最終形成大眾分類標準。在協(xié)同標注行為中,雖然每個用戶標注資源的信息動機不同,但是他們的標注行為通過社會化標簽系統(tǒng)的集成便能產(chǎn)生整體效應(yīng),“涌現(xiàn)”出對應(yīng)某個資源的、被大多數(shù)群體用戶所認同的分類標準,即大眾分類標準的形成。
總之,協(xié)同標注行為的整個過程強調(diào)從個體信息行為向群體合作行為的轉(zhuǎn)變,強調(diào)信息行為的協(xié)同性、合作性等特征[17],同時在標注過程中,存在用戶部分或者完全放棄理性分析而盲目跟從他人的非理性行為,標注演化過程中出現(xiàn)了觀點收斂的情況,即所有人關(guān)于大眾分類的觀點最終達到了統(tǒng)一。
3?結(jié)?語
本文采集豆瓣網(wǎng)的電影標簽數(shù)據(jù),從標注用戶、用戶標注行為、用戶認知演化過程3個層面分析協(xié)同標注行為的特征。研究發(fā)現(xiàn),個性化標簽數(shù)量占優(yōu)而大眾標簽構(gòu)成高頻標簽主體、領(lǐng)袖用戶的引領(lǐng)作用和普通用戶的數(shù)量占優(yōu)、以及群體用戶意見經(jīng)歷由發(fā)散向收斂轉(zhuǎn)移等現(xiàn)象,構(gòu)成了協(xié)同標注行為的3個顯著特征。本文的研究有助于促進對協(xié)同標注過程和大眾分類標準涌現(xiàn)的認識和理解,有助于社會化標簽系統(tǒng)的深度開發(fā)和整體優(yōu)化,提高協(xié)同標注平臺上用戶協(xié)同標注效果。當然,本文的研究還存在一定的局限性,后續(xù)研究應(yīng)擴展數(shù)據(jù)類型,基于“用戶—資源—標簽”的三元交互的動態(tài)網(wǎng)絡(luò)關(guān)系,從標簽和目標資源角度分析協(xié)同標注行為的特征與規(guī)律。
參考文獻
[1]Golder?S?A,Huberman?B?A.Usage?Patterns?of?Collaborative?Tagging?Systems[J].Journal?of?Information?Science,2006,32(2):198-208.
[2]Kipp?M,Campbell?D?G.Patterns?and?Inconsistencies?in?Collaborative?Tagging?Systems:An?Examination?Oftagging?Practices[EB/OL].http://dlist.sir.arizona.edu/1704/01/KippCampbellASIST.pdf,2021-01-15.
[3]王永芳,王亞棟.中文博客中標簽特征分析[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2016,(11):100-103.
[4]Voss?J.Tagging,F(xiàn)olksonomy?&?Co-Renaissance?of?Manual?Indexing?[EB/OL].http://arxiv.org/abs/cs/0701072,2021-01-20.
[5]樊曉琦.基于信息熵的社會化標注動機差異化研究[D].杭州:浙江理工大學(xué),2016.
[6]李京生.基于用戶標記的社會化搜索引擎的設(shè)計與研究[D].北京:北京工業(yè)大學(xué),2012.
[7]楊青云,裴雷,吳克文.國外社會化標注系統(tǒng)中標注行為研究現(xiàn)狀[J].情報雜志,2009,28(11):185-188,184.
[8]Zauder?K,Lazic?J?L,Zorica?M?B.Collaborative?Tagging?Supported?Knowledge?Discovery[C]//Proceedings?of?the?ITI?2007?29th?International?Conference?on?Information?Technology?Interfaces.New?York:IEEE?Press,2007:437-442.
[9]李楓林,張景.基于用戶標注行為的相關(guān)性分析及重排序[J].情報理論與實踐,2010,33(10):57-61.
[10]易明,馮翠翠,莫富傳,等.基于群體智慧理論的協(xié)同標注信息行為機理研究——以豆瓣電影標簽數(shù)據(jù)為例[J].情報學(xué)報,2021,40(1):101-114.
[11]Nishimoto?K,Sumi?Y,Mase?K.Enhancement?of?Creative?Aspects?of?a?Daily?Conversation?with?a?Topic?Development?Agent[C]//In?Proceedings?of?Coordination?Technology?for?Collaborative?Applications-Organizations,Processes,and?Agents,1998:63-76.
[12]馬費成,夏永紅.網(wǎng)絡(luò)信息的生命周期實證研究[J].情報理論與實踐,2009,32(6):1-7.
[13]Golder?S?A,Huberman?B?A.Usage?Patterns?of?Collaborative?Tagging?Systems[J].Journal?of?Information?Science,2006,32(2):198-208.
[14]Sen?S,Lam?S?K,Rashid?A?M,et?al.Tagging,Communities,Vocabulary,Evolution[EB/OL].http://portal.acm.org/citation.cfm?doid=1180875.1180904.
[15]Gattis?L?F.Planning?and?Information?Foraging?Theories?and?Their?Value?to?the?Novice?Technical?Communicator[A].Proceedings?of?the?20th?Annual?International?Conference?on?Computer?Documentation[C]//New?York:ACM?Press,2002:39-43.
[16]Cosley?D,Lam?S?K,Albert?I,et?al.Is?Seeing?Believing?How?Recommender?System?Interfaces?Affect?Users?Opinions[J].Proc.sigchi?Conf.on?Human?Factors?in?Computing?Systems,2003,(5):585-592.
[17]金燕,李昱瑤.科研團隊成員的協(xié)同信息行為模型[J].情報理論與實踐,2015,38(9):86-90.
(責(zé)任編輯:陳?媛)