〔摘要〕隨著Web2.0技術(shù)在圖書館的廣泛應(yīng)用,不少學者開始關(guān)注在圖書館構(gòu)建虛擬社區(qū)。Tag能反映用戶的閱讀興趣,然而基于Tag構(gòu)建虛擬社區(qū)的研究相對欠缺。為此文章首先闡述了構(gòu)建高校圖書館虛擬讀書社區(qū)的必要性,通過分析用戶的標注動機及影響用戶標注的因素,提出了優(yōu)化用戶標注過程的策略,在此基礎(chǔ)上就基于Tag構(gòu)建虛擬讀書社區(qū)的相關(guān)算法和實現(xiàn)方案進行了探討。
〔關(guān)鍵詞〕Tag;高校圖書館;虛擬社區(qū);社區(qū)構(gòu)建;用戶相似度;興趣相似度
〔中圖分類號〕G250.7〔文獻標識碼〕A〔文章編號〕1008-0821(2013)08-0167-05
高校圖書館擁有豐富的館藏資源,能否幫助用戶在海量的資源中挖掘出感興趣且有用的資源,將直接影響用戶獲取信息和知識的效率。為此,許多圖書館提供了類似“熱門借閱”、“熱門圖書”的功能為用戶推薦圖書,且多數(shù)圖書館以借閱頻次來決定圖書熱度。然而,即使最熱門的圖書也不一定是讀者感興趣或需求的圖書,因此,熱門推薦這種單向模式對滿足用戶個體需求來說作用不大。
隨著互聯(lián)網(wǎng)和Web2.0等技術(shù)的發(fā)展,虛擬社區(qū)應(yīng)運而生,這為圖書館用戶篩選圖書提供了一個良好的途徑。Tag作為Web 2.0時代的產(chǎn)物,近年來在圖書館中逐步得以應(yīng)用。Tag的意義不僅在于分類,更在于它可以體現(xiàn)出用戶個人的興趣傾向。以用戶的核心Tag集表示用戶興趣,從而構(gòu)建以興趣為聚合點的虛擬讀書社區(qū)。社區(qū)成員可推薦自己認為有價值的圖書,并賦予內(nèi)容說明,供其他成員參考選擇。甚至可以“以書為媒”[1],在社區(qū)內(nèi)相互結(jié)識,相互信任,將用戶交互擴展到線下,如成員之間可以協(xié)商,實現(xiàn)圖書暫時轉(zhuǎn)借。其次,高校往往擁有方便的網(wǎng)絡(luò),用戶可以隨時訪問圖書館,利于社區(qū)內(nèi)部互動。此外,從社會心理學角度來看,人類有歸屬于群體并被他人認可的心理需求。在歸屬感的驅(qū)動下成員之間可共享知識、相互學習,社區(qū)其他成員的反饋在一定程度上能夠滿足成員本人對認同感的心理需求。“歸屬感——參與社區(qū)——認同感——參與社區(qū)”這一過程有利于虛擬讀書社區(qū)的構(gòu)建。因此,基于Tag構(gòu)建高校圖書館虛擬讀書社區(qū)很有必要。
瑞格爾德(Rheingole)提出虛擬社區(qū)的定義[2]之后,國內(nèi)外學者關(guān)于虛擬社區(qū)展開了系列研究[3-8]。其中,Hagel和Armstrong根據(jù)用戶需求,將虛擬社區(qū)分為交易社區(qū)、興趣社區(qū)、關(guān)系社區(qū)、幻想社區(qū)[3]。本文構(gòu)建的是興趣社區(qū)。近年來,隨著Web2.0技術(shù)在圖書館的應(yīng)用,不少學者開始關(guān)注在圖書館構(gòu)建虛擬社區(qū)。首先,提出了圖書館虛擬社區(qū)的組成部分[9]。其次,部分學者提出了圖書館虛擬社區(qū)構(gòu)建的實現(xiàn)算法[10]。此外,還有學者探討了虛擬社區(qū)的構(gòu)建對圖書館用戶教育的影響[11]。
筆者發(fā)現(xiàn),一方面,國內(nèi)外關(guān)于虛擬社區(qū)的研究正逐步走向成熟,為圖書館構(gòu)建虛擬社區(qū)奠定了基礎(chǔ)。另一方面,目前國內(nèi)關(guān)于圖書館構(gòu)建虛擬社區(qū)的研究多停留在諸如構(gòu)建原則、功能模塊、實現(xiàn)條件及方法、對用戶產(chǎn)生的作用這些理論層面。雖然部分學者提出了實現(xiàn)算法,但基于Tag構(gòu)建圖書館虛擬社區(qū)的算法研究還不夠。隨著Web2.0的到來,Tag正逐步應(yīng)用到圖書館服務(wù)中,用戶能方便的為已閱讀的或感興趣的資源標注標簽,Tag能很好的反映用戶興趣。為此,本文抽取用戶的核心Tag集并賦予權(quán)重來表征用戶的閱讀興趣,通過相應(yīng)的算法計算不同用戶之間閱讀興趣的相關(guān)度,進而構(gòu)建虛擬讀書社區(qū)。
1概述
本文基于Tag構(gòu)建虛擬讀書社區(qū)原因如下:Tag是用戶對圖書館資源內(nèi)容個人理解的反映,是其思維內(nèi)容外化的一種表達方式[12]。相對于專業(yè)的、用戶本身不熟悉的分類體系,用戶從心理上更傾向采用簡單易懂的自然語言對圖書進行標注。Tag的靈活自由、非受控性相對于不了解的傳統(tǒng)分類體系更易于讀者將感知的內(nèi)容表達出來。因此,Tag與被標注資源之間有著較高的相關(guān)性,核心Tag集能體現(xiàn)用戶的閱讀興趣。另一方面,經(jīng)常標注資源的用戶會獲得一個Tag集,通過計算不同用戶之間核心Tag集的相關(guān)性,能夠很容易將有共同興趣和關(guān)注點的用戶聚合在一起,從而構(gòu)建虛擬社區(qū)。
1.1Tag的分類及用戶標注動機
標簽通??煞譃閮?nèi)容標簽(Content-based tags)、情境標簽(Context-based tags)、主觀標簽(Subjective tags)、組織標簽(Organizational tags)四大類[13]。內(nèi)容標簽是對圖書內(nèi)容的揭示,情境標簽包括國家、圖書內(nèi)容所描述的時間、地點等,主觀標簽是對圖書質(zhì)量及個人喜好的主觀表達(如經(jīng)典,討厭等),組織標簽通常是用戶為便于個人信息組織而標注的標簽,如數(shù)字或特殊符號等,一般對他人意義不大。
對于歸屬于群體的成員來說,標注的動機通常來自個人和群體兩方面。前者指自發(fā)的、個人的需求,包括其使用上的需要和心理上的滿足[14];后者主要來自群體中的各種驅(qū)動力,比如當個人發(fā)現(xiàn)標注給社區(qū)其他成員帶來了有用的信息,產(chǎn)生了群體價值,而個人也因此受到其他成員的認可和尊敬時,會產(chǎn)生積極標注的欲望。具體說來,個人動機往往來自以下幾個方面的綜合:
1.1.1內(nèi)容分類
主要是對資源的內(nèi)容給予揭示,方便日后依據(jù)內(nèi)容屬性檢索資源,為用戶是否使用該資源提供決策支持。基于此動機,用戶往往為資源添加內(nèi)容標簽。
1.1.2情感表達
當用戶閱讀或使用資源時,自身的知識結(jié)構(gòu)自然地使其對資源形成一定的認識,個人情感也隨之流露,如喜歡、討厭。情感一旦產(chǎn)生,很大程度上會刺激用戶為資源添加主觀標簽,以表達內(nèi)心的想法和感受。
1.1.3個人資源組織
對個人信息資源不同的組織方式?jīng)Q定了用戶添加何種類型的標簽。如以時間為主線組織,則會添加情景標簽;按內(nèi)容分類組織,則會添加內(nèi)容標簽等。
從用戶標注動機來看,4種類型的標簽都有被用戶使用的可能性。而內(nèi)容標簽最能反映用戶個人的閱讀興趣,對構(gòu)建虛擬社區(qū)意義重大。情景標簽次之。主觀標簽和組織標簽則與具體內(nèi)容無關(guān),無法利用這些標簽計算用戶興趣相似度。
1.2用戶標注過程優(yōu)化
基于Tag構(gòu)建虛擬讀書社區(qū),前提需獲取用戶的核心Tag集。因此,鼓勵用戶添加高質(zhì)量的內(nèi)容標簽是重中之重。然而,與圖書分享網(wǎng)站(如豆瓣網(wǎng))相比,高校圖書館用戶標注的積極性較低。此外,標簽本身屬于非受控語言,存在諸如語義模糊、一詞多義、同義等問題。由于用戶的知識水平、興趣愛好、習慣等不同,標簽添加具有盲目性、隨意性。一些多義標簽被不同的用戶使用可能包含著不同的語義。這將影響用戶核心Tag集的數(shù)量及質(zhì)量。
基于以上分析,筆者認為,圖書館標注系統(tǒng)可以通過推薦的方式影響用戶的標簽選擇,促進用戶標簽聚合,方便系統(tǒng)計算不同用戶標簽集合之間的相關(guān)性,判定用戶興趣相似度。然而,在海量的標簽中,有選擇的為用戶推薦才能提高標簽召回率。豆瓣網(wǎng)將標簽分為文學、流行、文化、生活、經(jīng)管、科技六大類,每類下列有用戶所添加的各種標簽。圖書館可借鑒豆瓣網(wǎng)分類管理標簽的思想,以圖書館館藏資源為基礎(chǔ)結(jié)合分類表或主題表,構(gòu)建一個“基本大類”。當用戶標注圖書時,系統(tǒng)自動提供“基本大類”,供用戶勾選將要添加標簽所屬的類別,實現(xiàn)用戶對標簽自主歸類。一旦選定類別,系統(tǒng)自動顯示此類別下有關(guān)這本書的其他用戶使用頻次較多的標簽以及用戶個人的標簽集合供用戶選擇參考。在用戶自由的前提下,依據(jù)社會認同理論,通過影響用戶的意識,對標簽加以規(guī)范和控制。此外,系統(tǒng)可對標簽形式加以規(guī)范,如規(guī)定字母大小寫、標點符號等,改進標簽質(zhì)量。
為促進用戶標注積極性。圖書館可采取一定的獎勵措施,若用戶對資源進行規(guī)范標注(如勾選了大類、所添加標簽中包含內(nèi)容標簽、標簽形式規(guī)范)可換取積分,積分達到一定值即可延長借書時間、增加借書數(shù)量或享受其他權(quán)利。
2用戶閱讀興趣相似度判定
用戶閱讀興趣相似度判定的第一步是抽取用戶核心Tag集,為保證算法的準確度,需對標簽進行預(yù)處理(如去掉連字符等),去除垃圾標簽、主觀標簽、組織標簽。
2.1計算標簽之間的相似度
傳統(tǒng)的向量空間模型,把對文本內(nèi)容的處理簡化為向量空間中的向量運算。抽取文檔特征值,將文檔表示為文檔空間的向量,通過計算向量之間的相似性來度量文檔之間的相似性。而在圖書館,用戶所添加的標簽一般都是單個的字、詞或短語,包含的信息量很小,計算機難以自動抽取其特征[16]。因此,筆者選取某一標簽的相關(guān)標簽作為描述項來表征此標簽,并建立詞表以減少同義標簽導(dǎo)致的計算結(jié)果不準確,構(gòu)造標簽的特征向量,然后利用向量空間模型(VSM)計算標簽之間的相似度。
4結(jié)語
Tag作為Web2.0時代的產(chǎn)物,已在圖書館得以應(yīng)用并將廣泛應(yīng)用。為此,本文利用用戶的核心Tag集并賦予權(quán)重表征用戶的閱讀興趣,提出了計算標簽之間相似度的算法,并以實例分析了該算法的可行性。在此基礎(chǔ)上計算用戶閱讀興趣相似度,并就高校圖書館虛擬讀書社區(qū)構(gòu)建方案進行了探討。對具備條件的高校圖書館有一定的參考和啟發(fā)意義。相信隨著圖書館的發(fā)展和技術(shù)的進步,圖書館構(gòu)建虛擬社區(qū)的算法也會越來越完善。
參考文獻
[1]周建昌,廖恒.高校圖書館虛擬社區(qū)服務(wù)初探[J].漳州師范學院學報,2010,(2):174-176.
[2]百度百科.虛擬社區(qū)[DB/OL].http:∥baike.baidu.com/view/1587.htm,2013-02-12.
[3]Armstrong Arthur,Hagel Ⅲ John.The Real Value of ON-LINE communities[J].Harvard Business Review,1996,74(3):134-141.
[4]Stanoevska-slabeva Katarina.Toward a Community-Oriented Design of Internet Platforms[J].International Journal of Electronic Commerce,2002,6(3):71-95.
[5]許博,胥正川,邵兵家.影響網(wǎng)絡(luò)社區(qū)用戶參與的社會因素及其實證研究[J].現(xiàn)代管理科學,2010,(3):8-10.
[6]Lee Matthew K.O.,Cheung Christy M.K.,Lim,Kai H.,Choon,Ling Sia.Understanding customer knowledge sharing in web-based discussion boards:An exploratory study[J].Internet Research,2006,16(3):289-303.
[7]尹盛.E-mail社會網(wǎng)絡(luò)的社群挖掘和分析算法研究[D].北京:北京交通大學,2009.
[8]杜海峰,悅中山,李樹茁,等.基于模塊性指標的動態(tài)網(wǎng)絡(luò)社群結(jié)構(gòu)探測方法[J].系統(tǒng)工程理論與實踐,2009,(3):162-171.
[9]袁輝,楊新涯,周紅.圖書館虛擬知識社區(qū)建設(shè)的實踐與探討[J].圖書情報工作,2012,(3):80-83.
[10]胡昌平,樂慶玲.高校圖書館虛擬社區(qū)構(gòu)建初探[J].現(xiàn)代圖書情報技術(shù),2007,(11):87-90.
[11]周玉陶.網(wǎng)絡(luò)虛擬社區(qū)建設(shè)對圖書館用戶教育的影響[J].大學圖書情報學刊,2002,20(2):73-75.
[12]李楓林,張景.基于用戶標注行為的相關(guān)性分析及重排序[J].情報理論與實踐,2010,33(10):57-61.
[13]吳丹,許小梅.圖書館與圖書分享網(wǎng)站的用戶標注行為比較研究[J].圖書情報知識,2013,(1):85-93.
[14]常唯.論網(wǎng)絡(luò)環(huán)境下用戶標注的價值和應(yīng)用[J].圖書情報工作,2008,52(1):9-12.
[15]Shilad Sen.Tagging,Communities,Vocabulary,Evolution[EB/OL].http:∥portal.acm.org/citation.cfmdoid=1180875.1180904,2013-05-28.
[16]曹高輝,焦玉英,成全.基于凝聚式層次聚類算法的標簽聚類研究[J].現(xiàn)代圖書情報技術(shù),2008,(4):23-28.
[17]陳林,楊丹,趙俊芹.基于語義理解的智能搜索引擎研究[J].計算機科學,2008,(6):152-154.
[18]劉亞軍,徐易.一種基于加權(quán)語義相似度模型的自動問答系統(tǒng)[J].東南大學學報,2004,34(5):609-612.
(本文責任編輯:王涓)