●鐘克吟(肇慶學院圖書館,廣東肇慶526061)
基于標簽與協(xié)同過濾算法的學術資源推薦系統(tǒng)的構建
●鐘克吟(肇慶學院圖書館,廣東肇慶526061)
標簽;協(xié)同過濾;關聯(lián)資源;資源推薦
將標簽引入高校學術資源推薦系統(tǒng),利用標簽數(shù)據(jù),采取基于用戶的協(xié)同過濾算法和基于關聯(lián)資源的協(xié)同過濾算法相結合的方式實現(xiàn)資源推薦,既能體現(xiàn)用戶的興趣點和關注點,也能兼顧資源之間的關聯(lián)性,使推薦的資源更具個性化和全面性,而且在系統(tǒng)中增加了為用戶提供推薦標簽詞表的功能,提高了用戶使用標簽的積極性與使用標簽的準確率。
隨著數(shù)字圖書館的迅猛發(fā)展,信息資源呈爆炸式增長。因此,一些能有效為用戶解決信息過載和信息迷航等問題的信息過濾機制也應運而生?;跇撕灥母咝W術資源推薦系統(tǒng),可以實現(xiàn)一種利用標簽來挖掘讀者的興趣以及資源之間的語義關聯(lián),并向讀者推薦學術資源的知識服務模式,它能有效為用戶解決信息過載和信息迷航等問題,能夠引導讀者更高效地利用圖書館資源。同時,Web2.0的發(fā)展及其以用戶為中心的服務原則,強調(diào)服務時空的個性化、服務方式的個性化和服務內(nèi)容的個性化,必然會促使用戶廣泛參與學術資源的組織和描述活動,用戶不僅是資源的創(chuàng)建者和使用者,更是新一代的資源描述者和組織者。基于標簽的高校學術資源推薦系統(tǒng)更好地體現(xiàn)了以用戶為中心的理念,是數(shù)字圖書館門戶的發(fā)展趨勢。
推薦系統(tǒng)的功能根據(jù)用戶的偏好,智能地從海量信息資源中篩選出少量體現(xiàn)用戶偏好的資源推薦給用戶。標簽(Tag)是一種無層次化結構的、用來描述信息的關鍵詞,對資源對象加標簽是一種用戶標注行為,標簽是用戶為資源賦予的一種元數(shù)據(jù),它幫助用戶輕松地描述和分類內(nèi)容,以便于檢索和分享,其作用等同于傳統(tǒng)資源描述方法中的類名或關鍵詞等元數(shù)據(jù)。標簽將數(shù)字資源的組織權利從網(wǎng)站管理者下放到用戶手中,充分體現(xiàn)了Web2.0自下而上,以用戶為中心的特點,在信息檢索等領域中起著重要作用。[1]將標簽應用于資源的推薦,一方面是讓作者或專家給資源打標簽,并向用戶推薦相關標簽,或者通過用戶自己對資源打標簽,挖掘用戶的潛在興趣,建立用戶偏好模型;另一方面標簽將資源分類聚類,在不同學科類別下為用戶生成有針對性的資源推薦,它可以避免傳統(tǒng)協(xié)同過濾方法的興趣模型單一的問題,能夠及時、準確地為用戶推薦能體現(xiàn)用戶偏好的資源。
協(xié)同過濾是在信息過濾和信息系統(tǒng)中應用較廣的技術,它認為興趣偏好相近的用戶對同一資源或相近資源具有相似的興趣偏好,通過分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價或標注,形成系統(tǒng)對該指定用戶對此信息的喜好程度預測,達到用群體去預測個體,充分挖掘群體的智慧而為個體服務的效果。[2]
標簽標注讓用戶共同參與資源的描述,相當于無成本地增加了資源的描述者。同時,用戶對資源的標注又體現(xiàn)了用戶對資源的興趣,也有利于系統(tǒng)從用戶的角度獲取資源的語義。基于標簽和協(xié)同過濾算法的推薦充分考慮到標簽和用戶之間、用戶和用戶之間、用戶和資源之間的關系,用戶的潛在興趣被挖掘出來,使推薦的資源范圍更廣、更豐富。
2.1 實現(xiàn)系統(tǒng)的工具與數(shù)據(jù)庫建立
系統(tǒng)運行于Windows 2003 Server操作系統(tǒng),采用B/S結構,編程語言采用ASP.NET,在SQL Server2000數(shù)據(jù)庫管理平臺上建立數(shù)據(jù)庫,建立用戶信息表、標簽表、標簽分類表、標簽與資源關系表等。
2.2 數(shù)據(jù)庫接口配置
本系統(tǒng)以高校數(shù)字圖書館的門戶網(wǎng)站為入口,將用戶標簽添加到傳統(tǒng)類型OPAC系統(tǒng)等提供的檢索接口的選項中,將其與外部系統(tǒng)之間的接口通過properties配置文件實現(xiàn),命名為DBConfig.properties文件,該文件的信息以鍵值對的形式保存,其包含的部分鍵見表。
表 DBConfig.properties文件包含的鍵說明
2.3 系統(tǒng)模塊
本著高內(nèi)聚、低耦合的設計理念,從數(shù)據(jù)與業(yè)務邏輯的獨立性考慮,系統(tǒng)模塊的劃分如圖。
圖 系統(tǒng)模塊劃分
(1)系統(tǒng)的設計思想是將用戶標簽添加到傳統(tǒng)類型OPAC系統(tǒng)等提供的檢索接口的選項中,使用戶標簽與資源標題、主題詞等檢索選項集成在一起。在資源檢索頁面,用戶通過點擊鏈接就能進行資源標注,系統(tǒng)將用戶標注的標簽信息存入數(shù)據(jù)庫。而在資源推薦頁面,系統(tǒng)則利用用戶標注的標簽以及標簽標注的歷史數(shù)據(jù),采用協(xié)同過濾算法推薦資源。協(xié)同過濾的算法分為兩大類:一類是基于用戶的協(xié)同過濾算法,另一類是基于物品的協(xié)同過濾算法。[3]本系統(tǒng)綜合以上算法,將標簽這一非常特殊的元數(shù)據(jù)應用于協(xié)同過濾方法。因而,系統(tǒng)的實現(xiàn)涉及以下幾個關鍵技術與算法。
3.1 利用標簽數(shù)據(jù)實現(xiàn)基于用戶的協(xié)同過濾算法
(1)基于用戶-標簽相關性矩陣挖掘用戶的興趣,采用最近鄰居的方法,找到和目標用戶興趣相似的用戶集合。
第一步,計算兩個用戶的興趣相關度。這里利用用戶對資源標注的標簽計算用戶興趣相關度。以用戶U和用戶Ⅴ為例,N(u)和N(v)分別表示用戶U和用戶Ⅴ曾經(jīng)做過標注的標簽集合,通過余弦相似度可以計算用戶U和用戶Ⅴ的興趣相似度:
第二步,重復選擇另一個用戶和用戶U標簽相關性向量,直到獲得用戶U與所有用戶的相似度集合WN。
以上步驟可用如下代碼實現(xiàn):
(2)采用Top-N方法,從集合WN中選取前K個相似度高的作為最近鄰居,得到和用戶U興趣最接近的鄰居集合S(U,K),使用相似用戶Ⅴ預測目標用戶未使用的標簽,選取相關性居前的標簽標注的資源推薦給目標用戶,如下公式計算了用戶U對標簽i的感興趣程度:
其中N(i)是對標簽i有過標注行為的用戶集合,wuv是用戶U和用戶Ⅴ的興趣相似度,rvi代表用戶Ⅴ對物品i的興趣,因為使用的是單一行為的隱反饋數(shù)據(jù),所以rvi=1。
3.2 利用標簽關聯(lián)度實現(xiàn)基于資源的協(xié)同過濾算法
在資源推薦系統(tǒng)中,標簽是對資源的描述與分類,多數(shù)用戶對多個相同標簽的關注從一定程度上反映了標簽的關聯(lián)性,即資源的關聯(lián)性。關注資源A的用戶大多也會關注資源B,反映了資源A與資源B的關聯(lián)性。[3]例如,關注“知識發(fā)現(xiàn)”的用戶,多數(shù)也會關注“關聯(lián)數(shù)據(jù)”,而這兩個標簽所描述的資源就正好存在關聯(lián)性?;谫Y源的協(xié)同過濾算法,正是利用標簽關聯(lián)度來推斷資源之間的關聯(lián)性,從而推薦關聯(lián)度較高的資源給用戶。
該算法通過如下兩個步驟實現(xiàn)。
(1)計算標簽之間的關聯(lián)度。在協(xié)同過濾中兩個標簽產(chǎn)生關聯(lián)是因為它們共同被很多用戶喜歡并加以標注,所以關聯(lián)度的計算可以參考計算用戶興趣度的公式。(2)根據(jù)標簽的關聯(lián)度和用戶的標注行為生成推薦列表,選取目標用戶未使用的標簽且相關性居前的標簽標注的資源推薦給目標用戶。
3.3 給用戶推薦標簽,提高標簽準確度
給用戶推薦標簽具有兩方面的意義:第一,讓用戶從鍵盤輸入標簽會增加用戶打標簽的難度,有些用戶會不愿意打標簽,給用戶推薦標簽可以減小用戶打標簽的難度,提高用戶打標簽的積極性和參與度。第二,同一個語義不同的用戶可能用不同的詞語來表示,多個同義詞會使詞表增大,而且也使計算相似度準確度降低,通過推薦標簽對詞表進行選擇,可剔除較多的同義詞,并能夠保證出現(xiàn)的詞都是比較熱門且具有代表性的詞。
標簽推薦算法的實現(xiàn)可以考慮兩種方法:第一種方法是給用戶U推薦資源i中最熱門的標簽;第二種方法是給用戶U推薦他自己經(jīng)常使用的標簽。[4]為了提高算法的全面性,可以將這兩種方法融合起來,通過一個系數(shù)將前面兩種方法推薦結果線性加權,生成最終的推薦結果。如下代碼可實現(xiàn)這兩種方法的融合。
return sorted(ret[user].items(),key=itemgetter(1),reverse=True)[0:N]
學術資源推薦系統(tǒng)引入標簽,并將標簽應用于協(xié)同過濾方法中,采用基于用戶的協(xié)同過濾算法和基于關聯(lián)資源的協(xié)同過濾算法相互結合的方式,既體現(xiàn)了用戶的興趣點和關注點,也考慮到資源之間的關聯(lián)性,使推薦的資源更具個性化和全面性。
基于標簽的學術資源推薦系統(tǒng)是一種新的信息資源組織模式,它體現(xiàn)了高校圖書館以用戶為中心的服務模式,強調(diào)用戶體驗的個性化與多樣化,可以更好地為高校師生提供個性化的信息服務。
[1]百度百科.http://baike.baidu.com/link?url=7ShWixsCp OhGNlrdQb1K80wtGjJukhCyDuFCG0u7d1cWY6hⅤ18 XoGmYfG7z3mA92.
[2]張新猛,蔣盛益.基于協(xié)同過濾的網(wǎng)絡論壇個性化推薦算法[J].計算機工程,2012(5):67-69.
[3]常唯.標簽在數(shù)字學術資源內(nèi)容揭示中的作用研究[J].圖書館雜志,2007(1):46-52.
[4]Breese J,Heckerman D.Empirical analysis of predictive algorithms for collaborative filtering[C]//Proceedingsof the14th conferenceonuncertainly inartificial intelligence.Madison,Wisconsin,1998:43-52.
G250.76;G252.8
A
1005-8214(2014)09-0080-03
鐘克吟(1980—),女,廣東肇慶學院圖書館館員、高級程序員,研究方向:圖書館網(wǎng)站信息資源建設、數(shù)據(jù)庫建設等。
2013-09-25[責任編輯]王鈞梅
本文系2011年廣東肇慶學院教學研究項目“以用戶為中心的高校圖書館門戶網(wǎng)站構建研究”(項目編號:jy201131)研究成果之一。