基于特征加權(quán)張量分解的標(biāo)簽推薦算法研究

2015-01-17 02:07:20孫玲芳馮遵倡

江蘇科技大學(xué)學(xué)報(自然科學(xué)版) 2015年6期

關(guān)鍵詞：張量標(biāo)簽協(xié)同

孫玲芳，馮遵倡

(1.泰州學(xué)院計算機科學(xué)與技術(shù)學(xué)院，江蘇泰州225300)

(2.江蘇科技大學(xué)計算機科學(xué)與工程學(xué)院，江蘇鎮(zhèn)江212003)

基于特征加權(quán)張量分解的標(biāo)簽推薦算法研究

孫玲芳1，馮遵倡2

(1.泰州學(xué)院計算機科學(xué)與技術(shù)學(xué)院，江蘇泰州225300)

(2.江蘇科技大學(xué)計算機科學(xué)與工程學(xué)院，江蘇鎮(zhèn)江212003)

針對標(biāo)簽推薦系統(tǒng)存在極度稀疏性的問題，通過提取標(biāo)注過程的關(guān)鍵特征并計算元組的初始權(quán)重，構(gòu)建加權(quán)元組集的張量模型;然后應(yīng)用高階奇異值分解(high order singular value decomposition，HOSVD)對張量模型降維，根據(jù)處理結(jié)果作標(biāo)簽推薦，從而達到提高推薦效率的目的;運用MovieLens數(shù)據(jù)集對基于特征加權(quán)張量分解的標(biāo)簽推薦算法進行了模擬，實驗結(jié)果表明:基于特征加權(quán)張量分解的標(biāo)簽推薦算法比傳統(tǒng)算法推薦效果更好。該方法能夠有效改善數(shù)據(jù)稀疏性問題，提高了推薦效率.

大眾標(biāo)注;標(biāo)簽推薦;張量分解;特征加權(quán);高階奇異值分解

隨著WEB2.0的快速發(fā)展，網(wǎng)絡(luò)中社會標(biāo)簽(Social Tags)數(shù)據(jù)越來越多，大量標(biāo)簽數(shù)據(jù)處于無控制狀態(tài)，存在冗余性和概念上的模糊性等問題，影響了大眾標(biāo)注系統(tǒng)的進一步發(fā)展.標(biāo)簽推薦(tag recommendation)是大眾標(biāo)注系統(tǒng)的重要應(yīng)用之一，它能夠簡化標(biāo)注過程，為用戶提供個性化的標(biāo)簽并很好地控制數(shù)據(jù)的冗余性和模糊性［1］.

為解決標(biāo)簽推薦系統(tǒng)存在數(shù)據(jù)極度稀疏性的問題，張量分解方法越來越多地被應(yīng)用到標(biāo)簽推薦系統(tǒng)中.文獻［2］中首先將張量應(yīng)用于社會標(biāo)簽系統(tǒng)中，利用其能夠完整地表示高維數(shù)據(jù)并且能維持高維空間數(shù)據(jù)的本征結(jié)構(gòu)信息等特點來進行標(biāo)簽預(yù)測.文獻［3］中嘗試將K-means聚類與張量分解結(jié)合起來建立張量模型，既保證了數(shù)據(jù)初始聚合性又可以改善數(shù)據(jù)的稀疏性.然而，在現(xiàn)有國內(nèi)外研究成果中，忽略了一些標(biāo)注過程的重要特征.例如，用戶使用不同標(biāo)簽的頻率體現(xiàn)了標(biāo)簽在其心目中的重要程度;用戶標(biāo)注不同資源的頻率體現(xiàn)了用戶的興趣大小.這些特征的忽略多少影響了推薦的個性化程度和準(zhǔn)確度.

在此基礎(chǔ)上，文中介紹了一種基于特征加權(quán)張量分解的標(biāo)簽推薦算法.首先提取標(biāo)注過程中體現(xiàn)用戶興趣的重要特征進行加權(quán)，然后結(jié)合張量分解方法建立模型.在解決數(shù)據(jù)稀疏性問題的同時，提供更加準(zhǔn)確和個性化的標(biāo)簽推薦.最后以MovieLens數(shù)據(jù)集對該方法進行檢驗.

1 大眾標(biāo)注與標(biāo)簽

大眾標(biāo)注(Folksonomy)又被稱作大眾分類、通俗分類，是在WEB2.0環(huán)境下伴隨標(biāo)簽(Tag)技術(shù)的出現(xiàn)而產(chǎn)生的新型網(wǎng)絡(luò)信息組織方式.大眾標(biāo)注允許用戶對網(wǎng)絡(luò)信息資源添加標(biāo)簽以方便對其進行管理和組織，并且可以和他人共享標(biāo)注［4］.大眾標(biāo)注不采用嚴(yán)格的分類標(biāo)準(zhǔn)，分類全部由用戶提交，分類的形成過程是完全自發(fā)的，因此具備:①平面化、非等級的類目結(jié)構(gòu);② 低成本的信息組織方式;③多維度揭示信息資源等優(yōu)勢［5］.隨著WEB2.0的發(fā)展，大眾標(biāo)注以其獨特的優(yōu)勢得到廣泛的研究和應(yīng)用，國外著名網(wǎng)站有Del.icio.us，F(xiàn)lickr，CiteUlike等，國內(nèi)較受歡迎的有新浪微博、豆瓣等.圖1給出了一則豆瓣電影標(biāo)簽示例，網(wǎng)頁不僅包括電影基本信息，還顯示用戶常用的標(biāo)簽以供其他用戶選擇.

圖1 豆瓣電影示例Fig.1 Example of movie.douban.com

與傳統(tǒng)結(jié)構(gòu)的“用戶—資源”二元組關(guān)系不同，大眾標(biāo)注包括3個重要組成部分，即用戶(User)、資源(Item)和標(biāo)簽(Tag).標(biāo)簽是用戶根據(jù)各自需求、偏好對感興趣資源的注釋，是用戶為資源添加的自定義關(guān)鍵詞［6］.用戶可以為資源標(biāo)注一個或者多個標(biāo)簽，也可以看到網(wǎng)絡(luò)上的具有相同標(biāo)簽的網(wǎng)絡(luò)資源，并以此建立與其他客戶更貼心的聯(lián)系和溝通.因此標(biāo)簽體現(xiàn)出了群體的力量，它進一步增強了網(wǎng)絡(luò)資源之間的相關(guān)性和用戶之間的交互性，讓互聯(lián)網(wǎng)用戶接觸到一個更加多樣化的世界，一個關(guān)聯(lián)度更大的網(wǎng)絡(luò)資源.社會標(biāo)簽是標(biāo)簽的進一步延伸和擴展，當(dāng)標(biāo)簽在信息關(guān)聯(lián)中被大眾關(guān)注和使用時，標(biāo)簽就具有了社會意義，從而轉(zhuǎn)化為社會標(biāo)簽［7］.

由大眾標(biāo)注過程可以看出，標(biāo)注過程主要涉及到4個方面的內(nèi)容:資源、標(biāo)簽、用戶以及三者之間的交互關(guān)系.因此將大眾標(biāo)注形式化定義為一個四元組［7］:F(U，I，T，A)，其中U為所有用戶的集合; I為所有資源的集合;T為所有標(biāo)簽的集合，A?T ×U×I是T，U，I之間的交互關(guān)系，它是三元組(T，U，I)的集合，表示用戶u使用標(biāo)簽t標(biāo)注資源i.

2 標(biāo)簽推薦及其分類

標(biāo)簽推薦是大眾標(biāo)注系統(tǒng)重要應(yīng)用之一，它通過挖掘分析信息資源的內(nèi)容、用戶的標(biāo)注歷史等為待標(biāo)注信息資源提供一系列高質(zhì)量的標(biāo)簽作為候選［8］.目前國內(nèi)外應(yīng)用較為廣泛的標(biāo)簽推薦技術(shù)主要分為兩類:基于協(xié)同過濾的標(biāo)簽推薦和基于內(nèi)容的標(biāo)簽推薦.

2.1 基于協(xié)同過濾的標(biāo)簽推薦

協(xié)同過濾是面向用戶行為的標(biāo)簽推薦技術(shù)，是迄今最為成熟、應(yīng)用最廣泛的推薦技術(shù).它基于一組相似的用戶或項目進行推薦，根據(jù)相似用戶的偏好信息產(chǎn)生對目標(biāo)用戶的推薦列表［14］.根據(jù)考慮對象的不同，協(xié)同過濾算法又可以分為基于用戶的協(xié)同過濾和基于項目的協(xié)同過濾.

基于用戶的(User-based)協(xié)同過濾算法是根據(jù)與當(dāng)前用戶相似的用戶信息預(yù)測產(chǎn)生對當(dāng)前用戶的推薦標(biāo)簽.它基于這樣一個假設(shè):如果一些用戶對某一類項目的推薦結(jié)果比較接近，則他們對其他類項目的推薦結(jié)果也比較接近.首先查找與當(dāng)前用戶相似的用戶，然后根據(jù)這些用戶的標(biāo)簽信息去預(yù)測當(dāng)前用戶的標(biāo)簽信息.基于用戶的協(xié)同過濾算法核心在于用戶之間的相似度計算，常用方法有向量空間相似度和Pearson相關(guān)系數(shù)等［15］.

基于項目的(Item-based)協(xié)同過濾是根據(jù)用戶對相似項目的推薦結(jié)果產(chǎn)生對當(dāng)前項目的推薦標(biāo)簽，它基于如下假設(shè):如果用戶對相似項目的推薦結(jié)果相近，則用戶對當(dāng)前項的推薦結(jié)果也會比較接近.基于項目的協(xié)同過濾算法核心在于項目之間的相似性計算，然后返回K個相似度最大的項目的標(biāo)簽［16-17］.

以基于用戶的協(xié)同過濾為例，協(xié)同過濾算法的計算過程如下:

1)獲取用戶ua和用戶us評價過的相同項目，即兩個項目集的交集，定義為項目集合Ia，s.

2)在Ia，s中，計算目標(biāo)用戶ua和用戶us之間評分向量的相似度Sa，s.常用的相似度度量公式有以下3種［13］:

余弦相似度

相關(guān)性相似度，即Pearson相關(guān)系數(shù)

式中，Ra，Rs分別為用戶ua和us對已評價項目的評分均值.Jaccard相關(guān)系數(shù)

式中，Ia和Is分別為用戶ua和us評價過的項目.Jaccard相關(guān)系數(shù)的計算就是用兩個用戶共同評價過的項目總數(shù)除以兩個用戶分別評價過的項目數(shù)的總和.

3)重復(fù)進行第1步和第2步，直至得到ua和所有用戶的相似度集合Sa，并使用Top-N方法得到最臨近集合UN.

4)預(yù)測用戶ua可能對未評價項目ij的評分，公式如下:

式中，Uj為評價過項目ij的用戶集合.

5)重復(fù)上一步，直至得到用戶ua對所有未評價項目的預(yù)測值集合Pa.然后采用Top-N方法，從集合Pa中選取前N個最高評分的項目推薦給用戶.

協(xié)同過濾推薦的優(yōu)點，如非結(jié)構(gòu)化信息處理、個性化推薦以及自動化程度高等.但同時也暴露了一些缺點，如稀疏性問題、冷啟動問題、實時性問題等［12］.

基于內(nèi)容的標(biāo)簽推薦是標(biāo)簽推薦的基本方法，是以文檔的內(nèi)容作為標(biāo)簽推薦的依據(jù)，一般使用文本內(nèi)容，如新聞網(wǎng)頁、博客等.該方法通常包括3個步驟:首先提取文本內(nèi)容特征建立模型，然后比較已有標(biāo)簽與內(nèi)容特征之間的相似度，得出有序的標(biāo)簽推薦候選集，最后選出相似度最大的前N個標(biāo)簽，推薦給用戶［7］.

使用基于內(nèi)容的方法作標(biāo)簽推薦首先考慮內(nèi)容特征粒度問題，即用什么粒度的特征來表示文本內(nèi)容，作為標(biāo)簽推薦的依據(jù).

詞匯是一種表示文本內(nèi)容的細粒度特征.當(dāng)新的資源被提交時，推薦算法首先從文本內(nèi)容中抽取關(guān)鍵詞，找出關(guān)鍵詞與已有標(biāo)簽之間的相似度，根據(jù)相似度選擇前N個標(biāo)簽推薦給用戶.關(guān)鍵詞和標(biāo)簽的相關(guān)性計算有許多方法，最簡單直觀的是計算關(guān)鍵詞和標(biāo)簽共同出現(xiàn)的次數(shù)占所有情況的比例.但是，由于標(biāo)簽的稀疏性，直接使用該方法可能使得相似性無法計算.因此，使用改進的Google距離公式［8］計算描述詞和標(biāo)簽的相關(guān)性.

式中:f(w)，f(t)分別為關(guān)鍵詞和標(biāo)簽在詞集和標(biāo)簽集的并集中出現(xiàn)的次數(shù);f(w，t)為關(guān)鍵詞和標(biāo)簽同時出現(xiàn)在并集中的次數(shù);N為并集總計詞數(shù).

隱含主題是表示文本內(nèi)容的粗粒度特征.在基于隱含主題的方法中，不再考慮單個詞匯與標(biāo)簽之間的關(guān)系，而是將整個文本看作不同主題的混合，通過抽取文本與標(biāo)簽集的主題特征，找出兩者之間的相似度，根據(jù)相似度，選擇前N個標(biāo)簽推薦給用戶.應(yīng)用最廣泛的是隱含狄利克雷分配模型(latent dirichlet allocation，LDA)［9］.LDA模型最早是由Blei等人提出的無監(jiān)督的概率圖模型，它將文本表示為K個隱含主題上的一個分布，而文本中的每個詞是由一個不可觀察的隱含主題生成，這些隱含主題則是從文本對應(yīng)的分布中采樣得到.標(biāo)準(zhǔn)LDA模型的建模對象是文本中的詞，為把標(biāo)簽引入LDA模型，同時建模文本資源的詞匯集和標(biāo)簽集.文獻［8］中對Author-Topic模型作改進，提出了新的模型Tag Topic來進行標(biāo)簽的推薦.標(biāo)簽的概率計算如下: PTT(ti|Tr)=Σzj=1p(ti|zi=j)p(zi=j|(Tr∪Dr))=

3 基于特征加權(quán)張量分解的標(biāo)簽推薦

3.1 計算元組的初始權(quán)重

在標(biāo)簽推薦系統(tǒng)中，用戶的標(biāo)注過程在一定程度上反映了用戶的興趣.注意到這樣兩個特征:用戶使用特定標(biāo)簽進行標(biāo)注的次數(shù)越多，表明用戶對此標(biāo)簽的興趣越大;用戶對特定資源進行標(biāo)注的次數(shù)越多，表明用戶對此資源的興趣越大.因此，用戶的興趣度就通過元組集中標(biāo)簽和資源出現(xiàn)的頻率得以表現(xiàn)［10］.據(jù)此特征為元組的初始權(quán)重進行加權(quán)計算，經(jīng)過標(biāo)準(zhǔn)化處理之后，元組ti的權(quán)重T表示為:

式中:fu1(ti)為用戶u使用標(biāo)簽ti的頻數(shù);fu1為用戶u的標(biāo)簽總頻數(shù);fu2(ri)為用戶u標(biāo)注資源ri的頻數(shù);fu2為用戶的資源總頻數(shù);0.5為調(diào)節(jié)因子.

坡度空間數(shù)據(jù)由DEM數(shù)據(jù)在ArcGIS 9.3中，通過Slope功能生成。曼寧系數(shù)空間數(shù)據(jù)利用ArcGIS 9.3將查閱文獻獲得的曼寧系數(shù)屬性數(shù)據(jù)（表1）與土地覆蓋類型空間數(shù)據(jù)相關(guān)聯(lián)生成。土壤飽和導(dǎo)水率與土壤儲水能力，通過結(jié)合土壤類型組成及其土壤剖面等屬性數(shù)據(jù)，借助于土壤水分運動參數(shù)模型RETC推導(dǎo)獲得，空間數(shù)據(jù)在ArcGIS 9.3下通過建立土壤水分運動參數(shù)與土壤類型空間數(shù)據(jù)之間的關(guān)聯(lián)生成。

3.2 初始三維張量的構(gòu)建

基于用戶標(biāo)注關(guān)系，根據(jù)加權(quán)三元組集(user，item，tag)構(gòu)建三維張量A∈Ru×i×t，使用p表示三元組的初始權(quán)重，其大小代表二元組(user，item)對tag的喜好程度，使用u，t和i分別表示用戶、標(biāo)簽和資源的字序標(biāo)識.

3.3 張量分解和重構(gòu)

對張量A進行高階奇異值分解，首先需要將張量進行矩陣展開，也就是將張量按照不同的維度(n-mode)重新排列成新的矩陣［11］.文中張量為三維張量，因此根據(jù)定義將張量A的三個維度分別展開，可構(gòu)成張量1-模、2-模、3-模展開式A1，A2，A3分別如下:

3.3.1 奇異值分解(SVD)

接下來對得到的展開矩陣分別作奇異值分解，通過奇異值分解，得到由矩陣An的奇異值組成的對角矩陣S(n).具體分解如下:

張量分解過程中，最重要的是矩陣的低秩逼近計算，即對矩陣An的奇異值進行刪減(保留前c個較大的奇異值，且滿足c＜min{I1，I2}，其中c可以通過實驗保留對角陣si(1≤i≤3)中原始信息的百分比來確定.低秩逼近能夠很好地過濾掉由小的奇異值引起的噪聲，從而達到降噪的目的.

3.3.2 高階奇異值分解

高階奇異值分解是奇異值分解(high order singulr value decomposition，HOSVD)［18］在張量中的推廣，張量的高階奇異值分解是指將張量分解成與其大小相同的核心張量和多個矩陣的乘積形式.本文中，將三維張量A高階奇異值分解表示為:

式中，核心張量S∈RIu×It×Ii是一個與張量A維數(shù)相同的正交張量，確定了實體user，item和tag之間的交互關(guān)系.S的數(shù)學(xué)表達式為:

最后，由于張量數(shù)據(jù)中存在大量噪聲，張量A并不具備低秩性，需要通過HOSVD構(gòu)造張量A的近似張量^A.重構(gòu)張量^A的數(shù)學(xué)表達式如下:

4 實驗及結(jié)果分析

4.1 數(shù)據(jù)集

文中采用Mevie Lens標(biāo)簽數(shù)據(jù)集進行模擬分析(表1).該網(wǎng)站是歷史最悠久的推薦系統(tǒng)，由美國明尼蘇達大學(xué)計算機科學(xué)與工程學(xué)院的GroupLens項目組創(chuàng)辦，是一個非商業(yè)性質(zhì)的，以研究為目的的實驗性站點，主要用途是向用戶推薦他們感興趣的電影.該數(shù)據(jù)集包含37個用戶，671部電影及1 120個標(biāo)簽，共2 287個標(biāo)注元組.實驗過程中，將數(shù)據(jù)集劃分為訓(xùn)練集和測試集，其中75%為訓(xùn)練集，25%為測試集.

表1 部分Movie lens數(shù)據(jù)Table 1 Data from Movie lens

4.2 評估標(biāo)準(zhǔn)

文中采用準(zhǔn)確率Precision和召回率Recall來評估推薦算法的準(zhǔn)確性和有效性，這兩個評估指標(biāo)定義如下:

準(zhǔn)確率

式中，test和N分別代表測試集的大小和推薦的數(shù)目，準(zhǔn)確率和召回率分別表示算法成功推薦的比率和待推薦項目被推薦的比率［3］.可見，這兩個指標(biāo)是沖突的，為尋找二者之間的平衡點，設(shè)定測度值F，F(xiàn)越大說明推薦效果越好:

式中，P和R分別為準(zhǔn)確率和召回率.

4.3 結(jié)果分析

實驗過程中，為比較算法性能，文中采用經(jīng)典的協(xié)同過濾算法進行對比，兩種方法采用相同的數(shù)據(jù)集和評估標(biāo)準(zhǔn).計算初始權(quán)重時將調(diào)節(jié)因子設(shè)為0.5以避免出現(xiàn)負數(shù)或較小的數(shù)值，在作低秩逼近計算過程中，經(jīng)過數(shù)次測試調(diào)節(jié)，將參數(shù)ci(1≤i≤3)分別設(shè)置為40，56，56.另外，按照數(shù)據(jù)集標(biāo)簽的數(shù)量特征，實驗中top-N值分別取2，4，6，8和10進行對比分析，計算結(jié)果如表2，3，兩種算法性能比較如圖2.

表2 文中算法推薦結(jié)果Table 2 Recommended results in this paper

表3 協(xié)同過濾算法推薦結(jié)果Table 3 Recommended results of collaborative filtering algorithm

圖2 兩種算法性能比較Fig.2 Comparison of performances of two algorithms

綜上所示，文中介紹算法所得F值在不同top-N值時均比協(xié)同過濾算法要大，而且隨著N的增大，F(xiàn)值呈上升趨勢，文中推薦算法最大值可達到0.38，而協(xié)同過濾算法得到的最大值略高于0.29.由此可以看出，基于特征加權(quán)張量分解的標(biāo)簽推薦算法比傳統(tǒng)算法推薦效果更好.

5 結(jié)論

大眾標(biāo)注系統(tǒng)中的標(biāo)注數(shù)據(jù)稀疏性非常嚴(yán)重，并且會時常出現(xiàn)缺失情況，張量分解是用來解決數(shù)據(jù)稀疏性問題的常用手段，但是由于算法相對復(fù)雜，處理稀疏性和缺失值的效果不甚理想.另外，傳統(tǒng)張量分解算法對所有元組數(shù)據(jù)均一視同仁，采用相同的初始權(quán)重值，無法有效區(qū)分用戶標(biāo)注的重要特征.

文中的基于特征加權(quán)的張量分解算法，提取用戶標(biāo)注的重要特征，在張量分解算法基礎(chǔ)上對元組初始權(quán)重進行改進，通過不同權(quán)重值反映用戶的興趣所在;同時使用相同數(shù)據(jù)集和評估標(biāo)準(zhǔn)與經(jīng)典協(xié)同過濾算法推薦結(jié)果進行了比較，實驗結(jié)果表明基于特征加權(quán)張量分解的標(biāo)簽推薦算法的推薦效果更好.

References)

［1］許棣華，王志堅，林巧民，等.一種基于偏好的個性化標(biāo)簽推薦系統(tǒng)［J］.計算機應(yīng)用研究，2011，28 (7):2573-2579.Xu Dihua，Wang Zhijian，Lin Qiaomin，et al.Personalized tag recommendation system based on preferences［J］.Application Research of Computers，2011，28 (7):2573-2579.(in Chinese)

［2］Symeonidis P，Nanopoulos A，Manolopoulos Y.Tag recommendations based on tensor dimensionality reduction［C］∥Proceedings of the 2008 ACM Conference on Recommender Systems.New York，NY，USA:ACM，2008: 43-50.

［3］孫玲芳，李爍朋.基于K-means聚類與張量分解的社會化標(biāo)簽推薦系統(tǒng)研究［J］.江蘇科技大學(xué)學(xué)報(自然科學(xué)版)，2012，26(6):597-601.Sun Lingfang，Li Shuopeng.Social tagging recommendation system based on K-means cluster and tensor decomposition［J］.Journal of Jiangsu University of Science and Technology(Natural Science Edition)，2012，26(6):597-601.(in Chinese)

［4］喬綠茵，張敏.我國基于Folksonomy的標(biāo)簽推薦方法研究綜述［J］.信息資源管理學(xué)報，2012(4):41 -46.Qiao Lvyin，Zhang Min.Review of tag recommendation method on folksonomy in China［J］.Journal of Information Resources Management，2012(4):41-46.(in Chinese)

［5］余金香.Folksonomy及其國外研究進展［J］.圖書情報工作，2007，51(7):38-74.Yu Jinxiang.Folksonomy and related research progress in some advanced countries［J］.Library and Information Service，2007，51(7):38-74.(in Chinese)

［6］吳思竹.社會標(biāo)注系統(tǒng)中標(biāo)簽推薦方法研究進展［J］.圖書館雜志，2010，29(3):48-52.Wu Sizhu.Research on tag recommendation methods in the social tagging system［J］.Library Journal，2010，29(3):48-52(in Chinese)

［7］劉志麗.基于內(nèi)容的社會標(biāo)簽推薦技術(shù)研究［D］.哈爾濱:哈爾濱工程大學(xué)，2012.

［8］靳延安，李玉華，劉行軍.不同粒度標(biāo)簽推薦算法的比較研究［J］.計算機應(yīng)用研究，2012，29(2): 504-509.Jin Yan'an，Li Yuhua，Liu Xingjun.Comparative research on different grain-based tag recommendation algorithm［J］.Application Research of Computers，2012，29(2):504-509.(in Chinese)

［9］司憲策.基于內(nèi)容的社會標(biāo)簽推薦與分析研究［D］.北京:清華大學(xué)，2010.

［10］叢維強.基于數(shù)據(jù)倉庫和語義分析的社會標(biāo)簽推薦技術(shù)研究［D］.江蘇鎮(zhèn)江:江蘇科技大學(xué)，2014.

［11］李貴，王爽，李征宇等.基于張量分解的個性化標(biāo)簽推薦算法［J］.計算機科學(xué)，2015，42(2):267-273.Li Gui，Wang Shuang，Li Zhengyu，et al.Personalized tag recommendation algorithm based on tensor decomposition［J］.Computer Science，2015，42(2): 267-273.(in Chinese)

［12］王金輝.基于標(biāo)簽的協(xié)同過濾稀疏性問題研究［D］.合肥:中國科技大學(xué)，2011.

［13］萬朔.基于社會化標(biāo)簽的協(xié)同過濾推薦策略研究［D］.成都:電子科技大學(xué)，2010.

［14］張兵.基于標(biāo)簽的協(xié)同過濾推薦技術(shù)的研究［D］.杭州:浙江大學(xué)，2011.

［15］Symeonidis P，Nanopoulos A，Manolopoulos Y.A unified framework for providing recommendations in social tagging systems based on ternary semantic analysis［J］.IEEE Transactions on Knowledge and Data Engineering，2010(22):1-14.

［16］Sarwar B，Karypis G，Konstan J et al.Item-based collaborative filtering recommendation algorithms［C］∥Proceedings of the 10th International Conference on World Wide Web.New York:ACM，2001:285-295.

［17］Linden G，Smith B，York J.Anlazon.com recommendations:item-to-item collaborative filtering［J］.IEEE Internet Computing，2003，7(1):76-80.

［18］Harvey M，Baillie M，Ruthven I，et al.Tripartite hidden topic models for personalised tag suggestion［M］∥Advances in Information Retrieval.Berlin Heidelberg: Springer，2010:432-443.

［19］Jaschke R，Marinho L，Hotho A，et al.Tag recommendations in folksonomies［M］∥Knowledge Discovery in Databases:PKDD 2007.Berlin Heidelberg: Springer，2007:506-514.

［20］Lee S O K，Chun A H W.A web 2.0 tag recommendation algorithm using hybrid ANN semantic structures［J］.International Journal of Computers，2007，1:49 -58.

(責(zé)任編輯:童天添)

Tag recommendation algorithm based on feature weighting and tensor decomposition

Sun Lingfang1，F(xiàn)eng Zunchang2
(1.College of Computor Science and Technology，Taizhou University，Taizhou Jiangsu 225300，China)
(2.School of Computer Science and Engineering，Jiangsu University of Science and Technology，Zhenjiang Jiangsu 212003，China)

Aiming at the problem that the tag recommendation system is extremely sparse，the tensor model of weighted tuble set is constructed by extracting the key features of the tagging process and calculating the initial weights of the elements;Then，we use the high order singular value decomposition(HOSVD)to reduce the dimension of the tensor model，So that it can improve the recommendation efficiency;The MovieLens data set is used to simulate the tag recommendation algorithm based on feature weighting tensor decomposition.The experimental results show that the tag recommendation algorithm based on feature weighting tensor decomposition is better than the traditional algorithm.The proposed method can effectively deal with the data sparsity problem and improve the recommendation effect.

folksonomy;tag recommendation;tensor decomposition;feature weighting;HOSVD

TP39

1673-4807(2015)06-0574-06

10.3969/j.issn.1673-4807.2015.06.012

2015-08-04

泰州市科技支撐項目(TS201515);教育部人文社科基金資助項目(10YJAZH069);江蘇省“六大人才高峰”項目(2012XXRJ-013)

孫玲芳(1963—)，男，博士，教授，研究方向為計算機應(yīng)用技術(shù).E-mail:slf0308@163.com

孫玲芳，馮遵倡.基于特證加權(quán)張量分解的標(biāo)簽推薦算法研究［J］.江蘇科技大學(xué)學(xué)報(自然科學(xué)版)，2015，29(6):574-579.