葉 婷
(南京財(cái)經(jīng)大學(xué) 信息工程學(xué)院,南京 210046)
基于標(biāo)簽的評(píng)分信息熵推薦算法①
葉 婷
(南京財(cái)經(jīng)大學(xué) 信息工程學(xué)院,南京 210046)
由于標(biāo)簽是由用戶根據(jù)自己的理解和喜好隨意進(jìn)行標(biāo)注的因此存在大量的噪聲標(biāo)簽,導(dǎo)致基于標(biāo)簽的推薦系統(tǒng)準(zhǔn)確率不高.針對(duì)這種情況,提出了結(jié)合評(píng)分信息熵的標(biāo)簽推薦算法.算法通過(guò)判斷用戶在標(biāo)注標(biāo)簽的評(píng)分穩(wěn)定程度來(lái)確定該標(biāo)簽對(duì)于用戶的重要性從而過(guò)濾掉噪聲標(biāo)簽將重要標(biāo)簽賦予較高權(quán)重,并構(gòu)建用戶的興趣模型,最后應(yīng)用到協(xié)同過(guò)濾算法中產(chǎn)生推薦.該算法能有效地利用評(píng)分權(quán)重并結(jié)合信息熵來(lái)增強(qiáng)推薦準(zhǔn)確率,與以往的基于標(biāo)簽的推薦算法進(jìn)行對(duì)比,能獲得滿意的推薦效果.
標(biāo)簽; 評(píng)分信息熵; 興趣模型; 協(xié)同過(guò)濾; 推薦算法
隨著Internet的迅猛發(fā)展,人們的衣食住行交流溝通方面也漸漸離不開互聯(lián)網(wǎng)技術(shù).然而,互聯(lián)網(wǎng)中充斥著復(fù)雜多樣的信息,網(wǎng)絡(luò)信息過(guò)載的問(wèn)題也日益嚴(yán)重.不可否認(rèn),搜索引擎的出現(xiàn)和使用在很大程度上給用戶帶來(lái)了便利.它可以根據(jù)用戶設(shè)置的檢索條件進(jìn)行信息匹配,從而推送出相關(guān)信息返回給用戶.這種檢索過(guò)程要求用戶能夠明確地表達(dá)自己的信息需求,然而并不是所有的需求和偏好都能通過(guò)關(guān)鍵字來(lái)描述.傳統(tǒng)的搜索引擎技術(shù)已經(jīng)不能滿足用戶的搜索需要,因此個(gè)性化推薦技術(shù)孕育而生,且很好的緩解了信息過(guò)載問(wèn)題[1].
由社會(huì)化標(biāo)簽是用戶為方便自己使用對(duì)資源的概要描述,它不僅反映了用戶的喜好興趣,還可以反映被標(biāo)注的資源的特性,因此得到了學(xué)術(shù)界和產(chǎn)業(yè)界的重視.目前已有不少學(xué)者將社會(huì)化標(biāo)簽應(yīng)用到推薦系統(tǒng)中.Marimho等人[2]提出了基于用戶、資源、標(biāo)簽三元關(guān)分離三個(gè)二維二維矩陣,計(jì)算向量矩陣的相似度來(lái)求得與目標(biāo)用戶有相似興趣的其他用戶從而進(jìn)行推薦.Symeonidis[3]根據(jù)社會(huì)標(biāo)簽系統(tǒng)的用戶、項(xiàng)目、標(biāo)簽數(shù)據(jù)構(gòu)建三階張量模型,并結(jié)合聚類方法以減小張量維度從而簡(jiǎn)化推薦運(yùn)算.Jiang和Zhou等[4]為了提高基于標(biāo)簽的推薦性能,考慮結(jié)合時(shí)間因素以及社會(huì)關(guān)系信息從而優(yōu)化推薦結(jié)果.Cao J等[5]提出了一種新的半監(jiān)督學(xué)習(xí)算法,該算法先在少量標(biāo)注標(biāo)簽的用戶集中訓(xùn)練得到一個(gè)貝葉斯分類器,并融合混合型協(xié)同過(guò)濾算法提出Web服務(wù)的雙向推薦機(jī)制.以上研究多采用機(jī)器學(xué)習(xí)的相關(guān)算法,由于標(biāo)簽自身的語(yǔ)義模糊等特征且社會(huì)化系統(tǒng)中有大量的噪聲標(biāo)簽存在,導(dǎo)致最終的推薦結(jié)果不是很令人滿意.
盡管目前在社會(huì)化標(biāo)簽的推薦算法上已經(jīng)有很多研究,但大部分的研究多是考慮標(biāo)簽復(fù)雜的語(yǔ)義信息或是對(duì)標(biāo)簽進(jìn)行“一視同仁”的處理.然而,由于用戶的認(rèn)知水平、教育背景存在差異,對(duì)事物的理解也會(huì)有所差別,因此標(biāo)簽質(zhì)量的優(yōu)劣也不確定.由此可知,相同的標(biāo)簽對(duì)于不同的用戶來(lái)說(shuō)其重要程度也會(huì)有所不同.通常,如果一個(gè)標(biāo)簽多次被一個(gè)用戶用來(lái)標(biāo)記資源,則可認(rèn)為這個(gè)標(biāo)簽對(duì)這個(gè)用戶的重要程度很高.常用的計(jì)算標(biāo)簽權(quán)重的TF-IDF[6,7]方法就是利用特性將標(biāo)簽與其他用戶的標(biāo)簽區(qū)分開來(lái),如果該標(biāo)簽較少被其他用戶使用,那么該標(biāo)簽對(duì)于該用戶的意義就較大.然而,用戶對(duì)于標(biāo)簽的使用只是出于自身對(duì)于資源的理解,并不代表其對(duì)于該標(biāo)簽的喜愛,并且根據(jù)用戶對(duì)于標(biāo)簽標(biāo)注的資源打分不同,對(duì)于同一標(biāo)簽的喜愛程度也是不同的.
本文考慮引入標(biāo)簽信息熵的特征實(shí)現(xiàn)對(duì)標(biāo)簽區(qū)別對(duì)待,之前也有一些應(yīng)用信息熵的信息到推薦系統(tǒng)當(dāng)中.如Saneeha等[8]通過(guò)將用戶的興趣特征進(jìn)行層次聚類,通過(guò)計(jì)算用戶興趣特征對(duì)應(yīng)到各個(gè)類簇的比例從而確定各興趣項(xiàng)的熵權(quán)重.Harita等[9]通過(guò)用戶對(duì)電影數(shù)據(jù)是否感興趣程度分為1、0兩個(gè)類別繼而訓(xùn)練最大熵模型和標(biāo)簽特征并應(yīng)用到推薦系統(tǒng)中.Javier等[10]考慮結(jié)合標(biāo)簽的評(píng)分?jǐn)?shù)據(jù)來(lái)計(jì)算用戶興趣項(xiàng)的權(quán)重從而產(chǎn)生推薦.以上研究方法多是通過(guò)數(shù)據(jù)挖掘算法和大量的數(shù)據(jù)模型訓(xùn)練計(jì)算信息熵,或簡(jiǎn)單的結(jié)合評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶的興趣項(xiàng)權(quán)重,多是要求用戶主觀上將興趣項(xiàng)分類而不能通過(guò)算法自適應(yīng)地修正用戶的興趣項(xiàng)權(quán)重,最終推薦效果一般且耗費(fèi)大量時(shí)間.
因此本文提出了基于評(píng)分信息熵的用戶標(biāo)簽權(quán)重計(jì)算方法,通過(guò)衡量用戶對(duì)標(biāo)注標(biāo)簽的資源的打分不確定程度并結(jié)合歸一化的評(píng)分?jǐn)?shù)據(jù)綜合評(píng)價(jià)用戶標(biāo)簽權(quán)重,從而構(gòu)建用戶的基于標(biāo)簽的興趣模型,并應(yīng)用到推薦算法中.
在本文中,用戶的興趣模型是通過(guò)用戶的標(biāo)簽數(shù)據(jù)進(jìn)行構(gòu)建,并融合了用戶的評(píng)分、標(biāo)簽頻數(shù)、標(biāo)簽信息熵等特征計(jì)算興趣項(xiàng)的權(quán)重.其中,U=u1,u2,,u|U|定義為一組用戶,I= i1,i2,,i|I|定義為一組項(xiàng)目,T=t1,t2,,t|T|定義為標(biāo)注在項(xiàng)目的標(biāo)簽.總的來(lái)說(shuō),用戶對(duì)項(xiàng)目的評(píng)分可以體現(xiàn)用戶對(duì)其興趣度,用戶給項(xiàng)目打的標(biāo)簽體現(xiàn)了用戶對(duì)項(xiàng)目的理解,本文聯(lián)系用戶的評(píng)分?jǐn)?shù)據(jù)以及標(biāo)簽數(shù)據(jù)來(lái)計(jì)算興趣項(xiàng)權(quán)重從而協(xié)同過(guò)濾推薦.
定義1.(用戶—資源評(píng)分矩陣)定義為U*I矩陣R(U*I)=(Ri,j),其中U表示用戶集合,I表示資源集合,Ri,j為用戶u對(duì)資源i的評(píng)分.計(jì)算用戶標(biāo)簽權(quán)重前,先將每個(gè)用戶的評(píng)分歸一化即用戶u在資源i上標(biāo)簽t的評(píng)分權(quán)重表示為:
定義2.(信息熵)由于同一個(gè)標(biāo)簽可能會(huì)被標(biāo)注在不同的資源中,因此用戶對(duì)于同一個(gè)標(biāo)簽可能打分多次.因此給標(biāo)簽定義信息熵如下:
其中,Tu為用戶u使用的標(biāo)簽集合,wru,i(t)表示用戶u在標(biāo)注標(biāo)簽t上的資源打分,fu(t)表示用戶使用標(biāo)簽t標(biāo)注資源的頻數(shù).
由于標(biāo)簽和評(píng)分?jǐn)?shù)據(jù)都是用戶根據(jù)自己的理解喜好標(biāo)注的,所以可以很好的表達(dá)用戶的興趣.考慮社會(huì)化標(biāo)簽系統(tǒng)中存在一定的噪聲標(biāo)簽,因此通過(guò)計(jì)算標(biāo)簽的評(píng)分信息熵來(lái)修正標(biāo)簽的不確定表達(dá)從而增強(qiáng)準(zhǔn)確性.本文采用用戶的標(biāo)簽數(shù)據(jù)表示用戶興趣模型的興趣項(xiàng),并通分析用戶對(duì)于同一個(gè)標(biāo)簽的打分不確定程度確定標(biāo)簽的信息熵并結(jié)合評(píng)分從而計(jì)算標(biāo)簽興趣項(xiàng)的興趣權(quán)重,考慮將用戶對(duì)于標(biāo)注在同個(gè)資源的標(biāo)簽的打分穩(wěn)定性區(qū)別對(duì)待,從而能更加精確的表示用戶的興趣.最后將其興趣模型應(yīng)用到協(xié)同過(guò)濾算法當(dāng)中.
基于協(xié)同過(guò)濾的推薦算法需要得到與目標(biāo)用戶興趣相似的用戶集合,從而挖掘出這個(gè)集合中用戶喜歡的且沒有標(biāo)注過(guò)的資源.為了找到k近鄰相似用戶,我們定義用戶的相似度如下:
對(duì)于給定的用戶u∈U,與其相似度較大的k近鄰用戶定義如下:
對(duì)于給定用戶的k近鄰用戶,得出用戶u對(duì)于未標(biāo)注的資源i的預(yù)測(cè)興趣度定義如下:
則基于標(biāo)簽的評(píng)分信息熵推薦算法表述如下:
第 1步.結(jié)合用戶-評(píng)分-資源記錄,根據(jù)公式(1)計(jì)算用戶對(duì)于標(biāo)簽的評(píng)分權(quán)重并進(jìn)行歸一化處理.
第2步.結(jié)合用戶在標(biāo)簽上的不同打分?jǐn)?shù)據(jù)并計(jì)算其對(duì)應(yīng)的概率,根據(jù)公式(2)計(jì)算不同標(biāo)簽的信息熵值.
第3步.結(jié)合標(biāo)簽的信息熵值,根據(jù)公式(3)結(jié)合用戶的評(píng)分?jǐn)?shù)據(jù)修正用戶對(duì)于其標(biāo)簽的興趣度權(quán)重.
第4步.構(gòu)建用戶基于標(biāo)簽以及評(píng)分信息熵權(quán)重的興趣模型{(T1,W1),(T2,W2),…,(Tn,Wn)},其中 T1表示用戶的標(biāo)簽興趣項(xiàng),W1表示用戶對(duì)應(yīng)的評(píng)分信息熵權(quán)重.根據(jù)公式(4)計(jì)算用戶相似度,并構(gòu)造用戶的相似度矩陣SN*N.
第5步.基于用戶對(duì)資源的歷史記錄,根據(jù)用戶的相似度矩陣SN*N查詢用戶與其他用戶的相似度,并用公式(5)得到用戶的k近鄰用戶,依據(jù)公式(6)依次計(jì)算用戶與這些資源的預(yù)測(cè)興趣度.
第6步.按預(yù)測(cè)興趣度從大到小排序,取前N個(gè)資源組成 Top-N 推薦集合并輸出.其中算法的偽代碼如下.
表1 基于標(biāo)簽的評(píng)分信息熵推薦算法
本部分采用MovieLens和Delicious兩組數(shù)據(jù)集來(lái)測(cè)試算法的效率,具體數(shù)據(jù)集合見表2,數(shù)據(jù)集中的評(píng)分?jǐn)?shù)據(jù)大小在 0.5-5 之間,間隔 0.5,共 10 個(gè)分值.為了驗(yàn)證本文算法的有效性,將本文算法SE-CF與兩個(gè)較新的算法tensor-u[11]采用張量分解模型并考慮用戶標(biāo)簽的語(yǔ)義信息進(jìn)行推薦與colla-tv[12]結(jié)合TF-IDF算法以及用戶的評(píng)分矩陣進(jìn)行推薦和一個(gè)經(jīng)典的基于標(biāo)簽的推薦算法T-CF[13]進(jìn)行對(duì)比驗(yàn)證.
表2 數(shù)據(jù)集結(jié)構(gòu)
推薦算法實(shí)驗(yàn)中的重要組成部分之一就是推薦質(zhì)量的評(píng)價(jià)指標(biāo)計(jì)算,不同推薦算法的評(píng)價(jià)方法也會(huì)有所差別.在本文中,實(shí)驗(yàn)采取的評(píng)價(jià)指標(biāo)如下:
(1)準(zhǔn)確率(Precision)表示在用戶產(chǎn)生的推薦列表中,有多大比例的資源是用戶真正喜歡的,設(shè)R(u)指用戶在訓(xùn)練集上依據(jù)用戶的行為作出的推薦列表,T(u)表示用戶在測(cè)試集中的行為列表.則推薦結(jié)果的準(zhǔn)確率定義如下:
(2)召回率(Recall)表示用戶真正喜歡的商品中,有多大比例的商品進(jìn)入了推薦列表,其計(jì)算公式如下:
(3)F-measure,因?yàn)闇?zhǔn)確率和召回率在一定程度上是相互矛盾的,如果推薦的準(zhǔn)確率高可能意味著它的召回率會(huì)比較低,因此現(xiàn)在實(shí)驗(yàn)中多使用一個(gè)平衡以上兩種指標(biāo)的綜合評(píng)價(jià)方法即F-measure,其計(jì)算公式如下:
(1)確定鄰居數(shù)k的影響
本部分測(cè)試鄰居數(shù)k的值對(duì)協(xié)同過(guò)濾推薦結(jié)果的影響,其中設(shè)置k的值的變化從10到100,值變化間隔為10,將本文算法SE-CF與算法T-CF在度量標(biāo)準(zhǔn)Recall上進(jìn)行對(duì)比驗(yàn)證.在協(xié)同過(guò)濾算法中,鄰居用戶的數(shù)量k一定程度上影響著推薦精度,k如果太小將無(wú)法獲取足夠的候選資源集合,k如果太大也將增加計(jì)算成本以及時(shí)間消耗.設(shè)置不同的k值,實(shí)驗(yàn)結(jié)果的召回率也會(huì)隨之改變,其結(jié)果如圖1所示.
圖1 不同鄰居數(shù) k 值對(duì) Recall變化情況
從圖1可以看出,當(dāng)鄰居數(shù)k的值約為35時(shí),本算法SE-CF和T-CF算法的召回率基本相同,當(dāng)k>35時(shí),本算法SE-CF的召回率才高于T-CF算法.實(shí)驗(yàn)過(guò)程分析可得,經(jīng)典T-CF算法是基于用戶共同標(biāo)注的資源數(shù)目來(lái)確定用戶之間的相似度,而SE-CF算法是通過(guò)計(jì)算用戶標(biāo)簽的評(píng)分信息熵構(gòu)建用戶的標(biāo)簽興趣模型再計(jì)算兩用戶之間的相似程度,相似度的值與用戶共同標(biāo)注的資源數(shù)目沒有直接關(guān)聯(lián),因此可能存在兩個(gè)用戶相似度較大但共同標(biāo)注的資源很少的現(xiàn)象.如圖1所示,隨著鄰居用戶數(shù)目k的增大,SE-CF算法的召回率的上升速率要明顯高于經(jīng)典T-CF算法.另外,從圖中可以看出兩個(gè)算法的召回率在k=70左右趨于穩(wěn)定,k>70時(shí),二者的召回率上升速度都很緩慢,因此在后面的協(xié)同過(guò)濾算法比較中設(shè)置鄰居數(shù)k=70.
(2)實(shí)驗(yàn)對(duì)比驗(yàn)證
為了更好的驗(yàn)證實(shí)驗(yàn),本文采用五折交叉驗(yàn)證,每次隨機(jī)選取80%的實(shí)驗(yàn)數(shù)據(jù)集作為訓(xùn)練集,剩余20%數(shù)據(jù)為測(cè)試集,對(duì)五次結(jié)果取平均作為最終結(jié)果,同時(shí)考慮在Precision、Recall、F-measure三個(gè)度量標(biāo)準(zhǔn)進(jìn)行比實(shí)驗(yàn)驗(yàn)證.在本文算法中訓(xùn)練集用于計(jì)算用戶標(biāo)簽的評(píng)分信息熵以確定用戶標(biāo)簽的興趣權(quán)重,并構(gòu)建用戶興趣模型應(yīng)用到協(xié)同過(guò)濾推薦算法當(dāng)中,然后測(cè)試集中利用訓(xùn)練集得到的推薦結(jié)果進(jìn)行比較計(jì)算.根據(jù)前面的實(shí)驗(yàn)所知,設(shè)k=70,隨著推薦列表的數(shù)量N值的變化,三個(gè)度量標(biāo)準(zhǔn)的值也會(huì)不同,并將N設(shè)置從5到25變化,值變化間隔為5,實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表3、表4所示.
對(duì)比圖示結(jié)果如圖2、圖3所示.
通過(guò)上圖的對(duì)比可以看出無(wú)論推薦列表數(shù)量N取任何值,基于標(biāo)簽的評(píng)分信息算法在準(zhǔn)確率、召回率、F-measure三個(gè)度量標(biāo)準(zhǔn)都明顯好于其他基于標(biāo)簽的推薦算法,同時(shí)也可以看出基于標(biāo)簽的評(píng)分信息熵推薦算法在N=10時(shí)推薦效果最好且比其他幾個(gè)推薦算法準(zhǔn)確度平均提高了6.7%左右.筆者分析認(rèn)為,本文算法之所以能優(yōu)于其他三個(gè)算法在于:一是考慮將豐富信息量的標(biāo)簽信息構(gòu)成用戶的興趣模型能較好的表達(dá)用戶的興趣; 二是考慮有一定的噪聲標(biāo)簽的存在因此提出通過(guò)計(jì)算標(biāo)簽的打分不確定程度來(lái)計(jì)算標(biāo)簽的興趣權(quán)重從而將標(biāo)簽對(duì)用戶的重要性區(qū)別對(duì)待,對(duì)于打分不穩(wěn)定不能精準(zhǔn)表現(xiàn)用戶興趣的標(biāo)簽可以通過(guò)計(jì)算其信息熵來(lái)修正降低其重要性.
表3 MovieLens實(shí)驗(yàn)數(shù)據(jù)對(duì)比
表4 Delicious實(shí)驗(yàn)數(shù)據(jù)對(duì)比
圖2 Movielens數(shù)據(jù)集結(jié)果對(duì)比
圖3 Delicious 數(shù)據(jù)集結(jié)果對(duì)比
本章基于標(biāo)簽構(gòu)建用戶的興趣模型,并提出了一種用戶標(biāo)簽評(píng)分信息熵的興趣度計(jì)算方法,對(duì)于用戶重要性高的標(biāo)簽予以較高的權(quán)重.通過(guò)在MovieLens數(shù)據(jù)集和Delicious數(shù)據(jù)集上將本文算法與其他三個(gè)算法進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證了本文算法要明顯好于其他三個(gè)基于標(biāo)簽的推薦算法.由于用戶的評(píng)分信息局限于幾個(gè)離散的數(shù)值,因此基于社會(huì)化標(biāo)簽的信息熵計(jì)算還不夠準(zhǔn)確.目前,將信息熵應(yīng)用于標(biāo)簽的推薦算法研究還比較新穎,因?yàn)樾畔㈧乇旧碛泻茇S富的解釋信息以及物理背景,因此其應(yīng)用前景還是十分可觀的.
1Verma C,Hart M,Bhatkar S,et al.Improving scalability of personalized recommendation systems for enterprise knowledge workers.IEEE Access,2016,4:204–215.[doi:10.1109/ACCESS.2015.2513000]
2Marinho LB,Schmidt-Thieme L.Collaborative tag recommendations.In:Preisach C,Burkhardt H,Schmidt-Thieme L,et al.eds.Data Analysis,Machine Learning and Applications.Berlin,Heidelberg,Germany.2008.553–540.
3Symeonidis P.ClustHOSVD:Item recommendation by combining semantically enhanced tag clustering with tensor hosvd.IEEE Trans.on Systems,Man,and Cybernetics:Systems,2016,46(9):1240–1251.[doi:10.1109/TSMC.2015.248 2458]
4Jiang ZG,Zhou A,Wang SG,et al.Personalized service recommendation for collaborative tagging systems with social relations and temporal influences.Proc.of the 2016 IEEE International Conference on Services Computing(SCC).San Francisco,CA,USA.2016.786–789.
5Cao J,Wu ZA,Wang YQ,et al.Hybrid collaborative filtering algorithm for bidirectional web service recommendation.Knowledge and Information Systems,2013,36(3):607–627.[doi:10.1007/s10115-012-0562-1]
6Buck C,Koehn P.Quick and reliable document alignment via TF/IDF-weighted cosine distance.Proc.of the 1st Conference on Machine Translation,Volume 2:Shared Task Papers.Berlin,Germany.2016.672–678.
7Chen KW,Zhang ZP,Long J,et al.Turning from TF-IDF to TF-IGM for term weighting in text classification.Expert Systems with Applications:An International Journal,2016,66:245–260.[doi:10.1016/j.eswa.2016.09.009]
8Ahmed S,Tepe K.Entropy-based recommendation trust model for machine to machine communications.Proc.of the 8th International Conference Ad Hoc Networks.Ottawa,Canada.2016.297–305.
9Mehta H,Dixit VS,Bedi P.Weighted difference entropy based similarity measure at two levels in a recommendation framework.Proc.of the 2013 International Conference on Advances in Computing,Communications and Informatics(ICACCI).Mysore,India.2013.2076–2083.
10Parra-Arnau J,Rebollo-Monedero D,Forné J.Optimal forgery and suppression of ratings for privacy enhancement in recommendation systems.Entropy,2014,16(3):1586–1631.[doi:10.3390/e16031586]
11Zhang SW,Ge YY.Personalized tag recommendation based on transfer matrix and collaborative filtering.Journal of Computer and Communications,2015,3(9):9–17.[doi:10.4236/jcc.2015.39002]
12Peng J,Zeng DD,Zhao HM,et al.Collaborative filtering in social tagging systems based on joint item-tag recommendations.Proc.of the 19th ACM International Conference on Information and Knowledge Management.Toronto,ON,Canada.2010.809–818.
13Tso-Sutter KHL,Marinho LB,Schmidt-Thieme L.Tagaware recommender systems by fusion of collaborative filtering algorithms.Proc.of the 2008 ACM Symposium on Applied Computing.New York,USA.2008.1995–1999.
Label-Based Score Information Entropy Recommendation Algorithm
YE Ting
(College of Information and Engineering,Nanjing University of Finance and Economics,Nanjing 210046,China)
As the label is marked by the user according to their own understanding and preferences,the expression of the concept is fuzzy and there are a large number of noise tags,resulting in the low efficiency of the traditional label-based recommendation algorithm recommended.casein view of this problem,a tag recommendation algorithm combining the score information entropy is proposed.The algorithm determines the importance of the tag for the user in order to build the user’s interest model for the rating of the label.The algorithm can effectively use the score weight and combine the information entropy to enhance the recommendation accuracy,and compared with the previous label-based recommendation algorithm,it can get a satisfactory recommendation effect.
tag; score information entropy; interest model; collaborative filtering; recommendation system
葉婷.基于標(biāo)簽的評(píng)分信息熵推薦算法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10):190–195.http://www.c-s-a.org.cn/1003-3254/6003.html
科技部科技支撐項(xiàng)目(BAH29F01); 江蘇省重點(diǎn)研發(fā)計(jì)劃(BE2016178)
2017-01-17; 采用時(shí)間:2017-02-20