葉 婷 曹 杰
(南京財(cái)經(jīng)大學(xué)信息工程學(xué)院 江蘇 南京 210046)
基于網(wǎng)絡(luò)分割聚類(lèi)的標(biāo)簽語(yǔ)義規(guī)范化推薦算法
葉 婷 曹 杰
(南京財(cái)經(jīng)大學(xué)信息工程學(xué)院 江蘇 南京 210046)
傳統(tǒng)的推薦算法多以用戶(hù)評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶(hù)的興趣偏好以及資源相似度,對(duì)稀疏數(shù)據(jù)以及新用戶(hù)的推薦質(zhì)量較低。考慮到用戶(hù)標(biāo)簽數(shù)據(jù)的隨意性和語(yǔ)義模糊性,提出基于標(biāo)簽網(wǎng)絡(luò)分割聚類(lèi)的語(yǔ)義規(guī)范化方法并建立基于規(guī)范化標(biāo)簽的用戶(hù)興趣模型。該模型能在不改變用戶(hù)興趣的前提下有效降低用戶(hù)標(biāo)簽興趣模型的向量維數(shù),并能避免分析標(biāo)簽語(yǔ)義的復(fù)雜過(guò)程,且能根據(jù)用戶(hù)自身的理解來(lái)獲取用戶(hù)興趣。最后將標(biāo)簽興趣模型應(yīng)用到推薦算法中。通過(guò)與經(jīng)典的推薦算法進(jìn)行比較,驗(yàn)證了該算法能有效緩解數(shù)據(jù)稀疏性、推薦冷啟動(dòng)問(wèn)題,提升了推薦結(jié)果的準(zhǔn)確性,能獲得更好的推薦效果。
標(biāo)簽 語(yǔ)義規(guī)范化 推薦算法
隨著計(jì)算機(jī)科技的迅猛發(fā)展,社會(huì)的進(jìn)步已經(jīng)離不開(kāi)信息網(wǎng)絡(luò),人們獲取信息的方式以及溝通交流的方式也在不斷增多,互聯(lián)網(wǎng)已經(jīng)極大地改變了人們的生活。然而,網(wǎng)絡(luò)中充斥著復(fù)雜多樣的信息,人們享受著足不出戶(hù)便可以搜索豐富網(wǎng)絡(luò)資源的同時(shí),也不得不忍受“信息過(guò)載”帶來(lái)的生活上的不便。傳統(tǒng)的搜索引擎技術(shù)已經(jīng)不能滿(mǎn)足用戶(hù)的搜索需要,因此個(gè)性化推薦技術(shù)孕育而生。個(gè)性化推薦系統(tǒng)可以挖掘分析用戶(hù)的歷史行為數(shù)據(jù),并構(gòu)建用戶(hù)的興趣模型從而智能地從海量信息資源中篩選出用戶(hù)需要的資源推薦給用戶(hù),從而很好地緩解了信息過(guò)載問(wèn)題[1]。然而,推薦系統(tǒng)自身也存在一些弊端,主要表現(xiàn)為系統(tǒng)的數(shù)據(jù)稀疏性問(wèn)題、冷啟動(dòng)問(wèn)題等,這些缺陷會(huì)一定程度上影響推薦的效率以及準(zhǔn)確率。
在個(gè)性化推薦系統(tǒng)中靈活地利用用戶(hù)自定義標(biāo)簽的特性,使推薦系統(tǒng)的研究迎來(lái)了一個(gè)嶄新的時(shí)代。因?yàn)闃?biāo)簽系統(tǒng)的標(biāo)簽是由用戶(hù)自主標(biāo)注的,所以標(biāo)簽不僅包含資源的特征屬性,還可以反映出用戶(hù)的興趣和認(rèn)知偏好等信息。同時(shí),利用標(biāo)簽信息進(jìn)行用戶(hù)的興趣模型的構(gòu)建,可以提高用戶(hù)興趣模型的貼切度與準(zhǔn)確度。其次,通過(guò)分析標(biāo)簽的語(yǔ)義信息可以挖掘出用戶(hù)對(duì)于資源的喜好,以方便找到與目標(biāo)用戶(hù)有相似喜好的用戶(hù)集群,從而可以更加精確地推薦其感興趣的項(xiàng)目集合給該用戶(hù)。然而隨著標(biāo)簽應(yīng)用越來(lái)越廣泛,標(biāo)簽中出現(xiàn)的弊端也越來(lái)越明顯,由于標(biāo)簽的自主性,存在標(biāo)簽的語(yǔ)義表達(dá)概念模糊,并且不同用戶(hù)認(rèn)知也存在差異,這導(dǎo)致其表達(dá)的語(yǔ)義不準(zhǔn)確,同時(shí)用戶(hù)可能在輸入標(biāo)簽時(shí)不夠嚴(yán)謹(jǐn),也導(dǎo)致大量噪聲標(biāo)簽的存在。目前,不少學(xué)者都進(jìn)行了相關(guān)的學(xué)術(shù)研究。Wei等[2]通過(guò)用戶(hù)標(biāo)注在資源上的標(biāo)簽信息構(gòu)建用戶(hù)的偏好主題模型,并結(jié)合用戶(hù)的評(píng)分信息以增強(qiáng)推薦效果。Martins等[3]利用正面和負(fù)面用戶(hù)反饋迭代選擇輸入標(biāo)簽并結(jié)合遺傳算法策略來(lái)學(xué)習(xí)推薦函數(shù),從而有效地解決冷啟動(dòng)問(wèn)題。Gan等[4]提出構(gòu)建對(duì)象-用戶(hù)-標(biāo)簽異構(gòu)網(wǎng)絡(luò),并采用隨機(jī)游走算法與重啟模型以將關(guān)聯(lián)的強(qiáng)度分配給候選對(duì)象,從而提供用戶(hù)優(yōu)先查詢(xún)對(duì)象以加強(qiáng)推薦。Cao等[5]融合混合型協(xié)同過(guò)濾算法提出Web服務(wù)的雙向推薦機(jī)制,該機(jī)制既可以為用戶(hù)推薦感興趣的Web服務(wù),也可以為服務(wù)者提供潛在用戶(hù)。Kim等[6]結(jié)合用戶(hù)的評(píng)分信息將資源分為積極項(xiàng)目和消極項(xiàng)目,分別計(jì)算用戶(hù)的興趣模型。Xu等[7]提出SemRec系統(tǒng),利用層次式聚類(lèi)方法將經(jīng)常共同出現(xiàn)的標(biāo)簽放在同一類(lèi)簇并結(jié)合其語(yǔ)義信息以進(jìn)一步增強(qiáng)推薦性能。Xie等[8]通過(guò)標(biāo)簽向量來(lái)表示用戶(hù)和資源,然后求用戶(hù)和資源的相似性匹配度再進(jìn)行相關(guān)性推薦。
由于用戶(hù)標(biāo)簽數(shù)據(jù)的稀疏性、異構(gòu)性等特點(diǎn),推薦算法的正確率往往不盡如人意。以上研究大多只是考慮標(biāo)簽的頻數(shù)信息而沒(méi)有很好地利用標(biāo)簽豐富的語(yǔ)義信息來(lái)豐富個(gè)性化模型。為此,本文提出基于網(wǎng)絡(luò)分割聚類(lèi)的標(biāo)簽語(yǔ)義規(guī)范化方法,用語(yǔ)義明確且能較好地表達(dá)一類(lèi)資源主題的規(guī)范化標(biāo)簽替代用戶(hù)的隨意標(biāo)簽,構(gòu)建個(gè)性化推薦的用戶(hù)規(guī)范化標(biāo)簽興趣數(shù)據(jù)模型并應(yīng)用到推薦算法中。
用戶(hù)自定義標(biāo)簽具有很強(qiáng)的自主性和無(wú)約束性,且網(wǎng)絡(luò)中標(biāo)簽數(shù)據(jù)的稀疏性使其不能很好地被利用到推薦系統(tǒng)中。由于網(wǎng)絡(luò)中的標(biāo)簽繁雜多維化,想要充分利用標(biāo)簽所表達(dá)的豐富的語(yǔ)義信息,就需要借助外部詞庫(kù)建立標(biāo)簽之間的語(yǔ)義關(guān)聯(lián)。因此提出了基于英文維基百科的外部詞庫(kù)構(gòu)建標(biāo)簽的語(yǔ)義關(guān)聯(lián),利用標(biāo)簽的語(yǔ)義特征為后面的研究做好準(zhǔn)備工作。
1.1 Word2vec的語(yǔ)義模型訓(xùn)練
Word2vec是Google于2013年新開(kāi)發(fā)的一款基于深度學(xué)習(xí)的工具[9]。它基于特定的語(yǔ)料庫(kù),利用優(yōu)化后的訓(xùn)練模型得到詞語(yǔ)的包含了自然語(yǔ)言中的語(yǔ)義和語(yǔ)法關(guān)系的向量表達(dá)形式,為自然語(yǔ)言的研究開(kāi)辟了一個(gè)新的領(lǐng)域。在向量空間模型中,做兩個(gè)向量的相似度(向量距離/夾角)運(yùn)算,其中模型中向量的相似度即代表兩個(gè)詞之間語(yǔ)義的相似度,換句話說(shuō),就是兩個(gè)詞在同一個(gè)語(yǔ)義場(chǎng)景出現(xiàn)的概率,詞向量的算術(shù)運(yùn)算則是計(jì)算機(jī)的“命辭遣意”。詞向量是詞性特征常用的表達(dá)方式,因?yàn)樗哂胸S富的語(yǔ)義信息。詞向量共400維,單位維上的值表示包含特定的語(yǔ)法和語(yǔ)義上表述的特性。本部分采取分布式的表現(xiàn)形式,它是一個(gè)低維的、稠密的實(shí)值向量。其中每一維表現(xiàn)了單詞的一個(gè)潛在詞性特征,該特性蘊(yùn)含了豐富的語(yǔ)義和句法特征信息。
通過(guò)離線深度學(xué)習(xí)訓(xùn)練,形成知識(shí)庫(kù),支持?jǐn)?shù)據(jù)分析功能的詞之間的相似度計(jì)算。本部分采用英文的維基百科數(shù)據(jù)作為訓(xùn)練模型的源數(shù)據(jù),維基百科是目前知識(shí)庫(kù)增長(zhǎng)速度最快且規(guī)模最大的百科全書(shū),有250萬(wàn)多篇的文章和不計(jì)其數(shù)的投稿人,其數(shù)目龐大的網(wǎng)絡(luò)入口、互相參考的網(wǎng)絡(luò)以及以樹(shù)為主體的圖結(jié)構(gòu)層次的分類(lèi)能提供豐富的精確定義的語(yǔ)義知識(shí)[10]。
1.2 基于維基百科的標(biāo)簽語(yǔ)義關(guān)聯(lián)的構(gòu)建
在眾分眾類(lèi)的標(biāo)注系統(tǒng)中, 用戶(hù)標(biāo)注行為較為自由,通常表示相同意思但標(biāo)注的標(biāo)簽往往是同一詞根的不同演變形式,包括英文標(biāo)簽的單復(fù)數(shù)、大小寫(xiě)、時(shí)態(tài)等各種問(wèn)題。為了減小標(biāo)簽構(gòu)建Word2vec的計(jì)算復(fù)雜度,本文對(duì)英文標(biāo)簽首先進(jìn)行兩步預(yù)處理縮減一定的標(biāo)簽:對(duì)非英文字符以及大寫(xiě)字母等進(jìn)行剔除或替換,并利用詞根提取算法處理單復(fù)數(shù)并提取詞根,最后進(jìn)行比較以及合并重復(fù)標(biāo)簽。
本文基于外部詞庫(kù)訓(xùn)練語(yǔ)義模型,形成結(jié)構(gòu)化的語(yǔ)義詞典,對(duì)于任意輸入的英文標(biāo)簽可以給出其語(yǔ)義訓(xùn)練模型中的詞向量表示。其中,詞與詞之間的相似度可以表示為兩個(gè)詞對(duì)應(yīng)的Word2vec的語(yǔ)義空間上的距離,極大地簡(jiǎn)化了詞與詞之間相似度的計(jì)算,以構(gòu)成標(biāo)簽的語(yǔ)義關(guān)聯(lián)。
社會(huì)標(biāo)簽系統(tǒng)中用戶(hù)自定義標(biāo)簽可以根據(jù)自己的認(rèn)知和理解隨意進(jìn)行標(biāo)簽標(biāo)注,具有很強(qiáng)的無(wú)約束性和自由性,標(biāo)簽自身真正的含義不一定能精確表達(dá)用戶(hù)真正的意圖,因此標(biāo)簽存在語(yǔ)義模糊、歧義性以及標(biāo)簽濫用等較嚴(yán)重的語(yǔ)義問(wèn)題。針對(duì)標(biāo)簽存在的語(yǔ)義問(wèn)題,本文提出一種基于加權(quán)網(wǎng)絡(luò)分割的標(biāo)簽聚類(lèi)規(guī)范化方法,即用戶(hù)產(chǎn)生的繁雜隨意標(biāo)簽用與其相似且核心度高的規(guī)范化標(biāo)簽代替,在不改變用戶(hù)本身興趣愛(ài)好的前提下以期得到更加精確的用戶(hù)興趣模型。本文首先構(gòu)建基于融合相似度的標(biāo)簽共現(xiàn)網(wǎng)絡(luò),并提出了衡量標(biāo)簽節(jié)點(diǎn)核心程度的計(jì)算方法。該聚類(lèi)算法基于標(biāo)簽節(jié)點(diǎn)的核心度,并結(jié)合標(biāo)簽融合相似度來(lái)進(jìn)行網(wǎng)絡(luò)分割,將與核心節(jié)點(diǎn)相似的節(jié)點(diǎn)劃分成一個(gè)子網(wǎng),同時(shí)該類(lèi)簇的聚類(lèi)中心即可理解為該類(lèi)簇的核心節(jié)點(diǎn)。首先定義如下三個(gè)概念以便于后面的研究:
定義1基于融合相似度的標(biāo)簽共現(xiàn)網(wǎng)絡(luò)定義為一個(gè)加權(quán)網(wǎng)絡(luò)G=
定義2標(biāo)注矩陣定義為m×n矩陣A=(Aij),其中Aij表示標(biāo)簽i和在資源j上標(biāo)注的次數(shù),即標(biāo)簽頻度。
定義3關(guān)聯(lián)度矩陣定義為m×n矩陣B=(Bij)其中Bij表示標(biāo)簽i與資源j的關(guān)聯(lián)程度,其關(guān)聯(lián)程度的計(jì)算借鑒TF-IDF思想并進(jìn)行改進(jìn),可以記為T(mén)agBasedTFIDF:
(1)
其中:R(ti)表示標(biāo)簽ti標(biāo)注的資源總數(shù)。
2.1 標(biāo)簽相似度計(jì)算
定義4規(guī)范化標(biāo)簽定義為用戶(hù)公眾認(rèn)可的由用戶(hù)產(chǎn)生的表達(dá)概念明確的標(biāo)簽,各規(guī)范化標(biāo)簽之間的相似度為0或可以忽略不計(jì)。將用戶(hù)定義的標(biāo)簽用語(yǔ)義規(guī)范化的標(biāo)簽數(shù)據(jù)表示,其能夠有效地緩解標(biāo)簽表達(dá)概念不精確、語(yǔ)義模糊等問(wèn)題。標(biāo)簽相似度計(jì)算由下列屬性確定。
(1) 標(biāo)簽資源共現(xiàn)相似度:標(biāo)簽a和標(biāo)簽a′的資源共現(xiàn)相似度定義如下:
(2)
其中:對(duì)于標(biāo)簽a,令N(a)為有標(biāo)簽a的物品集合,na,i為物品i打上標(biāo)簽a的用戶(hù)數(shù),本文通過(guò)如上余弦現(xiàn)相似度公式計(jì)算標(biāo)簽a和標(biāo)簽b的資源共現(xiàn)相似度:
(2) 標(biāo)簽詞向量語(yǔ)義相似度:標(biāo)簽a和標(biāo)簽b′的語(yǔ)義相似度即它們對(duì)應(yīng)Word2vec的余弦相似度。定義如下:
(3)
(3) 標(biāo)簽融合相似度:
(4)
其中:λ為調(diào)節(jié)權(quán)重。線性融合標(biāo)簽關(guān)于用戶(hù)數(shù)據(jù)的資源共現(xiàn)相似度和關(guān)于標(biāo)簽的詞向量語(yǔ)義相似度,得出用戶(hù)數(shù)據(jù)中標(biāo)簽與標(biāo)簽之間的融合相似度,作為聚類(lèi)的相似度計(jì)算公式。
2.2 標(biāo)簽核心度計(jì)算
標(biāo)簽的核心度用來(lái)衡量該標(biāo)簽在標(biāo)簽網(wǎng)絡(luò)中的核心程度,主要由標(biāo)簽融合相似度、標(biāo)簽主題度綜合計(jì)算。
定義5標(biāo)簽主題度用于衡量一個(gè)標(biāo)簽?zāi)芊窈芎玫乇憩F(xiàn)一類(lèi)資源主題。如果該標(biāo)簽所表示的資源都較為相似則可以認(rèn)為這個(gè)標(biāo)簽?zāi)軌蜉^好地表示一個(gè)資源主題。我們用Ct表示被標(biāo)簽t標(biāo)注的資源均值中心,由式(5)計(jì)算。其中R(t)表示標(biāo)簽t所表示的資源總數(shù),資源ri由關(guān)聯(lián)度矩陣B中的列向量表示。
(5)
標(biāo)簽的主題度由標(biāo)簽標(biāo)注的資源中心Ct與該標(biāo)簽標(biāo)注的所有資源之間的平均余弦相似度計(jì)算:
(6)
標(biāo)簽的核心度計(jì)算公式如下:
(7)
其中:t′表示標(biāo)簽共現(xiàn)網(wǎng)絡(luò)圖中與標(biāo)簽t相連接的標(biāo)簽。
2.3 算法流程
基于網(wǎng)絡(luò)分割聚類(lèi)的標(biāo)簽規(guī)范化推薦算法:
輸入:用戶(hù)—規(guī)范化標(biāo)簽—資源數(shù)據(jù){U,T,I},聚類(lèi)數(shù)目K,推薦資源個(gè)數(shù)N。
輸出:目標(biāo)用戶(hù)u的Top-N推薦集。
第1步計(jì)算標(biāo)簽之間的融合相似度,構(gòu)建基于融合相似度的資源共現(xiàn)標(biāo)簽網(wǎng)絡(luò)。并計(jì)算標(biāo)簽網(wǎng)絡(luò)中每個(gè)標(biāo)簽節(jié)點(diǎn)v的核心度。
第2步將節(jié)點(diǎn)按核心度降序的順序插入鏈表L。
第3步取出鏈表首節(jié)點(diǎn)即核心度最高的標(biāo)簽節(jié)點(diǎn),并在標(biāo)簽網(wǎng)絡(luò)中逐個(gè)判斷其鄰接節(jié)點(diǎn)的相似度是否大于該鄰接節(jié)點(diǎn)與其任何節(jié)點(diǎn)的相似度,如果是則將該點(diǎn)與首節(jié)點(diǎn)劃為一個(gè)類(lèi)簇,并把該節(jié)點(diǎn)從鏈表中刪去。
第4步得到類(lèi)簇以首節(jié)點(diǎn)為核心的規(guī)范化標(biāo)簽,并從L中刪除。
第5步重復(fù)第3步、第4步,直到鏈表L為空或聚類(lèi)數(shù)目達(dá)到K,停止聚類(lèi)。
第6步得到各個(gè)類(lèi)簇的聚類(lèi)中心即規(guī)范化標(biāo)簽,以及用戶(hù)的自定義標(biāo)簽集合,將用戶(hù)自定義標(biāo)簽替換成其所在類(lèi)簇的聚類(lèi)中心(規(guī)范化標(biāo)簽),形成新的用戶(hù)—規(guī)范化標(biāo)簽—資源數(shù)據(jù){U,Ts,I}。
第7步計(jì)算標(biāo)簽基于TF-IDF的權(quán)重構(gòu)建用戶(hù)的興趣模型并應(yīng)用到協(xié)同過(guò)濾的推薦算法。取前N個(gè)資源組成Top-N推薦集合recommend-list={i1,i2,…,iN}并輸出。算法的偽代碼見(jiàn)算法1。
算法1基于網(wǎng)絡(luò)分割的標(biāo)簽聚類(lèi)規(guī)范化的推薦算法
輸入:用戶(hù)-規(guī)范化標(biāo)簽-資源數(shù)據(jù)Q={U,T,I},聚類(lèi)數(shù)目K,推薦資源個(gè)數(shù)N
輸出:目標(biāo)用戶(hù)u的Top-N推薦集recommend-list
1:creat the resource co-occurrence label network based on fusion similarity
2:for each vertexv∈Vdo
3: computeCore(v)
4: end for
5: insert allCore(v) by ascending order into ListL
6: while (Lis not empty or number of clusters!=K)
7: select the first vertexviinL
8: for each adjacent edgevjofvido
9: ifeij> each adjacent edge ofvjofvido
10: assignvjto the cluster withvi
11: deletevjfromL
12: end if
13: end for
14: deletevifromL
15: obtain a cluster with label=vi16: end while
17:Transfor the User tags to the normalized tagsvi
18: for all useruinQdo
19: use TF-IDF compute the weight
20: produce the user intrest model
21: find the KNN neighbors
22: take the top-N item
23: end for
23:outputrecommend-list={i1,i2,…,iN}
2.4 標(biāo)簽規(guī)范化結(jié)果展示
在MovieLens數(shù)據(jù)集中,通過(guò)網(wǎng)絡(luò)分割聚類(lèi)的標(biāo)簽規(guī)范化方法,將數(shù)據(jù)集中用戶(hù)自定義標(biāo)簽與規(guī)范化標(biāo)簽形成關(guān)聯(lián)。 經(jīng)過(guò)網(wǎng)絡(luò)分割聚類(lèi)的規(guī)范化標(biāo)簽及與其聚類(lèi)為一個(gè)類(lèi)簇即相映射的自定義標(biāo)簽數(shù)據(jù)部分展示如下,并根據(jù)這些自定義標(biāo)簽與其對(duì)應(yīng)的規(guī)范化標(biāo)簽之間的融合相似度按大到小的順序排列,實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 語(yǔ)義規(guī)范化標(biāo)簽與用戶(hù)自定義標(biāo)簽
3.1 數(shù)據(jù)集
為了驗(yàn)證本文算法的有效性,本文采用MovieLens和Delicious兩組數(shù)據(jù)集[11],具體數(shù)據(jù)集集合見(jiàn)表2。本實(shí)驗(yàn)將語(yǔ)義規(guī)范化的標(biāo)簽并結(jié)合TF-IDF算法實(shí)驗(yàn)采用5折交叉驗(yàn)證,每次將數(shù)據(jù)集隨機(jī)選取80%數(shù)據(jù)為訓(xùn)練集,剩余20%數(shù)據(jù)為測(cè)試集,對(duì)五次結(jié)果取平均作為最終結(jié)果。
表2 數(shù)據(jù)集結(jié)構(gòu)
3.2 度量標(biāo)準(zhǔn)
本文實(shí)驗(yàn)中采用準(zhǔn)確率(Precision)、召回率(Recall)、F-measure作為度量算法優(yōu)劣的評(píng)價(jià)標(biāo)準(zhǔn);準(zhǔn)確率表示為用戶(hù)產(chǎn)生的推薦列表中,有多大比例的資源是用戶(hù)真正喜歡的,如式(8)表示;召回率表示用戶(hù)真正喜歡的商品中,有多大比例的商品進(jìn)入了推薦列表,如式(9)表示,準(zhǔn)確率和召回率越高,表示推薦效果越好[12];同時(shí)還使用了一個(gè)平衡以上兩種指標(biāo)的綜合評(píng)價(jià)指標(biāo)F-measure,如式(10)表示。設(shè)R(u)指用戶(hù)在訓(xùn)練集上通過(guò)分析用戶(hù)行為得到的推薦列表,T(u)表示用戶(hù)在測(cè)試集中的行為列表。則推薦結(jié)果的準(zhǔn)確率定義如下:
(8)
推薦結(jié)果的召回率定義如下:
(9)
F-measure定義為:
(10)
3.3 實(shí)驗(yàn)結(jié)果
本文將基于網(wǎng)絡(luò)分割聚類(lèi)的標(biāo)簽規(guī)范化后的標(biāo)簽應(yīng)用推薦算法中,實(shí)驗(yàn)試圖從兩個(gè)方面展開(kāi):一是分析在標(biāo)簽規(guī)范化中融合相似計(jì)算的參數(shù)λ對(duì)推薦結(jié)果的影響,二是比較所提方法與其他推薦算法進(jìn)行推薦效率與準(zhǔn)確率的比較。
(1) 確定融合相似度參數(shù)λ對(duì)推薦質(zhì)量的影響
本部分測(cè)試λ的值對(duì)推薦結(jié)果的影響,實(shí)驗(yàn)設(shè)置λ的值為0到1,值變化的間隔為0.1,并設(shè)置鄰居數(shù)目分別為20、40、60、80,每組數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中分別測(cè)試推薦結(jié)果的Precision。其結(jié)果如表3所示。
表3 不同參數(shù)λ值對(duì)Precision變化情況
從表3可以看出,參數(shù)λ值的變化確實(shí)可以影響推薦結(jié)果,但總體變化不大。其中當(dāng)λ=0表示在標(biāo)簽規(guī)范化過(guò)程中標(biāo)簽相似度計(jì)算僅考慮計(jì)算標(biāo)簽的資源共現(xiàn)相似度,而當(dāng)λ=1表示僅考慮計(jì)算標(biāo)簽的語(yǔ)義相似度,最終規(guī)范后的標(biāo)簽應(yīng)用到推薦算法的效率都不高,而融合相似度計(jì)算方法后推薦效果明顯好于單一的計(jì)算方法。表3中可獲知,當(dāng)λ值不斷變化時(shí),Precision值會(huì)有所變化,但當(dāng)λ=0.4時(shí),Precison值普遍最大。
(2) 算法推薦效果比較
為了進(jìn)一步驗(yàn)證本文標(biāo)簽規(guī)范化推薦算法的有效性,將本文算法NT-CF與兩個(gè)較新的算法tensor-u[13]與colla-tv[14]和一個(gè)經(jīng)典推薦算法T-CF[15]用Precision、Recall、F-measure三個(gè)度量標(biāo)準(zhǔn)驗(yàn)證實(shí)驗(yàn),根據(jù)前面的實(shí)驗(yàn)所知,設(shè)K=60,λ=0.4,隨著推薦列表的數(shù)量N值的變化,三個(gè)度量標(biāo)準(zhǔn)的值也會(huì)不同,并將N設(shè)置從5到25變化,值變化間隔為5。對(duì)比結(jié)果如圖1、圖2所示。通過(guò)在Movielens和Delicious兩個(gè)數(shù)據(jù)集上三個(gè)度量標(biāo)準(zhǔn)進(jìn)行對(duì)比,可知本文的算法在準(zhǔn)確率、召回率、F-measure三個(gè)度量標(biāo)準(zhǔn)都明顯好于其他推薦算法。
圖1 Movielens數(shù)據(jù)集結(jié)果對(duì)比
圖2 Delicious數(shù)據(jù)集結(jié)果對(duì)比
鑒于目前所有的數(shù)據(jù)集和具體任務(wù)的需求,本文圍繞“基于網(wǎng)絡(luò)分割聚類(lèi)的標(biāo)簽語(yǔ)義規(guī)范化推薦算法”問(wèn)題,首先引入英文維基百科詞庫(kù)訓(xùn)練Word2vec語(yǔ)義模型,以便于構(gòu)建標(biāo)簽之間的語(yǔ)義關(guān)聯(lián),計(jì)算獨(dú)立標(biāo)簽之間的語(yǔ)義相似度;繼而分析用戶(hù)標(biāo)注行為數(shù)據(jù),構(gòu)建基于融合相似度的標(biāo)簽共現(xiàn)網(wǎng)絡(luò),實(shí)現(xiàn)基于節(jié)點(diǎn)核心度和相似性的加權(quán)網(wǎng)絡(luò)分割聚類(lèi)算法。將用戶(hù)的自定義標(biāo)簽用能表示所在類(lèi)簇的特征標(biāo)簽即規(guī)范化標(biāo)簽代替并構(gòu)建用戶(hù)興趣模型,在不改變用戶(hù)的前提下一定程度上減少向量維數(shù)簡(jiǎn)化計(jì)算,并將規(guī)范化標(biāo)簽構(gòu)建用戶(hù)興趣模型并應(yīng)用到協(xié)同過(guò)濾算法中。與已有的基于標(biāo)簽的推薦算法在三個(gè)度量標(biāo)準(zhǔn)上進(jìn)行對(duì)比,從而驗(yàn)證了本文算法的有效性。
[1] Verma C,Hart M,Bhatkar S,et al.Improving Scalability of Personalized Recommendation Systems for Enterprise Knowledge Workers[J].IEEE Access,2016,4:204-215.
[2] Wei S,Zheng X,Chen D,et al.A hybrid approach for movie recommendation via tags and ratings[J].Electronic Commerce Research and Applications,2016,18:83-94.
[3] Martins E F,Belém F M,Jussara M.On cold start for associative tag recommendation[J].JASIST,2016,67(1):83-105.
[4] Gan M,Sun L,Jiang R.Trinity:walking on a user-object-tag heterogeneous network for personalised recommendations[J].Journal of Computer Science and Technology,2016,31(3):577-594.
[5] Cao J,Wu Z,Wang Y,et al.Hybrid Collaborative Filtering algorithm for bidirectional Web sevice recommendation[J].Knowledge and Information Systems,2013,36(3):607-627.
[6] Kim H N,Alkhaldi A.Collaborative user modeling with user-generated tags for social recommender systems[J].Expert Systems with Applications,2013,2(32):564-572.
[7] Xu G,GuY,Dolog P,et al.SemRec:A Semantic Enhancement Framework for Tag Based Recommendation[C]//Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence.SanFrancisco,California:AAAI Press,2015:321-330.
[8] Xie H,Li X,Wang T,et al.Incorporating sentiment into tag-based user profiles and resource profiles for personalized search in folksonomy[J].Information Processing & Management,2016,52(1):61-72.
[9] Servan C,Berard A,Elloumi Z,et al.Word2vec vs DBnary:Augmenting meteor using vector representations or lexical resources?[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics,2016:1159-1168.
[10] Flati T,Vannella D,Pasini T,et al.MultiWiBi:The multilingual Wikipedia bitaxonomy project[J].Artificial Intelligence,2016,241(12):66-102.
[11] Yilmaz R M,Baydas O.Pre-service teachers’ behavioral intention to make educational animated movies and their experiences[J].Computers in Human Behavior,2016,63(12):41-49.
[12] Chen J,Li K,Tang K.A parallel patient treatment time prediction algorithm and its applications in hospital queuing-recommendation in a big data environment[J].IEEE Access,2016,4:1767-1783.
[13] Zhang S,Ge Y.Personalized tag recommendation based on transfer matrix and collaborative filtering[J].Journal of Computer and Communications,2015,3:9-17.
[14] Peng J,Zeng D.Collaborative filtering in social tagging systems based on joint item-tag recommendations[C]//Proceedings of the 19th ACM international conference on Information and knowledge management,2014:809-818.
[15] Tso-Sutter K H L,Marinho L B,Schmidt-Thieme L.Tag-aware recommender systems by fusion of collaborative filtering algorithms[C]//Proceedings of the 2010ACM Symposium on Applied Computing.NewYork:ACM press,2010:1995-1999.
ARECOMMENDATIONALGORITHMWITHTAGSSEMANTICNORMALIZATIONBASEDONNETWORKSEGMENTATIONCLUSTERING
Ye Ting Cao Jie
(CollegeofInformationandEngineering,NanjingUniversityofFinanceandEconomics,Nanjing210046,Jiangsu,China)
The traditional recommendation algorithm mostly uses the user rating data to calculate the user’s interest preference and the resource similarity, and the recommendation quality to the sparse data as well as the new user is low. Considering the randomness and semantic ambiguity of user label data, a semantic normalization method based on label network segmentation clustering is proposed and a user interest model based on canonical label is established. The model can effectively reduce the vector dimension of the user’s tag interest model without changing the user’s interest. It can avoid the complicated process of tag semantics and obtain user interest according to the user’s own understanding. Moreover, the label interest model has applied to the recommendation algorithm. Compared with the classical recommendation algorithm, it is verified that the algorithm can effectively alleviate the sparsity of data and recommend the cold start problem. It can improve the accuracy of the recommended results, and obtain better recommendation results.
Tag Semantic normalization Recommendation algorithm
2017-01-16。葉婷,碩士,主研領(lǐng)域:數(shù)據(jù)挖掘,推薦系統(tǒng)。曹杰,教授。
TP3
A
10.3969/j.issn.1000-386x.2017.11.012