• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      跨域推薦中的知識融合研究進(jìn)展

      2023-03-01 01:33:06徐建民
      現(xiàn)代情報 2023年3期
      關(guān)鍵詞:跨域圖譜標(biāo)簽

      張 彬 徐建民 * 吳 姣

      (1.河北大學(xué)管理學(xué)院,河北 保定 071002;2.河北大學(xué)期刊社,河北 保定 071002)

      隨著互聯(lián)網(wǎng)、大數(shù)據(jù)和云計算技術(shù)的快速發(fā)展,數(shù)據(jù)呈爆炸式增長,信息過載問題日趨嚴(yán)重,跨域推薦通過挖掘、遷移并融合利用不同來源的知識為用戶提供個性化推薦服務(wù),近年來得到學(xué)術(shù)界和工業(yè)界的熱點關(guān)注[1]。知識融合在跨域推薦中具有重要作用,可以在知識層面實現(xiàn)對數(shù)據(jù)的深度加工和有效利用[2],為跨域推薦問題研究與實踐提供新的范式。

      跨域推薦針對傳統(tǒng)單域推薦的局限,從對輔助域知識進(jìn)行融合的角度出發(fā),利用多域的用戶行為數(shù)據(jù)挖掘用戶偏好特征,以提高推薦的準(zhǔn)確性和多樣性[3]。傳統(tǒng)的信息推薦系統(tǒng)主要采用基于內(nèi)容、協(xié)同過濾或混合推薦等算法為用戶提供推薦服務(wù),在單域推薦場景下取得了較好的效果;但隨著數(shù)據(jù)規(guī)模的增大,進(jìn)行精確推薦服務(wù)的難度提高,單域推薦的問題和局限也更加突出。首先是稀疏性問題,單域場景下的用戶與項目的交互數(shù)據(jù)稀疏問題較為普遍,大數(shù)據(jù)環(huán)境下高維數(shù)據(jù)的稀疏性更加明顯,給定用戶或項目之間的相似性或相關(guān)性甚至為零,無法進(jìn)行有效過濾,影響推薦效果[4]。然后是冷啟動問題,大量的新用戶或新項目進(jìn)入推薦系統(tǒng)時,由于缺少必要的興趣或評分?jǐn)?shù)據(jù),難以建立用戶與項目的關(guān)聯(lián),推薦系統(tǒng)無法推斷用戶偏好進(jìn)行推薦。大數(shù)據(jù)場景下,跨域推薦系統(tǒng)從更加豐富的知識源獲取有效的用戶偏好或項目特征信息,進(jìn)行整合加工來豐富目標(biāo)域中的數(shù)據(jù),可以有效解決單域推薦面臨的數(shù)據(jù)稀疏和冷啟動問題,提高用戶滿意度,改善用戶體驗[5]。事實上,跨域推薦研究尚處于起步階段,多數(shù)研究僅關(guān)注有兩域或少數(shù)域間的知識遷移,較難應(yīng)用于具有多輔助域的跨域推薦場景,對于外部知識、用戶興趣知識、社交網(wǎng)絡(luò)知識等多源異構(gòu)數(shù)據(jù)的知識融合利用和跨域交互等問題缺乏理論指導(dǎo)和系統(tǒng)研究。

      知識融合的概念源于20世紀(jì)90年代的信息融合,現(xiàn)有文獻(xiàn)對于知識融合的定義尚未統(tǒng)一[2]。以KRAFT項目為代表的文獻(xiàn)認(rèn)為[6],知識融合是指從眾多分布式異構(gòu)的網(wǎng)絡(luò)資源中搜索和抽取相關(guān)知識,并轉(zhuǎn)換為統(tǒng)一的知識模式,從而為某一領(lǐng)域的問題求解構(gòu)造有效的知識資源[7]。知識融合是情報學(xué)領(lǐng)域的重要發(fā)展方向,是面向行業(yè)、面向領(lǐng)域或面向?qū)W科的復(fù)雜問題的解決過程,相關(guān)理論和實踐的研究對跨域推薦具有借鑒作用[8]??缬蛲扑]本質(zhì)上可以劃分為跨域知識融合和利用知識推薦兩個子問題,跨域知識融合是對多源知識進(jìn)行有效整合、加工和利用的關(guān)鍵步驟,因此有必要從知識融合的角度出發(fā),對目前跨域推薦的相關(guān)研究進(jìn)行梳理和分析,以期對今后的跨域推薦和知識融合研究提供參考。

      1 跨域推薦系統(tǒng)概述

      1.1 跨域推薦問題的提出

      國外關(guān)于跨域推薦的研究由Winoto P等[9]首先提出,認(rèn)為跨域推薦會比單域推薦更加多樣化,可以提供更高的用戶滿意度和參與度,該研究確定了3個重要的問題:驗證不同域中用戶對項目偏好的全局相關(guān)性;設(shè)計模型利用用戶在來源域的喜好來預(yù)測用戶在目標(biāo)域的偏好;制定適合跨域推薦的評價方法[5,10]。Li B等[11]、Azak M[12]也證明了跨域推薦能夠解決單域推薦一直以來的冷啟動和數(shù)據(jù)稀疏性問題。陳雷慧等[5]認(rèn)為,跨域推薦模型設(shè)計與傳統(tǒng)單域推薦系統(tǒng)類似,也由用戶建模模塊、推薦對象建模模塊和推薦算法模塊[13]組成,區(qū)別在于跨域推薦利用的是融合多個輔助域信息的數(shù)據(jù),而不僅僅是目標(biāo)域提供的數(shù)據(jù)資源。因此,如何有效地融合各域知識,并在不同域間對知識進(jìn)行傳遞和利用,是跨域推薦研究中的關(guān)鍵問題。

      1.2 跨域推薦中的“域”

      跨域推薦研究中尚沒有形成關(guān)于“域”的統(tǒng)一定義,學(xué)術(shù)界提出了多種關(guān)于“域”的劃分依據(jù),在具體研究中主要按照系統(tǒng)[11]、數(shù)據(jù)源[14]、項目概念[15]或項目類別[16]等方式劃分域。較多研究者認(rèn)可Li B等[17]的分類定義[5],按照系統(tǒng)域(System Domain)、數(shù)據(jù)域(Data Domain)和時間域(Temporal Domain)劃分不同的域。系統(tǒng)域按照推薦項目所屬的系統(tǒng)劃分,如豆瓣和亞馬遜網(wǎng)站屬于不同的系統(tǒng)域;數(shù)據(jù)域按照多源異構(gòu)的數(shù)據(jù)源劃分,各數(shù)據(jù)源屬于不同的數(shù)據(jù)域;時間域按照行為產(chǎn)生的時間跨度進(jìn)行分片,各分片屬于不同的時間域,適用于行為數(shù)據(jù)具有時間戳的場景。陳雷慧等[5]、陶鴻等[3]綜合不同域劃分的研究,在上述域分類的基礎(chǔ)上提出了“概念域”的劃分方式,按照推薦物品的類型或概念層次進(jìn)行劃分。知識融合主要針對不同的知識來源,多源異構(gòu)的大數(shù)據(jù)環(huán)境下,不同的知識源可以劃分為獨(dú)立的數(shù)據(jù)域,不同系統(tǒng)域或時間域的數(shù)據(jù)也可根據(jù)推薦任務(wù)需求,定制或重組數(shù)據(jù)集到不同的數(shù)據(jù)域,因此基于知識融合思想采用“數(shù)據(jù)域”的劃分方式更為合理。

      國內(nèi)部分研究者亦稱“跨域推薦”為“跨領(lǐng)域推薦”[1,3,5],兩種表述方式均源自英文“Cross Domain Recommendation”的翻譯。在計算機(jī)術(shù)語中,“域”字的使用較為頻繁(如網(wǎng)絡(luò)域、控制域、域名和子域等),泛指具有邊界的對象;《辭海》中“領(lǐng)域”二字釋義為“學(xué)術(shù)思想或社會活動的范圍”,范圍相較于“域”窄,與“概念域”范疇較為接近。因此,在推薦對象屬于不同概念域時(如圖書、電影或音樂屬于不同的類型),兩種表述方式都適合。但是,如果按照數(shù)據(jù)域、時間域的劃分方式,不同域中的項目可能會屬于相同的概念域(如MovieLens、Netflix和豆瓣的推薦對象均為電影),此時使用“跨領(lǐng)域”表述不夠準(zhǔn)確。因此,從域的涵蓋范圍來看,“跨域推薦”比“跨領(lǐng)域推薦”的范疇更大,“跨領(lǐng)域推薦”只是利用概念劃分域的一種特殊情況,不能涵蓋所有域劃分場景,本文統(tǒng)一采用“跨域推薦”的表述。

      1.3 跨域推薦場景

      在跨域推薦中,根據(jù)兩域之間用戶知識和項目知識的重疊程度差異,分為不同的知識重疊場景。設(shè)兩個域分別為DA、DB,兩個域的用戶集分別為UA、UB,項目集分別為IA、IB;同時出現(xiàn)在兩個域的用戶知識交集為重疊用戶集,UAB=UA∩UB;同時出現(xiàn)在兩個域的項目知識交集為重疊項目集,IAB=IA∩IB。

      參照Cremonesi P等研究者關(guān)于協(xié)同過濾數(shù)據(jù)重疊的思想,可分為4種知識重疊情況[18-19]:

      1)無用戶重疊—無項目重疊(No User-No Item Overlap,NU-NI):兩個域中不存在知識重疊,即UAB=?且IAB=?。這種情況下,由于缺乏可直接利用的共同知識,無法使用傳統(tǒng)的推薦方法實現(xiàn)推薦。

      2)有用戶重疊—無項目重疊(User-No Item Overlap,U-NI):兩個域中只有用戶知識存在重疊,即UAB≠?且IAB=?。如用戶在購買DVD和圖書的數(shù)據(jù)有重疊或者使用關(guān)聯(lián)的社交網(wǎng)絡(luò)賬號登錄等,此種情況可采用基于內(nèi)容的推薦或基于用戶的協(xié)同過濾方法。

      3)無用戶重疊—有項目重疊(No User-Item Overlap,NU-I):兩個域中只有項目知識存在重疊,即UAB=?且IAB≠?,此種情況可采用基于項目的協(xié)同過濾方法。

      4)有用戶重疊—有項目重疊(User-Item Overlap,U-I):兩個域中的用戶、項目知識均有數(shù)據(jù)交集,即UAB≠?且IAB≠?。該場景可把兩個域的知識關(guān)聯(lián)合并,把跨域推薦問題轉(zhuǎn)化為單域推薦問題。

      1.4 跨域推薦任務(wù)

      由于跨域場景以及推薦需求存在的差異,不同的跨域推薦任務(wù)在知識融合模式方面也有一定的區(qū)別:

      1)單域推薦任務(wù)(Single-domain Recommendation Task,SRT):把域DA和域DB中的評分或相關(guān)知識進(jìn)行簡單結(jié)合,在同一個域中的項目和用戶間進(jìn)行推薦,即把域DA中的項目iA推薦到用戶uA,或把域DB中的項目iB推薦到用戶uB,推薦的效用函數(shù)為f(uA,iA)或f(uB,iB)。

      2)跨域推薦任務(wù)(Cross-domain Recommendation Task,CRT):把域DA和域DB中的用戶知識和項目知識進(jìn)行交叉融合,向域DB中的用戶uB推薦另一個域DA的項目iA(或向域DA中的用戶uA推薦域DB的項目iA),推薦的效用函數(shù)為f(uB,iA)或f(uA,iB)。

      3)多域推薦任務(wù)(Multi-domain Recommendation Task,MRT):把多個域中的用戶和項目知識進(jìn)行多實例融合,向多域(如DA,DB,DC…)的用戶(uA,uB,uC…)推薦集合多域的項目(iA,iB,iC…),推薦的效用函數(shù)為f(uMD,IMD),其中uMD=uA∪uB∪uC,iMD=iA∪iB∪iC。

      從對輔助域知識的處理方式來看,可分為知識遷移和知識聚合兩類:對少數(shù)域的知識進(jìn)行處理通常采用跨域知識遷移,對多個域的知識進(jìn)行聚合、加工及相關(guān)數(shù)據(jù)處理為狹義的跨域知識融合。事實上,這兩類處理方式都處于廣義的跨域知識融合范疇。

      2 跨域推薦中的知識融合方法

      基于協(xié)同過濾等傳統(tǒng)技術(shù)的跨域推薦主要關(guān)注用戶的評分?jǐn)?shù)據(jù),較少考慮輔助域中用戶興趣、項目屬性或語義標(biāo)簽等其他維度的知識,部分研究者認(rèn)識到知識維度缺失導(dǎo)致的局限,在評分知識的基礎(chǔ)上,把其他不同類型的知識也引入到跨域推薦,豐富了跨域知識融合的研究范疇。跨域推薦中的主要知識融合方法包括聚類法、語義法、圖模型法和標(biāo)簽關(guān)聯(lián)法等。

      2.1 基于聚類的跨域知識融合

      基于聚類的方法通常針對同一類型、不同來源域的知識進(jìn)行融合處理,以用戶—項目的評分知識為主。在很多情況下,用戶只對有限數(shù)量的項目進(jìn)行評分,可用的評分?jǐn)?shù)據(jù)可能非常稀疏,在實際的跨域推薦場景中,來自多個域的評分?jǐn)?shù)據(jù)集可能很少包括相同的用戶或項目,聚類方法能夠彌補(bǔ)原始評分矩陣的不足,增強(qiáng)跨域知識的關(guān)聯(lián)[20-21]。

      Li B等[22]為了解決用戶及項目不重疊跨域推薦場景下的數(shù)據(jù)稀疏問題,提出了一種基于聚類的密碼本知識遷移方法。如圖1(源自文獻(xiàn)[22])所示,電影域(輔助域)的評分矩陣為Xaux,圖書域(目標(biāo)域)的評分矩陣為Xtgt,兩個矩陣的評分均有一定缺失。該方法創(chuàng)建了評分?jǐn)?shù)據(jù)密集域的評分模式,把原始評分矩陣中的用戶、項目聚合為用戶類和項目類,構(gòu)建了用戶—項目類的矩陣Utgt,項目—項目類的矩陣Itgt;使用一種等價于雙向K均值聚類算法的正交非負(fù)矩陣三因子分解(Orthogonal Nonnegative Matrix Tri-Factorization,ONMTF)對輔助域評分矩陣進(jìn)行矩陣分解,矩陣求解目標(biāo)函數(shù)為:

      圖1 基于聚類密碼本的跨域知識遷移

      (1)

      s.t.UTU=I,VTV=I

      (2)

      其中,W是一個與X形狀相同的二進(jìn)制加權(quán)矩陣,用以屏蔽未出現(xiàn)的項目。目標(biāo)域評分矩陣的重建如圖1所示。(圖1、式(1)、式(2)及示例數(shù)據(jù)源自文獻(xiàn)[22])。

      (3)

      Chen W等[24]在用戶和項目聚類的基礎(chǔ)上引入標(biāo)簽聚類,并把跨域推薦和社交網(wǎng)絡(luò)知識進(jìn)行了結(jié)合。Rafailidis D等[21]提出了一種跨域用戶聚類和相似性學(xué)習(xí)聯(lián)合推薦算法(Joint Cross-Domain User Clustering and Similarity Learning,JCSL),在計算基于用戶和類的相似度時,使用聯(lián)合目標(biāo)函數(shù)進(jìn)行自適應(yīng)聚類。這些研究豐富了聚類法在跨域推薦領(lǐng)域的應(yīng)用,為跨域推薦研究中用戶、項目聚類提供了借鑒。

      基于聚類的跨域知識融合方法主要用于協(xié)同過濾推薦的用戶—項目評分知識聚合,由于原始評分?jǐn)?shù)據(jù)比較規(guī)范,采用的矩陣分解或聚類等技術(shù)較為成熟,通過引入輔助域評分知識建立了評分知識聚類+協(xié)同過濾的算法組合,因此計算效率較高、可移植性較強(qiáng),相對于單域協(xié)同過濾推薦具有一定的效果提升。但由于該類方法對評分?jǐn)?shù)據(jù)的類型、質(zhì)量和形式要求過于嚴(yán)格,知識類型單一,其本質(zhì)只是同類知識的數(shù)據(jù)聚合,知識融合的層次較淺,較難應(yīng)用于大數(shù)據(jù)環(huán)境下的多源異構(gòu)復(fù)雜知識場景。

      2.2 基于語義的跨域知識融合

      基于語義的方法起源于知識工程和本體論,主要思想是利用源域中的可用信息生成知識映射,然后將知識映射轉(zhuǎn)移到目標(biāo)域,根據(jù)生成的評級對項目進(jìn)行適當(dāng)?shù)胤诸怺19]。

      Fernández-Tobías I等[25]根據(jù)用戶正在訪問或瀏覽的城市中的興趣地點(Place of Interest,POI)與音樂之間存在的語義相似性,借助加權(quán)有向無環(huán)圖建立兩個域中的概念連接,為用戶提供音樂推薦。鏈接興趣地點和音樂藝術(shù)家的語義知識框架如圖2(源自文獻(xiàn)[25])所示,用戶的源域特征為“興趣地點”,目標(biāo)域特征為“音樂藝術(shù)家”,興趣地點和音樂藝術(shù)家分別代表了知識框架中的起止節(jié)點,框架目標(biāo)是在基于DBpedia鏈接知識語義圖中,自動發(fā)現(xiàn)實體從源域特征到實體之間的路徑。

      從興趣地點實體到音樂家實體發(fā)現(xiàn)3種潛在語義路徑:第一種路徑通過“城市”實體連接興趣地點和音樂藝術(shù)家,即可能存在在特定興趣地點城市出生、死亡或居住的音樂藝術(shù)家;第二種路徑通過“日期”實體連接興趣地點和音樂藝術(shù)家;第三種路徑以更復(fù)雜的方式進(jìn)行連接,使用實體“關(guān)鍵詞”關(guān)聯(lián)建筑和音樂類別。

      Nie W等[26]提出了一種面向社交網(wǎng)絡(luò)平臺視覺信息自動圖像標(biāo)注的跨域語義建模方法。首先,從采集到的文本信息中提取一組熱點主題用于圖像數(shù)據(jù)集的預(yù)處理;然后對提出的噪聲樣本進(jìn)行濾波,去除低相關(guān)性的照片;最后,利用跨域數(shù)據(jù)集從用戶生成內(nèi)容(User-generated Contents,UGCs)中發(fā)現(xiàn)每個語義概念的共同知識,通過語義轉(zhuǎn)移提升語義標(biāo)注的性能。

      (4)

      其中,tk為每個輔助域分類器的權(quán)重。

      Vf(x)的權(quán)重參數(shù)w使用最大邊值法確定,如式(5)(源自文獻(xiàn)[26]):

      (5)

      基于語義的跨域知識融合方法跳出了用戶—項目評分的知識范疇,從語義相似度的視角出發(fā),通過語義路徑、概念聯(lián)系或?qū)嶓w間關(guān)系,建立了多域用戶與項目之間的關(guān)聯(lián),為跨域推薦提供了數(shù)據(jù)支撐。此類方法拓展了推薦來源知識的維度,不再依賴于評分?jǐn)?shù)據(jù),但需要原始數(shù)據(jù)中蘊(yùn)含用戶和項目的內(nèi)容層面關(guān)聯(lián),或額外引入經(jīng)過加工的外部知識,且針對不同來源及類型的語義挖掘算法需要進(jìn)行定制研發(fā),知識融合方法的通用性和可移植性不強(qiáng)。

      2.3 基于圖模型的跨域知識融合

      基于圖模型方法使用圖來表示域中對象與其表征特征之間的關(guān)系,利用圖的思想建立異構(gòu)域間的知識連接[27]。

      在跨域推薦中,域Di可以表示為二部圖Gi={Vi,Ei},其中,Vi為圖中節(jié)點的集合,由兩類節(jié)點組成,包括ni個對象節(jié)點(包括用戶節(jié)點和項目節(jié)點)和mi個特征節(jié)點;Ei為Di域中邊的集合,邊只存在于不同類型的節(jié)點之間,表示對象節(jié)點和特征節(jié)點之間的關(guān)聯(lián)。令G0={V0,E0}為匹配圖,其中,V0包括來自多域的所有特征節(jié)點,E0表示連接不同域特征的邊集合?;诖藞D定義(m1+m2)×(m1+m2)連通矩陣X0,其中m1、m2分別為域D1、D2的特征元素數(shù)。

      將多個域中的圖進(jìn)行合并,能夠得到一個多部圖G={V,E},當(dāng)V=V1∪V2,E=E1∪E2∪E0時,G的結(jié)構(gòu)如圖3(源自文獻(xiàn)[27])所示。各域用戶節(jié)點和特征節(jié)點之間的關(guān)聯(lián)關(guān)系可以定義為一個(m1+m2+n1+n2)×(m1+m2+n1+n2)的連接矩陣X(源自文獻(xiàn)[27]),表示如下:

      圖3 跨兩域的多部圖結(jié)構(gòu)

      (6)

      在圖G中,不同域的對象節(jié)點之間沒有直接的連接,用戶節(jié)點和項目節(jié)點之間通過用戶特征、項目特征才能建立關(guān)聯(lián)。

      基于圖模型的跨域知識融合方法把推薦系統(tǒng)中的用戶和項目對象轉(zhuǎn)換為圖節(jié)點,并利用圖結(jié)構(gòu)框架把用戶特征、項目特征表示為特征節(jié)點,利用節(jié)點間的邊關(guān)系建立了用戶和項目的知識關(guān)聯(lián)。由于圖模型具有天然的結(jié)構(gòu)優(yōu)勢和融合能力,能夠建立多個異質(zhì)域之間知識特征之間的聯(lián)系,利用圖傳播等算法來度量不同域?qū)嶓w之間的全局相似度,進(jìn)而實現(xiàn)多域間的跨域推薦。圖模型方法拓展了知識融合的思路,為多域間的知識融合提供了理論指導(dǎo),經(jīng)典、成熟的圖計算方法也能夠在此基礎(chǔ)上移植到跨域推薦中。由于用戶及項目特征對于圖模型來說尤為重要,而現(xiàn)有研究在知識特征提取方面不夠充分,導(dǎo)致推薦效果的穩(wěn)定性差異較大。

      2.4 基于標(biāo)簽關(guān)聯(lián)的跨域知識融合

      對于不同類型的資源(如書籍、音樂、電影或網(wǎng)頁等),很難從中提取共同的特征來構(gòu)建不同域之間的橋梁,標(biāo)簽關(guān)聯(lián)是一種建立不同類型域間知識連接的有效方法[28]。

      在標(biāo)簽關(guān)聯(lián)推薦中,源域和目標(biāo)域可定義為DS/DT={U,R,T,Y},其中U、R和T分別是用戶、資源和標(biāo)簽的有限集,Y是它們之間的三元標(biāo)簽關(guān)系,Y?U×R×T。對于?u∈U,Yu=u×R×T。

      圖4 用戶興趣知識

      畫像映射算法(Profile Mapping Algorithm,PMA)可以解決跨域推薦中目標(biāo)域的用戶興趣數(shù)據(jù)稀疏和冷啟動問題,其利用源域的用戶數(shù)據(jù)生成目標(biāo)域的用戶畫像。如圖5(源自文獻(xiàn)[28])所示,在已知源域中用戶畫像的情況下,可以從用戶給定的畫像數(shù)據(jù)中找到與目標(biāo)域中每個標(biāo)簽最相似的標(biāo)簽,建立源域和目標(biāo)域標(biāo)簽之間的關(guān)聯(lián)。

      圖5 跨域用戶興趣標(biāo)簽映射

      張彬等[29]提出了基于多源用戶標(biāo)簽的跨域興趣融合模型,首先把多個域中的用戶興趣進(jìn)行標(biāo)簽化處理,然后利用跨域用戶識別和標(biāo)簽權(quán)重歸一方法得到多個域的用戶實體—標(biāo)簽矩陣,最后使用域權(quán)重影響系數(shù)對標(biāo)簽進(jìn)行融合,構(gòu)造具有復(fù)合權(quán)重的用戶興趣標(biāo)簽集。通過實驗證明融合模型能夠有效提高標(biāo)簽用戶覆蓋效果,在查全率不斷提高的情況下,融合域能夠保持較高的標(biāo)簽用戶查準(zhǔn)率,有效提高用戶興趣特征的描繪效果。

      基于標(biāo)簽的跨域知識融合方法在跨域知識特征提取和融合方面問題上具有較強(qiáng)的語義知識優(yōu)勢,共享利用含義相似的標(biāo)簽?zāi)軌蜃鳛檫B接域的橋梁,蘊(yùn)含語義信息的標(biāo)簽本質(zhì)上是對用戶或項目特征進(jìn)行的知識提取和歸納,能夠更好地表達(dá)和理解用戶的偏好?,F(xiàn)有基于標(biāo)簽的跨域知識融合方法能夠較好地提取合并多域用戶或項目特征,但對特征的聚合利用方法較為簡單,未充分發(fā)揮利用標(biāo)簽進(jìn)行跨域知識融合的優(yōu)勢。

      3 知識圖譜——跨域知識融合的新方向

      近年來,知識圖譜技術(shù)的出現(xiàn)為跨域知識融合研究提供了新的思路。知識圖譜是一種有向異構(gòu)信息網(wǎng)絡(luò),在跨域推薦中引入知識圖譜能夠把推薦系統(tǒng)的用戶、用戶興趣、項目及其屬性之間的關(guān)系進(jìn)行語義關(guān)聯(lián)和知識融合[30]。目前基于知識圖譜的推薦研究主要集中在單域推薦場景,少數(shù)研究涉及多域數(shù)據(jù),從知識融合的角度來看,主要分為基于路徑的知識關(guān)聯(lián)、基于嵌入的知識映射和基于混合方法的知識融合[31]。由于知識圖譜本身就具有跨域基因,相關(guān)研究能夠為跨域知識融合提供一定的借鑒[32]。

      基于路徑的知識關(guān)聯(lián)方法主要關(guān)注知識圖譜中項目之間的各種關(guān)聯(lián)路徑,通過節(jié)點路徑的特征來挖掘知識圖譜,捕獲項目知識之間復(fù)雜且有意義的關(guān)系,為項目推薦提供輔助信息。Noia T D等[33]提出了基于語義路徑的排名(Semantic Path-based Ranking,SPR)算法,從DBpedia鏈接開放數(shù)據(jù)中提取基于語義路徑的特征,利用圖的多關(guān)系結(jié)構(gòu)建立用戶知識和項目知識之間的連通性,并通過Web數(shù)據(jù)中的開放知識計算前N個推薦。實驗證明了該方法的有效性,在數(shù)據(jù)稀疏的場景中尤為明顯。Yu X等[34]提出一種融合異構(gòu)信息網(wǎng)絡(luò)的個性化實體推薦算法,將不同用戶的異構(gòu)關(guān)系進(jìn)行組合,利用用戶隱式反饋數(shù)據(jù)和個性化推薦模型提供高質(zhì)量的個性化推薦結(jié)果。該方法首先引入基于元路徑的潛在特征來表示用戶和項目間各種路徑的連通性,然后在全局和個性化兩個層次上定義推薦模型,并使用貝葉斯排序優(yōu)化技術(shù)對推薦模型進(jìn)行評估,并實驗證明了推薦方法的有效性?;诼窂降姆椒ㄈ诤狭隧椖块g的關(guān)聯(lián)知識,以自然、直觀的方式有效利用知識圖譜網(wǎng)絡(luò)結(jié)構(gòu),提升了推薦效果;但基于路徑的方法多依賴手工設(shè)計的元路徑,在不同場景實踐中需要人工設(shè)計路徑,現(xiàn)有方法如用在跨域項目推薦中算法復(fù)雜度較高,缺乏實用性。

      基于嵌入的知識映射方法使用知識圖嵌入算法把實體和關(guān)系映射到低維向量,再將其引入到推薦算法生成推薦列表。Palumbo E等[35]提出了一種從知識圖譜中學(xué)習(xí)用戶—項目相關(guān)性的推薦模型Entity2rec,從建立用戶—項目和項目—項目關(guān)系的知識圖譜出發(fā),通過神經(jīng)網(wǎng)絡(luò)將用戶屬性值訓(xùn)練為特征向量,利用機(jī)器學(xué)習(xí)排序函數(shù)生成前N項推薦列表,并通過對比實驗證明了該方法的有效性。Wang H等[36]提出了一種利用外部知識進(jìn)行新聞推薦的深度知識感知網(wǎng)絡(luò)(Deep Knowledge-aware Network,DKN)模型,該模型基于內(nèi)容進(jìn)行點擊率(Click-through Rate,CTR)預(yù)測,以一條最新新聞和一個用戶的點擊歷史作為輸入,輸出用戶點擊新聞的概率。該模型的知識感知神經(jīng)網(wǎng)絡(luò)(Knowledge-aware Convolutional Neural Networks,KCNN)把新聞的單詞嵌入、實體嵌入和上下文實體嵌入視為多個堆疊的通道,并生成知識感知的嵌入向量。Zhang L等[37]提出了一個知識感知表示的圖卷積網(wǎng)絡(luò)推薦模型(Knowledge-aware Representation Graph Convolutional Network for Recommendation,KCRec),把知識圖譜作為邊信息的來源,有效地捕獲用戶間和項目間的關(guān)聯(lián)性,建立了端到端的推薦框架。該模型通過在圖中鄰域之間傳播的關(guān)系,聚合項目特征并獲得用戶偏好的表示,并進(jìn)一步與圖卷積網(wǎng)絡(luò)集成,挖掘用戶潛在的長期興趣。在真實數(shù)據(jù)集上的實驗表明,該方法能夠有效地提高推薦性能?;谇度氲闹R映射方法不依賴元路徑的設(shè)計,在利用知識圖譜輔助推薦時具有較高的靈活性,但主流方法多為端到端的推薦框架,忽略了圖譜中的多條連接,學(xué)習(xí)到的實體嵌入在描述項目之間關(guān)系時不夠直觀,推薦過程缺乏可解釋性。

      基于路徑的知識關(guān)聯(lián)利用了知識圖譜中的實體連接關(guān)系,基于嵌入的知識映射能夠?qū)W習(xí)圖譜中的語義信息表示,但兩類方法都具有一定的局限性,部分研究者結(jié)合兩種方法的優(yōu)勢,基于混合方法進(jìn)行知識融合,進(jìn)而完成推薦任務(wù)。Wang H等[38]提出了一個端到端的知識圖譜感知推薦框架RippleNet,將用戶的歷史用戶看作知識圖譜的種子集,通過知識圖譜中的鏈接自動迭代擴(kuò)展用戶的潛在興趣。該方法把知識圖譜自然地融入推薦系統(tǒng),通過偏好傳播克服了現(xiàn)有基于路徑和基于嵌入的知識圖譜感知推薦方法的局限,通過實驗證明了混合方法的有效性。Wang X等[39]提出了一個基于知識圖譜的意識網(wǎng)絡(luò)(Knowledge Graph-based Intent Network,KGIN)推薦模型,把用戶意圖建模為知識圖譜關(guān)系的注意力組合,將來自多條路徑的關(guān)系信息集成在一起進(jìn)行關(guān)系路徑感知聚合,相對于只有一種關(guān)系的嵌入推薦模型,在意圖粒度上展示了與項目間的關(guān)系,并把關(guān)系路徑編碼到表示中,具有更好的性能和可解釋性。基于混合方法的知識融合相較基于路徑和基于嵌入的方法具有更優(yōu)的效果,但同時也提高了模型的復(fù)雜度,并帶來了更多的資源消耗。

      基于知識圖譜的跨域知識融合研究尚處于起步階段,多局限于兩域之間,隨著大數(shù)據(jù)環(huán)境下的數(shù)據(jù)域疊加,模型構(gòu)建的復(fù)雜度和難度也呈指數(shù)級增加,現(xiàn)有方法較難應(yīng)用于具有多輔助域的跨域推薦場景,對于外部知識、用戶興趣知識和社交網(wǎng)絡(luò)知識等多源異構(gòu)數(shù)據(jù)的知識融合利用和跨域交互等問題缺乏深入研究。

      4 總結(jié)與展望

      大數(shù)據(jù)環(huán)境帶來了多樣化的跨域數(shù)據(jù)資源,使得采集利用多源異構(gòu)數(shù)據(jù)成為可能,如何在跨域場景中有效地進(jìn)行知識融合,為推薦系統(tǒng)提供知識支撐,成為數(shù)字時代的重要需求?,F(xiàn)有跨域推薦中的知識融合方法從對單純的用戶—評分?jǐn)?shù)據(jù)進(jìn)行聚類,到引入語義信息的知識關(guān)聯(lián),研究者逐步認(rèn)識到了從知識層面考慮跨域推薦問題的優(yōu)勢;具有多域結(jié)構(gòu)優(yōu)勢的圖模型,為跨域推薦中的知識融合方法提供了圖挖掘算法支撐,基于標(biāo)簽的研究豐富了多域知識融合中的特征挖掘方法;知識圖譜技術(shù)的快速發(fā)展,為大數(shù)據(jù)環(huán)境下的跨域知識融合和推薦研究帶來了理論參考和方法集成,也為跨域推薦帶來了新的契機(jī)。

      上述研究拓展了跨域推薦的研究廣度,開辟了知識融合在推薦領(lǐng)域的新視角,但從知識融合的角度來看,跨域推薦研究與多維知識挖掘的結(jié)合深度仍然有限,知識融合與推薦方法的適配組合缺乏系統(tǒng)分析和評價。與此同時,多源異構(gòu)的大數(shù)據(jù)推薦場景變得越來越普遍,推薦需求變得愈加復(fù)雜,跨域推薦中的知識融合面臨著新的挑戰(zhàn),這些問題也將會成為新的研究方向和熱點。

      1)增強(qiáng)跨域知識融合方法的可擴(kuò)展性和可移植性。多數(shù)跨域推薦技術(shù)局限于各自特定的應(yīng)用場景,后續(xù)研究需考慮在數(shù)據(jù)源結(jié)構(gòu)、數(shù)據(jù)類型、數(shù)據(jù)規(guī)模變化較大的情況,如何進(jìn)行靈活的遷移和擴(kuò)展[5]。

      2)對多維度知識間的關(guān)聯(lián)進(jìn)行深度挖掘。現(xiàn)有方法較多關(guān)注域內(nèi)用戶與項目之間的知識關(guān)聯(lián),后續(xù)研究對于不同域間的實體關(guān)聯(lián)、具有語義知識的外部知識庫、富含用戶興趣知識社交網(wǎng)絡(luò)等因素考慮較少,這些復(fù)雜關(guān)系在跨域知識融合及推薦領(lǐng)域的作用未得到充分發(fā)揮。

      3)提高跨域知識融合和推薦的可解釋性。由于跨域推薦系統(tǒng)使用的知識較為分散,知識融合方法的復(fù)雜度相對較高,導(dǎo)致推薦結(jié)果的產(chǎn)生過程不夠直觀,未來研究會更加注重知識的融合過程的可視化,進(jìn)一步提高可解釋性。

      4)完善跨域知識融合的評測指標(biāo)。現(xiàn)有研究主要對跨域推薦性能的進(jìn)行評價,較少關(guān)注跨域知識融合的評價,對知識融合前后跨域推薦的覆蓋率、多樣性和新穎性等指標(biāo)的效果評價,也會成為未來的研究熱點之一。

      5)構(gòu)建基于知識圖譜的跨域知識融合和推薦框架。未來的跨域知識融合,將以構(gòu)建跨平臺、跨數(shù)據(jù)域的知識圖譜為基礎(chǔ),整合多源異構(gòu)知識,建立用戶、興趣標(biāo)簽、特征標(biāo)簽以及項目等類型實體關(guān)聯(lián)的多部圖跨域推薦框架,基于元路徑和圖嵌入方法為用戶提供多輔助域的推薦服務(wù),有效提升跨域知識融合和推薦效果。

      猜你喜歡
      跨域圖譜標(biāo)簽
      跨域異構(gòu)體系對抗聯(lián)合仿真試驗平臺
      基于多標(biāo)簽協(xié)同學(xué)習(xí)的跨域行人重識別
      為群眾辦實事,嶗山區(qū)打出“跨域通辦”組合拳
      讀報參考(2022年1期)2022-04-25 00:01:16
      G-SRv6 Policy在跨域端到端組網(wǎng)中的應(yīng)用
      繪一張成長圖譜
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      標(biāo)簽化傷害了誰
      永新县| 清远市| 北碚区| 拜泉县| 青冈县| 静宁县| 龙山县| 越西县| 贞丰县| 五峰| 彭山县| 南靖县| 淄博市| 凤山县| 汝州市| 承德市| 鄂尔多斯市| 上高县| 京山县| 星子县| 邮箱| 开封县| 武山县| 雅安市| 原平市| 裕民县| 平度市| 开原市| 平远县| 鄂伦春自治旗| 贵南县| 天津市| 高邮市| 四会市| 湛江市| 盐津县| 青海省| 邢台市| 喀喇沁旗| 阿鲁科尔沁旗| 远安县|