• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      跨領(lǐng)域推薦技術(shù)綜述

      2017-09-22 09:28:18陳雷慧匡俊陳輝曾煒鄭建兵高明
      關(guān)鍵詞:跨域領(lǐng)域矩陣

      陳雷慧,匡俊,陳輝,曾煒,鄭建兵,高明

      (1.華東師范大學數(shù)據(jù)科學與工程學院,上海200062; 2.深圳騰訊計算機系統(tǒng)有限公司,北京100080)

      跨領(lǐng)域推薦技術(shù)綜述

      陳雷慧1,匡俊1,陳輝2,曾煒2,鄭建兵1,高明1

      (1.華東師范大學數(shù)據(jù)科學與工程學院,上海200062; 2.深圳騰訊計算機系統(tǒng)有限公司,北京100080)

      隨著信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,信息過載的問題日趨嚴重.個性化推薦系統(tǒng)是解決這一問題的熱門技術(shù).推薦系統(tǒng)的核心在于推薦算法,在過去的十年里,基于單領(lǐng)域的協(xié)同過濾推薦算法應用最為廣泛.但用戶和項目數(shù)量的急劇增長使得傳統(tǒng)的協(xié)同過濾推薦算法面臨冷啟動和數(shù)據(jù)稀疏問題的挑戰(zhàn).跨領(lǐng)域推薦旨在整合來自不同領(lǐng)域的用戶偏好特征,針對每個用戶自身特點進行智能化感知,精準滿足用戶個性化需求,從而提高目標領(lǐng)域推薦結(jié)果的準確性和多樣性,現(xiàn)已成為推薦系統(tǒng)研究領(lǐng)域中的熱門話題.本文首先對跨領(lǐng)域推薦技術(shù)進行系統(tǒng)地研究和分析,概述跨領(lǐng)域推薦算法的相關(guān)概念、技術(shù)難點;其次對現(xiàn)有的跨領(lǐng)域推薦技術(shù)進行分類,總結(jié)出各自的優(yōu)點及不足;最后對跨領(lǐng)域推薦算法的性能分析方法進行詳盡的介紹.

      信息過載;個性化;跨領(lǐng)域推薦算法

      0 引言

      隨著互聯(lián)網(wǎng)和web 2.0技術(shù)的飛速發(fā)展,網(wǎng)絡上信息資源迅猛增長,進而導致“信息過載”的問題愈發(fā)嚴重.用戶從海量的文本、視頻、圖像和商品等資源中找到符合自己個性化需求的信息變得十分困難.個性化推薦系統(tǒng)是解決上述問題的關(guān)鍵技術(shù)之一.與搜索引擎相比,推薦系統(tǒng)能夠通過對用戶的歷史行為數(shù)據(jù)的研究,統(tǒng)計分析出用戶的興趣偏好,從而引導用戶發(fā)現(xiàn)自己的信息需求,實現(xiàn)個性化推薦.因此,這一技術(shù)已被廣泛地應用于電子商務、社交網(wǎng)絡和視頻網(wǎng)站等方面.

      傳統(tǒng)的個性化推薦系統(tǒng)都是基于單一領(lǐng)域的,即根據(jù)用戶對某一領(lǐng)域的偏好特征,為用戶提供該領(lǐng)域的推薦服務.例如,YouTube網(wǎng)站依據(jù)用戶觀看視頻的歷史記錄給用戶推薦他可能感興趣的視頻;Last.fm網(wǎng)站根據(jù)用戶對音樂所打的標簽給用戶推薦符合他興趣的音樂.迄今為止,應用最為廣泛的單領(lǐng)域推薦技術(shù)是協(xié)同過濾,其核心思想是給目標用戶推薦與他興趣偏好最為相似的用戶喜歡的項目,或者與他曾經(jīng)喜歡過的項目最為相似的項目.然而,隨著用戶規(guī)模和項目數(shù)量的急劇增長,傳統(tǒng)的協(xié)同過濾推薦算法的缺陷逐漸暴露出來,特別是新用戶、新項目和新系統(tǒng)的冷啟動以及用戶行為數(shù)據(jù)稀疏的問題,這些問題致使協(xié)同過濾推薦性能降低,妨礙算法的進一步推廣.不難發(fā)現(xiàn),web 2.0模式下的用戶不僅僅是互聯(lián)網(wǎng)信息的使用者,更是信息的生產(chǎn)者.用戶在不同的社交媒體和電子商務網(wǎng)站中直接或間接地表達出自己不同角度的興趣偏好.研究表明,來自于不同平臺(社交媒體和電子商務網(wǎng)站等)的用戶興趣偏好或項目特征(屬性、類別等)之間存在很強的關(guān)聯(lián)性和依賴性[1].例如,通常情況下,喜歡閱讀推理小說的用戶更傾向于觀看懸疑類電影,而觀看電影之后也會購買一些與電影相關(guān)的周邊,如CD、明星同款商品等.基于這一現(xiàn)象,學術(shù)界和業(yè)界提出了跨領(lǐng)域推薦技術(shù):從其它領(lǐng)域中獲取有效的用戶偏好或項目特征的信息來豐富目標領(lǐng)域中的數(shù)據(jù),精準地預測用戶行為,提供更加合理和個性化的推薦服務.例如,給購買學習參考書的用戶,推薦相關(guān)視頻教程、在線練習題等;根據(jù)出行游客的旅游目的景點,給他們推薦酒店、特色美食等.概括來說,成熟領(lǐng)域積累了大量的用戶行為數(shù)據(jù),通過領(lǐng)域間信息資源的共享和互補,不僅可以有效地緩解用戶訪問量少的推薦系統(tǒng)所面臨的數(shù)據(jù)稀疏和冷啟動問題,而且可以提高用戶滿意度、改善用戶體驗.但是,不同領(lǐng)域數(shù)據(jù)的異構(gòu)性、知識的獨立性使得傳統(tǒng)的單領(lǐng)域推薦算法無法直接應用于提供推薦服務.針對這一問題,學術(shù)界和業(yè)界開展了大量的研究和實踐工作,提出了很多跨領(lǐng)域推薦算法的模型和框架.本文主要研究了跨領(lǐng)域推薦技術(shù),對其做了系統(tǒng)的分類,并結(jié)合各自的特點進行了分析和總結(jié).

      本文結(jié)構(gòu)安排如下:第1節(jié)概述跨領(lǐng)域推薦算法的相關(guān)概念、技術(shù)難點;第2節(jié)對現(xiàn)有的跨領(lǐng)域推薦技術(shù)進行分類,總結(jié)出各自的優(yōu)點及不足;第3節(jié)詳盡地介紹跨領(lǐng)域推薦算法的性能分析方法;最后1節(jié)對全文進行總結(jié)并對未來的研究熱點做出展望.

      1 跨領(lǐng)域推薦系統(tǒng)概述

      跨領(lǐng)域推薦旨在整合來自不同領(lǐng)域的用戶偏好特征,針對每個用戶自身特點進行智能化感知,精準滿足用戶個性化需求,從而提高目標領(lǐng)域推薦結(jié)果的準確性和多樣性.與傳統(tǒng)的單領(lǐng)域推薦系統(tǒng)相似,跨領(lǐng)域推薦系統(tǒng)也有3個重要的模塊(如圖1所示):用戶建模模塊、推薦對象建模模塊和推薦算法模塊.兩者區(qū)別在于給用戶和待推薦對象建模時,跨領(lǐng)域推薦利用的是融合多個輔助領(lǐng)域信息的數(shù)據(jù)而不僅僅是目標領(lǐng)域提供的數(shù)據(jù);而在進行推薦的時候,它也可以根據(jù)提高準確性或多樣性需求的不同,來靈活地選定用戶群體或待推薦對象[2].

      圖1 跨領(lǐng)域推薦系統(tǒng)流程Fig.1 The process for cross-domain recommendation

      1.1 “域”的定義

      學術(shù)界提出了多種關(guān)于“域”的定義.例如,文獻[3]認為同一綜合型網(wǎng)站上的圖書和電影屬于不同的領(lǐng)域;文獻[4]則將來自不同電影視頻網(wǎng)站(MoveLens,MoviePilot,Netf l ix)的用戶觀看歷史記錄視為源自不同領(lǐng)域的用戶行為數(shù)據(jù).據(jù)我們所知,學術(shù)界和業(yè)界至今沒有給出一個關(guān)于“域”的統(tǒng)一定義.通過調(diào)研大量的相關(guān)研究工作[2,5-7],本文將“域”分為三類:“系統(tǒng)域”、“概念域”和“時間域”.

      ?系統(tǒng)域:按照數(shù)據(jù)集所屬的系統(tǒng)來劃分.例如,豆瓣網(wǎng)站上的數(shù)據(jù)集和亞馬遜網(wǎng)站上的數(shù)據(jù)集就分別屬于不同的領(lǐng)域.

      ?概念域:將同一系統(tǒng)中的數(shù)據(jù),按照不同的概念層次進行劃分.例如,題材層次(動作電影和喜劇電影為不同的領(lǐng)域)、對象層次(電影和圖書為不同的領(lǐng)域,即便在題材上有重復的地方).

      ?時間域:依據(jù)行為產(chǎn)生的時間對數(shù)據(jù)集進行域的劃分.例如2017年1月至6月的數(shù)據(jù)和2017年7月至12月的數(shù)據(jù)視為不同領(lǐng)域的數(shù)據(jù).

      總體說來,前兩種關(guān)于“域”的劃分方式更為常見.

      1.2 跨領(lǐng)域推薦的任務

      本文用符號DT表示目標領(lǐng)域、DS表示源領(lǐng)域(或輔助領(lǐng)域).源領(lǐng)域可由多個不同領(lǐng)域組成,用于對目標領(lǐng)域DT中的信息進行補充和豐富.本文在結(jié)合I Fern′andez-Tob′?as等人在文獻[2]中所提出的6種跨領(lǐng)域推薦任務基礎之上,綜合考慮實際應用需求,將跨領(lǐng)域推薦的任務劃分為以下3類:

      ?緩解冷啟動問題.推薦系統(tǒng)需要根據(jù)用戶的歷史行為數(shù)據(jù)來預測用戶對其他項目的偏好程度.在面對新系統(tǒng)、新用戶和新項目的時候,會因為缺少用戶行為數(shù)據(jù)而無法提供推薦服務.利用從源領(lǐng)域中搜集到的用戶偏好信息來預測用戶的行為能夠有效地彌補信息缺失的問題.

      ?提高準確度.個性化推薦系統(tǒng)中用戶和項目數(shù)量都非常大,但是大部分用戶只會和一小部分的項目有交互,這就導致用戶項目評分矩陣十分稀疏,降低推薦性能.合理地應用源領(lǐng)域中的信息來增強目標領(lǐng)域評分矩陣的密集程度,可以提高系統(tǒng)預測的精度.

      ?增強多樣性.同一領(lǐng)域中的項目種類通常是單一的、相似的、冗余的,并不能滿足用戶多樣的興趣需求.將不同領(lǐng)域中的項目加入到待推薦對象中,是提高推薦結(jié)果多樣性的可靠方案.

      1.3 跨領(lǐng)域推薦面臨的挑戰(zhàn)

      跨領(lǐng)域推薦能夠?qū)嵤┑囊粋€關(guān)鍵性的假設是:用戶的興趣偏好或項目特征在領(lǐng)域之間存在一致性或相關(guān)性.這一假設也在一些研究工作[8-9]中得到佐證.跨領(lǐng)域推薦利用的正是領(lǐng)域間的一致性或相關(guān)性,如用戶、項目的交集,用戶興趣、項目特征的相似程度,潛在因子的相互關(guān)系等進行知識遷移,從而彌補目標領(lǐng)域所面臨的信息不足的問題,改善推薦性能.同時跨領(lǐng)域推薦也是一個極具挑戰(zhàn)性的研究領(lǐng)域,其主要原因分析如下.

      ?數(shù)據(jù)海量性:海量數(shù)據(jù)是現(xiàn)今互聯(lián)網(wǎng)應用的典型特征,大多數(shù)推薦算法在海量數(shù)據(jù)場景下喪失優(yōu)勢,因此簡單、可擴展、可并行化等特點成為跨領(lǐng)域推薦算法的必備特征.

      ?數(shù)據(jù)異構(gòu)性:不同領(lǐng)域具有不同的用戶群體,不同的推薦對象,以及不同的用戶行為數(shù)據(jù)結(jié)構(gòu),譬如評分記錄、購物列表和瀏覽日志等,多源異構(gòu)信息對象的融合是跨領(lǐng)域推薦所面臨的最大挑戰(zhàn).

      ?數(shù)據(jù)稀疏性:Power Law是在社交網(wǎng)絡普遍存在的一種現(xiàn)象.簡言之,大部分用戶只會和一小部分的項目有交互.這就導致訓練樣本數(shù)據(jù)十分稀疏,大大降低推薦模型的泛化能力.而對大多數(shù)基于監(jiān)督、半監(jiān)督的學習模型而言,它們往往是對訓練數(shù)據(jù)集大小敏感的,因此數(shù)據(jù)稀疏也就成為訓練此類模型的一個特別棘手的問題.

      ?數(shù)據(jù)相依性:在實際生活中,同一領(lǐng)域甚至不同領(lǐng)域中的用戶的行為并不是互相獨立的,依據(jù)同質(zhì)性原理(Homophily),興趣行為相似的用戶偏向于喜好相似類型的項目,如何挖掘和利用用戶間隱藏的偏好關(guān)系成為一個難題.

      ?數(shù)據(jù)低質(zhì)性:源領(lǐng)域中可獲得的信息有用戶注冊信息、評分數(shù)據(jù)、瀏覽記錄和點擊情況等.但是,并不是所有的信息都有利于改善目標領(lǐng)域的推薦性能的.不相關(guān)的信息如果被遷移進目標領(lǐng)域可能會成為“噪聲”,增加算法訓練的復雜度,降低推薦結(jié)果的準確性.

      1.4 跨領(lǐng)域推薦的場景

      在實際應用中,不同領(lǐng)域間用戶的重疊信息(Overlapped Information)對領(lǐng)域間信息資源或知識的共享和遷移起著至關(guān)重要的作用,同時也是在設計跨域推薦方案時首先應當考慮的問題.按照用戶重疊程度的不同可將跨域推薦的場景分為3類:領(lǐng)域間用戶完全重疊(Fully-overlap)、領(lǐng)域間用戶部分重疊(Partially-overlap)以及領(lǐng)域間用戶完全不重疊(Non-overlap).之所以這么劃分,是因為領(lǐng)域間信息資源或知識共享和遷移的方式會隨著有無用戶交集而有所不同.從圖2可以看出,當領(lǐng)域間用戶完全重疊時,可將兩個領(lǐng)域合并,從而輕易地將跨域推薦問題轉(zhuǎn)換為單領(lǐng)域推薦;當領(lǐng)域間用戶部分重疊時,這部分共享用戶便成為領(lǐng)域間信息共享和遷移的橋梁;當領(lǐng)域間用戶完全不重疊時,就需要通過挖掘領(lǐng)域間隱藏的共同用戶或其他關(guān)系進行遷移學習.當然,領(lǐng)域間的項目也可能存在交集.但用戶和項目在推薦系統(tǒng)所擔當?shù)慕巧菍Φ鹊?因此,本文著重對領(lǐng)域間不同的用戶重疊情況下的跨域推薦技術(shù)進行研究,項目重疊情況下的推薦方案與其類似,不做贅述.

      圖2 跨域推薦的3類場景Fig.2 Cross-domain recommendation scenarios

      主流的跨域推薦算法有3類:基于協(xié)同過濾關(guān)系的跨域推薦、基于語義關(guān)系的跨域推薦以及基于深度學習的跨域推薦.其中,協(xié)同過濾關(guān)系主要指用戶或項目的近鄰關(guān)系、隱語義模型等;語義關(guān)系主要指項目屬性、標簽信息、語義網(wǎng)絡關(guān)系和關(guān)聯(lián)關(guān)系等[6].然而,同一種方法在不同的跨域推薦場景下,推薦性能不盡相同.往往需要針對不同的推薦場景而采取不同的方案.下面將依據(jù)不同的推薦場景來介紹跨域推薦技術(shù).

      2 領(lǐng)域間用戶完全重疊的跨域推薦方法

      現(xiàn)實生活中,越來越多的網(wǎng)站呈現(xiàn)出向綜合型的門戶網(wǎng)站轉(zhuǎn)變的趨勢,其所提供的推薦對象囊括了多個不同的領(lǐng)域.例如,Amazon除了提供圖書購買外,還有服飾、電子器件的銷售;著名的社區(qū)網(wǎng)站——豆瓣,以書影音起家,現(xiàn)在還提供線下同城活動,小組話題交流等多種服務.若從概念域角度來說,書籍、電子器件和影音等便為不同領(lǐng)域中的項目,而領(lǐng)域間的用戶群體完全相同.此時,一種最直觀的想法是將不同領(lǐng)域的用戶行為數(shù)據(jù)整合為一個整體,即一個更大的“單領(lǐng)域”,從而將跨域推薦問題轉(zhuǎn)化成單領(lǐng)域推薦問題.

      2.1 基于協(xié)同過濾關(guān)系的跨域推薦

      文獻[10-11]均提出一種集中式的協(xié)同過濾模型.如圖3所示,模型將來自不同領(lǐng)域的評分矩陣(Rs,Rt)合并為一個評分矩陣R,并采用單領(lǐng)域協(xié)同過濾模型進行個性化推薦,譬如基于項目的協(xié)同過濾推薦、基于用戶的協(xié)同過濾推薦.這種方式優(yōu)點在于簡單,便于單領(lǐng)域推薦算法的直接應用.然而,實施評分矩陣合并的前提是不同領(lǐng)域遵循相同的評分機制.

      圖3 集中式的協(xié)同過濾模型Fig.3 Centralized collaborative fi ltering model

      基于矩陣合并的跨域推薦方案的缺陷在于忽視了領(lǐng)域間的差異.在某些情況下該方案并不能提高目標領(lǐng)域的推薦性能,反而有可能引入“噪聲”數(shù)據(jù)降低目標領(lǐng)域的預測精度.為了克服這一缺點,文獻[12]提出了一種基于聯(lián)合矩陣分解的跨領(lǐng)域推薦算法.與傳統(tǒng)的基于矩陣分解的單領(lǐng)域推薦算法相似,均是通過最小化損失函數(shù)來獲得兩個特征矩陣:用戶特征向量矩陣U和項目特征向量矩陣V,最后再通過計算U VT還原評分矩陣.不同的是,聯(lián)合矩陣分解損失函數(shù)的構(gòu)造是按照不同的權(quán)重系數(shù)將各領(lǐng)域矩陣分解的損失函數(shù)相加:

      其中,U、V(s)、V(t)為模型的參數(shù),分別表示用戶特征向量矩陣、源領(lǐng)域項目特征向量矩陣以及目標領(lǐng)域項目特征向量矩陣.權(quán)重系數(shù)α控制兩個領(lǐng)域中的損失函數(shù)在模型訓練過程中所占的比重,由反復試驗來確定.除了對兩個評分矩陣進行聯(lián)合訓練外,香港科技大學潘微科等人提出一種對二元信息矩陣(喜歡與不喜歡,購買與不購買等)和評分矩陣進行聯(lián)合分解的方案[13],也有效地彌補了目標領(lǐng)域數(shù)據(jù)稀疏的問題,但是該模型要求兩個矩陣中的用戶、項目必須嚴格一致.文獻[14]則同時對兩個領(lǐng)域中的二元信息矩陣和用戶評論信息進行聯(lián)合建模,得到用戶特征向量;并通過訓練出兩個非線性的映射函數(shù),一個用于將源領(lǐng)域中的用戶偏好信息映射到目標領(lǐng)域中,另一個則用于將源領(lǐng)域中的用戶興趣轉(zhuǎn)換為目標領(lǐng)域中用戶的興趣.相對來說,這個模型更能夠保留住領(lǐng)域間的獨立性和差異性.

      張量分解是近幾年推薦系統(tǒng)的研究熱點,主要是通過在二維評分矩陣中加入一維或者多維信息,如標簽[15-16]、領(lǐng)域[17]等信息來獲得更為全面的用戶的偏好特征.在評分矩陣中,加入領(lǐng)域信息,構(gòu)造一個用戶–項目–領(lǐng)域(user-item-domain)的三階向量(如圖4左圖所示),是一種較為新穎的用于解決領(lǐng)域間用戶為共同維度的跨領(lǐng)域推薦問題的方法.若將該三階張量按正面切片的形式表示可發(fā)現(xiàn)每個切片正好是每個領(lǐng)域的評分矩陣Rd∈Rm×nd(d=1,2,…,n).然而,不同領(lǐng)域中項目數(shù)量的不同,導致該三階張量不是一個規(guī)則的“方塊”.相應的,傳統(tǒng)的基于“方塊”的張量分解模型:CP模型[18]、PARAFAC模型[19]便不能直接應用.

      文獻[17]將基于PARAFAC2[20]的張量分解算法應用到跨域推薦中,成功解決了上述問題.該跨域推薦模型首先引入n個領(lǐng)域獨立的矩陣Pd∈Rnd×n,通過一個可逆的變換Yd=RdPd,Yd∈Rm×n,將不同領(lǐng)域的評分矩陣轉(zhuǎn)變?yōu)榫哂邢嗤S度m×n的信息矩陣,從而使得不規(guī)則的用戶–項目–領(lǐng)域三階張量成功地轉(zhuǎn)換為規(guī)則的張量(如圖4右圖所示).該模型張量分解的目標函數(shù)為:

      其中,Σd=diag(Cd,.),wd為權(quán)重因子,為了調(diào)整每個切片的損失值所占總體的比重.最小化目標函數(shù)訓練出模型參數(shù)U,V,C,Pd后,通過計算UΣdVT還原每個切片Yd,最終由一個逆變換得到原來的評分矩陣.權(quán)重因子的設置是求解和優(yōu)化該模型最大的瓶頸,文中采用神經(jīng)網(wǎng)絡模型自動找出最優(yōu)的領(lǐng)域權(quán)重因子,有效減少了人工設置權(quán)重參數(shù)的代價,但一定程度上也加大了模型訓練過程的復雜度.Song等人[21]認為相比較于評分信息,用戶的評論信息不僅能表達出用戶對項目的喜好,還能涵蓋用戶其他方面的興趣偏好.因此,他們提出了一種基于評論信息的聯(lián)合張量分解模型來進行跨域推薦.該模型利用文獻[22]所提出的AIRS方法評分信息進行訓練,從多個不同角度分析用戶的評論,得到用戶在每一角度上的評分和關(guān)心程度.以此作為輸入構(gòu)建用戶–項目–角度(user-item-aspect)三階張量,通過源領(lǐng)域和目標領(lǐng)域共享特征向量實現(xiàn)知識遷移.該模型可以較好地解決冷啟動問題.

      圖4 不規(guī)則的用戶–項目–領(lǐng)域三階張量轉(zhuǎn)換為規(guī)則的張量Fig.4 Slices of rating matrices for each domain are transformed into a cubical tensor

      2.2 基于語義關(guān)系的跨域推薦

      在這一推薦場景下,基于語義關(guān)系進行跨域推薦的研究相對較少,主要為基于圖模型的跨域推薦算法.語義關(guān)系主要指項目屬性、標簽信息、語義網(wǎng)絡關(guān)系和關(guān)聯(lián)關(guān)系等,圖模型中會將上述的相關(guān)信息轉(zhuǎn)換為邊和權(quán)重.2015年,Jiang等人提出跨域推薦模型[23]:將不同的領(lǐng)域通過社交網(wǎng)絡相互連接起來,構(gòu)成一個以社交網(wǎng)絡為中心的星型結(jié)構(gòu)的混合圖(star-structured hybrid graph).對構(gòu)建好的網(wǎng)絡圖采用HRW(Hybrid Random Walk)算法來預測用戶與項目之間的關(guān)系.特別地,如圖5所示,除了考慮用戶與各領(lǐng)域中項目的交互關(guān)系外(虛線表示),每個領(lǐng)域中項目的語義關(guān)系(實線表示)也被用于知識的遷移.這是解決領(lǐng)域間數(shù)據(jù)異構(gòu)問題的一個行之有效的方法.文獻[24]提出利用標簽體系解決異構(gòu)問題,成功實現(xiàn)了依據(jù)微博上的博文給用戶推薦電影的跨域推薦服務.其核心在于,以用戶博文上的標簽和電影標簽之間的語義關(guān)系為橋梁(如圖6所示,虛線表示用戶–博文標簽、電影–電影標簽之間的關(guān)系,實線表示語義關(guān)系),將用戶和電影關(guān)聯(lián)起來,組成一個多部圖,再基于圖模型進行用戶偏好預測.這類模型在解決數(shù)據(jù)稀疏、冷啟動以及領(lǐng)域間數(shù)據(jù)異構(gòu)方面很有優(yōu)勢.

      圖5 星型結(jié)構(gòu)混合圖Fig.5 A Star-structured hybrid graph

      圖6 跨領(lǐng)域多部圖Fig.6 A multi-partite graph across two domains

      3 領(lǐng)域間用戶不重疊的跨域推薦方法

      隱私保護和商業(yè)競爭等原因使得跨域推薦算法的設計者難以獲得不同領(lǐng)域中用戶群體的重疊情況,相應地就無法利用重疊的用戶集作為領(lǐng)域間信息資源共享、遷移的橋梁.解決這一場景下的跨域推薦問題有兩個途徑:①采用用戶匹配算法[25-27]挖掘出隱藏的重疊用戶集,將其轉(zhuǎn)換為領(lǐng)域間用戶有重疊的跨域推薦問題;②基于協(xié)同過濾或語義關(guān)系進行知識遷移.本節(jié)著重介紹途徑二的相關(guān)技術(shù),途徑一的相關(guān)算法可參照第2節(jié)和第4節(jié)的內(nèi)容.

      3.1 基于協(xié)同過濾關(guān)系的跨域推薦

      隱語義模型是隱含語義分析技術(shù)的一種,也是推薦系統(tǒng)領(lǐng)域一個熱門的研究話題.其核心思想是通過聚類或矩陣分解等方法將稀疏高維的用戶–項目矩陣映射到一個低維的隱空間(Latent Space)中,找出潛在的主題或類別來表示用戶的偏好和項目的特征從而能夠以緊湊、簡略的特征向量來表征用戶、項目,即用戶、項目的隱語義模型.那么,在跨領(lǐng)域推薦情境中,自然可以想到將源領(lǐng)域中用戶、項目的隱語義模型作為遷移學習對象,來對目標領(lǐng)域中的用戶、項目特征向量進行補充和增強.然而,用戶、項目特征向量可以在領(lǐng)域間共享或融合的前提是用戶、項目必須嚴格一致或存在很強的相似性.因此,如何有效地挖掘出領(lǐng)域間潛在的一致性關(guān)系或用戶間的相似程度,成為設計這類算法的核心問題.

      文獻[28]提出一種融合標簽的協(xié)同過濾的跨領(lǐng)域推薦算法.模型首先利用標簽系統(tǒng)中豐富的、用戶給項目所標注的標簽信息,計算出用戶–用戶的相似度矩陣SU和項目–項目的相似度矩陣SV.并將這一信息作為平滑項對概率矩陣分解模型PMF[29]進行改進,使得訓練出的用戶、項目特征向量在盡可能降低預測評分與實際評分誤差的基礎之上,還能滿足用戶之間、項目之間的相似度關(guān)系.模型的目標函數(shù)為:

      其中,Md、Nd、R(d)、U(d)、V(d)分別代表領(lǐng)域d∈{s,t}中的用戶數(shù)量、項目數(shù)量、評分矩陣、用戶特征向量矩陣、項目特征向量矩陣;I為示性矩陣,當對應的評分或相似度不為0,其值為1,否則為0;α、β、λ為模型訓練參數(shù).該模型框架靈活,對性能改善的效果明顯.但是領(lǐng)域間知識遷移完全依賴于用戶、項目相似,對用戶、項目之間相似度的計算敏感.

      除了利用用戶打標簽的行為挖掘領(lǐng)域間隱藏的關(guān)系外,Li等人在2010年提出一種密碼本遷移模型(Codebook Transfer Model,CBT)[1].該模型從用戶和項目兩個角度對評分矩陣進行聯(lián)合聚類,發(fā)現(xiàn)來自不同領(lǐng)域的評分矩陣之間存在一個完全一致的用戶–項目的聚級評分矩陣,并將其形象地稱之為“密碼本”,用于知識遷移.具體做法如下:首先通過正交非負三因式(Orthogonal nonnegative matrix tri-factorization,ONMTF)[30]模型對源領(lǐng)域評分矩陣RS進行分解得到兩個特征向量矩陣Us、Vs,然后利用公式

      求出“密碼本”即矩陣B,其中符號?表示矩陣按元素相除.最終通過最小化目標函數(shù):

      訓練出目標領(lǐng)域中的用戶、項目特征向量矩陣Ut、Vt.矩陣I是二值的示性矩陣.在這個方法的基礎之上,Li等人又提出一個更為通用的模型—–評分矩陣生成模型(Rating-Matrix Generative Model,RMGM)[8].該模型不再僅僅依賴于單個數(shù)據(jù)豐富的源領(lǐng)域,而是將多個評分矩陣都合并到一起并同時對用戶、項目兩個維度進行共同聚類,提取出聚級評分矩陣.此外,還學習出每個用戶隸屬于不同的用戶聚類的概率分布,每個項目隸屬于不同項目組的概率分布,以及每個聚類上的評分的概率分布,至此,評分矩陣生成模型就得到了.當預測一個用戶對項目的評分情況時,首先按用戶、項目隸屬于用戶組、項目組的概率分布情況找到用戶項目聚類,然后根據(jù)該聚類上的評分概率分布情況確定評分,即為用戶對項目的評分.受這兩種方法啟發(fā),文獻[31]在用戶–項目二維評分矩陣中,加入一維標簽信息,通過對從源領(lǐng)域中用戶、項目、標簽同時聚類,得到一個信息量更為豐富的簇級張量來緩解目標領(lǐng)域數(shù)據(jù)稀疏的問題.

      上述3種方法的不足在于抹平了領(lǐng)域間的差異.針對CBT模型,文獻[6]提出一種既考慮領(lǐng)域之間相同因素也考慮差異信息的跨域推薦算法對其進行改進.算法將源領(lǐng)域和目標領(lǐng)域潛在聚級評分矩陣劃分為共有部分B0和本領(lǐng)域個性化部分Bs,Bt,求解的目標函數(shù)為:

      通過不斷地迭代更新,求出最后的模型參數(shù)B0,Bs,Bt.與其類似,文獻[32]提出的PCLF(Probabilistic Cluster-level Latent Factor)模型以及文獻[33]提出的CLFM(Clusterlevel Based Latent Factor Model)模型也是同時訓練出領(lǐng)域間共享的用戶–項目聚級評分矩陣和各領(lǐng)域的個性化的特征矩陣來提高跨域推薦性能的.而對RMGM模型的改進有TALMUD(Transfer Learning for Multiple Domains)模型[34],該模型通過對每個源領(lǐng)域都訓練出一個互相獨立的聚級評分矩陣并以不同的權(quán)重比例對目標領(lǐng)域進行數(shù)據(jù)補充,以保留領(lǐng)域間的差異性和獨立性.基于評分聚類模型的最大缺陷在于缺少理論支撐.只有在領(lǐng)域間具有很強的相關(guān)性的情況下,才能起到改善目標領(lǐng)域推薦準確度的作用.

      3.2 基于語義關(guān)系的跨域推薦

      Chuang等人[35]基于項目屬性交集提出了一種用于提高推薦結(jié)果多樣性的模型:將那些在項目屬性上和用戶歷史購買的項目有交集的項目,推薦給用戶.但實際上不同領(lǐng)域中項目的高度異構(gòu)性導致項目間共同屬性很少甚至沒有.

      因此,有一些工作借助于社交網(wǎng)絡中的標簽信息,來挖掘領(lǐng)域間用戶、項目隱藏的關(guān)系.其中一種方案是以Wikipedia[36]、WordNet[37]和情緒[38]分類體系為中間載體,基于語義相似度、關(guān)聯(lián)規(guī)則將不同領(lǐng)域中的標簽映射到上述分類體系中,構(gòu)建由分類體系中的類別而構(gòu)成的用戶偏好特征,從而獲得更為精準的用戶相似度信息.另外一種方案是利用LDA主題模型[39]對用戶所打的標簽信息進行建模[40]構(gòu)建出一個不同領(lǐng)域共享的用戶特征(user prof i le)主題分布空間,再基于這一空間找出不同領(lǐng)域中偏好相近的用戶,實施跨域推薦.

      另外,還有一些工作利用外部知識庫(Wikipedia,DBpedia)構(gòu)造語義網(wǎng)絡,來解決領(lǐng)域間數(shù)據(jù)異構(gòu)問題.文獻[41]通過分析用戶登錄日志獲取用戶信息(User prof i le)和待推薦對象的文本信息(Recommender context),并將這兩部分信息與Wikipedia的頁面建立對應關(guān)系.再利用Wikipedia頁面間的鏈接信息(Wikipedia hyperlinks),構(gòu)建語義關(guān)系網(wǎng)絡.最終基于馬爾科夫模型獲得用戶到達每個待推薦對象的概率,產(chǎn)生推薦結(jié)果.文獻[42-43]通過類似的方法構(gòu)建語義網(wǎng)絡,實現(xiàn)了音樂和名勝古跡的跨域推薦.此外,Benjamin Heitmann等人[44]利用由DBpedia構(gòu)建的知識圖譜來連接不同的領(lǐng)域,設計出一種即使在目標領(lǐng)域沒有用戶行為數(shù)據(jù)也能提供推薦服務的跨域推薦算法SemStim.

      4 領(lǐng)域間用戶部分重疊的跨域推薦方法

      文獻[45]中提到不同領(lǐng)域中的用戶集合完全重疊和完全不重疊是兩種比較極端的情況,現(xiàn)實生活中領(lǐng)域間的用戶集合更多的是存在部分重疊.關(guān)于這一點,其實不難理解.因為現(xiàn)在很多網(wǎng)站都會提供其他賬號登錄的入口,從這一角度出發(fā),就能夠找到不同領(lǐng)域中的同一用戶.此外文中通過實驗證明了重疊的這一小部分用戶其實在每個領(lǐng)域中都和超過80%的項目都有過交互行為.利用這部分信息作為領(lǐng)域間信息共享和遷移的橋梁是可靠且有效的.

      4.1 基于協(xié)同過濾關(guān)系的跨域推薦

      Berkovsky等人[11]提出一種啟發(fā)式跨領(lǐng)域推薦算法:首先利用源領(lǐng)域中的用戶評分矩陣計算出用戶的K近鄰列表.再依據(jù)重疊的用戶將近鄰信息導入到目標領(lǐng)域中以豐富用戶模型.與其類似的,Shapira等人[46]用Facebook社交網(wǎng)絡中的好友關(guān)系來增強目標領(lǐng)域中的用戶模型.Tiroshi等人[47]則進一步采用隨機游走算法從社交網(wǎng)絡中挖掘出更多隱含的用戶近鄰信息.

      Jiang等人[45]提出一種半監(jiān)督的基于聯(lián)合矩陣分解的遷移學習方法,該模型認為在源領(lǐng)域中興趣偏好相似的用戶在目標領(lǐng)域中的興趣偏好也應當相似.最終矩陣分解的最小化目標函數(shù)為:

      其中,λ為經(jīng)驗參數(shù),通過實驗獲得.W(s)、W(t)為源領(lǐng)域和目標領(lǐng)域評分矩陣的二值示性矩陣,W(s,t)為源領(lǐng)域和目標領(lǐng)域用戶是否為同一用戶的二值示性矩陣,若用戶i和用戶j為同一用戶,則為1,否則為0.A(s)、A(t)為源領(lǐng)域和目標領(lǐng)域中用戶相似度矩陣,計算公式如下:

      上述的幾種方法對于領(lǐng)域間的用戶集合的交集大小十分敏感.交集越大,對目標領(lǐng)域推薦性能的改善越大;反之,交集越小,對目標領(lǐng)域推薦性能的提升越不明顯.然而,實際應用中,能夠直接被觀測到的領(lǐng)域間的用戶交集是很小的,大部分的用戶關(guān)系被隱藏起來.為了充分利用領(lǐng)域間潛藏的用戶、項目關(guān)系,一些工作[48-49]基于共同的用戶將兩個領(lǐng)域連接成一個連通的圖,采用隨機游走算法挖掘和利用領(lǐng)域間潛藏的關(guān)系進行遷移學習,并取得了很好的推薦效果.

      4.2 基于深度學習的跨域推薦

      迄今為止,深度學習在跨域推薦系統(tǒng)中的應用不是很廣泛.通常是被用于模型訓練的某一過程.例如,用神經(jīng)網(wǎng)絡模型自動的找出最優(yōu)的領(lǐng)域權(quán)重因子[17],減少人工設置權(quán)重參數(shù)的代價;或者基于語言模型訓練用戶、項目特征向量[50]:將用戶和項目的交互歷史記錄視為語言模型中的一個句子,項目為語言模型的單詞.利用word2vec工具訓練出源領(lǐng)域和目標領(lǐng)域中用戶特征向量,并以領(lǐng)域間重疊的用戶為橋梁,通過訓練一個知識轉(zhuǎn)移矩陣,將源領(lǐng)域中的用戶特征信息遷移進目標領(lǐng)域中.

      5 各種跨域推薦技術(shù)的總結(jié)和對比

      前面介紹了各種跨域推薦技術(shù),針對不同的推薦場景需要采用不同的用戶行為預測模型.不同的跨域推薦模型各自的優(yōu)缺點不盡相同,具體的比較如表1所示.概括來說,基于協(xié)同過濾關(guān)系的跨域推薦算法在3種推薦場景下,都能取得較高的推薦質(zhì)量.尤其是將用戶、項目的隱語義特征向量作為共享和遷移對象的方案,框架靈活,效果顯著.基于語義關(guān)系的跨域推薦算法,是解決領(lǐng)域間數(shù)據(jù)異構(gòu)問題的上策.而基于深度學習的跨域推薦模型相對較少,現(xiàn)處于初步研究階段,還有很多值得探索的方向,存在很大的進步空間.

      表1 跨域推薦各模型的優(yōu)點和缺點Tab.1 Advantages and disadvantages of dif f erent methods in cross-domain recommendation

      Network Embedding技術(shù)是數(shù)據(jù)挖掘和機器學習領(lǐng)域中一項很重要的工作.其核心思想是將大規(guī)模的網(wǎng)絡降維到低維空間表示,即用低維空間中的向量來表示網(wǎng)絡中每個節(jié)點的特征,如與其它節(jié)點的相互關(guān)系、在網(wǎng)絡中的重要程度等.從而能夠基于每一個節(jié)點的特征向量來更高效、更精確地完成諸如分類(classif i cation)、連接預測(link prediction)以及推薦(recommendation)等任務.近年來,Network Embedding領(lǐng)域中涌現(xiàn)出大量基于深度學習的模型,并在解決上述3種任務上取得了很好的效果.譬如,基于隨機游走和神經(jīng)網(wǎng)絡來學習網(wǎng)絡非線性結(jié)構(gòu)的DeepWalk模型[51]和Node2vec模型[52];譬如,基于節(jié)點的f i rst-order proximity和second-order proximity獲取網(wǎng)絡局部結(jié)構(gòu)和全局結(jié)構(gòu)的SDNE模型[53]和LINE模型[54],甚至有基于節(jié)點的k-step proximity的GraRep模型[55];譬如,融合標簽[56]和領(lǐng)域?qū)<抑R給出的節(jié)點間的相似度[57],對DeepWalk結(jié)果進行修正的.其實,Network Embedding技術(shù)與推薦系統(tǒng)的中的隱語義模型本質(zhì)上是相同的,都是以特征向量來表征實體(節(jié)點、用戶和項目)特征.3種跨域推薦場景下,都能夠輕松地構(gòu)造出一個連接兩個領(lǐng)域的網(wǎng)絡圖.因此,我們認為如何有效地將Network Embedding領(lǐng)域中基于深度學習的技術(shù)應用于跨域推薦是個值得研究方向.

      6 跨領(lǐng)域推薦算法的評測與分析

      本節(jié)介紹評價和分析跨領(lǐng)域推薦算法性能的方法.主要從實驗方法、評測指標、數(shù)據(jù)集以及影響因素分析4個方面來闡述.

      6.1 性能評測指標與方法

      與傳統(tǒng)的單領(lǐng)域推薦相似,評測跨領(lǐng)域推薦算法性能的指標有:準確度、覆蓋度、多樣性、新穎度、驚喜度和用戶滿意度等[58].從表2中可以看出,對于跨域推薦算法性能評價集中在準確度這一指標上,沒有相關(guān)工作從覆蓋率、多樣性以及與用戶體驗相關(guān)的指標來分析跨域推薦算法的性能.獲得上述指標的實驗方法主要有3種[59]:離線實驗(offl ine experiment)、在線實驗(online experiment)和用戶調(diào)查(user study).

      表2 跨領(lǐng)域推薦算法性能評測指標Tab.2 Summary of metrics used for the evaluation of cross-domain recommendation

      離線實驗是將處理好的數(shù)據(jù)集按照一定規(guī)則劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集.并在訓練數(shù)據(jù)集上訓練用戶興趣模型,在測試數(shù)據(jù)集上進行預測.整個實驗過程都是在預先準備的數(shù)據(jù)集上完成,不需要真實用戶參加,能夠快速測試大量不同的算法.但離線實驗無法獲得很多商業(yè)上關(guān)注的指標,如轉(zhuǎn)化率、點擊率,且其指標和商業(yè)指標存在一定的差距.因此,離線實驗通常被用來批量驗證多個推薦模型的性能優(yōu)劣.對于離線實驗來說,最重要的就是模擬出真實的在線推薦場景.但現(xiàn)有的公開數(shù)據(jù)集中,沒有適用于跨域推薦的數(shù)據(jù)集.究其原因是無法獲取不同公開數(shù)據(jù)集間用戶重疊的情況.為了模擬出真實的跨域推薦場景,通常是將某一公共數(shù)據(jù)集根據(jù)需求劃分成一個個子集.當然,對于模擬領(lǐng)域間用戶不存在交集的推薦場景,就不會有這一問題.

      由于離線測試的指標和實際的商業(yè)指標存在差距,所以如果要準確地評測一個算法,最好的方法是直接上線進行測試.但在對用戶滿意度沒有把握的情況下,直接上線測試有一定的風險性.為了降低風險,企業(yè)會在上線測試之前做用戶調(diào)查.即安排一些用戶在測試系統(tǒng)上行完成一些任務或回答一些問題,并據(jù)此分析推薦系統(tǒng)的性能.這樣就能在降低在線實驗風險的同時發(fā)現(xiàn)體現(xiàn)用戶感受的指標.但招募被測試者代價高.

      最具代表性的在線實驗的AB測試,通過一定的策略將用戶隨機分成幾組,并對不同組的用戶采用不同的算法,然后通過統(tǒng)計不同的測評指標比較不同的算法.其優(yōu)點是能夠公平的獲得不同算法包括商業(yè)指標在內(nèi)的實際在線性能指標,但周期長.

      6.2 影響因素分析

      跨領(lǐng)域推薦算法的性能主要受3方面的因素影響:源領(lǐng)域的信息密集程度、目標領(lǐng)域的信息密集程度以及領(lǐng)域間的相關(guān)性.因此,在分析跨域推薦算法的性能的影響因素時,往往會從這3個方面著手.

      源領(lǐng)域的信息密集性一定程度上影響了被共享或遷移進目標領(lǐng)域的用戶偏好信息及項目特征信息的準確性.若源領(lǐng)域本身所包含的信息不足以訓練出準確的用戶、項目模型,那便會成為訓練目標領(lǐng)域推薦模型的噪聲信息,起到適得其反的作用.但是僅有少量的工作對這一因素進行詳盡的分析.文獻[8,13,32-33,60]通過改變的源領(lǐng)域評分數(shù)據(jù)集的大小,觀測這一因素對模型性能的影響;文獻[34]通過改變組成源領(lǐng)域中領(lǐng)域的數(shù)量,分析源領(lǐng)域數(shù)據(jù)信息量對推薦性能的影響.

      然而,也有一些工作對于目標領(lǐng)域信息密集性的進行了系統(tǒng)的分析.例如,設定不同的大小的評分數(shù)據(jù)矩陣[1,8,10-11,17,32-33],設定不同大小用戶項目標簽數(shù)量[28,60]來分析目標領(lǐng)域信息密集程度對跨域推薦性能的影響.

      相對而言,大部分跨領(lǐng)域推薦算法的研究工作,集中在領(lǐng)域間相關(guān)性對推薦性能的影響上.而領(lǐng)域間相關(guān)性可以從領(lǐng)域間用戶交集、項目交集以及用戶、項目的屬性交集等方面來體現(xiàn),交集越大,相關(guān)性越高.文獻[3,45-46]通過改變領(lǐng)域間用戶交集的大小來觀測性能變化;文獻[3]研究領(lǐng)域間項目的重合程度對于推薦性能的影響;文獻[28]從標簽重合角度對這一因素進行分析.此外,還有一些工作[9,46-47]通過設置不同的源領(lǐng)域和目標領(lǐng)域,來觀測領(lǐng)域間的相關(guān)性對目標領(lǐng)域推薦性能的影響.

      7 總結(jié)和展望

      目前,推薦的應用的場景越來越多,如Yahoo的個性化廣告顯示,Google的網(wǎng)頁排名,OK Cupid的在線約會等.顯而易見,推薦系統(tǒng)已經(jīng)成為計算廣告、信息檢索和社交網(wǎng)絡分析等眾多領(lǐng)域的核心技術(shù)之一.而近5年,國內(nèi)的很多互聯(lián)網(wǎng)公司先后成立了獨立研發(fā)團隊來研究跨領(lǐng)域推薦技術(shù)在工業(yè)上的運用.如百度的“跨領(lǐng)域推薦”的搜索技術(shù),騰訊的基于騰訊云的搜索引擎等.本文對跨領(lǐng)域推薦算法進行了系統(tǒng)地研究和分析,概述了跨領(lǐng)域推薦算法的相關(guān)概念、技術(shù)難點;對現(xiàn)有的跨領(lǐng)域推薦技術(shù)的進行了分類,總結(jié)出各自的優(yōu)點及不足;最后對跨領(lǐng)域推薦算法的性能分析方法進行了詳盡的介紹.

      隨著互聯(lián)網(wǎng)、云計算、人工智能等領(lǐng)域的發(fā)展,跨領(lǐng)域推薦算法也面臨了一些新的研究問題,這些問題也是未來的研究熱點.

      ?可擴展性:現(xiàn)有的技術(shù)有各自特定的應用場景和算法的優(yōu)勢.在不同的應用場景或數(shù)據(jù)集上往往表現(xiàn)出不同的結(jié)果.因此,設計具有可擴展性的推薦算法,使其能夠很好地應用于工業(yè)就顯得尤為重要.

      ?并行性:單機已經(jīng)不能滿足對海量的用戶行為數(shù)據(jù)和項目信息進行處理和分析的行業(yè)需求.因此,要考慮跨域推薦算法的并行化.

      ?實時性:推薦系統(tǒng)的精確度和實時性一直是一對矛盾.因為數(shù)據(jù)量巨大,所以大部分系統(tǒng)已經(jīng)采用離線計算推薦的方式,相應的推薦質(zhì)量也會因此而打折扣.因此就提高精確度的同時兼顧實時性是一個重要的研究問題.

      ?可評測性:驚喜度和新穎性這兩個指標截至目前還沒有什么標準的定義方式,需要進一步研究;此外,僅僅從預測準確度來分析算法性能,存在片面性,還需要從覆蓋率、多樣性以及用戶體驗等角度來分析,以獲得更為全面的信息.

      ?應用場景多元化:將跨域推薦技術(shù)融入到可穿戴設備、智能家居的研究中,以及與醫(yī)療、食品等領(lǐng)域相結(jié)合,提供諸如健康生活建議、疾病預處理、個性化營養(yǎng)配餐等與人們生活休戚相關(guān)的服務也將會是未來研究的熱點之一.

      [1]LI B,YANG Q,XUE X.Can movies and books collaborate?Cross-domain collaborative f i ltering for sparsity reduction.[C]//Proceedings of the International Joint Conference on Artif i cial Intelligence.USA:DBLP,2009: 2052-2057.

      [2]CANTADOR I,FERN′aNDEZ-TOB′?AS I,BERKOVSKY S,et al.Cross-Domain Recommender Systems[M]// Recommender Systems Handbook.US:Springer,2015:919-959.

      [3]ZHAO L,XIANG E W,XIANG E W,et al.Active transfer learning for cross-system recommendation[C]// Twenty-Seventh AAAI Conference on Artif i cial Intelligence.USA:AAAI Press,2013:1205-1211.

      [4]PAN W,XIANG E W,YANG Q.Transfer learning in collaborative f i ltering with uncertain ratings[C]//Twenty-Sixth AAAI Conference on Artif i cial Intelligence.USA:AAAI Press,2012:662-668.

      [5]LI B.Cross-domain collaborative f i ltering:A brief survey[C]//IEEE,International Conference on TOOLS with Artif i cial Intelligence.[S.l.]:IEEE Computer Society,2011:1085-1086.

      [6]羅浩.基于跨域信息推薦的算法研究[D].北京:北京郵電大學,2014.

      [7]FERN′ANDEZ-TOB′IAS I,CANTADOR I,KAMINSKAS M,et al.Cross-domain recommender systems:A survey of the State of the Art[C]//Proc 2nd Spanish Conf Inf Retrieval.[S.l.]:[S.n.],2012:187-198.

      [8]LI B,YANG Q,XUE X.Transfer learning for collaborative f i ltering via a rating-matrix generative model[C]// International Conference on Machine Learning,ICML 2009.Canada:DBLP,2009:617-624.

      [9]WINOTO P,TANG T.If you like the Devil Wears Prada the book,will you also enjoy the Dvil Wears Prada the movie?A study of cross-domain recommendations[J].New Generation Computing,2008,26(3):209-225.

      [10]BERKOVSKY S,KUFLIK T,RICCI F.Mediation of user models for enhanced personalization in recommender systems[J].User Modeling and User-Adapted Interaction,2008,18(3):245-286.

      [11]BERKOVSKY S,KUFLIK T,RICCI F.Cross-domain mediation in collaborative f i ltering[C]//User Modeling 2007,International Conference.Greece:DBLP,2007:355-359.

      [12]SINGH,AJIT P,GORDON,et al.Relational learning via collective matrix factorization[J].Relational Learning via Collective Matrix Factorization,2008:650-658.

      [13]PAN W,YANG Q.Transfer learning in heterogeneous collaborative f i ltering domains[J].Artif i cial Intelligence, 2013,197(4):39-55.

      [14]XIN X,LIU Z,LIN C Y,et al.Cross-domain collaborative f i ltering with review text[C]//International Conference on Artif i cial Intelligence.USA:AAAI Press,2015:1827-1833.

      [15]WEI C,HSU W,LEE M L.A unif i ed framework for recommendations based on quaternary semantic analysis[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM, 2011:1023-1032.

      [16]ARORA A,TANEJA V,PARASHAR S,et al.Cross-domain based event recommendation using tensor factorization[J].Open Computer Science,2016,6(1):32-37.

      [17]HU L,CAO J,XU G,et al.Personalized recommendation via cross-domain triadic factorization[J].Proc 22nd Int World Wide Web Conf,2014:595-606.

      [18]ZHOU G,HE Z,ZHANG Y,et al.Canonical polyadic decomposition:From 3-way to N-way[C]//Eighth International Conference on Computational Intelligence and Security.[S.l.]:IEEE,2012:391-395.

      [19]SCHMITZ S K,HASSELBACH P P,EBISCH B,et al.Application of parallel factor analysis(PARAFAC)to electrophysiological data.[J].Front Neuroinform,2014(8):84.

      [20]KIERS H A L.An alternating least squares algorithm for PARAFAC2 and three-way DEDICOM[J].Computational Statistics&Data Analysis,1993,16(1):103-118.

      [21]SONG T,PENG Z,WANG S,et al.Review-based cross-domain recommendation through joint tensor factorization[C]//Database Systems for Advanced Applications.[S.l.]:DASFAA,2017:525-540.

      [22]LI H,LIN R,HONG R,et al.Generative models for mining latent aspects and their ratings from short reviews[C]//2015 IEEE International Conference on Data Mining.USA:IEEE,2015:241-250.

      [23]JIANG M,CUI P,CHEN X,et al.Social recommendation with cross-domain transferable knowledge[J].IEEE Transactions on Knowledge&Data Engineering,2015,27(11):3084-3097.

      [24]YANG D,HE J,QIN H,et al.A graph-based recommendation across heterogeneous domains[J].2016:1075-1080.

      [25]ZHANG J,YU P S.Multiple anonymized social networks alignment[C]//IEEE International Conference on Data Mining.[S.l.]:IEEE Computer Society,2015:599-608.

      [26]KOUTRA D,TONG H,LUBENSKY D.BIG-ALIGN:Fast bipartite graph alignment[C]//IEEE International Conference on Data Mining.[S.l.]:IEEE,2013:389-398.

      [27]LI C Y,LIN S D.Matching Users and Items Across Domains to Improve the Recommendation Quality[M].New York:ACM,2014:801-810.

      [28]SHI Y,LARSON M,HANJALIC A.Tags as bridges between domains:Improving recommendation with taginduced cross-domain collaborative f i ltering[C]//User Modeling,Adaption and Personalization,International Conference.USA:DBLP,2011:305-316.

      [29]SALAKHUTDINOV R,MNIH A.Probabilistic matrix factorization[C]//International Conference on Neural Information Processing Systems.USA:Curran Associates,2007:1257-1264.

      [30]DING C,LI T,PENG W,et al.Orthogonal nonnegative matrix t-factorizations for clustering[J].Proc 12th ACM SIGKDD,2006:126-135.

      [31]CHEN W,HSU W,LEE M L.Making recommendations from multiple domains[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.USA:ACM,2013:892-900.

      [32]REN S,GAO S,LIAO J,et al.Improving cross-domain recommendation through probabilistic cluster-level latent factor model[C]//Twenty-Ninth AAAI Conference on Artif i cial Intelligence.USA:AAAI Press,2015: 4200-4201.

      [33]GAO S,LUO H,CHEN D,et al.Cross-domain recommendation via cluster-level latent factor model[C]// Proceedings,Part II,of the European Conference on Machine Learning and Knowledge Discovery in Databases. New York:Springer-Verlag,2013:161-176.

      [34]MORENO O,SHAPIRA B,ROKACH L,et al.TALMUD:transfer learning for multiple domains[C]//ACM International Conference on Information and Knowledge Management.New York:ACM,2012:425-434.

      [35]CHUNG R,SUNDARAM D,SRINIVASAN A.Integrated personal recommender systems[C]//International Conference on Electronic Commerce:the Wireless World of Electronic Commerce.USA:DBLP,2007:65-74.

      [36]SZOMSZOR M,ALANI H,CANTADOR I,et al.Semantic Modelling of User Interests Based on Cross-Folksonomy Analysis[M].Germany:Springer Berlin Heidelberg,2008:632-648.

      [37]ABEL F,HERDER E,HOUBEN G J,et al.Cross-system user modeling and personalization on the social web[J].User Modeling and User-Adapted Interaction,2013,23(2-3):169-209.

      [38]FERN′ANDEZ-TOB′?AS I,CANTADOR I,PLAZA L.An emotion dimensional model based on social tags: Crossing folksonomies and enhancing recommendations[J].Lecture Notes in Business Information Processing, 2013,152:88-100.

      [39]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[M].J Mach Learn Res,2003(3):993-1022.

      [40]KUMAR A,KUMAR N,HUSSAIN M,et al.Semantic clustering-based cross-domain recommendation[C]// Computational Intelligence and Data Mining.[S.l.]:IEEE,2014:137-141.

      [41]LOIZOU A.How to recommend music to f i lm buf f s:Enabling the provision of recommendations from multiple domains[J].University of Southampton,2009.

      [42]KAMINSKAS M,RICCI F.A generic semantic-based framework for cross-domain recommendation[C]//International Workshop on Information Heterogeneity and Fusion in Recommender Systems.New York:ACM,2011: 25-32.

      [43]KAMINSKAS M,FERN′ANDEZ-TOB′IAS I,CANTADOR I,et al.Ontology-Based Identif i cation of Music for Places[M]//Information and Communication Technologies in Tourism.Germany:Springer Berlin Heidelberg, 2013:436-447.

      [44]HEITMANN B,HAYES C.SemStim at the LOD-RecSys 2014 Challenge[M]//Semantic Web Evaluation Challenge.Germany:Springer International Publishing,2014:170-175.

      [45]JIANG M,CUI P,YUAN N J,et al.Little is much:bridging cross-platform behaviors through overlapped crowds[C]//Thirtieth AAAI Conference on Artif i cial Intelligence.USA:AAAI Press,2016:13-19.

      [46]SHAPIRA B,ROKACH L,FREILIKHMAN S.Facebook single and cross domain data for recommendation systems[J].User Modeling and User-Adapted Interaction,2013,23(2/3):211-247.

      [47]TIROSHI A,KUFLIK T.Domain Ranking for Cross Domain Collaborative Filtering[M]//User Modeling,Adaptation,and Personalization.Germany:Springer Berlin Heidelberg,2012:328-333.

      [48]NAKATSUJI M,FUJIWARA Y,TANAKA A,et al.Recommendations over domain specif i c user graphs[C]// European Conference on Artif i cial Intelligence.USA:DBLP,2010:607-612.

      [49]TIROSHI A,BERKOVSKY S,KAAFAR M A,et al.Cross social networks interests predictions based ongraph features[C]//ACM Conference on Recommender Systems.New York:ACM,2013:319-322.

      [50]KRISHNAMURTHY B,PURI N,GOEL R.Learning vector-space representations of items for recommendations using word embedding models[J].Procedia Computer Science,2016,80:2205-2210.

      [51]PEROZZI B,ALRFOU R,SKIENA S.Deepwalk:Online learning of social representations[C]//The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,New York:ACM,2014:701-710.

      [52]GROVER A,LESKOVEC J.node2vec:Scalable feature learning for networks[C]//ACM SIGKDD International Conference.New York:ACM,2016:855-864.

      [53]WANG D,CUI P,ZHU W.Structural deep network embedding[C]//ACM SIGKDD International Conference. New York:ACM,2016:1225-1234.

      [54]TANG J,QU M,WANG M,et al.LINE:Large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web.[S.l.]:International World Wide Web Conference Committee, 2015:1067–1077.

      [55]CAO S,LU W,XU Q.GraRep:Learning graph representations with global structural information[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management.New York:ACM, 2015:891–900.

      [56]LI C,WANG S,YANG D,et al.PPNE:Property Preserving Network Embedding[C]//Database Systems for Advanced Applications,22nd International Conference.[S.l.]:DASFAA,2017:163–179.

      [57]LI C,LI Z,WANG S,et al.Semi-supervised network embedding[C]//Database Systems for Advanced Applications,22nd International Conference.[S.l.]:DASFAA,2017:131–147.

      [58]項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012.

      [59]SHANI G,GUNAWARDANA A.Evaluating Recommendation Systems[M]//Recommender Systems Handbook, 2011:257-297.

      [60]SAHEBI S,BRUSILOVSKY P.Cross-Domain Collaborative Recommendation in a Cold-Start Context:The Impact of User Prof i le Size on the Quality of Recommendation[M].Germany:Springer,2013:289-295.

      (責任編輯:張晶)

      Techniques for cross-domain recommendation:A survey

      CHEN Lei-hui1,KUANG Jun1,CHEN Hui2,ZENG Wei2, ZHENG Jian-bing1,GAO Ming1
      (1.School of Data Science and Engineering,East China Normal University, Shanghai 200062,China; 2.Shenzhen Tencent Computer System Co.Ltd.,Beijing 100080,China)

      With the rapid development of information technology and Internet,the available information on the Internet has overwhelmed the human processing capabilities in some commercial applications.Personalized recommendation system is a popular technology to deal with the information overload and recommendation algorithms are the core of it. In the past decades,collaborative f i ltering recommendation algorithm based on single domain has been widely used in many applications.However,the problems of cold start and data sparsity usually result in overf i tting and fail to give desirable performance.Thecross-domain recommendation techniques have been a hot topic in the f i eld of recommender systems,which aim to utilize knowledge from related domains to perform or improve recommendation in the target domain.This paper carries out a systematic study and analysis of cross-domain recommendation techniques.First,we summarize the related concepts and the technical diffi culties of cross-domain recommendation algorithms.Second, we present a general categorization of cross-domain recommendation techniques and sum up their respective advantages and disadvantages.Finally we introduce the method of performance analysis of cross-domain recommendation algorithm in detail.

      information overload;personalization;cross-domain recommendation algorithms

      TP181

      A

      10.3969/j.issn.1000-5641.2017.05.010

      1000-5641(2017)05-0101-16

      2017-06-20

      國家重點研發(fā)計劃(2016YFB1000905);國家自然科學基金廣東省聯(lián)合重點項目(U1401256);國家自然科學基金(61402177,61672234,61402180,61502236,61363005,61472321)

      陳雷慧,女,碩士研究生,研究方向為用戶行為分析、點擊率預測. E-mail:15720622991@163.com.

      鄭建兵,男,高級工程師,研究方向為信息處理技術(shù).E-mail:zhengjb@js.chinamobile.com.

      猜你喜歡
      跨域領(lǐng)域矩陣
      跨域異構(gòu)體系對抗聯(lián)合仿真試驗平臺
      基于多標簽協(xié)同學習的跨域行人重識別
      為群眾辦實事,嶗山區(qū)打出“跨域通辦”組合拳
      讀報參考(2022年1期)2022-04-25 00:01:16
      G-SRv6 Policy在跨域端到端組網(wǎng)中的應用
      科學家(2021年24期)2021-04-25 13:25:34
      領(lǐng)域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      初等行變換與初等列變換并用求逆矩陣
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      新常態(tài)下推動多層次多領(lǐng)域依法治理初探
      尼木县| 武威市| 密云县| 华蓥市| 集贤县| 青州市| 南宫市| 揭西县| 苗栗市| 阿巴嘎旗| 桐城市| 太康县| 西贡区| 无极县| 镇坪县| 平山县| 横山县| 甘德县| 大连市| 建德市| 遂川县| 黄石市| 丁青县| 正阳县| 农安县| 崇文区| 唐河县| 兴文县| 绵竹市| 通城县| 北辰区| 南华县| 常宁市| 阆中市| 彭泽县| 吉隆县| 泰来县| 康平县| 麻栗坡县| 开封市| 盘山县|