• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于特征值嵌入的音樂(lè)播放列表推薦模型

      2019-11-18 05:23:04麗,于
      關(guān)鍵詞:列表特征值概率

      何 麗,于 洋

      (北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100144)

      0 引 言

      音樂(lè)的電子存儲(chǔ)模式已經(jīng)徹底改變了音樂(lè)的消費(fèi)方式,龐大的音樂(lè)數(shù)據(jù)在給消費(fèi)者提供便利的同時(shí),也帶來(lái)了前所未有的挑戰(zhàn)。因此,從大量數(shù)據(jù)中推薦有效信息給用戶已經(jīng)成為當(dāng)今大數(shù)據(jù)研究領(lǐng)域的一大重點(diǎn)。推薦系統(tǒng)已成為各種應(yīng)用程序的基本組成部分,它的產(chǎn)生使用戶省卻了查找、搜索等繁雜的步驟,是一種能夠方便用戶自動(dòng)獲取感興趣的信息,產(chǎn)品和服務(wù)的有效方法。

      目前大多數(shù)推薦系統(tǒng)都會(huì)生成用戶最可能喜歡的頂級(jí)項(xiàng)目的排名列表,這些系統(tǒng)主要關(guān)注孤立的物品屬性或用戶評(píng)分,并傾向于假設(shè)用戶偏好具有穩(wěn)定性[1]。然而在現(xiàn)實(shí)環(huán)境中,用戶的喜好總是隨著時(shí)間、心情等外在因素的變化而變化,評(píng)分也并不能真實(shí)地反映喜好程度,所以單純依賴用戶的個(gè)人行為并不能產(chǎn)生理想的結(jié)果??紤]到音樂(lè)推薦的特性,比如用戶聽一首音樂(lè)的時(shí)間很短,所以用戶在同一個(gè)會(huì)話場(chǎng)景內(nèi)會(huì)聽很多首相似類型的音樂(lè),則提供一個(gè)連續(xù)的符合當(dāng)前會(huì)話場(chǎng)景的播放列表來(lái)提高用戶的聽歌體驗(yàn)變得尤為重要。

      現(xiàn)在音樂(lè)平臺(tái)上的音樂(lè)都按不同形式的播放列表顯示[2],蘋果和潘多拉這樣的公司已經(jīng)開發(fā)出成功的商業(yè)播放列表算法,但對(duì)于這些算法的工作原理及其在嚴(yán)格評(píng)估中的表現(xiàn)情況知之甚少。盡管有很大的商業(yè)需求,但是在播放列表生成的自動(dòng)化方法(例如文獻(xiàn)[3-7])方面的學(xué)術(shù)研究卻很少。Mitul Sheth等利用多項(xiàng)式回歸、支持矢量機(jī)等技術(shù),提出根據(jù)用戶位置信息推測(cè)用戶情感,從而將符合情景的音樂(lè)組成播放列表推薦給用戶[8],但是獲取用戶情感的算法精確度并不是很高,所以最終的精確度并不理想。李瑞敏等提出協(xié)同標(biāo)注中的標(biāo)簽包含豐富的個(gè)性化描述信息以及項(xiàng)目?jī)?nèi)容信息,因此可以提供更好的推薦[9-10]。Anna Gatzioura等使用結(jié)合圖模型的混合案例推理方法對(duì)播放列表推薦進(jìn)行研究,確定不同種類音樂(lè)之間的關(guān)系構(gòu)建相似集。該框架克服了多媒體建議中存在的語(yǔ)義鴻溝,且在冷啟動(dòng)情況下效果更好[1]。Oren Sar Shalom等[11]對(duì)播放列表推薦進(jìn)行研究時(shí),考慮了點(diǎn)擊概率和項(xiàng)目間相互作用,同時(shí)通過(guò)使用反向傾向評(píng)分(IPS)來(lái)改進(jìn)傳統(tǒng)的協(xié)同過(guò)濾算法。B. McFee等采用馬爾可夫鏈對(duì)播放列表建模[6],并提出了一個(gè)受自然語(yǔ)言處理技術(shù)啟發(fā)的評(píng)估程序。

      由于音樂(lè)推薦列表的特殊性,如用戶在某一時(shí)間段或某一情景會(huì)話聽同一種類別的音樂(lè)的可能性極大,因此,在歐幾里得空間中嵌入音樂(lè)特征值是非常有必要的。Chen Shuo等[12]介紹了一種潛在馬爾可夫嵌入模型(LME),該模型借鑒了多詞匯連續(xù)語(yǔ)音識(shí)別中常用的N-gram模型的思想,第N個(gè)詞的出現(xiàn)概率只與前面N-1個(gè)詞相關(guān),整句出現(xiàn)的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。雖然這種方法很好地實(shí)現(xiàn)了列表的連續(xù)性,但是忽視了很多有用的信息,比如音樂(lè)的特征值。

      圖1 音樂(lè)列表推薦示意

      針對(duì)于LME模型中存在的不足,文中提出一種基于特征值嵌入的音樂(lè)播放列表推薦模型,在保留LME模型連貫性的同時(shí)考慮了推薦列表中音樂(lè)類型的特征值。將音樂(lè)特征值映射到多維歐幾里德空間中,每個(gè)音樂(lè)就是空間中的一個(gè)點(diǎn),兩點(diǎn)之間的距離反映了音樂(lè)之間的關(guān)系強(qiáng)弱,距離越近說(shuō)明音樂(lè)間的轉(zhuǎn)移概率越大。音樂(lè)列表生成過(guò)程示意見圖1,其中S代表音樂(lè),U代表用戶。

      1 基于特征值嵌入的音樂(lè)播放列表推薦模型

      基于特征值嵌入的音樂(lè)播放列表推薦模型的原理是:使用用戶歷史播放列表數(shù)據(jù)進(jìn)行訓(xùn)練,然后將音樂(lè)的特征屬性值在歐幾里得空間中進(jìn)行向量表示,再通過(guò)音樂(lè)間距離長(zhǎng)短表示音樂(lè)間轉(zhuǎn)移概率的大小,最終生成連續(xù)的音樂(lè)播放列表。

      1.1 基于特征值的音樂(lè)嵌入方法

      LME模型認(rèn)為播放列表是具有序列性質(zhì)的,因此提出假設(shè):播放列表具有一階馬爾可夫特性,即下一首音樂(lè)的選擇僅與當(dāng)前音樂(lè)有關(guān),而與其他任何音樂(lè)無(wú)關(guān),通過(guò)將語(yǔ)料庫(kù)中n個(gè)詞同時(shí)出現(xiàn)的次數(shù)相乘,從而得到一句話出現(xiàn)的概率。LME模型就是基于這種思想,將音樂(lè)映射到歐氏空間,音樂(lè)的向量在空間中的相對(duì)距離與音樂(lè)間的轉(zhuǎn)移概率有關(guān)。音樂(lè)特征向量之間的距離越近,轉(zhuǎn)移概率越大,在播放列表中作為下一首歌出現(xiàn)的概率越高。為了對(duì)音樂(lè)播放列表進(jìn)行自然描述,根據(jù)N-gram模型采用一階馬爾可夫模型對(duì)播放列表進(jìn)行建模,一首音樂(lè)相當(dāng)于一個(gè)單詞,一個(gè)收聽列表比作一句話。那么在歷史播放列表已經(jīng)存在的情況下,每首音樂(lè)的轉(zhuǎn)移概率的乘積必然是極大值,所以根據(jù)歷史用戶聽歌列表訓(xùn)練模型,就可以得到音樂(lè)在歐幾里得空間中的坐標(biāo)向量。具體計(jì)算方式如下:

      文中目標(biāo)是根據(jù)嵌入模型,在特定情境下為用戶生成連貫的播放列表?,F(xiàn)給定音樂(lè)集合S={s1,s2,…,sn},音樂(lè)列表集合P={p1,p2,…,pn},正如文獻(xiàn)[13]中提到的,某一個(gè)音樂(lè)列表pi生成的概率可以轉(zhuǎn)化成列表中相鄰兩首音樂(lè)的轉(zhuǎn)移概率的乘積,概率越大說(shuō)明兩首音樂(lè)的相似性越高,轉(zhuǎn)移概率又是通過(guò)兩首音樂(lè)間的空間映射距離得出。設(shè)音樂(lè)i-1到音樂(lè)i的轉(zhuǎn)移概率為Pr(s(i)|s(i-1)),那么播放列表的轉(zhuǎn)移概率為:

      (1)

      在歐幾里得空間,每一首音樂(lè)都被表示成空間中的點(diǎn),每?jī)墒滓魳?lè)之間的轉(zhuǎn)移率都與音樂(lè)在空間中的映射點(diǎn)之間的距離有關(guān),也就是說(shuō)距離越近的兩首歌的關(guān)聯(lián)程度越大,轉(zhuǎn)移率也就越大,示意圖見圖2。

      圖2 音樂(lè)距離示意

      (2)

      (3)

      為了將音樂(lè)嵌入到空間中,文中使用現(xiàn)有的歷史播放列表樣本D=(P1,P2,…,Pm)作為訓(xùn)練數(shù)據(jù)。由于歷史的播放列表已經(jīng)存在,所以根據(jù)該歷史播放列表所求出的轉(zhuǎn)移概率是極大值,由此可計(jì)算出音樂(lè)在空間中的位置,表達(dá)如下:

      利用最大似然估計(jì)法不斷迭代至最優(yōu),求出所有音樂(lè)的坐標(biāo)向量矩陣。為了實(shí)現(xiàn)推薦的音樂(lè)列表符合用戶當(dāng)前聽歌情景的目標(biāo),文中向音樂(lè)的特征矩陣添加k個(gè)音樂(lè)特征值的維度,將音樂(lè)特征值嵌入到坐標(biāo)矩陣中,從而影響音樂(lè)嵌入到空間中的位置,達(dá)到相似類型的音樂(lè)在空間中的距離較近的結(jié)果。如音樂(lè)A有三個(gè)標(biāo)簽“安靜”,“王菲”和“1980s”,音樂(lè)B有三個(gè)標(biāo)簽“安靜”,“梁靜茹”和“1980s”,音樂(lè)C有三個(gè)標(biāo)簽“搖滾”,“周杰倫”和“流行”,那么音樂(lè)A與音樂(lè)B的向量坐標(biāo)相似,所以在歐幾里得空間中距離更近,那么當(dāng)用戶U選擇了聽取音樂(lè)A后,該模型經(jīng)過(guò)距離計(jì)算,就會(huì)給用戶U推薦音樂(lè)B作為下一首音樂(lè)播放,而不會(huì)選擇距離較遠(yuǎn)的音樂(lè)C。

      1.2 推薦列表生成

      根據(jù)用戶歷史播放列表,通過(guò)基于特征值的音樂(lè)嵌入方法將音樂(lè)映射到歐氏空間中。文中最終的目標(biāo)是通過(guò)音樂(lè)在歐幾里得空間中的距離計(jì)算音樂(lè)間的轉(zhuǎn)移概率,最終為用戶生成一個(gè)符合用戶當(dāng)前會(huì)話情景的順序音樂(lè)播放列表。首先,給定一首音樂(lè)scurrent,即用戶第一次聽音樂(lè)時(shí)選取的音樂(lè),播放列表的開始位置確定后,根據(jù)基于特征值的音樂(lè)嵌入方法獲得帶有音樂(lè)特征屬性的音樂(lè)嵌入空間的向量坐標(biāo),然后根據(jù)歐氏空間兩點(diǎn)的距離公式,找到離scurrent最近的音樂(lè)映射點(diǎn),最終得到音樂(lè)snext。反復(fù)以上步驟,直至生成的播放列表長(zhǎng)度為設(shè)定閾值為止。

      為了更好地為用戶個(gè)性化地推薦順序列表,除了將音樂(lè)的特征屬性值嵌入到空間中,還考慮了用戶對(duì)音樂(lè)的長(zhǎng)期偏好參數(shù),所以在公式中嵌入一個(gè)用戶的長(zhǎng)期偏好系數(shù)θ(u,s),如下:

      (5)

      其中,θ(u,s)表示某一用戶u對(duì)某一首音樂(lè)s的偏好值,這個(gè)偏好系數(shù)可以使所有歐幾里得空間中的備選音樂(lè)s在空間模型中與scurrent的距離變得更近。θ(u,s)表達(dá)式如下:

      (6)

      其中用戶對(duì)音樂(lè)的喜好值是根據(jù)用戶對(duì)音樂(lè)的收藏情況來(lái)判定的。重復(fù)上述過(guò)程,直至得到一個(gè)連續(xù)排列的音樂(lè)播放列表,以給定數(shù)量的音樂(lè)向用戶推薦或遍歷嵌入模型中產(chǎn)生的所有音樂(lè)停止。

      2 實(shí) 驗(yàn)

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)集是來(lái)自Last.fm音樂(lè)網(wǎng)站爬取到的真實(shí)數(shù)據(jù),爬蟲采用現(xiàn)在最流行的基于Java語(yǔ)言的WebMagic爬蟲框架,爬蟲主要應(yīng)用了兩個(gè)包,即Webmagic-core和Webmagic-extension。這兩部分包含了爬蟲基本模塊、基本抽取器、注解格式定義爬蟲、JSON、分布式等支持。

      從采集的數(shù)據(jù)中選取1 899個(gè)活躍用戶,篩選出擁有從2018年1月到2018年6月期間的歷史播放列表,并將播放列表中出現(xiàn)的所有音樂(lè)的標(biāo)簽及用戶的偏好值記錄下來(lái)。

      為了減少數(shù)據(jù)噪音的影響,文中清除播放列表中音樂(lè)少于5首的列表及在數(shù)據(jù)集中出現(xiàn)次數(shù)少于20次的音樂(lè),僅保留出現(xiàn)次數(shù)前20的標(biāo)簽。實(shí)驗(yàn)將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),確保測(cè)試數(shù)據(jù)集的所有音樂(lè)出現(xiàn)在訓(xùn)練數(shù)據(jù)集中,以確保所有音樂(lè)在空間中有位置標(biāo)記。統(tǒng)計(jì)數(shù)據(jù)如表1所示。

      表1 統(tǒng)計(jì)數(shù)據(jù)

      其中每個(gè)用戶擁有多條播放列表,每個(gè)播放列表包含多首音樂(lè),每首音樂(lè)包含多個(gè)音樂(lè)特征屬性值。

      2.2 實(shí)驗(yàn)結(jié)果分析

      由于文中在空間維度中加入了音樂(lè)特征值,通過(guò)音樂(lè)特征值影響了音樂(lè)在空間中的位置,所以呈現(xiàn)出的結(jié)果應(yīng)該是同類型或相似類型的音樂(lè)距離較近,即所得出的音樂(lè)推薦列表中,音樂(lè)之間的特征相似度應(yīng)該高于LME模型,所以文中對(duì)比了基于特征值嵌入的音樂(lè)播放列表推薦模型和LME模型的音樂(lè)推薦列表的相似度。設(shè)定音樂(lè)特征值空間維度分別取d=0,d=2,d=5,d=10,d=20,音樂(lè)列表長(zhǎng)度n=30,其中d=0即代表音樂(lè)空間向量矩陣中未嵌入音樂(lè)特征值,相似度系數(shù)為:

      (7)

      其中,n為播放列表長(zhǎng)度;Ei為列表中第i首歌曲的特征值集合;J為該播放列表中兩兩音樂(lè)之間的Jaccard系數(shù)之和,即代表播放列表的相似度。

      實(shí)驗(yàn)對(duì)比結(jié)果如圖3所示。

      圖3 實(shí)驗(yàn)結(jié)果

      由實(shí)驗(yàn)結(jié)果可知,沒(méi)有嵌入音樂(lè)特征維度的播放列表的Jaccard系數(shù)很低,即所推薦的列表中,相似的音樂(lè)出現(xiàn)幾率極小。隨著嵌入音樂(lè)特征維度的增加,推薦列表中音樂(lè)的相似度越高,說(shuō)明基于特征值嵌入的音樂(lè)播放列表推薦模型確實(shí)提高了推薦列表中相似音樂(lè)的比例,實(shí)現(xiàn)了當(dāng)用戶選擇一首音樂(lè)的時(shí)候,向用戶推薦與該音樂(lè)類型相似的音樂(lè)列表。

      3 結(jié)束語(yǔ)

      由于傳統(tǒng)的LME模型并未考慮音樂(lè)特征屬性對(duì)用戶選擇音樂(lè)的影響,文中提出了一種改進(jìn)的LME嵌入模型。在該模型中,根據(jù)用戶歷史播放列表將音樂(lè)的特征屬性值嵌入到多維歐幾里得空間,通過(guò)計(jì)算音樂(lè)之間的距離反映它們之間關(guān)系的強(qiáng)弱,即轉(zhuǎn)移概率的大小,從而根據(jù)單一的最優(yōu)解最終得到連續(xù)的最優(yōu)音樂(lè)推薦列表。相比較傳統(tǒng)的馬爾可夫嵌入模型,該模型有效利用了收聽列表中音樂(lè)類型之間的聯(lián)系,能夠?yàn)橛脩籼峁┻B續(xù)的符合用戶當(dāng)前會(huì)話需求的音樂(lè)推薦列表。

      雖然該推薦模型在一定程度上使音樂(lè)推薦列表具有更高的相似度,但是在訓(xùn)練過(guò)程中也發(fā)現(xiàn)了一些問(wèn)題。如模型一次迭代的時(shí)間比LME模型長(zhǎng)并且時(shí)間復(fù)雜度也有所提高。除此之外,實(shí)驗(yàn)中發(fā)現(xiàn)隨著特征維度的增加,對(duì)推薦列表音樂(lè)相似度的影響相對(duì)越來(lái)越小,當(dāng)?shù)竭_(dá)一定值時(shí)甚至出現(xiàn)下滑的趨勢(shì)。這可能與特征值分類策略有關(guān),所以將繼續(xù)對(duì)音樂(lè)特征值類聚方面進(jìn)行研究,將龐大的特征庫(kù)進(jìn)行類聚,對(duì)具有相似類型,但不同名稱的音樂(lè)特征屬性進(jìn)行聚類劃分,再將劃分后的結(jié)果進(jìn)行特征維度的擴(kuò)充。

      該模型具有良好的延展性,除了擴(kuò)展音樂(lè)特征屬性,還可以嵌入復(fù)雜的用戶偏好、社會(huì)信息(朋友關(guān)系、用戶畫像)、地理位置信息等。在音樂(lè)推薦的過(guò)程中,還可以考慮建立一些參數(shù)去改變某一部分對(duì)音樂(lè)推薦影響因子的權(quán)重,將不同的影響因子進(jìn)行高效混合,已更加符合用戶需求。Dietmar Jannach等[14]還證明了不同的長(zhǎng)期偏好會(huì)幫助提高不同維度的播放列表的質(zhì)量。呂成戍[15]提出了一種基于用戶項(xiàng)目屬性偏好的魯棒協(xié)同過(guò)濾推薦算法,在用戶共同評(píng)分項(xiàng)匱乏的情況下也可以根據(jù)相同的項(xiàng)目屬性偏好度量用戶相似性,緩解評(píng)分?jǐn)?shù)據(jù)稀疏性。所以還可以繼續(xù)就偏好值與用戶項(xiàng)目屬性偏好這些參數(shù)進(jìn)行突破。

      猜你喜歡
      列表特征值概率
      巧用列表來(lái)推理
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      一類帶強(qiáng)制位勢(shì)的p-Laplace特征值問(wèn)題
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      學(xué)習(xí)運(yùn)用列表法
      單圈圖關(guān)聯(lián)矩陣的特征值
      擴(kuò)列吧
      基于商奇異值分解的一類二次特征值反問(wèn)題
      广宗县| 西畴县| 磐安县| 达州市| 娱乐| 微博| 克东县| 双桥区| 南木林县| 甘孜| 仁布县| 读书| 宁蒗| 湾仔区| 沿河| 阳江市| 南澳县| 会东县| 周至县| 萨迦县| 新津县| 临泽县| 阿勒泰市| 清水县| 大足县| 枣阳市| 大丰市| 巴彦淖尔市| 巴林左旗| 九龙城区| 广宁县| 松江区| 凤山市| 潮州市| 喀喇沁旗| 漯河市| 稷山县| 天等县| 临猗县| 云安县| 邮箱|