劉義理,朱茂然,胡 莼
(同濟大學 經(jīng)濟與管理學院,上海 200092)
音樂推薦系統(tǒng)(Music Recommender System, MRS)是近年來新興的熱點研究主題之一。用戶和產(chǎn)業(yè)規(guī)模龐大的在線音樂市場,引發(fā)了蘋果音樂、Spotify、Pandora等國際平臺以及網(wǎng)易云音樂、QQ音樂、酷狗音樂等國內(nèi)平臺的激烈競爭,能否吸引用戶是各大企業(yè)獲得競爭優(yōu)勢的前提。構建基于用戶偏好的MRS是解決問題的關鍵之一,通過對海量音樂進行篩選,推薦符合用戶個人偏好的音樂,能夠顯著提升用戶黏性和忠誠度。
目前,MRS構建一般以用戶和對象之間的互動以及基于內(nèi)容的對象描述為核心進行設計。但是需要看到,用戶對音樂的欣賞品味和需求高度依賴于內(nèi)在的情感認知,音樂會喚起用戶的各種情感,用戶情感也會影響他們的音樂偏好,音樂和用戶之間有很強的情感聯(lián)系[1]。因此音樂情感識別(Music Emotion Recognition, MER)成為MRS領域中的活躍課題。
MER通過使用情感詞進行人工或者自動標注音樂,但是如何將MER集成到MRS中尚存在3個困難。(1) 一般MER方法通常忽略預期情感和感知情感之間的區(qū)別。預期情感(Perceived emotion)是指詞、曲作者或演唱者在創(chuàng)作和演出作品時的情感;感知情感(Felt emotion)是指用戶對歌曲所識別的情感。事實上,兩者之間并不完全相同,甚至會有較大差異。(2) 用戶收聽音樂時的個人情感狀態(tài)并不完全與歌曲情感一致,這取決于用戶是否想要通過收聽來提升或者調(diào)整當時的個人情感狀態(tài)。(3) 對同一首歌曲的情感也會變化,用戶首次收聽可能對其中某些情感有需要,而之后多次收聽時,情感需要可能會發(fā)生變化。為解決上述3個困難,音樂推薦和用戶的情感匹配就需要充分考慮用戶對特別內(nèi)容的個人偏好。
目前的在線云音樂平臺中,通常預先設置歌曲的情感類型,以幫助實現(xiàn)基于內(nèi)容的推薦。如網(wǎng)易云音樂的音樂情感設置為12種類型: 懷舊、清新、浪漫、傷感、治愈、放松、孤獨、感動、興奮、快樂、安靜和思念。QQ音樂則設置8種類型: 傷感、快樂、安靜、勵志、治愈、甜蜜、寂寞和宣泄。如果能夠?qū)⒂脩舻膫€人情感與歌曲情感更好地結合在一起,解決上述3個難題,將會有效提升歌曲推薦效果。
為此,本文以網(wǎng)易云音樂為研究對象,通過用戶在平臺上的行為軌跡來構建用戶偏好。針對用戶對于歌曲主題偏好與歌曲歌詞主題表達并不完全一致的現(xiàn)象,提取用戶收聽行為記錄中的中文歌曲歌詞構建客觀文本向量,根據(jù)用戶在平臺上對歌曲的直接評論構建主觀文本向量,將用戶的個人情感因素與歌曲的預期情感進行整合。針對用戶情感隨時間的變化問題,通過集成用戶歌曲播放行為軌跡特征(短期行為特征)與用戶收聽行為統(tǒng)計特征(長期行為特征)進行平衡,從而構建能夠提供更加準確推薦的用戶偏好模型。本研究嘗試為基于情感的在線音樂推薦提供新的思路,并有助于在線音樂行業(yè)進一步提升對用戶樂評的重視和利用。
MRS在國際、國內(nèi)的學術界和產(chǎn)業(yè)界都贏得了極大關注,成功的音樂推薦系統(tǒng)可以從數(shù)以億計的豐富音樂庫里選出用戶喜歡的內(nèi)容,避免用戶選擇過載。一個成功的音樂推薦系統(tǒng)理論上需要全面考慮內(nèi)部因素(用戶的個性、情感等)[2]、外部因素(用戶的行動)[3]以及情境因素(收聽時的天氣狀況、社交狀態(tài)和收聽地點等)[4]。
本文設訓練樣本數(shù)為k類,為第i類的訓練樣本集,Ai訓練集中有nk個樣本文。由這k類別的訓練樣本構造一個過完備字典:A=[A1,A2,…,Ak]∈Rm×n。設由低維到高維的非線性映射為?,?將過完備字典矩陣A映射到高維核空間得到新的過完備字典B:
當前MRS研究對情感的關注還沒有得到足夠的重視[5]。事實上,情感是非常重要的心理結構。長期的情感特征可以幫助穩(wěn)定地預測人們的行為,短期的情感則是人們對于特殊刺激的即時情緒回應,有證據(jù)證明情感可以極大地影響用戶的音樂口味和對MRS的喜愛[6]。
基于情感的MRS需要完成3個任務: (1) 識別音樂本身的情感特征;(2) 識別用戶的情感狀態(tài);(3) 理解音樂和用戶之間如何互動。
標簽是判定音樂情感特征的一種方式。目前主流的在線音樂平臺大多利用標簽為用戶推薦音樂[7]。歌曲標簽主要來源于: (1) 專業(yè)音樂人,通過音樂的音樂特征(如節(jié)奏)、流派(如搖滾、民謠等)、歌詞內(nèi)容,給出專業(yè)判定(懷舊、治愈、孤獨等);(2) 用戶們,在創(chuàng)建歌單時,會為歌單打標簽,這些標簽可以作為這個歌單里歌曲的標簽。標簽反映了社會群體對歌曲的情感認定,在一定程度上影響到單個用戶的收聽行為,但是單個用戶對音樂的情感感知具有獨特性,并不會完全匹配群體情感。Xu等[8]指出,傳統(tǒng)MER系統(tǒng)的結果忽視了個人因素,他們研究發(fā)現(xiàn)個人因素對歌曲所要傳遞的情感和用戶感受到的情感有明顯的影響。
學者們從用戶的個人情感狀態(tài)入手來研究用戶對歌曲的情感感知和收聽。Kang等[9]設計了一個APP,通過智能手機獲取用戶戶外的行為信息,以此推斷歸家后的情感狀態(tài),進而推薦相匹配的音樂。琚春華等[10]通過結合微博等社交媒體情感狀態(tài)分析和用戶點播歌曲記錄,為每一個用戶建立情感與音樂之間的關聯(lián)模型。但是用戶在不同的社交平臺上會產(chǎn)生不同的用戶內(nèi)容[11],一個社交平臺很難全面展現(xiàn)用戶本人的偏好,而且用戶在第三方社交平臺的數(shù)據(jù)也并非直接與用戶的音樂偏好相關。評論作為用戶對音樂的直接評價,從中可以發(fā)現(xiàn)用戶對歌曲的情感認知和偏好。Baumann等[12]發(fā)現(xiàn),相比于其他方法,通過評論識別的情感認知和偏好與用戶真實理解之間有更小的歧義。因此,直接分析用戶在音樂平臺的評論,可能會更好把握地用戶對音樂的情感認知,帶來更好的推薦效果。
情境是理解音樂與用戶互動的有效方式[13]。其中,時間是影響用戶興趣的主要情境要素,時間效應對用戶興趣偏好變化及推薦系統(tǒng)效果有直接影響。Shen等[14]提出了一種人格與情感相結合的專注模型(PEIA),利用個性以及短期的偏好情感建模。雖然音樂偏好與人格之間存在相關關系,Rentfrow等[15]指出,通過對不同的國家和不同的文化的研究之后,才能最終形成音樂偏好的一般理論。因此,需要選擇合適的因素來考察用戶情感的時間變化狀況。
用戶偏好起源于哲學領域。亞里士多德認為偏好表達出個體在對比衡量多種事物或狀態(tài)時的一種傾向性[16]。近年來,用戶偏好建模技術的相關研究逐漸成為個性化服務中獨立的研究內(nèi)容[17]。Jung等[18]將用戶偏好分為正向偏好和負向偏好兩大類,提出一種形式化個性化推薦系統(tǒng)的用戶偏好模型。Lakiotaki等[19]在協(xié)同過濾方法的基礎上將來自多標準決策分析(Multi-Criteria Decision Analysis, MCDA)字段的技術結合起來,構建了一個混合多用戶模型,用于分析和建立用戶的偏好體系,改善了簡單的多級評分系統(tǒng)的性能。Chkhartishvili[20]采用隨機向量法來表達個人偏好,通過社會調(diào)查或者分析用戶在在線社交網(wǎng)絡上的行為來獲取個人偏好的概率分布。
以軌跡集中的一條歌曲記錄j為例。使用LDA模型處理該條記錄對應的歌詞,可得該歌曲在各個主題上的從屬度。由于歌詞內(nèi)容不變,每位用戶得到的主題從屬度向量相同。因其與用戶主觀偏好無關,故將其定義為客觀文本向量FLLDA:
本偏好模型的構建步驟包括4個步驟。(1) 構建行為特征。使用爬蟲程序提取網(wǎng)易云音樂用戶的行為軌跡,從用戶行為統(tǒng)計特征和用戶播放軌跡特征兩方面構造用戶行為特征體系。(2) 構建綜合文本特征。為了更好地識別用戶對不同音樂的偏好,應用LDA模型,將用戶在網(wǎng)易云音樂系統(tǒng)中針對歌曲發(fā)表的評論與原有的歌詞文本分別進行主題分類,并進行歸一化處理,得到歌曲的綜合文本特征。(3) 構建特征融合與用戶在線音樂偏好模型。將綜合文本特征與用戶播放軌跡的時間特征融合,賦予文本時間屬性,再將用戶行為統(tǒng)計特征融合,平衡長期行為特征的影響,得到最終的用戶偏好模型。(4) 實證檢驗及比較分析?;谧ト〉木W(wǎng)易云音樂網(wǎng)站數(shù)據(jù),驗證該偏好模型的有效性,并進行推薦效果的比較分析。整體研究框架如圖1所示。
此外,一首歌的出現(xiàn)次數(shù)也會對偏好產(chǎn)生影響。首次出現(xiàn)對用戶偏好的影響最大,多次出現(xiàn)之后對偏好的影響趨向于0。使用sigmoid函數(shù)進行擬合,定義融合播放次數(shù)的偏好向量count_time_topic_FLDA:
作為自然語言處理領域的熱門研究方向,隱含狄利克雷分配模型(LDA)獲得了國內(nèi)外學者的重視[27]。作為有效的降維工具,LDA也得到了很多大型平臺的應用,如微軟的lightLDA和騰訊的LDA*等等。
而入門的小學生和初中低年級學生,處境就比較尷尬。從國外引進的童書繪本中,以外研出版社引進的偏文字英語故事書為主,對英語入門級學生而言難度偏高;其他出版社,更多為直接出中文譯作。而承載著認知啟蒙、培養(yǎng)語言興趣使命的入門級英語原版繪本,市面上實在是少之又少(漆秋香,2015),視聽資源更是缺乏。偶爾出現(xiàn),價格還偏高。正版資源少,盜版也是無源之水。
Fang等[28]通過文本級別、句子級別及詞語級別挖掘用戶的觀點。這種主題建模方法通過挖掘文本本身的詞匯所傳達詞義或積極、消極態(tài)度引入或者個體情感因素,而不是通過人本身的行為習慣或規(guī)律來對模型進行改進或調(diào)整。
Zhao等[29]提出一種層次生成模型,稱為用戶情感主題模型(User-Sentiment Topic Model, USTM),利用情感信息捕獲用戶的主題,通過區(qū)分情感趨勢中中性、積極、消極的詞匯來細化決策用戶情感。
Rao等[30]關注社交媒體對讀者所引發(fā)的情緒的檢測,提出情感主題模型(Affective Topic Mode, ATM),通過引入一個中間層來彌合社交媒體材料與讀者情緒之間的差距,利用主題內(nèi)容來對用戶社交情感進行決策。
以上研究關注的是文本本身傳達出的情感因素,可以視為客觀數(shù)據(jù),尚沒有利用直接用戶的主觀反饋數(shù)據(jù)來進行優(yōu)化分析。近期研究還發(fā)現(xiàn),隨著時間的變化主題也會逐漸發(fā)生變化,因此如何用適當方法將時間因素引入主題模型引起了研究者的重視[31]。而在音樂推薦領域,結合LDA情感進行的音樂推薦研究尚不多見。
因此,在基于情感的音樂推薦中,需要考慮個人的情感狀態(tài)與社會群體情感認定的結合,并考慮隨時間變化(長期行為規(guī)律和短期行為規(guī)律)的偏好識別。同時,由于用戶對歌曲情感主題的認知與文本主題的認知邏輯相同,也不是單一且固定的,引入LDA能夠為歌曲推薦提供更加全面和精確的決策依據(jù)。
作為研究消費者心理的重要手段,用戶行為分析是學術界的研究重點之一。Morris Desmond提出,人類通過不同的行為動作來表達自己不同的思想活動,通過研究和分析人類行為的產(chǎn)生、發(fā)展和變化路徑,可以了解人類的真實想法[23]。對用戶行為軌跡的研究主要分為3個方面。(1) 針對用戶網(wǎng)頁行為軌跡的研究。Kori等[24]通過用戶在搜索引擎上提出的一系列問題對用戶的行為進行分析,分析用戶可能的搜索偏好。(2) 電子商務方面的用戶行為軌跡研究。Zhu等[25]應用用戶行為軌跡設計了一種情境感知的移動應用推薦方法,將用戶當前和以前的相關情境融合在一起構建推薦,滿足用戶偏好。(3) 其他領域的用戶行為軌跡研究。Chang等[26]針對用戶的閱讀行為展開分析,他們將幾種流行手機移動端閱讀系統(tǒng)作為研究對象,將用戶行為分解為離散類,并總結了每一個閱讀應用的特點。
本試驗結果表明,當P20 2018款植保無人機飛行速度為3 m/s、高度為1.5 m(距植物冠層)、噴液量為15.0~22.5 L/hm2、草銨膦有效成分用量為750~1 500 g a.i./hm2時,藥劑處理區(qū)霧滴總沉積密度可達44.8~60.7個/cm2,在飛行邊界5.0 m處霧滴飄移量極少,上述處理對葉菜田常見雜草及葉菜殘茬具有優(yōu)良的防效,建議植株較大時使用高劑量處理。同等施藥劑量下,不同施藥方式及噴液量處理對雜草或葉菜殘茬的株防效和鮮質(zhì)量防效均無顯著性差異,P20 2018款植保無人機可用于葉菜田清園處理。
圖1 整體研究框架Fig.1 Overall research framework
在線音樂系統(tǒng)的用戶音樂偏好有兩種呈現(xiàn)方式: 一種是用戶聽到喜歡的歌,會基于歌曲本身發(fā)表自己的評論,并跟其他用戶基于評論產(chǎn)生互動行為,如回復、點贊等;另一種是用戶的聽歌記錄反映其音樂偏好,例如他們會循環(huán)播放喜歡的歌曲等。在Python爬蟲提取用戶歌曲播放軌跡的基礎上,本研究將從用戶行為統(tǒng)計特征和用戶播放軌跡特征兩個方面進行構造。
不同類型的歌曲具有不同屬性,例如說唱類的歌曲時長短和歌詞多,而民謠類歌曲時長長而歌詞少;此外,用戶在一天當中不同時段產(chǎn)生的情緒不同,所收聽的歌曲類型也不同,例如用戶可能早上喜歡收聽情緒積極、勵志的歌曲,晚上喜歡收聽抒情安靜的歌曲。考慮上述因素,構建表達長期穩(wěn)定的用戶行為統(tǒng)計特征,包括: 用戶收聽歌曲的平均時長,平均歌詞長度,平均歌曲時長與歌詞長度之比,以及高頻聽歌時段。定義用戶的行為統(tǒng)計特征向量FSTA:
胖子顯然不情愿,但也無計可施。于是每天下午,整個基地的人都會看到藍天白云間,一個胖子以詭異的“撒尿”姿勢在另一個男人的懷抱里尖叫、盤旋,以比翼雙飛的姿態(tài)翱翔在天地間……好在七哥有著極高的職業(yè)素養(yǎng),胖子每次尖叫的時候,他都會耐心溫柔地提醒要領,甚至直接抓住胖子的手幫他擺正姿勢……這畫面太美,沒人敢看。
FSTA=(Fad,F(xiàn)al,F(xiàn)lr,F(xiàn)pp,F(xiàn)pm),
(1)
其中:Fad表示用戶收聽所有歌曲的平均時長;Fal表示用戶收聽所有歌曲的平均歌詞長度;Flr表示用戶收聽所有歌曲的平均歌曲時長與歌詞長度之比;Fpp表示用戶高頻聽歌時段;Fpm表示收聽次數(shù)最多的歌曲的播放次數(shù)。
用戶收聽的每一首歌曲都會留下一條歌曲播放軌跡,包括: 歌曲名稱,歌曲ID,歌詞信息,歌曲時長,歌手名稱,專輯名稱,時間戳,用戶樂評,本首歌曲的播放次數(shù)。定義用戶播放軌跡特征向量FS:
FS=(Fsn,F(xiàn)sid,F(xiàn)sl,F(xiàn)sd,F(xiàn)singer,F(xiàn)an,F(xiàn)time,F(xiàn)uc,F(xiàn)count),
(2)
其中:Fsn表示歌曲名稱;Fsid表示歌曲ID號;Fsl表示歌詞信息;Fsd表示歌曲時長;Fsinger表示歌手名稱;Fan表示專輯名稱;Ftime表示用戶收聽歌曲的時間戳;Fuc表示用戶樂評;Fcount表示本首歌曲用戶收聽的次數(shù)。
綜合文本特征是從用戶行為軌跡抽離出來的特征,同時考慮收聽歌曲的客觀主題與用戶評論中對歌曲主題的個性化興趣,從而體現(xiàn)用戶本人對歌曲產(chǎn)生的偏好。
時間因素的影響在近來的用戶偏好研究當中得到重視。學者們開始在用戶偏好研究中引入時間要素來研究用戶偏好的遺忘和更新。陳海燕等[21]提出一種個性化搜索方法,通過獲取用戶短時記憶模型來提供準確有效的用戶偏好,根據(jù)基于查詢關鍵詞的相關概念生成短期記憶模型,基于用戶的時序有效點擊數(shù)據(jù)生成用戶個性化模型,最后在用戶會話中引入了遺忘因子來優(yōu)化用戶個性化模型。Huang等[22]設計了應用于個體和群體用戶的時間感知智能推薦系統(tǒng),使用神經(jīng)協(xié)同過濾方法來挑選候選物品,然后獲取用戶的長期偏好(用戶與物品的長期互動歷史記錄)以及短期偏好(用戶近期的評論)來對候選清單進行提升。目前對于用戶偏好變化的動因還缺乏系統(tǒng)的理解,對這種動因?qū)ν扑]的影響分析相對較少。
據(jù)陳蓮曲珠介紹,尼姑們早上6點左右起床;用過早飯后7點整在大殿集會,9點集會散了后,繼續(xù)上佛學或因明學的課程,到11點下課;中間有半個小時的休息時間,12點半又繼續(xù)上課,1點30才下課;休息半小時后,下午2點在大殿天井里辯經(jīng),3點半才休息;下午4點時要去靜室念經(jīng),6點左右休息;吃過晚飯后,7點開始辯經(jīng),晚上9點才休息。之后的時間,多數(shù)尼姑都會用來自學國家宗教政策和相關法律法規(guī)。
FLLDA(j)={L(0),L(1),...,L(I),...,L(n)},
(3)
其中:L(i)表示客觀文本(歌詞)在第i個主題上的從屬度。
但事實上,用戶會在評論中更多提及歌曲中讓他們感興趣的主題,這些主題不一定是歌詞的主要語義。舉例來說,兩位用戶A和B,他們對主題空間{S1,S2,S3,S4}的興趣度均為{0.2,0.2,0.2,0.4},但是A在評論時,習慣于只提及他最感興趣的主題T4(其評論經(jīng)過LDA處理后的從屬度為{0.05,0.04,0.05,0.86});類似地,B進行評論時更喜歡對他感興趣的主題著墨(其從屬度向量可能表現(xiàn)為{0.22,0.23,0.25,0.3})。顯而易見,這兩位用戶擁有不同偏好,因此需要對用戶評論進行處理,識別他們對歌詞內(nèi)容的感知狀態(tài)。定義用戶評論主題從屬度向量為主觀感知向量FSLDA:
FSLAD(j)={I(0),I(1),…,I(I),…,I(n)},
(4)
其中:I(i)表示主觀文本(即用戶樂評)在第i個主題上的從屬度。用戶樂評可為空。
因為主觀感知向量并不脫離歌曲內(nèi)容獨立存在,所以用戶的真實偏好向量應該是客觀文本向量與主觀感知向量相結合的結果。為此,需要將FLLDA和FSLDA融合為綜合文本特征topic_FLDA:
在“非遺”傳承過程中,隨著社會的進步和文化普及,樹狀傳承模式得到了越來越普遍的應用。這一模式以某一傳承路徑為主線,衍生出各支派、各層級、小眾化的文化傳承保護的多種方式。溢出的交錯組合的旁支,憑借其穩(wěn)定的文化主干維系在一起。京劇、淮海戲等戲曲,鎮(zhèn)江香醋、綠茶的制作技藝,太極拳、形意拳、大成拳、少林拳等拳術,這些文化項目傳承內(nèi)容豐富,門派林立,各門派及其傳承人都有獨門絕技。傳承保護機制較為靈活,既有群體或個人傳承保護,也有機構、組織傳承保護。故而,這些文化項目應對社會蛻變的能力較強、方法較多,所處的社會生態(tài)環(huán)境和存續(xù)狀態(tài)也比較好。
實驗硬件配置如下:Intel Xeon E5-1603 v4處理器、2×GeForce GTX1080顯卡,32GBRAM的服務器。軟件環(huán)境為Ubuntu16.04系統(tǒng)。
topic_FLDA(j)=(1-α)FLLDA(j)+αFSLDA(j),
(5)
其中:α是超參數(shù),表示評論的重要程度。
綜合文本特征建立之后,考慮時間因素和用戶長期行為特征對用戶偏好的影響,用戶偏好模型構建需要完成與兩個特征的融合。
(1) 用戶播放軌跡特征的融合。
用戶歌曲播放軌跡為一時間序列,距離當前時間越久,對用戶當前偏好的影響越小。定義融合時間衰減影響的偏好向量time_topic_FLDA:
其中參數(shù):ω為5×n維空間向量;n為主題的個數(shù)。
(6)
其中:β為衰減步幅(0<β<1);T為衰減周期;t為該條記錄與當前時間的時間間隔。
目前針對用戶音樂播放行為軌跡研究還不多見,但是這些多領域的研究成果揭示出用戶行為與用戶情感表達的同步性,用戶行為軌跡和用戶偏好的密切關系,因此從用戶音樂播放行為軌跡出發(fā)研究用戶偏好有其合理性。
count_time_topic_FLDA(j)=time_topic_FLDA(j)×[S(x)-S(x-1)],
(7)
其中:S(x)為sigmoid函數(shù);x表示該首歌曲出現(xiàn)的次數(shù)。
現(xiàn)階段,LDA的研究大部分都集中于對于文本本身內(nèi)容的主題抽象過程,即客觀因素,而對于用戶主觀偏好數(shù)據(jù)的探索和研究仍處于起步階段。有部分LDA的研究試圖引入人類的情感因素。
利用式(7)對所有m條記錄的count_time_topic_FLDA(j)進行歸一處理,得到融合用戶播放軌跡的偏好向量tra_FLDA:
(8)
(2) 用戶行為統(tǒng)計特征的融合。
為了得到相同類別歌曲的普遍屬性,并中和上一步因為時間衰減函數(shù)導致長期偏好權重降低的影響,需要進行偏好向量與行為統(tǒng)計特征的融合。
為了將用戶行為統(tǒng)計特征與tra_FLDA融合,首先添加參數(shù)ω來處理一維的行為統(tǒng)計向量FSTA,得到一個新的1×n維空間向量FSTA*:
FSTA*=FSTA×ω,
(9)
4)系統(tǒng)設計模塊化原則:模塊化原則要求整個系統(tǒng)的功能均應得到清楚劃分,用戶界面也應確保簡潔易懂,為操作人員的管理及用戶的使用提供便利。
對FSTA*和tra_FLDA進行歸一化處理,得到最終的用戶偏好特征向量FLDA:
FLDA=(1-γ)tra_FLDA+γFSTA*,
(10)
其中: γ是超參數(shù),表示用戶行為統(tǒng)計特征的重要程度。
模型訓練的重點是如何為每個志愿者找出參數(shù)α(表示用戶樂評的重要程度)和參數(shù)γ(表示用戶行為統(tǒng)計特征的重要程度)組合。由于模型針對每一個用戶建立偏好模型,因此這兩個參數(shù)值是個性化的??紤]α,γ∈[0,1],故設定步長0.1的調(diào)整,計算參數(shù)α和γ不同取值組合得到的用戶偏好向量。一個好的用戶偏好向量推薦的歌曲集應該與用戶真實喜愛的歌曲集有最大程度重合。
為此,建立訓練曲庫作為推薦候選,理論上可以通過以下步驟來獲得兩個參數(shù)的最佳組合值:
(1) 將用戶信息代入用戶偏好模型,生成偏好主題向量,與候選歌曲的主題向量做JS散度計算并排序,得到的歌曲排序作為對用戶偏好歌曲的預測。以JS散度計量被推薦歌曲與用戶偏好的相近程度DJS[32]:
(11)
(12)
(2) 將訓練曲庫發(fā)給志愿者,讓他們識別出自己喜歡的歌曲。
(3) 通過(1)中預測得出的歌曲排序與(2)中用戶實際喜愛的歌曲進行比較,得出模型預測歌曲與用戶實際喜愛歌曲的重疊匹配度。選取匹配度最高的參數(shù)值組合作為最終用戶偏好模型中的參數(shù)值。
實際操作中,為了提高效率,將(1)中的預測歌曲排序改為選取JS散度最小的前20首,(2)中讓用戶選出最喜歡的20首歌曲,則預測推薦與用戶實際喜愛歌曲的匹配度(Matching Degree, MD)
推動校企合作辦學是此次課程考核評價改革的亮點之一。在實踐環(huán)節(jié)的考核階段,根據(jù)訓方案的確定、實驗操作和熟練程度等考核指標進行一一對照,嘗試將學生和企業(yè)一線員工納入考核評價團隊,提高評價的客觀性和公正性。
(13)
Mn為預測歌曲集和用戶喜愛歌曲集的重疊歌曲數(shù)目。
本文通過網(wǎng)易云音樂用戶在線音樂播放軌跡數(shù)據(jù)來訓練用戶偏好模型,獲得最優(yōu)參數(shù)值,然后與相關的其他推薦算法效果進行比較分析,以驗證設計模型的有效性。
本研究選取中文歌曲和樂評作為實驗對象。由于網(wǎng)易云音樂突出音樂社交,以用戶為主體,實現(xiàn)UGC最大化,積累了大量優(yōu)質(zhì)的音樂評論,故選作數(shù)據(jù)來源。通過Python網(wǎng)絡爬蟲抓取數(shù)據(jù)并將其存儲在MySQL數(shù)據(jù)庫待用。Web數(shù)據(jù)收集和預處理流程如下: (1) 通過爬蟲初步抓取用戶信息數(shù)據(jù),共獲得148 326名用戶;(2) 然后去除非中文歌曲的受眾用戶,剩余44 463位用戶;(3) 再考慮用戶活躍度,去除用戶樂評數(shù)小于20的用戶,得到最終用戶11 698;(4) 針對這些用戶,進一步爬取其歌曲播放軌跡的信息,針對每一條軌跡記錄,爬取該歌曲的歌詞信息、用戶的評論信息及用戶聽歌的時間序列。用戶信息、用戶統(tǒng)計數(shù)據(jù)和歌曲播放軌跡如表1—3(表3見348頁)所示。
家在五樓,沒有燈火,想必父親已經(jīng)睡了。蔣海峰爬上樓,掏出鑰匙開門,聽見屋里發(fā)出令人恐怖的喊聲:“哪個?”
表1 用戶基本信息范例Tab.1 Example of fundamental user information
表2 用戶統(tǒng)計數(shù)據(jù)范例Tab.2 Example of user’s statistics
表3 用戶歌曲播放軌跡范例Tab.3 Examples of user song playing track
在線云音樂平臺中的歌曲通常按照有限的歌詞類別和歌曲旋律類別劃分,結合中文歌曲的實際情況和網(wǎng)易云音樂的分類,本研究將所有歌詞文本分為懷舊、浪漫、傷感、治愈、安靜、歡快、勵志、放松、孤獨、性感、感動和興奮12個細分主題。
分別從12個細分主題中抽取10首歌曲,共計120首歌曲,建立訓練曲庫,作為推薦候選。為了方便后續(xù)模型訓練,將訓練曲庫創(chuàng)建成一個網(wǎng)易云音樂歌單。獲取了262位志愿者的網(wǎng)易云音樂的賬號信息及其用戶中文歌曲播放軌跡之后,通過2.4節(jié)中的方法進行用戶偏好模型中的兩個參數(shù)獲取。某個用戶的參數(shù)值與用戶實際偏好的匹配情況如表4所示。從表中可以看出,對于這位用戶,當其個性化參數(shù)α=0.6和γ=0.3時,推薦列表與其真實喜好的匹配度最高。
(2)固定資產(chǎn)與無形資產(chǎn)核算的變革。目前會計核算并沒有將固定資產(chǎn)進行折舊處理,也不計入費用,因此對資產(chǎn)的價值不能準確反映。按新政府會計準則基于權責發(fā)生制的規(guī)定,要對固定資產(chǎn)進行折舊,并且按照有關經(jīng)濟利益等的預期實現(xiàn)方式按月計提,這樣可以客觀真實反映賬面資產(chǎn)的價值,便于高校成本核算,為決策者提供高質(zhì)量的財務報告。與固定資產(chǎn)折舊相比,無形資產(chǎn)計提攤銷進行類似處理。
表4 參數(shù)α和γ的選取與匹配度Tab.4 Selection and matching degree of parameters α and γ
由此可以應用構建的偏好模型計算出用戶的偏好主題概率,部分結果如表5所示。
表5 用戶LDA主題分布概率范例Tab.5 Examples of user LDA topic distribution probability
(續(xù)表)
從文本挖掘角度關于音樂偏好與個性化推薦的研究主要有以下兩類: (1) 單純歌詞文本主題挖掘,通過計算歌詞的語義信息,推薦與歷史聽歌歌詞語義相似度最高的歌曲[33];(2) 單純基于用戶音樂評論的文本主題挖掘,考慮評論文本和歌單文本的推薦算法[34]。為此,分別將志愿者中文歌曲播放軌跡中的客觀主題向量、綜合文本主題向量(客觀文本向量與主觀文本向量)作為對照組,在曲庫得到兩組20首歌曲的推薦結果,將對照組匹配度平均值與本研究中用戶偏好模型的推薦結果進行比較。實驗結果如表6所示。
表6 推薦結果的匹配度對比Tab.6 Matching degree comparison of the recommended results
由匹配度對照表可以清楚地看到,整體來說,綜合了主觀主題向量和客觀主題向量的文本主題向量優(yōu)于單以客觀主題向量構建用戶偏好模型的推薦算法;應用用戶播放軌跡主題向量的偏好模型又比應用文本主題向量的偏好模型呈現(xiàn)更優(yōu)的結果;本文設計的用戶偏好主題向量的推薦效果最好。
匹配度之外,本研究還采用平均排序得分(Average rank score)[35]比較了不同方法推薦的準確度。對于用戶U,其最喜愛歌曲S的排序得分定義如下:
由于焚燒理論趨于成熟,作為生活垃圾焚燒發(fā)電廠的核心設備,焚燒爐的自動控制技術也在不斷改進和持續(xù)完善中。相信通過大量的總結和探索,更加成熟的控制理論和模式必將出現(xiàn)在未來的工程應用當中。
賈鵬飛有時候給范崢崢撥打電話,范崢崢都不接,她無法面對賈鵬飛,只能暫時回避,謊稱很忙,然后掛斷電話。他起了疑心,開始尋找、打聽、跟蹤,終于來到這處他賣力移栽金彈子樹的地方。
(14)
其中:NU表示推薦列表長度,即推薦歌曲總數(shù),這里設定為20;kUS表示歌曲S在推薦列表中的排名。用戶的推薦準確度可以通過排序得分來測量: 排序得分越低,說明推薦系統(tǒng)越趨向于把用戶偏好的歌曲排在前面,推薦效果優(yōu);反之則說明算法準確率低,推薦效果不好。結果如表7所示。
表7 推薦結果的準確度對比Tab.7 Accuracy comparison of recommended results
由表7中的數(shù)據(jù)對比可知,用戶偏好模型的推薦效果與用戶真實偏好非常相近,顯著好于其他主題推薦方法。
基于歌詞主題向量的推薦算法僅將歌曲的歌詞文本應用于用戶的個性化音樂推薦,在所有音樂推薦方法中表現(xiàn)不佳。
融合歌詞主題向量和用戶評論主題向量的綜合文本主題向量推薦效果有明顯提升,充分證明用戶對于歌曲的感知的確帶有強烈的個人色彩。雖然用戶的理解是基于歌曲歌詞的主題,但是用戶的主觀感知與客觀的歌詞文本表達不完全一致,不同用戶對同一首歌曲的主題感知范圍和感知強度各不相同。
基于用戶播放軌跡主題向量的推薦算法考慮了播放次數(shù)和時間的影響,進一步提升推薦效果。實際上大量用戶多次播放自己喜愛的一首歌曲,但不會每一次播放都會寫下評論,播放行為的發(fā)生次數(shù)遠大于用戶針對歌曲的評論次數(shù)。
本研究設計的用戶偏好主題向量推薦效果又較基于用戶播放軌跡主題向量推薦的效果為好。這是由于用戶偏好主題向量綜合考慮了用戶的行為統(tǒng)計特征。用戶行為統(tǒng)計特征主要反映了用戶的長期偏好,通過實驗可以看出,盡管用戶短期偏好對于用戶當前偏好有著很大影響,但用戶長期偏好對用戶當前偏好的形成仍然非常重要。
本文應用LDA模型構建了歌曲客觀主題向量和用戶評論主觀主題向量,解決了用戶個人的情感與歌曲所要表達情感不一致的難題,并融合用戶行為軌跡,平衡了播放時間、播放次數(shù)等用戶播放軌跡特征與用戶行為統(tǒng)計特征對用戶偏好形成的影響,建立了用戶偏好模型,并通過網(wǎng)易云音樂平臺數(shù)據(jù)對模型進行驗證。實證研究結果表明,基于用戶行為軌跡的用戶偏好模型在歌曲推薦的匹配度和準確度上均有良好表現(xiàn)。本研究為在線音樂的個性化推薦提供了新的方法,也進一步證明了大數(shù)據(jù)時代各種要素融合是提高MRS效果的發(fā)展趨勢。
事實上,用戶在云音樂平臺上的行為不僅僅是歌曲收聽的相關行為。在線云音樂系統(tǒng)正在逐漸成為一種社交平臺,用戶在其中還有彼此之間互相評論、點贊等社交行為。本文尚未將這些行為包括在研究當中。因此,擴展用戶行為軌跡的范圍,將相關社交行為包括進行為軌跡的范疇,進而考察更豐富用戶行為對歌曲選擇和收聽的影響可以成為后續(xù)研究的一個方向。