薛董敏,趙志華
山西水利職業(yè)技術(shù)學(xué)院 信息工程系,山西 運(yùn)城 044000
融合Fisher判別分析與波動(dòng)序列的音樂(lè)推薦方法*
薛董敏+,趙志華
山西水利職業(yè)技術(shù)學(xué)院 信息工程系,山西 運(yùn)城 044000
現(xiàn)有的音樂(lè)推薦方法多是采用不同的歷史偏好相關(guān)性度量方法直接為用戶生成推薦音樂(lè)列表,而不考慮用戶歷史喜好音樂(lè)行為所體現(xiàn)出的用戶興趣的波動(dòng)性,影響了推薦音樂(lè)的準(zhǔn)確率。針對(duì)這個(gè)問(wèn)題,提出了一種融合Fisher線性判別分析與波動(dòng)序列的音樂(lè)行為偏好獲取方法。首先獲取音樂(lè)的社會(huì)化標(biāo)簽與音頻特征,采用Fisher線性判別分析對(duì)兩類樣本數(shù)據(jù)進(jìn)行特征融合,通過(guò)投影變換并引入Fisher判別準(zhǔn)則,獲取具有最大類間離散度,最小類內(nèi)離散度的音樂(lè)特征分類方向。然后結(jié)合用戶的歷史喜好音樂(lè)獲取音樂(lè)類型基點(diǎn)、類型波動(dòng)幅度,再以音樂(lè)類型基點(diǎn)為中心,以類型波動(dòng)幅度為半徑獲取用戶的喜好音樂(lè)類型,并據(jù)此為用戶生成推薦音樂(lè)列表。在真實(shí)數(shù)據(jù)集LFM上的仿真實(shí)驗(yàn)結(jié)果表明,所提出方法能夠取得更好的P@R值與覆蓋率,提升了音樂(lè)推薦精度與推薦質(zhì)量。
Fisher線性判別分析;波動(dòng)序列;音樂(lè)類型基點(diǎn);社會(huì)化標(biāo)簽;音樂(lè)推薦系統(tǒng)
音樂(lè)自出現(xiàn)以來(lái),就以其美妙的旋律伴隨著整個(gè)人類社會(huì)文明進(jìn)程的發(fā)展,在各種社會(huì)文化里,音樂(lè)被普遍地用來(lái)表達(dá)情感、舒緩壓力、激發(fā)情緒等。音樂(lè)的類型、數(shù)量、展現(xiàn)形式等都隨著其他相關(guān)技術(shù)的發(fā)展而逐漸發(fā)展起來(lái),特別是近年來(lái),隨著數(shù)字多媒體技術(shù)的發(fā)展,音樂(lè)能夠以更加靈活的形式出現(xiàn)在人們身邊并影響著人們的生活,例如移動(dòng)電話等幾乎所有的智能終端都能夠成為音樂(lè)的載體。承載工具的多樣化可以讓用戶便利地享受音樂(lè),卻無(wú)法解決隨著音樂(lè)庫(kù)的整體規(guī)模不斷增長(zhǎng)與新音樂(lè)產(chǎn)生速度的加快,用戶需要花費(fèi)大量的時(shí)間和精力去獲取自己喜歡的音樂(lè)的問(wèn)題,這種時(shí)間和精力的開銷會(huì)在一定程度上影響用戶的音樂(lè)體驗(yàn)。該問(wèn)題已成為各大音樂(lè)及其周邊服務(wù)的提供商需要解決的關(guān)鍵問(wèn)題。
在這種情況下,能夠根據(jù)用戶的歷史音樂(lè)行為建立用戶的興趣音樂(lè)模型,并為用戶推薦能夠滿足用戶興趣音樂(lè)的音樂(lè)推薦系統(tǒng)[1-2],成為緩解這個(gè)問(wèn)題的主要解決方案。音樂(lè)推薦系統(tǒng)相比于傳統(tǒng)的基于搜索的音樂(lè)獲取模式,提高了音樂(lè)服務(wù)的智能程度,高準(zhǔn)確率的音樂(lè)推薦系統(tǒng)能夠大幅提升用戶享受音樂(lè)的便捷性。因此,音樂(lè)推薦系統(tǒng)在近年來(lái)所扮演的角色及其應(yīng)用廣度與日俱增。
目前主要的音樂(lè)推薦系統(tǒng)實(shí)現(xiàn)策略包括:融合內(nèi)容過(guò)濾的音樂(lè)推送方法[1-4]、考慮圖模型的音樂(lè)推送方法[5]、基于語(yǔ)境信息的音樂(lè)推送方法[6]等。融合內(nèi)容過(guò)濾的音樂(lè)推送方法主要采用相關(guān)的音頻分析技術(shù),提取出音樂(lè)本身的特征信息,并采用標(biāo)簽來(lái)描述音樂(lè)特征,再進(jìn)一步地通過(guò)這些特征采用相關(guān)的相似度度量方法,將與之在內(nèi)容特征上相似的音樂(lè)加入到用戶的播放列表中[6]?;趫D模型的音樂(lè)推薦系統(tǒng)主要將用戶的歷史音樂(lè)記錄轉(zhuǎn)化成圖模型上的邊和節(jié)點(diǎn),用戶對(duì)音樂(lè)的喜好行為被轉(zhuǎn)化成邊的權(quán)重,那么為用戶生成喜歡的音樂(lè)列表,就轉(zhuǎn)化成根據(jù)已有信息去度量用戶節(jié)點(diǎn)與音樂(lè)節(jié)點(diǎn)間的相關(guān)程度,將相關(guān)度高的節(jié)點(diǎn)加到用戶的偏好音樂(lè)列表中[5]。基于語(yǔ)境信息的音樂(lè)推薦系統(tǒng)是在傳統(tǒng)的推薦系統(tǒng)的基礎(chǔ)上,通過(guò)加入一些相關(guān)的上下文信息來(lái)達(dá)到推薦的目的。語(yǔ)境指的是所處的環(huán)境與在其使用過(guò)程中所產(chǎn)生的相關(guān)數(shù)據(jù),從用戶的角度而言主要包括:用戶的性別、年齡、職業(yè)等個(gè)人信息;從音樂(lè)的角度而言主要包括:音樂(lè)的類型、時(shí)長(zhǎng)、歌手、曲調(diào)等;從行為的角度而言主要包括:音樂(lè)的播放次數(shù)、用戶的評(píng)價(jià)等[6]。
這些音樂(lè)推薦方法的基本思想都是基于用戶的歷史喜好音樂(lè)行為,通過(guò)不同的相似度或相關(guān)性度量方法直接為用戶生成推薦音樂(lè)列表[3-4],而不考慮用戶歷史喜好音樂(lè)行為所體現(xiàn)出的用戶興趣的波動(dòng)性,影響了推薦音樂(lè)的準(zhǔn)確率。針對(duì)這個(gè)問(wèn)題,本文提出了一種融合Fisher線性判別分析與波動(dòng)序列的音樂(lè)偏好獲取方法。相比于直接通過(guò)用戶歷史喜好音樂(lè)行為,通過(guò)類型相似度算法直接獲取用戶喜歡的音樂(lè)類型并生成推薦,本文方法能夠根據(jù)用戶歷史喜好音樂(lè)行為所體現(xiàn)出的喜好音樂(lè)類型間的波動(dòng)程度,獲取更多的用戶喜好音樂(lè)類型集合,也就有更大的概率覆蓋用戶的興趣,取得更好的推薦結(jié)果。
基于音樂(lè)類型的音樂(lè)推薦系統(tǒng),主要通過(guò)用戶歷史喜好音樂(lè)的類型與待推薦音樂(lè)的類型之間的相異程度來(lái)為用戶生成推薦音樂(lè)目錄,在這些音樂(lè)推薦方法中,音樂(lè)類型的判定是算法的核心部分。本文提出了一種新的音樂(lè)特征判定方法,通過(guò)Fisher線性判別分析融合音樂(lè)的音頻特征、社會(huì)化標(biāo)簽等特征屬性,通過(guò)投影變換、特征融合獲取具有最佳分類效果的分類策略。
2.1 基于Fisher線性判別分析的音樂(lè)特征融合
音樂(lè)的特征描述是音樂(lè)推薦系統(tǒng)的最基本要素,其應(yīng)體現(xiàn)音樂(lè)自身的特征與用戶的體驗(yàn)和情感特征描述,本文從音樂(lè)的音頻特征、音樂(lè)的社會(huì)化標(biāo)簽兩個(gè)層面對(duì)音樂(lè)特征進(jìn)行描述,并對(duì)不同的分類特征進(jìn)行融合,獲取最佳的音樂(lè)特征。
社會(huì)化標(biāo)簽指的是由社交平臺(tái)上的用戶自發(fā)產(chǎn)生的短語(yǔ)或者關(guān)鍵詞,用于描述和分類一個(gè)實(shí)體、概念或者觀點(diǎn)。在音樂(lè)描述領(lǐng)域的社會(huì)化標(biāo)簽,即是由用戶根據(jù)自己的歷史經(jīng)驗(yàn)知識(shí),結(jié)合對(duì)音樂(lè)的感受,自發(fā)地產(chǎn)生對(duì)于音樂(lè)的描述類信息,通常用于輔助喜好情感的表達(dá)。由此可以得出,社會(huì)化標(biāo)簽是基于用戶的對(duì)于音樂(lè)類型的標(biāo)注信息。
現(xiàn)有的音樂(lè)系統(tǒng),例如Last.FM、蝦米音樂(lè)、豆瓣電臺(tái)等,所采用的描述音樂(lè)的社會(huì)化標(biāo)簽,主要包括事實(shí)性標(biāo)簽(factual tag)與文化性標(biāo)簽(culture tag)。事實(shí)性標(biāo)簽即是基于音樂(lè)的自身事實(shí)信息對(duì)音樂(lè)進(jìn)行標(biāo)注,包括音樂(lè)的演唱者、發(fā)行時(shí)間、語(yǔ)言等內(nèi)容信息;文化性標(biāo)簽主要描述的是涉及用戶情感的對(duì)音樂(lè)的主觀感知,例如音樂(lè)風(fēng)格、心情等。標(biāo)簽的數(shù)據(jù)源主要有專家標(biāo)注、用戶標(biāo)注、機(jī)器標(biāo)注,其中專家標(biāo)注指的是專業(yè)的音樂(lè)家或者音樂(lè)內(nèi)容提供商對(duì)音樂(lè)進(jìn)行規(guī)范描述或標(biāo)注;用戶標(biāo)注主要是音樂(lè)用戶在接受音樂(lè)服務(wù)的過(guò)程中將喜好情感等轉(zhuǎn)化為語(yǔ)義標(biāo)簽對(duì)音樂(lè)進(jìn)行標(biāo)注;機(jī)器標(biāo)注指的是通過(guò)機(jī)器學(xué)習(xí)方法進(jìn)行自動(dòng)標(biāo)注。對(duì)于社會(huì)化標(biāo)簽本文采用描述頻次的方法進(jìn)行描述,即是記錄具體音樂(lè)的社會(huì)化標(biāo)簽的標(biāo)記次數(shù),以便進(jìn)行特征提取和特征融合。圖1為音樂(lè)Linkin Park在知名音樂(lè)網(wǎng)站Last.fm上的標(biāo)簽頻次。
Fig.1 Frequency of Linkin Park's social tag圖1 Linkin Park的社會(huì)化標(biāo)簽頻次
音樂(lè)的音頻特征指的是從音樂(lè)自身中抽取出的客觀性的描述信息,例如節(jié)拍、節(jié)奏、旋律等,通過(guò)對(duì)音樂(lè)進(jìn)行數(shù)字信號(hào)分析處理獲取。其中最能反映音樂(lè)特征的是音樂(lè)的旋律,是音樂(lè)表述其內(nèi)在特征的直觀體現(xiàn)。本文對(duì)主要的近80個(gè)音頻特征進(jìn)行抽取,以最大限度地展現(xiàn)音樂(lè)的要素空間,具體如下:
(1)碼率,描述音樂(lè)音質(zhì)的主要指標(biāo),其值越大,音質(zhì)越好;
(2)速率,描述單位時(shí)間內(nèi)的節(jié)拍數(shù);
(3)基準(zhǔn)音量,描述由音樂(lè)自身波動(dòng)幅度所產(chǎn)生的基礎(chǔ)響度;
(4)采樣率,描述音樂(lè)特征的可還原性;
(5)樂(lè)段數(shù),描述音樂(lè)文件中表達(dá)完整樂(lè)曲的最小單元;
(6)拍號(hào),描述單位小節(jié)中節(jié)拍數(shù)目與該小節(jié)中單位拍的商值;
(7)平均分段長(zhǎng)度,描述音樂(lè)旋律與音樂(lè)音色相符時(shí)的最小聲音單元;
(8)分段長(zhǎng)度標(biāo)準(zhǔn)差,描述(7)的標(biāo)準(zhǔn)差;
(9)12個(gè)音色均值,描述單位分段計(jì)算12-Mel倒譜系數(shù);
(10)60個(gè)節(jié)奏值,描述數(shù)字信號(hào)處理技術(shù)所反映的節(jié)拍的信號(hào)特征;
(11)過(guò)零率,描述音樂(lè)的高頻、低頻變化幅度與樂(lè)曲的波動(dòng)程度。
以上近80個(gè)音頻特征,采集的數(shù)據(jù)都是數(shù)值型數(shù)據(jù),用于描述音樂(lè)的音頻特征。其中,音樂(lè)類型特征的另一個(gè)指標(biāo)包括節(jié)拍直方圖[7]、美爾頻率倒譜系數(shù)[8]、過(guò)零率[9]等。因?yàn)檫^(guò)零率被廣泛地應(yīng)用于區(qū)分音樂(lè)的高頻、低頻變化幅度與音樂(lè)波動(dòng)程度,能夠有效地從音樂(lè)底層特征的角度對(duì)音樂(lè)進(jìn)行區(qū)分,所以本文采用過(guò)零率作為度量音樂(lè)類型的一個(gè)主要數(shù)據(jù),具體如下:
其中,ZCRn表示音樂(lè)n的過(guò)零率;sgn[]表示符號(hào)函數(shù),表示如下:
在獲取到音樂(lè)社會(huì)化標(biāo)簽、音頻特征、過(guò)零率等數(shù)值型數(shù)據(jù)的基礎(chǔ)上,本文采用Fisher線性判別分析對(duì)上述兩種特征數(shù)據(jù)(過(guò)零率屬于音頻特征)進(jìn)行特征融合,即根據(jù)轉(zhuǎn)換后的各分類特征值的取值范圍將音樂(lè)分類到不同的音樂(lè)類中。獲取到的兩類樣本數(shù)據(jù)中,用表示獲取到的社會(huì)化標(biāo)簽量化數(shù)據(jù),表示獲取的音樂(lè)音頻特征數(shù)據(jù),其中m1、m2分別表示MT與MP中的樣本數(shù)量,則樣本均值可表示為:
根據(jù)類間離散度與類內(nèi)離散度定義,各類中的類內(nèi)離散度矩陣可表示為:
總的類內(nèi)離散度矩陣可表示為:
兩樣本間的類間離散度矩陣可表示為:
其中矩陣(A1-A2)(A1-A2)T在數(shù)學(xué)表達(dá)上為協(xié)方差矩陣,描述了每條偏好數(shù)據(jù)與總體數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,對(duì)角線上的元素表示了此偏好樣本與總體間的樣本方差,非對(duì)角線上的元素表示了其總體矩陣的協(xié)方差。那么Aj即描述了樣本總體內(nèi)各類間的離散冗余程度,St即表示了各類間(即各音樂(lè)特征類)的離散冗余程度。
在獲取到兩類樣本的類間離散度與類內(nèi)離散度后,為了提高音樂(lè)特征類的準(zhǔn)確度,即分類的精確度,需要盡可能地降低分類后的各音樂(lè)特征類間的耦合程度,增加各音樂(lè)特征類內(nèi)部的聚合程度.也即是找到滿足Aj盡可能小,而St盡可能大的分類準(zhǔn)則,才能使得分類后的樣本能夠代表音樂(lè)本身的分類特性。為此,將原兩類樣本數(shù)據(jù)看作相應(yīng)維度的向量,并以任一向量C為方向進(jìn)行投影變換,轉(zhuǎn)換規(guī)則為:
變換后的兩類樣本均值為:
變換后的類內(nèi)離散度為:
變換后的類間離散度為:
對(duì)于變換后的分類音樂(lè)集合的數(shù)據(jù)要求仍然是,需要盡可能地降低分類后的各集合間的耦合程度,增加集合內(nèi)音樂(lè)特征類間的聚合程度。為此引入了Fisher判別準(zhǔn)則,如下:
其核心思想為計(jì)算能夠使JFisher取得最大值的投影方向,將前面所述投影變換代入可以得出:
采用Lagrange乘子法求解其最值,令分母為非零常數(shù)b,那么Lagrange函數(shù)定義如下:
對(duì)C求偏導(dǎo)數(shù)可以得出:
令偏導(dǎo)數(shù)為0,即是:
2.2 基于音樂(lè)類型波動(dòng)序列的音樂(lè)偏好獲取
定義1(音樂(lè)類型基點(diǎn))以用戶喜好歷史音樂(lè)行為集合為基礎(chǔ)數(shù)據(jù),獲取該集合中各類型音樂(lè)的占比及相應(yīng)權(quán)重系數(shù),并基于此獲取用戶歷史音樂(lè)行為集合的音樂(lè)類型基點(diǎn)。音樂(lè)類型基點(diǎn)即是通過(guò)用戶的歷史偏好音樂(lè)行為,來(lái)獲取初始的用戶喜好音樂(lè)類型的基礎(chǔ)數(shù)據(jù),其表示的是用戶比較喜歡的音樂(lè)類型的量化數(shù)據(jù)。具體表示如下:
其中,MZCRu指代用戶u的音樂(lè)類型基點(diǎn);Su指代用戶u的歷史喜好音樂(lè)行為集合;Pn指代音樂(lè)n在Su中的播放數(shù)量;ZRn表示經(jīng)過(guò)Fisher線性變換后的音樂(lè)分類特征。MZCRu即是用戶喜好音樂(lè)類型的喜好中心位置,用戶可能喜歡的音樂(lè)類型應(yīng)分布在以此為中心,并距此有較短距離的集合內(nèi)。
定義2(音樂(lè)類型波動(dòng)序列)用戶喜好音樂(lè)類型的波動(dòng)數(shù)值數(shù)據(jù)。由于用戶的喜好音樂(lè)通常會(huì)涵蓋較多種類的音樂(lè),并且用戶對(duì)某類型音樂(lè)喜好會(huì)有較大的概率喜歡同類型的其他音樂(lè)。本文基于音樂(lè)自身屬性與用戶對(duì)于音樂(lè)喜好行為間的相似性,來(lái)度量音樂(lè)類型間的距離,該距離也即是音樂(lè)類型波動(dòng)幅度,具體如下:
其中,TFmn表示音樂(lè)類型m與音樂(lè)類型n間的類型波動(dòng)幅度;χ為度量Sim(m,n)表示音樂(lè)類型m與音樂(lè)類型n通過(guò)用戶的喜好關(guān)系所表現(xiàn)出的相似性關(guān)系,度量方式如下:
式中,Umn指代對(duì)于音樂(lè)類型m與n有過(guò)喜好音樂(lè)行為的用戶集合;Num與Nun分別表示其相應(yīng)集合內(nèi)用戶數(shù)量;Numn表示同時(shí)對(duì)音樂(lè)類型m與n有過(guò)喜好音樂(lè)行為的用戶集合,其數(shù)值為Num與Nun的并集。
在獲取音樂(lè)類型基點(diǎn)與音樂(lè)類型波動(dòng)幅度的基礎(chǔ)上,若能根據(jù)用戶歷史喜好音樂(lè)行為所體現(xiàn)出的喜好音樂(lè)類型間的波動(dòng)程度,獲取更多的用戶喜好音樂(lè)類型集合,也就有更大的概率覆蓋用戶的興趣,取得更好的推薦結(jié)果。因此本文結(jié)合波動(dòng)幅度與類型基點(diǎn)獲取用戶喜好音樂(lè)的波動(dòng)序列,即獲取圍繞喜好音樂(lè)類型基點(diǎn)以波動(dòng)幅度為半徑的音樂(lè)類型。其基本思想為,首先根據(jù)音樂(lè)類型波動(dòng)幅度獲取用戶歷史喜好音樂(lè)集合中所體現(xiàn)出的該用戶的喜好音樂(lè)類型波動(dòng)程度,再獲取其喜好音樂(lè)波動(dòng)序列。
那么任一用戶u的喜好音樂(lè)類型波動(dòng)程度取決于其歷史喜好音樂(lè)集合中音樂(lè)類型波動(dòng)幅度的幅度均值,具體如下:
式中,Su表示用戶u的歷史喜好音樂(lè)行為集合;card(Su)表示Su中所包含音樂(lè)的數(shù)量。
那么用戶喜好音樂(lè)類型波動(dòng)序列PMu即可由CTFu與MZCRu共同表示,即:
即表示用戶的喜好音樂(lè)類型應(yīng)分布于以MZCRu為類型基點(diǎn),以CTFu為波動(dòng)半徑的類型集合內(nèi)。其中,距離類型基點(diǎn)越近則說(shuō)明該類型音樂(lè)有更大的概率符合用戶的興趣。
在獲取到用戶喜好音樂(lè)類型波動(dòng)序列的基礎(chǔ)上,將具體的音樂(lè)通過(guò)特征融合后的分類特征與音樂(lè)類型關(guān)聯(lián)起來(lái),根據(jù)音樂(lè)類型在PMu中的優(yōu)先關(guān)系,為用戶生成推薦的音樂(lè)列表。
2.3 算法實(shí)施步驟
本文算法的實(shí)施步驟如下:
輸入:音頻特征矩陣MP,社會(huì)化標(biāo)簽矩陣MT,用戶的歷史偏好音樂(lè)記錄M。
輸出:用戶的推薦結(jié)果集。
步驟1根據(jù)式(1)與式(2)獲取音頻特征矩陣MP,與社會(huì)化標(biāo)簽矩陣MT;
步驟2將矩陣MP與MT轉(zhuǎn)換為相應(yīng)維度的向量表示,并以任意投影方向C進(jìn)行投影變換,得到變換后的樣本矩陣
步驟3獲取投影后的樣本均值矩陣CTSj,類內(nèi)離散度矩陣CTSkjC,類間離散度矩陣CTStC;
步驟4如果投影方向C能夠滿足使得JFisher準(zhǔn)則取得最大值,則C為最佳投影方向,并獲得最佳的音樂(lè)特征分類結(jié)果矩陣ZR;
步驟5遍歷音樂(lè)歷史偏好矩陣M,與分類結(jié)果矩陣ZR,根據(jù)式(17)獲取音樂(lè)類型基點(diǎn)矩陣MZCRu;
步驟6依據(jù)音樂(lè)類型距離式(18)與音樂(lè)類型相似度式(19)獲取音樂(lè)類型波動(dòng)序列TFmn;
步驟7依據(jù)類型基點(diǎn)與波動(dòng)序列,遍歷音樂(lè)集合,獲取距離音樂(lè)類型基點(diǎn)最近的Top-N個(gè)音樂(lè),并推薦給用戶。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
Last.fm是由服務(wù)領(lǐng)域與音樂(lè)受眾遍布全球的Audioscrobbler團(tuán)隊(duì)開發(fā)完成的。Last.fm允許用戶擁有屬于自己的音樂(lè)界面、評(píng)價(jià)音樂(lè)、交流對(duì)相關(guān)音樂(lè)的理解等操作。實(shí)驗(yàn)所用數(shù)據(jù)集LFM是格拉斯哥大學(xué)的研究者們從音樂(lè)網(wǎng)站Last.fm上獲取的真實(shí)用戶數(shù)據(jù)[10],主要包括聽過(guò)8首歌以上的用戶及其相關(guān)音樂(lè)信息,里面共涵蓋了3 148個(gè)喜愛(ài)音樂(lè)的用戶對(duì)30 520首音樂(lè)的相關(guān)行為記錄。在實(shí)驗(yàn)中將從Last.fm上獲取的數(shù)據(jù)分為不同比例的訓(xùn)練集和測(cè)試集兩部分,在訓(xùn)練集上測(cè)驗(yàn)算法涉及的參數(shù),并在測(cè)試集上進(jìn)行驗(yàn)證,具體的分類比例詳見實(shí)驗(yàn)設(shè)計(jì)部分。
3.2 算法評(píng)價(jià)標(biāo)準(zhǔn)
本文采用P@R[11]作為推薦音樂(lè)準(zhǔn)確性的評(píng)價(jià)標(biāo)準(zhǔn),P@R可以根據(jù)本文提出的基于波動(dòng)序列的音樂(lè)推薦算法所獲取的推薦音樂(lè)序列生成R個(gè)音樂(lè)集,并將這R個(gè)音樂(lè)集與訓(xùn)練集中該用戶最常聽的R個(gè)歌曲進(jìn)行對(duì)比,以度量推薦音樂(lè)的準(zhǔn)確性[12-13]。在實(shí)驗(yàn)中的主要做法為隱去數(shù)據(jù)集中用戶最常聽的歌的聽歌記錄,用算法去預(yù)測(cè)它是否是用戶喜歡的歌,推薦效果與P@R的數(shù)值呈正比關(guān)系,具體如下:
覆蓋率(coverage rate)[14]是衡量推薦質(zhì)量的另一個(gè)評(píng)價(jià)標(biāo)準(zhǔn),其反映的是推薦算法發(fā)掘長(zhǎng)尾效應(yīng)的能力,即是為了防止推薦系統(tǒng)只推薦一些比較熱門的資源,而無(wú)法把一些可能符合用戶興趣的冷門資源推送至相應(yīng)用戶。覆蓋率的數(shù)值與推薦效果呈正比例關(guān)系,可表示為:
式里,R(u)指代為用戶u生成的偏好列表;I指代訓(xùn)練集中對(duì)應(yīng)的物品集合。
3.3 實(shí)驗(yàn)設(shè)計(jì)
本文實(shí)驗(yàn)?zāi)康娜缦拢海?)驗(yàn)證Fisher線性判別分析能否對(duì)不同音樂(lè)有較好的區(qū)分效果;(2)針對(duì)當(dāng)前數(shù)據(jù)集,研究參數(shù)對(duì)方法效果的影響程度及最優(yōu)參數(shù)取值;(3)與現(xiàn)有方法相比,所提出方法能否取得更好的音樂(lè)推薦效果。
實(shí)驗(yàn)主要包括三部分:
第一部分是Fisher線性判別分析對(duì)音樂(lè)的區(qū)分實(shí)驗(yàn),主要測(cè)試本文所用的音樂(lè)類型區(qū)分算法能夠比較有效地把音樂(lè)區(qū)分出來(lái)。音樂(lè)類型的判斷是本文的基礎(chǔ),好的音樂(lè)類型算法應(yīng)能夠反映出音樂(lè)自身的特性,并把每個(gè)音樂(lè)分類到合適的類別中。在本文所用的音樂(lè)數(shù)據(jù)集中,測(cè)試通過(guò)Fisher線性判別分析能否融合社會(huì)化標(biāo)簽數(shù)據(jù)與音樂(lè)的音頻數(shù)據(jù),并有效地將音樂(lè)分類。經(jīng)過(guò)反復(fù)測(cè)試,根據(jù)特征融合后的數(shù)值將音樂(lè)分為200個(gè)類(音樂(lè)分類越精確,越有利于獲取高準(zhǔn)確度的用戶偏好),相關(guān)實(shí)驗(yàn)結(jié)果見圖2。
第二部分是參數(shù)檢驗(yàn)實(shí)驗(yàn),主要檢驗(yàn)音樂(lè)波動(dòng)幅度中的χ參數(shù),也即是獲取用戶對(duì)于音樂(lè)喜好行為間的相似性與類型差異間的最優(yōu)權(quán)重比。針對(duì)實(shí)驗(yàn)所用數(shù)據(jù)集LFM,分別提取10%、30%、60%、80%的數(shù)據(jù)作為訓(xùn)練集,其余作為測(cè)試集進(jìn)行實(shí)驗(yàn),對(duì)音樂(lè)類型波動(dòng)幅度公式中的參數(shù)χ進(jìn)行實(shí)驗(yàn)分析。參數(shù)χ影響的是用戶對(duì)于音樂(lè)喜好行為間的相似性與音樂(lè)類型差異兩種因素,實(shí)驗(yàn)分析了二者對(duì)于音樂(lè)類型波動(dòng)幅度的影響程度。由于只有兩種影響因素,參數(shù)χ的取值空間為0到1間任意數(shù)值,經(jīng)過(guò)反復(fù)實(shí)驗(yàn)測(cè)試,選取了幾組有代表性的χ取值(見表1),相關(guān)的實(shí)驗(yàn)結(jié)果如圖3~圖6所示。
Fig.2 Results of music classification圖2 音樂(lè)分類結(jié)果圖
Fig.3 Results of 10%data as training set圖3 10%數(shù)據(jù)作為訓(xùn)練集的實(shí)驗(yàn)結(jié)果
Fig.5 Results of 60%data as training set圖5 60%數(shù)據(jù)作為訓(xùn)練集的實(shí)驗(yàn)結(jié)果
Table1 Value table ofχ表1 參數(shù)χ的取值表
Fig.4 Results of 30%data as training set圖4 30%數(shù)據(jù)作為訓(xùn)練集的實(shí)驗(yàn)結(jié)果
Fig.6 Results of 80%data as training set圖6 80%數(shù)據(jù)作為訓(xùn)練集的實(shí)驗(yàn)結(jié)果
第三部分是對(duì)比實(shí)驗(yàn),把本文提出的基于波動(dòng)序列的推薦策略與現(xiàn)有方法展開對(duì)比。經(jīng)過(guò)反復(fù)實(shí)驗(yàn)對(duì)比,在30%與60%兩種數(shù)據(jù)集模式下,將本文基于類型波動(dòng)序列的推薦算法與基于用戶興趣的MRGI[15](music data grouping and user interests)及 MFCC[6](musical feature for content context)算法進(jìn)行對(duì)比分析。MRGI是基于音樂(lè)數(shù)據(jù)聚類與用戶興趣的音樂(lè)推薦方法,MFCC主要采用Mel倒譜系數(shù)提取音樂(lè)的本身特性,并基于高斯混合模型與音樂(lè)模板庫(kù)為用戶提供音樂(lè)推薦服務(wù)。采用P@R與覆蓋率作為度量其準(zhǔn)確率的評(píng)價(jià)標(biāo)準(zhǔn)。基于P@R的對(duì)比實(shí)驗(yàn)包含兩部分:整體分析實(shí)驗(yàn)與測(cè)試實(shí)例。其中整體分析實(shí)驗(yàn)結(jié)果如圖7~圖8所示,測(cè)試實(shí)際結(jié)果見表2。
Fig.7 Comparative results of 30%data as training set圖7 30%數(shù)據(jù)作為訓(xùn)練集3種算法對(duì)比結(jié)果
Fig.8 Comparative results of 60%data as training set圖8 60%數(shù)據(jù)作為訓(xùn)練集3種算法對(duì)比結(jié)果
基于覆蓋率的對(duì)比實(shí)驗(yàn)設(shè)計(jì)如下:經(jīng)過(guò)反復(fù)測(cè)試,選取在60%數(shù)據(jù)作為訓(xùn)練集時(shí)的對(duì)比實(shí)驗(yàn)作為覆蓋率的實(shí)驗(yàn)結(jié)果,相比于其他幾種不同比例的數(shù)據(jù)集模式,在60%數(shù)據(jù)作為訓(xùn)練集的情況下,3種算法的覆蓋率總體上都能夠取得相對(duì)較大的值,并且降低的速度在可接受的范圍內(nèi)。實(shí)驗(yàn)結(jié)果如表3所示。
Table2 Experimental results of test cases表2 測(cè)試實(shí)例實(shí)驗(yàn)結(jié)果
Table3 Comparative results of coverage rate表3 覆蓋率對(duì)比實(shí)驗(yàn)結(jié)果
3.4 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)1Fisher線性判別分析對(duì)音樂(lè)的區(qū)分實(shí)驗(yàn)。
在實(shí)驗(yàn)結(jié)果圖2中,x軸代表不同的音樂(lè)類型(只表示出數(shù)量,沒(méi)有標(biāo)記出類型名),每條柱狀線表示該類型下所包含的音樂(lè)數(shù)量。從圖2中可以看出,針對(duì)LFM數(shù)據(jù)集,采用Fisher線性判別分析能夠較為平均地將音樂(lè)分類到不同的音樂(lè)類型中,各音樂(lè)類型中,每類音樂(lè)數(shù)量非常多與非常少的音樂(lè)類較少,多數(shù)的音樂(lè)類都包含數(shù)量相當(dāng)?shù)囊魳?lè),也即是能夠獲取到更佳的音樂(lè)分類結(jié)果。
實(shí)驗(yàn)2參數(shù)χ的影響分析實(shí)驗(yàn)。
綜合對(duì)比圖3~圖6的4組實(shí)驗(yàn)結(jié)果數(shù)據(jù),可以看出隨著訓(xùn)練集比例的增加,本文算法的推薦效果也隨之提高,這說(shuō)明獲取較多的用戶音樂(lè)行為記錄,然后訓(xùn)練算法所涉及參數(shù),有利于取得更好的推薦效果。并且隨著R值的增加,P@R值呈現(xiàn)出先增后減的趨勢(shì),4組實(shí)驗(yàn)結(jié)果下R的最優(yōu)取值范圍在25~30間,說(shuō)明針對(duì)當(dāng)前數(shù)據(jù)集,用戶的有效音樂(lè)歷史行為數(shù)量約為30個(gè)。分別對(duì)比各數(shù)據(jù)集模式下,參數(shù)χ的不同取值對(duì)于推薦效果的影響可以發(fā)現(xiàn),當(dāng)χ=0.4時(shí)4種比例下的實(shí)驗(yàn)數(shù)據(jù)能夠取得總體的最優(yōu)值,也即說(shuō)明了用戶對(duì)于音樂(lè)的喜好行為間的相似性對(duì)于音樂(lè)波動(dòng)幅度的影響,要大于音樂(lè)自身的類型差異對(duì)其所產(chǎn)生的影響。在以下的實(shí)驗(yàn)中取χ=0.4。
實(shí)驗(yàn)3與其他算法對(duì)比實(shí)驗(yàn)。
從實(shí)驗(yàn)結(jié)果圖7~圖8可以看出,在LFM數(shù)據(jù)集上以P@R為評(píng)價(jià)標(biāo)準(zhǔn),本文基于波動(dòng)序列的音樂(lè)推薦算法,在兩種不同數(shù)據(jù)集比例下,能夠取得更大的P@R值,即推薦準(zhǔn)確度要優(yōu)于MRGI與MFCC。這一結(jié)論也在隨機(jī)抽取的測(cè)試實(shí)例中得到了驗(yàn)證,見表2。從覆蓋率的對(duì)比實(shí)驗(yàn)結(jié)果表3中可以看出,隨著R值的增加,3種算法的覆蓋率都隨之減少,說(shuō)明最近鄰個(gè)數(shù)越少,所獲取的推薦結(jié)果越有可能更大地覆蓋物品空間。并且MFCC覆蓋率的減少速度最慢,而本文算法整體上能夠取得最大的覆蓋率值。
另外由于時(shí)間復(fù)雜度是衡量推薦算法性能的另一個(gè)重要指標(biāo),若樣本空間為N,3種算法的時(shí)間復(fù)雜度分析如下。
(1)本文算法:算法流程中提取音頻特征時(shí)間復(fù)雜度為O(N),采用線性判別分析時(shí)間復(fù)雜度為O(N3),獲取類型基點(diǎn)與波動(dòng)序列時(shí)間復(fù)雜度為O(N2),那么整個(gè)算法流程時(shí)間復(fù)雜度為O(N3)。
(2)MFCC:算法流程中語(yǔ)音特征提取時(shí)間復(fù)雜度為O(N2),基于高斯混合模型生成推薦結(jié)果時(shí)間復(fù)雜度為O(N3),因此整體時(shí)間復(fù)雜度為O(N3)。
(3)MRGI:算法流程中音樂(lè)特征提取時(shí)間復(fù)雜度為O(N),基于內(nèi)容的協(xié)同過(guò)濾時(shí)間復(fù)雜度為O(N2),基于短期項(xiàng)目熱度的推薦結(jié)果部分時(shí)間復(fù)雜度為O(N2),因此整體時(shí)間復(fù)雜度為O(N2)。
也即說(shuō)明基于用戶的歷史喜好音樂(lè)記錄,在獲取歷史喜好音樂(lè)類型的基礎(chǔ)上,結(jié)合音樂(lè)自身屬性與用戶對(duì)音樂(lè)的喜好行為為用戶提供音樂(lè)推薦服務(wù),能夠在可接受的時(shí)間開銷內(nèi),取得更好的推薦準(zhǔn)確度與覆蓋率,也即能提高推薦質(zhì)量。
隨著數(shù)字音樂(lè)越來(lái)越深入人們的生活,音樂(lè)推薦系統(tǒng)的應(yīng)用也越來(lái)越廣泛,現(xiàn)有音樂(lè)推薦系統(tǒng)的基本思想多是通過(guò)不同的相似度或相關(guān)性度量方法直接為用戶生成推薦音樂(lè)列表,而不考慮用戶歷史喜好音樂(lè)行為所體現(xiàn)出的用戶興趣的波動(dòng)性,影響了推薦音樂(lè)的準(zhǔn)確率。本文基于音樂(lè)自身的曲調(diào)特征及用戶的歷史喜好音樂(lè)行為,提出了一種融合Fisher線性判別分析與波動(dòng)序列的音樂(lè)偏好獲取方法,相比于現(xiàn)有方法,能夠根據(jù)用戶歷史喜好音樂(lè)行為所體現(xiàn)出的喜好音樂(lè)類型間的波動(dòng)程度,獲取更多的用戶喜好音樂(lè)類型集合,也就有更大的概率覆蓋其可能的偏好所在,取得更佳的推薦結(jié)果。未來(lái)的研究工作將會(huì)探討融合上下文信息來(lái)建立用戶的喜好音樂(lè)模型,以期取得更好的音樂(lè)推薦效果。
[1]Su J H,Yeh H H,Yu P S,et al.Music recommendation using content and context information mining[J].IEEE Intelligent Systems,2013,25(1):16-26.
[2]HanB,Rho S,Jun S,et al.Music emotion classification and context-based music recommendation[J].Multimedia Tools andApplication,2012,47(3):433-460.
[3]Pedro C,Markus K,Nicolas W.Content-based music audio recommendation[C]//Proceedings of the 13th Annual ACM International Conference on Multimedia,Singapore,Nov 6-11,2005.New York:ACM,2015:211-212.
[4]Aristomenis L,Lampropoulou P,Tsihrintzis G.Acascadehybrid music recommender system for mobile services based on musical genre classification and personality diagnosis[J].Multimedia Tools and Applications,2013,59(1):241-258.
[5]Kazuyoshi Y,Masataka G,Kazunori K,et al.Hybrid collaborative and content-based music recommendation using proba-bilistic model with latent user preferences[C]//Proceedings of the 7th International Conference on Music Information Retrieval,Victoria,Canada,Oct 8-12,2006:296-301.
[6]Rubin S,Agrawala M.Generating emotionally relevant musical scores for audio stories[J].User Interface Software and Technology,2014,12(4):54-62.
[7]Tzanetakis G,Cook P.Musical genre classification of audio signals[J].IEEE Transactions on Speech and Audio Processing,2014,10(5):293-302.
[8]Gopalan P K,Charlin L,Blei D M,et al.Content-based recommendations with Poisson factorization[J].Neural Information Processing Systems,2014,31(2):128-132.
[9]Gouyou F,Pachet F,Delerue O.Classifying percussive sounds:a matter of zero-crossing rate?[C]//Proceedings of the COST G-6 Conference on Digital Audio Effects,Verona,Italy,Dec 7-9,2000.New York:ACM,2000:56-62.
[10]Li Ruimin,Lin Hongfei,Yan Jun.Mining latent semantic on user-tag-item for personalized music recommendation[J].Journal of Computer Research and Development,2014,51(10):2270-2276.
[11]Chen C M.An intelligent mobile location-aware book recommendation system that enhances problem-based learning in libraries[J].Interactive Learning Environments,2013,21(5):469-495.
[12]Kim S C,Sung K J,Park C S,et al.Improvement of collaborative filtering using rating normalization[J].Multimedia Tools andApplications,2013,6(2):1-12.
[13]Zhu Xia,Song Aibo,Dong Fang,et al.Acollaborative filtering recommendation mechanism for cloud computing[J].Journal of Computer Research and Development,2013,51(10):2255-2269.
[14]Wang Licai,Meng Xiangwu,Zhang Yujie.Acognitive psychology-based approach to user preferences elicitation for mobile network services[J].Acta Electronic Sinica,2011,39(11):2547-2553.
[15]Chen H C,ChenA L P.Amusic recommendation system based on music data grouping and user interests[C]//Proceedings of the 10th International Conference on Information and Knowledge Management,Atlanta,USA,Oct 5-10,2001.New York:ACM,2001:231-238.
附中文參考文獻(xiàn):
[10]李瑞敏,林鴻飛,閆俊.基于用戶-標(biāo)簽-項(xiàng)目語(yǔ)義挖掘的個(gè)性化音樂(lè)推薦[J].計(jì)算機(jī)研究與發(fā)展,2014,51(10):2270-2276.
[13]朱夏,宋愛(ài)波,東方,等.云計(jì)算環(huán)境下基于協(xié)同過(guò)濾的個(gè)性化推薦機(jī)制[J].計(jì)算機(jī)研究與發(fā)展,2013,51(10):2255-2269.
[14]王立才,孟祥武,張玉潔.移動(dòng)網(wǎng)絡(luò)服務(wù)中基于認(rèn)知心理學(xué)的用戶偏好提取方法[J].電子學(xué)報(bào),2011,39(11):2547-2553.
Music Preference Elicit Method Based on Fisher Linear Discriminant Analysis and Volatility Sequence*
XUE Dongmin+,ZHAO Zhihua
Department of Information Engineering,Shanxi Water Technical Professional College,Yuncheng,Shanxi 044000,China
+Corresponding author:E-mail:xue2015033@sina.com
XUE Dongmin,ZHAO Zhihua.Music preference elicit method based on Fisher linear discriminant analysis and volatility sequence.Journal of Frontiers of Computer Science and Technology,2017,11(8):1314-1323.
The existing music recommendation methods often use similarity or correlation to generate recommended music list,those methods don't consider the volatility of users'interest reflected by the historical music behavior,which influences the recommendation accuracy.To solve this problem,this paper proposes a music recommendation method based on Fisher linear discriminant analysis and volatility sequence.In the beginning,this method obtains the social tags and audio features of music to compute the projection direction which has the minimum within-class scatter and maximum between-class scatter,by using projection transformation and Fisher discriminant criterion.This projection direction is also the best direction of classification.Then it takes music type base point as center,type volatility range as radius to acquire users'preferred music type,and based on which to generate the recommendation list.This paper presents the empirical experiments in a real data set LFM,the results show that the proposed method can achieve better P@R and coverage rate,which means it efficiently improves recommendation accuracy and quality.
:Fisher linear discriminant analysis;volatility sequence;music type base point;social tags;music recommender systems
in was born in 1981.He
the M.S.degree in computer software and theory from Northwest University in 2011.Now he is a lecturer at Shanxi Water Technical Professional College.His research interests include intelligent information acquirement and machine learning,etc. 薛董敏(1981—),男,山西運(yùn)城人,2011年于西北大學(xué)獲得碩士學(xué)位,現(xiàn)為山西水利職業(yè)技術(shù)學(xué)院講師,主要研究領(lǐng)域?yàn)橹悄苄畔@取,機(jī)器學(xué)習(xí)等。
ZHAO Zhihua was born in 1980.He received the M.S.degree in computer software and theory from Northwest University in 2009.Now he is a Ph.D.candidate at Northwest University,and lecturer at Shanxi Water Technical Professional College.His research interests include machine learning,graph and image processing,etc.趙志華(1980—),男,山西運(yùn)城人,2009年于西北大學(xué)獲得碩士學(xué)位,現(xiàn)為西北大學(xué)博士研究生,山西水利職業(yè)技術(shù)學(xué)院講師,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),圖形圖像處理等。
A
:TP391
*The National Natural Science Foundation of China Under Grant No.11241005(國(guó)家自然科學(xué)基金).Received 2016-04,Accepted 2016-08.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-08-15,http://www.cnki.net/kcms/detail/11.5602.TP.20160815.1659.020.html
ISSN 1673-9418 CODEN JKYTA8
Journal of Frontiers of Computer Science and Technology 1673-9418/2017/11(08)-1314-10
10.3778/j.issn.1673-9418.1604064
E-mail:fcst@vip.163.com
http://www.ceaj.org
Tel:+86-10-89056056