基于大數(shù)據(jù)的微視頻推薦算法研究

2017-05-15 03:49:05尚松濤石民勇尚文倩洪志國(guó)

中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版) 2017年2期

關(guān)鍵詞：特征詞協(xié)同文本

尚松濤，石民勇，尚文倩，洪志國(guó)

(中國(guó)傳媒大學(xué) 計(jì)算機(jī)學(xué)院，北京100024)

基于大數(shù)據(jù)的微視頻推薦算法研究

尚松濤，石民勇，尚文倩，洪志國(guó)

(中國(guó)傳媒大學(xué) 計(jì)算機(jī)學(xué)院，北京100024)

隨著網(wǎng)絡(luò)的迅速發(fā)展，以及移動(dòng)網(wǎng)絡(luò)資費(fèi)的逐漸下調(diào)、移動(dòng)流量日益充足，微視頻在網(wǎng)絡(luò)上傳播的速度日益加快。越來(lái)越多的人，尤其是年輕人，更偏向于使用移動(dòng)設(shè)備觀看視頻和分享視頻。在大數(shù)據(jù)的環(huán)境下，給微視頻的推薦算法提出了更多的挑戰(zhàn)。傳統(tǒng)的推薦算法，如基于內(nèi)容的推薦算法、基于協(xié)同過(guò)濾的推薦算法、基于圖的推薦算法等，在用于微視頻推薦時(shí)，時(shí)間效率不高，推薦的準(zhǔn)確率也不高。因此，本文提出了基于超鏈-圖模式的個(gè)性化推薦算法，不僅能夠提高推薦的命中率，而且能夠適應(yīng)大數(shù)據(jù)集上的視頻推薦應(yīng)用。此外，本文分析了傳統(tǒng)大數(shù)據(jù)的Slopeone算法，并對(duì)其進(jìn)行改進(jìn)，使之能夠適應(yīng)海量數(shù)據(jù)的微視頻推薦。

大數(shù)據(jù)；微視頻推薦算法；超鏈-圖算法；Slopeone

1 引言

近年來(lái)隨著互聯(lián)網(wǎng)的飛速發(fā)展，尤其是電子商務(wù)的異軍突起，個(gè)性化推薦已經(jīng)成為各大主流網(wǎng)站的一項(xiàng)必不可少的服務(wù)。但是，與當(dāng)今蓬勃發(fā)展的電子商務(wù)網(wǎng)站相比，微視頻的個(gè)性化推薦服務(wù)水平仍存在較大差距。微視頻[1-2]是當(dāng)前媒體發(fā)展中的一種新的媒體形式，它是指短則30秒，長(zhǎng)則20分鐘的視頻短片。微視頻的內(nèi)容涉及面廣泛，視頻形態(tài)多樣，通常涵蓋微電影、紀(jì)錄短片、DV短片、視頻剪輯短片、廣告片段等。微視頻可通過(guò)PC、手機(jī)、DV、DC、MP4等多種視頻終端攝錄或播放。大部分的互聯(lián)網(wǎng)用戶都會(huì)在線觀看一個(gè)視頻短片(微視頻)，如果能夠更好地挖掘用戶的潛在興趣并進(jìn)行相應(yīng)的視頻推薦，就能夠產(chǎn)生更大的社會(huì)和經(jīng)濟(jì)價(jià)值。

目前的推薦算法[3]大致可以分為以下幾種：基于文本的推薦算法[4]，基于圖的推薦算法[5]，基于協(xié)同過(guò)濾的推薦算法[6-7]，以及混合推薦算法[8]等?；谖谋镜耐扑]算法是根據(jù)用戶瀏覽行為記錄，構(gòu)造用戶偏好模型，計(jì)算推薦項(xiàng)目與用戶偏好文檔的相似度，將最相似的項(xiàng)目推薦給用戶?；趨f(xié)同過(guò)濾的推薦算法[9]的基本假設(shè)是：找到與該用戶偏好相似的其他用戶，將他們共同感興趣的內(nèi)容推薦給用戶。文獻(xiàn)[10]中將協(xié)同過(guò)濾算法分為基于記憶模型的方法(memory-based)和基于模型的方法(model-based)?；趫D的推薦算法主要是基于用戶和內(nèi)容構(gòu)建的二部圖[11-13]，文獻(xiàn)[14-15]中通過(guò)構(gòu)建資源分配矩陣的二部圖算法，以及隨機(jī)游走[16-17]的二部圖推薦算法，實(shí)現(xiàn)了個(gè)性化推薦，但其計(jì)算和存儲(chǔ)的開(kāi)銷都很大。文獻(xiàn)[18]中基于小世界網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)提出了兩層混合圖模型，達(dá)到了較好的推薦效果，但是該模型在處理微視頻個(gè)性化推薦中很容易變成NP問(wèn)題。在本文中，提出基于超鏈接-圖的模式的個(gè)性化微視頻推薦算法，很好地對(duì)用戶進(jìn)行個(gè)性化推薦?；旌贤扑]算法(hybird-based)是為解決協(xié)同過(guò)濾算法、基于內(nèi)容的推薦算法和基于圖結(jié)構(gòu)的推薦算法各自問(wèn)題提出的，以達(dá)到最好的推薦效果。

大數(shù)據(jù)技術(shù)[19]是近年來(lái)發(fā)展起來(lái)的一個(gè)比較流行的概念。其含義是數(shù)據(jù)的大小已經(jīng)超越了當(dāng)前機(jī)器的數(shù)據(jù)處理能力，即以當(dāng)前計(jì)算機(jī)的處理能力和算法不可能在一個(gè)可以接受的時(shí)間內(nèi)獲取、處理該數(shù)據(jù)[20]。隨著微視頻的蓬勃發(fā)展，圍繞微視頻的數(shù)據(jù)量也將在短時(shí)間內(nèi)快速膨脹，如微視頻本身的信息、視頻簡(jiǎn)介、視頻評(píng)論、分享等相關(guān)的信息將會(huì)越來(lái)越多，信息之間的關(guān)系也將變得越來(lái)越復(fù)雜。因此，傳統(tǒng)的數(shù)據(jù)處理方法將無(wú)法處理如此大規(guī)模的信息和數(shù)據(jù)，利用大數(shù)據(jù)的相關(guān)技術(shù)來(lái)處理微視頻及其相關(guān)的數(shù)據(jù)將是研究者所面臨的問(wèn)題。針對(duì)數(shù)據(jù)量巨大的問(wèn)題，開(kāi)源的大數(shù)據(jù)處理平臺(tái)Hadoop[21]和開(kāi)源的大數(shù)據(jù)處理算法庫(kù)Mahout[22]。Mahout是一個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)算法庫(kù)，包括各種聚類、分類、推薦等各種算法，Mahout算法庫(kù)是經(jīng)過(guò)檢驗(yàn)的一種廉價(jià)解決方案能夠解決機(jī)器學(xué)習(xí)中的問(wèn)題。因此，在本文中使用Hadoop大數(shù)據(jù)技術(shù)平臺(tái)和Mahout算法庫(kù)來(lái)實(shí)現(xiàn)微視頻的統(tǒng)計(jì)和個(gè)性化推薦。

2 傳統(tǒng)推薦算法

推薦問(wèn)題可以概括為：假設(shè)C是用戶集合，S是所有可能推薦的物品。同時(shí)假設(shè)u是一個(gè)可以測(cè)量物品c對(duì)用戶s可用程度的工具，即：u：C×S→R，其中R表示用戶訂購(gòu)的產(chǎn)品集合。那么，對(duì)于每個(gè)用戶c∈C，選擇使得u取得最大值的物品s∈S進(jìn)行推薦：

(1)

其中，u(c，s)表示某個(gè)用戶s喜歡某件物品c的喜愛(ài)程度，在推薦系統(tǒng)中稱之為推薦率。

2.1 基于內(nèi)容的推薦算法

基于內(nèi)容的推薦大多應(yīng)用與文本信息推薦領(lǐng)域，其基本問(wèn)題包括用戶興趣的建模與更新以及相似性計(jì)算方法。首先建立用戶興趣特征的描述模型，然后使用向量空間模型(Vector Space Model，VSM)[23]來(lái)表示用戶興趣模型，最后進(jìn)行相似度的計(jì)算?！疤卣髟~”是文本處理中常用的用來(lái)表示一篇文本，“特征權(quán)重”用來(lái)衡量文本中一個(gè)特征詞的重要程度，TF-IDF(Term Frequency/Inverse Document Frequency)算法是一個(gè)比較著名的計(jì)算特征權(quán)重的算法[13]，算法描述如下：

假設(shè)N表示可推薦給用的所有文本的總數(shù)，ni表示特征詞wi在所有文本中出現(xiàn)的頻次，fi，j表示特征詞wi在文本dj中的頻次。那么，TFi，j可定義為：

(2)

其中，maxzfz，j表示文本dj中特征詞出現(xiàn)的最大值。

從公式(2)中可以看出，TF反映了在一個(gè)文本中，一個(gè)特征詞出現(xiàn)的頻率越高，那么該特征詞就越重要。然而，如果一個(gè)特征詞反復(fù)出現(xiàn)在不同的文本中，則說(shuō)明該特征詞不具備較強(qiáng)的區(qū)分性，也就越不重要。IDF正是反映了這種情況，IDF的定義如下：

(3)

綜合公式(2)和公式(3)，特征詞wi在文檔dj中的TF-IDF定義為：

TF-IDFi，j=TFi，j×IDFi

(4)

確定特征詞wi的TF-IDF值(也成為“權(quán)重”)之后，文本dj可以表示為向量形式，即：dj={，，，…，}。其中，ti，j是文檔dj中第i個(gè)特征詞，TF-IDFi，j是第i個(gè)特征詞的權(quán)重。

在推薦系統(tǒng)中，待推薦的文本與輸入文本進(jìn)行比較，將最佳匹配結(jié)果推薦給用戶，即在公式(1)中，函數(shù)u(c，s)表示為待推薦的文本與輸入文本之間的相似度。在眾多的計(jì)算相似度的算法中，常用的是Cosine算法，那么u(c，s)函數(shù)可表示為：

u(c，s)=cos(TF-IDFc，TF-IDFs)

(5)

其中，K是特征詞的總數(shù)。

2.2 基于協(xié)同過(guò)濾的推薦算法

協(xié)同過(guò)濾算法分析用戶的興趣，在用戶群中找到指定用戶的相似興趣用戶，綜合這些相似用戶對(duì)某一信息的評(píng)價(jià)，形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)。協(xié)同過(guò)濾算法包括基于內(nèi)容的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾。

基于內(nèi)容的協(xié)同過(guò)濾算法根據(jù)用戶過(guò)去喜歡的商品(item)，為用戶提供他過(guò)去喜歡的產(chǎn)品相似的產(chǎn)品?；趦?nèi)容的協(xié)同過(guò)濾推薦一般分為以下三步：

1)特征抽?。簽槊總€(gè)商品抽取一些特征，用這些特征來(lái)表示該商品。

2)特征學(xué)習(xí)：利用一個(gè)用戶過(guò)去喜歡/不喜歡的商品特征，以此計(jì)算出此用戶的喜好特征。

3)推薦：通過(guò)上一步得到的用戶特征與商品特征，為此推薦一組相關(guān)性最大的商品。

通過(guò)以上分析，基于內(nèi)容的協(xié)同過(guò)濾算法的重點(diǎn)在于相似度的計(jì)算，一種改進(jìn)的Cosine算法被廣泛的應(yīng)用在基于內(nèi)容的協(xié)同過(guò)濾算法中，其公式如下：

sim(i，j)=

(6)

其中，Ris是用戶i選擇商品s的比例，As是用戶i選擇所有相關(guān)商品的平均比例，Iij是用戶i與用戶j同時(shí)選擇商品的總和。

2.3 基于圖的推薦算法

傳統(tǒng)的基于圖的推薦算法主要基于資源分配矩陣的二部圖算法、隨機(jī)游走的二部圖算法等，基于資源分配矩陣得到的推薦列表的算法原理如下：

Step1：假設(shè)現(xiàn)有U個(gè)用戶和N個(gè)視頻構(gòu)成的推薦系統(tǒng)，該系統(tǒng)可以用一個(gè)包含U+N個(gè)節(jié)點(diǎn)的二部圖表示(圖1)：

圖1 基于用戶-內(nèi)容的二部圖

Step2：建立矩陣，用戶的相似度可以通過(guò)兩次資源分配得出，即視頻到視頻的一次資源分配、用戶到視頻的一次資源分配。視頻j到視頻i的資源分配權(quán)重ωij計(jì)算公式如下：

(7)

其中，Dj表示視頻j被多少用戶看過(guò)，Dk表示第k個(gè)用戶看過(guò)的視頻的總數(shù)。由此，可得到矩陣W=(ωij)N×N.

(8)

該算法在給目標(biāo)用戶進(jìn)行推薦，都需要對(duì)整個(gè)二部圖進(jìn)行迭代，這一過(guò)程時(shí)間復(fù)雜度高，生成推薦結(jié)果耗時(shí)長(zhǎng)。

3 改進(jìn)的推薦算法

3.1 改進(jìn)的基于鏈接-圖推薦算法

用戶在互聯(lián)網(wǎng)上瀏覽視頻時(shí)，大都會(huì)從一個(gè)基礎(chǔ)頁(yè)面開(kāi)始，然后層層深入到網(wǎng)頁(yè)內(nèi)的其它視頻。這種瀏覽行為模式是由網(wǎng)頁(yè)的鏈接結(jié)構(gòu)所決定的，如表1所示。

表1 網(wǎng)頁(yè)的鏈接結(jié)構(gòu)

通過(guò)分析用戶瀏覽鏈接行為，構(gòu)建Web圖并建立鄰接矩陣。每個(gè)視頻構(gòu)成圖的一個(gè)節(jié)點(diǎn)，圖的邊為視頻之間的連接，這樣可以建立一個(gè)基于視頻的二部圖。傳統(tǒng)的基于圖的推薦算法構(gòu)造了一個(gè)資源分配權(quán)重矩陣，最終實(shí)現(xiàn)了個(gè)性化推薦。然而這個(gè)矩陣的建立，到生成推薦列表耗費(fèi)的時(shí)間比較長(zhǎng)，且需要較大的存儲(chǔ)空間?；阪溄?圖模式生成視頻推薦列表的流程如圖2所示。

圖2 推薦流程

Step1：構(gòu)建二部圖的鄰接矩陣，矩陣元素的計(jì)算方法由公式(9)確定。

rij=count(i∩j)

(9)

其中，count(i∩j)表示有序?qū)?i，j)出現(xiàn)的次數(shù)。為避免有序?qū)Φ臄?shù)量長(zhǎng)度對(duì)結(jié)果造成影響，使用歸一化因子對(duì)公式(9)進(jìn)行歸一化，從而得到公式(10)。

(10)

Step2：生成規(guī)則庫(kù)，根據(jù)建立的鄰接矩陣，按行讀取top-N相應(yīng)的元素，其所對(duì)應(yīng)的有序?qū)?i，j)作為規(guī)則。

Step3：讀取目標(biāo)用戶最近瀏覽的視頻鏈接。

Step4：生成推薦列表。

例如：設(shè)U={user1，user2，user3，…，user6}和N={hy1，hy2，hy3，hy4}分別作為用戶列表和視頻鏈接列表。用戶的詳細(xì)瀏覽記錄如下：

表2 用戶瀏覽記錄

因此，可以計(jì)算出鄰接矩陣如下：

(11)

歸一化之后的結(jié)果為：

(12)

生成推薦規(guī)則：按行選取top-N作為推薦規(guī)則，如果N=1時(shí)，則需按行選擇最大的rij作為推薦規(guī)則。在本例中，由矩陣第二行可知：

(hy2，hy1)=2，(hy2，hy2)=(hy2，hy3)=(hy2，hy4)=0，因此r21最大，那么生成規(guī)則為(hy2，hy1)。

決策規(guī)則：若生成規(guī)則為(hyi，hyj)，那么讀取每個(gè)用戶最近瀏覽視頻行為中的N個(gè)(latestN)。如果N=1，則根據(jù)最后一次瀏覽記錄進(jìn)行推薦，如用戶ui的最后瀏覽記錄為hyi，則向該用戶推薦視頻hyj。在本例中，根據(jù)規(guī)則(hy2，hy1)，將給用戶user1和user5推薦視頻hy1。

3.2 基于MapReduce的Slope one推薦算法

在典型的推薦算法中，用戶ui對(duì)項(xiàng)目itemj的評(píng)分用rij表示，其值的大小表示用戶ui對(duì)項(xiàng)目itemj的喜好程度。在Slope one算法中，同樣需要估算rij的值，首先使用公式(13)計(jì)算itemi與itemj之間的差異性：

(13)

其中，Dij是itemi與itemj之間的差異的平均值，Rci表示用戶c對(duì)itemi的喜好程度，Rcj表示用戶c對(duì)itemj的喜好程度，Ii和Ij是第i個(gè)與第j個(gè)item，n和m表示itemi和itemj的項(xiàng)目總數(shù)。

計(jì)算完項(xiàng)目之間的差異之后，可以利用(14)式來(lái)計(jì)算用戶ui對(duì)項(xiàng)目itemj的評(píng)分rij，即ui對(duì)項(xiàng)目itemj的喜好程度：

(14)

其中，Si表示用戶ui評(píng)過(guò)分的項(xiàng)目集合，||Si||表示Si中所包含的元素個(gè)數(shù)。

MapReduce 是基于Hadoop框架的并行計(jì)算模型，它包括兩個(gè)階段：Mapper階段和Reducer階段。MapReduce的基本思想是將輸入數(shù)據(jù)分成n部分，每個(gè)部分由一個(gè)Mapper來(lái)處理，每個(gè)Mapper的輸出為一個(gè)鍵/值對(duì)(Key/Value pairs)。如果Mapper階段輸出m個(gè)類型鍵/值對(duì)，那么將有m個(gè)Reducer來(lái)接收這m個(gè)類型鍵/值對(duì)并進(jìn)行處理，Reducer階段輸出最終的結(jié)果。

在基于MapReduce的Slope one算法中，使用兩個(gè)MapReduce和一個(gè)Mapper來(lái)對(duì)傳統(tǒng)的Slope one算法進(jìn)行并行化處理。第一個(gè)MapReduce用來(lái)完成計(jì)算每一個(gè)用戶的Dij，其核心算法如下：

Mapper階段：

Mapper輸入：>

Mapper輸出：>

Reduce階段：

Reducer輸入：>

Reducer輸出：，Dij>

從以上可以看出：在Mapper階段并沒(méi)有進(jìn)行任何的處理或計(jì)算，而在Reducer階段計(jì)算用戶的Dij。第二個(gè)MapReduce用于計(jì)算Dij的平均差異性，其核心算法如下：

Mapper階段：

Mapper輸入：，Dij>

Mapper輸出：，Dij>

Reducer階段：

Reducer輸入：，Dij>

Reducer輸出：，Pair>

同樣的，在Mapper階段并未進(jìn)行任何計(jì)算，但在Reducer階段計(jì)算出了所需的結(jié)果。根據(jù)這個(gè)結(jié)果，在最后一個(gè)Mapper階段即可完成用戶推薦項(xiàng)目的喜好程度rij，核心算法如下：

Mapper輸入：>

Mapper輸出：>

其中，Mapper的輸出表示對(duì)每個(gè)用戶(UserID)，其感興趣的項(xiàng)目(itemID)的喜好程度(Rating)的度量，根據(jù)這些數(shù)據(jù)可以推薦給用戶最感興趣的項(xiàng)目。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)標(biāo)準(zhǔn)

為了驗(yàn)證本文的算法設(shè)計(jì)，選取的第三方的視頻網(wǎng)站(Youtube的視頻點(diǎn)擊數(shù)據(jù)集)的用戶瀏覽數(shù)據(jù)，其中一個(gè)數(shù)據(jù)集包括大約10，000個(gè)用戶，另一個(gè)數(shù)據(jù)集包括大約20，000個(gè)用戶。在實(shí)驗(yàn)中，將數(shù)據(jù)的90%作為訓(xùn)練集，剩下的10%作為測(cè)試集。

為了評(píng)估算法的性能，采用F1 measure[26]，包括準(zhǔn)確率(Precision)和召回率(Recall)兩部分，其計(jì)算方法如下：

(15)

(16)

(17)

4.2 實(shí)驗(yàn)結(jié)果及分析

從表3和圖3、圖4中可以看出，改進(jìn)后的算法要比傳統(tǒng)的推薦算法性能要高，準(zhǔn)確率的性能從1.6%提高到了14%，召回率從4%提高到11%。F1的性能在數(shù)據(jù)集1中提升到29.5%，在數(shù)據(jù)集2中提升到了24%。

圖3 數(shù)據(jù)集1上的實(shí)驗(yàn)結(jié)果

圖4 數(shù)據(jù)集2上的實(shí)驗(yàn)結(jié)果

表3 在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

DatasetDataset1Dataset2AlgorithmClassicalalgorithmImprovedalgorithmClassicalalgorithmImprovedalgorithmF1measureTop10.234090.294680.1107620.237562Top20.188390.248660.1336530.18979Top30.156450.207280.1234760.16511Top40.134240.177060.1030890.141617Top50.116360.156730.0895880.124863Top60.102680.140050.0791990.113263

續(xù)表

5 結(jié)論

隨著網(wǎng)絡(luò)的發(fā)展和移動(dòng)手持設(shè)備的普及，微視頻的發(fā)展日益迅速，尤其年輕人更喜歡在移動(dòng)設(shè)備上觀看各類視頻。由此可知，視頻的推薦算法日益的受到研究者的關(guān)注。本文在傳統(tǒng)的推薦算法的基礎(chǔ)上改進(jìn)了傳統(tǒng)的推薦算法，通過(guò)實(shí)驗(yàn)驗(yàn)證了改進(jìn)后的算法具有更好的性能?；贛apReduce的大數(shù)據(jù)的計(jì)算平臺(tái)也日益的受到關(guān)注，本文也通過(guò)改進(jìn)傳統(tǒng)的Slope one算法，使算法能夠在大數(shù)據(jù)集上提高性能。

[1] 李英壯，高拓，李先毅. 基于云計(jì)算的視頻推薦系統(tǒng)的設(shè)計(jì)[J].通信學(xué)報(bào). 2013，34(2)：138-140.

[2] 李玥.微視頻傳播的發(fā)展模式探析[J].學(xué)術(shù)交流，248(11)：177-181，2014.

[3]B Yang，P F Zhao. Recommendation algorithm overview[J].Journal of Shanxi University(Nat Sci Ed)，34(3)：337-350，2011.

[4]Lops P，de Gemmis M，Semeraro G. Content-based recommender system. State of the art and trends[M].Recommender System Handbook，Spring US，2011：73-105.

[5]S Z Zhang，D R Chen. Hybrid graph Model with two layers for personalized recommendation[J]. Journal of Software，2009，(12)：123-130.

[6]X Y Su，T M Khoshoftaar. A survey of collaborative filtering techniques[J]. Advanced in Artificial Intelligence，2009，(12).

[7]J Zhang，Z Lin，B Xiao，C Zhang. An optimized item-based collaborative filtering recommendation algorithm[J].IEEE International Conference on Network Infrastructure and Digital Content，2009：414-418.

[8]Lucas J P，Luz N，Moreno M N. A hybrid recommendation approach for a tourism system[J]. Expert System with Application，2013，40(9)：3532-3550.

[9]L Dong，Y Nie，C X Xing，K H Wang. Research and Implementation of a Personalized Recommendation System[J].Lecture Notes in Computer Science，2006，(4312)：183-191.

[10]J S Breese，Heckerman D，Kadie C. Empirical Analysis of Predictive Algorithm for Collaborative Filtering[J]. Process of the 14th Conference on Uncertainty in Artificial Intelligence，1998：43-52.

[11]C C Aggarwal，J L Wolf，K L Wu，P S Yu. Horting hatches an egg：A new graph-theoretic approach to collaborative filtering[J]. Proceeding of the KDD，1999：201-212.

[12]R Feldman，J Sanger.The Text Mining Handbook：Advanced Approaches in Analyzing Unstructured Data[M]. Cambridge University Press，2007：242-272.

[13]F Abel，N Henze，D Krause.Exploiting additional Context for Graph-based Tag Recommendations in Folksonomy System[J].2008 IEEE/WIC/ACM International Conference on Web Intelligence an Intelligent Agent Technology，(1)：148-154，2008.

[14]T Zhou，J Ren，M D M. Bipartite network project and personal recommendation[J]. Phys Rev E，2007，(76)：046-115.

[15]T Zhou，L L Jiang，R Q Su. Effect of initial configuration on network-based recommendation[J]. Europhys Lett，2008，(81)：58004.

[16]F Fancois P Alain，S Marco. Random-walk computation of similarities between nodes of a graph with application to collaboration recommendation[J]. Knowledge and Data Engineering，IEEE Trans，2007，19(3)：355-369.

[17]S Shang，S R Kulkami. Random walk based model incorporating social information for recommendation[J]. IEEE International Workshop on Machine Learning for Signal Processing，2012：23-26.

[18]D J Watts，S H Strogatz. Collective dynamics of small-world networks[J]. Nature，1998，(393)：440-442.

[19]程學(xué)旗，靳小龍，王元卓.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào)，2014，25(9)：1889-1908.

[20]S M Meng，W C Dou.X Y Zhang.KASR：a keyword-aware sevice recommendation method on MapReduce for Big Data application[C]. IEEE Transactions on parallel and distibuted system，25(12)：3221-3231.

[21]劉文峰，顧君忠，林欣.基于Hadoop和Mahout的大數(shù)據(jù)管理分析系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件，2015，32(1)：47-50.

[22]E Jain，S K Jain.Categoring Twitter users on the basis of their interests using Hadoop/Mahout platform[J].Industrial and Information Systems(ICIIS)，9th International Conference，2014：15-17.

[23]魯松，白碩，黃雄.基于向量空間模型的有導(dǎo)詞義消歧[J].計(jì)算機(jī)研究與發(fā)展，2001，38(6)：662-667.

[24]S Song，K J Wu.A creative personalized recommendation algorithm—User-based Slope One algorithm[J]. 2012 International Conference on Systems and Informatics，2012：2023-2027.

[25]L N Li，H Chen，X Y Du.MapReduce-Based SimRank Computation and Its Application in Social Recommender System[J]. 2013 IEEE International Congress on Big Data，2013：133-140.

[26]C J Van Rijsbergen.Information Retrieval[M].London：Butterworths，1979.

(責(zé)任編輯：宋金寶)

Research on Micro-video Recommendation Algorithms Based on Big Data

SHANG Song-tao，SHI Min-yong，SHANG Wen-qian，HONG Zhi-guo

(Computer Science School，Communication University of China，Beijing 100024，China)

With the development of the Internet，the micro-video is becoming more popular. Nowadays，the mobile tariff is gradually down，and the mobile data traffic is becoming sufficient. More and more people，especially young teenagers，are eager to watching and sharing micro-video on mobile devices. Under the conditions of big data，there are more challenges to micro-video recommendation algorithms. The traditional recommendation algorithms，such as content-based recommendation algorithm，collaborative filtering recommendation algorithm，and graph-based，are low efficiency. Thus，this paper improves the traditional recommendation algorithms and proposes an improved recommendation based on hyperlink-graph model. Not only it can reduce the cost of the machine running time，but also it can be used for massive data. In addition，this paper also improves the traditional Slope one algorithm. The improved Slope one algorithm is based on MapReduce framework and has higher precision and recall. The algorithm also can be used to massive micro-video recommendation.

big data；micro-video recommendation；bipartite graph；Slope one

2016-11-10

尚松濤(1978-)，男(漢族)，北京人，中國(guó)傳媒大學(xué)博士研究生.

1673-4793(2017)02-0038-08