趙鑫
摘要:隨著互聯(lián)網(wǎng)在日常生活中普及范圍越來(lái)越廣,網(wǎng)絡(luò)已經(jīng)成了人們生活中不可或缺的一部分,網(wǎng)絡(luò)的信息形式可以分為文本、視頻、音頻和圖片這幾大類組成,隨著網(wǎng)絡(luò)帶寬的不斷提速,視頻消費(fèi)成為網(wǎng)絡(luò)信息消費(fèi)的中重要組成部分,在用戶視頻消費(fèi)時(shí)根據(jù)用戶的興趣偏好進(jìn)行個(gè)性化推薦,從而提高用戶在平臺(tái)的依賴性,提升用戶對(duì)平臺(tái)的體驗(yàn),促進(jìn)平臺(tái)整體的用戶活躍度具有非常重要的意義。
關(guān)鍵詞:視頻推薦;分布式環(huán)境;用戶活躍度;平臺(tái)粘性
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)06-0043-02
Research on Video Recom Mendation Based on Hadoop Cloudy Network
ZHAO Xin
(Liaoning Academy of Governance, Shenyang 110161, China)
Abstract: Along with the Internet in daily life in popularity is becoming wider and wider, the Internet has become the people life indispensable part and forms of network information can be divided into these categories to text, video, audio and picture composition, with the speeding up of the network bandwidth, the video consumption become network information consumption of an important part of, in user video consumption according to the user's preferences personalized recommendations. So as to improve the user in the platform dependent, enhance the user experience on the platform, activity has very important significance in promoting the overall platform users.
Key words:video recommendation; distributed environment; user active; platform viscosity
隨著國(guó)內(nèi)各種資訊類APP的興起,人們獲取信息的方式已經(jīng)從傳統(tǒng)的紙質(zhì)信息轉(zhuǎn)變?yōu)殡娮有畔@取方式。電子信息也逐步從單一的文字信息變得越來(lái)越多樣化,隨著網(wǎng)絡(luò)帶寬的加速,音頻信息、視頻信息和動(dòng)態(tài)圖片信息等已經(jīng)成為電子信息的重要組成部分,其中尤以視頻信息最為突出,單一國(guó)內(nèi)獨(dú)立的視頻類平臺(tái)而言,除各大新聞門戶網(wǎng)站外,還有包括優(yōu)酷、愛(ài)奇藝和樂(lè)視等眾多平臺(tái),如何在用戶進(jìn)行視頻瀏覽時(shí),根據(jù)用戶的偏好進(jìn)行視頻推薦,從而提升用戶對(duì)平臺(tái)的滿意度具有非常重要的經(jīng)濟(jì)意義和實(shí)用價(jià)值。
隨著互聯(lián)網(wǎng)信息指數(shù)倍的增長(zhǎng)方式,傳統(tǒng)的信息處理方式已經(jīng)很滿足當(dāng)前海量數(shù)據(jù)對(duì)處理性能的要求。數(shù)據(jù)的量級(jí)由最開始的KB、MB、GB、TB到PB級(jí)別,而且數(shù)據(jù)還在非??斓乃俣仍鲩L(zhǎng)。面對(duì)如此的海量的數(shù)據(jù),簡(jiǎn)單的關(guān)系型數(shù)據(jù)庫(kù)甚至已經(jīng)無(wú)法滿足數(shù)據(jù)存儲(chǔ)的要求?;诜植际郊軜?gòu)的云環(huán)境無(wú)疑是在這種情況下催生的,本文正是基于此展開研究,探究在分布式環(huán)境下用戶視頻推薦。
1 Hadoop概述
隨著網(wǎng)絡(luò)數(shù)據(jù)越來(lái)越快速的增長(zhǎng),傳統(tǒng)的信息存儲(chǔ)和處理方式已經(jīng)越來(lái)越顯露出不足,而且面對(duì)海量的數(shù)據(jù)的存儲(chǔ),傳統(tǒng)的關(guān)系型數(shù)據(jù)的查詢性能也很難滿足需求。分布式系統(tǒng)正是在這樣的前提下誕生。
分布式系統(tǒng)主要采用機(jī)器互聯(lián)的方式,將數(shù)據(jù)按照一定的規(guī)則分散到指定的機(jī)器上,多臺(tái)互聯(lián)的機(jī)器構(gòu)成分布式集群環(huán)境,集群環(huán)境中多臺(tái)機(jī)器互聯(lián)過(guò)程中一個(gè)很重要的點(diǎn)是機(jī)器之間的數(shù)據(jù)通信問(wèn)題,保證各個(gè)集群節(jié)點(diǎn)之間能夠進(jìn)行數(shù)據(jù)通信和數(shù)據(jù)交換,當(dāng)集群中部分節(jié)點(diǎn)出現(xiàn)宕機(jī)或者通信不可達(dá)時(shí),能夠保證新數(shù)據(jù)在存儲(chǔ)時(shí)能夠散落到工作正常的機(jī)器節(jié)點(diǎn)上,保證了數(shù)據(jù)存儲(chǔ)的有效性。
Hadoop是N個(gè)開源項(xiàng)目的總稱。主要是由HDFS和MapReduce組成。HDFS是Google File System(GFS)的開源實(shí)現(xiàn)。MapReduce是Google MapReduce的開源實(shí)現(xiàn)。這個(gè)分布式框架很有創(chuàng)造性,而且有極大的擴(kuò)展性,使得Google在系統(tǒng)吞吐量上有很大的競(jìng)爭(zhēng)力。因此Apache基金會(huì)用Java實(shí)現(xiàn)了一個(gè)開源版本,支持Fedora、Ubuntu等Linux平臺(tái)。雅虎和硅谷風(fēng)險(xiǎn)投資公司Benchmark Capital 聯(lián)合成立一家名為Hortonworks的新公司,接管被廣泛應(yīng)用的數(shù)據(jù)分析軟件Hadoop的開發(fā)工作。
Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是 Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop是高效的,因?yàn)樗圆⑿械姆绞焦ぷ?,通過(guò)并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理 PB 級(jí)數(shù)據(jù)。此外,Hadoop 依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。