金銘
摘要:在大數(shù)據(jù)時(shí)代下,互聯(lián)網(wǎng)信息呈井噴式爆發(fā),信息過載問題的嚴(yán)重性越發(fā)凸顯。目前,最直接、有效緩解信息過載的方法是使用大數(shù)據(jù)推薦系統(tǒng),關(guān)于大數(shù)據(jù)推薦系統(tǒng)的研究越來越被信息行業(yè)所重視。文章關(guān)于推薦系統(tǒng)與大數(shù)據(jù)進(jìn)行了具體分析,并對大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的核心技術(shù)展開了詳細(xì)探索,同時(shí)也豐富了該領(lǐng)域的理論研究成果。
關(guān)鍵詞:大數(shù)據(jù);推薦系統(tǒng);協(xié)同過濾
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2018)34-0253-02
隨著移動(dòng)終端和移動(dòng)應(yīng)用在各個(gè)行業(yè)的大力普及,推進(jìn)了互聯(lián)網(wǎng)信息數(shù)量的不斷增長,大數(shù)據(jù)也因此引起了社會(huì)各界高度關(guān)注。僅僅在2009年,Google公司就為美國貢獻(xiàn)了將近540億美元的GDP值,因此,大數(shù)據(jù)技術(shù)的不斷進(jìn)步對社會(huì)各個(gè)領(lǐng)域的影響不容忽視[1]。
科技在豐富人類生活的同時(shí),也出現(xiàn)了弊端,比如造成信息過載現(xiàn)象,人們?nèi)绾胃咝У貜拇罅繑?shù)據(jù)中提煉出滿足自身需求、有價(jià)值的信息則是目前信息領(lǐng)域中的熱點(diǎn)問題。當(dāng)今處理信息過載問題首選辦法為推薦系統(tǒng),但是傳統(tǒng)集中式推薦系統(tǒng)在處理海量數(shù)據(jù)、異構(gòu)數(shù)據(jù)時(shí)會(huì)出現(xiàn)不同問題:例如處理大規(guī)模的數(shù)據(jù)時(shí),推薦系統(tǒng)性能發(fā)揮不全;推薦系統(tǒng)缺少實(shí)用性和即時(shí)性;推薦系統(tǒng)其算法的擴(kuò)展與改進(jìn)問題;指導(dǎo)理論的發(fā)展有待提升等。
目前在大數(shù)據(jù)背景下,針對推薦系統(tǒng)的研究工作已取得一定進(jìn)展,但尚未形成一套有效的支撐理論,同時(shí)期技術(shù)尚未成熟。為了更好地推進(jìn)研究工作的發(fā)展,筆者關(guān)于大數(shù)據(jù)與推薦系統(tǒng)展開了具體分析和探索。
1 推薦系統(tǒng)與大數(shù)據(jù)
1.1傳統(tǒng)推薦系統(tǒng)
傳統(tǒng)概念中的推薦系統(tǒng)在推薦環(huán)節(jié)主要由數(shù)據(jù)預(yù)處理和數(shù)據(jù)生成構(gòu)成。在數(shù)據(jù)預(yù)處理過程中,推薦系統(tǒng)首先要匯總大量數(shù)據(jù)的特征,征集數(shù)據(jù)用戶的個(gè)人傾向和偏好以完成數(shù)據(jù)預(yù)處理;在數(shù)據(jù)生成過程中,推薦系統(tǒng)結(jié)合用戶興趣搜索,在推薦算法中得出推薦項(xiàng)目數(shù)據(jù)集合[2]。
偏好獲取技術(shù)的定義是借助數(shù)據(jù)信息跟蹤用戶興趣、選擇傾向、性格特點(diǎn)等信息,以便做到實(shí)時(shí)向各個(gè)用戶發(fā)出不同的網(wǎng)絡(luò)需求服務(wù),同時(shí)依據(jù)用戶需求的變動(dòng)適時(shí)做出調(diào)度[3]。傳統(tǒng)用戶偏好獲取技術(shù)根據(jù)建模及啟發(fā)式的兩種形式來搜集用戶偏好信息和數(shù)據(jù),以顯性獲取或是隱性獲取的兩類原則執(zhí)行相關(guān)任務(wù)。啟發(fā)式數(shù)據(jù)用戶獲取法通過其他簡約的方法來獲得用戶需求,比如相似度計(jì)算等方法和建模式法則等,而建模式法則是借助引入機(jī)器學(xué)習(xí)技術(shù)獲得一個(gè)模型。推薦系統(tǒng)根據(jù)用戶偏好及時(shí)間遷移,研究得出自適應(yīng)法,比如遺傳計(jì)算法、神經(jīng)網(wǎng)絡(luò)技術(shù)法可以充分解決以上問題。
以信息過濾的角度來分析,傳統(tǒng)意義上的推薦系統(tǒng)具體細(xì)分為混合推薦系統(tǒng)、內(nèi)容推薦系統(tǒng)和協(xié)同過濾推薦系統(tǒng)。在移動(dòng)終端大量普及的時(shí)代,推薦系統(tǒng)也因此誕生。
1.2 大數(shù)據(jù)的概念和特征
在短期中應(yīng)用常規(guī)軟件對其內(nèi)容和數(shù)據(jù)進(jìn)行獲取、處理的集合項(xiàng)被稱作是大數(shù)據(jù)。大數(shù)據(jù)技術(shù)可以從各個(gè)不同種類的數(shù)據(jù)中直接、快捷地獲取有價(jià)值信息。下述幾大應(yīng)用技術(shù)均可采取大數(shù)據(jù)技術(shù),比較常見的可擴(kuò)展存儲(chǔ)系統(tǒng)、云計(jì)算平臺(tái)等[4]。
大數(shù)據(jù)的顯著特征眾多,信息領(lǐng)域的學(xué)術(shù)界將大數(shù)據(jù)特征歸納后統(tǒng)稱作“5 V模型”,具體為:價(jià)值大密度低、難識(shí)別等。
1.3 傳統(tǒng)推薦系統(tǒng)與大數(shù)據(jù)推薦系統(tǒng)的不同
傳統(tǒng)推薦系統(tǒng)與大數(shù)據(jù)推薦系統(tǒng)二者之間存在顯著差異,具體如表1所示。
2 大數(shù)據(jù)研究文獻(xiàn)的統(tǒng)計(jì)
我們國家針對“大數(shù)據(jù)”的了解與探索遲于西方國家。在20個(gè)世紀(jì)80年代時(shí)候,知名學(xué)者阿爾文·托夫勒便在《第3次浪潮》中將大數(shù)據(jù)譽(yù)為“第3次浪潮的華彩樂章”。截止到目前,西方發(fā)達(dá)國家關(guān)于“大數(shù)據(jù)”的探索和運(yùn)用一直遙遙領(lǐng)先于全球其他國家,沃爾瑪、甲骨文等全球物聯(lián)網(wǎng)緊緊抓住大數(shù)據(jù)打來的商業(yè)機(jī)會(huì)。
縱觀我國,“大數(shù)據(jù)”領(lǐng)域的研究成果一直較少,其中比較有代表性的為韓青青等人發(fā)表的《我國大數(shù)據(jù)領(lǐng)域研究論文的計(jì)量分析》,該著作分別從文獻(xiàn)、關(guān)鍵詞和作者3個(gè)層面探討了我國大數(shù)據(jù),并得出下述結(jié)論:近年來,我國大數(shù)據(jù)研究表現(xiàn)出快速發(fā)展的水平,并成為當(dāng)今研究領(lǐng)域熱門課題,并漸漸發(fā)展成完善的文獻(xiàn)研究機(jī)構(gòu),但是研究力量依然有待提升。
3 大數(shù)據(jù)環(huán)境推薦系統(tǒng)核心技術(shù)
3.1 選擇分布式文件系統(tǒng)管理數(shù)據(jù)
傳統(tǒng)意義上的推薦系統(tǒng)技術(shù)主要負(fù)責(zé)對少量數(shù)據(jù)計(jì)算、小容量文件的儲(chǔ)存,同時(shí)其屬于面對服務(wù)器的架構(gòu)。中心服務(wù)器會(huì)對用戶消費(fèi)、瀏覽等數(shù)據(jù)進(jìn)行搜集和整理,并對這些數(shù)據(jù)進(jìn)行計(jì)算以此得出滿足用戶個(gè)性化需求的推薦。但是一旦數(shù)據(jù)規(guī)模超過其可處理的容量時(shí),服務(wù)器難以實(shí)現(xiàn)對全部數(shù)據(jù)的下載和存儲(chǔ),此時(shí)會(huì)采用外存置換算法及多線程技術(shù),但是I/O上的性能瓶頸仍然存在,最終系統(tǒng)處理大量的數(shù)據(jù)時(shí)效率下降,推薦結(jié)果生成時(shí)間延長。因此總結(jié)出傳統(tǒng)集中式的中心服務(wù)器難以有效、高速的應(yīng)對和處理海量用戶、海量數(shù)據(jù),無法適應(yīng)推薦系統(tǒng)新的發(fā)展需求。
大數(shù)據(jù)推薦系統(tǒng)實(shí)質(zhì)上由分布式文件系統(tǒng)管理數(shù)據(jù)構(gòu)成,而在這些數(shù)據(jù)構(gòu)成上主要是借助集群技術(shù)來實(shí)現(xiàn)的。大數(shù)據(jù)推薦系統(tǒng)其系統(tǒng)框架可滿足大數(shù)據(jù)高效、及時(shí)處理海量數(shù)據(jù)和數(shù)據(jù)可擴(kuò)展等要求,系統(tǒng)架構(gòu)為處理大數(shù)據(jù)創(chuàng)造了有利條件[5]。Hadoop的分布式文件系統(tǒng)(Hadoop distributed file system, HDFS架構(gòu)是其中的典型。大數(shù)據(jù)推薦系統(tǒng)其文件系統(tǒng)主要采用網(wǎng)絡(luò)多臺(tái)節(jié)點(diǎn)存儲(chǔ)的方式,和傳統(tǒng)文件系統(tǒng)有著明顯區(qū)分,數(shù)據(jù)文件存儲(chǔ)打破了傳統(tǒng)意義中其在本地單一節(jié)點(diǎn)的存儲(chǔ)模式,可以在互聯(lián)網(wǎng)環(huán)境下存儲(chǔ)在多個(gè)節(jié)點(diǎn)中。除此之外,文件的位置索引管理通常為一個(gè)或者若干個(gè)節(jié)點(diǎn)來處理,用戶端通過集群來實(shí)現(xiàn)數(shù)據(jù)的讀取與錄入:利用中心節(jié)點(diǎn)得到文件存儲(chǔ)的具體方位,接下來和集群中的節(jié)點(diǎn)進(jìn)行通訊操作,最后以網(wǎng)絡(luò)形式把節(jié)點(diǎn)內(nèi)數(shù)據(jù)進(jìn)行讀取存于本地。上述過程中出現(xiàn)的冗余數(shù)據(jù)存儲(chǔ)、文件切分、數(shù)據(jù)出錯(cuò)恢復(fù)及中間網(wǎng)絡(luò)通信等各個(gè)環(huán)節(jié)均由HDFS負(fù)責(zé)管理,實(shí)現(xiàn)形式是將客戶端的HDFS接口進(jìn)行調(diào)用。
3.2 借助集群技術(shù)處理的分布式計(jì)算架構(gòu)
通過集群來處理分布式計(jì)算的框架比較常見,典型的有Hadoop軟件的MapReduce功能屬于分布式計(jì)算框架,可看作開源計(jì)算框架的一種。MapReduce算法的關(guān)鍵點(diǎn)為“分而治之”,在讀取大量數(shù)據(jù)集的處理方面,通過以由主節(jié)點(diǎn)負(fù)責(zé)的各個(gè)分界點(diǎn)來實(shí)現(xiàn),接下來利用對各個(gè)分界點(diǎn)中間結(jié)果的統(tǒng)一處理,得出計(jì)算結(jié)果。MapReduce架構(gòu)可以解決編程過程中分布式存儲(chǔ)、容錯(cuò)均衡和網(wǎng)絡(luò)通信等各種問題,并將處理過程化作兩個(gè)函數(shù):map和reduce。Map宗旨是完成主任務(wù)的細(xì)分,將其分成多個(gè)小任務(wù);reduce主要是對分解之后多任務(wù)處理結(jié)果的統(tǒng)一整合[6]。
3.3 推薦算法并行化
越來越多的集團(tuán)式上市企業(yè)或大規(guī)模企業(yè)對可處理海量數(shù)據(jù)的推薦算法有著強(qiáng)烈需求,所需處理的海量數(shù)據(jù)甚至可達(dá)到TB級(jí)乃至PB級(jí)的存儲(chǔ)量。典型的案例有:騰訊Peacock主題模型分析系統(tǒng)則要對十億文檔、百萬主題以及百萬詞匯開展主題模型訓(xùn)練,單是百萬詞匯乘以百萬主題的算法矩陣,其數(shù)據(jù)存儲(chǔ)量已達(dá)3TB,百萬主題和十億文檔相乘的矩陣,則高達(dá)3 PB的數(shù)據(jù)存量。達(dá)到TB級(jí)乃至PB級(jí)的數(shù)據(jù)存儲(chǔ)量不能采用傳統(tǒng)串行推薦算法,因?yàn)榇兴惴ㄔ谔幚砗A繑?shù)據(jù)時(shí)性能低下,耗費(fèi)時(shí)長過多,不適應(yīng)大數(shù)據(jù)處理的需求。而大數(shù)據(jù)集的推薦系統(tǒng)則采取分布式文件系統(tǒng)以及并行算法,該并行化技術(shù)滿足了高效處理海量、分布式、異構(gòu)數(shù)據(jù)等的要求。
參考文獻(xiàn):
[1] 孟祥武,紀(jì)威宇,張玉潔. 大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J]. 北京郵電大學(xué)學(xué)報(bào),2015,38(02):1-15.
[2] 劉海鷗. 面向大數(shù)據(jù)知識(shí)服務(wù)推薦的移動(dòng)SNS信任模型[J]. 圖書館論壇,2014,34(10):68-75.
[3] 劉海鷗.面向云計(jì)算的大數(shù)據(jù)知識(shí)服務(wù)情景化推薦[J]. 圖書館建設(shè),2014(07):31-35.
[4] 劉進(jìn),胡大權(quán),陳家佳.面向海量數(shù)據(jù)的推薦系統(tǒng)的研究[J]. 現(xiàn)代電子技術(shù),2016,39(12):59-61+65.
[5] 岑凱倫,于紅巖,楊騰霄.大數(shù)據(jù)下基于Spark的電商實(shí)時(shí)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版),2016(24):61-69.
[6] 米可菲,張勇,邢春曉,蔚欣.面向大數(shù)據(jù)的開源推薦系統(tǒng)分析[J].計(jì)算機(jī)與數(shù)字工程,2013,41(10):1563-1566.
【通聯(lián)編輯:唐一東】