陳 碩,李曉戈
(西安郵電大學(xué) 陜西 西安 710119)
當(dāng)今的人類社會(huì)已然步入到了信息時(shí)代,特別是受到各種自動(dòng)化機(jī)器人大規(guī)模應(yīng)用影響,用戶行為得到了更加精細(xì)化的記錄,若能夠?qū)⒂脩粜袨閿?shù)據(jù)充分挖掘出來(lái),進(jìn)而掌握其中的行為模式,對(duì)用戶需求做出預(yù)估,掌握經(jīng)濟(jì)社會(huì)需求規(guī)律,為用戶提供更具個(gè)性化的服務(wù),以實(shí)現(xiàn)對(duì)全社會(huì)生產(chǎn)效率的大幅度提升,有著巨大的現(xiàn)實(shí)意義。而在開(kāi)展用戶行為分析工作時(shí),對(duì)大數(shù)據(jù)與云計(jì)算技術(shù)的應(yīng)用便是其中必須要應(yīng)用到的技術(shù)手段,基于大數(shù)據(jù)與云計(jì)算背景下之下的用戶行為分析將迎來(lái)一輪新的發(fā)展高峰。
目前有關(guān)用戶行為分析的研究已經(jīng)取得一定的成果,但大數(shù)據(jù)的引入也為用戶行為分析帶來(lái)了許多新的難題,主要反映在以下幾方面當(dāng)中:
與以往的數(shù)據(jù)記錄方式相對(duì)比而言,大數(shù)據(jù)不單單僅是規(guī)模上的擴(kuò)大,且其本質(zhì)內(nèi)涵也發(fā)生了徹底性的轉(zhuǎn)變。以往所采取的用戶行為分析在數(shù)據(jù)存儲(chǔ)方面更多還是依靠的數(shù)據(jù)倉(cāng)庫(kù)。然而基于大數(shù)據(jù)的背景下,數(shù)據(jù)存儲(chǔ)則會(huì)面臨數(shù)據(jù)前移代價(jià)過(guò)大及適應(yīng)性不強(qiáng)的問(wèn)題。為應(yīng)對(duì)大規(guī)模數(shù)據(jù)信息存儲(chǔ)與處理,開(kāi)展用戶行為分析將是必備前提。
(1)大數(shù)據(jù)信息的主要來(lái)源途徑之一即各種設(shè)備在運(yùn)行過(guò)程中所產(chǎn)生出的數(shù)據(jù)信息,以及用戶在瀏覽網(wǎng)站過(guò)程中所產(chǎn)生出的交互信息,上述信息內(nèi)容存在著大量的半結(jié)構(gòu)化數(shù)據(jù)信息,且有許多數(shù)據(jù)仍未原始數(shù)據(jù)。因缺乏對(duì)數(shù)據(jù)結(jié)構(gòu)與內(nèi)涵的釋義,許多數(shù)據(jù)定義不明確,成為了真?zhèn)坞y辨的雜亂數(shù)據(jù),這也就導(dǎo)致數(shù)據(jù)預(yù)處理工作將面臨著更加困難的挑戰(zhàn)要求。(2)從大數(shù)據(jù)用戶行為數(shù)據(jù)挖掘來(lái)分析,這是一項(xiàng)需長(zhǎng)期堅(jiān)持且不斷積累的發(fā)展過(guò)程,考慮到數(shù)據(jù)信息總量規(guī)模龐大,對(duì)于數(shù)據(jù)信息的挖掘結(jié)果仍需基于多個(gè)云平臺(tái)之上的數(shù)據(jù)節(jié)點(diǎn)體系內(nèi)來(lái)開(kāi)展。直接面向大數(shù)據(jù)的知識(shí)架構(gòu)應(yīng)能夠滿足于更高的拓展性且要支持即時(shí)更新,以及快捷化的信息整合等能力。
近年來(lái)有關(guān)云計(jì)算的概念已經(jīng)席卷了整個(gè)互聯(lián)網(wǎng)行業(yè),同時(shí)也使得用戶行為分析在迎來(lái)巨大機(jī)遇的同時(shí)也面臨著新的困難挑戰(zhàn)。云計(jì)算可為用戶行為分析提供以下幾項(xiàng)技術(shù)支持:
為獲得大數(shù)據(jù)存儲(chǔ)及訪問(wèn),眾多公司都開(kāi)展了分布式網(wǎng)絡(luò)文件系統(tǒng)研究。以谷歌公司所研發(fā)出的GFS系統(tǒng)為例,這一系統(tǒng)硬件是一項(xiàng)大規(guī)模中低端計(jì)算機(jī)集群組織,其中含括了兩大節(jié)點(diǎn),即主節(jié)點(diǎn)和眾多的數(shù)據(jù)節(jié)點(diǎn)。程序在進(jìn)行數(shù)據(jù)訪問(wèn)時(shí),最先對(duì)主節(jié)點(diǎn)進(jìn)行訪問(wèn),得到數(shù)據(jù)節(jié)點(diǎn)信息及授權(quán)以后,再訪問(wèn)數(shù)據(jù)節(jié)點(diǎn)。其中任意一處數(shù)據(jù)節(jié)點(diǎn)發(fā)生故障,對(duì)于整體數(shù)據(jù)應(yīng)用都不會(huì)造成影響。
云計(jì)算將計(jì)算工作從用戶終端集中到“云端”,是基于互聯(lián)網(wǎng)的一種計(jì)算模式。在國(guó)外的一些國(guó)家中,將云計(jì)算技術(shù)逐漸作為維持國(guó)家核心競(jìng)爭(zhēng)力的重要手段,例如,美國(guó)軍隊(duì)、司法、農(nóng)業(yè)等都應(yīng)用了云計(jì)算服務(wù),通過(guò)構(gòu)建云計(jì)算生態(tài)系統(tǒng),推動(dòng)產(chǎn)業(yè)鏈的發(fā)展。還有澳大利亞政府通過(guò)頒布相應(yīng)的文件,注重將大數(shù)據(jù)分析應(yīng)用到公共行業(yè)中,進(jìn)行服務(wù)改革,制定出公共政策。我國(guó)在云計(jì)算方面,已經(jīng)突破了存儲(chǔ)系統(tǒng)軟、硬件設(shè)備技術(shù),在彈性計(jì)算、分布式計(jì)算等方面有了很大的突破,我國(guó)的教育云、北京電力等的機(jī)構(gòu)都已經(jīng)應(yīng)用了H3C云計(jì)算。
這一系統(tǒng)與GFS較為相似,是通過(guò)主節(jié)點(diǎn)掌控并配置每一處子節(jié)點(diǎn)的計(jì)算資源。每一項(xiàng)子節(jié)點(diǎn)均可由集群內(nèi)移除,且對(duì)于當(dāng)下所執(zhí)行的任務(wù)并不會(huì)造成干擾。容錯(cuò)、分布計(jì)算及負(fù)載平衡等技術(shù)均可通過(guò)系統(tǒng)直接完成,用戶本身也無(wú)需利用此方面知識(shí)便可高效應(yīng)用分布式計(jì)算。以開(kāi)源分布式計(jì)算架構(gòu)Hadoop為例,其整體架構(gòu)具備以下功能:提供支持Hadoop系統(tǒng)的公用組件;幫助用戶實(shí)現(xiàn)對(duì)海量數(shù)據(jù)吞吐的分布式系統(tǒng);任務(wù)規(guī)劃及子節(jié)點(diǎn)程序調(diào)度、實(shí)現(xiàn)大規(guī)模數(shù)據(jù)集平行計(jì)算。
當(dāng)前所搜集到的各項(xiàng)大數(shù)據(jù)信息均是通過(guò)業(yè)務(wù)、日志等數(shù)據(jù)方式所生成的,但卻未能夠認(rèn)識(shí)應(yīng)當(dāng)如何確保此類數(shù)據(jù)更加適用在對(duì)用戶行為的分析上,這同時(shí)也為更加高效化的分析用戶行為帶來(lái)了新的挑戰(zhàn)。開(kāi)展用戶行為分析能夠依據(jù)用戶需求,提出大數(shù)據(jù)信息組織規(guī)范,利用元數(shù)據(jù)或是標(biāo)記語(yǔ)言等策略標(biāo)示出大數(shù)據(jù)的信息內(nèi)涵,從而為用戶行為分析軟件提供便利,更好的搜集并分析相關(guān)數(shù)據(jù)信息。
信息資源整合類型包括兩大類型,即同類數(shù)據(jù)合并與異類數(shù)據(jù)關(guān)聯(lián)。其中第一種關(guān)于同類數(shù)據(jù)的合并類似與將網(wǎng)絡(luò)用戶的發(fā)帖信息匯聚起來(lái)便可研究某一類用戶群體的關(guān)注熱點(diǎn),盡管數(shù)據(jù)本身為同一類型,但在數(shù)據(jù)格式、規(guī)模等方面仍有所區(qū)別,因此在實(shí)施資源整合時(shí)就必須充分考慮到數(shù)據(jù)格式的統(tǒng)一性,以及不同數(shù)據(jù)規(guī)模的代表性。而后一種如科技信息的檢索,一般是將相關(guān)的用戶日志、文獻(xiàn)摘要、關(guān)鍵詞等信息予以整合。
這一方面的應(yīng)用在大數(shù)據(jù)集用戶行為分析方面優(yōu)勢(shì)突出,主要體現(xiàn)在以下兩個(gè)方面:(1)因受到數(shù)據(jù)異構(gòu)性、安全性和相關(guān)的法律限制影響,將相關(guān)的數(shù)據(jù)信息內(nèi)容采取集中化分析顯然有些不切實(shí)際,因此可采取本地處理后再進(jìn)一步采取后續(xù)處理措施;(2)把數(shù)據(jù)源分為多個(gè)小模塊,盡可能在本地即做到對(duì)數(shù)據(jù)信息的預(yù)處理及數(shù)據(jù)挖掘,最終合并所挖掘到的數(shù)據(jù)信息,能夠大幅度減小數(shù)據(jù)傳輸與系統(tǒng)計(jì)算的費(fèi)用支出。
總而言之,隨著大數(shù)據(jù)的產(chǎn)生也預(yù)示著更大規(guī)模的數(shù)據(jù)信息將會(huì)被應(yīng)用到用戶行為分析過(guò)程當(dāng)中,這不僅能夠?yàn)橛脩粜袨榉治鰩?lái)新發(fā)展,同時(shí)也將會(huì)使得當(dāng)前所沿用的理論架構(gòu)與技術(shù)面臨新的挑戰(zhàn)。在開(kāi)展大數(shù)據(jù)應(yīng)用研究時(shí),可采用傳統(tǒng)情報(bào)學(xué)作為指導(dǎo),將數(shù)據(jù)生成、信息分析與知識(shí)重構(gòu)視作為一個(gè)整體,從更加廣闊的視野角度來(lái)研究大數(shù)據(jù)用戶行為分析。
[1] 季正波,白光偉,沈航等.基于用戶行為記錄的云服務(wù)隱私保護(hù)體系和算法[J].計(jì)算機(jī)科學(xué),2015,42(8).
[2]毛建景,張凱萍.云計(jì)算環(huán)境下海量用戶行為信任評(píng)估模型[J].計(jì)算機(jī)仿真,2016,33(3).
[3] 王兵.基于云計(jì)算技術(shù)的大數(shù)據(jù)用戶行為引擎設(shè)計(jì)[J].電腦知識(shí)與技術(shù),2016,12(5).
[4] 盧小賓,王建亞.云計(jì)算采納行為研究現(xiàn)狀分析[J].中國(guó)圖書(shū)館學(xué)報(bào),2015,(1).