劉國(guó)峰 中國(guó)人民大學(xué)信息資源管理學(xué)院
基于移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)分析平臺(tái)的研究
劉國(guó)峰 中國(guó)人民大學(xué)信息資源管理學(xué)院
互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái),涵蓋了云計(jì)算、大數(shù)據(jù)的各個(gè)知識(shí)點(diǎn),主要研究當(dāng)前互聯(lián)網(wǎng)的用戶行為習(xí)慣及購(gòu)買偏好等、利用網(wǎng)絡(luò)爬蟲技術(shù)自動(dòng)收集互聯(lián)網(wǎng)上的用戶訪問行為記錄,結(jié)合當(dāng)前流行的算法進(jìn)行分析建模,運(yùn)用hadoop等大數(shù)據(jù)框架進(jìn)行后臺(tái)運(yùn)算,最終生成用戶的行為習(xí)慣數(shù)據(jù)模型。
移動(dòng)互聯(lián)網(wǎng) 大數(shù)據(jù)分析 模型 平臺(tái)
在廣告交易平臺(tái)方面,除了BAT以外的交易平臺(tái)整合媒體資源的能力,一般公司的服務(wù)器響應(yīng)能力、數(shù)據(jù)并行計(jì)算能力、解決方案、反作弊技術(shù)成熟度方面均表現(xiàn)欠佳。此外,行業(yè)標(biāo)準(zhǔn)化程度也參差不齊、有待提高,例如廣告尺寸、DSP接口、DMP平臺(tái)數(shù)據(jù)標(biāo)簽化分類等。在DMP平臺(tái)化方面,當(dāng)前國(guó)內(nèi)缺乏正式的第三方獨(dú)立DMP平臺(tái),大多以私有DMP平臺(tái)為主,數(shù)據(jù)孤立,無法實(shí)現(xiàn)數(shù)據(jù)利益的最大化。大數(shù)據(jù)分析平臺(tái)正是基于以上實(shí)情研發(fā)而來,其有效解決了平臺(tái)底層計(jì)算的邏輯及算法問題。
當(dāng)前國(guó)內(nèi)專門從事大數(shù)據(jù)分析的企業(yè)還不是特別多,這里對(duì)比了幾家大數(shù)據(jù)相關(guān)行業(yè)的企業(yè),比如北京友友天宇系統(tǒng)技術(shù)有限公司的友友系統(tǒng)以及北京學(xué)之途網(wǎng)絡(luò)科技有限公司的秒針系統(tǒng)等,這些企業(yè)普遍存在著研發(fā)成本較高、開發(fā)周期較長(zhǎng)、開發(fā)與維護(hù)成本較高等問題。
互聯(lián)網(wǎng)人群畫像識(shí)別技術(shù),目前在國(guó)內(nèi)還屬于一個(gè)不成熟的發(fā)展階段,且具有不透明性。當(dāng)前市場(chǎng)上主要的技術(shù)服務(wù)型公司還主要集中在PC端的人群畫像識(shí)別層面,比如百度指數(shù)、阿里的達(dá)摩盤、騰訊的廣電通等。
“雙十一”是阿里與2011年在國(guó)家商標(biāo)局注冊(cè)的商標(biāo),截止到2014年11月11日,阿里雙十一全天交易額571億元。可以說,阿里后臺(tái)基于大數(shù)據(jù)的研發(fā)技術(shù)——互聯(lián)網(wǎng)用戶畫像造就了這樣一個(gè)天文交易數(shù)據(jù)。大數(shù)據(jù)分析、大數(shù)據(jù)預(yù)測(cè)、大數(shù)據(jù)的畫像技術(shù),給商家提供了精準(zhǔn)營(yíng)銷的策略依據(jù),為消費(fèi)者減少了垃圾廣告的展現(xiàn)次數(shù)。騰訊的開發(fā)平臺(tái)用戶分析——用戶畫像,主要分為地域分布、用戶年齡特質(zhì)、用戶性別特征、用戶職業(yè)分布、用戶QQ等級(jí)分布、使用場(chǎng)景分布等幾項(xiàng)。
另外,大數(shù)據(jù)分析的市場(chǎng)需求非常高。市場(chǎng)研究公司MarketsandMarkets之前發(fā)布的一份報(bào)告預(yù)測(cè)顯示,從2013年到2018年全球大數(shù)據(jù)將出現(xiàn)年均26%的增長(zhǎng)率,即從13年的148.7億美元增長(zhǎng)到2018年的463.4億美元。2015年上半年市場(chǎng)規(guī)模已經(jīng)超過2014年全年,達(dá)到25.71億元。
大數(shù)據(jù)分析平臺(tái)的搭建與運(yùn)維,是大數(shù)據(jù)分析處理的基石,為大數(shù)據(jù)的分析處理提供分布式存儲(chǔ)、分布式計(jì)算、分布式資源調(diào)度等處理能力。主要包括使用目前主流的hadoop系列進(jìn)行移動(dòng)大數(shù)據(jù)平臺(tái)的搭建、運(yùn)維、監(jiān)控、展示等工作。技術(shù)指標(biāo)主要有:響應(yīng)時(shí)間(毫秒級(jí))、處理能力(PB級(jí))、集群規(guī)模、穩(wěn)定性、識(shí)別率、準(zhǔn)確率等等。
平臺(tái)的擴(kuò)展需求只受存儲(chǔ)資源的限制,當(dāng)系統(tǒng)存儲(chǔ)空間不足時(shí),可在保證系統(tǒng)服務(wù)連續(xù)的前提下,對(duì)系統(tǒng)進(jìn)行在線動(dòng)態(tài)擴(kuò)容,并且自動(dòng)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)遷移和負(fù)載均衡,以保證所有節(jié)點(diǎn)的有效使用,消除容量瓶頸。
互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái),采用當(dāng)前云計(jì)算及大數(shù)據(jù)處理技術(shù)的hadoop框架技術(shù),包括統(tǒng)一用戶識(shí)別技術(shù)、數(shù)據(jù)采集、分析處理、算法模型、結(jié)果集市等模塊。
指將不同渠道間的互聯(lián)網(wǎng)用戶通過統(tǒng)一用戶識(shí)別技術(shù)進(jìn)行打通整合,形成唯一的互聯(lián)網(wǎng)用戶數(shù)據(jù),為最終用戶畫像的形成提供唯一標(biāo)識(shí)。經(jīng)過分析多渠道的PC端、移動(dòng)端的數(shù)據(jù),采用相應(yīng)的數(shù)據(jù)算法模型,研究出一套將來自多渠道的數(shù)據(jù)相互打通的解決方案。經(jīng)過數(shù)據(jù)測(cè)試驗(yàn)證,渠道間用戶的統(tǒng)一用戶比例為1:3.6。
占用CPU、內(nèi)存資源都很小的情況下,能迅速將數(shù)據(jù)實(shí)時(shí)的發(fā)送到接收端進(jìn)行后續(xù)的處理,同時(shí)支持多線程、斷點(diǎn)續(xù)傳等技術(shù)。
經(jīng)過研究國(guó)內(nèi)外的數(shù)據(jù)采集框架后發(fā)現(xiàn),許多開源的數(shù)據(jù)采集框架存在bug、不穩(wěn)定、丟數(shù)據(jù)等情況,例如flume。于是自主開發(fā)了一款簡(jiǎn)潔實(shí)用的采集工具cotail,采用腳本語(yǔ)言python編寫,代碼量少,功能強(qiáng)大,性能優(yōu)越,可實(shí)現(xiàn)多線程、多目錄、多文件的數(shù)據(jù)采集。經(jīng)過內(nèi)部測(cè)試,平均響應(yīng)速度比flume快20%左右,日志無丟失現(xiàn)象,可以實(shí)現(xiàn)斷點(diǎn)續(xù)傳和多線程功能。
采用多層數(shù)據(jù)模型,比如第一層數(shù)據(jù)源,專門存放采集的原始數(shù)據(jù)集;第二層數(shù)據(jù)清洗層,用來將清洗后的規(guī)范數(shù)據(jù)進(jìn)行臨時(shí)的存放;第三層數(shù)據(jù)識(shí)別層,開始逐步將數(shù)據(jù)與數(shù)據(jù)字典中的知識(shí)庫(kù)進(jìn)行匹配識(shí)別,形成初步的標(biāo)簽數(shù)據(jù);第四層畫像層,通過不同的用戶屬性標(biāo)簽,將用戶數(shù)據(jù)不同的屬性進(jìn)行合并操作;第五層數(shù)據(jù)集市層,將最終的平臺(tái)畫像等數(shù)據(jù)進(jìn)行存儲(chǔ),隨時(shí)供業(yè)務(wù)進(jìn)行調(diào)用訪問。
算法權(quán)重的計(jì)算,有很多種方式,比如定量統(tǒng)計(jì)法、專家評(píng)定法、對(duì)偶比較法等等。經(jīng)過多方實(shí)踐,最終使用數(shù)據(jù)建立數(shù)學(xué)模型,形成了自己的衰減算法,并獲得了衰減算法的公因子,在整個(gè)數(shù)據(jù)處理過程中至關(guān)重要。
互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái),運(yùn)用大數(shù)據(jù)hadoop系列框架處理技術(shù),其中包括分布式存儲(chǔ)、分布式計(jì)算、分布式數(shù)據(jù)庫(kù)等,將企業(yè)在日常生產(chǎn)中產(chǎn)生的多種大數(shù)據(jù)進(jìn)行整理分析,進(jìn)而產(chǎn)生對(duì)企業(yè)有價(jià)值的數(shù)據(jù)。
首先,使用分布式的爬蟲技術(shù)從互聯(lián)網(wǎng)上爬取用戶活躍度比較高的網(wǎng)站內(nèi)容數(shù)據(jù),作為原始數(shù)據(jù)的一部分;同時(shí),接入三方的數(shù)據(jù)進(jìn)行原始數(shù)據(jù)的補(bǔ)充,比如inmobi、芒果等三方數(shù)據(jù);其次,使用hadoop系列大數(shù)據(jù)分析平臺(tái)進(jìn)行數(shù)據(jù)的ETL處理,一部分?jǐn)?shù)據(jù)經(jīng)過數(shù)據(jù)挖掘算法處理后形成基礎(chǔ)數(shù)據(jù)庫(kù),基礎(chǔ)數(shù)據(jù)庫(kù)再經(jīng)過人工的優(yōu)化最終形成完善的基礎(chǔ)數(shù)據(jù)庫(kù)。另外,數(shù)據(jù)經(jīng)過平臺(tái)處理,最終形成可供企業(yè)客戶使用的互聯(lián)網(wǎng)用戶人群數(shù)據(jù)。
通過互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái)獨(dú)特的處理分析流程,將互聯(lián)網(wǎng)復(fù)雜紛亂的不相關(guān)數(shù)據(jù)進(jìn)行整合處理,進(jìn)而根據(jù)需求生成用戶的多種維度屬性數(shù)據(jù)。該平臺(tái)采用當(dāng)前互聯(lián)網(wǎng)上流行的大數(shù)據(jù)計(jì)算框架和算法分析技術(shù),保證了技術(shù)的先進(jìn)性和實(shí)效性,無論是在云計(jì)算,還是大數(shù)據(jù)方面,均處于行業(yè)領(lǐng)先水平。在電信、廣告、媒體等行業(yè)中都可以使用,推廣力度較大,市場(chǎng)需求較廣,該平臺(tái)可以在短時(shí)間內(nèi)為企業(yè)進(jìn)行大數(shù)據(jù)平臺(tái)的建設(shè),并保證相關(guān)技術(shù)處于行業(yè)的領(lǐng)先水平。
通過網(wǎng)絡(luò)爬蟲、第三方數(shù)據(jù)合作等方式采集互聯(lián)網(wǎng)人群、移動(dòng)端人群的兩大用戶群體的用戶瀏覽行為、用戶購(gòu)物行為、移動(dòng)端使用情況等數(shù)據(jù),利用大數(shù)據(jù)進(jìn)行匯總分析、數(shù)據(jù)挖掘、人工智能等技術(shù),進(jìn)而得到整個(gè)互聯(lián)網(wǎng)人群的畫像數(shù)據(jù)。
大數(shù)據(jù)是當(dāng)前計(jì)算機(jī)領(lǐng)域較為熱點(diǎn)的研究?jī)?nèi)容,很多初創(chuàng)公司都在大數(shù)據(jù)背景下進(jìn)行著技術(shù)創(chuàng)新,主要風(fēng)險(xiǎn)來自于資金以及三方數(shù)據(jù)合作兩個(gè)方面:
資金風(fēng)險(xiǎn)在進(jìn)行大數(shù)據(jù)研發(fā)過程中,需要購(gòu)置大量的服務(wù)器設(shè)備進(jìn)行數(shù)據(jù)運(yùn)算以及維持服務(wù)運(yùn)行,這些設(shè)備的購(gòu)置將需要大量的資金;另外在進(jìn)行相關(guān)研發(fā)中,需要聘請(qǐng)專業(yè)的技術(shù)人員、銷售人員和管理人員,他們的薪酬也需要大量資金支持。對(duì)于初創(chuàng)公司來說,資金的不足將成為公司長(zhǎng)久運(yùn)行的風(fēng)險(xiǎn)。
三方數(shù)據(jù)合作,指與第三方數(shù)據(jù)單位進(jìn)行戰(zhàn)略合作,打通爬蟲爬取不到的數(shù)據(jù)資源,作為原始基礎(chǔ)數(shù)據(jù)的補(bǔ)充部分,比如移動(dòng)端的流量數(shù)據(jù)。目前三方數(shù)據(jù)的獲取主要依靠戰(zhàn)略合作、資源交換、購(gòu)買等方式獲取,且數(shù)據(jù)格式、完整性等存在不規(guī)范,需要進(jìn)行專門的整理或者簡(jiǎn)單處理方可進(jìn)行后續(xù)的使用。
歷史數(shù)據(jù)或結(jié)果數(shù)據(jù)的特點(diǎn)是大多含有時(shí)間屬性、常以追加方式寫入、并且很少進(jìn)行的結(jié)構(gòu)化數(shù)據(jù)。本平臺(tái)使用多種手段來提升存儲(chǔ)系統(tǒng)的整體訪問性能。包括:將大量的數(shù)據(jù)及訪問請(qǐng)求進(jìn)行合理的水平、垂直分割,充分發(fā)揮網(wǎng)絡(luò)以及服務(wù)器的I/O吞吐能力;支持用戶自定義的各種數(shù)據(jù)格式,并根據(jù)具體的應(yīng)用需求,使用特定的數(shù)據(jù)結(jié)構(gòu)來針對(duì)性地提高數(shù)據(jù)的訪問效率;同時(shí)支持內(nèi)存和磁盤數(shù)據(jù)庫(kù),利用不同存儲(chǔ)層級(jí)的設(shè)備為實(shí)際應(yīng)用提供可擴(kuò)展的高速緩存和持久化的數(shù)據(jù)存儲(chǔ),并且可根據(jù)具體業(yè)務(wù)需求進(jìn)行單獨(dú)使用或者組合使用,從而在時(shí)效性、安全性和重要性上實(shí)現(xiàn)對(duì)數(shù)據(jù)的差異化處理。
[1]陳丹,郭先會(huì).Hadoop在電信大數(shù)據(jù)平臺(tái)的研究與設(shè)計(jì)[J].現(xiàn)代電信科技.2014(08).
[2]方少卿,周劍,張明新.基于Map/Reduce的改進(jìn)選擇算法在云計(jì)算的Web數(shù)據(jù)挖掘中的研究[J].計(jì)算機(jī)應(yīng)用研究,2013(02).
[3]黎宏劍,劉恒,黃廣文,卜立.基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)研究[J].電信科學(xué).2012(08).