任海鵬
(1.長(zhǎng)春理工大學(xué) 計(jì)算機(jī)研究生學(xué)院,吉林 長(zhǎng)春 130022,2.;安徽機(jī)電職業(yè)技術(shù)學(xué)院,安徽 蕪湖 241000)
數(shù)據(jù)管理技術(shù)歷經(jīng)人工管理、文件管理、數(shù)據(jù)庫管理等時(shí)代,大數(shù)據(jù)[1]技術(shù)的出現(xiàn)使該領(lǐng)域進(jìn)入了一個(gè)新的發(fā)展階段對(duì)國(guó)家、企業(yè)的治理模式、智能決策、系統(tǒng)組織和綜合業(yè)務(wù)處理等領(lǐng)域都將產(chǎn)生變革性的影響.本文結(jié)合移動(dòng)互聯(lián)網(wǎng)下的大數(shù)據(jù)應(yīng)用,介紹大數(shù)據(jù)的技術(shù)難點(diǎn)與解決之法,并結(jié)合實(shí)際中進(jìn)行實(shí)際對(duì)比展望.
數(shù)據(jù)管理經(jīng)歷了飛速的發(fā)展,從原始手工記賬到大數(shù)據(jù)技術(shù)出現(xiàn).如其中1946-1960年數(shù)據(jù)與應(yīng)用進(jìn)行捆綁,彼此不分;1960-2000年數(shù)據(jù)與應(yīng)用分離,數(shù)據(jù)庫技術(shù)開始蓬勃發(fā)展;2001年以后互聯(lián)網(wǎng)迅速發(fā)展,數(shù)據(jù)管理技術(shù)日益提升.
(1)150億個(gè)設(shè)備連接到互聯(lián)網(wǎng)
(2)全球每秒鐘發(fā)送290萬封電子郵件
(3)每天有2.88萬小時(shí)視頻上傳到Y(jié)outube
(4)Facebook每日評(píng)論達(dá)32億條,每天上傳照片近3億張,每月處理數(shù)據(jù)總量約130萬TB
(5)2011年全球產(chǎn)生數(shù)據(jù)量1.8ZB,預(yù)計(jì)2020年將增長(zhǎng)到35ZB
(2)2011年 6月,IBM、McKinsey發(fā)布“BigData”相關(guān)研究報(bào)告;
(3)2011年 10月,Gartner進(jìn)一步提出“BigData”;
大數(shù)據(jù)數(shù)據(jù)概念
大數(shù)據(jù)(bigdata),是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合.
大數(shù)據(jù)數(shù)據(jù)解釋
業(yè)務(wù)目標(biāo):在1E(成本可接受-economically)的條件下從大數(shù)據(jù)中提取數(shù)據(jù)的價(jià)值(Value)
ETCR由于手術(shù)創(chuàng)傷小,門診很容易向CTS患者介紹微創(chuàng)及早期手術(shù)的優(yōu)點(diǎn),導(dǎo)致很多患者很容易就接受了早期治療。這不但避免了嚴(yán)重的神經(jīng)損傷和肌肉萎縮,也減輕了患者的痛苦,降低了經(jīng)濟(jì)負(fù)擔(dān),有很大的社會(huì)效益。
技術(shù)要求:滿足3V(快速-Velocity、大體量-Volumes、多類別-Variety)的特征
技術(shù)方案:未提及,可能是新興技術(shù)與傳統(tǒng)技術(shù)的混搭
大數(shù)據(jù)關(guān)鍵技術(shù)有以下幾個(gè)方面去探討研究:
數(shù)據(jù)結(jié)構(gòu):結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)
數(shù)據(jù)庫數(shù)據(jù)模型:關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫
數(shù)據(jù)處理特性:OLTP[2]與OLAP
數(shù)據(jù)一致性:強(qiáng)一致性與最終一致性
數(shù)據(jù)存儲(chǔ)方式:行式存儲(chǔ)與列式存儲(chǔ)
數(shù)據(jù)庫存儲(chǔ)與處理架構(gòu):SMP與MPP
數(shù)據(jù)存儲(chǔ)架構(gòu):傳統(tǒng)分布式文件與新型分布式文件
數(shù)據(jù)處理架構(gòu):基于并行計(jì)算的分布式數(shù)據(jù)處理技術(shù)[3](MapReduce)
傳統(tǒng)關(guān)系型數(shù)據(jù)庫主要采用行存儲(chǔ)模式,海量數(shù)據(jù)的高效存儲(chǔ)和訪問要求引發(fā)了從行存儲(chǔ)模式向列存儲(chǔ)模式的轉(zhuǎn)變.
圖1 行式存儲(chǔ)與列式存儲(chǔ)算法圖
在數(shù)據(jù)量急劇膨脹的背景下,數(shù)據(jù)庫請(qǐng)求與處理的指令遠(yuǎn)高于PC、SMP架構(gòu)配置,S-PC也無法滿足,所以在大數(shù)據(jù)技術(shù)中,MPP[4]架構(gòu)(計(jì)算分布+存儲(chǔ)分布)架構(gòu)成為主流.
SMP:對(duì)稱多處理;兩臺(tái)以上的服務(wù)器,各主機(jī)之間共享總線結(jié)構(gòu),共享數(shù)據(jù)存儲(chǔ)磁盤,節(jié)點(diǎn)數(shù)有限制,主要通過提高節(jié)點(diǎn)配置來提高整體處理能力,擴(kuò)展能力有限,對(duì)共享磁盤的訪問成為瓶頸;
表1 算法對(duì)比
MPP:大規(guī)模并行處理;多個(gè)松耦合處理單元組成,數(shù)據(jù)存儲(chǔ)在本機(jī)磁盤上,通過增加服務(wù)器數(shù)量提高系統(tǒng)處理能力,理論上可以無限擴(kuò)展,技術(shù)可實(shí)現(xiàn)上千個(gè)節(jié)點(diǎn)互聯(lián).對(duì)軟件體系要求較高,需要通過軟件層來調(diào)度和平衡各個(gè)節(jié)點(diǎn)的負(fù)載和并行處理過程.
MapReduce是解決海量數(shù)據(jù)處理的并行編程環(huán)境,編程流程如下:
算法優(yōu)點(diǎn):
(1)自動(dòng)并行化:系統(tǒng)自動(dòng)執(zhí)行并行命令處理
(2)自動(dòng)可靠化:系統(tǒng)自動(dòng)處理數(shù)據(jù)節(jié)點(diǎn)與數(shù)據(jù)任務(wù)結(jié)果的故障檢測(cè)和恢復(fù)
(3)靈活拓展化:信息節(jié)點(diǎn)自由進(jìn)入和退出,感知節(jié)點(diǎn)、并進(jìn)行并行處理過程
(4)性能概化:計(jì)算機(jī)信息計(jì)算任務(wù)調(diào)度至數(shù)據(jù)節(jié)點(diǎn),網(wǎng)絡(luò)開銷-COST降低,性能率升高
以互聯(lián)網(wǎng)下Hadoop[5]項(xiàng)目為例
Hadoop核心算子:設(shè)HDFS:是一個(gè)分布式文件系統(tǒng);HBase:是一個(gè)基于HDFS、列存儲(chǔ)數(shù)據(jù)庫,提供海量數(shù)據(jù)存儲(chǔ)能力;MapReduce:是一個(gè)編程環(huán)境,提供并行處理框架,用于對(duì)HBase和HDFS的訪問;Hive:提供類似SQL的查詢語言,通過MapReduce完成計(jì)算,實(shí)現(xiàn)對(duì)HBase的訪問.
結(jié)果分析:數(shù)據(jù)入庫:每天800G日志,45億條記錄,并行入庫時(shí)間1小時(shí)(處理能力200-300MB/s)URL解析:4-6小時(shí)(20萬條/s)網(wǎng)頁抓取(后期穩(wěn)定運(yùn)行階段):時(shí)間待定(100Mb獨(dú)占帶寬,400個(gè)網(wǎng)頁/s)網(wǎng)頁分類:4-6小時(shí)(5萬條/s)URL標(biāo)簽匹配:12-15小時(shí)(8萬條/s)匯總:6臺(tái)PC Server,輸入27億G,輸出8億G,用時(shí)20分鐘.
大數(shù)據(jù)領(lǐng)域去小型機(jī)化趨勢(shì)已十分明顯,“X86+本地硬盤”方案替代“小型機(jī)+盤陣”已經(jīng)相對(duì)成熟,在可靠性上毫不遜色,在可擴(kuò)展性、性能和價(jià)格上有絕對(duì)優(yōu)勢(shì),網(wǎng)管系統(tǒng)也要積極跟進(jìn)“去小型機(jī)化”趨勢(shì).從數(shù)據(jù)量大小、是否結(jié)構(gòu)化數(shù)據(jù)、事務(wù)性強(qiáng)弱、實(shí)時(shí)性高低、數(shù)據(jù)關(guān)系是否復(fù)雜等因素考慮,確定網(wǎng)管各類數(shù)據(jù)的存儲(chǔ)與處理遷移方案?jìng)鹘y(tǒng)數(shù)據(jù)庫與MPPRDB數(shù)據(jù)提供的SQL非常強(qiáng)大,不僅實(shí)現(xiàn)數(shù)據(jù)的增刪改查,還能夠?qū)?shù)據(jù)進(jìn)行各種關(guān)聯(lián)和統(tǒng)計(jì),而目前大量非傳統(tǒng)數(shù)據(jù)庫沒有統(tǒng)一標(biāo)準(zhǔn)的訪問接口,對(duì)數(shù)據(jù)的關(guān)聯(lián)和統(tǒng)計(jì)功能需要應(yīng)用程序自己實(shí)現(xiàn).大數(shù)據(jù)技術(shù)是業(yè)界大勢(shì)所趨,其在網(wǎng)管領(lǐng)域的應(yīng)用,將對(duì)合作伙伴的技術(shù)要求提到一個(gè)前所未有的新高度,網(wǎng)管廠商不僅要深入鉆研和不斷滿足移動(dòng)網(wǎng)絡(luò)管理的業(yè)務(wù)需求,也要跟蹤并熟練應(yīng)用大數(shù)據(jù)最新技術(shù),并確保系統(tǒng)的長(zhǎng)期穩(wěn)定發(fā)展.
〔1〕Nathalie Weiler.HoneypotsforDistributed Denialof ServiceAttacks.EleventhIEEE InternationalWorkshops onEnablingTechn0109ies:Infrastructure forCollaborativeEnterprises.Jun 10 一 12,2002.PP.109—114.
〔2〕Brian Scottberg,WiIIiam Yurcik,David Doss.“Internet Honeypots:ProtectionOrEntrapment.InternationalSymposiom onTechnologyandSociety.Jun6-82002,PP.387—391.
〔3〕Theuns Verwoerd,RayHunt.Intrusion detection techniques andapproaches.Computer Communications,Vol 25,2002,PP1356—1365.
〔4〕FactSheet:BigDataAcrosstheFederalGovernment[R].USA:ExecutiveOfficeofthePresident,2012.
〔5〕ObamaAdministrationUnveils “BigData” Initiative:An-nounces$200MillioninNewR&DInvestments[R.]USA:ExecutiveOfficeofthePresident,2012.