李瑞江
(新疆輕工職業(yè)技術學院 新疆 830021)
據(jù)百度百科,大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。互聯(lián)網特別是移動互聯(lián)網的發(fā)展,加快了信息化向社會經濟各方面、大眾日常生活的滲透,從而在制造業(yè)方面、農業(yè)領域、商業(yè)領域、金融領域、醫(yī)療保健領域、社會安全管理領域、科學研究領域無不存在大數(shù)據(jù),因而一個大數(shù)據(jù)時代正在到來。
大數(shù)據(jù)是一個比較抽象的概念,它表示數(shù)據(jù)規(guī)模的龐大。但是僅僅數(shù)量上的巨大無法看出大數(shù)據(jù)概念和以往的“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)等概念之間有何區(qū)別,對于大數(shù)據(jù)尚未有一個公認的定義,不同的定義基本都是從大數(shù)據(jù)的特征出發(fā),通過這些特征的闡述和歸納,試圖給出其定義。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數(shù)據(jù)的方法[1]。著名咨詢機構麥肯錫認為,大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、存儲、管理和分析等能力的數(shù)據(jù)集[2]。大數(shù)據(jù)的4V特征有四個層面:第一,大量化(Velume),數(shù)據(jù)體量巨大。從TB級別躍升到PB級別;第二,多樣化(Varity),數(shù)據(jù)類型繁多;第三,價值低密度(Value),以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒;第四,快速化(Velocity),處理速度快,1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同。只有具備這些特點的數(shù)據(jù)才是大數(shù)據(jù)。大數(shù)據(jù)技術將被設計用于在成本可承受的條件下,通過非??焖俚牟杉?、發(fā)現(xiàn)和分析,從大量化、多類別的數(shù)據(jù)中提取價值。
自20世紀的CD、磁盤以及磁帶,直至現(xiàn)在備受歡迎的固態(tài)硬盤和云存儲,存儲的載體在不斷的變化和發(fā)展。但是,大數(shù)據(jù)時代,除了數(shù)據(jù)量增長速度極快,視頻、音頻、微博等非結構化數(shù)據(jù)占據(jù)的比例越來越大,傳統(tǒng)存儲產品由于自身的設計缺陷,在擴展性方面、與上層應用集成度、高性能、自動化能力、成本等方面已經很難滿足大數(shù)據(jù)諸多的存儲特征,根本很難肩負起企業(yè)大數(shù)據(jù)存儲、分析以及應用的諸多需求。尤其當前數(shù)據(jù)的類型豐富程度、容量愈發(fā)變大的情況下,并且在業(yè)務部門跟IT日益緊密的趨勢下,對于數(shù)據(jù)的存儲與分析的速度和性能要求越來越高,對海量數(shù)據(jù)的快速、高效存儲絕對應該是大數(shù)據(jù)時代存儲系統(tǒng)的第一必備要求,否則大數(shù)據(jù)后續(xù)相關的數(shù)據(jù)分析、處理都將成為空談。
首先,在數(shù)據(jù)存儲方面計算機體系結構要有龐大的水平擴展性,NoSQL是一項全新的數(shù)據(jù)庫革命性運動,非關系型的數(shù)據(jù)庫,可以為大數(shù)據(jù)建立快速、可擴展的存儲庫。目前Google的 BigTable和Amazon 的Dynamo使用的就是NoSQL型數(shù)據(jù)庫,
其次,應對存儲容量有一些優(yōu)化的技術,像重復數(shù)據(jù)刪除(適用于結構化數(shù)據(jù))、自動精簡配置和分層存儲等技術,都是提高存儲效率最重要、最有效的技術手段。結合重復刪除技術,備份數(shù)據(jù)量和帶寬資源需求可以減少90%以上。如何更好的支撐IT應用的性能,有效的存儲大數(shù)據(jù)僅僅是第一步,處理數(shù)據(jù)的能力是企業(yè)最關心的,下面介紹較流行的數(shù)據(jù)處理技術。
數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸。數(shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等[3]。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數(shù)據(jù)處理技術的發(fā)展及其應用的廣度和深度,極大地影響著人類社會發(fā)展的進程。
IDC對于大數(shù)據(jù)技術定位為通過高速捕捉、發(fā)現(xiàn)和分析,從大容量數(shù)據(jù)中獲取價值的一種新的技術架構。大數(shù)據(jù)的分析并不是一個獨立存在的環(huán)節(jié),它與大數(shù)據(jù)的收集、整理等工作緊密相連,企業(yè)需要一個完善的數(shù)據(jù)源,才能得出更為準確的結果[4]。同時,這個過程越簡單,對企業(yè)的管理和分析越有利。
簡而言之,從各種各樣類型的數(shù)據(jù)中快速獲得有價值信息的能力就是大數(shù)據(jù)技術。也正是這一點促使該技術具備走向眾多企業(yè)的潛力。隨著國內3G網絡的發(fā)展,中國聯(lián)通目前運營著世界上最大的CDMA網絡,流量運營是中國聯(lián)通一個重要特點。隨著流量的增長,3G流量的爭議也迅速的增加。主要問題是電信計費系統(tǒng)流量話單的產生設備GGSN是網關設備,只能計入一段時間之內使用流量總合,沒有說訪問哪個目標的IP地址,沒有訪問目的地,說不清流量到哪兒去了,導致用戶不明流量的起訴。
但上網記錄數(shù)據(jù)是海量數(shù)據(jù),用戶每個上網記錄基本有幾萬到幾十萬,有的用戶五六十萬,如果在網關所有用戶流量必經地方采集,分析流量數(shù)據(jù),然后上成上網記錄話單,話單量非常大。傳統(tǒng)IOE方式,IBM小型機,思科數(shù)據(jù)庫存儲,EMC存儲等方式存儲這么大上網記錄時候比較困難。將開源Hadoop、Hbase技術應用商用電信服務系統(tǒng)中來可以有效的解決此問題。首先,系統(tǒng)的構成,包括數(shù)據(jù)采集、數(shù)據(jù)入庫、數(shù)據(jù)存儲、數(shù)據(jù)查詢和數(shù)據(jù)分析技術,基本技術采用Hadoop,目前上網記錄數(shù)據(jù)存儲一般不小于30分鐘,30分鐘之前的上網記錄現(xiàn)在可以通過系統(tǒng)查詢到。其次,用HBase處理海量的數(shù)據(jù),入庫速度非常迅速,查詢速度也非???。
大數(shù)據(jù)時代的來臨將改變我們對工作、生活的思維,也將改變人們的社會工作態(tài)度行為,同時也催生了林林總總的新興技術在推動著人類對信息與數(shù)據(jù)的創(chuàng)造與應用范圍。大數(shù)據(jù)時代已經到來,也成為世界下一個創(chuàng)新、競爭和生產率提高的前沿[5]。
[1]維克托·邁爾-舍爾維恩、肯尼斯·庫克耶.大數(shù)據(jù)時代[M].浙江人民出版社,2013:039.
[2]http://cloud.chinabyte.com/news/255/12541755.shtm l
[3]趙剛,大數(shù)據(jù):技術與應用實踐指南 電子工業(yè)出版社,2013.10
[4]從大數(shù)據(jù)視角看地方網絡問政平臺的發(fā)展與轉型 周光華中國衛(wèi)生信息管理雜志 2013.05
[5]大數(shù)據(jù)時代的競爭情報發(fā)展動向探析 劉高勇、汪會玲 圖書情報知識 2013.03