【摘要】網(wǎng)絡時代信息量劇增,企業(yè)為獲得快速精準的決策參考,紛紛使用商務智能工具分析處理商務數(shù)據(jù),然而商務智能工具難以處理海量數(shù)據(jù),于是誕生了大數(shù)據(jù)概念。本文結(jié)合商務智能和大數(shù)據(jù)產(chǎn)生背景,詳細分析了商務智能和大數(shù)據(jù)的含義、特征和技術特點,介紹大數(shù)據(jù)系統(tǒng)的Hadoop平臺和大數(shù)據(jù)系統(tǒng)的關鍵技術,并對商務智能與大數(shù)據(jù)的區(qū)別與聯(lián)系進行了總結(jié)。
【關鍵詞】商務智能 大數(shù)據(jù) Hadoop 云計算
【中圖分類號】G712 【文獻標識碼】A 【文章編號】2095-3089(2017)48-0235-02
隨著網(wǎng)絡技術和信息技術的不斷發(fā)展和普及應用,各行各業(yè)以及個人生活都通過網(wǎng)絡進行數(shù)據(jù)化,日積月累就產(chǎn)生了大量的數(shù)據(jù)。為了高效利用這些數(shù)據(jù),輔助企業(yè)或個人的決策,人們先后研究了商務智能技術和大數(shù)據(jù)技術,并且在社會上得到廣泛應用。下面針對大數(shù)據(jù)和商務智能進行分析與對比。
一、商務智能
1.商務智能概念
信息時代,CRM、ERP、OA等基礎信息化系統(tǒng)被各行各業(yè)廣泛使用,這些系統(tǒng)都是通過業(yè)務人員或者用戶的操作,實現(xiàn)對數(shù)據(jù)庫進行增加、修改、刪除等,稱為在線事務處理OLTP (Online Transaction Process)。系統(tǒng)運行了一段時間以后,必然會幫助企事業(yè)單位收集到大量的歷史數(shù)據(jù),使用人工的方法和傳統(tǒng)的軟件來處理分析這些數(shù)據(jù)顯然效率很低,于是人們需要找到一種實現(xiàn)數(shù)據(jù)的快速分析處理,并轉(zhuǎn)化為信息的方法,使得業(yè)務人員和管理者能夠充分掌握、利用這些信息來提高企業(yè)運營性能和決策質(zhì)量,在這個背景下產(chǎn)生了商務智能(business intelligence, BI)的概念。BI概念隨著通俗化描述而被人們廣泛了解,越來越多的企業(yè)提出對BI的需求。
商務智能是指由數(shù)據(jù)倉庫、查詢報表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復等部分組成的、幫助企業(yè)提高運營性能而采用的一系列方法、技術和軟件。從技術層面上講,商務智能采用的技術是ETL(抽取、轉(zhuǎn)換和裝載)、數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘、數(shù)據(jù)展現(xiàn)等技術的綜合運用。
2.商務智能的數(shù)據(jù)處理關鍵流程分析
商務智能的關鍵,是對企業(yè)相關的各種數(shù)據(jù)進行ETL過程處理,即提取出有用的數(shù)據(jù)并進行清理,以保證數(shù)據(jù)的正確性,然后進行格式轉(zhuǎn)換,以企業(yè)預定的數(shù)據(jù)倉庫模型加載到企業(yè)級的數(shù)據(jù)倉庫里。這里的數(shù)據(jù)是指企業(yè)業(yè)務系統(tǒng)的訂單、庫存、交易賬目、客戶和供應商資料,以及來自企業(yè)所處行業(yè)、競爭對手以及來自其他外部環(huán)境中的各種數(shù)據(jù),通常是結(jié)構化數(shù)據(jù)。
為了將數(shù)據(jù)轉(zhuǎn)化為知識,系統(tǒng)從數(shù)據(jù)倉庫中取出數(shù)據(jù),需要利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對這些數(shù)據(jù)進行分析和處理,得出處理的結(jié)果即知識,然后利用可視化工具將這些知識以圖表的形式呈現(xiàn)給管理者,為管理者的決策過程提供支持。
二、大數(shù)據(jù)
1.大數(shù)據(jù)概念
現(xiàn)在的人們似乎都習慣了將自己的生活和工作通過網(wǎng)絡進行數(shù)據(jù)化,方便分享、記錄和回憶,因此互聯(lián)網(wǎng)上產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,如何管理和使用這些數(shù)據(jù),逐漸成為人們關注的問題。很多企業(yè)為了提高運營性能,紛紛使用商務智能進行數(shù)據(jù)分析統(tǒng)計,但是隨著數(shù)據(jù)的爆炸性增長,海量數(shù)據(jù)(尤其是非結(jié)構化數(shù)據(jù))分析處理超出了傳統(tǒng)商務智能的處理能力,于是企業(yè)界又希望有一個能處理分析海量數(shù)據(jù)的工具,這時大數(shù)據(jù)的概念應運而生。
著名未來學家阿爾文·托夫勒早在1980年的《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。最早提出“大數(shù)據(jù)時代已經(jīng)到來”的機構是全球知名咨詢公司麥肯錫。2011年,麥肯錫在題為《海量數(shù)據(jù),創(chuàng)新、競爭和提高生成率的下一個新領域》的研究報告中指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)要素,而人們對于海量數(shù)據(jù)的應用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。
大數(shù)據(jù)目前已逐漸成為社會基礎設施的一部分。
在以云計算、物聯(lián)網(wǎng)為代表的技術創(chuàng)新條件下,原本很難收集和使用的商品和服務交易數(shù)據(jù)開始容易被收集利用起來了,通過各行各業(yè)對大數(shù)據(jù)應用的不斷創(chuàng)新,大數(shù)據(jù)應用必將為企業(yè)和普通消費者創(chuàng)造更多的價值。
大數(shù)據(jù)在國內(nèi)外尚沒有統(tǒng)一的定義,不同廠商和不同用戶站的角度不同,對大數(shù)據(jù)的理解也不一樣。大數(shù)據(jù)(Big data)研究機構Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。也就是說,大數(shù)據(jù)(big data)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。
2.大數(shù)據(jù)的特征和技術特點分析
信息社會產(chǎn)生的數(shù)據(jù)來源很多,比如搜索、新聞、博客等等,這些海量的類型復雜的數(shù)據(jù)統(tǒng)稱大數(shù)據(jù),可以分為結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù)。結(jié)構化數(shù)據(jù)是可以用二維表結(jié)構的邏輯表來表現(xiàn)的數(shù)據(jù)。不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。一般認為,大數(shù)據(jù)主要具有四個方面的典型特征(4V),即規(guī)模性(Volume)、多樣性(Varity)、高速性(Velocity)和價值性(Value),此外還有數(shù)據(jù)的真實性(Veracity)。
(1)規(guī)模性(Volume):數(shù)據(jù)量大,TB,PB,乃至EB等數(shù)據(jù)量的數(shù)據(jù)需要分析處理;(2)多樣性(Variety):數(shù)據(jù)有很多種類,非結(jié)構化數(shù)據(jù)越來越多,需要進行清洗,整理,篩選等操作,變?yōu)榻Y(jié)構數(shù)據(jù);(3)高速性(Velocity):要求快速響應,由于市場數(shù)據(jù)變化快,在性能上也有更高要求,所以及時快速的響應變化,快速分析處理數(shù)據(jù);(4)價值性(value):價值密度低,當數(shù)據(jù)量達到一定規(guī)模,可以通過全量的數(shù)據(jù)達到更真實全面的反饋。endprint
從技術層面上,大數(shù)據(jù)系統(tǒng)的技術除了包括先進的商務智能技術,還要利用云計算技術和Hadoop平臺等。云計算技術的特點是通過廉價的計算機節(jié)點集群,改寫軟件,使之能夠在集群上并行執(zhí)行,實現(xiàn)數(shù)據(jù)的分布式存儲和分布式處理,解決海量數(shù)據(jù)的存儲和檢索功能。2006年Google首先提出了云計算的概念,并首次將云計算技術應用于各種大數(shù)據(jù)的處理。
三、大數(shù)據(jù)的關鍵技術分析
Google公司的大數(shù)據(jù)處理關鍵技術為GFS、MapReduce和Bigtable。隨后其他各大IT巨頭公司紛紛提出了自己的大數(shù)據(jù)處理平臺,采用的技術也都大同小異。下面將從大數(shù)據(jù)系統(tǒng)的開源實現(xiàn)平臺Hadoop入手介紹大數(shù)據(jù)的關鍵技術。
Hadoop是MapReduce計算機模型的載體,軟件開發(fā)者在Hadoop平臺上編出分布式并行程序,這些程序在計算機集群上完成海量數(shù)據(jù)的計算。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。大數(shù)據(jù)系統(tǒng)中HDFS是分布式文件系統(tǒng),可以構建幾千臺常規(guī)服務器組成的集群,實現(xiàn)文件的輸入輸出和訪問。HBase是分布式、按列存儲的、多維表結(jié)構的實時分布式數(shù)據(jù)庫,可以提供大數(shù)據(jù)量結(jié)構化和非結(jié)構化數(shù)據(jù)的高度讀寫操作。Hive是基于Hadoop的大數(shù)據(jù)分布式數(shù)據(jù)倉庫引擎,可以將數(shù)據(jù)存放在分布式文件系統(tǒng)或分布式數(shù)據(jù)庫中,并使用SQL語言進行海量信息的統(tǒng)計、查詢和分析操作。ZooKeeper是針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),可以維護系統(tǒng)配置、群組用戶和命名等信息。Sqoop是在Hadoop和結(jié)構化數(shù)據(jù)源之間提供高效雙向傳送數(shù)據(jù)的連接器組件,可將數(shù)據(jù)傳輸任務轉(zhuǎn)換為分布式Map任務實現(xiàn),在傳輸過程中還可以實現(xiàn)數(shù)據(jù)轉(zhuǎn)換等功能。Flume是分布式、高可靠的和高可用的日志采集系統(tǒng),它用來從不同源的系統(tǒng)中采集、匯總和搬移大量日志數(shù)據(jù)到一個集中式的數(shù)據(jù)存儲中。
四、商務智能與大數(shù)據(jù)的區(qū)別
商務智能與大數(shù)據(jù)的區(qū)別主要表現(xiàn)在以下幾個方面:
(1)數(shù)據(jù)量。大數(shù)據(jù)系統(tǒng)處理的數(shù)據(jù)量是PB級別以上的,商務智能系統(tǒng)出來的數(shù)據(jù)量是TB級別的,相對大數(shù)據(jù)來說不太大。(2)數(shù)據(jù)特征。智能商務處理的大部分是結(jié)構化數(shù)據(jù),而大數(shù)據(jù)處理的數(shù)據(jù)中85%是非結(jié)構化數(shù)據(jù)。(3)信息來源。商務智能數(shù)據(jù)的來源主要是企業(yè)交易數(shù)據(jù),而大數(shù)據(jù)的信息來源除了企業(yè)交易數(shù)據(jù),還有更多的社會日常運作和各種服務中實施產(chǎn)生的數(shù)據(jù)。(4)涉及技術。商務智能使用了ETL、OLTP、數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘和可視化報表技術。大數(shù)據(jù)采樣的技術是在BI技術基礎上,再利用云計算技術、Hadoop、HBase、Hive、HDFS、MapReduce、ZooKeeper、Sqoop、Flume等。(5)數(shù)據(jù)來源。商務智能的數(shù)據(jù)從數(shù)據(jù)倉庫中隨機抽取,而大數(shù)據(jù)的數(shù)據(jù)更傾向于從Web、社交網(wǎng)絡、RFID傳感器等獲取非結(jié)構化海量數(shù)據(jù),數(shù)據(jù)不是隨機抽取,而是全量數(shù)據(jù)。(6)因果與關聯(lián)。商務智能強調(diào)數(shù)據(jù)的因果分析,而大數(shù)據(jù)則是采用關聯(lián)分析。比如沃爾瑪公司的啤酒與尿布案例就是典型的大數(shù)據(jù)案例。(7)個性化。商務智能基于群體共性,幫助決策者掌握宏觀統(tǒng)計趨勢,適合運營指標支撐類問題。而大數(shù)據(jù)則強調(diào)個體刻畫,精準分析每一個用戶,適合于精準推薦類的營銷類問題。
雖然商務智能能處理的數(shù)據(jù)類型較少,處理的數(shù)據(jù)量級別不如大數(shù)據(jù)技術,但是也不能被大數(shù)據(jù)所取代。現(xiàn)代企業(yè)主要還是分析處理企業(yè)自身的內(nèi)部數(shù)據(jù)和網(wǎng)上一些相關企業(yè)的數(shù)據(jù),希望得到對管理者的宏觀決策有幫助的分析結(jié)果。
五、結(jié)束語
本文介紹了商務智能和大數(shù)據(jù)的社會背景和特點,分析了云計算技術對大數(shù)據(jù)的影響,大數(shù)據(jù)系統(tǒng)的一些關鍵技術,描述了商務智能和大數(shù)據(jù)的主要區(qū)別。通過這些分析介紹可以看到大數(shù)據(jù)是商務智能概念的擴展和手段的擴充。智能商務和大數(shù)據(jù)應用已經(jīng)成為社會的基礎設施,必將幫助使用先進商務智能和大數(shù)據(jù)應用的企業(yè)有效提高運營性能和經(jīng)濟效益。
參考文獻:
[1]劉鵬.大數(shù)據(jù). 電子工業(yè)出版社出版,2017.01.
[2]林子雨.大數(shù)據(jù)技術原理與應用(第2版).人民郵電出版社出版, 2017.02.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn) [J]. 計算機研究與發(fā)展, 2013,50(1):146-169.
[4]朱潔.大數(shù)據(jù)架構詳解:從數(shù)據(jù)獲取到深度學習,2016.10.
作者簡介:
陳煒(1969.2-),女,湖北武漢人,浙江經(jīng)貿(mào)職業(yè)技術學院,副教授,研究方向為計算機技術應用。endprint