彭 穎
(西南民族大學計算機科學與工程學院,四川 成都610041)
隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,人類邁入了大數(shù)據(jù)時代.大數(shù)據(jù)已滲透到各行各業(yè),正深刻地改變著人們的思維、生產(chǎn)和生活方式,也給企業(yè)的經(jīng)營帶來了前所未有的機遇和挑戰(zhàn).在大數(shù)據(jù)時代的背景下,企業(yè)獲取、存儲、處理、分析數(shù)據(jù)變得越來越快捷,但如何從海量的數(shù)據(jù)中找到有價值的情報依然是關(guān)鍵.
2007年1月11日在美國國家研究理事會計算機科學與通信分會上吉姆·格雷明確地闡述了科學研究第四范式,認為依靠對數(shù)據(jù)分析挖掘也能發(fā)現(xiàn)新的知識,這一認識吹響了大數(shù)據(jù)前進的號角[1].從2007年開始,IBM、EMC等大型企業(yè)并購多家擅長數(shù)據(jù)分析和處理公司,以切入大數(shù)據(jù)這一主題;2012年3月29日,奧巴馬政府公布《大數(shù)據(jù)研究與開發(fā)倡議》從國家層面正式推動大數(shù)據(jù)的研發(fā)與應(yīng)用[2].
大數(shù)據(jù)有5V特點,即Volume(數(shù)據(jù)量巨大),Variety(數(shù)據(jù)類型多樣),Value(價值),Velocity(高速處理)和Veracity(真實性)[3].大數(shù)據(jù)時代數(shù)據(jù)類型繁雜,多樣化的數(shù)據(jù)結(jié)構(gòu)增加了數(shù)據(jù)收集、處理的難度.
競爭情報系統(tǒng)隨著經(jīng)濟全球化的發(fā)展,市場競爭日趨激烈,競爭情報已成為繼人才、資金、技術(shù)之后,企業(yè)發(fā)展的第四要素[4].企業(yè)通過競爭情報系統(tǒng)不僅要對企業(yè)內(nèi)部的各項數(shù)據(jù)進行存儲、處理,也需要對外部環(huán)境中報刊雜志、電子媒介、網(wǎng)絡(luò)媒介、展示媒介和其他媒介如政府、行業(yè)協(xié)會等信息源進行全面整合和利用,以了解外部環(huán)境、監(jiān)控競爭對手使企業(yè)獲得更大的競爭優(yōu)勢.
大數(shù)據(jù)時代的到來為情報的搜集提供了沃土,但也帶來了前所未有的挑戰(zhàn).企業(yè)每天從外部獲取的信息是海量的,對于任何一個企業(yè)自身來說也隨時都在產(chǎn)生大量的數(shù)據(jù),每天的交易額、業(yè)務(wù)往來、電子郵件等.面對如此浩瀚的信息,質(zhì)量層次不齊、價值含量差異巨大,企業(yè)將如何從分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)發(fā)現(xiàn)潛在的價值和情報至關(guān)重要.大數(shù)據(jù)環(huán)境下企業(yè)競爭情報主要呈現(xiàn)以下特點:
進行競爭情報分析時,有關(guān)政治、經(jīng)濟、社會、技術(shù)、市場環(huán)境等競爭環(huán)境信息,以及公司規(guī)模、產(chǎn)品信息、財務(wù)信用、物資設(shè)備、專利技術(shù)、營銷策略、人力資源等競爭對手的信息都是競爭情報工作的重點.相關(guān)信息可以通過現(xiàn)場調(diào)查、反求工程、人際情報、委托咨詢等方式獲取.不同的獲取方式造成獲取的數(shù)據(jù)復(fù)雜、類型繁多.
大數(shù)據(jù)時代是信息時代新的起點,而在2015年,英特爾就提出要以數(shù)據(jù)為中心進行業(yè)務(wù)拓展,因為數(shù)據(jù)的量和質(zhì)都發(fā)生了很大的變化.進入數(shù)據(jù)時代,企業(yè)經(jīng)營模式發(fā)生了徹底的改變,很多企業(yè)都想打破傳統(tǒng)的運營模式,在移動互聯(lián)網(wǎng)時代做到精細化的運營.精細化運營一定離不開大數(shù)據(jù)的幫助,企業(yè)需要對市場進行精細化的劃分和監(jiān)控、對用戶進行細致的分析,期望給用戶提供有針對性的一對一個性化服務(wù).因此當今企業(yè)的經(jīng)營已經(jīng)走向了數(shù)據(jù)化運營[5].
企業(yè)發(fā)展涉及到的領(lǐng)域,數(shù)據(jù)內(nèi)容呈現(xiàn)出動態(tài)性的發(fā)展特點,在動態(tài)化的環(huán)境中,數(shù)據(jù)的變化性大、實時性增強了.因此需要對實時性數(shù)據(jù)進行系統(tǒng)、及時的處理和記錄.例如移動設(shè)備實時記錄著個人的數(shù)據(jù),可穿戴設(shè)備則收集人類的各種行為數(shù)據(jù),以及智能家居設(shè)備所記錄的數(shù)據(jù),既有硬件傳感器的數(shù)據(jù)、也有硬件本身的數(shù)據(jù)運行狀態(tài)、還有用戶和硬件交互的數(shù)據(jù).物聯(lián)網(wǎng)和智能家居是大數(shù)據(jù)未來的重要來源,因此如何做好大量實時數(shù)據(jù)的監(jiān)管也是情報工作中的重中之重.
隨著移動互聯(lián)的發(fā)展,巨量的互聯(lián)網(wǎng)數(shù)據(jù),增加了企業(yè)競爭情報搜集、處理的難度.據(jù)統(tǒng)計2019年全球每天收發(fā)2936億封電子郵件,2020年天貓雙11訂單創(chuàng)建峰值達58.3萬筆/秒.互聯(lián)網(wǎng)時代數(shù)據(jù)呈現(xiàn)出爆炸式的指數(shù)增長,這也給企業(yè)競爭情報工作帶來了前所未有的挑戰(zhàn).
大數(shù)據(jù)企業(yè)競爭情報管理標記語言EIMML(Competitive Intelligence Management Markup Language)是一種準結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),它對XML中的標簽進行擴展和自定義,從而實現(xiàn)了對海量、異構(gòu)、實時數(shù)據(jù)的結(jié)構(gòu)化封裝和統(tǒng)一了數(shù)據(jù)組織和管理格式,其應(yīng)用框架如圖1所示.
圖1 EIMML應(yīng)用框架圖Fig.1 EIMML application framework diagram
EIMML作為大數(shù)據(jù)企業(yè)競爭情報系統(tǒng)模型的核心,直接作用于數(shù)據(jù)的采集、存儲、調(diào)用、管理等環(huán)節(jié).當數(shù)據(jù)進入系統(tǒng)時,都通過自動或手動注冊方式以EIMML進行封裝并入庫,經(jīng)過注冊的數(shù)據(jù)就成為大數(shù)據(jù)企業(yè)競爭情報系統(tǒng)中的數(shù)據(jù)資源,通過基于EIMML數(shù)據(jù)標識機制的數(shù)據(jù)注冊中心進行查詢、更新和刪除等管理,據(jù)此形成大數(shù)據(jù)企業(yè)競爭情報管理的數(shù)據(jù)共享交換規(guī)范.
元數(shù)據(jù)通過EIMML對各類數(shù)據(jù)進行標識和注冊.數(shù)據(jù)注冊中心是一種管理環(huán)境,用于統(tǒng)一管理數(shù)據(jù)的定義與命名規(guī)范.通過對數(shù)據(jù)進行統(tǒng)一管理,為用戶提供數(shù)據(jù)查詢和定位服務(wù)[6].數(shù)據(jù)注冊中心使用EIMML管理元數(shù)據(jù),主要由數(shù)據(jù)權(quán)限管理,元數(shù)據(jù)的注冊、入庫、提取和發(fā)布,數(shù)據(jù)信息定位、檢索等模塊組成,如圖2所示.
圖2 大數(shù)據(jù)企業(yè)競爭情報系統(tǒng)模型的注冊中心機制圖Fig.2 Registrar mechanism diagram of enterprise competitive intelligence system model of big data
基于EIMML數(shù)據(jù)標識的數(shù)據(jù)共享交換規(guī)范制定和數(shù)據(jù)注冊中心的管理步驟如下:
(1)對企業(yè)大數(shù)據(jù)的類型、內(nèi)容、大小、存放路徑等關(guān)鍵元數(shù)據(jù)信息進行研究,建立元數(shù)據(jù)自動和手動注冊方法;
(2)設(shè)計面向大數(shù)據(jù)企業(yè)競爭情報的數(shù)據(jù)共享規(guī)范,為各種元數(shù)據(jù)建立標簽結(jié)構(gòu),實現(xiàn)異構(gòu)數(shù)據(jù)的結(jié)構(gòu)化封裝;
(3)設(shè)計EIMML元數(shù)據(jù)庫構(gòu)建方法,利用關(guān)系數(shù)據(jù)庫和NoSQL技術(shù)對EIMML進行管理,實現(xiàn)大數(shù)據(jù)企業(yè)競爭情報數(shù)據(jù)交換平臺的搭建;
(4)在Hadoop提供的數(shù)據(jù)冗余副本機制、負載均衡策略等的基礎(chǔ)上實現(xiàn)數(shù)據(jù)注冊中心的管理.
EIMML遵循和沿用XML的標準,通過標記定義語法結(jié)構(gòu).EIMML中的標記是經(jīng)過實體化封裝后的元素.通過多級標記的有序組合,實現(xiàn)對復(fù)雜信息及其邏輯關(guān)系的描述.服務(wù)的定義描述主要對象是服務(wù)的各個元素、父子孫元素關(guān)系和元素屬性,如表1所示.
表1 服務(wù)的定義描述標簽列表(部分)Table 1 List of service definition description labels(part)
針對大數(shù)據(jù)企業(yè)競爭情報中涉及的數(shù)據(jù)來源和用途廣泛、數(shù)據(jù)的組織結(jié)構(gòu)復(fù)雜多樣、時效性強等特點,大數(shù)據(jù)企業(yè)競爭情報系統(tǒng)模型(如圖3所示)通過對海量、異構(gòu)、實時的企業(yè)競爭情報進行有效分類,建立應(yīng)用服務(wù)層面的數(shù)據(jù)標識機制,最后生成適用于大數(shù)據(jù)企業(yè)競爭情報的數(shù)據(jù)共享交換規(guī)范和形成應(yīng)用服務(wù)層面的一體化大數(shù)據(jù)的企業(yè)競爭情報交換體系,從而達到有效地組織和管理大數(shù)據(jù)企業(yè)競爭情報的目的.
圖3 大數(shù)據(jù)企業(yè)競爭情報系統(tǒng)模型架構(gòu)圖Fig.3 Big data enterprise competitive intelligence system model architecture diagram
隨著對大數(shù)據(jù)的進一步研究,國家層面已經(jīng)意識到數(shù)字資源對國家的重要性.與此同時大數(shù)據(jù)也成為產(chǎn)業(yè)競爭力和商業(yè)模式創(chuàng)新的源泉,成為企業(yè)爭奪的焦點,因此如何提升企業(yè)數(shù)據(jù)收集、分析、挖掘的能力,已成為增強其核心競爭力的關(guān)鍵.因此,本文從數(shù)據(jù)的視角研究了大數(shù)據(jù)下的企業(yè)競爭情報系統(tǒng)模型,形成了一套大數(shù)據(jù)企業(yè)競爭情報管理的數(shù)據(jù)共享交換規(guī)范,在此基礎(chǔ)之上定義了大數(shù)據(jù)企業(yè)競爭情報管理標記語言EIMML并設(shè)計和實現(xiàn)了基于大數(shù)據(jù)的企業(yè)競爭情報數(shù)據(jù)注冊中心,后續(xù)研究中,我們將模型投入到試點中運行,在實踐中不斷檢驗、驗證和修正模型,并在此基礎(chǔ)之上開展大數(shù)據(jù)環(huán)境下企業(yè)競爭情報的智能分析處理技術(shù)的研究,為預(yù)測和決策提供有力的依據(jù).