郝園揭金良苗春利
(成都理工大學(xué)信息工程學(xué)院,四川成都610059)
進(jìn)入21世紀(jì),人們對(duì)在任何時(shí)間、任何地點(diǎn)都能得到信息的需求是永無止境的。而傳統(tǒng)數(shù)據(jù)庫只保留了當(dāng)前的業(yè)務(wù)處理的信息,缺乏決策分析所需要的大量歷史信息。要從信息源中有效獲取信息,采掘數(shù)據(jù)和發(fā)現(xiàn)知識(shí),以滿足管理人員的決策分析需要,就需要在數(shù)據(jù)庫的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境。因此,數(shù)據(jù)倉庫(DW,Data Warehouse)應(yīng)運(yùn)而生。
數(shù)據(jù)倉庫是在企業(yè)管理和決策中用以更好地支持企業(yè)或組織的決策分析處理、面向問題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合。與其它數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,即對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程,而不是一種可以購買的產(chǎn)品。
完整的數(shù)據(jù)倉庫結(jié)構(gòu)一般由6個(gè)基本層次組成,如圖1:
各層次的基本功能如下:
(1)數(shù)據(jù)源:為數(shù)據(jù)倉庫提供數(shù)據(jù)來源。
(2)數(shù)據(jù)后端處理:是將數(shù)據(jù)源的數(shù)據(jù)進(jìn)行提取、清洗、轉(zhuǎn)換,最終構(gòu)建成數(shù)據(jù)倉庫所需的數(shù)據(jù)。
(3)數(shù)據(jù)倉庫及其管理:包括數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理和元數(shù)據(jù)管理。數(shù)據(jù)倉庫負(fù)責(zé)存儲(chǔ)分析、決策數(shù)據(jù);而數(shù)據(jù)倉庫管理則負(fù)責(zé)管理數(shù)據(jù)倉庫;元數(shù)據(jù)管理負(fù)責(zé)對(duì)元數(shù)據(jù)進(jìn)行管理。
(4)數(shù)據(jù)集市:是面向特定應(yīng)用的決策數(shù)據(jù)集合。
(5)基于數(shù)據(jù)倉庫的應(yīng)用:包括分析、決策應(yīng)用,如OLAP、數(shù)據(jù)挖掘等。
(6)數(shù)據(jù)展示:將應(yīng)用結(jié)果,特別是分析、決策結(jié)果以多種媒體形式表示。
聯(lián)機(jī)分析處理(OLAP)的概念最早是由E.F.Codd于1993年提出的。當(dāng)時(shí),他認(rèn)為聯(lián)機(jī)事務(wù)處理OLTP已經(jīng)不能滿足終端用戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大數(shù)據(jù)庫的簡單查詢也不能滿足用戶分析的需求,用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量的計(jì)算才能得到結(jié)果,而查詢出來的結(jié)果已經(jīng)不能滿足決策者提出的需求。因此,他提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP與OLTP的比較見表1。
表1 OLAP與OLTP的對(duì)比
OLAP委員會(huì)對(duì)于OLAP的定義:是一種分析處理技術(shù),是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問與分析,通過對(duì)大量信息的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互的存取,是決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。
數(shù)據(jù)庫之父E.F.Codd對(duì)于OLAP的定義:OLAP是一個(gè)賦予動(dòng)態(tài)的、企業(yè)分析的名詞,這些分析是注釋的、熟悉的、公式化數(shù)據(jù)分析模型的生成、操作、激活和信息合成。能夠在變量間分辨新的或不相關(guān)的關(guān)系,能夠區(qū)分對(duì)處理大量數(shù)據(jù)必要的參數(shù),而生成一個(gè)不限數(shù)量的維和指明維的條件表達(dá)式。
OLAP的特點(diǎn)可以概括為以下幾種:
快速性:用戶對(duì)OLAP的快速反映能力有很高的要求。
可分析性:能處理與應(yīng)用有關(guān)的邏輯分析和統(tǒng)計(jì)分析。
共享性:系統(tǒng)在保證安全的基礎(chǔ)上提供多用戶共享數(shù)據(jù)與信息機(jī)制。
多維性:是OLAP的關(guān)鍵屬性,系統(tǒng)提供對(duì)數(shù)據(jù)分析的多維視圖和分析,多維分析是分析企業(yè)數(shù)據(jù)最有效的方法,是OLAP的靈魂。
信息性:系統(tǒng)能及時(shí)獲取信息,并能管理大容量的信息。
假定性:需要初始的假設(shè)來給出導(dǎo)航數(shù)據(jù)分析的方向,最終用分析的結(jié)果來驗(yàn)證初始的假設(shè)。
目前OLAP常用分析方法有:數(shù)據(jù)切片和數(shù)據(jù)切塊、鉆取和數(shù)據(jù)旋轉(zhuǎn);OLAP的評(píng)價(jià)準(zhǔn)則有:多維概念視圖、透明性、存取能力、穩(wěn)定的報(bào)表性能、客戶/服務(wù)器體系結(jié)構(gòu)、維的等同性、動(dòng)態(tài)稀疏矩陣處理、多用戶支持能力、非受限的跨維操作、直觀的數(shù)據(jù)處理、靈活的報(bào)表生成、非受限的維與維的層次。
在一個(gè)OLAP數(shù)據(jù)模型中,信息被抽象為一個(gè)立方體,它包括維和度量。多維結(jié)構(gòu)是決策支持的支柱,也是核心。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。維是相同類數(shù)據(jù)的集合,也可以理解為變量。維有自己固有的屬性,如層次結(jié)構(gòu)、排序和計(jì)算邏輯,這些屬性對(duì)進(jìn)行決策支持是非常有用的度量是一個(gè)定量值。
目前對(duì)OLAP的主要分類有以下三種:
(1)關(guān)系OLAP結(jié)構(gòu):使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉庫,采用基于稀疏矩陣表示方法的星形結(jié)構(gòu)或雪花結(jié)構(gòu)存儲(chǔ)多維數(shù)據(jù)。
(2)多維OLAP結(jié)構(gòu):核心是其數(shù)據(jù)存儲(chǔ)采用矩陣方式,數(shù)據(jù)檢索高效。
(3)混合OLAP結(jié)構(gòu):結(jié)合ROLAP和MOLAP技術(shù),在MOLAP立方體中存儲(chǔ)高級(jí)別的聚集,在ROLAP中存儲(chǔ)低級(jí)別的聚集。
ROLAP分為星型模式和雪花型模式。星型模式可能是最簡單的數(shù)據(jù)倉庫模式。因?yàn)樗膶?shí)體關(guān)系圖是從一個(gè)中心表向外輻射連接各維表,看起來像是一個(gè)星星;雪花模式是一種比星型模式更繁雜的數(shù)據(jù)倉庫模式,實(shí)際上它也是星型模式的一種。因?yàn)閺乃膶?shí)體關(guān)系圖上看像雪花狀,所以它就被稱為雪花模式。
星型模式的優(yōu)點(diǎn):在星型模式中進(jìn)行的復(fù)雜查詢,可以直接通過各維的層次比較、上卷、下鉆等操作完成,大大減少用戶的查詢響應(yīng)時(shí)間;星型模式既可以被用在簡單的數(shù)據(jù)集市上也可以被應(yīng)用在巨型數(shù)據(jù)倉庫上。星型模式的結(jié)構(gòu)示意圖見圖2。
雪花模式通過對(duì)維表的規(guī)范化來消除冗余的數(shù)據(jù)。它通過最大限度地減少數(shù)據(jù)存儲(chǔ)量以及把較小的規(guī)范化表(不是大的非規(guī)范化表)聯(lián)合在一起來改善查詢性能。雪花模式增加了應(yīng)用程序的靈活性。但雪花模式也增加了用戶必須處理的表的數(shù)量,增加了某些查詢的復(fù)雜性。
雪花模式與星型模式的不同在于,雪花模式的維表可能是規(guī)范化形式,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲(chǔ)空間。然而,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。這樣,系統(tǒng)的性能可能會(huì)受到影響。因此,在數(shù)據(jù)倉庫設(shè)計(jì)中,雪花模式不如星型模式流行。雪花模式結(jié)構(gòu)示意圖見圖3。
多維分是指對(duì)以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)等各種分析動(dòng)作,以剖析數(shù)據(jù),使最終用戶能從多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人的思維模式,因此減少了混淆并且降低了出現(xiàn)錯(cuò)誤解釋的可能性。
數(shù)據(jù)倉庫在電信領(lǐng)域中能產(chǎn)生很多的應(yīng)用,本文從應(yīng)用的角度,闡述數(shù)據(jù)倉庫在電信行業(yè)中的應(yīng)用過程。該電信系統(tǒng)包括兩方面內(nèi)容,一方面是數(shù)據(jù)的整理過程,主要是數(shù)據(jù)倉庫的建設(shè)問題;另一方面是數(shù)據(jù)分析技術(shù),包括多維分析(OLAP)、數(shù)據(jù)挖掘等方面的內(nèi)容。
首先,在構(gòu)建數(shù)據(jù)倉庫的過程中,一個(gè)重要的問題是確定數(shù)據(jù)倉庫的主題,數(shù)據(jù)倉庫的主題決定了數(shù)據(jù)的存取方式,也決定了分析的能力。如要定義客戶的概念、選擇有關(guān)主題、主題實(shí)體和屬性等內(nèi)容。其次,在進(jìn)行多維分析時(shí),也要選擇相關(guān)的維和指標(biāo)。“維”代表了分析的角度,指標(biāo)代表了在維下的數(shù)量情況。根據(jù)這些維度和指標(biāo)的定義,可以進(jìn)行多維分析,從多個(gè)角度對(duì)數(shù)據(jù)進(jìn)行分析,得出有關(guān)結(jié)論。由于電信行業(yè)的數(shù)據(jù)倉庫比較龐大,該系統(tǒng)基本要采用多層粒度級(jí),對(duì)數(shù)據(jù)進(jìn)行一定程度的綜合,這樣能保證實(shí)際使用的效率。
在現(xiàn)有數(shù)據(jù)倉庫系統(tǒng)基礎(chǔ)上,引入數(shù)據(jù)分析技術(shù)對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析以輔助領(lǐng)導(dǎo)決策。同時(shí),還需要通過對(duì)該系統(tǒng)業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)該企業(yè)運(yùn)作的規(guī)律,可以優(yōu)化企業(yè)本身的運(yùn)作或進(jìn)行有效的客戶關(guān)系管理,以便揭示隱藏其中的規(guī)律性,完成一些深層次的數(shù)據(jù)分析進(jìn)而將其模型化。這樣就能方便為決策管理者用圖形化展示的效果來進(jìn)行趨勢(shì)分析,從而取代從浩瀚如煙的海量數(shù)據(jù)中分析數(shù)據(jù)這一傳統(tǒng)方法來解決問題。
隨著數(shù)據(jù)處理技術(shù)在企業(yè)的成功應(yīng)用,企業(yè)積累了大量的生產(chǎn)、科研和業(yè)務(wù)數(shù)據(jù),企業(yè)各級(jí)人員都希望能快速、交互、方便和有效地從雜亂無章的數(shù)據(jù)中提取有意義的信息,決策者希望能夠利用這些信息分析企業(yè)運(yùn)行狀況,指導(dǎo)企業(yè)決策。本文介紹數(shù)據(jù)倉庫及OLAP技術(shù)的概念和其關(guān)鍵技術(shù)。給出OLAP的兩種數(shù)據(jù)模式,同時(shí),以數(shù)據(jù)倉庫在電信行業(yè)中的應(yīng)用把多維分析技術(shù)運(yùn)用于數(shù)據(jù)倉庫,以獲取決策所需要的信息。數(shù)據(jù)倉庫能夠?qū)崿F(xiàn)許多原來無法發(fā)現(xiàn)的規(guī)律,為企業(yè)在市場(chǎng)競(jìng)爭過程中提供更好的服務(wù)。
;
[1]王珊等編著.數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理[M].北京:科學(xué)出版社,1998.
[2]柳鶯樣等.數(shù)據(jù)倉庫技術(shù)研究和應(yīng)用探討[J].計(jì)算機(jī)應(yīng)用,2001,(2):46-47.
[3]劉義,常戈群編著.基于關(guān)系數(shù)據(jù)庫和OLAP的研究[J].計(jì)算機(jī)工程與應(yīng)用,2001,(2):36-38.
[4]李慧,聞豪.基于數(shù)據(jù)倉庫的OLAP技術(shù)的研究[J].電腦知識(shí)與技術(shù),2005,(1):77-81.
[5]段云峰,吳唯寧等.數(shù)據(jù)倉庫及其在電信領(lǐng)域中的應(yīng)用[M].電子工業(yè)出版社,2003.