周 野 王小巖
吉林建筑大學(xué)電氣與計(jì)算機(jī)學(xué)院,吉林 長(zhǎng)春 130118
高校一卡通消費(fèi)數(shù)據(jù)OLAP多維分析系統(tǒng)的研究*
周 野 王小巖
吉林建筑大學(xué)電氣與計(jì)算機(jī)學(xué)院,吉林 長(zhǎng)春 130118
為了更好的多角度的分析和查詢高校在校學(xué)生的消費(fèi)狀況及特點(diǎn),以高校一卡通系統(tǒng)中所產(chǎn)生的大量消費(fèi)數(shù)據(jù)為基礎(chǔ),此案有MDX(多維表達(dá)式)語言的OLAP多維數(shù)據(jù)分析系統(tǒng),從而建構(gòu)分析數(shù)據(jù)庫(kù),來分析高校學(xué)生的消費(fèi)事實(shí)表和維表的結(jié)構(gòu),構(gòu)建多維數(shù)據(jù)模型,從而實(shí)現(xiàn)從多種角度對(duì)結(jié)果進(jìn)行數(shù)據(jù)分析的目的,為高校開展學(xué)生工作提供數(shù)據(jù)支持。
一卡通;數(shù)據(jù)倉(cāng)庫(kù);OLAP
到目前為止我國(guó)大部分高校都在校園內(nèi)部實(shí)行了一卡通系統(tǒng),尤其是學(xué)校的食堂和其他的消費(fèi)場(chǎng)所的結(jié)算都可以使用一卡通進(jìn)行結(jié)算,而且已經(jīng)使用了很多年,在學(xué)生消費(fèi)方面積累了大量的一手真實(shí)數(shù)據(jù)。因此本文以某校為例,通過對(duì)這一學(xué)校的相關(guān)數(shù)據(jù)進(jìn)行分析來獲得一手資料,所選學(xué)校學(xué)生規(guī)模有1.6萬人,屬于建筑類高校,該校的一年刷卡消費(fèi)記錄幾乎有2000萬條以上,這些海量的數(shù)據(jù)為本次研究提供了很好的數(shù)據(jù)支持。不過這些數(shù)據(jù)系統(tǒng)一般只能進(jìn)行查詢服務(wù),如學(xué)生的消費(fèi)明細(xì)、刷卡明細(xì)、部門結(jié)算數(shù)據(jù)報(bào)表及相關(guān)的日?qǐng)?bào)、月報(bào)、年報(bào)等。從目前來說高校也需要有關(guān)的數(shù)據(jù)來了解學(xué)生的資金狀況,以做好學(xué)生管理工作。如對(duì)于學(xué)生的獎(jiǎng)學(xué)金的發(fā)放、助學(xué)貸款的審批、貧困學(xué)生補(bǔ)助的發(fā)放、校內(nèi)食堂建設(shè)規(guī)劃等這些都需要一個(gè)科學(xué)而嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)來進(jìn)行支持,因此高校學(xué)生的校園一卡通為這一數(shù)據(jù)提供了很好的數(shù)據(jù)支持。當(dāng)然還需要看到校園一卡通只是學(xué)生在校內(nèi)相關(guān)部門的消費(fèi)數(shù)據(jù),尤其是校內(nèi)的相關(guān)經(jīng)營(yíng)部門的消費(fèi)數(shù)據(jù),缺乏一定的消費(fèi)特點(diǎn),是基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),不能夠從多角度進(jìn)行海量數(shù)據(jù)分析,具有一定的局限性。而如果引入數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理就可以從多個(gè)角度、粒度和維度來分進(jìn)行微觀或宏觀方面的數(shù)據(jù)分析,從而獲得更好的數(shù)據(jù)支持,為高層管理開展決策提供必要支持。
數(shù)據(jù)倉(cāng)庫(kù)是一種帶有主題性、集成性、時(shí)變性、數(shù)據(jù)相對(duì)安全的數(shù)據(jù)集合系統(tǒng),用來為經(jīng)營(yíng)管理者進(jìn)行決策提供數(shù)據(jù)支持服務(wù)。一般來說傳統(tǒng)意義上的數(shù)據(jù)庫(kù)是以應(yīng)用為目的的,主要針對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)增加、刪除、更改、查詢等操作,但是數(shù)據(jù)倉(cāng)庫(kù)則是有著一定的主題性,把來自不同信息系統(tǒng)的數(shù)據(jù)進(jìn)行分析、綜合、集合和利用。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)一般都來自操作型的數(shù)據(jù)庫(kù)或其他類型的數(shù)據(jù)源,如相關(guān)的文檔、Web信息或其他的多媒體數(shù)據(jù)等,而且還需要進(jìn)行一系列的處理,其主要目的是為了給高層進(jìn)行相關(guān)的決策提供數(shù)據(jù)支持服務(wù),是數(shù)據(jù)庫(kù)技術(shù)的進(jìn)一步發(fā)展的成果。
OLAP(online analysis processing)聯(lián)機(jī)分析處理的意思,是集多種多維數(shù)組數(shù)據(jù)考察于一身的技術(shù),主要從多個(gè)維度、粒度對(duì)相關(guān)的信息進(jìn)行分類、集合,并對(duì)其進(jìn)行多角度的分析。而傳統(tǒng)的聯(lián)機(jī)事務(wù)處理(OLTP)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)卻缺乏大量數(shù)據(jù)查詢的功能,也不能進(jìn)行必要的分析,因?yàn)橄到y(tǒng)需要建立在大量數(shù)據(jù)基礎(chǔ)上,OLAP則以多維數(shù)據(jù)集的形式組織數(shù)據(jù),組成數(shù)據(jù)立方體(Cube)。
通過數(shù)據(jù)倉(cāng)庫(kù)來對(duì)大量數(shù)據(jù)實(shí)施有效分析,首先需要確保數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)需要是準(zhǔn)確、一致、完整和可靠的,也就是首先要確保數(shù)據(jù)有著較高的質(zhì)量,這樣才能真正使得OLAP系統(tǒng)的分析或挖掘能夠產(chǎn)生較高的精確性和可信度。ETL,也就是抽取Extraction,轉(zhuǎn)換Transformation,加載Load,這些是數(shù)據(jù)倉(cāng)庫(kù)在創(chuàng)設(shè)中不可缺少的必要步驟,是把來自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行加載的過程。對(duì)于本文所研究的校園一卡通,有著較為復(fù)雜的數(shù)據(jù)庫(kù),數(shù)據(jù)類型多種多樣,以所參照的高校為例,其校園一卡通的數(shù)據(jù)庫(kù)的數(shù)據(jù)表就有1千多個(gè),各種數(shù)據(jù)表有著不同的結(jié)構(gòu),大部分表有數(shù)十個(gè)字段,因此對(duì)于做數(shù)據(jù)預(yù)處理不是太容易。因此本文只選中了消費(fèi)流水表、消費(fèi)類別表、商戶表、終端表等進(jìn)行研究,將其他的數(shù)據(jù)內(nèi)容刪除。因?yàn)楸疚闹饕茄芯繉W(xué)生相關(guān)的消費(fèi)內(nèi)容,因此將流水記錄中其他的用戶刪除,如教職工和臨時(shí)用戶的記錄。數(shù)據(jù)分析主要圍繞學(xué)生的日常餐飲和校內(nèi)的超市消費(fèi)狀況進(jìn)行分析,對(duì)于醫(yī)療消費(fèi)及上機(jī)消費(fèi)等也進(jìn)行了預(yù)先清理。從多種數(shù)據(jù)庫(kù)表字段中選取所需的部分,如消費(fèi)流水表等。而清洗則是指對(duì)數(shù)據(jù)表中存在的空缺、錯(cuò)誤進(jìn)行“臟數(shù)據(jù)”處理。當(dāng)然在校園一卡通系統(tǒng)中,任何用戶的信息、終端信息、消費(fèi)信息等都是在系統(tǒng)控制下進(jìn)行的,需要進(jìn)行認(rèn)證、校驗(yàn)才能操作成功,因此可以說基本數(shù)據(jù)都是完整的、正確的,不需要進(jìn)行數(shù)據(jù)清洗。
OLAP系統(tǒng)根據(jù)數(shù)據(jù)存儲(chǔ)方式主要分為2類:ROLAP,MOLAP。ROLAP將多維數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,支持SQL語句的查詢;MOLAP則是存儲(chǔ)為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu),支持多維查詢語言(MDX)。在生成多維數(shù)據(jù)集前,在關(guān)系數(shù)據(jù)庫(kù)中要定義兩種表:一是事實(shí)表,主要包括各種度量值,就是我們感興趣的匯總和明細(xì)數(shù)據(jù),還包括各個(gè)維表的主鍵值;另一種就是維表,每個(gè)維度都至少有一個(gè)表用來保存該維的信息,如果維度是分層次的,還要包括維的層次信息。事實(shí)表通過外鍵與各維表聯(lián)系在一起構(gòu)成了不同類型的多維數(shù)據(jù)模式,主要包括星型模式、雪花模式和事實(shí)星座模式。系統(tǒng)的OLAP模型結(jié)構(gòu)如圖1所示。
圖1 OLAP模型結(jié)構(gòu)
總而言之,OLAP技術(shù)是一種針對(duì)大數(shù)據(jù)并進(jìn)行多維分析的新型技術(shù),本文以高校一卡通系統(tǒng)為數(shù)據(jù)來源,進(jìn)行消費(fèi)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建,采用OLAP技術(shù),進(jìn)行數(shù)據(jù)分析,為高校決策提供數(shù)據(jù)支持,從多個(gè)維度建立了OLAP模型。并且對(duì)MDX語言與SOL語言開展查詢效率對(duì)比測(cè)試,為高校開展學(xué)生工作提供必要的數(shù)據(jù)支持,促進(jìn)高校信息化建設(shè)的發(fā)展。
[1]彭成,佟秋利.高校財(cái)務(wù)多維查詢分析系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2012(05).
[2]趙博,葉曉俊.OLAP性能測(cè)試方法研究與實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2011(10).
*吉林建筑大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目資助(201610191040)。
TP
A