張紅
10.3969/j.issn.1671-489X.2016.19.027
摘 要 基于HANA平臺(tái),對(duì)東華大學(xué)近10年的教務(wù)數(shù)據(jù)進(jìn)行多維分析,對(duì)學(xué)生信息表和學(xué)生成績(jī)表分別創(chuàng)建分析視圖和計(jì)算視圖,挖掘?qū)W生成績(jī)、生源地、專(zhuān)業(yè)、星座之間的關(guān)系,并對(duì)其關(guān)系進(jìn)行圖形展示,為高校學(xué)生的管理和研究提供信息支持。
關(guān)鍵詞 HANA;教務(wù)數(shù)據(jù);大數(shù)據(jù)
中圖分類(lèi)號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):1671-489X(2016)19-0027-02
1 引言
近年來(lái)隨著“大數(shù)據(jù)”技術(shù)的發(fā)展,數(shù)據(jù)的價(jià)值逐漸被大家認(rèn)識(shí)并發(fā)掘,行業(yè)內(nèi)出現(xiàn)了各種關(guān)于大數(shù)據(jù)的應(yīng)用,本文的立足點(diǎn)是高校教務(wù)數(shù)據(jù)。高校教務(wù)數(shù)據(jù)包括學(xué)生的基本信息、學(xué)生的選課信息及學(xué)習(xí)成績(jī)信息等,這些信息比較全面地反映了學(xué)生的整體情況,而且彼此之間存在緊密聯(lián)系,同時(shí)也隱含了一些重要信息。通過(guò)對(duì)該數(shù)據(jù)的挖掘分析,可以把一些重要的信息從數(shù)據(jù)庫(kù)中抽取出來(lái),為人們提供具有價(jià)值的信息,更好地支持人們的決策,同時(shí)為學(xué)生管理人員提供有力的信息支持和工作指導(dǎo)。本文以東華大學(xué)近10年的教務(wù)數(shù)據(jù)為樣本進(jìn)行研究分析,挖掘?qū)W生成績(jī)、生源地、專(zhuān)業(yè)和星座之間的系。
2 相關(guān)技術(shù)
內(nèi)存計(jì)算 數(shù)據(jù)庫(kù)奠基人Jim Gray曾于2006年預(yù)言:“磁帶已經(jīng)死了,磁盤(pán)已經(jīng)落伍,閃存成為新存儲(chǔ),內(nèi)存局部性才是王道?!彪S著硬件成本的不斷降低,如今這一預(yù)言已經(jīng)成為現(xiàn)實(shí)[1]。內(nèi)存計(jì)算在軟硬件系統(tǒng)協(xié)同配置的環(huán)境下,高效地將數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)全部放在內(nèi)存中進(jìn)行計(jì)算,這樣有效地減少了磁盤(pán)的I/O。內(nèi)存計(jì)算采用高效的并行計(jì)算技術(shù)以及基于內(nèi)存的數(shù)據(jù)的讀取、處理以及壓縮技術(shù),同時(shí)支持?jǐn)?shù)據(jù)的行式存儲(chǔ)以及列式存儲(chǔ)。在內(nèi)存計(jì)算方法中擁有系統(tǒng)內(nèi)容的計(jì)算引擎,使用內(nèi)存計(jì)算法運(yùn)行大量的數(shù)據(jù)系統(tǒng)是用虛擬數(shù)據(jù)建模,計(jì)算引擎直接采用虛擬數(shù)據(jù)進(jìn)行有效計(jì)算,這樣的計(jì)算方式直接在內(nèi)存中進(jìn)行,減少了因?yàn)榇罅康臄?shù)據(jù)的存在造成的數(shù)據(jù)冗余,優(yōu)化了數(shù)據(jù)層與應(yīng)用之間的數(shù)據(jù)交互,極大地提升了系統(tǒng)的運(yùn)行效率。內(nèi)存計(jì)算的計(jì)算方式讓數(shù)據(jù)的計(jì)算速度飛快地增長(zhǎng),也讓海量的數(shù)據(jù)快速計(jì)算成為可能。
HANA數(shù)據(jù)庫(kù) HANA是一種數(shù)據(jù)庫(kù)管理系統(tǒng)[2],其研發(fā)者是SAP公司。HANA數(shù)據(jù)庫(kù)不同于一般的數(shù)據(jù)庫(kù),它是一種集軟件與硬件為一體的工作平臺(tái),是列式存儲(chǔ)與內(nèi)存計(jì)算技術(shù)上的結(jié)合體。HANA數(shù)據(jù)庫(kù)的運(yùn)行方式相較于傳統(tǒng)的數(shù)據(jù)庫(kù)的運(yùn)行方式,極大地提高了數(shù)據(jù)的壓縮效率以及存儲(chǔ)的性能,減少了可能造成的數(shù)據(jù)冗余。HANA數(shù)據(jù)庫(kù)的使用者可以自由使用內(nèi)置的分析工具對(duì)各種模型進(jìn)行分析,如建立數(shù)據(jù)倉(cāng)庫(kù)、報(bào)表等,能夠?qū)ζ脚_(tái)上的大量數(shù)據(jù)及時(shí)處理并實(shí)時(shí)獲得分析結(jié)果,完成對(duì)大量數(shù)據(jù)的分析。
HANA[3]的內(nèi)存數(shù)據(jù)庫(kù)是內(nèi)存計(jì)算中最主要的組成部分,主要包括的內(nèi)容有數(shù)據(jù)庫(kù)服務(wù)器、客戶(hù)端工具、建模工具。在HANA數(shù)據(jù)中,計(jì)算引擎是核心,主要負(fù)責(zé)對(duì)大量數(shù)據(jù)的CRUDQ操作,操作形式支持MDX、SQL語(yǔ)句[4-5]等。HANA數(shù)據(jù)庫(kù)不一般的計(jì)算能力以及強(qiáng)大可擴(kuò)展性,讓原來(lái)需要很長(zhǎng)時(shí)間很大工程的運(yùn)算成為可能,并且其計(jì)算引擎也不對(duì)其他的用戶(hù)操作造成影響,這很大程度上提高了企業(yè)的工作效率,促進(jìn)了勞動(dòng)生產(chǎn)力的提高。
3 數(shù)據(jù)處理過(guò)程
數(shù)據(jù)加載 從東華大學(xué)得到的教務(wù)數(shù)據(jù)是csv文件格式的,包括學(xué)生基本信息、選課信息、選課情況信息、成績(jī)信息等。該格式的文件是一種比較輕量級(jí)的用半角逗號(hào)作分割值的數(shù)據(jù)文件,無(wú)法創(chuàng)建索引,每次查詢(xún)都需要遍歷文件,很難適應(yīng)復(fù)雜多變的查詢(xún)需求。因此,首先將數(shù)據(jù)從csv文件導(dǎo)入到HANA數(shù)據(jù)庫(kù),HANA數(shù)據(jù)庫(kù)可以幫助系統(tǒng)完成大規(guī)模的數(shù)據(jù)查詢(xún)與提取。
安裝HANA客戶(hù)端工具和建模工具后,需要將數(shù)據(jù)加載到HANA實(shí)例中,以便開(kāi)始執(zhí)行示例應(yīng)用程序。數(shù)據(jù)加載可能非常復(fù)雜,SAP為不同的數(shù)據(jù)加載業(yè)務(wù)情景提供了多個(gè)解決方案。打開(kāi)HANA建模工具,單擊“文件”(File)菜單并選擇“導(dǎo)入”項(xiàng)(Import)即可實(shí)現(xiàn)數(shù)據(jù)的導(dǎo)入。
數(shù)據(jù)建模 在HANA數(shù)據(jù)庫(kù)中,用于對(duì)各種數(shù)據(jù)建模的模型稱(chēng)為信息視圖(Information views)。這類(lèi)視圖通過(guò)對(duì)內(nèi)容數(shù)據(jù)(屬性數(shù)據(jù)、度量數(shù)據(jù))的各種組合來(lái)建立業(yè)務(wù)實(shí)例的模型。數(shù)據(jù)倉(cāng)庫(kù)中一般常用的數(shù)據(jù)類(lèi)型有兩種:一種是屬性數(shù)據(jù)(attribute),通常是一些描述性的數(shù)據(jù),如學(xué)生學(xué)號(hào)、班級(jí)、生源地等;一種是度量數(shù)據(jù)(measure),通常是數(shù)字型的數(shù)據(jù),如學(xué)生家庭收入、學(xué)生成績(jī)等。這兩種數(shù)據(jù)類(lèi)型都可以稱(chēng)為內(nèi)容數(shù)據(jù)。
信息視圖的一般用途是分析性的用例,如患者地域分布表、多維度分析的檢驗(yàn)報(bào)告等場(chǎng)景。HANA提供的信息視圖有三種,分別是屬性視圖(attribute view)、分析視圖(analytic view)、計(jì)算視圖(calculation view)。其中,屬性視圖是基于不同數(shù)據(jù)庫(kù)的源表中具有一定關(guān)系的屬性數(shù)據(jù)而建立起來(lái)的實(shí)體模型;分析視圖主要用于建立包含度量數(shù)據(jù)的模型;計(jì)算視圖可以簡(jiǎn)單地實(shí)現(xiàn)和屬性視圖、分析視圖同樣的功能,也可以針對(duì)數(shù)據(jù)庫(kù)中定義進(jìn)行更高級(jí)的計(jì)算,用來(lái)滿(mǎn)足業(yè)務(wù)應(yīng)用上的一些復(fù)雜邏輯。
本文對(duì)課程信息表創(chuàng)建了分析視圖,設(shè)置輸出列為課程編號(hào)和課程名稱(chēng),并在語(yǔ)義層定義維度和度量,通過(guò)查詢(xún)課程名相同、課程代碼不同的課程,可以看出排名前10位的課程主要是每個(gè)學(xué)院都開(kāi)設(shè)的實(shí)習(xí)類(lèi)課程。
對(duì)學(xué)生信息表創(chuàng)建了計(jì)算視圖,利用學(xué)生出生日期建立計(jì)算列,從而獲得每個(gè)學(xué)生的星座。選擇“星座”這個(gè)維度,度量選擇按照“學(xué)號(hào)”計(jì)算,通過(guò)分析可以看出,學(xué)生人數(shù)排名前5位的星座分別是天秤座、天蝎座、獅子座、處女座和水瓶座。
對(duì)學(xué)生成績(jī)表創(chuàng)建了計(jì)算視圖,利用成績(jī)建立計(jì)算列,選擇“生源地”這個(gè)維度,度量選擇按照“平均成績(jī)”計(jì)算,通過(guò)分析可以看出,學(xué)生人數(shù)排名前5位的生源地分別是浙江、河北、河南、福建和山東;選擇“星座”這個(gè)維度,度量選擇按照“平均成績(jī)”計(jì)算,通過(guò)分析可以看出,成績(jī)排名前5位的星座是天秤座、天蝎座、獅子座、處女座和水瓶座,如圖1所示。
4 實(shí)驗(yàn)
實(shí)驗(yàn)環(huán)境 本實(shí)驗(yàn)所用服務(wù)器的配置為戴爾Power Edge R910,CPU為4顆Xeon核E7520,內(nèi)存為256 G,操作系統(tǒng)為SUSE Linux Enterprise Server 11 SP1,內(nèi)存計(jì)算數(shù)據(jù)庫(kù)引擎采用HANA SERVER 1.006。實(shí)驗(yàn)數(shù)據(jù)采用東華大學(xué)近10年的教務(wù)數(shù)據(jù)。
結(jié)果與分析 對(duì)學(xué)生成績(jī)表創(chuàng)建了計(jì)算視圖,利用成績(jī)建立計(jì)算列,選擇“生源地”這個(gè)維度,度量選擇安裝“平均成績(jī)”計(jì)算,對(duì)查詢(xún)結(jié)果進(jìn)行了篩選,查看成績(jī)相對(duì)較差的學(xué)生的生源地分布數(shù)據(jù),排名后5位的是北京、河南、廣東、陜西、云南。
對(duì)學(xué)生成績(jī)表創(chuàng)建計(jì)算視圖,利用成績(jī)建立計(jì)算列,選擇“星座”這個(gè)維度,度量選擇按照“平均成績(jī)”計(jì)算,查看優(yōu)秀學(xué)生的星座分布數(shù)據(jù),排名前5位的是天秤座、天蝎座、獅子座、處女座、水瓶座。
5 結(jié)束語(yǔ)
本文基于HANA平臺(tái),對(duì)東華大學(xué)近10年的教務(wù)數(shù)據(jù)進(jìn)行了多維分析,對(duì)學(xué)生信息表和學(xué)生成績(jī)表分別創(chuàng)建了分析視圖和計(jì)算視圖,分析了學(xué)生成績(jī)、生源地、專(zhuān)業(yè)、星座之間的關(guān)系,并對(duì)其關(guān)系進(jìn)行了圖形展示,為人們提供具有價(jià)值的信息,更好地支持人們的決策,同時(shí)也為學(xué)生管理人員提供了有力的信息支持和工作指導(dǎo)?;谠摂?shù)據(jù),還可以利用關(guān)聯(lián)規(guī)則進(jìn)一步挖掘各維度之間更深一層的關(guān)系?!?/p>
參考文獻(xiàn)
[1]朱靖翔,張濱,樂(lè)嘉錦.基于內(nèi)存計(jì)算的鋼鐵價(jià)格預(yù)測(cè)算法研究[J].計(jì)算機(jī)科學(xué),2014,41(b11):432-435.
[2]李抵非,田地,胡雄偉.基于分布式內(nèi)存計(jì)算的深度學(xué)習(xí)方法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2015,45(3):921-925.
[3]付云.大數(shù)據(jù)時(shí)代內(nèi)存計(jì)算先行[J].互聯(lián)網(wǎng)周刊,
2012(2):64-65.