宋薇, 韓育芳(.南陽(yáng)理工學(xué)院 軟件學(xué)院, 南陽(yáng) 473000; .山西戲劇職業(yè)學(xué)院, 太原 03000)
基于SSAS的高校學(xué)生報(bào)到數(shù)據(jù)分析
宋薇1, 韓育芳2
(1.南陽(yáng)理工學(xué)院 軟件學(xué)院, 南陽(yáng) 473000; 2.山西戲劇職業(yè)學(xué)院, 太原 030002)
隨著信息化的普及,各高校招生部門(mén)積累了大量的考生報(bào)考和報(bào)到數(shù)據(jù)。如何充分利用這些數(shù)據(jù),獲取其中蘊(yùn)藏的價(jià)值,已經(jīng)成為大數(shù)據(jù)時(shí)代面臨的主要任務(wù)?;赟SAS(SQL Server Analysis Services)對(duì)某高校的部分招生數(shù)據(jù)進(jìn)行分析,主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建、多維數(shù)據(jù)集創(chuàng)建、數(shù)據(jù)分析、數(shù)據(jù)挖掘等步驟。
數(shù)據(jù)分析; 數(shù)據(jù)倉(cāng)庫(kù); 多維數(shù)據(jù)集; 數(shù)據(jù)挖掘
Abstract: With the popularization of information technology, the university admissions departments have accumulated a large number of data of candidates application and register. How to make full use of these data, access to the hidden value, have become the main task of the era of big data. This paper uses SSAS to analyze a certain college admissions data, including data preprocessing, data warehouse creation, multidimensional data set creation, data analysis, data mining and other steps.
Keywords: Data analysis; Data warehouse; Multidimensional data set; Data mining
隨著信息化的普及,各高校招生部門(mén)積累了大量的考生報(bào)考和報(bào)到數(shù)據(jù)。海量的數(shù)據(jù)隱藏著很多重要的信息,如何充分利用這些數(shù)據(jù),獲取其中蘊(yùn)藏的價(jià)值,順利擺脫“數(shù)據(jù)豐富,信息貧乏”的困境,已經(jīng)成為大數(shù)據(jù)時(shí)代面臨的主要任務(wù)。實(shí)際招生工作中,招生人員往往在時(shí)間較短的期限里依靠經(jīng)驗(yàn)和感覺(jué)進(jìn)行招生,缺乏科學(xué)指導(dǎo)[1-2]。如何充分利用已有的招生信息資源,以使高校在每年的招生宣傳、招生計(jì)劃投放、學(xué)院專(zhuān)業(yè)設(shè)置、生源選擇等方面做出正確的決策,是擺在高職院校面前的緊迫課題[3]。
SQL Server提供了很多新的和增強(qiáng)的商務(wù)智能功能,包括利用SSIS集成服務(wù)整合多種數(shù)據(jù)源,利用SSAS分析服務(wù)使數(shù)據(jù)內(nèi)容更豐富并且建立復(fù)雜的商業(yè)分析,以及利用SSRS報(bào)表服務(wù)編輯,管理,和提交豐富的報(bào)表[4]。SSAS是Microsoft BI解決方案的核心服務(wù),它為數(shù)據(jù)倉(cāng)庫(kù)提供了存儲(chǔ)和查詢OLAP多維數(shù)據(jù)集的機(jī)制,提供了精密的OLAP多維數(shù)據(jù)集開(kāi)發(fā)人員和管理人員界面。SSAS還可以用來(lái)創(chuàng)建包含數(shù)據(jù)挖掘模型的數(shù)據(jù)挖掘結(jié)構(gòu)[5]。
2.1 數(shù)據(jù)預(yù)處理
隨著數(shù)據(jù)庫(kù)技術(shù)的廣泛應(yīng)用,企業(yè)信息系統(tǒng)產(chǎn)生了大量的數(shù)據(jù),如何從這些海量數(shù)據(jù)中提取對(duì)決策分析有用的信息成為決策管理人員所面臨的重要難題[6-7]。傳統(tǒng)的管理信息系統(tǒng)即聯(lián)機(jī)事務(wù)處理系統(tǒng)作為數(shù)據(jù)管理手段,主要是基本的、日常的事務(wù)處理,但它對(duì)分析處理的支持一直不能令人滿意。OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用包括聯(lián)機(jī)在線分析處理和數(shù)據(jù)挖掘。通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)的鉆取、切片、旋轉(zhuǎn)等分析動(dòng)作,可以完成決策支持需要的查詢和報(bào)表。通過(guò)數(shù)據(jù)挖掘可以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的潛在規(guī)則。
本文的源數(shù)據(jù)來(lái)自招生的業(yè)務(wù)數(shù)據(jù),因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并加載到數(shù)據(jù)倉(cāng)庫(kù)中。源數(shù)據(jù)主要是考生的報(bào)考信息及報(bào)到數(shù)據(jù),主要是考生的考生類(lèi)別、畢業(yè)類(lèi)別、政治面貌、成績(jī)信息、籍貫信息、學(xué)校信息、報(bào)考專(zhuān)業(yè)、批次信息以及考生報(bào)到和錄取專(zhuān)業(yè)信息等。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,根據(jù)招生主題設(shè)計(jì)維度表和事實(shí)表,并將數(shù)據(jù)進(jìn)行預(yù)處理導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)倉(cāng)庫(kù)的維度表主要分為學(xué)校維度、系別、專(zhuān)業(yè)、學(xué)生、批次等,事實(shí)表主要記錄學(xué)生是否報(bào)到,學(xué)生報(bào)考專(zhuān)業(yè)以及錄取專(zhuān)業(yè),錄取批次等信息。數(shù)據(jù)倉(cāng)庫(kù)的關(guān)系圖,如圖1所示。
數(shù)據(jù)預(yù)處理主要是對(duì)數(shù)據(jù)進(jìn)行清理,整合,然后處理為維度表和事實(shí)表中所需的數(shù)據(jù)。以地理位置信息的處理為例,本文中的地理維度數(shù)據(jù)源數(shù)據(jù)是考生報(bào)到數(shù)據(jù)文件中dqmc列,描述的是地區(qū)名稱(chēng),其數(shù)據(jù)為“德城區(qū)”,“鄧州市鄧州市”,“安陽(yáng)市市區(qū)”等。數(shù)據(jù)處理的難度一方面是源數(shù)據(jù)中對(duì)于地區(qū)信息的描述不夠完整,例如德城區(qū)沒(méi)有指明其省份和城市,另外是對(duì)于地區(qū)省市區(qū)縣等信息表達(dá)方式不統(tǒng)一,造成數(shù)據(jù)冗余。維度表一般是有主鍵的,代表該類(lèi)物質(zhì)的一個(gè)單一個(gè)體,其他的字段一般都是有層次關(guān)系。因此地理緯度表存儲(chǔ)著GeoKey地區(qū)編碼,country國(guó)家,area地區(qū),province省份,city城市,region區(qū)或者縣。通過(guò)對(duì)數(shù)據(jù)預(yù)處理上例案例中“碧江區(qū)”在維度表中存儲(chǔ)為“36 中國(guó) 華東 山東 德州市 德城區(qū)”。
圖1 數(shù)據(jù)倉(cāng)庫(kù)關(guān)系圖
2.2 數(shù)據(jù)分析
聯(lián)機(jī)分析處理是數(shù)據(jù)倉(cāng)庫(kù)的重要數(shù)據(jù)分析工具,可以處理共享多維信息的快速分析,建立聯(lián)機(jī)分析處理的基礎(chǔ)是多維數(shù)據(jù)模型。對(duì)多維數(shù)據(jù)分析操作主要包括:切片、切塊、旋轉(zhuǎn)、鉆取等。本文的數(shù)據(jù)分析主要是基于SSAS實(shí)現(xiàn),建立Analysis Service項(xiàng)目,在項(xiàng)目中定義數(shù)據(jù)源、數(shù)據(jù)源視圖、維度、多維數(shù)據(jù)集。通過(guò)查看多維數(shù)據(jù)集的數(shù)據(jù)查看學(xué)生報(bào)到情況,例如分省份、分專(zhuān)業(yè)、分批次的報(bào)到情況,以及學(xué)生報(bào)到和錄取專(zhuān)業(yè)等情況。查看各省市區(qū)報(bào)到學(xué)生數(shù)量,通過(guò)查看報(bào)到數(shù)據(jù)的分布情況,可以為學(xué)院領(lǐng)導(dǎo)和相關(guān)部門(mén)提供決策依據(jù),例如在哪些省份需要加強(qiáng)招生宣傳等,如圖2所示。
圖2 各省市區(qū)縣報(bào)到人數(shù)分布
查看學(xué)生報(bào)到和錄取本科專(zhuān)業(yè)等情況,根據(jù)這些可以指導(dǎo)專(zhuān)業(yè)方向發(fā)展,如圖3所示。
圖3 學(xué)生報(bào)到和錄取專(zhuān)業(yè)人數(shù)分布
查看不同成績(jī)區(qū)間和本科,專(zhuān)科等錄取人數(shù)分布,有助于了解生源情況,如圖4所示。
2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理都是數(shù)據(jù)分析工具,但是它們處理的問(wèn)題不同,數(shù)據(jù)分析的深度不同。數(shù)據(jù)挖掘是一種挖掘性質(zhì)的數(shù)據(jù)分析,能夠自動(dòng)地發(fā)現(xiàn)事物間潛在的關(guān)系和特征模式,并且利用這些特征模式進(jìn)行有效的預(yù)測(cè)分析。兩者相鋪相成,數(shù)據(jù)挖掘能發(fā)現(xiàn)聯(lián)機(jī)分析處理不能發(fā)現(xiàn)的更為復(fù)雜和細(xì)致的問(wèn)題,而聯(lián)機(jī)分析處理能夠迅速告訴我們系統(tǒng)過(guò)去和現(xiàn)在是怎樣的,從而更好的理解數(shù)據(jù),加快知識(shí)發(fā)現(xiàn)的過(guò)程,迅速驗(yàn)證數(shù)據(jù)挖掘發(fā)現(xiàn)的結(jié)果是否合理。SSAS提供了10種算法來(lái)作為數(shù)據(jù)挖掘工具,包括決策樹(shù)算法、聚類(lèi)分析算法、na?ve bayes算法、關(guān)聯(lián)算法、順序分析算法、聚類(lèi)分析算法、時(shí)序算法、神經(jīng)網(wǎng)絡(luò)算法、邏輯回歸算法、線性回歸算法、文本挖掘算法[8]。其中在定量分析的實(shí)際研究中,回歸分析方法是流行的一種分析方法,可用來(lái)預(yù)測(cè)未來(lái)的值,線性回歸是最簡(jiǎn)單的回歸形式。許多科學(xué)問(wèn)題的觀察,都只是分類(lèi)而非連續(xù)的。對(duì)于分類(lèi)問(wèn)題,線性回歸不能解決問(wèn)題,需要使用邏輯回歸。決策樹(shù)算法主要是一種分類(lèi)算法,它從數(shù)據(jù)中選出已經(jīng)分好類(lèi)的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類(lèi)的技術(shù),建立分類(lèi)模型,對(duì)沒(méi)有分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi),同時(shí)也可以用于預(yù)測(cè)。聚類(lèi)是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里。貝葉斯分類(lèi)器是一個(gè)統(tǒng)計(jì)分類(lèi)器,它們能預(yù)測(cè)類(lèi)別所屬的概率。聚類(lèi)和分類(lèi)的區(qū)別聚類(lèi)不依賴于預(yù)先定義好的類(lèi),不需要訓(xùn)練集,其目的不是為了預(yù)測(cè)。關(guān)聯(lián)分析的目的找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)[9、10]。
圖4 不同成績(jī)區(qū)間和本科,專(zhuān)科等錄取人數(shù)分布
本文通過(guò)關(guān)聯(lián)分析、邏輯回歸等模型來(lái)挖掘影響學(xué)生報(bào)到的重要因素。挖掘時(shí)輸入項(xiàng)是畢業(yè)類(lèi)別,層次名稱(chēng),城市,科目名稱(chēng),考生類(lèi)別,批次名稱(chēng),專(zhuān)業(yè)名稱(chēng)等信息,預(yù)測(cè)目標(biāo)為是否報(bào)到,其中輸入項(xiàng)的選擇是根據(jù)模型計(jì)算數(shù)據(jù)相關(guān)度推薦的字段,如圖5所示。
圖5 關(guān)聯(lián)分析結(jié)果
通過(guò)關(guān)聯(lián)分析模型挖掘出潛在的規(guī)則。通過(guò)這樣的規(guī)則,可以從中分析出對(duì)高校招生有價(jià)值的信息。由挖掘結(jié)果可見(jiàn),對(duì)于不同批次的學(xué)生,某些專(zhuān)業(yè)的報(bào)到率較高以及對(duì)于某些城市某些批次的學(xué)生報(bào)到率較高,以及什么情況下學(xué)生報(bào)到率較低,如圖6所示。
通過(guò)邏輯回歸分析,對(duì)于高中畢業(yè),報(bào)考本科理科的學(xué)生什么情況下傾向于報(bào)到,什么情況下傾向于不報(bào)到。通過(guò)
圖6 邏輯回歸分析結(jié)果
這樣的挖掘分析可以為學(xué)院領(lǐng)導(dǎo)和相關(guān)部門(mén)提供決策依據(jù),進(jìn)而更好地開(kāi)展招生工作。
本文主要圍繞基于SSAS對(duì)學(xué)生報(bào)到數(shù)據(jù)進(jìn)行分析和挖掘,主要從數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建、多維數(shù)據(jù)集創(chuàng)建、數(shù)據(jù)分析、數(shù)據(jù)挖掘等方面展開(kāi)。本文以某高校某院系某年的招生數(shù)據(jù)為例進(jìn)行分析,下一步可以完善數(shù)據(jù),增加時(shí)間維度和專(zhuān)業(yè)維度,對(duì)更多專(zhuān)業(yè)更多年份的招生歷史數(shù)據(jù)進(jìn)行分析挖掘。
[1] 黃榮堅(jiān). 數(shù)據(jù)挖掘在高職院校招生中的應(yīng)用研究[D]. 廣州:中山大學(xué), 2014.
[2] 胡海員. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在招生決策中的應(yīng)用研究[D]. 南京:東南大學(xué), 2006.
[3] 王炳堃. 基于OLAP民辦高校招生數(shù)據(jù)智能分析系統(tǒng)的開(kāi)發(fā)與實(shí)現(xiàn)[D]. 廈門(mén):廈門(mén)大學(xué), 2016.
[4] 蘭吉特張猛, 楊越, 朗亞妹. SQL Server 2008商業(yè)智能完美解決方案[M]. 北京:人民郵電出版社, 2010.
[5] Brian Larson. Microsoft SQL Server 2005商業(yè)智能實(shí)現(xiàn)[M]. 北京:清華大學(xué)出版社, 2008.
[6] 潘華,項(xiàng)同德. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理、工具及應(yīng)用[M]. 北京:中國(guó)電力出版社, 2016.
[7] 閔建虎. 基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)設(shè)計(jì)研究[J]. 微型電腦應(yīng)用, 2010, 26(4):48-50.
[8] 謝邦昌, 鄭宇庭, 蘇志雄. SQL Server 2008 R2數(shù)據(jù)挖掘與商業(yè)智能基礎(chǔ)及高級(jí)案例實(shí)戰(zhàn)[M]. 北京:中國(guó)水利水電出版社, 2011.
[9] 毛國(guó)君, 段立娟. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社, 2016.
[10] 陳倬. 數(shù)據(jù)挖掘中聚類(lèi)算法的研究[J]. 黑龍江科技信息, 2016(3):133-133.
AnalysisofCollegeStudentRegistrationDatabasedonSSAS
Song Wei1, Han Yufang2
(1. School of Software, Nanyang Institute of Technology, Nanyang 473000, China;2. Shanxi Drama Vocational College, Taiyuan 030002, China)
TP311
A
2017.05.15)
宋薇(1987-),女,南陽(yáng)人,碩士,講師,研究方向:數(shù)據(jù)挖掘. 韓育芳(1986-),女,高平人,碩士,助教,研究方向:虛擬現(xiàn)實(shí)技術(shù)及其應(yīng)用.
1007-757X(2017)09-0057-03