古亮+劉培艷+楊菲
摘 要: 本文通過對高校招生現(xiàn)狀進行了總結(jié)分析,通過分析發(fā)現(xiàn)其中存在的問題,對數(shù)據(jù)挖掘技術(shù)進行了闡述,并將數(shù)據(jù)挖掘技術(shù)引進招生數(shù)據(jù)分析工作,旨在通過對招生數(shù)據(jù)的分析發(fā)現(xiàn)隱含的信息,據(jù)此優(yōu)化招生工作。
關(guān)鍵詞: 數(shù)據(jù)挖掘 高校招生 數(shù)據(jù)分析
一、高校招生現(xiàn)狀分析
近年來,我國高校招生形勢發(fā)生了巨大的變化,造成這種狀況的原因很多,歸納起來有以下幾個方面。一是隨著國家教育政策的改革、高校擴招擴建及一些專科院校評估升級為本科院校等原因,導(dǎo)致高校本科招生總數(shù)逐年增加,但是生源數(shù)量有限,甚至呈逐年減少狀況,因此如何在保證生源質(zhì)量的前提下完成招生任務(wù),是當前招生工作者面臨的重要問題;二是國外教育機構(gòu)逐漸增多,學生有更多的機會選擇出國留學,因此,高校的生源危機日漸嚴重,招生形勢日趨緊張。在這種情況下,高校如何通過創(chuàng)新的招生策略、準確的生源信息爭取足夠的、高質(zhì)量的生源,是搞好招生工作的重中之重,也是關(guān)系到學校發(fā)展甚至生死存亡的關(guān)鍵。
除此之外,信息時代的到來,給高校的招生工作帶來了新的契機,各大高校分別用網(wǎng)站、微信平臺等進行宣傳,并研發(fā)了各自的招生信息管理系統(tǒng),建立了招生信息數(shù)據(jù)庫,用來存儲并處理歷年的招生數(shù)據(jù),這些處理只是簡單地對數(shù)據(jù)的歸納整理、存儲和讀取,并未進行深層的數(shù)據(jù)分析和信息提取,但是在這些數(shù)據(jù)中可能會隱含一些潛在的并且非常有價值的信息,這些信息將對今后的招生工作產(chǎn)生一定的指導(dǎo)作用,卻很少有人涉及。
二、數(shù)據(jù)挖掘技術(shù)
1.數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[1]。一般認為,廣義的數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD),是指面對海量的數(shù)據(jù),這些數(shù)據(jù)是冗余的、殘缺不齊的、有噪聲的、具有不確定性的數(shù)據(jù)集中,發(fā)現(xiàn)其中蘊含的那些是先未知的、可信賴的和有用的那些規(guī)律和知識的過程。狹義的數(shù)據(jù)挖掘僅僅是指從特定的數(shù)據(jù)集中提煉知識的過程。
2.數(shù)據(jù)挖掘應(yīng)用
數(shù)據(jù)挖掘應(yīng)用研究是指開發(fā)各種數(shù)據(jù)挖掘系統(tǒng)和工具,并在各個行業(yè)中應(yīng)用[2]。目前的典型應(yīng)用領(lǐng)域包括市場分析和預(yù)測、工業(yè)生產(chǎn)、金融、科學研究、Web數(shù)據(jù)挖掘、工程診斷等各個領(lǐng)域,如分析地殼的構(gòu)造活動、網(wǎng)頁內(nèi)容自動分類和聚類等。
數(shù)據(jù)挖掘技術(shù)的研究逐漸深入,其應(yīng)用非常廣泛,凡是有具備數(shù)據(jù)分析潛質(zhì)的數(shù)據(jù)庫都可以用相關(guān)數(shù)據(jù)挖掘工具進行有目的的數(shù)據(jù)分析。近年來,有一些高校招生開始運用數(shù)據(jù)挖掘技術(shù)分析本校的生源狀況,不斷調(diào)整本校的招生數(shù)、招生策略等,從而在現(xiàn)在的生源大戰(zhàn)中占得一席之地,但還未形成一套成熟的系統(tǒng)和方法。
三、數(shù)據(jù)挖掘技術(shù)在高校招生工作中的應(yīng)用
1.數(shù)據(jù)庫的建立
在進行數(shù)據(jù)處理之前,首先應(yīng)建立數(shù)據(jù)庫,規(guī)范標準的數(shù)據(jù)庫是數(shù)據(jù)分析處理的前提。在這里以每一位學生作為一條數(shù)據(jù),我們將歷年的招生信息作如下處理:
(1)考生ID。這是標志每位學生的關(guān)鍵字,可以直接使用學生的考生號。
(2)考生姓名。用于核對、補全考生信息。
(3)考生性別。對于某些專業(yè)或者地區(qū),性別可能會成為影響考生志愿的一個因素。
(4)考生籍貫。在這里,我們按照地理位置,以天津為中心,將天津作為A區(qū)向外輻射;北京、河北、山東、江蘇作為B區(qū);東北三省及陜西、山西、內(nèi)蒙古、河南、江蘇、安徽、湖北、上海、江西、浙江等省份作為C區(qū),其余地區(qū)為D區(qū)。
(5)錄取專業(yè)??忌浫〉膶I(yè)可能會和考生生源地及是否報到有關(guān)系;
(6)考生成績。我們以當?shù)禺斍芭蔚奶釞n線為標準,每超過10分為一檔,將考生劃分為五擋,分別是:0-10分為E檔,11-20分為D檔,21-30分為C檔,31-40分為B檔,40分以上的考生均為A檔。
(7)是否報到。0為未報到考生,1為報到考生。
2.數(shù)據(jù)的預(yù)處理
因為數(shù)據(jù)是由手工錄入的,所以有些數(shù)據(jù)可能會出現(xiàn)一些錯誤,比如說值丟失、異常、冗余等,因此我們首先要對數(shù)據(jù)進行清理工作。比如ID只能是n位數(shù)字格式的字符串,成績則限定在學校最低錄取分數(shù)線和最高分之間,并且經(jīng)過處理之后只能是字符“A”、“B”、“C”、“D”、“E”,籍貫同理,專業(yè)則對應(yīng)成學校的專業(yè)代碼,是否報道同樣以0和1作為標志。對數(shù)據(jù)進行預(yù)處理后,數(shù)據(jù)庫中的數(shù)據(jù)則變成統(tǒng)一的、精確的數(shù)據(jù),可以進行下一步分析和處理。
3.確定數(shù)據(jù)挖掘模型
我們采用貝葉斯算法進行數(shù)據(jù)挖掘處理。貝葉斯是一種分類統(tǒng)計方法,用于預(yù)測類成員關(guān)系的可能性,比如判斷某一樣本屬于某一特定類的概率,它分為樸素貝葉斯分類和貝葉斯網(wǎng)絡(luò)分類兩種[3]。目前,這種算法已經(jīng)表現(xiàn)出非常高的準確率。本文采用的是樸素貝葉斯算法。貝葉斯分類是基于貝葉斯定理進行分類的,主要判斷給出的樣本屬于某一類的概率,假設(shè)X是類標號未知的數(shù)據(jù)樣本,H為某種假定,如數(shù)據(jù)樣本X屬于一個特定的類別C。分類問題就是決定P(HIX),即在獲得數(shù)據(jù)樣本X時假設(shè)成立的概率[4]。我們用2011-2013年天津師范大學的招生數(shù)據(jù)作為訓(xùn)練集樣本進行訓(xùn)練,預(yù)測某一條件的考生錄取我校某專業(yè)報道的概率,假如預(yù)測的結(jié)果為是,說明這類條件的考生更有可能報考并進入我校就讀,反之,則說明此類考生報考我校的可能性很小,或者即使錄取報道的可能性也很小,以此指導(dǎo)我校的招生計劃編制和招生錄取工作。
4.結(jié)果分析
經(jīng)過數(shù)據(jù)的分析和處理,我們可以得出以下結(jié)論:
(1)就考生籍貫與報到率之間的關(guān)系而言,A地區(qū)的考生報到率最高,原因可能在于本地的院校對于吸收本地生源還是存在很大優(yōu)勢的,因此我們在進行計劃編制的時候應(yīng)該適當?shù)叵虮镜貎A斜,并加大在本地區(qū)的宣傳力度,包括招生宣傳和日常的學生工作及大學生實習就業(yè)等;B區(qū)次之,包括山東、河北等地區(qū)的生源,這部分地區(qū)由于距離天津近,且考生數(shù)量多而當?shù)卦盒?shù)量有限,對周邊院校具有更高的傾向性,因此我們可以對這些地區(qū)加大宣傳力度,增加計劃數(shù)量等,以保證生源的穩(wěn)定;而C類和D類地區(qū)的考生報到率就相對較低,可能的原因有距離遠,有些考生可能不愿意到距離很遠的院校就讀,一些氣候、生活習慣等原因也會成為影響這些考生報考志愿的原因之一。除此之外,地區(qū)的經(jīng)濟結(jié)構(gòu)也是影響考生志愿的一大因素,比如南方一些地區(qū)主要對于經(jīng)濟貿(mào)易類的專業(yè)更感興趣一些,而我們主要專業(yè)集中在哲學、教育學等領(lǐng)域,對這類生源的吸引力相對小一些,因此生源一直不理想,報到率相對較低。
(2)就考生性別、專業(yè)與報到率之間的關(guān)系而言,某些專業(yè)對于性別的傾向性特別高,比如說學前教育專業(yè),男生第一志愿的填報率本省就非常低,即便是被錄取了,此專業(yè)的男生報到率也非常低。因此,我們在招生志愿不滿需要進行調(diào)劑的時候,要根據(jù)這一結(jié)果制定相應(yīng)的原則進行規(guī)避,盡量不對男考生調(diào)劑此專業(yè),否則會造成指標的浪費,影響招生結(jié)果。除此之外,我們應(yīng)與相應(yīng)學院進行溝通,加強這類專業(yè)的宣傳,盡量調(diào)整此類專業(yè)的性別分配不均衡狀態(tài)。
(3)就考生成績與地區(qū)的相關(guān)性而言,B類地區(qū)的考生總體成績較高,集中在A,B檔,可能是由于這類地區(qū)計劃少,生源多,相對競爭較大,因此我們應(yīng)該適當調(diào)整政策,向這類地區(qū)傾斜。
(4)就專業(yè)與報到率而言,學校存在某些專業(yè)報到率低而另一些專業(yè)的報到率高等現(xiàn)象。因此,我們一方面應(yīng)該適當調(diào)整各專業(yè)的計劃數(shù),另一方面應(yīng)該與相關(guān)學院一起商討應(yīng)對措施,提升專業(yè)影響力。
四、結(jié)語
隨著政策的變化和信息技術(shù)的發(fā)展,招生方式日漸多元化、規(guī)范化、公平化、合理化,而招生形勢日漸嚴峻,高校該如何在這種日趨緊張的形勢下脫穎而出,爭取足量的、優(yōu)質(zhì)的生源是高校生存和發(fā)展的關(guān)鍵所在,本文以天津師范大學近三年的招生數(shù)據(jù)為基礎(chǔ),建立標準數(shù)據(jù)庫,并對數(shù)據(jù)進行分析處理,找出數(shù)據(jù)屬性之間的關(guān)系,并從中總結(jié)出相應(yīng)的隱含信息,尋找對我校興趣最高或者左右可能報考我校的考生特征及優(yōu)質(zhì)考生的興趣點所在,并以此指導(dǎo)招生工作進行招生決策和招生策略的調(diào)整,科學地、合理地、高效地開展招生宣傳、計劃編制、招生錄取和專業(yè)調(diào)劑等工作,對于高校招生工作的有效開展及保證高校辦學質(zhì)量有重要的實踐意義。
參考文獻:
[1]陳文文.數(shù)據(jù)挖掘在高校規(guī)模分析決策中的應(yīng)用研究[D].沈陽理工大學碩士論文,2011-12-01.
[2]饒瑩心.數(shù)據(jù)挖掘技術(shù)在招生決策系統(tǒng)中的應(yīng)用[D].華東理工大學碩士論文,2013-4-15.
[3]沈偉.基于數(shù)據(jù)挖掘技術(shù)的高職院校招生決策倉庫設(shè)計與實現(xiàn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2015,3.
[4]蔣瑩瑩.淺談數(shù)據(jù)挖掘技術(shù)在電大開放教育招生中的應(yīng)用[J].現(xiàn)代教育,2011,9.
本論文受2014年天津師范大學教育科學研究基金項目資助(項目號:52WT1404)
本論文受天津廣播電視大學2013年度校級課題項目資助(項目號:13XY1032)