王智星+鄧艷+胡忠紅
摘要:為了減少高考填報(bào)志愿的失誤率,降低填報(bào)志愿的風(fēng)險(xiǎn),使考生充分了解自己的成績(jī)排名、學(xué)校的招生情況、填報(bào)理想高校時(shí)自身的優(yōu)勢(shì)及劣勢(shì),該文展開(kāi)了對(duì)高考志愿預(yù)測(cè)的數(shù)學(xué)模型的研究。在引言部分分析了高考考生填報(bào)志愿的現(xiàn)狀,并分別從采集數(shù)據(jù)、數(shù)學(xué)建模、模型檢驗(yàn)、不足、總結(jié)和討論這幾個(gè)方面對(duì)主題做了詳細(xì)的剖析。研究表明該數(shù)學(xué)模型的精確性較高、效果顯著,能在一定程度上給考生、家長(zhǎng)及學(xué)校帶來(lái)便利。
關(guān)鍵詞:高考志愿;預(yù)測(cè);數(shù)據(jù)建模
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2016)10-0094-02
高考是人生一個(gè)非常重要的轉(zhuǎn)折點(diǎn),說(shuō)得夸張一點(diǎn)是“一著不慎滿盤(pán)皆輸”,而這個(gè)轉(zhuǎn)折點(diǎn)的關(guān)鍵環(huán)節(jié)就是填報(bào)志愿。在這個(gè)信息化的時(shí)代,如何借助高科技手段及時(shí)準(zhǔn)確地采集高考考生志愿,如何為考生提供一種可參考的高考志愿學(xué)校及專(zhuān)業(yè)選擇指導(dǎo),都是考生、家長(zhǎng)、學(xué)校及招生管理部門(mén)都關(guān)心的問(wèn)題,也是當(dāng)前招生考試業(yè)務(wù)信息化研究的熱點(diǎn)問(wèn)題[1]。所以,我們想到建立這樣一個(gè)系統(tǒng),目的就是使考生充分了解自己的成績(jī)排名、學(xué)校的招生情況、填報(bào)理想高校時(shí)自身的優(yōu)勢(shì)及劣勢(shì),并且在一定程度上提高預(yù)測(cè)精確度,確保準(zhǔn)確的填報(bào)志愿。
1 目的背景
每年都有不少考生由于心系名牌、眼高手低;追捧熱門(mén)、盲目從眾;固執(zhí)己見(jiàn)、獨(dú)斷專(zhuān)行;亦步亦趨、墨守成規(guī);不加分析、草率行事等各種原因而沒(méi)有順利進(jìn)入理想高校。真正能正確評(píng)估衡量自我,認(rèn)真分子揣摩當(dāng)年錄取形式的少之又少[2]。而且,考生一般都是在網(wǎng)上查找資料,但是網(wǎng)上的信息雖然多但是雜亂,考生及其家長(zhǎng)很難準(zhǔn)確有效的找到所需的信息;并且網(wǎng)上的資料有很多已經(jīng)過(guò)時(shí),沒(méi)有及時(shí)更新,缺乏真實(shí)性。隨著科學(xué)技術(shù)的不斷進(jìn)步,也出現(xiàn)了一些針對(duì)高考志愿預(yù)測(cè)分析的系統(tǒng),但很多都是利用心理學(xué)、問(wèn)卷調(diào)查、計(jì)算數(shù)學(xué)分析診斷以及量表和工具等對(duì)歷史高考錄取的相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析[1]。就目前現(xiàn)有的預(yù)測(cè)模型算法中,有的基于關(guān)鍵字的Web數(shù)字信息挖掘方法,在該方法的基礎(chǔ)上利用回歸分析方法實(shí)現(xiàn)高考預(yù)測(cè),但是數(shù)據(jù)缺乏權(quán)威性和準(zhǔn)確性;有的采用神經(jīng)網(wǎng)絡(luò)和分類(lèi)中的相關(guān)算法,對(duì)普通高考的錄取數(shù)據(jù)進(jìn)行分析,但神經(jīng)網(wǎng)絡(luò)算法參數(shù)選取比較單一;有的采用決策樹(shù)和C4.5算法實(shí)現(xiàn)高考考生生源分析系統(tǒng),返回挖掘的規(guī)則集;有的運(yùn)用C4.5算法生成非平衡數(shù)據(jù)集下的二叉決策樹(shù),建立高考數(shù)據(jù)分析模型。但這些高考數(shù)據(jù)分析模型應(yīng)用于高考錄取預(yù)測(cè)中,使用數(shù)據(jù)挖掘算法時(shí)對(duì)數(shù)據(jù)集的屬性選擇和屬性值選擇不太合理,預(yù)測(cè)精度有待提高[3]。所以,我們?cè)O(shè)想了這樣一種數(shù)學(xué)模型,以一種簡(jiǎn)潔有效的方式為考生提供全省乃至全國(guó)的分?jǐn)?shù)排名情況、高校招生情況以及高校的錄取分?jǐn)?shù)線,把考生最想了解的信息以最醒目的方式展現(xiàn)出來(lái),確保每位考生及其家長(zhǎng)都能快速便捷地找到所需要的資料,使考生充分了解自己填報(bào)理想高校時(shí)自身的優(yōu)勢(shì)及劣勢(shì)。
2數(shù)據(jù)采集
高考時(shí)間是每年6月的7、8號(hào),而志愿填報(bào)則根據(jù)每個(gè)省的政策不同而時(shí)間不同,但一般都是高考后的半個(gè)月到20天左右。各省排名的五分段數(shù)據(jù)和批次線發(fā)布的時(shí)間比志愿填報(bào)的時(shí)間提前幾天,我們采用的是人工采集的方式,由于是人工采集,為避免出現(xiàn)誤差,會(huì)分批對(duì)數(shù)據(jù)進(jìn)行檢查修改,確保數(shù)據(jù)的準(zhǔn)確性。一般來(lái)說(shuō),首次采集的難度較大,要錄入往年的信息,但是以后就只要進(jìn)行數(shù)據(jù)的維護(hù)即可。我們的數(shù)據(jù)來(lái)源于中華人民共和國(guó)教育部政府門(mén)戶網(wǎng)站陽(yáng)光高考平臺(tái),信息準(zhǔn)確可靠。而每年各高校的最低錄取分?jǐn)?shù)線需要等到錄取結(jié)束后大概半個(gè)月左右才能出來(lái),那個(gè)時(shí)候再進(jìn)行數(shù)據(jù)采集,為第二年預(yù)測(cè)招生錄取做準(zhǔn)備。
3數(shù)學(xué)建模
根據(jù)中華人民共和國(guó)教育部政府門(mén)戶網(wǎng)站提供的數(shù)據(jù),下面主要以2012-2013年數(shù)據(jù)為例。根據(jù)5分段數(shù)據(jù),我們團(tuán)隊(duì)制成了分?jǐn)?shù)與人數(shù)的散點(diǎn)圖(圖3所示,x軸為分?jǐn)?shù),y軸為人數(shù)),并且我們推導(dǎo)出了趨勢(shì)圖和二項(xiàng)式數(shù)學(xué)模型。
2012理科人數(shù):
y = 5E-12x6 - 1E-08x5 + 8E-06x4 - 0.0027x3 + 0.4978x2 - 36.299x + 697.81
2012文科人數(shù):
y = 2E-12x6 - 3E-09x5 + 2E-06x4 - 0.0006x3 + 0.1622x2 - 17.859x + 535.89
2013理科人數(shù):
y = 1E-12x6 - 2E-09x5 + 7E-07x4 - 0.0002x3 + 0.0633x2 - 5.3345x + 70.191
2013文科人數(shù):
y = -2E-12x6 + 4E-09x5 - 4E-06x4 + 0.0013x3 - 0.1476x2 + 4.7074x + 1.2302
根據(jù)趨勢(shì)圖我們發(fā)現(xiàn)2012年和2013年的趨勢(shì)圖是一致的,只是圖形平移了,說(shuō)明湖南省近兩年高考的分?jǐn)?shù)分布是一致的,高考錄取與考生的分?jǐn)?shù)高低無(wú)關(guān),主要與考生考分排名有關(guān)。
因此我們根據(jù)已采集的五分段數(shù)據(jù),推導(dǎo)出了2012-2013年的考分排名趨勢(shì)圖( x軸為分?jǐn)?shù),y軸為排名):
根據(jù)湖南生考生5分段數(shù)據(jù)進(jìn)行進(jìn)一步分析,推導(dǎo)出近兩年考生分?jǐn)?shù)排名,并以此建立數(shù)學(xué)模型:
2012理排名公式:
y = -2E-11x6 + 5E-08x5 - 3E-05x4 + 0.0085x3 - 1.4088x2 + 103.48x + 170621
2012文排名公式:
y = -2E-11x6 + 3E-08x5 - 2E-05x4 + 0.0003x3 + 0.5468x2 - 56.414x + 144422
2013理排名公式:
y = -4E-11x6 + 8E-08x5 - 5E-05x4 + 0.0121x3 - 1.7503x2 + 117.42x + 178471
2013文排名公式:
y = -1E-11x6 + 1E-08x5 + 6E-06x4 - 0.0092x3 + 2.1867x2 - 153.4x + 149577
4 模型檢驗(yàn)
眾所周知,高校錄取分?jǐn)?shù)受多種社會(huì)因素的影響。高校的綜合實(shí)力是影響高校錄取分
數(shù)線的根本因素。并且,根據(jù)每年招生就業(yè)的形式不同,各個(gè)高校的專(zhuān)業(yè)錄取線會(huì)有所不同,熱門(mén)專(zhuān)業(yè)的分?jǐn)?shù)就會(huì)比往常高一些,而有了熱門(mén)專(zhuān)業(yè),肯定就有冷門(mén)專(zhuān)業(yè),這些專(zhuān)業(yè)的錄取線就會(huì)相應(yīng)的有所起伏。但也不是絕對(duì)的,只是這些因素不可避免,當(dāng)然模型檢驗(yàn)的結(jié)果也會(huì)有一些誤差,但誤差也是維持在一定的范圍,這個(gè)范圍內(nèi)預(yù)測(cè)的錄取線還是有效的。
本預(yù)測(cè)系統(tǒng)中存放了近幾年全國(guó)高校的錄取信息,在這里僅選取2012-2013年部分院校在湖南的招生情況,來(lái)預(yù)測(cè)2014年全國(guó)部分高校的錄取線。任意選取十所高校的實(shí)際錄取線,根據(jù)模型得出了預(yù)測(cè)錄取線和誤差,下面兩個(gè)圖分別是這十所高校2014年文科模型驗(yàn)證表和2014年理科模型驗(yàn)證表:
在這里需要衡量抽樣誤差,判斷抽樣樣本統(tǒng)計(jì)量是否對(duì)總體參數(shù)具有代表性及數(shù)學(xué)模型預(yù)測(cè)錄取線的可靠度。因此,根據(jù)對(duì)這十所高校實(shí)際錄取線和數(shù)學(xué)模型預(yù)測(cè)出的錄取線的分析,計(jì)算了標(biāo)準(zhǔn)誤。標(biāo)準(zhǔn)誤的計(jì)算公式是:1)求得預(yù)測(cè)值的平均值;2)計(jì)算預(yù)測(cè)值與平均值之間差的平方和;3)求出第二步得出的結(jié)果與樣本數(shù)減一的商并開(kāi)平方;4)拿第三步求出的值除以樣本數(shù)開(kāi)平方的值,所得的值就是標(biāo)準(zhǔn)誤。2014年文科錄取線預(yù)測(cè)的標(biāo)準(zhǔn)誤為21.9486522,2014年理科錄取線預(yù)測(cè)的標(biāo)準(zhǔn)誤為29.74080624。雖然表面看來(lái)標(biāo)準(zhǔn)誤的值偏大,但對(duì)于選取樣本數(shù)較小時(shí),該標(biāo)準(zhǔn)差的值表示誤差還是在有效范圍內(nèi)的。當(dāng)樣本統(tǒng)計(jì)量越大時(shí),標(biāo)準(zhǔn)誤越小,表明樣本統(tǒng)計(jì)量與總體參數(shù)的值越接近,樣本對(duì)總體越有代表性,用樣本統(tǒng)計(jì)量腿短總體參數(shù)的可靠度越大。
該模型雖然能在一定程度上保證預(yù)測(cè)結(jié)果的準(zhǔn)確性,但是很顯然它也有不足的地方。高考志愿填報(bào)本身就存在多方面不確定的因素,我們只能根據(jù)近幾年錄入的數(shù)據(jù)進(jìn)行分析,不能避免一些不確定因素造成的志愿預(yù)測(cè)誤差,因此會(huì)存在個(gè)別高校錄取線預(yù)測(cè)結(jié)果誤差較大的情況;目前僅僅只采集了兩年的高考數(shù)據(jù),該數(shù)學(xué)模型還不是特別穩(wěn)定。
針對(duì)研究的不足之處,后續(xù)會(huì)對(duì)模型做進(jìn)一步的改善:多采集幾年的數(shù)據(jù),使分析得出的數(shù)學(xué)模型更加精確,誤差更??;采取數(shù)據(jù)挖掘技術(shù)對(duì)采集到的數(shù)據(jù)進(jìn)行分類(lèi),提煉處理,優(yōu)化數(shù)學(xué)模型;對(duì)高考志愿填報(bào)的現(xiàn)狀和未來(lái)可能出現(xiàn)的問(wèn)題進(jìn)行更深入的研究,盡量避免不確定因素對(duì)志愿填報(bào)帶來(lái)的誤差和影響。
5 結(jié)束語(yǔ)
綜上所述,該模型算法的效果顯著,能給考生及其家長(zhǎng)還有學(xué)校帶來(lái)便利,也能減少在高考志愿填報(bào)上的失誤,降低風(fēng)險(xiǎn),因此該預(yù)測(cè)數(shù)學(xué)模型是可行的。但是考生填報(bào)志愿也不能只依靠預(yù)測(cè)錄取線,還是應(yīng)該綜合考慮多個(gè)方面的因素,比如興趣愛(ài)好、未來(lái)的職業(yè)發(fā)展、是否服從專(zhuān)業(yè)調(diào)劑以及個(gè)人的身體條件是否符合高?;?qū)I(yè)的要求等,并且要多注意志愿填報(bào)的時(shí)間、提前批和自主招生等信息,才能更準(zhǔn)確的填報(bào)志愿,進(jìn)入理想高校深造。
參考文獻(xiàn):
[1] 王亞盛. 高考志愿網(wǎng)報(bào)系統(tǒng)性能優(yōu)化與志愿預(yù)測(cè)分析[D]. 昆明: 昆明理工大學(xué), 2011.
[2] 余揚(yáng), 吳先進(jìn). 走出填報(bào)志愿的誤區(qū)[J]. 高校招生,2002(3).
[3] 劉金鵬. 數(shù)據(jù)挖掘技術(shù)在考生志愿分析中的應(yīng)用研究[D].鄭州:河南大學(xué),2009.