賈妮
摘要: 針對傳統(tǒng)預測模型在高考分數(shù)線預測方面精度不高的問題,在分析出高考分數(shù)線的分布規(guī)律及主要影響因素后,運用主成分分析法對影響因素降維并歸一化數(shù)據(jù),建立高考分數(shù)線神經(jīng)網(wǎng)絡模型,并運用BP反向傳播算法進行學習,計算出最優(yōu)權值。以西安工業(yè)大學為例,用此神經(jīng)網(wǎng)絡對錄取分數(shù)線進行預測,給出預測結果的精度分析,結果表明了該分數(shù)線神經(jīng)網(wǎng)絡模型有效地提高了分數(shù)線預測精度,為高考分數(shù)線的預測以及學生志愿的填報提供了參考依據(jù)。
Abstract: In view of the low precision of college entrance examination scores prediction by traditional forecasting model, the distribution rule and the main influence factors of the college entrance examination scores are analyzed, after that the principal component analysis method is used for the dimensionality reduction of influence factors and data normalization, the college entrance examination scores neural network model is established, and the BP back propagation algorithm is learned to calculate the optimal weights. Taking the Xi'an University of Technology as an example, the neural network model is used to predict the scores and obtain the accuracy analysis of the prediction result. The results show that the neural network model can improve the prediction accuracy of the score line and provide reference for the forecast of college entrance examination scores and the intention for university.
關鍵詞: 數(shù)據(jù)挖掘;分數(shù)線預測;BP神經(jīng)網(wǎng)絡;應用
Key words: data mining;fractional line prediction;BP neural network;application
中圖分類號:TP39 文獻標識碼:A 文章編號:1006-4311(2017)34-0200-02
0 引言
預測是數(shù)據(jù)挖掘中重要的任務之一。目前大部分的預測研究集中在銷售量預測及股票預測上,一般都帶有盈利性,而針對分數(shù)線這類公益性的預測研究卻很少,預測方法也均為傳統(tǒng)的預測方法。如何采用適當?shù)哪P皖A測分數(shù)線,進而為考生填報志愿提供科學的參考依據(jù)是一個問題。傳統(tǒng)的預測模型主要有線性回歸預測模型、灰度預測模型等,然而在實際中,分數(shù)線的影響因素復雜,傳統(tǒng)的預測模型并不能較好地擬合原始數(shù)據(jù),導致預測的結果精度較低。近年來,隨著機器學習技術的不斷發(fā)展,出現(xiàn)了基于支持向量機、人工神經(jīng)網(wǎng)絡等方法的預測模型。神經(jīng)網(wǎng)絡(neural networks,NN)是由大量的、簡單的處理單元(稱為神經(jīng)元)廣泛地互相連接而形成的復雜網(wǎng)絡系統(tǒng),它反映了人腦功能的許多基本特征,是一個高度復雜的非線性動力學習系統(tǒng),能夠精確描述非線性系統(tǒng)的變化規(guī)律,成為各個領域的主要預測方法。本文將分步驟詳細介紹分數(shù)線神經(jīng)網(wǎng)絡模型的建立過程,給出預測模型的精度分析。
1 模型可行性分析
分析收集的高考分數(shù)線數(shù)據(jù),發(fā)現(xiàn)存在眾多影響分數(shù)線的因素,對收集到的因素進行降維處理。觀察數(shù)據(jù)其分布規(guī)律,發(fā)現(xiàn)該分布沒有較好的函數(shù)進行擬合,而三層神經(jīng)網(wǎng)絡能夠以任意精度逼近任何的非線性連續(xù)函數(shù),因此采用神經(jīng)網(wǎng)絡模型來進行擬合并對平均分數(shù)線進行預測是可行的。(圖1)
2 分數(shù)線神經(jīng)網(wǎng)絡建立過程
2.1 輸入輸出確定
在使用神經(jīng)網(wǎng)絡模型進行分數(shù)線預測時,將學校、招生省份作為篩選項,對輸入變量個數(shù)進行降維,確定輸入變量為年份、招生專業(yè)、招生人數(shù),將平均分做為輸出變量,對于最高分數(shù)線與最低分數(shù)線的預測與平均分數(shù)線的預測方法類似。
2.2 數(shù)據(jù)清洗及歸一化
對輸入的數(shù)據(jù)進行歸一化處理,采用線性歸一化方法處理,降低數(shù)據(jù)分布不均勻的情況,如下式:
若不采用歸一化處理,算法的收斂速度會變慢,時間較長,如圖2左所示,采取歸一化后算法的收斂時間會大大縮短,如圖2右所示。
2.3 神經(jīng)網(wǎng)絡的建立
對于分數(shù)線神經(jīng)網(wǎng)絡的建立,我們構造一個3層的前饋神經(jīng)網(wǎng)絡N來擬合該非線性數(shù)據(jù),其中輸入不作為一層,隱藏層及輸出層的總數(shù)為神經(jīng)網(wǎng)絡的層數(shù),過多的層數(shù)會影響擬合的效果,如圖3所示。
其中每層節(jié)點個數(shù)的計算公式為:
對于該原始數(shù)據(jù)分布,經(jīng)過嘗試發(fā)現(xiàn),在第一層和第二層使用雙曲正切S形激活函數(shù)或者對數(shù)S型轉(zhuǎn)移激活函數(shù),第三層使用線性函數(shù)擬合的效果最佳。
2.4 學習算法
對于該神經(jīng)網(wǎng)絡采用BP反向傳播算法計算神經(jīng)元之間的權重w的值[3],其主要步驟如下:
1)對樣本集合(x(i),y(i))進行歸一化;
2)隨即初始化權重w,并計算網(wǎng)絡的輸出h (w,b)(x);
3)構建其代價函數(shù)J(W,b;x,y);
4)利用梯度下降算法求解神經(jīng)網(wǎng)絡。
2.5 預測分數(shù)線
我們以2013年、2014年、2015年西安工業(yè)大學的數(shù)據(jù)為例,在Matlab中繪制出預測值與真實值的對比圖,如圖4所示。其中X軸為樣本序號,Y軸為分數(shù)線,綠色為訓練用的原始數(shù)據(jù),藍色為預測的數(shù)據(jù),紫色為未用作訓練的原始數(shù)據(jù),紅色為對應的預測數(shù)據(jù),即拿出數(shù)據(jù)的百分之八十用作訓練,用剩下的作為檢測數(shù)據(jù)??梢园l(fā)現(xiàn)擬合的模型和原始數(shù)據(jù)擬合效果較好。
2.6 模型檢驗
進一步分析每一次采樣的誤差分布,如圖5所示。其中X軸為樣本序號,Y為預測值與實際值差的絕對值。觀察發(fā)現(xiàn),在100個樣本中,70個樣本誤差在五分左右,對于其他偏離較遠的點是由于樣本數(shù)據(jù)量小所導致,說明該模型在一定誤差范圍內(nèi),能較為實際地預測出平均分數(shù)線。
3 結論
為了提高了當前高考分數(shù)線的預測精度,在分析當前預測方法的優(yōu)缺點基礎上,提出了一種基于BP神經(jīng)網(wǎng)絡的分數(shù)線預測模型,并用近三年的某高校數(shù)據(jù)為研究對象,對模型的性能進行驗證,結果表明,BP神經(jīng)網(wǎng)絡能夠較好地預測分數(shù)線的變化趨勢,在分數(shù)線領域預測中值得推廣。
參考文獻:
[1]羅艷輝,呂永貴,李彬.基于ARMA的混合卷煙銷售預測模型[J].計算機應用研究,2015,27(7):2664-2668.
[2]謝星峰.基于神經(jīng)網(wǎng)絡的卷煙銷售預測模型的研究及應用[D].昆明:昆明理工大學,2011.
[3]趙云豐,劉萬軍.人工神經(jīng)網(wǎng)絡在ERP系統(tǒng)中的應用[J].計算機應用,2013,25(4):748-750.
[4]謝東風,鄒平.基于CBP的卷煙銷售二重趨勢時間序列預測模型研究與應用[J].控制理論與應用,2007,24(6):1015-1020.
[5]羅艷輝,呂永貴,李彬.混合卷煙銷售預測模型[J].計算機工程與設計,2012,30(20):4744-4747.endprint