李 斌, 王衛(wèi)星, 胡屹峰, 王 萍
(河南科技大學(xué) 應(yīng)用工程學(xué)院 現(xiàn)代教育技術(shù)中心, 三門峽 472000)
國家已經(jīng)建立起一套以獎學(xué)金、助學(xué)貸款、貧困生資助、勤工儉學(xué)以及減免學(xué)費(fèi)等方式對高校貧困學(xué)生給予資助的多元化助學(xué)政策體系. 如何利用高校各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)去判定高校學(xué)生的貧困程度以對助學(xué)體系提供數(shù)據(jù)佐證, 即通過數(shù)據(jù)去預(yù)測符合某些外在特征的學(xué)生屬于何種程度的貧困, 是現(xiàn)階段數(shù)據(jù)挖掘分析需要解決的問題.
國外的很多國家因?yàn)樯鐣w系相對完善, 國家的稅收制度能夠很好地體現(xiàn)出每個人或家庭的整體收入狀況, 可以很容易地從收入查證和個稅征收中進(jìn)行有效地考察, 進(jìn)而得出學(xué)生家庭的整體經(jīng)濟(jì)狀況指標(biāo)并得以對貧困生進(jìn)行認(rèn)證. 在國內(nèi), 一些專家借鑒國外的一些現(xiàn)有的制度方法, 結(jié)合國內(nèi)現(xiàn)狀來完善認(rèn)定體系:羅麗琳[1]從框架設(shè)計、制度保障、技術(shù)路徑和聯(lián)動機(jī)制等四個方面對高校精準(zhǔn)資助模式進(jìn)行理論模型的構(gòu)建與制度的創(chuàng)新; 穆?lián)P等[2]提出利用先進(jìn)的網(wǎng)絡(luò)技術(shù)和成熟的地理信息系統(tǒng)技術(shù), 建立高校貧困生認(rèn)定新體系; 宋德昌[3]以加權(quán)算法計算三種消費(fèi)指數(shù), 得出學(xué)生經(jīng)濟(jì)狀況綜合評判結(jié)果; 段旭梅等[4]構(gòu)建包括3個一級、9個二級和19個三級評價指標(biāo)的層次性貧困生認(rèn)定指標(biāo)體系.
在數(shù)學(xué)統(tǒng)計和數(shù)據(jù)挖掘等手段的評定鑒別機(jī)制方面: 樊搏等人[5]使用K-MEANS算法設(shè)定閾值, 將學(xué)生分成5個級別, 判斷是否屬于貧困生; 張林[6]將整合處理后的學(xué)生校園卡日常消費(fèi)數(shù)據(jù)作為高校家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定工作的參考依據(jù); 史甜[7]基于Apriori算法進(jìn)行一種能夠面向多值屬性的關(guān)聯(lián)規(guī)則改進(jìn), 提高了數(shù)據(jù)挖掘效率; 王平等[8]提出了基于SOA的高校貧困生認(rèn)定體系的方法; 龍釗等[9]構(gòu)建了基于灰色BP神經(jīng)網(wǎng)絡(luò)的高校貧困生認(rèn)定模型; 張建明[10]對數(shù)據(jù)預(yù)處理并使用C4.5算法、預(yù)剪枝、后剪枝, 分別歸納出決策樹對結(jié)果進(jìn)行分析選出其中較優(yōu)的結(jié)果.
以上高校貧困生評價當(dāng)中所運(yùn)用的評價方式通常是定量、定性或者是定量與定性相結(jié)合的方式, 但定性環(huán)節(jié)的民主評議具有較多不確定性, 同時定量標(biāo)準(zhǔn)也缺乏客觀依據(jù). 貝葉斯網(wǎng)絡(luò)因其具有多源信息綜合表達(dá)、節(jié)點(diǎn)全部可見、雙向推理、可處理不完整數(shù)據(jù)、有效表達(dá)變量間的非線性關(guān)系等優(yōu)點(diǎn), 已成為處理不確定性問題的重要工具, 廣泛應(yīng)用于智能推理、診斷、決策、預(yù)測、風(fēng)險分析等方面[11,12]. 因此, 本文引入一種概率性的測度方法來解決貧困生認(rèn)定中的不確定性問題, 將貝葉斯網(wǎng)絡(luò)方法間接地通過主體的外在表現(xiàn)來對高校貧困生的內(nèi)在不確定性進(jìn)行精準(zhǔn)測度,為高校貧困生認(rèn)定工作提供有力的支撐.
隨著新時代移動互聯(lián)、云計算、人工智能、物聯(lián)網(wǎng)等高新信息技術(shù)的發(fā)展, 借助于統(tǒng)一身份認(rèn)證、統(tǒng)一門戶、統(tǒng)一基礎(chǔ)技術(shù)平臺、統(tǒng)一公共數(shù)據(jù)標(biāo)準(zhǔn)的大數(shù)據(jù)共建共享機(jī)制, 利用上層各種應(yīng)用系統(tǒng)如教務(wù)教學(xué)數(shù)據(jù)、圖書借閱數(shù)據(jù)、生活消費(fèi)一卡通數(shù)據(jù)等校園信息化環(huán)境中積累的數(shù)據(jù), 對學(xué)生的個人信息、學(xué)業(yè)水平、消費(fèi)習(xí)慣愛好、表現(xiàn)結(jié)果等分析挖掘, 得到貧困學(xué)生行為的基本行為特征, 可以為智慧校園下高校貧困省認(rèn)定工作提供有力支撐.
通過對高校學(xué)生資助政策和校園大數(shù)據(jù)的分析,探索應(yīng)用大數(shù)據(jù)方法判斷貧困生等級. 首先將學(xué)生分為四個等級: 特困生、貧困生和非貧困生, 其次根據(jù)往年認(rèn)定的貧困生歷史數(shù)據(jù), 取三分之一作為訓(xùn)練樣本,采集教務(wù)系統(tǒng)中的學(xué)生學(xué)業(yè)水平數(shù)據(jù)、參考圖書管理系統(tǒng)中的借閱數(shù)據(jù)、分析一卡通系統(tǒng)中學(xué)生的生活消費(fèi)數(shù)據(jù), 重點(diǎn)挖掘?qū)W生在食堂的飲食記錄數(shù)據(jù), 如吃飯次數(shù)、平均消費(fèi)金額、節(jié)假日或非飲食高峰期消費(fèi)情況等, 然后按照側(cè)重消費(fèi)能力的同時借鑒學(xué)習(xí)上進(jìn)程度并來對學(xué)生的貧困等級進(jìn)行預(yù)測, 將預(yù)測結(jié)果與貧困生資助系統(tǒng)中的數(shù)據(jù)進(jìn)行匹配, 最后利用貝葉斯網(wǎng)絡(luò)技術(shù)構(gòu)建反映各種數(shù)據(jù)因素與貧困生等級之間因果關(guān)系及其相互影響的貝葉斯網(wǎng)絡(luò)模型, 進(jìn)一步對高校貧困生的界定進(jìn)行預(yù)測評價, 以期提供更加準(zhǔn)確、客觀的貧困生信息判定理論依據(jù).
在現(xiàn)實(shí)生活中, 由于存在多種不確定性因素, 如根據(jù)先驗(yàn)知識構(gòu)造貝葉斯網(wǎng)絡(luò)的主觀性、訓(xùn)練樣本集的局限性(如樣本的容量、樣本數(shù)據(jù)的缺失情況)等, 使得認(rèn)知模型的構(gòu)建、推理、結(jié)果的反饋、模型的再學(xué)習(xí)將是一個不斷循環(huán)和完善的進(jìn)化過程, 這樣才能最終使得認(rèn)知模型能夠盡可能準(zhǔn)確地反映客觀現(xiàn)實(shí)[13,14].本文利用此思想, 提出了一種基于貝葉斯網(wǎng)絡(luò)的高校貧困生等級預(yù)測模型的構(gòu)建方法, 如圖1所示.
貝葉斯網(wǎng)絡(luò)模型的過程為: 首先通過給定的樣本數(shù)據(jù), 建立貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和結(jié)點(diǎn)的條件概率分布參數(shù), 這往往需要借助先驗(yàn)知識和極大似然估計來完成. 然后在貝葉斯網(wǎng)絡(luò)確定的結(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)和條件概率分布的前提下, 使用該網(wǎng)絡(luò)對未知數(shù)據(jù)計算條件概率或后驗(yàn)概率, 從而達(dá)到診斷、預(yù)測或者分類的目的[15,16].
為了要建立一個好的拓?fù)浣Y(jié)構(gòu), 通常需要不斷迭代和改進(jìn)才可以, 步驟如下:
圖1 高校貧困生判定模型的構(gòu)建方法
3) 貝葉斯網(wǎng)絡(luò)蘊(yùn)涵了條件獨(dú)立性假設(shè), 即給定一個節(jié)點(diǎn)的父節(jié)點(diǎn)集, 該節(jié)點(diǎn)獨(dú)立于它的所有非后代節(jié)點(diǎn). 因此分析每個網(wǎng)絡(luò)參數(shù)的之間及其與Xi之間的因果依賴關(guān)系繼而進(jìn)行條件獨(dú)立性分析.
4) 完成貝葉斯網(wǎng)絡(luò)的DAG(有向無環(huán)圖)結(jié)構(gòu), 也就是高校貧困生預(yù)測模型的貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu), 如圖 2 所示[17,18].
圖2 貧困生判定的貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
構(gòu)建完成貧困生預(yù)測的貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)后,將從各種應(yīng)用系統(tǒng)獲得到的跟貧困生相關(guān)的信息數(shù)據(jù)組成訓(xùn)練樣本數(shù)據(jù)集, 根據(jù)這些訓(xùn)練樣本去進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)的概率分布學(xué)習(xí).
貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)是在給定貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的情況下, 通過訓(xùn)練樣本數(shù)據(jù)確定相關(guān)變量間的條件概率分布. 參數(shù)學(xué)習(xí)可以通過專家先驗(yàn)知識來為網(wǎng)絡(luò)節(jié)點(diǎn)分配賦值[19], 形成初始的概率分布. 針對樣本數(shù)據(jù)完整或數(shù)據(jù)不完整情況下分析貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)方法.
在訓(xùn)練樣本數(shù)據(jù)完整的情況下, 采用最大似然估計(MLE)方法來學(xué)習(xí)貝葉斯網(wǎng)絡(luò)參數(shù). 在高校貧困生預(yù)測貝葉斯模型中, 假設(shè)各樣本滿足統(tǒng)計學(xué)中的獨(dú)立同分布假設(shè), 數(shù)據(jù) K 由樣本 (K1,K2,…,Km) 組成,P(X)表示所有節(jié)點(diǎn)變量的聯(lián)合概率密度, 已知完整的訓(xùn)練樣本集K, 參數(shù)向量θ的似然函數(shù)為:
在訓(xùn)練樣本不完整的情況下, 假設(shè)樣本數(shù)據(jù)是隨機(jī)缺失的, 即一個變量值的缺失與它的實(shí)際取值無關(guān),在貧困生預(yù)測貝葉斯模型中, 運(yùn)用期望最大化(EM)算法. 假設(shè) K=(K1,K2,…,Km)是樣本數(shù)據(jù), 對其中任一樣本Kl, 設(shè)Xl是Kl中所有缺失變量的集合. 設(shè)θt是關(guān)于參數(shù)θ的當(dāng)前估計, Kt是基于θt將K修補(bǔ)后得到的碎全完整數(shù)據(jù), 定義θ的基于Kt的對數(shù)似然函數(shù)為:
貝葉斯網(wǎng)絡(luò)推理是利用貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)及其參數(shù)在給定樣本證據(jù)后計算某些網(wǎng)絡(luò)結(jié)點(diǎn)取值的概率過程. 本文鑒于網(wǎng)絡(luò)結(jié)構(gòu)中變量基本可以觀察到且取值完整, 選用MAP(最大后驗(yàn)算法)[21]計算變量的邊緣概率及后驗(yàn)概率, 最大后驗(yàn)算法與最大似然估計相比最明顯的區(qū)別就是考慮了先驗(yàn)概率影響因素[22].
假設(shè)高校學(xué)生主體外在表現(xiàn)組成的信息集合為I(I1, I2,…,IM), 貧困生的確定信息集合為H(H1, H2,…,HN), 通過貝葉斯網(wǎng)絡(luò)模型的概率推理就是計算P(Hi|I),確定出概率值最大的某種信息類別Hi作為第一次推理結(jié)果, 在此基礎(chǔ)上將其作為第二次推理結(jié)果, 以此類推獲取貧困生概率值. 該概率值標(biāo)明貧困生可以得到精準(zhǔn)判斷的可能性, 在此可以根據(jù)定額指標(biāo)設(shè)置合理的閾值?, 若, 則說明該學(xué)生有超出閾值?的大概率P(Hi)值得以精準(zhǔn)判定.
高校貧困生預(yù)測模型能否達(dá)到一定的精確度以滿足學(xué)生助學(xué)部門的實(shí)際要求, 還需對此模型進(jìn)行準(zhǔn)確型和有效性比對. 具體方法是將訓(xùn)練樣本數(shù)據(jù)根據(jù)貝葉斯網(wǎng)絡(luò)模型得出的訓(xùn)練結(jié)果與部分實(shí)際值進(jìn)行比對,若比對效果符合要求, 則本模型的構(gòu)建和預(yù)測完成; 反之, 則通過調(diào)整貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)或增加訓(xùn)練樣本集的樣本容量、重新選取各級指標(biāo)等方法進(jìn)行該模型的重新構(gòu)建和推理學(xué)習(xí).
本文通過某高校2016-2017年度各種應(yīng)用系統(tǒng)如教務(wù)教學(xué)數(shù)據(jù)、圖書借閱數(shù)據(jù)、生活消費(fèi)一卡通數(shù)據(jù)、學(xué)生家庭基本情況數(shù)據(jù)等智慧校園信息化環(huán)境中積累的數(shù)據(jù), 選取預(yù)測因子, 利用貝葉斯網(wǎng)絡(luò)技術(shù)構(gòu)建反映各預(yù)測因子與貧困生確定指標(biāo)及其相互影響的貝葉斯網(wǎng)絡(luò)模型, 對某高校的貧困生精準(zhǔn)判定進(jìn)行預(yù)測和評價.
高校貧困學(xué)生的成因情況復(fù)雜, 但基本因素多集中在家庭經(jīng)濟(jì)情況、生源經(jīng)濟(jì)水平、家庭勞動力狀況等, 在學(xué)校導(dǎo)致學(xué)生的外在表現(xiàn)主要在消費(fèi)能力水平、消費(fèi)習(xí)慣、學(xué)業(yè)水平、學(xué)習(xí)主動力等方面[23], 參考文獻(xiàn)[10-12]中的貧困生體系指標(biāo)因素模型, 依據(jù)德爾菲專家知識方法, 選取具有典型特征的學(xué)生餐飲消費(fèi)次數(shù)、餐飲消費(fèi)平均額度、餐飲消費(fèi)標(biāo)準(zhǔn)偏差、學(xué)生家庭勞動力數(shù)量、生源地經(jīng)濟(jì)水平、家庭重慢病人口數(shù)目、學(xué)生學(xué)業(yè)水平程度、學(xué)生圖書借還數(shù)等影響因子對學(xué)生貧困程度進(jìn)行判定預(yù)測.
某高校在校生數(shù)量超過萬人, 從各種應(yīng)用平臺中抽取的數(shù)據(jù)特別是一卡通的餐飲數(shù)據(jù)相當(dāng)龐大, 比如僅僅一個月的學(xué)生一卡通餐飲SQL數(shù)據(jù)記錄總數(shù)就超百萬條, 囊括餐廳、冷飲、超市、浴池甚至社區(qū)醫(yī)院等所以消費(fèi)場所. 龐大的數(shù)據(jù)量必須進(jìn)行清洗整形,首先利用SPSS大數(shù)據(jù)統(tǒng)計軟件進(jìn)行數(shù)據(jù)個案及變量合并, 然后依據(jù)學(xué)生學(xué)號進(jìn)行分類匯總消費(fèi)次數(shù)、每次平均消費(fèi)額和消費(fèi)標(biāo)準(zhǔn)偏差等因子, 結(jié)合EXCEL軟件的VLOOKUP、SUMIF、COUNTIF等函數(shù)將學(xué)生家庭勞動力數(shù)量、生源地經(jīng)濟(jì)水平、家庭重慢病人口數(shù)目、學(xué)生學(xué)業(yè)水平程度、學(xué)生圖書借還數(shù)等其他因子數(shù)據(jù)統(tǒng)一同步建表, 清理無效噪聲記錄數(shù)據(jù)后得到完整的樣本數(shù)據(jù)共10 115組. 這些組樣本數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)兩部分, 其中訓(xùn)練數(shù)據(jù)用于構(gòu)建貝葉斯網(wǎng)絡(luò)模型及推理學(xué)習(xí), 驗(yàn)證數(shù)據(jù)用于模型實(shí)證及預(yù)測分析.
貝葉斯網(wǎng)絡(luò)方法需要處理樣本數(shù)據(jù)的離散屬性,結(jié)合前文文獻(xiàn)中的預(yù)測因子, 確定貧困生認(rèn)定體系和各因子離散化后的標(biāo)準(zhǔn)屬性值如表1所示. 其中將各因子屬性值分為四個區(qū)間等級, 表中的助學(xué)補(bǔ)助金額指數(shù)四個區(qū)間分別對應(yīng)高校學(xué)生貧困程度為特困、貧困、一般和非貧困.
表1 高校貧困生預(yù)測因子標(biāo)準(zhǔn)屬性離散值表
貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn)的概率參數(shù)學(xué)習(xí)訓(xùn)練也就是要求輸入貧困程度不同的學(xué)生樣本數(shù)據(jù)來對參數(shù)進(jìn)行訓(xùn)練,樣本容量的數(shù)量決定著參數(shù)訓(xùn)練取值的真實(shí)情況擬合度. 在前述數(shù)據(jù)清洗后得到的樣本數(shù)據(jù)基礎(chǔ)上, 將其中8106組數(shù)據(jù)從EXCEL中導(dǎo)入MATLAB軟件平臺,在MATLAB軟件中按照表1屬性區(qū)間值仿真出樣本值的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)后, 結(jié)合微軟貝葉斯網(wǎng)絡(luò)工具箱繪出網(wǎng)絡(luò)結(jié)構(gòu)并進(jìn)行推理, 分別計算各因子指標(biāo)的概率, 各節(jié)點(diǎn)概率參數(shù)值如圖3所示.
圖3 貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)概率參數(shù)
由圖3貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中有向邊的指向關(guān)系可以看出, 預(yù)測因子間存在著因果影響關(guān)系, 消費(fèi)次數(shù)、消費(fèi)平均額度和消費(fèi)標(biāo)準(zhǔn)偏差影響著消費(fèi)水平Consump_cost, 加權(quán)平均成績和圖書借還次數(shù)影響著學(xué)業(yè)水平Results, 家庭勞動力數(shù)量、生源地人均GDP和家庭病困人口數(shù)影響經(jīng)濟(jì)水平Economy, 消費(fèi)水平Consump_cost、學(xué)業(yè)水平Results、經(jīng)濟(jì)水平Economy綜合影響決定著學(xué)生的貧困程度Poverty. 鑒于網(wǎng)絡(luò)結(jié)構(gòu)中變量基本可以觀察到且取值完整, 選用MAP(最大后驗(yàn)算法)進(jìn)行貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí), 計算變量的邊緣概率及后驗(yàn)概率.
高校貧困生判定模型的重點(diǎn)是判別哪些樣本數(shù)據(jù)更符合補(bǔ)助標(biāo)準(zhǔn), 至于補(bǔ)助等級之間的差別可以通過專家知識法比如通過學(xué)生民主推舉等方式來確定, 因此主要是選取未參與訓(xùn)練的1915組數(shù)據(jù)中的不同助學(xué)補(bǔ)助標(biāo)準(zhǔn)數(shù)據(jù)來驗(yàn)證模型的有效符合度, 從中隨機(jī)選取25個特困生樣本數(shù)據(jù)和25個非貧困生樣本數(shù)據(jù),利用模型推理這50個樣本數(shù)據(jù)的概率分布, 求得樣本的貧困程度水平值并排序, 最后對比排序結(jié)果來分析模型的有效符合度. 測試樣本的概率計算結(jié)果如表2所示.
表2 測試樣本集的擬合概率結(jié)果
該概率值結(jié)果標(biāo)明貧困生可以得到精準(zhǔn)判斷的可能性, 在此根據(jù)定額指標(biāo)設(shè)置合理的閾值?=0.65, 也就是說若P(Hi)≥0.65, 則說明該學(xué)生有超出閾值?的大概率P(Hi)值得以精準(zhǔn)判定其為貧困生. 根據(jù)這個閾值標(biāo)準(zhǔn), 可以統(tǒng)計出本次測試正確率為86%. 閾值需根據(jù)實(shí)際要求和實(shí)際情況來確定, 因?yàn)闇y試正確率隨著閾值標(biāo)準(zhǔn)而變化.
增加樣本數(shù)據(jù)數(shù)量至300組, 將通過貝葉斯網(wǎng)絡(luò)模型推理出的數(shù)據(jù)結(jié)果與實(shí)際補(bǔ)助情況的數(shù)據(jù)在SPSS中進(jìn)行獨(dú)立樣本T檢驗(yàn)[24], 對預(yù)測值和實(shí)際值進(jìn)行對比驗(yàn)證結(jié)果如圖4, 可以看出這300組數(shù)據(jù)的預(yù)測值和實(shí)際值的P值, 也就是圖中的Sig值為0.339大于 0.05, 說明兩組方差齊性, Sig(雙側(cè))值為 0.207, 說明數(shù)據(jù)之間平均值沒有顯著差異, 亦表明本文的基于貝葉斯網(wǎng)絡(luò)模型對高校貧困生的判定具有較高的預(yù)測精度.
將學(xué)校的標(biāo)準(zhǔn)與學(xué)生的戶籍信息進(jìn)行二者的相互結(jié)合后, 進(jìn)而由地方民政部門出具相關(guān)的貧困證明材料, 然后把所獲取的信息綜合到一起來對學(xué)生進(jìn)行貧困度的認(rèn)定與評價.
機(jī)器學(xué)習(xí)雖然有著在訓(xùn)練數(shù)據(jù)所需要的時間較長、對所獲取知識的理解上不夠智能的不足之處[25].但是機(jī)器學(xué)習(xí)不強(qiáng)調(diào)模型的結(jié)構(gòu), 只需根據(jù)輸入的數(shù)據(jù)特征就可檢驗(yàn)預(yù)測的精確度[26]. 貝葉斯網(wǎng)絡(luò)概率推理旨在充分挖掘模型潛在因素, 實(shí)現(xiàn)正確預(yù)測[27]. 本論文以高校貧困生的各種外在表現(xiàn)數(shù)據(jù), 特別是清洗過的日常消費(fèi)數(shù)據(jù)為依據(jù), 構(gòu)建貝葉斯網(wǎng)絡(luò)模型, 通過網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)推理確定模型結(jié)構(gòu)個結(jié)點(diǎn)的概率參數(shù),在此基礎(chǔ)上將測試樣本與訓(xùn)練樣本進(jìn)行擬合度對比,從而得出貝葉斯網(wǎng)絡(luò)推測模型. 從測試結(jié)果看, 證明了基于貝葉斯網(wǎng)絡(luò)的高校貧困生測試模型對高校貧困生的量化定性具有一定的可行性.
圖4 SPSS對300組數(shù)據(jù)的獨(dú)立樣本T檢驗(yàn)結(jié)果
貝葉斯網(wǎng)絡(luò)構(gòu)建高校貧困生判定模型還應(yīng)有其他需要考慮之處: 一是樣本數(shù)據(jù)的完整型需進(jìn)一步完善,比如隨著掃碼支付的普及, 這部分消費(fèi)數(shù)據(jù)沒有與高校的一卡通數(shù)據(jù)進(jìn)行完整合并; 二是部分?jǐn)?shù)據(jù)有進(jìn)一步細(xì)化的必要, 如學(xué)生三餐的不同消費(fèi)水平對貧困程度的判定有著一定影響; 三是可以用BP神經(jīng)網(wǎng)絡(luò)模型與貝葉斯網(wǎng)絡(luò)模型進(jìn)行預(yù)測精度深入對比等等, 這需要在模型后續(xù)細(xì)化中逐步解決.