張嘉 王嬌 王志星
摘要:貧困大學(xué)生作為一個特殊群體在高校大學(xué)生中占有較高比例,國家對于高校資助工作的開展一直高度重視。如何精準識別大學(xué)生的貧困程度并為其提供資助是眾多高校一直著力解決的長期性問題。該研究提出了一種基于概率軟邏輯推理模型來預(yù)測大學(xué)生貧困等級的方法,該方法通過軟約束構(gòu)建規(guī)則和邏輯謂詞方式將人為可理解的貧困生判別標(biāo)準和常識引入概率軟邏輯推理模型進行推理預(yù)測。在高校學(xué)生真實數(shù)據(jù)上的大量實驗表明,該方法的識別正確率可達到90%以上。此外,與支持向量機、邏輯回歸、決策樹等機器學(xué)習(xí)算法相比,該方法具有更高的推理識別精度,因此,對于大學(xué)生的貧困程度識別該方法具有巨大的潛力。
關(guān)鍵詞:概率軟邏輯;貧困生識別;推理;預(yù)測;精準資助
中圖分類號:TP181? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)07-0001-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
2013年11月3日,習(xí)近平總書記首次提出“精準扶貧”理念[1],為從根本上解決貧困學(xué)生問題,國家、社會和各學(xué)校積極探索并建立了全面且完善的貧困學(xué)生資助體系。2022年,全國累計資助大學(xué)生4588.24萬人,資助金額達1675.59億元。高校精準資助模式是精準扶貧理念的具體實踐[2],精準資助非常重要,但目前在國內(nèi)高校內(nèi),貧困生認定和識別依然是勞動密集型且耗時的工作,當(dāng)前國內(nèi)各高校原則上每學(xué)年開展一次家庭經(jīng)濟困難學(xué)生認定工作,認定程序主要包括公布政策、學(xué)生個人申請、輔導(dǎo)員及學(xué)院學(xué)校評審、結(jié)果公示等步驟。然而,在實踐中還有很多因素可能影響識別結(jié)果,例如:
1) 在申請環(huán)節(jié),申請者為了隱藏個人敏感信息或者為了獲得更大額度的資助金額,可能填寫虛假家庭和個人狀況;
2) 在評議環(huán)節(jié),評審者(同學(xué)或老師)可能會受到主觀因素的影響;
3) 同一高校,不同學(xué)院在實施過程中的執(zhí)行標(biāo)準可能因為各種因素而出現(xiàn)差別。
如何將新技術(shù)思維科學(xué)地運用到高校貧困生資助中,不僅需要我們轉(zhuǎn)變資助思維,更需要利用先進技術(shù)對傳統(tǒng)方法進行改進和創(chuàng)新。近年來,數(shù)據(jù)的可用性大幅提高,研究人員開始利用大數(shù)據(jù)和機器學(xué)習(xí)技術(shù)來識別學(xué)生貧困水平,它們已經(jīng)成為預(yù)測貧困水平最流行的技術(shù)之一。其中,支持向量機[3]、邏輯回歸[4]、決策樹[5]、貝葉斯網(wǎng)絡(luò)[6]、KNN[7]等機器學(xué)習(xí)算法都被證明在貧困生識別領(lǐng)域擁有較好效果,但是相比概率軟邏輯推理模型(PSL,Probabilistic soft logic) [8],它們在預(yù)測過程中面向人類的可理解性上還稍顯不足[9]。
1 概率軟邏輯理論基礎(chǔ)
概率軟邏輯(PSL)是一種概率編程模型,它能夠有效地對結(jié)構(gòu)化數(shù)據(jù)進行推理。PSL模型是通過一組加權(quán)的一階邏輯規(guī)則進行定義,這些邏輯規(guī)則的輸入原子和推理結(jié)果可以被定義或解釋為[0,1]之間的連續(xù)軟真值,而不是僅僅使用布爾值0或1來代表概率。加權(quán)邏輯規(guī)則通常采用以下形式:
[w: P1(A,B) ∧ P2(B,C) >> P2(A,C)] (1)
其中w是規(guī)則的權(quán)重(也可解釋為對應(yīng)規(guī)則的重要性),P1(A,B)∧P2(B,C)部分被稱為規(guī)則體,右邊的P2(A,C)被稱為規(guī)則頭,P1、P2被稱為謂詞,A、B、C是隨機變量,謂詞一般用于定義隨機變量之間的關(guān)系,每個謂詞的計算值都可被表示為[0, 1]區(qū)間內(nèi)的連續(xù)隨機變量。例如,若有規(guī)則Friend(A,B)∧know (A,C)>>know(B,C),其中Friend(A,B)表示A和B是朋友,know(A,C)表示A認識C,經(jīng)過PSL在這條規(guī)則上推理后得出的know(B,C)的值即是B認識C的概率。每條規(guī)則表示了特殊類型馬爾可夫隨機場(PSL模型內(nèi)稱為鉸鏈損失馬爾可夫隨機場 ,簡稱HL-MRF)中的一個函數(shù)集合[8]。HL-MRF的概率密度由式(2) 給出:
[PY|X=1Z(Y)exp-i=1mwi?i(Y, X))] (2)
[ZY=Yexp-i=1mwi?i(Y, X))] (3)
其中,[?i=max0,?iY,Xdi;di∈{1, 2}], [?i] 是規(guī)則對應(yīng)的鉸鏈損失勢函數(shù),X和Y在[0, 1]范圍內(nèi),m是勢函數(shù)的數(shù)量,?i是線性函數(shù),[di]規(guī)定了規(guī)則不被滿足時的鉸鏈損失方式,它使得我們可以靈活地在線性和平方鉸鏈損失之間進行選擇,在大部分情況,平方鉸鏈損失被證明表現(xiàn)出更好的效果,[wi]是與規(guī)則相關(guān)的權(quán)重[8]。推理計算可以由式(4) 表示:
[Y*=argminYi=1mwifi(Y, X))=argminYLmap(w,Y, X)]? (4)
上述表達式是使用交替方向乘子法(ADMM)[10]求解的。
2 模型構(gòu)建
2.1 模型結(jié)構(gòu)
基于概率軟邏輯推理模型來預(yù)測大學(xué)生貧困等級的方法整體實現(xiàn)流程如圖 1所示,包括數(shù)據(jù)輸入、編碼、規(guī)則定義、推理和結(jié)果評估等多個過程。
各模塊具體解釋如下:
1) 數(shù)據(jù)輸入:用于實驗的貧困生數(shù)據(jù)集,包含學(xué)生基本屬性字段和貧困等級認定結(jié)果字段。
2) 數(shù)據(jù)編碼模塊:原生PSL無法定義中文謂詞數(shù)據(jù),本文研究為其開發(fā)數(shù)據(jù)編碼模塊,推理運行前編碼,輸出結(jié)果時解碼。
3) 訓(xùn)練集/驗證集劃分:劃分輸入數(shù)據(jù)為訓(xùn)練集和驗證集,用于訓(xùn)練模型和驗證實驗結(jié)果。
4) 規(guī)則學(xué)習(xí)模塊:本文方法一部分規(guī)則通過使用C5.0算法訓(xùn)練得來。
5) 人工規(guī)則定義模塊:雖然人工定義規(guī)則具有較強的不確定性和主觀性,但是人類認知的知識往往是機器學(xué)習(xí)算法所欠缺的,比如在貧困生識別過程中,一條很淺顯的規(guī)則是“若某同學(xué)在2022年和2023年被認定為貧困生,那么他很可能在2024年也被認定為貧困生”。
6) 規(guī)則優(yōu)化模塊:使用最大似然估計法[8]對每條規(guī)則的權(quán)重進行調(diào)整。
7)? PSL推理模塊:執(zhí)行推理運算,其中R1 -Rn 表示為運算過程中謂詞所對應(yīng)關(guān)系的計算原子。
8)? 結(jié)果評估:對實驗結(jié)果進行驗證,主要使用推理的正確率值來度量。
2.2 模型規(guī)則定義
1) 自動規(guī)則。對于本文方法所構(gòu)建的模型,一個很重要的子模塊即是規(guī)則自動學(xué)習(xí)模塊,它能集合傳統(tǒng)機器學(xué)習(xí)算法決策樹C5.0的優(yōu)點從數(shù)據(jù)中提取規(guī)則,挖掘得到的規(guī)則示例如圖2所示。
2) 人工規(guī)則定義。PSL和支持向量機、邏輯回歸等傳統(tǒng)機器學(xué)習(xí)算法最大的區(qū)別在于,PSL易于構(gòu)建數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,簡單地講,也就是PSL能夠?qū)⑷祟愂澜绲某WR和知識轉(zhuǎn)化為機器能夠使用的規(guī)則。因此,除了C5.0已經(jīng)挖掘得到的規(guī)則,我們額外通過手工定義的方式將一些較為重要的貧困生識別的知識轉(zhuǎn)化為規(guī)則輸入模型。
(1) 【延續(xù)性舉例】通過過往數(shù)據(jù),已知某同學(xué)在2022年和2023年因家庭經(jīng)濟情況困難被認定為特殊困難等級的貧困生,那么有很大可能他在2024年也將被認定為特殊困難等級的貧困生。該描述被轉(zhuǎn)化為以下規(guī)則:
RecognitionLevel (Stu,Y1,Lev) ∧RecognitionLevel (Stu,Y3,Lev) ∧ToBeRecognized (Stu,Y3) ? RecognitionLevel (Stu,Y3, Lev)
以上規(guī)則一定程度上闡述了學(xué)生經(jīng)濟狀態(tài)的延續(xù)性,RecognitionLevel 表示認定等級,ToBeRecognized 表示待認定數(shù)據(jù),Stu代表待評定學(xué)生,Y1、Y2、Y3表示學(xué)年年份,lev表示認定等級。
(2) 【關(guān)聯(lián)性舉例】通過學(xué)生日常數(shù)據(jù),得知某同學(xué)在2023年存在助學(xué)貸款,并且該同學(xué)在校內(nèi)勤工助學(xué)系統(tǒng)申請過多次勤工助學(xué)崗位,那么有很大可能他在2024年將被認定為困難或特殊困難等級的貧困生。它們將被轉(zhuǎn)化為以下規(guī)則:
StudentLoan (Stu,Y1,money) ∧WorkStudyProgram (Stu,Y1,type)
∧ToBeRecognized (Stu,Y2,Lev) ? RecognitionLevel (Stu,Y2, Lev)
以上規(guī)則闡述了學(xué)生經(jīng)濟和日常狀態(tài)的關(guān)聯(lián)性,StudentLoan表示助學(xué)貸款,WorkStudyProgram表示勤工助學(xué)項目參加情況,Y1、Y2表示學(xué)年年份,lev表示認定等級,money表示助學(xué)貸款數(shù)額,type表示勤工助學(xué)崗位。
(3) 【模糊性舉例】模糊規(guī)則代表了人類認知的部分感受,它們不能作為貧困生認定的直接標(biāo)準,但是在最終的推理結(jié)果數(shù)據(jù)上,它們將對概率值產(chǎn)生積極影響,比如缺乏這些規(guī)則的時候,學(xué)生Stu經(jīng)過推理模型后,被評定為經(jīng)濟困難的概率可能為0,但擁有了這些規(guī)則,該生被評定為經(jīng)濟困難的概率為0.3,這種結(jié)果更符合我們的直觀感受。例如:
a.食堂有消費,但每日消費數(shù)額越少越可能評定為更高貧困等級。
CanteenConsumption (Stu,Y1, money) ∧ToBeRecognized (Stu,Y2) ? RecognitionLevel (Stu,Y2, Lev)
b.購買生活必需品頻率越低,越可能評定為更高貧困等級。
PurchaseEssentialItems (Stu,Y1, num) ∧ToBeRecognized (Stu,Y2) ? RecognitionLevel (Stu,Y2, Lev)
c.網(wǎng)購數(shù)量越少,越可能評定為更高貧困等級。
OnlineShopping (Stu,Y1, money) ∧ToBeRecognized (Stu,Y2) ? RecognitionLevel (Stu,Y2, Lev)
3 實驗驗證
3.1 對比模型構(gòu)建
對比模型使用Spss Model建模軟件進行構(gòu)建,本文主要構(gòu)建了CHAID樹、支持向量機、邏輯回歸、貝葉斯網(wǎng)絡(luò)、KNN等五種機器學(xué)習(xí)算法的對比模型,結(jié)構(gòu)如圖 3所示。
3.2 實驗數(shù)據(jù)描述
本文數(shù)據(jù)通過西南某高校學(xué)生信息管理系統(tǒng)收集,它包含12 015條貧困生認定數(shù)據(jù),其中有特殊困難、困難、一般困難、不困難等4種不同的貧困類型,每條數(shù)據(jù)具有多個屬性,具體如表 1所示。
3.3 實驗結(jié)果
本文研究將數(shù)據(jù)按8:2的比例隨機劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),進行的8次實驗運行結(jié)果如圖 4和圖 5所示,圖 4是模型在未添加人工定義規(guī)則時,僅使用C5.0算法訓(xùn)練得到的規(guī)則輸入PSL模型進行推理產(chǎn)生的實驗結(jié)果,可以看到,此時本文方法已經(jīng)得到了較好的實驗效果,但是和支持向量機算法相比,在推理正確率上依然有一定差距。當(dāng)加入人工定義規(guī)則時,傳統(tǒng)機器學(xué)習(xí)算法無法添加的常識規(guī)則和知識被加入模型, 圖 5所見即為實驗結(jié)果,可以看到本文方法實驗效果已經(jīng)基本和SVM算法持平,并且其中有5次實驗的推理正確率已超過SVM算法。
4 總結(jié)
本文研究提出了一種基于概率軟邏輯推理模型來預(yù)測大學(xué)生的貧困等級的方法,該方法通過結(jié)合C5.0算法的規(guī)則提取能力,為概率軟邏輯推理模型提供科學(xué)的輸入規(guī)則,同時,使用軟約束構(gòu)建規(guī)則和邏輯謂詞的方式將人類可理解的貧困生判別標(biāo)準和常識引入概率軟邏輯推理模型進行推理預(yù)測,在與額外的5種不同的分類算法進行對比實驗后,本文方法取得了較好的對比效果。最終結(jié)果表明:1) 本文所提方法是可行的,并且在本文所用數(shù)據(jù)集上的實驗效果已多次超過SVM算法;2) 基于概率軟邏輯推理模型的方法在貧困等級預(yù)測工作中取得了可喜的成果,多次實驗的平均識別正確率達到90%以上。下一步,筆者將收集和整理額外的數(shù)據(jù)來完善當(dāng)前方法,爭取取得更有益的實驗成果。
參考文獻:
[1] 讓青春沿著總書記指引的方向閃閃發(fā)光——寫在習(xí)近平總書記親臨湘西州視察并提出精準扶貧重要理念十周年之際[J].中國共青團,2023(19):2,1.
[2] 教育部全國學(xué)生資助管理中心.2022年中國學(xué)生資助發(fā)展報告[N].人民日報,2023-11-03(014).
[3] 陳瑞虹.不平衡數(shù)據(jù)的SVM分類研究及在高校貧困生識別的應(yīng)用[D].泉州:華僑大學(xué),2019.
[4] 李步青.基于組合logistic回歸模型的高校貧困生認定研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2021(1):59-61.
[5] 李明江,盧玉,劉彥.一種基于C4.5決策樹的貴州省高校貧困生評定方法[J].科技通報,2013,29(8):223-224,233.
[6] 張麗娟,夏艷,程雪平,等.基于伯努利貝葉斯模型的高校貧困生預(yù)測研究[J].信息技術(shù)與信息化,2021(11):159-161.
[7] 劉曉娜,王愷,王成德,等.基于KNN算法的高校困難生認定研究[J].電子元器件與信息技術(shù),2023,7(8):88-92.
[8] BACH S H,BROECHELER M,HUANG B,et al.Hinge-loss Markov random fields and probabilistic soft logic[J].ArXiv e-Prints,2015:arXiv:1505.04406.
[9] 張嘉,張暉,趙旭劍,等.規(guī)則半自動學(xué)習(xí)的概率軟邏輯推理模型[J].計算機應(yīng)用,2018,38(11):3144-3149,3155.
[10] BOYD S,PARIKH N,CHU E,et al.Distributed optimization and statistical learning via the alternating direction method of multipliers[J].Foundations and Trends in Machine Learning,2011,3(1):1-122.
【通聯(lián)編輯:李雅琪】