錢文彬 彭莉莎 王映龍
摘? 要: 現(xiàn)有學(xué)生綜合素質(zhì)評價方法大多是基于二元決策模型的,該模型容錯率低且較難處理存在噪音的連續(xù)型學(xué)生數(shù)據(jù)。為此,依據(jù)鄰域概念計算連續(xù)型數(shù)據(jù)的鄰域類,再通過三支決策規(guī)則對學(xué)生進(jìn)行綜合素質(zhì)評價。通過分析鄰域參數(shù)和閾值對真實學(xué)生數(shù)據(jù)的評價結(jié)果的影響,為三支決策對學(xué)生進(jìn)行綜合素質(zhì)評價時的參數(shù)設(shè)置提供了參考依據(jù)。三支決策中的延遲決策將易評價錯的學(xué)生劃分到可進(jìn)一步評價的邊界域中,一定程度提高了評價合理性,降低了誤評價損失,實現(xiàn)了學(xué)生綜合素質(zhì)評價從粗粒度到細(xì)粒度的定量分析。
關(guān)鍵詞: 三支決策; 鄰域概念; 學(xué)生綜合素質(zhì)評價; 粒計算; 粗糙集
中圖分類號:TP18? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)02-61-06
Method of evaluating students' comprehensive quality with
neighborhood three-way decision
Qian Wenbin1,2, Peng Lisha2, Wang Yinglong2
(1. School of software, Jiangxi Agricultural University, Nanchang, Jiangxi 330045, China;
2. School of Computer and Information Engineering, Jiangxi Agricultural University)
Abstract: Most existing students' comprehensive quality assessment methods are based on the binary decision model, the low fault tolerance of this model is inconvenient to deal with numerical student data with noise. So, the neighborhood class of continuous data was calculated through the neighborhood concept, and the comprehensive quality evaluation of students was evaluated through three-way decision rules. The reference for the parameter setting were provided by analyzing the influence of neighborhood parameters and thresholds on the evaluation results of real student data in the evaluation of student's comprehensive quality by three-way decision. Some easily misclassified students were divided into boundary areas that could be further evaluated by the delayed decision in the three-way decision, which improved the rationality of the evaluation and reduces the loss of miss-evaluation to a certain extent, and achieve the quantitative analysis of students' comprehensive quality evaluation from coarse-grained to fine-grained.
Key words: three-way decision; neighborhood concept; evaluation of students' comprehensive quality; granular computing; rough set
0 引言
隨著互聯(lián)網(wǎng)和大數(shù)據(jù)時代的發(fā)展,大量復(fù)雜的數(shù)據(jù)存在于社會生活和科學(xué)研究領(lǐng)域中,如何從這些復(fù)雜數(shù)據(jù)中挖掘出潛在有價值的知識和規(guī)律已成為當(dāng)今信息科學(xué)領(lǐng)域的研究熱點(diǎn)。在教育領(lǐng)域也存在大規(guī)模的學(xué)生信息數(shù)據(jù),有效地分析和處理這些數(shù)據(jù)對構(gòu)建合理的學(xué)生綜合素質(zhì)評價方法具有重要的意義。
三支決策(TWD)是一種分析和處理不確定數(shù)據(jù)的重要方法[1-4],其理論來源于Plawlak經(jīng)典粗糙集理論[5]和概率粗糙集理論[6],是決策粗糙集理論[7]的重要延伸,現(xiàn)已廣泛運(yùn)用于軟件缺陷預(yù)測,醫(yī)療診斷,垃圾郵件處理,人臉識別等應(yīng)用領(lǐng)域[8-11]。三支決策的計算模型是通過一對閾值將論域劃分為互不相交的正域、負(fù)域和邊界域,這三個域分別對應(yīng)接受、拒絕和延遲三種決策。當(dāng)信息不足以立即給對象分類時,為避免因錯誤接受或錯誤拒絕造成的損失,三支決策選擇將該對象劃分到邊界域中,等信息增加后再對其進(jìn)行分類。
學(xué)生綜合素質(zhì)評價是教學(xué)科學(xué)管理中重要的工作之一,綜合素質(zhì)評價體系[13]主要包括學(xué)生的思想品質(zhì),專業(yè)文化水平和身體素質(zhì)及實踐操作等指標(biāo)。評價指標(biāo)信息有時包含噪音數(shù)據(jù),例如,向來優(yōu)秀的學(xué)生某次因特殊情況導(dǎo)致幾門考試不及格,根據(jù)平均分等級評價標(biāo)準(zhǔn)可能將該學(xué)生評價為良好學(xué)生甚至為不及格學(xué)生,顯然這種二元評價方式不夠合理。
本文引入鄰域概念[14-16]計算連續(xù)型學(xué)生數(shù)據(jù)的鄰域類,構(gòu)建了基于鄰域三支決策的學(xué)生綜合素質(zhì)評價方法。
主要工作:①擴(kuò)充了學(xué)生綜合素質(zhì)評價工作領(lǐng)域的方法;②給出了基于鄰域概念的三支決策多類分類模型;③可以處理同時存在噪音數(shù)據(jù)和連續(xù)型數(shù)據(jù)的學(xué)生數(shù)據(jù)。與二元評價決策模型相比,評價結(jié)果更加合理,評價準(zhǔn)確率更高,誤評價損失更低。
1 基礎(chǔ)知識
1.1 三支決策
在三元組決策表S=(U,C∪D,{Va|a∈C})中;U={x1,x2,…,xm}表示有限非空對象全集,C={a1,a2,…,an}表示為有限非空條件屬性全集,D表示決策屬性,Va表示屬性值。令R表示U上的一個等價關(guān)系,則對象x和y的R等價關(guān)系為,x的R等價類為{x}R={y∈U|xRy}。
在三支決策粗糙集中,{λPP,λBP,λNP}和{λPN,λBN,λNN}分別表示當(dāng)對象屬于任意對象集和不屬于時,將劃分到的正域、邊界域和負(fù)域的風(fēng)險損失值,根據(jù)期望風(fēng)險最小化貝葉斯(Bayes)決策準(zhǔn)則計算得出三支決策規(guī)則:
定義1[1] 在決策表S中,令X∈U,α和β為三支決策閾值,P(X|[x]B)表示對象x基于屬性子集屬于X的條件概率,則對于,其三支決策規(guī)則定義為:
其中:;
1.2 鄰域
在鄰域系統(tǒng)NS=(U,C∪D,V,δ)中,U表示非空有限對象全集,C表示非空有限條件屬性全集,D表示決策屬性,V表示屬性值集,δ表示鄰域參數(shù)。
定義2[15] 在鄰域系統(tǒng)NS中,,v(x,ak)和v(y,ak)表示對象x和y在屬性ak上的屬性值,則x和y在屬性子集B上的Euclidean距離為:
定義3 在鄰域系統(tǒng)NS中,,則x和y基于屬性子集B的鄰域關(guān)系NRδ(B)和鄰域定義為:
2 基于鄰域三支決策的多類分類模型
定義4 在鄰域系統(tǒng)NS中,決策類=
。則Xk基于屬性子集的鄰域三支決策規(guī)則定義為:
其中,,且
。
定義5 在鄰域系統(tǒng)中,屬性子集B=C,決策類Xk∈IND(D),。則關(guān)于決策屬性D,其在屬性全集C下的鄰域三支決策規(guī)則定義為:
;
;
;
2.1 學(xué)生綜合素質(zhì)評價算法
首先,根據(jù)平均分等級評價標(biāo)準(zhǔn),將所有學(xué)生初步評價為優(yōu)秀類、良好類和及格類,然后,歸一化學(xué)生數(shù)據(jù),根據(jù)鄰域概念計算各學(xué)生的鄰域類和各學(xué)生屬于三個評價等級的條件概率,接著根據(jù)三支決策規(guī)則將每個學(xué)生劃分到各等級的三個域中,最后,對處在正域中的學(xué)生保留初步劃分結(jié)果,對處在邊界域和負(fù)域中的學(xué)生待新增評定指標(biāo)后重新評價。算法具體描述如下。
算法:基于鄰域三支決策的多類學(xué)生綜合素質(zhì)評價方法。
輸入:學(xué)生數(shù)據(jù)決策表和損失函數(shù)表;
輸出:優(yōu)秀學(xué)生、良好學(xué)生和及格學(xué)生;
Step1. 標(biāo)準(zhǔn)化和歸一化NS;
Step2. 初始化δ,計算閾值α,β;
Step3. 獲取初始學(xué)生等級;
Step4. for x∈U do
for y∈U do
計算學(xué)生之間的Euclidean距離
;
計算學(xué)生的鄰域類={y|x,y∈
U,fc(x,y)?δ};
end
end
Step5. for x∈U do
計算學(xué)生屬于各評價等級的的條件概率;
end
Step6. for x∈U do
若,則將學(xué)生x劃分
到Xk的正域中;
否則,若,則將對象
x劃分到Xk的邊界域中;
否則,將對象x劃分到Xk的負(fù)域
中;
end
Step7. 輸出學(xué)生評價結(jié)果,算法結(jié)束。
3 實例分析
為進(jìn)一步驗證算法的可行性,以表1為例進(jìn)行分析說明。其中,x1~x10代表10個學(xué)生對象,a1~a6代表6項評價指標(biāo),AVG代表平均成績。根據(jù)平均分等級評價標(biāo)準(zhǔn)([85,100]-優(yōu)秀;[75,85]-良好;[60,75)-及格)初步評價學(xué)生為優(yōu)秀類、良好類和及格類。
第1步 參考?xì)w一化函數(shù):y=(x-Minvalue)/(Maxvalue-MinValue)對表1進(jìn)行標(biāo)準(zhǔn)化和歸一化得到表2,其中,條件屬性集{a1,a2,…,a6}以及決策屬性D分別對應(yīng)表1中6項評價指標(biāo)和初步評價結(jié)果。
第2步 制定損失函數(shù)表,設(shè)置參數(shù)δ,計算閾值α、β。
由定義4可知,若鄰域參數(shù)δ過小,則對近似要求更苛刻,鄰域類中元素極少甚至只有本身。反之δ過大,會使能觀察到的不相似對象都被歸為同一鄰域類,不能反映數(shù)據(jù)的區(qū)分信息;但考慮到本實例中學(xué)生數(shù)目較少,因此初始化δ=0.7。文獻(xiàn)[12]中提到三種最常用的(β,α)取值組合,分別為(0,0.5)、(0.3,0.8)和(0.5,1);(0,0.5)和(0.5,1)對于風(fēng)險的預(yù)測過于積極或消極,而(0.3,0.8)是風(fēng)險中性的預(yù)測方式,符合人們在日常生活中的決策習(xí)慣。因此,本例的閾值選取向第二種組合靠攏。
本算例中假設(shè)對該三類學(xué)生采取優(yōu)先推薦工作,可以推薦工作和暫緩?fù)扑]工作三種決策。并且預(yù)先設(shè)定:給優(yōu)秀學(xué)生優(yōu)先推薦工作和暫緩給及格學(xué)生推薦工作不造成損失,即λPP=λNN=0。因此,制定風(fēng)險損失表如表3,然后根據(jù)定義1計算得到α=0.8,β=0.27,與上述第二種常用閾值相近,因此較為客觀合理。
第3步 由表2可知,U/D={X1,X2,X3},其中X1={x3,x6,x10}表示優(yōu)秀類;X2={x1,x2,x5,x7,x9}表示良好類;X3={x4,x8}表示及格類。
第4步 依據(jù)算法Step4,計算得到學(xué)生之間的Euclidean距離,如表4所示。表中加粗字為滿足鄰域類的鄰域距離值,由此可知,除x5和x9之外,其他學(xué)生與學(xué)生x1的鄰域距離值都大于鄰域參數(shù)δ,因此x1的鄰域類為={x1,x5,x9},同理,可獲得其他學(xué)生基于屬性集的鄰域類的結(jié)果。
第5步 依據(jù)算法Step5和Step6,計算所有評價指標(biāo)下的每個評價等級的正域、邊界域和負(fù)域。以x1為例,因為x1∈x2,所以只需計算=,,故,同理,對學(xué)生x2~x10進(jìn)行劃分和評價,結(jié)果如表5所示。
從本例的計算結(jié)果看,負(fù)域中沒有對象是因為論域U中對象數(shù)較少;處在各評價等級正域中的學(xué)生{x3,x6,x10}和{x1,x7,x9}以及{x8}仍然保留初步劃分結(jié)果,因為依據(jù)三支決策語義解釋,表示接受{x3,x6,x10}于優(yōu)秀類X1中,可以優(yōu)先為他們推薦工作;同理,{x1,x7,x9}仍處于良好類X2中,可以給他們推薦工作;學(xué)生{x8}處于及格類X3中,建議暫緩為他們推薦工作。而{{x2,x5},{x4}}分別被劃分到X2和X3的邊界域中,應(yīng)待新增考核指標(biāo)后再評價。
通過計算可知,在待分類對象基數(shù)較小的情況下,以往按照平均分所處的分?jǐn)?shù)范圍對學(xué)生進(jìn)行分類的方法基本可行,但略有粗糙,例如X4的平均分為74.67,十分接近良好類的分?jǐn)?shù)線75,但卻被劃分到了及格類中,顯然劃分不太合理,當(dāng)待分類對象基數(shù)較為龐大時,此類現(xiàn)象將會更多,即邊界域中的對象則會更多,負(fù)域中的對象也會增加,若僅通過分?jǐn)?shù)范圍進(jìn)行二元評價會導(dǎo)致更高的錯誤率。而三支決策可對邊界域的學(xué)生進(jìn)行延遲評價,使評價錯誤率降低,評價結(jié)果更合理,從而減少了誤評價損失。
4 實驗分析
實驗采集江西農(nóng)業(yè)大學(xué)軟件學(xué)院的1805位學(xué)生的各項指標(biāo)數(shù)據(jù)進(jìn)行仿真學(xué)生綜合素質(zhì)評價,這些指標(biāo)主要包括思想道德修養(yǎng)課程、體育課程和專業(yè)文化課程成績等,其中專業(yè)文化成績主要以專業(yè)主干課程考試成績?yōu)橹?。實驗運(yùn)行環(huán)境:Win7,Intel (R) Core(TM),CPU i5-3230M 2.6GHz和8.0GB內(nèi)存,用Java編程語言在開發(fā)平臺Eclipse Mars.2 Release(4.5.2) 上實現(xiàn)。
實驗在Euclidean距離下測試了四種情況對學(xué)生綜合素質(zhì)評價的影響。情況1:δ=0.5,β=0.3,α=0.5~1,單調(diào)遞增。情況2:δ=0.5,α=0.7,β=0~0.5,單調(diào)遞增。情況3:δ=0.5,α=1~0.5單調(diào)遞減和β=0~0.5單調(diào)遞增的六種組合,即(α,β)={G1=(1,0),G2=(0.9,0.1),G3=(0.8,0.2),G4=(0.7,0.3),G5=(0.6,0.4),G6=(0.5,.5)}。情況4:α=0.7,β=0.3,δ=0.1~1單調(diào)遞增。四種情況實驗結(jié)果分別展現(xiàn)在圖2中4個子圖(a)~(d)中。
實驗表明,鄰域參數(shù)δ和閾值α,β對學(xué)生綜合素質(zhì)評價結(jié)果有較大影響。從子圖(a)可知,當(dāng)δ和β不變時,隨著α增大,正域POS(D)中的學(xué)生總數(shù)單調(diào)遞減,邊界域BND(D)中的學(xué)生總數(shù)單調(diào)遞增;例如,當(dāng)α從0.7曾至0.8時,正域中學(xué)生總數(shù)從751減至514,邊界域中學(xué)生總數(shù)從577增至814;從子圖(b)可知,當(dāng)δ和α不變時,隨著β增大,負(fù)域中的學(xué)生總數(shù)單調(diào)遞增,邊界域中的學(xué)生總數(shù)單調(diào)遞減;從子圖(c)可知,當(dāng)δ不變時,隨著α減小和β增大,邊界域中的學(xué)生總數(shù)單調(diào)遞減;正域和負(fù)域中學(xué)生總數(shù)單調(diào)遞增;從子圖(d)可知,當(dāng)α,β不變時,隨著δ增大,正域中的學(xué)生總數(shù)單調(diào)遞減,邊界域中和負(fù)域中的學(xué)生總數(shù)除了在δ等于0.4和0.3時突然下降,其余都呈遞增趨勢,例如,當(dāng)δ=0.6增至0.7時,正域中學(xué)生總數(shù)從512減至250,邊界域中學(xué)生總數(shù)從688增至932,負(fù)域中學(xué)生總數(shù)增從6.5曾至623。
根據(jù)理論分析和實驗結(jié)果可知,閾值α和β對評價結(jié)果存在單調(diào)性影響,而δ對評價結(jié)果既存在單調(diào)性影響又存在非單調(diào)性影響。因此,在進(jìn)行學(xué)生綜合素質(zhì)評價前以及對延遲評價的學(xué)生進(jìn)行再次評價時,可結(jié)合實際需求和上述分析規(guī)律,合理設(shè)置閾值和鄰域參數(shù),以制定合理的評價方案,這樣不僅可得到較滿意的評價結(jié)果,還可使評價過程代價更少。
5 結(jié)束語
本文結(jié)合鄰域概念和三支決策定義了多類劃分規(guī)則,并將其應(yīng)用于連續(xù)型學(xué)生數(shù)據(jù)處理和分析中,提出了一種基于鄰域三支決策的多類學(xué)生綜合素質(zhì)評價方法。待評價學(xué)生通過三支決策被劃分到各評價等級的三個域中,邊界域的引入使得評價更合理,評價準(zhǔn)確率更高。通過對真實數(shù)據(jù)進(jìn)行實驗,分析了各參數(shù)對評價結(jié)果的影響,為三支決策對學(xué)生綜合素質(zhì)評價時的參數(shù)設(shè)置提供參考依據(jù);對比傳統(tǒng)的二元學(xué)生綜合素質(zhì)評價方法,本文方法評價準(zhǔn)確率較高,誤分類損失較低。
參考文獻(xiàn)(References):
[1] Yao Y Y. Three-way decisions with probabilistic rough sets[J].Information Sciences, 2010.180(3):341-353
[2] Yao Y Y. The superiority of three-way decisions inprobabilistic rough set models[J]. Information Sciences,2011.181(6):1080-1096
[3] 于洪,王國胤,姚一豫.決策粗糙集理論研究現(xiàn)狀與展望[J].計算機(jī)學(xué)報,2015.38(8):1628-1639
[4] 劉盾,李天瑞,李華雄.粗糙集理論:基于三支決策視角[J].南京大學(xué)學(xué)報(自然科學(xué)版),2013.49(5):574-581
[5] Pawlak Z. Rough Sets[J].International Journal of Computer?and Information Sciences,1982.11(5): 341-356
[6] Pawlak Z, Wong SKM, Ziarko W. Rough sets: Probabilistic?versus deterministic approach[J]. International Journal of Man-Machine Studies,1988.29(1):81-95
[7] Yao Y Y. Decision-theoretic rough set models[J]. LectureNotes in Artificial Intelligence,2007.4481:1-12
[8] Nauman M, Azam N, Yao J T. A three-way decisionmaking approach to malware analysis using probabilistic rough sets[J]. Information Sciences,2016.374:193-209
[9] Chen Y F, Yue X D, Fujta H. Three-way decision support?for diagnosis on focal liver lesions[J].Knowledge-Based Systems,2017.127:85-99
[10] Fernandes V, Yevseyeva I. Méndez J, et al. Emmerich.A spam filtering multi-objective optimization study covering parsimony maximization and three-way classification[J]. Applied Soft Computing,2016.48:111-123
[11] Li H X, Zhang L B, Huang B, et. al. Sequentialthree-way decision and granulation for cost-sensitive face recognition[J].Knowledge-Based Systems,2016.91(C):241-251
[12] Yager R. Generalized OWA aggregation operators[J].Fuzzy Optimization and Decision Making,2004.3:93-107
[13] 潘玉駒,何毅,陳文遠(yuǎn).高校學(xué)生綜合素質(zhì)評價結(jié)果的處理機(jī)制研究[J].教育發(fā)展研究,2011.31(7):77-80
[14] Hu Q H, Yu D R, Xie Z X. Neighborhood classifiers[J].Expert Systems With Applications,2008.34(2):866-876
[15] 胡清華,于達(dá)仁,謝宗霞.基于鄰域?;痛植诒平臄?shù)值屬性約簡[J].軟件學(xué)報,2008.19(3):640-649
[16] Hu Q H, Pedrycz W, Yu Daren, et al. Selecting discreteand continuous features based on neighborhood decision error minimization, IEEE Transactions on Systems, Man, and Cybernetics: Systems,2010.40(1):137-150