宋 園,葉 云,王 燦,程澤凱
(1.馬鞍山職業(yè)技術(shù)學(xué)院電子信息系,安徽馬鞍山243031;2.安徽工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,安徽馬鞍山243032)
基于集對分析的學(xué)生成績分析算法
宋 園1,葉 云2,王 燦2,程澤凱2
(1.馬鞍山職業(yè)技術(shù)學(xué)院電子信息系,安徽馬鞍山243031;2.安徽工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,安徽馬鞍山243032)
針對目前學(xué)生成績評定方法不能有效檢測學(xué)生偏科問題,利用數(shù)據(jù)挖掘思想,提出基于集對分析的學(xué)生成績分析(RoSA)算法。以某高校本科生的實際成績?yōu)闃颖?,編程實現(xiàn)該算法,實驗結(jié)果表明,該算法可以更加客觀地反映學(xué)生的學(xué)習(xí)情況,并可有效檢測出學(xué)生是否偏科;通過分析該算法與普通方法評定結(jié)果的差異,可以較好地分析出學(xué)生在不同階段的學(xué)習(xí)狀態(tài)。
學(xué)生成績分析;集對分析;數(shù)據(jù)挖掘;等級劃分;機器學(xué)習(xí)
學(xué)生成績等級評定是高校教學(xué)管理的重要組成部分,目前高校對學(xué)生成績分析常用的方法是均值計算、總和排序、加權(quán)求和等方法。均值計算和總和排序是簡單地求均值、求總和的計算,忽視了不同課程的不同重要程度;加權(quán)求和法彌補了均值計算和總和排序的不足,但對某些特定情況(如學(xué)生偏科)處理得不充分。如何充分利用學(xué)生成績數(shù)據(jù),理性地進(jìn)行分析,對學(xué)生成績進(jìn)行等級評定,在教學(xué)管理中越來越重要。
集對分析(Set PairAnalysis,簡稱SPA)方法[1]是一種較新的數(shù)據(jù)挖掘方法,能有效地分析和處理不完整、不精確、不一致等各種不確定信息,被越來越多的學(xué)者所關(guān)注,已成為國內(nèi)外人工智能領(lǐng)域中的學(xué)術(shù)熱點,并在決策、預(yù)測、數(shù)據(jù)融合、綜合評價等眾多領(lǐng)域取得了較為成功的應(yīng)用[2-5]。
集對分析方法用聯(lián)系度的概念統(tǒng)一處理模糊、隨機、中介和信息不完全所致的不確定性。其在一定的問題背景下,對組成集對的2個集合的特性作同一性、差異性、對立性分析并加以度量刻畫,得出這2個集合在所論述問題背景下的同、異、反聯(lián)系度表達(dá)式,并推廣到系統(tǒng)由大于2個集合組成時的情況,由此深入展開有關(guān)系統(tǒng)的聯(lián)系、預(yù)測、控制等問題的研究。文獻(xiàn)[6]將集對分析運用于玻璃幕墻的安全評估中;文獻(xiàn)[7]提出基于改進(jìn)熵權(quán)-集對分析方法并對湖泊的形態(tài)健康進(jìn)行評價;文獻(xiàn)[8]討論了集對分析在供水管網(wǎng)漏損預(yù)測中的應(yīng)用;文獻(xiàn)[9]將集對分析方法應(yīng)用于無線傳感器網(wǎng)絡(luò)中的傳感器節(jié)點的信譽度分析,提出了一種WSN數(shù)據(jù)融合的方法;文獻(xiàn)[10]將集對分析方法用于產(chǎn)品規(guī)劃的優(yōu)化模型中,充分考慮質(zhì)量的時間性、經(jīng)濟(jì)性和可靠性,使產(chǎn)品優(yōu)化方案的綜合效益最佳。近年來,集對分析也應(yīng)用到教育教學(xué)領(lǐng)域,占躍華[11]針對教學(xué)質(zhì)量評價系統(tǒng)中的復(fù)雜信息,基于集對分析方法建立了教學(xué)評價的數(shù)學(xué)模型,以此合理地評價教師的教學(xué)質(zhì)量。吳亭[12]利用集對分析中的五元聯(lián)系數(shù)描述給定范圍內(nèi)學(xué)生成績?yōu)閮?yōu)、良、中、及格和差五類中各類所占的比例時,發(fā)現(xiàn)該五元聯(lián)系數(shù)同時隱含著該批學(xué)生成績的當(dāng)前態(tài)勢和潛在的發(fā)展趨勢,通過偏聯(lián)系數(shù)計算,揭示出其中潛在著的發(fā)展趨勢,從而為更好地開展下一階段教育提供了客觀依據(jù)。鑒于此,本文提出基于集隊分析的RoSA(Ranking on StudentAchievement)算法,用于對學(xué)生成績進(jìn)行等級評定。
設(shè)有聯(lián)系的集合X和Y。X有n項表征其特性,即X=(x1,x2,…,xn),Y亦有n項表征其特性,即Y=(y1,y2,…,yn)。X和Y構(gòu)成集對H(X,Y)間的聯(lián)系度定義為
式中:有S個特性為集合X、Y兩個集合所共有,這兩個集合在其中的P個特性上相對立,在其余的F=n-S-P個特性上既不對立也不同一,即差異性個數(shù);u為差異不確定系數(shù),在(-1,1)區(qū)間視不同情況取值,體現(xiàn)了確定性與不確定性之間的相互轉(zhuǎn)換;v為對立系數(shù),v≡-1。為簡便,令a=S/n,稱為同一度,b=F/n為差異度,c=P/n稱為對立度,則式(1)可寫成:
式中a,b,c分別表示集合X和Y所呈現(xiàn)出的相同、相異、相反的關(guān)系,且a+b+c=1。a,b,c集中反映X和Y的關(guān)系結(jié)構(gòu)。
用基于集對分析的RoSA算法對學(xué)生成績進(jìn)行等級評定,其實質(zhì)就是將學(xué)生成績(C)與成績劃分標(biāo)準(zhǔn)(S)構(gòu)成對子,即組合成一個集對H(C,S),并對構(gòu)成的集對H(C,S)進(jìn)行分析。通過學(xué)生成績C中的每個成績數(shù)值與成績劃分標(biāo)準(zhǔn)S中的評價標(biāo)準(zhǔn)范圍進(jìn)行比較,以此來對學(xué)生成績進(jìn)行等級評定。
基于集對分析的RoSA算法的關(guān)鍵是建立準(zhǔn)確的同、異、反聯(lián)系度函數(shù),即根據(jù)各個學(xué)生的各科成績與等級劃分標(biāo)準(zhǔn)間的關(guān)系確定聯(lián)系度。針對學(xué)生成績數(shù)據(jù),從系統(tǒng)性和代表性的角度選擇綜合反映研究對象分類特征的指標(biāo)體系x1,x2,…,xj(j為指標(biāo)數(shù)目)。制定分類等級標(biāo)準(zhǔn)[S(m-1,j),S(m,j)](m=1,2,…,m為分類等級標(biāo)準(zhǔn)數(shù);j=1,2,…),其中S(m-1,j),S(m,j)分別為第j個指標(biāo)第m類等級標(biāo)準(zhǔn)的下限和上限。
RoSA算法通過比較學(xué)生必修課的成績C(i,j)與指標(biāo)區(qū)間[S(m-1,j),S(m,j)]之間的關(guān)系來計算聯(lián)系度A(m,j),具體構(gòu)造方法根據(jù)式(1),可作適當(dāng)調(diào)整得到A(m,j)的取值如式(3)~(5)所示。
式(4)中k=2,3,…,m-1。根據(jù)式(3)~(5)計算出來學(xué)生各科成績與各個級別之間的聯(lián)系度A(m,j)后,結(jié)合各科目的權(quán)重W={ω(j)},計算聯(lián)系度U(i,m)。ω(j),U(i,m)公式如式(6),(7)所示。
考慮教學(xué)過程中科目有主次之分,對學(xué)生的重要性不同,因此,需要正確的劃分出各個科目在學(xué)生綜合評價中所占的權(quán)重值。如式(6)所示,RoSA算法通過學(xué)校規(guī)定的學(xué)分按比例對其科目分配權(quán)重ω(j)。其中x'j表示第 j門課程在通過考試后學(xué)校規(guī)定的所獲得的學(xué)分。如某學(xué)校某學(xué)期開設(shè)四門課程,各課程的學(xué)分依次為2,3,4,1,則各科目對應(yīng)的權(quán)重為0.2,0.3,0.4,0.1。
式(7)中,U(i,m)表示第i個學(xué)生與等級m的聯(lián)系度;
若
則第i個學(xué)生的成績等級評定為k級。
本文所述的學(xué)生成績等級評定的算法偽碼如下所示。算法:基于集對分析的RoSA算法
輸入:C,C,xj',S,course_num輸出:W,U(i,m),k 1)依次讀取各個學(xué)生的各科成績C(i,j)以及各科的等級指標(biāo)S(m,j);2)根據(jù)式(3)~(5),求出A(m,j)的值;3)j取1到course_num,根據(jù)式(6),計算權(quán)重ω(j);4)根據(jù)式(7),計算得到U(i,m);5)根據(jù)式(8),求出各個學(xué)生對應(yīng)的等級k。
上述算法的時間復(fù)雜度取決于學(xué)生成績的個數(shù),讀取每個學(xué)生的各科成績后并計算A(m,j)共需執(zhí)行i×j×m次,計算權(quán)重ω(j)需要執(zhí)行1次,再計算每個學(xué)生總的聯(lián)系度值U(i,m)并得出對應(yīng)的等級k需要執(zhí)行i×m次。所以總的計算次數(shù)為:(i×j×m+1+i×m)次,故其時間復(fù)雜度為T(n)=O(n),因此,該算法是可行的。
以某高校的全日制本科生成績數(shù)據(jù)作為分析對象,將學(xué)生成績按照五個等級來進(jìn)行評定:等級Ⅰ為不及格(0~59分),等級Ⅱ為及格(60~69分),等級Ⅲ為中等(70~79分),等級Ⅳ為良好(80~89分),等級Ⅴ為優(yōu)秀(90~100分)。
3.1 RoSA算法實例
某學(xué)期某專業(yè)開設(shè)的課程及學(xué)校規(guī)定的學(xué)分如表1中第1、2列所列,據(jù)式(6)計算出每門課程在RoSA算法中所占的權(quán)重值,如表1中第3列所列。學(xué)生A某學(xué)期各科的考試成績記錄如表1中第4列所列。
依據(jù)式(3)~(5)中給出的A(m,j)的構(gòu)造方法,計算該生各科與各個等級的聯(lián)系度如表2所示。根據(jù)式(7),計算得到該生的成績與各個等級的聯(lián)系度如表3所列??芍渑c等級Ⅲ的聯(lián)系度值為五個等級聯(lián)系度值中最高的,根據(jù)式(8)該生利用RoSA算法對其等級評定為等級Ⅲ,成績中等。
依據(jù)同樣方法對該學(xué)期另一學(xué)生B進(jìn)行等級評定,學(xué)生B成績記錄見表1中第5列所列。通過RoSA算法對學(xué)生B進(jìn)行等級評定的結(jié)果也為等級Ⅲ,中等。
若采用常規(guī)的績效均值法對其進(jìn)行等級評定的結(jié)果是學(xué)生A為等級Ⅱ(及格),學(xué)生B為等級Ⅲ(中等)。從學(xué)生A和學(xué)生B的成績,可以看出,部分課程(比如微機實習(xí)體育、金工實習(xí)、冶金概論)學(xué)生B的成績高于學(xué)生A,但是學(xué)生A的成績相對于學(xué)生B而言,各科成績間相對穩(wěn)定,而學(xué)生B偏科比較嚴(yán)重。因此可以發(fā)現(xiàn),在處理學(xué)生偏科這一問題時,RoSA算法相對于績效均值方法更加優(yōu)越。
績效均值法和均值法的計算如式(9),(10)。
式中:x1,x2,…,xn為某學(xué)生某學(xué)期各科所得考試成績;n為該學(xué)期所學(xué)課程的科目數(shù);ωi為通過該校規(guī)定的第i門課程的考試后所得到的學(xué)分。
表1 某學(xué)期學(xué)生A,B成績記錄Tab.1 Course scores of studentAand student B in a semester
表2 學(xué)生A各科與各等級的聯(lián)系度計算結(jié)果Tab.2 Calculation results of the connection degree between studentAachievement and various levels
表3 學(xué)生A的成績與各等級聯(lián)系度的計算結(jié)果Tab.3 Calculation results of the total connection degree between studentAachievement and various levels
3.2 RoSA算法的應(yīng)用
以某高校2000級本科生在校四年的成績數(shù)據(jù)以及該專業(yè)2008級大一、大二的成績數(shù)據(jù)作為分析對象,數(shù)據(jù)基本信息如表4。
表4 實驗數(shù)據(jù)信息Tab.4 Experimental data
分別考慮在教學(xué)過程中科目權(quán)重相同以及不相同這兩種情況,由于現(xiàn)今高校中對學(xué)生成績的處理方式大多為績效均值法,所以在本文中分析RoSA算法與常規(guī)的均值法、績效均值法對學(xué)生成績進(jìn)行等級評定的結(jié)果的異同點,由此發(fā)現(xiàn)本文提出方法與常用方法的不同之處,并發(fā)現(xiàn)隱含在學(xué)生成績間的有意義的特征。實驗結(jié)果如圖1~3。
圖1到圖3中的六條曲線分別是由RoSA算法獲得的結(jié)果與其他常用方法獲得的結(jié)果的相同率(相同率=對學(xué)生成績評定結(jié)果相同的個數(shù)/總的學(xué)生個數(shù))構(gòu)成。圖1和圖2是對2000級的學(xué)生成績按照學(xué)期和學(xué)年為單位的計算結(jié)果,圖3是對2008級學(xué)生按照學(xué)期為單位的計算結(jié)果。曲線a,c,e是權(quán)重不同時RoSA算法與績效法計算結(jié)果的相同率構(gòu)成的曲線;曲線b,d,f是權(quán)重相同時RoSA算法與均值法計算結(jié)果的相同率構(gòu)成的曲線。
1)RoSA算法與常規(guī)方法等級評定的一致性分析 圖1中,曲線a中8個學(xué)期的平均相同率為81.36%,曲線b中8個學(xué)期的平均相同率為77.83%;圖2中曲線c中4個學(xué)年的平均相同率為76.85%,曲線d中4個學(xué)年的平均相同率為80.62%;同時,對2000級的本科生4個學(xué)年的成績進(jìn)行總的等級評定時,RoSA算法與績效均值法等級評定的結(jié)果相同率為87.88%,RoSA算法與均值法等級評定的結(jié)果相同率96.97%??梢姡捎肦oSA算法進(jìn)行成績等級評定與現(xiàn)有的績效均值法、均值法進(jìn)行的成績等級評定結(jié)果基本保持一致。
2)不同學(xué)期的學(xué)生狀態(tài)分析 從圖1,3中可以發(fā)現(xiàn),第一學(xué)期對應(yīng)的相同率明顯低于其他學(xué)期,經(jīng)分析發(fā)現(xiàn),學(xué)生們剛剛從高中以來的督促學(xué)習(xí)到自主學(xué)習(xí),對于如何自主學(xué)習(xí),很多學(xué)生在這方面較為欠缺,所以第一學(xué)期的成績波動比較大;緊接著進(jìn)入大二的學(xué)習(xí)階段,很多同學(xué)會對大一時自己的學(xué)習(xí)方法和狀態(tài)進(jìn)行反思并改正,因此這些同學(xué)的學(xué)習(xí)成績會有所提升。但是圖1和圖3中,大二下學(xué)期,相同率均會降低。經(jīng)研究發(fā)現(xiàn),無論是2000級還是2008級,大二下學(xué)期皆是一個過渡期,是由基礎(chǔ)課的學(xué)習(xí)階段向?qū)I(yè)課學(xué)習(xí)階段的過渡,基礎(chǔ)課與專業(yè)的教學(xué)側(cè)重點不同,學(xué)生們在此階段的學(xué)習(xí)方法調(diào)整狀態(tài)不佳,導(dǎo)致成績不穩(wěn)定。進(jìn)入大三階段時,開始系統(tǒng)的學(xué)習(xí)專業(yè)課知識,并且在經(jīng)過了大一和大二之后,學(xué)生對于在大學(xué)期間應(yīng)該如何學(xué)習(xí),有了更多的經(jīng)驗,因此在大三階段,學(xué)生的波動情況在四學(xué)年中的波動屬于最小的;大四階段主要是各種實習(xí)以及畢業(yè)設(shè)計等,主要考察學(xué)生的實踐能力,在實踐的過程中,只要學(xué)生按要求完成任務(wù)了,所得成績均不會差,因此其波動性也較小。
3)孤立點挖掘 曲線a上第8學(xué)期對應(yīng)的是個異常點,該點表示該學(xué)期中RoSA算法與績效均值法評定結(jié)果的相同率為100%;與此同時,曲線b上該學(xué)期RoSA算法與均值法的結(jié)果對比相同率為75.86%。經(jīng)分析發(fā)現(xiàn),該學(xué)期是本科學(xué)習(xí)階段的最后一個學(xué)期,其中課程設(shè)計的學(xué)分為2.5學(xué)分,畢業(yè)設(shè)計的學(xué)分為16學(xué)分。因此,在有權(quán)重區(qū)分情況下,其等級評定的結(jié)果很大程度上受畢業(yè)設(shè)計的好壞影響,而在無權(quán)重區(qū)分情況下,課程設(shè)計和畢業(yè)設(shè)計對其等級劃分的影響力度相當(dāng)。同時,也可以發(fā)現(xiàn)學(xué)生的畢業(yè)設(shè)計不能很好的反映學(xué)生的真實成績等級,原因在于,畢業(yè)設(shè)計一般是團(tuán)隊合作的,而在現(xiàn)今的大學(xué)生中,往往會出現(xiàn)此種情況,即一個團(tuán)隊中,畢業(yè)設(shè)計一般是由某個或某幾個動手能力比較強的人負(fù)責(zé),其他的學(xué)生一般很少處理畢業(yè)設(shè)計的相關(guān)問題,但是老師在給分的時候,都是以一個團(tuán)隊來處理的。
4)不同時間段學(xué)生成績的對比 從圖1,3可以看出,2000級的學(xué)生成績評定結(jié)果的相同率構(gòu)成的曲線與2008級構(gòu)成的曲線,大致相同。但是圖3中曲線e與曲線f相同率更吻合,由此可以認(rèn)為2008級的學(xué)生成績比2000級的學(xué)生成績更穩(wěn)定,在課程設(shè)置以及課程權(quán)重分配問題上,八年后的更優(yōu)越。
實驗結(jié)果表明,RoSA算法具有其正確性、合理性,并且可以更深層次的對學(xué)生成績進(jìn)行挖掘、分析,幫助教學(xué)工作者更好地發(fā)現(xiàn)學(xué)生在不同時期的不同學(xué)習(xí)狀態(tài),以此更好的幫助學(xué)生調(diào)整學(xué)習(xí)狀態(tài)。
本文將RoSA算法應(yīng)用到學(xué)生成績分析中,通過實驗表明了用RoSA算法處理學(xué)生成績數(shù)據(jù),可以更加客觀地反映學(xué)生學(xué)習(xí)的實際情況,尤其在處理學(xué)生偏科這一問題時,有更好的優(yōu)越性。
[1]趙克勤.集對分析及其初步應(yīng)用[M].杭州:浙江科學(xué)技術(shù)出版社,2000.
[2]何美麗,劉浪,王宏偉,等.基于集對分析的工程評標(biāo)未知權(quán)重多屬性決策[J].中南大學(xué)學(xué)報,2012,43(10):4057-4062.
[3]劉曉,唐輝明,劉瑜.基于集對分析和模糊馬爾可夫鏈的滑坡變形預(yù)測新方法研究[J].巖土力學(xué),2009,30(11):3399-3405.
[4]汪偉忠,盧明銀,周波,等.基于集對分析的車間安全管理能力評價[J].安全與環(huán)境學(xué)報,2013,13(3):252-254.
[5]趙曉慎,吳海波,陳丹.集對分析在改進(jìn)BP神經(jīng)網(wǎng)絡(luò)凌汛開河日期預(yù)測評估中的應(yīng)用[J].水電能源科學(xué),2011,29(12):101-103.
[6]吳紅華,文潔.玻璃幕墻安全評估的集對分析方法[J].自然災(zāi)害學(xué)報,2011,20(4):66-70.
[7]張鳳太,王臘春,冷輝,等.基于改進(jìn)熵權(quán)—集對分析法的湖泊形態(tài)健康評價[J].水電能源科學(xué),2012,30(9):103-109.
[8]張明,李鵬,周潤娟.基于集對分析的供水管網(wǎng)漏損預(yù)測模型[J].供水技術(shù),2012,6(3):28-31.
[9]馬守明,王汝傳,葉寧.基于信譽度集對分析的WSN安全數(shù)據(jù)融合[J].計算機研究與發(fā)展,2011,48(9):1652-1658.
[10]張莉,馮定忠,李創(chuàng),等.基于集對分析與改進(jìn)模式匹配算法的產(chǎn)品規(guī)劃方法[J].中國機械工程,2013,24(8):1056-1061.
[11]占躍華.基于復(fù)雜信息的教學(xué)質(zhì)量評價集對態(tài)勢模型及應(yīng)用[J].計算機與數(shù)字工程,2010,38(3):71-74.
[12]吳亭.五元聯(lián)系數(shù)在學(xué)生成績發(fā)展趨勢分析中的應(yīng)用[J].數(shù)學(xué)的實踐與認(rèn)識,2009,39(5):53-59.
責(zé)任編輯:丁吉海
StudentAchievementAnalysisAlgorithm Based on Set PairAnalysis
SONG Yuan1,YE Yun2,WANG Can2,CHENG Zekai2
(1.Department of Electronic Information,Ma'anshan Technical College,Ma'anshan 243031,China;2.School of Computer Science and Technology,Anhui University of Technology,Ma'anshan 243032,China)
In view of problem that current student achievement evaluation system cannot detect unbalanc learning of student,by using the concept of data mining,a student achievement analysis(RoSA)algorithm based on Set Pair Analysis was proposed.Taking actual course scores of students as samples,the algorithm was programmed and implemented.Experimental results show that with the proposed algorithm,the students'learning state can be reflected more objectively,the learning unbalance can be found effectively;compared the results from the proposed algorithm and those from other methods,the proposed algorithm can analyze student’s learning state under different stages well.
analysis of student achievement;set pair analysis;data mining;ranking;machine learning
TP311
A
10.3969/i.issn.1671-7872.2015.04.016
2014-08-18
國家自然科學(xué)基金項目(61300059);安徽省教育廳自然科學(xué)研究重大項目(KJ2014ZD05);安徽高校省級自然科學(xué)研究基金項目(KJ2011A039)
宋園(1982-),女,安徽馬鞍山人,講師,研究方向為機器學(xué)習(xí)。
1671-7872(2015)-04-0383-06