梁 薇
(江西警察學(xué)院 刑科系,南昌 330103)
當(dāng)今,我國各級(jí)教育主管部門為了提高大學(xué)生的綜合素質(zhì),組織開展全國性或區(qū)域性的大學(xué)生綜合素質(zhì)競賽,如全國大學(xué)生“挑戰(zhàn)杯”競賽、大學(xué)生數(shù)學(xué)建模競賽、大學(xué)生創(chuàng)新創(chuàng)業(yè)競賽等。各類競賽層出不窮,為了確保競賽評(píng)比結(jié)果的公平和公正,有效地控制評(píng)卷過程中人為誤差,提高競賽結(jié)果的公信力。因此,將互聯(lián)網(wǎng)技術(shù)應(yīng)用到競賽評(píng)閱當(dāng)中。選擇網(wǎng)絡(luò)閱卷已成為提高整個(gè)競賽管理效率中的一個(gè)至關(guān)重要環(huán)節(jié)。
本文以某省教育主管部門某年組織的高校研究生數(shù)學(xué)建模競賽網(wǎng)評(píng)評(píng)委的實(shí)際數(shù)據(jù)為樣本,在提出評(píng)價(jià)指標(biāo)體系基礎(chǔ)上,利用客觀賦權(quán)法中探索性數(shù)據(jù)分析—投影尋蹤法,并結(jié)合遺傳算法建立了遺傳—投影尋蹤評(píng)價(jià)模型,運(yùn)用該模型對(duì)這次研究生數(shù)學(xué)建模競賽的網(wǎng)評(píng)評(píng)委綜合素質(zhì)進(jìn)行評(píng)價(jià),以期達(dá)到提高網(wǎng)絡(luò)閱卷質(zhì)量和競賽公信力的目的。
為了更準(zhǔn)確地評(píng)價(jià)網(wǎng)評(píng)評(píng)委綜合素質(zhì),考慮建立一個(gè)涵蓋各個(gè)指標(biāo)的綜合評(píng)價(jià)模型,最常用的方法是采用主成分法。由于評(píng)價(jià)網(wǎng)評(píng)評(píng)委工作的優(yōu)劣沒有一個(gè)明確的標(biāo)準(zhǔn),所以只能建立無監(jiān)督的評(píng)價(jià)模型。同時(shí)考慮到一個(gè)優(yōu)良評(píng)價(jià)體系應(yīng)能將不同表現(xiàn)的群體盡可能的區(qū)分開,才能達(dá)到評(píng)價(jià)的目的,因此本文采用投影尋蹤法以聚類的方式建立一個(gè)能盡可能區(qū)分不同基本素質(zhì)評(píng)委的綜合評(píng)價(jià)模型。
投影尋蹤是用來分析和處理高維數(shù)據(jù),尤其是非正態(tài)、非線性的高維數(shù)據(jù)的一類統(tǒng)計(jì)方法。基本思想是把高維數(shù)據(jù)通過某種組合投影到低維的子空間上,并通過極小化某個(gè)投影指標(biāo),尋找出能反映高維數(shù)據(jù)結(jié)構(gòu)或特征的投影,在低維空間上對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,已達(dá)到研究和分析高維數(shù)據(jù)的目的。
遺傳算法是解決函數(shù)優(yōu)化問題的數(shù)據(jù)挖掘方法,智能算法的一種,是通過計(jì)算機(jī)編碼實(shí)現(xiàn)生物學(xué)進(jìn)化過程中的復(fù)制、交叉、變異、線性、倒位等遺傳過程,實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)、函數(shù)優(yōu)化等復(fù)雜過程。計(jì)算的結(jié)果是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法。
用遺傳算法的投影尋蹤技術(shù)建立投影尋蹤聚類模型步驟:設(shè)第i個(gè)樣本第 j個(gè)指標(biāo)為2,…,m;),其中n為樣本個(gè)數(shù),m為指標(biāo)個(gè)數(shù)。
(1)將樣本指標(biāo)數(shù)據(jù)歸一化處理。由于各指標(biāo)的量綱不盡相同或數(shù)值范圍相差較大,因此,在建模之前對(duì)數(shù)據(jù)進(jìn)行歸一化處理為:
(2)建立數(shù)據(jù)的線性投影。所謂投影實(shí)質(zhì)上就是從不同的角度去觀察數(shù)據(jù),尋找最能充分發(fā)掘數(shù)據(jù)特征的作為最優(yōu)投影,方可在單位超球面中隨機(jī)抽取若干個(gè)初始投影方向a(a1, a2,…,am),計(jì)算投影指標(biāo)的大小,根據(jù)指標(biāo)選大的原則,最后確定最大指標(biāo)對(duì)應(yīng)的解為最優(yōu)投影方向。
(3)尋找目標(biāo)函數(shù)。綜合投影指標(biāo)值時(shí),要求投影值zi的散布特征應(yīng)為:局部投影點(diǎn)盡可能密集,最好凝聚成若干點(diǎn)團(tuán);而在整體上投影點(diǎn)團(tuán)之間盡可能散開,故可將目標(biāo)函數(shù)Q(a)定義為類間距離s(a)與類內(nèi)密度d(a)的乘積,即:
Q(a)=s(a )?d(a)
類間距離用樣本序列的投影特征值方差計(jì)算:
(4)優(yōu)化投影方向。由上述分析可知,當(dāng)Q(a)取得最大值時(shí)所對(duì)應(yīng)的投影方向就是所要尋找的最優(yōu)方向。因此,尋找最優(yōu)方向的問題可轉(zhuǎn)化為下列優(yōu)化問題:
在滿足約束條件的情況下,求出Q(a)的最大值,同時(shí)也就找到了最優(yōu)投影方向。由于這是一個(gè)復(fù)雜非線性優(yōu)化問題,可采用遺傳算法進(jìn)行優(yōu)化。
(5)綜合評(píng)價(jià)聚類分析。根據(jù)最優(yōu)投影方向,便可計(jì)算反映各評(píng)價(jià)指標(biāo)的綜合信息的投影特征值Zi,以Zi的差異水平對(duì)樣本群進(jìn)行聚類分析并進(jìn)行綜合評(píng)價(jià)。
本文采用某省教育廳組織的一次研究生數(shù)學(xué)建模競賽的數(shù)據(jù)。該比賽共有五個(gè)題目,共聘請(qǐng)了196名網(wǎng)評(píng)評(píng)委。每個(gè)題目根據(jù)提交論文(或項(xiàng)目)的多少分配網(wǎng)評(píng)評(píng)委,最多的D題共有69名網(wǎng)評(píng)評(píng)委,最少的A題共有14名網(wǎng)評(píng)評(píng)委。每篇論文至少四位評(píng)委評(píng)閱,每個(gè)評(píng)委評(píng)閱八至十篇不等。現(xiàn)根據(jù)各網(wǎng)評(píng)評(píng)委在網(wǎng)評(píng)階段的評(píng)分結(jié)果以及最終論文的成績,對(duì)各網(wǎng)評(píng)評(píng)委綜合素質(zhì)進(jìn)行評(píng)價(jià)。
運(yùn)用投影尋蹤模型對(duì)網(wǎng)評(píng)評(píng)委的綜合素質(zhì)作評(píng)價(jià),首要條件是構(gòu)建合理的度量網(wǎng)評(píng)評(píng)委綜合素質(zhì)的指標(biāo)體系。由于網(wǎng)評(píng)評(píng)委對(duì)參賽論文(或項(xiàng)目)僅僅是根據(jù)自身的知識(shí)和經(jīng)驗(yàn)等因素綜合判斷給出一個(gè)分值,如何使用一個(gè)具體分值來構(gòu)建評(píng)價(jià)指標(biāo)體系,成為本文的重點(diǎn)之一。為此,本文在對(duì)各類競賽進(jìn)行定性分析基礎(chǔ)上,遵循全面性和代表性的原則,將對(duì)每個(gè)網(wǎng)評(píng)評(píng)委的評(píng)分結(jié)果從不同角度進(jìn)行分析,通過相關(guān)轉(zhuǎn)換提取了寬嚴(yán)度、離散度、可靠度、有效度和準(zhǔn)確度五個(gè)指標(biāo),以五個(gè)指標(biāo)構(gòu)建網(wǎng)評(píng)評(píng)委綜合素質(zhì)評(píng)價(jià)指標(biāo)體系如下:
2.2.1 寬嚴(yán)度指標(biāo)
我們知道在具體到評(píng)卷過程中,每個(gè)評(píng)委對(duì)評(píng)分標(biāo)準(zhǔn)把握的寬嚴(yán)程度不同,常出現(xiàn)有的偏嚴(yán)格、有的偏寬松情況。有一種傾向是朝著平均數(shù)打分,或者盡量多給中間檔次的分?jǐn)?shù),或者確定檔次之后,傾向于給該檔的中間分,這種中庸的價(jià)值取向在統(tǒng)計(jì)學(xué)中就是用集中趨勢去評(píng)價(jià),這些評(píng)委屬|(zhì)作為衡量嚴(yán)寬度的指標(biāo),其中Pki表示第k個(gè)于求同思維特點(diǎn)。因此,在這里采用評(píng)分均值偏差評(píng)委評(píng)閱的第i篇論文的均值, 表示第i題網(wǎng)評(píng)的平均分。以每份論文的總平均分為參照點(diǎn),網(wǎng)評(píng)評(píng)委給分越接近總平均分表示閱卷質(zhì)量越好,根據(jù)此標(biāo)準(zhǔn)將均值偏差標(biāo)準(zhǔn)化為0~1之間的得分。
2.2.2 離散度指標(biāo)
網(wǎng)評(píng)評(píng)委閱卷時(shí),與前一種趨中偏好不同的是發(fā)散偏好,即相對(duì)于給中間分而言,更容易給出兩端分值。當(dāng)然,這種偏好在一定程度上屬于求異思維風(fēng)格。
為了反映這類評(píng)委發(fā)散的偏好,可以通過將每個(gè)網(wǎng)評(píng)評(píng)委的評(píng)分的方差與該篇總方差對(duì)比,即來度量,其中表示第k個(gè)評(píng)委評(píng)閱的第i篇論文的方差,表示第i篇論文網(wǎng)評(píng)的總方差。當(dāng)方差偏差較大時(shí),認(rèn)為該教師的評(píng)分具有發(fā)散偏好;反之,當(dāng)方差偏差較小時(shí),認(rèn)為其評(píng)分具有趨中傾向,根據(jù)此標(biāo)準(zhǔn)將方差偏差標(biāo)準(zhǔn)化為0~1之間的得分。
2.2.3 可靠度指標(biāo)
對(duì)于每一個(gè)評(píng)委來說,評(píng)閱的每份論文的評(píng)分與其他評(píng)閱同一論文的各位評(píng)委評(píng)分趨于一致時(shí),可以認(rèn)為該評(píng)委的評(píng)分是可信的,若與其他評(píng)委評(píng)分相差較大時(shí),該評(píng)委的可信度將會(huì)遭到質(zhì)疑。因此選用克倫巴赫α系數(shù)(Cronbacha信度系數(shù))來計(jì)算一致性信度系數(shù)。Cronbacha信度系數(shù)是一套常用的衡量心理或教育測驗(yàn)可靠性的方法,依一定公式估量測驗(yàn)的內(nèi)部一致性。作為信度的指標(biāo),它克服部分折半法的缺點(diǎn),是目前社會(huì)研究最常使用的信度指標(biāo),它是測量一組同義或平行測“總和”的信度。克倫巴赫α的原型計(jì)算公式為:
通過克倫巴赫系數(shù)α可以檢驗(yàn)每個(gè)網(wǎng)評(píng)評(píng)委對(duì)每份論文打分與其他網(wǎng)評(píng)評(píng)委打分情況是否一致,即該網(wǎng)評(píng)評(píng)委對(duì)論文的評(píng)判標(biāo)準(zhǔn)與其他網(wǎng)評(píng)評(píng)委是否一致。若α較低,則表示該網(wǎng)評(píng)評(píng)委與其他網(wǎng)評(píng)評(píng)委的一致性較差,若α較高,則表示該網(wǎng)評(píng)評(píng)委與其他網(wǎng)評(píng)評(píng)委的一致性較好。
2.2.4 有效度指標(biāo)
根據(jù)數(shù)學(xué)建模競賽的評(píng)分規(guī)則,評(píng)分過程中標(biāo)準(zhǔn)差閥值一般不能大于論文滿分的1/6。為判斷評(píng)分是否有效,即判斷若干個(gè)評(píng)委評(píng)分的標(biāo)準(zhǔn)差是否超過閾值。用每篇上每個(gè)評(píng)委的有效閱卷數(shù)量與總數(shù)量的比值計(jì)為有效評(píng)分率。數(shù)據(jù)值越大,有效閱卷越多,表示閱卷質(zhì)量越好。
計(jì)算公式:有效度=每個(gè)評(píng)委有效閱卷數(shù)量/每個(gè)評(píng)委總工作量。
2.2.5 準(zhǔn)確度指標(biāo)
為了檢驗(yàn)網(wǎng)評(píng)評(píng)委評(píng)分對(duì)最終成績的預(yù)見性,考慮到獲獎(jiǎng)情況為有序離散變量,這里以網(wǎng)評(píng)評(píng)委評(píng)分為自變量,以最終成績?yōu)橐蜃兞?,引入有序Logit模型來描述評(píng)分準(zhǔn)確性。有序Logit模型是二項(xiàng)分布的logit回歸向多項(xiàng)分布的推廣,有序Logit模型基本原理如下:
假定對(duì)于第 i個(gè)論文,因變量Yi有4個(gè)取值:0,1,2,3(分別對(duì)應(yīng)未獲獎(jiǎng)、三等獎(jiǎng)、二等獎(jiǎng)、一等獎(jiǎng))自變量為Xi,則有序logit回歸的模型為:
其模型產(chǎn)生的偽R2系數(shù)表明了自變量對(duì)因變量的解釋能力,因此本文選取偽R2系數(shù)來描述網(wǎng)評(píng)評(píng)委評(píng)分的準(zhǔn)確性。
在回歸分析中,判決系數(shù)R2和修正后的判決系數(shù)偽R2是度量回歸方程擬合程度的一個(gè)重要統(tǒng)計(jì)量。將按網(wǎng)評(píng)評(píng)委分組的打分和最終成績構(gòu)建有序logit回歸模型,并得出檢驗(yàn)值偽R2。偽R2同樣可度量logit回歸模型的擬合程度,偽R2值高,則模型擬合得好,在網(wǎng)評(píng)評(píng)委評(píng)分過程中則可說明評(píng)分的準(zhǔn)確性較高;反之則模型擬合較差,在網(wǎng)評(píng)評(píng)委評(píng)分過程中則可說明評(píng)分的準(zhǔn)確性較低。
根據(jù)前述的遺傳算法和投影尋蹤模型,利用MATLAB軟件對(duì)某省組織的研究生數(shù)學(xué)建模競賽中196名網(wǎng)評(píng)評(píng)委綜合素質(zhì)進(jìn)行評(píng)價(jià)。
通過圖1可以看出,遺傳算法在迭代了20次后就已經(jīng)收斂,此時(shí)的適應(yīng)度函數(shù)即目標(biāo)函數(shù)值為0.0088,通過目標(biāo)函數(shù)值的比較(0.0088>0.0081)也可以看出,遺傳算法迭代收斂過程的優(yōu)劣可見一斑。
因此,采用遺傳算法得到的投影尋蹤綜合評(píng)價(jià)模型的結(jié)果:
其中:A1、A2、A3、A4、A5分別為標(biāo)準(zhǔn)化后寬嚴(yán)度、離散度、可靠度、有效度、準(zhǔn)確度的各指標(biāo)值。從模型參數(shù)重要性看 A2<A5<A4<A3<A1。說明寬嚴(yán)度和可靠度是影響投影特征值的兩個(gè)重要參系數(shù)。
將各投影指標(biāo)帶入公式,可以得到各樣本的投影特征值畫出的排序散點(diǎn)圖,如圖2所示。
圖1 遺傳算法迭代收斂過程
圖2 基于遺傳算法的投影特征值
根據(jù)圖2投影特征值的分布判斷,遺傳算法的效果較為理想。為了更加直觀,本文將前十名和后十名網(wǎng)評(píng)評(píng)委的各指標(biāo)與投影特征值分別列于后文表1和表2及圖3中。前十名投影特征值在1.47~1.54之間,后十名投影特征值在0.14~0.60之間。前、后十名之間相差近1個(gè)單位,說明群組內(nèi)聚集的密度較大,但群組間的區(qū)分明顯,由此基于遺傳算法的投影尋蹤模型能有效地對(duì)不同網(wǎng)評(píng)評(píng)委基本素質(zhì)進(jìn)行評(píng)價(jià)。
圖3 前十名、后十名投影特征值圖
通過表1和表2的結(jié)果發(fā)現(xiàn)投影特征值越大的網(wǎng)評(píng)評(píng)委綜合素質(zhì)越高,反之,投影特征值越小的網(wǎng)評(píng)評(píng)委綜合素質(zhì)越低。將前、后十名的網(wǎng)評(píng)評(píng)委投影特征值與評(píng)委基本素質(zhì)指標(biāo)的對(duì)比分析如下:
(1)前十名網(wǎng)評(píng)評(píng)委綜合素質(zhì)分析(見下頁表1和圖4)。在前十名評(píng)委中五個(gè)指標(biāo)只有離散度和準(zhǔn)確度有些差異,其他三個(gè)指標(biāo)均差異很小。說明他們的共同特點(diǎn)是兼顧求同思維與求異思維,綜合素質(zhì)較高。如專家E22寬嚴(yán)度為0.99963,離散度得分為0.68712,表明他的評(píng)分與E組專家打分的總體表現(xiàn)極為接近,其有效度為1表明沒有出現(xiàn)過無效評(píng)分,準(zhǔn)確性為0.867,表明其網(wǎng)評(píng)打分能夠很好地預(yù)見最終的成績。
表1 前十名網(wǎng)評(píng)評(píng)委投影指標(biāo)
圖4 前十名網(wǎng)評(píng)評(píng)委投影指標(biāo)圖
(2)后十名網(wǎng)評(píng)評(píng)委綜合素質(zhì)分析(見表2和圖5)。在后十名評(píng)委中五個(gè)指標(biāo)的寬嚴(yán)度、離散度和準(zhǔn)確度均表現(xiàn)出明顯的差異。說明這些評(píng)委有點(diǎn)偏求同思維、有點(diǎn)偏求異思維、有的兩者均不考慮,尤其是第三種評(píng)委可能對(duì)某一競賽領(lǐng)域缺乏經(jīng)驗(yàn)或不熟悉,因此在綜合素質(zhì)體現(xiàn)就較低。如表現(xiàn)最差的是專家E28,其寬嚴(yán)度得分僅為0.0000,離散度為0.17021,表明他的打分與E組專家打分的總體表現(xiàn)相差較大;有效度為0.66010,表明其有接近三分之一的評(píng)分屬于無效評(píng)分。
表2 后十名網(wǎng)評(píng)評(píng)委投影指標(biāo)
圖5 后十名網(wǎng)評(píng)評(píng)委投影指標(biāo)圖
本文首次將投影尋蹤法引入到對(duì)網(wǎng)評(píng)評(píng)委綜合素質(zhì)評(píng)價(jià)中來,也是一次大膽的嘗試。本文遵循了樣本數(shù)量為指標(biāo)個(gè)數(shù)的3~5倍以上計(jì)算結(jié)果具有穩(wěn)鍵性的基本要求,建模使用了196個(gè)專家的評(píng)分?jǐn)?shù)據(jù)。模型結(jié)果顯示:評(píng)委的綜合素質(zhì)特別優(yōu)秀和較差的均為少數(shù),即1.0及以下和1.4及以上的均為30人左右,分別占15.3%,近70%網(wǎng)評(píng)評(píng)委綜合素質(zhì)相差不大,基本呈現(xiàn)正態(tài)分布趨勢,這與實(shí)際相符的,表明該模型評(píng)價(jià)取得了較理想的結(jié)果。因此,投影尋蹤法模型是一種科學(xué)、合理的綜合評(píng)價(jià)方法。
本文結(jié)合評(píng)價(jià)結(jié)果,提出以下幾點(diǎn)建議:(1)建立各類網(wǎng)絡(luò)評(píng)委專家?guī)?。因競賽種類繁多,為了使各類競賽有序進(jìn)行,建立各類競賽相關(guān)的網(wǎng)評(píng)專家?guī)?,?duì)每次網(wǎng)評(píng)評(píng)委的表現(xiàn)差異進(jìn)行評(píng)價(jià)、遴選,不斷完善和更新網(wǎng)評(píng)專家?guī)?。?)建立網(wǎng)絡(luò)專家評(píng)分管理系統(tǒng)、完善網(wǎng)絡(luò)評(píng)委評(píng)分標(biāo)準(zhǔn)。該系統(tǒng)能夠根據(jù)評(píng)分標(biāo)準(zhǔn)對(duì)異常評(píng)分進(jìn)行篩選和剔除,并按規(guī)則自行調(diào)整。(3)構(gòu)建合理的評(píng)價(jià)指標(biāo)體系也是綜合評(píng)價(jià)的關(guān)鍵所在。根據(jù)沒有差異就沒有統(tǒng)計(jì)的原則,在對(duì)現(xiàn)有提取的五個(gè)指標(biāo)進(jìn)行充分研究的基礎(chǔ)上,對(duì)各個(gè)樣本差異小的指標(biāo)建議刪去,補(bǔ)充其他相關(guān)指標(biāo),以確保綜合評(píng)價(jià)的全面性。(4)完善評(píng)價(jià)等級(jí)劃分。在最終結(jié)果的評(píng)價(jià)上只進(jìn)行了綜合素質(zhì)高低的排序未劃分明確的等級(jí),它對(duì)于遴選網(wǎng)評(píng)評(píng)委有很重要的參考價(jià)值。
[1]陳正偉.新編統(tǒng)計(jì)學(xué)[M].北京:北京郵電大學(xué)出版社,2012.
[2]吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用[M].北京:中國人民大學(xué)出版社,2013.
[3]付強(qiáng),趙小勇.投影尋蹤模型原理及其應(yīng)用[M].北京:科學(xué)出版社,2007.
[4]毛紫陽,吳孟達(dá).基于序關(guān)系的競賽網(wǎng)評(píng)評(píng)委評(píng)價(jià)方法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2006,(10).
[5]卓金武.MATLAB在數(shù)學(xué)建模中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2010.
[6]趙海燕,芮南.雙評(píng)作文題網(wǎng)上閱卷評(píng)卷教師評(píng)卷水平評(píng)價(jià)維度的確定[J].評(píng)價(jià)與測量,2009,(2).
[7]程毛林,韓云.基于投影尋蹤主成分分析法的綜合國力評(píng)價(jià)模型研究[J].淮陰師范學(xué)院學(xué)報(bào):自然科學(xué)版,2015,(1).
[8]易昆南.殘缺數(shù)據(jù)的論文名次及評(píng)委水平的評(píng)判與逆判[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2005,(2).
[9]龔千健,王濤,裴瑩瑩.打分機(jī)制公平性評(píng)估的概率統(tǒng)計(jì)模型[J].數(shù)學(xué)建模及其應(yīng)用,2013,(2).
[10]徐翠霞,樊小東.關(guān)于高校講課競賽評(píng)審機(jī)制的思考[J].黑龍江教育,2012,(8).