喬秀峰 張德珍 吳迅 張俊
[摘 要] 研究生教育在從追求招生數(shù)量到重視培養(yǎng)質(zhì)量的背景下,如何有效而準確地評估研究生培養(yǎng)質(zhì)量,成為當(dāng)前各高校面臨的重要課題。文章提出一種改進的模糊K-Prototypes聚類算法,可準確分析研究生培養(yǎng)質(zhì)量情況。該算法首先提取相應(yīng)的研究生培養(yǎng)質(zhì)量影響因素屬性,構(gòu)建研究生培養(yǎng)質(zhì)量評估指標(biāo),從而形成分析數(shù)據(jù)集;其次,為了解決研究生培養(yǎng)數(shù)據(jù)密度不均的問題,提出改進算法;最后利用改進的聚類算法對分析數(shù)據(jù)集進行聚類分析。以一所具體高校為例,驗證提出算法的有效性和改進后聚類效果,為科學(xué)有效的研究生培養(yǎng)質(zhì)量評估提供輔助決策方法支持。
[關(guān)鍵詞] 研究生教育; 培養(yǎng)質(zhì)量評估; 模糊K-Prototypes聚類
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 07. 077
[中圖分類號] G647 [文獻標(biāo)識碼] A [文章編號] 1673 - 0194(2018)07- 0185- 06
1 引 言
提高研究生培養(yǎng)質(zhì)量是高等教育改革最核心的任務(wù)[1],而如何對培養(yǎng)質(zhì)量進行客觀科學(xué)的評估則是任務(wù)的難點所在。一些學(xué)者進行了探索性研究,對高校研究生培養(yǎng)質(zhì)量評估,采用了主成分分析方法、層次分析評價模型、模糊綜合評價模型等傳統(tǒng)方法,如Chen等人在文獻[2]中提出了改進的層次分析方法構(gòu)建的教育質(zhì)量評價模型的理論與應(yīng)用; Liu等人在文獻[3]中采用層次分析及模糊的方法對研究生培養(yǎng)質(zhì)量評估中學(xué)生綜合職業(yè)能力方面的評價作了研究;Hu等人在文獻中提出用主成分分析和Elman神經(jīng)網(wǎng)絡(luò)對研究生培養(yǎng)質(zhì)量中關(guān)于教學(xué)質(zhì)量方面的評估進行了研究。這些文獻分別提出基于模糊綜合評價的高等職業(yè)教育評價模型和基于模糊綜合評價法的高等工程教育綜合評估研究。上述方法有其積極有效的一面,但一般通過專家為評估對象打分,評估結(jié)果主觀性較強,往往不能較好反映實際值。
針對研究生培養(yǎng)質(zhì)量數(shù)據(jù)類型多樣化及數(shù)據(jù)具有模糊邊界特征的特點,將模糊K-Prototypes聚類算法應(yīng)用于研究生培養(yǎng)質(zhì)量評估中,同時,由于研究生培養(yǎng)質(zhì)量數(shù)據(jù)呈現(xiàn)密度不均現(xiàn)象,提出了改進的模糊K-Prototypes聚類算法,采用密度與最大最小距離方法以及高密度點的方法,將數(shù)據(jù)集劃分成不同的密度區(qū)域,從而得到數(shù)值屬性與分類屬性的初始聚類中心,以此提高聚類結(jié)果的準確性。以武漢理工大學(xué)2015級研究生培養(yǎng)質(zhì)量相關(guān)的數(shù)據(jù)集為實驗數(shù)據(jù),對其進行聚類分析,獲得關(guān)于影響研究生培養(yǎng)質(zhì)量的主要因素,從而為研究生培養(yǎng)質(zhì)量評估提供有效的決策支持方法。
2 研究生培養(yǎng)質(zhì)量評估指標(biāo)
武漢理工大學(xué)的研究生教育綜合管理系統(tǒng)經(jīng)過多年系統(tǒng)性建設(shè),涵蓋了研究生從入學(xué)到畢業(yè)整個培養(yǎng)過程信息,是研究生培養(yǎng)質(zhì)量聚類分析的基礎(chǔ)。該系統(tǒng)數(shù)據(jù)庫包含了學(xué)生的學(xué)籍、課業(yè)、學(xué)術(shù)論文發(fā)表、科研、指導(dǎo)教師基本信息及其論文發(fā)表、科研項目、科研成果等詳細數(shù)據(jù),而不同屬性之間又可能存在關(guān)聯(lián)性,特征屬性的選取,將直接影響聚類結(jié)果??紤]到本文的目標(biāo)是對研究生培養(yǎng)質(zhì)量數(shù)據(jù)進行聚類分析,參考已有文獻研究成果,影響研究生培養(yǎng)質(zhì)量的主要因素,包括研究生的分析能力、創(chuàng)造力、實踐能力、綜合能力、科研成果情況、學(xué)習(xí)成績、學(xué)位論文情況、導(dǎo)師因素、學(xué)術(shù)氛圍環(huán)境等。
基于上述特征屬性集,結(jié)合武漢理工大學(xué)對于研究生培養(yǎng)質(zhì)量評估的實際需求,本文構(gòu)建了如下多因素多層次的研究生培養(yǎng)質(zhì)量評估指標(biāo)體系。
本文將基于改進模糊K-Prototypes聚類算法構(gòu)建研究生培養(yǎng)質(zhì)量聚類分析模型,本研究將所評估指標(biāo)作為模型的輸入變量,對研究生培養(yǎng)質(zhì)量進行聚類分析,從中獲取每類研究生培養(yǎng)質(zhì)量的整體特征,進而發(fā)現(xiàn)影響研究生培養(yǎng)質(zhì)量的主要影響因素。
3 模糊K-prototypes 聚類算法
假設(shè)混合屬性數(shù)據(jù)集為X={X1,X2,…,Xn},其中有n個樣本數(shù)據(jù),每個樣本數(shù)據(jù)有m個屬性,則混合屬性集合中的每個樣本數(shù)據(jù)可以記為Xi={x■■x■■,…,x■■,x■■,…,x■■},前p個屬性表示數(shù)值型數(shù)據(jù),后m-p個屬性表示分類型數(shù)據(jù)。
定義1相異度度量:假定X與Y表示兩個樣本,則數(shù)值屬性的相異度與分類屬性相異度計算公式分別為式(1)和式(3)。
對于數(shù)值型屬性,采用傳統(tǒng)的方法歐氏距離來計算,則兩個樣本相異度定義如下:
d1(Xi,Yj)=■(c■■-x■■)2,1≤r≤p(1)
對于分類型屬性,采用海明距離來計算兩個樣本的相異度定義為:
?啄(x■■-y■■)=0,x■■=y■■1,x■■≠y■■(2)
d2(Xi,Yj)=■?啄(x■■-y■■),p+1≤r≤m(3)
則每個樣本數(shù)據(jù)間的相異度計算方法定義為:
d(X,Y)=■(x■■-y■■)2+γ·■?啄(x■■-y■■)(4)
定義2聚類中心:從數(shù)據(jù)集X中選擇K個樣本對象作為初始聚類中心點,每次迭代更新的聚類中心可表示為Z={Z1,Z2,Z3,…,Zk},每個樣本對象到聚類中心的距離記為d(Xi,Zj)。在聚類的過程中,樣本對象會被劃分到離聚類中心最近的類中,則最終會被劃分成K個聚類集合。
(1)數(shù)值屬性的聚類中心計算公式為:
z■■=■(wil)α·x■■/■(wil)α(5)
若Xi=Zl,則wij=1;
若Xi=Zl且j≠l,則wij=0;
若Xi≠Zl,則
wij=■(d(Xi,Zj)/d(Xi,Zl))■■(6)
其中1≤l≤k且1≤j≤p。
(2)分類屬性的聚類中心選擇特征值密度最大值作為聚類中心,滿足如下定義:
z■■=Clj/Nt,1≤l≤k且1≤j≤p(7)
其中參數(shù)Clj表示第t個劃分類中屬性j的每個特征值的頻率數(shù),參數(shù)Nt表示第t個劃分類的樣本數(shù)。
則模糊K-prototypes聚類算法的目標(biāo)函數(shù)F(W,Z)定義如下:
F(W,Z)=■■(wij)α(d1(Xi,Yj)+γ·d2(Xi,Yj))=
■■(wij)α■(x■■-z■■)2+γ·■?啄(x■■,z■■) (8)
其中W=(wij)n×k是一個n×k的模糊劃分矩陣,滿足:0≤wij≤1且■wij=1,參數(shù)γ來調(diào)節(jié)數(shù)值屬性和分類屬性的權(quán)重比例的大小,α為模糊系數(shù),且滿足α∈[1,∞)。
模糊K-prototypes均值聚類算法以下列具體步驟進行迭代:
輸入:混合屬性數(shù)據(jù)集為X,基本參數(shù)分別為最大迭代次數(shù)T,聚類數(shù)目K,誤差閾,模糊系數(shù)α,權(quán)重系數(shù)γ;
輸出:K個聚類集合。
步驟 1:從數(shù)據(jù)集中隨機選取個初始聚類中心;
步驟2:用式(4)計算每個樣本數(shù)據(jù)與初始聚類中心的相異度,然后將樣本數(shù)據(jù)劃分到最近的聚類中心中;
步驟3:用式(6)計算模糊劃分矩陣W;
步驟4:更新數(shù)值屬性與分類屬性的聚類中心。對于數(shù)值型屬性,采用式(5)和(6)進行計算,對于分類型屬性,采用式(7)進行計算;
步驟5:采用式(8)計算目標(biāo)函數(shù)值;
步驟6:如果新的目標(biāo)函數(shù)值與原來的目標(biāo)函數(shù)值之差的絕對值小于誤差閾,且迭代次數(shù)大于T,則停止并輸出聚類結(jié)果,否則,再次更新迭代次數(shù)T=T+1,并轉(zhuǎn)步驟3。
4 算法的改進
由于初始聚類中心的隨機選擇,容易使聚類結(jié)果隨著不同的選擇而變化,導(dǎo)致結(jié)果不穩(wěn)定,同時模糊K-Prototypes聚類算法不易發(fā)現(xiàn)密度不均的數(shù)據(jù)集。針對以上問題,本文對數(shù)值屬性與分類屬性分別采用不同的方法進行初始聚類中心的選擇,假設(shè)樣本數(shù)據(jù)集為X,聚類數(shù)目是K,則具體選擇原則如下:
(1)數(shù)值屬性。采取密度與最大最小距離的方法對數(shù)值屬性進行初始聚類中心的選擇,首先選擇數(shù)據(jù)集中最大的密集點,作為第一個初始聚類中心點,其次再選擇距離第一個初始聚類中心點最遠的點作為第二個初始點,因此得到相距最遠的兩個點Xi與Yj,然后再計算每個樣本點與已確定的每個初始聚類中心的距離,從中選取最小距離的樣本數(shù)據(jù),最后再從最小距離的樣本數(shù)據(jù)中尋找最大距離的樣本點作為聚類中心,直到滿足設(shè)定的聚類數(shù)目。
根據(jù)以上相關(guān)描述給出密度與最大最小距離算法:
Input:A set of numerical data:X, Number of Clusters:K
Output:Clusters
1.X={X1,X2,…,Xn},P={P1,P2,…,Pn}
2.R←■■d(Xi,Yi)/■i
3.For Xi in X DO
4.For XJ in X DO
5.If d(Xi,Yi)≤R Then
6.Pi=Pi+1
7.End for
8.End for
9.Z1←numerical data of Max(Pi)
10.Clusters= Clusters U{Z1}
11.For Xi in X DO
12.dist ←d(Xi,Z1)
13.End for
14.Z2←numerical data of Max(dist)
15.Clusters= Clusters U{Z2},already← the size of
Clusters
16.For i= already to K
17.For Zi in Clusters
18.For Xi in X
19./*dmin is a set of Minimum distance*/
20.dmin←Min(d(Z1,Xi),…,d(Zi,Xi))
21.End for
22.End for
23.Zi←numerical data of Max(dmin)
24.Clusters=Clusters U{Zi},i=i+1
25.End for
26.Return Clusters
(2)分類屬性。借鑒文獻Bai提出的分類屬性初始聚類中心選擇的方法,主要思想為:首先選擇一個高密度點,作為第一個初始聚類中心,其次再選擇一個密度高并且距離第一個初始聚類中心遠的點作為初始聚類中心的標(biāo)本,然后根據(jù)該標(biāo)本構(gòu)建初始聚類中心的候選集,最后從候選集中選擇初始聚類中心,直到滿足設(shè)定的聚類數(shù)目。
根據(jù)以上相關(guān)描述給出高密度點的算法:
Input:A set of categorical data:X,Number of categorical data: n,Number of Clusters:K,A set of attribute:A
Output:Clusters
1. For Xi in X
2.For Ai in A
3./*VAi is the value set of attribute Ai*/
4.For qj in VAi
5.If F(Xi,Ai)==qj Then
6.frij=frij+1
7.End for
8.End for
9.End for
10.For Xi in X
11.dens(Xi) ←■(frij/n-1)
12.End for
13.Z←categorical data of Max(dens(Xi))
14.For i= 1 to K
15.For Xi in X
16.exemplar(Xi)←dens(Xi)+d(Xi,Z)
17.End for
18.U←categorical data of Max(exemplar(Xi))
19.For Xi in X
20.t←d(Xi,U)
21.St=St U{Xi}
22.End for
23.Zi←■(Den(y)+d(y,Z)-d(y,U))
24.Clusters=Clusters U{Zi},i=i+1
25.End for
26.Return Clusters
在改進的模糊K-Prototypes聚類算法中,參數(shù)的選擇對于聚類效果至關(guān)重要,其中模糊系數(shù)以及權(quán)重比例系數(shù)取值的選取,至今仍是一個未定論的問題,參考已有學(xué)者研究成果,本文最終確定α選取為2,γ選取為1.1。
5 實驗與分析
從武漢理工大學(xué)研究生綜合管理系統(tǒng)數(shù)據(jù)庫中選取2015級共1 028名研究生作為樣本數(shù)據(jù),對于每個研究生的培養(yǎng)質(zhì)量情況,參考該高校的終期考核結(jié)果,將研究生分為優(yōu)秀、良好、中等、差四個類別。對所改進的模糊K-Prototypes算法使用C#語言編程實現(xiàn),開發(fā)環(huán)境為Microsoft VS2010。
5.1 數(shù)據(jù)預(yù)處理
由于提出的算法適用于混合屬性,因此為了使不同數(shù)值數(shù)據(jù)相對有意義且減少數(shù)據(jù)之間的差異,采用最小最大規(guī)范化,對每個樣本的數(shù)值屬性用如下公式進行規(guī)范化。
X■■=■(9)
其中,X■■為樣本對象中某一屬性歸一化后的值,Xij為歸一化前的值,Ximin表示同一屬性中所有樣本數(shù)據(jù)的最小值,Ximax表示同一屬性中所有樣本數(shù)據(jù)的最大值。
5.2 實驗過程
將提出的改進模糊K-Prototypes聚類算法應(yīng)用到研究生培養(yǎng)質(zhì)量評估中,具體的聚類過程如下:
第一步,將每個研究生個體看作一個樣本對象,根據(jù)篩選得到的特征屬性,從數(shù)據(jù)庫中提取相應(yīng)的分析數(shù)據(jù)集,其中包含了數(shù)值型屬性的數(shù)據(jù)以及分類型屬性的數(shù)據(jù),如表1至表2所示,從表1中可以看出數(shù)值屬性之間數(shù)據(jù)的差異較大,因此對數(shù)值型屬性進行歸一化,得到歸一化后數(shù)據(jù)的部分結(jié)果如下表3所示。
第二步:聚類算法中涉及到的基本參數(shù)分別取值為:K=4,α=2,γ=1.1,采用提出改進的初始聚類中心方法;
第三步:根據(jù)上一步得到的初始聚類中心,在此基礎(chǔ)上逐個計算樣本對象與初始聚類中心之間的相異度,根據(jù)相異度的大小,對不同的樣本對象進行劃分,最終得到不同的類,每個類中包含特征相似的對象。
5.3 聚類結(jié)果分析
本文采用正確率(Accuracy)來評估算法的聚類質(zhì)量,設(shè)樣本集的樣本數(shù)為n,Ai表示樣本正確分到i類的樣本數(shù),K為聚類數(shù)目,則正確率的計算公式表示如下:
Accuracy=■Ai/n,1≤i≤k(10)
由于不同的權(quán)重系數(shù)會影響聚類效果,選取不同的值對改進的模糊K-Prototypes聚類算法進行實驗分析,實驗結(jié)果如下表5所示。
從表4中可以看出,當(dāng)權(quán)重系數(shù)為0.9時,改進的模糊K-Prototypes聚類算法達到最佳的聚類結(jié)果,同時驗證了改進算法在研究生培養(yǎng)質(zhì)量評估應(yīng)用中的有效性。
對模糊K-Prototypes聚類算法和改進后的聚類算法進行對比實驗,由于模糊K-Prototypes聚類算法的初始聚類中心是隨機選擇的,不同的初始聚類中心對算法會產(chǎn)生不同的聚類效果,因此對權(quán)重系數(shù)選取不同的取值,同時選取相同的實驗次數(shù)進行實驗,最終得到平均正確率,改進前后模糊K-Prototypes聚類算法的聚類效果對比。當(dāng)權(quán)重系數(shù)為1.3時,模糊K-Prototypes聚類算法的正確率達到最高,然而通過對比分析實驗結(jié)果,在不同權(quán)重系數(shù)的取值下,改進后的模糊K-Prototypes聚類算法正確率都高于未改進前的算法,由此,體現(xiàn)了改進算法的優(yōu)越性。
5.4 實例結(jié)果分析與評估
由上述的聚類實驗結(jié)果可知,改進的模糊K-Prototypes聚類算法在研究生培養(yǎng)質(zhì)量評估的應(yīng)用中最高正確率達到78.54%,則本文以最好的聚類效果為例,對每類中研究生所體現(xiàn)出的共性特征進行描述分析。從學(xué)生的整體成績水平、答辯情況、論文情況、綜合技能、參與科研項目情況以及學(xué)生導(dǎo)師的學(xué)術(shù)水平情況等多個方面進行對比分析,通過整理和統(tǒng)計數(shù)據(jù),得到部分相關(guān)統(tǒng)計。為了更清楚地顯示各個類之間的群體特征,則研究生培養(yǎng)質(zhì)量數(shù)據(jù)聚類統(tǒng)計結(jié)果如表5所示,得到如下結(jié)論。
(1)第一類中一共有162名研究生。通過整體的共同特征可以看出,整體的平均成績處于中等偏上,但是答辯成績都低于其他類中的整體水平,而且發(fā)現(xiàn)該類學(xué)生98.2%沒有發(fā)表論文,同時94.5%的學(xué)生科研成果情況較差,在綜合技能方面,40.9%的同學(xué)處于較差的水平,學(xué)生的導(dǎo)師學(xué)術(shù)水平較其他類偏低,導(dǎo)師類別博導(dǎo)占63.6%??偟膩碚f,這類研究生的培養(yǎng)質(zhì)量較差。
(2)第二類中一共有87名研究生。該類學(xué)生的整體平均成績與答辯成績都高于其他類的整體水平,在發(fā)表論文方面,83.9%的研究生發(fā)表過一類等級的論文,發(fā)表論文較為優(yōu)秀,發(fā)表論文的檢索等級多為SCI,同時均已發(fā)表過兩篇或多篇EI級別的論文,其中發(fā)表3篇以上論文的學(xué)生占4.6%,在學(xué)生科研成果情況方面,48.6%的學(xué)生處于中等水平,但是在綜合技能方面卻一般,這類學(xué)生的導(dǎo)師水平較高,且88.6%的導(dǎo)師是博導(dǎo)??偟膩碚f,這類研究生的培養(yǎng)質(zhì)量較優(yōu)秀。
(3)第三類中一共有367名研究生。該類學(xué)生的整體平均成績與答辯成績都處于中等偏上水平,在校期間69.5%的學(xué)生發(fā)表過二類等級以上的論文,其中發(fā)表3篇以上的占1.09%,但是在科研成果以及綜合技能方面,研究生都處于較差的水平,學(xué)生的導(dǎo)師學(xué)術(shù)水平處于中等偏上,且75.6%的導(dǎo)師是博導(dǎo)??偟膩碚f,這類研究生的培養(yǎng)質(zhì)量良好。
(4)第四類中一共有412名研究生。從學(xué)生的平均成績來看,該類學(xué)生整體成績處于中等偏下的水平,學(xué)生整體答辯情況處于中等水平,發(fā)表論文方面,29.4%的學(xué)生發(fā)表過論文,且23.54%的研究生發(fā)表情況一般,發(fā)表過三類等級的論文,在校期間,整體科研情況處于中等水平,但56.5%的研究生綜合技能較差,學(xué)生的導(dǎo)師學(xué)術(shù)水平處于中等水平,且該類學(xué)生大多數(shù)導(dǎo)師是博導(dǎo)??偟膩碚f,這類研究生的培養(yǎng)質(zhì)量處于中等。
由此,根據(jù)上述結(jié)論得出以下建議:
(1)導(dǎo)師的學(xué)術(shù)水平是影響研究生培養(yǎng)質(zhì)量的重要因素,因此,學(xué)校要加強對導(dǎo)師的定期考核,不斷促進導(dǎo)師自身的學(xué)術(shù)水平。
(2)發(fā)表論文情況與學(xué)生答辯情況成正相關(guān),因此,學(xué)校要鼓勵學(xué)生積極發(fā)表高質(zhì)量水平的論文,為學(xué)位論文的撰寫打下堅實的基礎(chǔ)。
(3)學(xué)生的綜合技能水平都較差,學(xué)校應(yīng)該培養(yǎng)學(xué)生的綜合素質(zhì),從側(cè)面引導(dǎo)學(xué)生的主動性與創(chuàng)造能力,從而有效地促進研究生培養(yǎng)質(zhì)量的提高。
6 結(jié) 語
針對研究生培養(yǎng)質(zhì)量數(shù)據(jù)的特點,提出了改進的模糊K-Prototypes聚類算法,并將該算法應(yīng)用到研究生培養(yǎng)質(zhì)量評估中,同時構(gòu)建了研究生培養(yǎng)質(zhì)量評估指標(biāo),實驗結(jié)果表明,不僅驗證了算法的有效性,而且體現(xiàn)了改進后算法的優(yōu)越性。使用該算法,對研究生培養(yǎng)質(zhì)量進行聚類分析之后,將其劃分成不同類別的研究生,從中獲得每類研究生群體培養(yǎng)質(zhì)量的特征,找到影響研究生培養(yǎng)質(zhì)量的主要因素,為高校管理部門提供決策支持,同時起到監(jiān)控、監(jiān)督的作用。
主要參考文獻
[1]金麗,萬洪英,劉海清,等.研究生培養(yǎng)過程監(jiān)控和預(yù)警系統(tǒng)應(yīng)用初探[J].研究生教育研究,2011,5(3):31-36.
[2]張鈺莎.數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量評估中的應(yīng)用研究[D].廣州:暨南大學(xué),2012.
[3]蔡捷.數(shù)據(jù)挖掘聚類算法的研究及其在研究生培養(yǎng)質(zhì)量評估中的應(yīng)用[D].南京:東南大學(xué),2014.