劉蓮花
(海南醫(yī)學(xué)院公共衛(wèi)生學(xué)院,海南 ???571199 )
主成分聚類分析法在數(shù)學(xué)中文核心期刊綜合評價(jià)中的應(yīng)用
劉蓮花
(海南醫(yī)學(xué)院公共衛(wèi)生學(xué)院,海南 海口 571199 )
指出了目前主成分分析法在期刊綜合評價(jià)中的誤用情況,并采用主成分分析法對17種數(shù)學(xué)中文核心期刊進(jìn)行了綜合評價(jià),當(dāng)?shù)谝恢鞒煞址讲钬暙I(xiàn)率不夠時,采用了主成分聚類分析法進(jìn)行排名,給出了第一主成分、綜合主成分及主成分聚類法的排名,最后分析了主成分聚類方法的有效性。
主成分聚類分析;綜合評價(jià);數(shù)學(xué)期刊
學(xué)術(shù)期刊評價(jià)是通過對學(xué)術(shù)期刊的發(fā)展規(guī)律和增長趨勢進(jìn)行定量分析以反映期刊的學(xué)術(shù)水平與影響力,為優(yōu)化學(xué)術(shù)期刊的使用與科技評價(jià)提供重要參考,同時可以提高學(xué)術(shù)期刊的內(nèi)在質(zhì)量,促進(jìn)學(xué)術(shù)期刊的健康成長和發(fā)展。因此,客觀公正地對學(xué)術(shù)期刊進(jìn)行評價(jià),反映學(xué)術(shù)期刊的真實(shí)水平與影響力越來越受到學(xué)者們的重視。
目前,國內(nèi)不少學(xué)者將主成分分析法[1~3]、因子分析法[4]、屬性識別法[5]等綜合評價(jià)方法應(yīng)用于科技期刊評價(jià)中,其中主成分評價(jià)方法應(yīng)用得最多,但不少文章存在誤用的情況,如沒有進(jìn)行主成分分析適用性檢驗(yàn),反向指標(biāo)沒有進(jìn)行正向化處理,還有的誤將因子得分當(dāng)成主成分得分等。并且利用主成分分析法進(jìn)行期刊綜合評價(jià)時,大部分學(xué)者都是利用綜合主成分得分進(jìn)行綜合評價(jià),然而數(shù)理統(tǒng)計(jì)學(xué)界一般都主張采用第一主成分進(jìn)行綜合評價(jià),如孟生旺[6]從幾何投影角度闡明在多指標(biāo)綜合評價(jià)中只有第一主成分綜合原始數(shù)據(jù)的信息最多;蘇為華[7]認(rèn)為只有第一主成分才是揭示“評價(jià)信息”,其他主成分只是“形態(tài)因子”,不具有綜合評價(jià)功能;徐雅靜[8]、張虎[9]、王學(xué)民[10]等也都認(rèn)為只能用第一主成分進(jìn)行綜合評價(jià)。因此,在用主成分方法進(jìn)行期刊綜合評價(jià)時,應(yīng)該只采用第一主成分得分進(jìn)行評價(jià)。徐雅靜還提出如果第一主成分方差貢獻(xiàn)率不夠高,可采用“主成分聚類分析法”進(jìn)行綜合評價(jià)。鑒于以上分析,筆者對17種數(shù)學(xué)中文核心期刊采用主成分聚類分析法進(jìn)行了綜合評價(jià),并與第一主成分和綜合主成分排序結(jié)果進(jìn)行比較,希望能對提高數(shù)學(xué)期刊的綜合質(zhì)量有所幫助。
以《中文核心期刊要目總覽》(2012年版)刊登的17種數(shù)學(xué)中文核心期刊為對象,以科學(xué)技術(shù)文獻(xiàn)出版社《2013年版中國期刊引證報(bào)告(擴(kuò)刊版)》[11]提供的7項(xiàng)計(jì)量指標(biāo)為原始數(shù)據(jù)進(jìn)行分析評價(jià)。該7項(xiàng)指標(biāo)的含義如表1所示,具體數(shù)據(jù)如表2所示。
1)指標(biāo)的正向化[12]。因?yàn)楸灰胨テ趚6是反向指標(biāo),采用倒數(shù)化進(jìn)行正向化處理,正向化后的指標(biāo)設(shè)為y6。
2)指標(biāo)的標(biāo)準(zhǔn)化。為了消除原始數(shù)據(jù)數(shù)量級和量綱的差異,將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的變量記為zi。
表2 17種數(shù)學(xué)核心期刊的7項(xiàng)計(jì)量指標(biāo)原始數(shù)據(jù)
進(jìn)行主成分分析首先要進(jìn)行KMO和Bartlett檢驗(yàn),KMO取值在0~1,該值越大,表明數(shù)據(jù)越適合做主成分分析,且一般要求該值大于0.5。研究中采用SPSS19.0進(jìn)行檢驗(yàn),KMO值為0.651,符合主成分分析要求,且Bartlett檢驗(yàn)的顯著性水平遠(yuǎn)小于0.05,所以說明相關(guān)矩陣不是單位陣,2種檢驗(yàn)結(jié)果都表明原始數(shù)據(jù)適合于進(jìn)行主成分分析。
利用SPSS 19.0的Factor Analyze 進(jìn)行分析,通過計(jì)算,可得各指標(biāo)相關(guān)系數(shù)矩陣的特征值和方差及累計(jì)貢獻(xiàn)率,如表3所示。由表3可知,前3個主成分累計(jì)貢獻(xiàn)率為88.327%,根據(jù)累計(jì)貢獻(xiàn)率大于85%的原則,故選取前3個主成分。其初始因子載荷如表4所示,將表中的每一列向量除以其對應(yīng)的特征值的平方根,就得到相應(yīng)的主成分的系數(shù)向量。
利用主成分系數(shù),可得各主成分表達(dá)式如下:
F1=0.484z1+0.274z2+0.484z3+0.143z4+0.484z5+0.179z6+0.412z7
(1)
F2=-0.153z1+0.486z2-0.133z3+0.536z4-0.133z5-0.598z6+0.243z7
(2)
F3=0.014z1-0.301z2-0.067z3+0.819z4-0.067z5+0.458z6-0.140z7
(3)
取前3個主成分各自的方差貢獻(xiàn)率為權(quán)重,可得綜合主成分表達(dá)式如下:
F=0.56265F1+0.22115F2+0.09948F3
(4)
表5 前3個主成分得分及綜合得分
將各期刊標(biāo)準(zhǔn)化后的數(shù)據(jù)帶入式(1)~(4),即可得每種期刊的前3個主成分得分和綜合主成分得分,如表5所示。
因?yàn)榈谝恢鞒煞址讲钬暙I(xiàn)率僅為56.265%,一般只有當(dāng)?shù)谝恢鞒煞重暙I(xiàn)率較高(85%以上)時,才可以僅按第一主成分得分進(jìn)行綜合排序評價(jià),否則會有片面性,此時可以將主成分分析與聚類分析2種統(tǒng)計(jì)方法結(jié)合起來,采用“主成分聚類分析法”。聚類分析是將樣品或變量按照它們性質(zhì)上的親疏相似程度進(jìn)行分類的一種方法,這樣通過聚類分析就可以將期刊按照它們的相近程度進(jìn)行分類,但是并不能得到各類優(yōu)劣程度的排序。主成分聚類即先主成分分析,再取若干主成分對樣品進(jìn)行聚類分析,然后結(jié)合第一主成分得分對樣品進(jìn)行分類排序,由此得到一種新的綜合評價(jià)方法,具體步驟如下:
1)按照累計(jì)貢獻(xiàn)率選定前r個主成分,計(jì)算主成分得分;
2)對選定的主成分矩陣(F1,F(xiàn)2,…,F(xiàn)r)進(jìn)行系統(tǒng)聚類分析;
3)計(jì)算各類中第一主成分得分的平均值確定類間排序;
4)根據(jù)類中各樣品的第一主成分,確定每類中樣品排序,得到綜合排序。對表5中的3個主成分得分矩陣(F1,F(xiàn)2,F(xiàn)3)進(jìn)行系統(tǒng)聚類分析,聚類方法采用最小方差法,距離度量選擇歐式平方距離。聚類結(jié)果如下:
第1類:數(shù)學(xué)的實(shí)踐與認(rèn)識;
第2類:中國科學(xué)、模糊系統(tǒng)與數(shù)學(xué);
第3類:數(shù)學(xué)學(xué)報(bào)、應(yīng)用數(shù)學(xué)學(xué)報(bào)、系統(tǒng)科學(xué)與數(shù)學(xué)、工程數(shù)學(xué)學(xué)報(bào)、數(shù)學(xué)物理學(xué)報(bào)、數(shù)學(xué)進(jìn)展;
第4類:計(jì)算數(shù)學(xué)、高校應(yīng)用數(shù)學(xué)學(xué)報(bào)A輯、數(shù)學(xué)年刊A輯;
第5類:數(shù)學(xué)雜志、應(yīng)用數(shù)學(xué)、應(yīng)用概率統(tǒng)計(jì)、高等學(xué)校計(jì)算數(shù)學(xué)學(xué)報(bào)、運(yùn)籌學(xué)學(xué)報(bào)。
進(jìn)一步按主成分聚類方法進(jìn)行類間與類內(nèi)排序,最終主成分聚類排名和第一主成分及綜合主成分排名如表6所示。
表6 各種方法的綜合評價(jià)排序結(jié)果
從表6可知,基于第一主成分分析的綜合排名與基于主成分聚類分析法的綜合排名比較接近,而綜合主成分排名的差異則較大。如無論按照第一主成分方法還是主成分聚類分析法排名,模糊系統(tǒng)與數(shù)學(xué)的排名都在數(shù)學(xué)學(xué)報(bào)的前面,但是綜合主成分排名卻相反,觀察原始數(shù)據(jù)可以看出,模糊系統(tǒng)與數(shù)學(xué)在5個指標(biāo)方面都優(yōu)于數(shù)學(xué)學(xué)報(bào),只有“總被引頻次”和“學(xué)科影響指標(biāo)”低于數(shù)學(xué)學(xué)報(bào),理應(yīng)排在數(shù)學(xué)學(xué)報(bào)的前面,數(shù)學(xué)物理學(xué)報(bào)和計(jì)算數(shù)學(xué)也是類似的情況,因此進(jìn)一步說明了綜合主成分排名是不合理的。第一主成分分析排名與主成分聚類分析排名在計(jì)算數(shù)學(xué)與數(shù)學(xué)進(jìn)展這2種期刊上的排名有差異,分析原始數(shù)據(jù)發(fā)現(xiàn)數(shù)學(xué)進(jìn)展在5項(xiàng)指標(biāo)上都優(yōu)于計(jì)算數(shù)學(xué),理當(dāng)排在計(jì)算數(shù)學(xué)之前,同理,高校應(yīng)用數(shù)學(xué)A輯也應(yīng)排于數(shù)學(xué)雜志之前。也即用主成分聚類分析方法所得的排名比用第一主成分分析方法所得的排名更加合理。
采用主成分分析法對17種數(shù)學(xué)中文核心期刊進(jìn)行了綜合評價(jià),并且當(dāng)?shù)谝恢鞒煞址讲钬暙I(xiàn)率不夠時,采用了主成分聚類分析法進(jìn)行排名。結(jié)果表明,利用主成分聚類方法進(jìn)行期刊綜合評價(jià)是行之有效的,具有科學(xué)性和可操作性。
[1]張弘,趙惠祥,劉燕萍,等.基于主成分分析法的科技期刊評價(jià)方法[J].編輯學(xué)報(bào),2008,20(1):87~90.
[2] 辛督強(qiáng).基于主成分分析的13種力學(xué)類中文期刊綜合評價(jià)[J].中國科技期刊研究,2012,2(2):224~227.
[3] 李紅.基于主成分分析法的上??萍计诳判蜓芯縖J].中國科技期刊研究,2009,20(1):57~62.
[4] 辛督強(qiáng),韓國秀.因子分析法在科技期刊綜合評價(jià)中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2014,33(1):116~121.
[5] 林春艷, 莫琳. 自然科學(xué)學(xué)術(shù)期刊質(zhì)量指標(biāo)體系的屬性數(shù)學(xué)綜合評價(jià)模型[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2004,(5):1~7.
[6] 孟生旺.用主成分分析法進(jìn)行多指標(biāo)綜合評價(jià)應(yīng)注意的問題[J].統(tǒng)計(jì)研究,1992,(4):67~68.
[7] 蘇為華.多指標(biāo)綜合評價(jià)理論與方法問題研究[D].廈門大學(xué),2000.
[8] 徐雅靜,汪遠(yuǎn)征.主成分分析應(yīng)用方法的改進(jìn)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2006,36(6):68~75.
[9] 張虎,劉吉普.主成分分析方法用于系統(tǒng)評估的若干問題研究[J].統(tǒng)計(jì)與決策,2009,(13):11~13.
[10] 王學(xué)民.對主成分分析中綜合得分方法的質(zhì)疑[J].統(tǒng)計(jì)與決策,2007,4:31~32.
[11] 中國科學(xué)技術(shù)信息研究所. 2013年版中國期刊引證報(bào)告(擴(kuò)刊版)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2013.
[12] 俞立平,潘云濤,武夷山.學(xué)術(shù)期刊綜合評價(jià)數(shù)據(jù)標(biāo)準(zhǔn)化方法研究[J].圖書情報(bào)工作,2009,53(53):136~139.
[編輯] 張濤
2016-07-27
海南省教育廳科學(xué)研究項(xiàng)目(Hnky2016-30)。
劉蓮花(1983-),女,碩士,講師,現(xiàn)主要從事綜合評價(jià)理論及應(yīng)用方面的研究工作;E-mail:26734799@qq.com。
O212
A
1673-1409(2016)31-0009-04
[引著格式]劉蓮花.主成分聚類分析法在數(shù)學(xué)中文核心期刊綜合評價(jià)中的應(yīng)用[J].長江大學(xué)學(xué)報(bào)(自科版),2016,13(31):9~12.