呂巖威,樓賢駿,李 平
(1.山東大學(xué)(威海)商學(xué)院,山東威海 264209;2.中國社會科學(xué)院 數(shù)量經(jīng)濟與技術(shù)經(jīng)濟研究所,北京100732)
作為數(shù)據(jù)挖掘領(lǐng)域的重要分支,聚類分析技術(shù)近年來正得到蓬勃發(fā)展。聚類分析是通過數(shù)學(xué)方法研究樣本數(shù)據(jù)在內(nèi)在特征上的相似性與差異性,將樣本劃分成若干個不同的類型,從而發(fā)現(xiàn)樣本數(shù)據(jù)的分布規(guī)律和數(shù)據(jù)屬性之間相互關(guān)系的多元統(tǒng)計方法。作為一種無監(jiān)督學(xué)習(xí)方法,如何在沒有任何先驗信息的指導(dǎo)下,實現(xiàn)高效率、高質(zhì)量分類是學(xué)者們關(guān)注的重點。目前學(xué)術(shù)界已從不同角度提出了多種聚類分析方法,在眾多聚類分析方法中,傳統(tǒng)聚類分析方法假設(shè)條件較多,要求樣本指標(biāo)之間權(quán)重相同并且相互獨立,在實際應(yīng)用中存在諸多局限。于是許多學(xué)者關(guān)注于對傳統(tǒng)聚類分析方法的改進研究。呂巖威和李平(2016)提出了加權(quán)主成分距離聚類分析法[1],從理論層面解決了上述聚類分析方法存在的問題,但尚未將該方法應(yīng)用于實踐檢驗。有鑒于此,本文擬進一步運用該方法對2014年中國各省份經(jīng)濟發(fā)展質(zhì)量進行分類,從可解釋性與統(tǒng)計檢驗兩個層面檢驗該方法在實踐應(yīng)用中的分類效果,最后以該方法所得分類結(jié)果為基準,對各類別省份經(jīng)濟發(fā)展質(zhì)量進行主成分評價,指出其發(fā)展的側(cè)重點,為各地區(qū)經(jīng)濟發(fā)展提供參考和借鑒。
對經(jīng)濟發(fā)展質(zhì)量的評估是一個動態(tài)過程,唯有以經(jīng)濟發(fā)展的階段性特征為基礎(chǔ),選擇科學(xué)的評價指標(biāo)和評價方法,才能有針對性地對我國各省份經(jīng)濟發(fā)展質(zhì)量進行科學(xué)評價。當(dāng)前,中國經(jīng)濟發(fā)展正步入以“中高速、優(yōu)結(jié)構(gòu)、新動力、多挑戰(zhàn)”為特征的新常態(tài),結(jié)合經(jīng)濟新常態(tài)的基本特征,分別從經(jīng)濟水平、產(chǎn)業(yè)結(jié)構(gòu)、需求結(jié)構(gòu)、城鄉(xiāng)區(qū)域結(jié)構(gòu)、創(chuàng)新效率、可持續(xù)發(fā)展六大方面著手,構(gòu)建中國各省份經(jīng)濟發(fā)展質(zhì)量評價指標(biāo)體系①指標(biāo)體系中各二級指標(biāo)數(shù)據(jù)均來源于2015年《中國統(tǒng)計年鑒》、《中國科技統(tǒng)計年鑒》和《中國環(huán)境統(tǒng)計年鑒》。,指標(biāo)體系中的一級指標(biāo)和二級指標(biāo)如表1所示。
表1 中國各省份經(jīng)濟發(fā)展質(zhì)量評價指標(biāo)體系
對表1中各級指標(biāo)的具體說明如下:
(1)經(jīng)濟水平:采用人均GDP指標(biāo)衡量。人均GDP是衡量一國(地區(qū))經(jīng)濟水平的基本指標(biāo),人均GDP處于不同階段的地區(qū),其經(jīng)濟發(fā)展驅(qū)動力也有顯著差異。
(2)產(chǎn)業(yè)結(jié)構(gòu):根據(jù)佩蒂—克拉克定律,隨著經(jīng)濟的發(fā)展,勞動力將呈現(xiàn)首先由第一產(chǎn)業(yè)向第二產(chǎn)業(yè)轉(zhuǎn)移,再向第三產(chǎn)業(yè)轉(zhuǎn)移的演進趨勢。因此以第一產(chǎn)業(yè)增加值占GDP比重、第三產(chǎn)業(yè)增加值占GDP比重反映產(chǎn)業(yè)結(jié)構(gòu)指標(biāo)。
(3)需求結(jié)構(gòu):當(dāng)前中國經(jīng)濟結(jié)構(gòu)存在的一個重要問題就是消費需求不足,經(jīng)濟增長過于依賴投資需求。因此以居民消費占GDP的比重反映需求結(jié)構(gòu)的協(xié)調(diào)狀況。
(4)城鄉(xiāng)區(qū)域結(jié)構(gòu):城鄉(xiāng)區(qū)域協(xié)調(diào)發(fā)展是實現(xiàn)經(jīng)濟發(fā)展方式轉(zhuǎn)變的內(nèi)在要求和重要內(nèi)容,因此以農(nóng)村與城鎮(zhèn)人均收入比和城市化率反映各地區(qū)城鄉(xiāng)區(qū)域結(jié)構(gòu)。
(5)創(chuàng)新效率:促進經(jīng)濟發(fā)展應(yīng)由主要依靠增加物質(zhì)資源消耗向主要依靠科技進步、勞動者素質(zhì)提高、管理創(chuàng)新轉(zhuǎn)變。因此以R&D經(jīng)費投入占GDP比重、單位資本產(chǎn)出與千人專利申請量反映科技投入與產(chǎn)出狀況。
(6)可持續(xù)發(fā)展:實現(xiàn)可持續(xù)發(fā)展必須降低物質(zhì)、資源消耗,全面促進資源節(jié)約和環(huán)境保護。因此以單位二氧化硫排放產(chǎn)值、萬元GDP能耗降低率反映可持續(xù)發(fā)展指標(biāo)。
考慮到指標(biāo)之間量綱不同且數(shù)量級相差較大,首先對原始數(shù)據(jù)進行標(biāo)準化處理,并進行KMO檢驗和BARTLETT檢驗,計算出BARTLETT檢驗統(tǒng)計量為282.449,相應(yīng)的概率值接近0,可認為相關(guān)系數(shù)矩陣與單位矩陣有顯著差異。同時,KMO值為0.701,表明指標(biāo)之間確實存在高度相關(guān)性,適合進行主成分分析。應(yīng)用主成分分析法提取主成分因子,特征值大于1的主成分因子共有3個,其累計的方差貢獻率達到80.356%,說明3個主成分因子能夠解釋原指標(biāo)變量的絕大多數(shù)信息。所提取主成分因子的特征值、方差貢獻率和因子載荷矩陣見表2。
表2 主成分因子分析結(jié)果
表2結(jié)果顯示,第一主成分因子在人均GDP、第一產(chǎn)業(yè)增加值占GDP比重、第三產(chǎn)業(yè)增加值占GDP比重、城市化率、農(nóng)村與城鎮(zhèn)人均收入比、R&D經(jīng)費投入占GDP比重、單位資本產(chǎn)出、千人專利申請量8個指標(biāo)上的荷載值都很大,這些指標(biāo)主要反映了經(jīng)濟水平、產(chǎn)業(yè)結(jié)構(gòu)、城鄉(xiāng)區(qū)域結(jié)構(gòu)和創(chuàng)新效率狀況,因此將其命名為綜合因子。第二主成分因子在單位二氧化硫排放產(chǎn)值、萬元GDP能耗降低率上的荷載值很大,主要反映了資源節(jié)約與環(huán)境保護狀況,因此將其命名為可持續(xù)發(fā)展因子。第三主成分因子在居民消費占GDP比重指標(biāo)上的荷載值很大,主要反映了消費狀況,因此將其命名為需求結(jié)構(gòu)因子。就3個主成分因子所含信息量來看,第一主成分因子的方差貢獻率為51.892%,是第二、三主成分因子方差貢獻率的3倍以上,說明第一主成分因子與第二、三主成分因子對分類重要性的差異較大,如果不考慮各主成分因子對分類重要性的客觀差異,將會導(dǎo)致分類結(jié)果精度降低。
為增強不同聚類分析方法之間的可對比性,統(tǒng)一以歐氏距離作為樣本間相似程度的統(tǒng)計量、以Ward方法測度類間距離,并將31個省份分為5類地區(qū),各聚類分析方法所得分類結(jié)果如表3所示。分類結(jié)果顯示,各聚類分析方法基本均能夠?qū)⒈本?、上海、天津、江蘇、浙江、廣東與其他省份分開,其原因在于上述六省市的各項指標(biāo)數(shù)值總體上均遠遠領(lǐng)先于其他省份,與其他省份之間的界限較為明顯。另一方面,各聚類分析方法基本均將海南、西藏、青海、新疆歸為第五類地區(qū),說明這些省份的各項指標(biāo)數(shù)值總體上落后于其他省份,與其他省份之間的差距較大。而其余21個省份的各項指標(biāo)數(shù)值離散程度較小,在聚類空間的分布密集,各聚類分析方法的分類結(jié)果也存在較大的差異,具體體現(xiàn)在歸屬第三類地區(qū)的省份數(shù)量很多,且歸屬類別的規(guī)律性不明顯。
從各聚類分析方法分類結(jié)果的差異看,第一主成分聚類分析方法與加權(quán)主成分聚類分析方法的分類結(jié)果十分相似,兩種方法只是在對山東、河南和寧夏3個省份的分類上產(chǎn)生差別。即在第一主成分聚類分析方法的分類結(jié)果中,山東被劃為第三類地區(qū),河南和寧夏被歸為第五類地區(qū),但在加權(quán)主成分聚類分析方法的分類結(jié)果中,山東被劃為第四類地區(qū),河南和寧夏被歸為第三類地區(qū),兩種方法對其余省份的分類結(jié)果完全一致。究其原因在于加權(quán)主成分聚類分析方法放大了第一主成分因子對分類的重要性,而削弱了其他主成分因子對分類的作用,從而使得加權(quán)主成分聚類分析方法的分類結(jié)果近似于第一主成分聚類分析方法。
表3 中國各省份經(jīng)濟發(fā)展質(zhì)量的分類結(jié)果
另一方面,加權(quán)主成分距離聚類分析方法與傳統(tǒng)聚類分析方法的分類結(jié)果較為相似,加權(quán)主成分距離聚類分析方法只是將傳統(tǒng)聚類分析方法分類結(jié)果中的廣西和青海由第三類地區(qū)分別歸類到第四類地區(qū)和第五類地區(qū),兩種方法對其余省份的分類結(jié)果完全一致。這說明加權(quán)主成分距離聚類分析方法科學(xué)、準確地賦予了各主成分因子對分類結(jié)果的權(quán)重分配系數(shù),從而使得其分類結(jié)果顯著不同于其他主成分聚類分析方法,反而與傳統(tǒng)聚類分析方法的分類結(jié)果更為接近。這也說明了由于其他主成分聚類分析方法放大或縮小了各主成分因子對分類重要性的作用,在各主成分因子特征權(quán)重差異較大時,傳統(tǒng)聚類分析方法的分類效果并不一定劣于其他主成分聚類分析方法。
尤需引起注意的是,一般主成分聚類分析方法的分類結(jié)果與其他所有聚類分析方法的分類結(jié)果均有較大差異。一是,一般主成分聚類分析方法將北京、上海、江蘇、浙江、廣東歸為第一類地區(qū),將天津、河北等8個省份歸為第二類地區(qū)。而其他聚類分析方法則均將北京、上海與天津、江蘇、浙江、廣東區(qū)分開,分別作為第一、二類地區(qū)。結(jié)合原始數(shù)據(jù)不難發(fā)現(xiàn),除農(nóng)村人均收入/城鎮(zhèn)人均收入、R&D經(jīng)費投入占GDP比重指標(biāo)外,北京、上海的其他指標(biāo)基本都領(lǐng)先于天津、江蘇、浙江和廣東,將這些省份劃歸為一類地區(qū)不盡合理。二是,一般主成分聚類分析方法所劃分的第二、三類地區(qū)內(nèi)的各省份絕大部分為其他聚類分析方法所劃分的第三類地區(qū)內(nèi)的省份,這些省份之間的各項指標(biāo)數(shù)值相差不大,將其劃分為兩類地區(qū)難以解釋。導(dǎo)致上述分類結(jié)果出現(xiàn)的原因在于,一般主成分聚類分析方法以等權(quán)的主成分因子代替原始指標(biāo)直接進行聚類,未區(qū)分各主成分因子對分類重要性的差異,從而產(chǎn)生了明顯不合理的分類結(jié)果。
進一步對加權(quán)主成分距離聚類分析方法的分類結(jié)果進行統(tǒng)計檢驗,從定量角度考察該方法的分類質(zhì)量。根據(jù)系統(tǒng)聚類法的指導(dǎo)思想,一個合理的聚類應(yīng)當(dāng)以保持類內(nèi)相似性最大化以及類間相似性最小化為目標(biāo),使得類內(nèi)樣本之間的離差平方和盡可能小,類與類之間的離差平方和盡可能大。因此,本文運用方差分析法測算了加權(quán)主成分距離聚類分析方法分類結(jié)果的總類內(nèi)離差平方和、總類間離差平方和和F檢驗統(tǒng)計量,進而與其他聚類分析方法分類結(jié)果的F檢驗統(tǒng)計量相比較,結(jié)果如表4所示。
表4 各種聚類分析方法分類結(jié)果的統(tǒng)計檢驗
F檢驗統(tǒng)計量為經(jīng)自由度調(diào)整之后的總類間離差平方和與總類內(nèi)離差平方和之比,其值越大,表明分類結(jié)果的類間距離相對較大、類內(nèi)距離相對較小,分類準確度越高;反之,則分類準確度越低。根據(jù)表4中F檢驗統(tǒng)計量的計算結(jié)果,可以得出以下結(jié)論:
(1)一般主成分聚類分析方法分類結(jié)果的F值最低,僅為46.825,分類效果明顯劣于其他聚類分析方法。這再次說明在各主成分因子信息含量相差較大的情況下,如果忽略不同主成分因子對分類重要性的客觀差異,以等權(quán)的主成分因子代替原始指標(biāo)直接進行聚類,并不必然提高分類的質(zhì)量。事實上,由于指標(biāo)之間往往存在高度相關(guān)性,所提取的第一主成分因子的方差貢獻率通常會遠大于其他主成分因子,因而一般主成分聚類分析方法更多地表現(xiàn)為低效率的分類結(jié)果。
(2)加權(quán)主成分聚類分析方法和第一主成分聚類分析方法分類結(jié)果的F值分別為52.022和48.179,高于一般主成分聚類分析方法分類結(jié)果的F值46.825,但卻低于傳統(tǒng)聚類分析方法分類結(jié)果的F值(58.589)。這一方面說明加權(quán)主成分聚類分析方法考慮了各主成分因子信息含量的差異性,較已有主成分聚類分析方法的分類效果有所提高。另一方面也說明加權(quán)主成分聚類分析方法放大了第一主成分因子對分類的重要性,而削弱了其他主成分因子對分類的作用,其分類結(jié)果同樣也存在失真問題,因此該方法的分類結(jié)果也并不一定優(yōu)于傳統(tǒng)聚類分析方法。
(3)相比其他聚類分析方法,加權(quán)主成分距離聚類分析方法分類結(jié)果的F值最高,為60.887,其分類效果明顯優(yōu)于其他聚類分析方法。這主要是由于加權(quán)主成分距離聚類分析方法一方面簡化了數(shù)據(jù)結(jié)構(gòu),消除了指標(biāo)相關(guān)性帶來的影響,另一方面又考慮了各主成分因子信息含量的差異,并科學(xué)、準確地賦予了各主成分因子對分類結(jié)果的權(quán)重分配系數(shù),因此其所得分類結(jié)果更為客觀、可信。
鑒于加權(quán)主成分距離聚類分析方法的優(yōu)勢,以此方法所得分類結(jié)果為基準,對中國各省份經(jīng)濟發(fā)展質(zhì)量進行主成分綜合評價。為便于分析,這里將這五類地區(qū)劃分為三個梯隊:第一梯隊包括第一類地區(qū)和第二類地區(qū)的省份;第二梯隊包括第三類地區(qū)的省份;第三梯隊包括第四類地區(qū)和第五類地區(qū)的省份。從而計算出各梯隊主成分因子得分均值和主成分綜合得分均值,結(jié)果如表5所示。
表5 中國各省份經(jīng)濟發(fā)展質(zhì)量的主成分得分結(jié)果
結(jié)合表5結(jié)果,分別從各主成分因子得分和主成分綜合得分兩個方面分析不同梯隊省份經(jīng)濟發(fā)展質(zhì)量的特征和異同,并指出其發(fā)展的側(cè)重點。
2.3.1 主成分因子得分分析
在綜合因子方面,第一、二、三梯隊的省份得分均值分別為4.253、-0.435、-2.264,第一梯隊的得分遠高于第二梯隊和第三梯隊。這反映了第一梯隊的省份市場經(jīng)濟起步較早,在經(jīng)濟水平、產(chǎn)業(yè)結(jié)構(gòu)、城鄉(xiāng)結(jié)構(gòu)和創(chuàng)新效率等方面均保持了較高的水平。同時由第一梯隊的省份以點帶面輻射,由北向南依次形成了以北京為中心的首都經(jīng)濟圈、以上海為中心的長三角經(jīng)濟圈及以廣東為中心的珠三角經(jīng)濟圈。另一方面,從梯隊內(nèi)各省份的差異性來看,第一梯隊綜合因子得分的標(biāo)準差為1.312,高于第二梯隊的0.656和第三梯隊的0.325,說明第一梯隊內(nèi)各省份離散程度較大,這是由于北京和上海的綜合因子分值遠高于天津、江蘇、浙江、廣東,這兩個省市的綜合經(jīng)濟水平更為突出。
在可持續(xù)因子方面,第一、二、三梯隊的省份得分均值分別為0.178、-0.407、0.731,第三梯隊得分遠高于其他梯隊,表面上呈現(xiàn)出最好的資源利用和環(huán)境保護狀況。但結(jié)合現(xiàn)實不難發(fā)現(xiàn),導(dǎo)致該結(jié)果產(chǎn)生的原因在于第三梯隊的省份經(jīng)濟發(fā)展落后,資源開發(fā)不充分,從而使得其在可持續(xù)發(fā)展方面較為突出。另一方面,從梯隊內(nèi)各省份的差異性來看,第三梯隊的標(biāo)準差為1.724,高于第一梯隊的1.460和第二梯隊的0.541,說明第三梯隊內(nèi)各省份離散程度較大,這是由于第三梯隊內(nèi)的新疆、西藏和海南可持續(xù)因子分值遠高于其他省份,具有最好的資源開發(fā)潛力和自然環(huán)境條件。
在需求結(jié)構(gòu)因子方面,第三梯隊得分(0.743)同樣遠遠高于第一梯隊得分(0.195)和第二梯隊得分(-0.419)。這一結(jié)果符合蔡躍洲和王玉霞(2010)對我國消費率演進的判斷[2],也同錢納里(Chenery,1975)關(guān)于消費率與經(jīng)濟增長關(guān)系的測算結(jié)論一致[3]。即隨著經(jīng)濟由較低水平向較高水平階段演進,消費率將呈現(xiàn)先下降后上升的U型趨勢。另一方面,從梯隊內(nèi)各省份的差異性來看,第一梯隊的標(biāo)準差為1.749,高于第二梯隊的0.724和第三梯隊的1.132,說明第一梯隊內(nèi)各省份離散程度較大,這是由于北京和上海的需求結(jié)構(gòu)分值遠高于天津、江蘇、浙江、廣東,是典型的消費拉動型省市。
2.3.2 主成分綜合得分分析
就主成分綜合得分和梯隊分布而言,第一梯隊的省份普遍位于東部沿海發(fā)達地區(qū),主成分綜合得分均值為2.813,遠高于第二梯隊和第三梯隊省份的主成分綜合得分均值,經(jīng)濟發(fā)展質(zhì)量整體較好。結(jié)合各主成分因子得分發(fā)現(xiàn),這主要是由于第一梯隊的省份綜合因子得分很高,而可持續(xù)發(fā)展因子得分則相對較低。故第一梯隊的省份應(yīng)摒棄粗放型經(jīng)濟發(fā)展方式,切實當(dāng)好加快轉(zhuǎn)變經(jīng)濟發(fā)展方式的排頭兵,提供本地區(qū)發(fā)展經(jīng)驗供其他省份借鑒,發(fā)揮本地區(qū)對其他省份的輻射帶動作用。
而第二梯隊的省份大多位于我國東北地區(qū)和中部內(nèi)陸地區(qū),其主成分綜合得分均值為-0.429,經(jīng)濟發(fā)展質(zhì)量相對一般。結(jié)合各主成分因子得分發(fā)現(xiàn),這主要是由于第二梯隊的省份在綜合因子得分不高,且在可持續(xù)發(fā)展因子得分和需求結(jié)構(gòu)因子得分很低。故第二梯隊的省份一方面應(yīng)根據(jù)該地區(qū)居民消費特征制定消費政策,提高居民的邊際消費傾向,另一方面還應(yīng)增強可持續(xù)發(fā)展意識,推行綠色改革,提高可持續(xù)發(fā)展能力。
第三梯隊的省份則全部位于我國西部地區(qū),主成分綜合得分均值為-1.2,與其他梯隊綜合得分均值存在較大差距,經(jīng)濟發(fā)展質(zhì)量相對較差。結(jié)合各主成分因子得分發(fā)現(xiàn),其主要原因是第三梯隊的省份綜合因子得分很低,在經(jīng)濟水平、產(chǎn)業(yè)結(jié)構(gòu)、城鄉(xiāng)區(qū)域結(jié)構(gòu)和創(chuàng)新效率方面較為落后。故第三梯隊的省份應(yīng)“提升存量,做優(yōu)增量”,在保持經(jīng)濟快速增長的同時,提高經(jīng)濟增長的質(zhì)量和效益。
指標(biāo)之間的相關(guān)性及其重要性差異導(dǎo)致了已有聚類分析方法往往無法獲得良好的分類效果。加權(quán)主成分距離聚類分析方法系統(tǒng)集成了多個方法的優(yōu)點,既簡化了數(shù)據(jù)結(jié)構(gòu),消除了指標(biāo)相關(guān)性帶來的影響,又考慮了各主成分因子信息含量的差異,科學(xué)、準確地賦予了各主成分對分類結(jié)果的權(quán)重分配系數(shù),因而能夠有效解決已有聚類分析方法在特定情形下的失效問題。本文運用加權(quán)主成分距離聚類分析方法對中國各省份的經(jīng)濟發(fā)展質(zhì)量進行分類,從可解釋性與統(tǒng)計檢驗兩個層面檢驗該方法在實踐應(yīng)用中的分類效果。研究結(jié)論表明,與已有聚類分析方法相比,加權(quán)主成分距離聚類分析法的分類結(jié)果可解釋性最強,F(xiàn)檢驗值最高,分類效果明顯優(yōu)于其他聚類分析方法。
進一步以該方法所得分類結(jié)果為基準,對各類別省份經(jīng)濟發(fā)展質(zhì)量進行主成分評價,評價結(jié)果表明,北京、上海、天津、江蘇、浙江、廣東被劃歸為第一梯隊,應(yīng)摒棄粗放型經(jīng)濟發(fā)展方式,切實當(dāng)好加快轉(zhuǎn)變經(jīng)濟發(fā)展方式的排頭兵;廣西、貴州、云南、甘肅、海南、西藏、青海、新疆被劃歸為第三梯隊,應(yīng)“提升存量,做優(yōu)增量”,在保持經(jīng)濟快速增長的同時,提高經(jīng)濟增長的質(zhì)量和效益。其余省份被劃歸為第二梯隊,應(yīng)提高居民的邊際消費傾向及增強可持續(xù)發(fā)展能力。