孟銀鳳,梁吉業(yè)
(1.山西大學 計算機與信息技術學院,山西 太原 030006;2.山西大學 數(shù)學科學學院,山西 太原 030006)
年平均工資(簡記為平均工資)體現(xiàn)了企業(yè)的盈利程度及行業(yè)的發(fā)展程度,也反映了居民的收入水平。隨著我國國民經(jīng)濟的飛速發(fā)展,各行業(yè)就業(yè)人員的平均工資都有所提高,與此同時,行業(yè)間的工資差距也呈現(xiàn)不斷擴大的趨勢。這已經(jīng)引起了全社會的廣泛關注,并對行業(yè)自身的發(fā)展、人們的擇業(yè)觀念、社會風氣和社會穩(wěn)定等方面都帶來了不良影響。為了幫助政府在制定縮小收入差距的政策時提供一定的參考,本文搜集了中國2003到2011年間19個行業(yè)就業(yè)人員的平均工資[1],并根據(jù)這些數(shù)據(jù)比較各行業(yè)的工資差距。其中這19個行業(yè)包括農(nóng)林牧漁業(yè)(F1采礦業(yè)(F2制造業(yè)(F3電燃氣水的供應業(yè)(F4建筑業(yè)(F5運輸倉儲和郵政業(yè)(F6);計算機服務和軟件業(yè)(F7);批發(fā)和零售業(yè)(F8);住宿和餐飲業(yè)(F9);金融業(yè)(F10);房地產(chǎn)業(yè)(F11);租賃和商務服務業(yè)(F12);科研和地質(zhì)勘察業(yè)(F13);水利環(huán)境公共設施業(yè)(F14);服務業(yè)(F15);教育(F16);衛(wèi)生和社會福利業(yè)(F17);文化體育和娛樂業(yè)(F18);公共管理和社會組織(F19)。
不同行業(yè)的平均工資均對應一個時間序列,因而從函數(shù)數(shù)據(jù)的角度去分析更加合理。就目前的研究文獻來看,函數(shù)性數(shù)據(jù)分析方法的研究雖然在國外已經(jīng)取得了豐碩的成果[2-5],但總體來看還處于起步階段,且很少用于經(jīng)濟數(shù)據(jù)的分析。國內(nèi)在函數(shù)性數(shù)據(jù)方面的研究僅處于介紹和學習階段[6-8]。不同于其他論文[5,8],本文對平均工資這一函數(shù)數(shù)據(jù)分別運用函數(shù)性主成分分析和聚類分析兩個方法研究它的行業(yè)分類狀況。為此首先對數(shù)據(jù)進行了預處理,即將離散觀測數(shù)據(jù)轉化為函數(shù)數(shù)據(jù),然后將處理后的函數(shù)數(shù)據(jù)用于主成分分析和聚類分析,其中聚類分析采用L2距離。
對于一組二維數(shù)據(jù),即平面上的n個點(xi,yi),i=1,2,…n,諸xi互不相同。尋求一個函數(shù)(曲線)^y=f(x),使f(x)在某種準則下與所有數(shù)據(jù)點最為接近,即曲線擬合的最好。首先,確定所求曲線的形式(經(jīng)驗公式),而線性最小二乘法是解決曲線擬合最常用的方法之一[2,6]。令
其中:rk(x)是事先選定的一組基函數(shù),ak是待定系數(shù)(k=1,2,…,m,m<n)。擬合的準則是使點(xi,yi),i=1,2,…,n與其擬合值^y=f(xi)的距離δi的平方和(SSE)最小,稱為最小二乘準則。進而得到關于a1,a2,…,am的線性方程組。其中
這里我們采用多項式基對表1中的數(shù)據(jù)進行預處理,得到各行業(yè)就業(yè)人員平均工資的平滑曲線 及其速度變化曲線。
從圖1可以看出:我國各行業(yè)就業(yè)人員平均工資在2003到2011年之間均呈現(xiàn)增長趨勢,但增長速度各有不同。F7、F10、F13一直是各行業(yè)中的高薪產(chǎn)業(yè),并且增長速度也快于其他產(chǎn)業(yè)。同時,金融行業(yè)在這幾年間增長速度一直最快,使得它成為從2008年以后的“最高薪”行業(yè)。F2、F4、F6、F11、F12、F16、F17、F18、F19等幾個行業(yè)的工資雖沒有前面三個行業(yè)的工資那么高,增長速度也沒那么快,但整體來說也一直是薪資不錯的行業(yè),這與國家的政策也一致,因為國家一直大力支持文教、衛(wèi)生、社會福利業(yè),以滿足人民日益增長的精神需求。而在工資的比較中,F(xiàn)1、F3、F5、F8、F9、F14、F15等行業(yè)的工資屬于薪資最低的,并且增長速度也是最慢的,這與我國屬于勞動密集型的現(xiàn)狀不無關系。
表1 中國2003年到2011年間19個行業(yè)就業(yè)人員的平均工資(元)Table 1 Average wage of employed persons in various industries in China from 2003 to 2011(yuan)
Fig.1 Smoothing curve and velocity curve of average wage for various industry employment圖1 各行業(yè)就業(yè)人員的平均工資平滑曲線及速度曲線
Fig.2 Mean curve and standard deviation curve of average wage in various industries圖2 各行業(yè)平均工資的均值曲線和標準差曲線
圖2描述了我國各行業(yè)平均工資的均值曲線和標準差曲線。從均值曲線可以明顯地看出我國各行業(yè)工資的平均變化趨勢是逐年遞增的,并且增長速度不斷加快。由標準差曲線可以看出,各行業(yè)平均工資之間的差異隨著時間的變化也越來越大。
在函數(shù)性數(shù)據(jù)分析中,函數(shù)型變量記錄了每一個觀測對象的同一個變量某個區(qū)間上很多個時刻的數(shù)據(jù)信息,如果將時間看作與多元數(shù)據(jù)對應的變量(變化因素),則發(fā)現(xiàn)函數(shù)性數(shù)據(jù)分析面臨著更大的“維度災”?;谶@種特點,可以將多元主成分分析技術引入到函數(shù)性數(shù)據(jù)分析中,稱為函數(shù)性主成分分析[4-6]。其基本思想如下:
設xi(s)(s∈T),i=1,2,…,N 為區(qū)間T 上的中心化后的平方可積函數(shù),s對應多元主成分分析中的j,s是連續(xù)的而j是離散的。將區(qū)間T上的x(s)綜合為一個變量
其中β(s)為加權系數(shù),對應于多元主成分分析中的βj。第k主成分需滿足下面的約束條件下的最大值問題[9]:
實踐中,Var(fi)通常用樣本方差取代 。記變量x(s)和x(t)的協(xié)方差為ν(s,t),有
求函數(shù)性主成分的權重函數(shù)β(s)的過程相當于解以下的特征方程[3-4]
其中λ為特征值。
函數(shù)性主成分的選擇思想和多元主成分的相同[10-11],也是確定累計貢獻率。選擇合適的K 使得達到所確定的累計貢獻率,一般要求累計貢獻率不小于85%。
基于Matlab軟件,先將本文中擬合后的函數(shù)數(shù)據(jù)中心化,然后對中心化后的數(shù)據(jù)進行主成分分析,其前三個主成分的權重函數(shù)如圖3。
第一主成分的貢獻率是96.6%,即第一主成分能反映樣本數(shù)據(jù)的96.6%的信息。同理,第二主成分的貢獻率是3.2%,第一主成分和第二主成分的累計貢獻率是99.8%。因此,前兩個主成分能夠反映樣本數(shù)據(jù)信息的99.8%。所以可以將原來的高維數(shù)據(jù)降到2維。使用前兩個主成分上的得分向量來代表樣本數(shù)據(jù),既能降維,又去除冗余信息。為了直觀起見,給出各行業(yè)的散點圖如圖4。根據(jù)第一主成分的得分情況,可將各行業(yè)的平均工資水平大致分為三類(見圖4)。
Fig.3 Weight function of different principal components圖3 各主成分權重函數(shù)
Fig.4 Scattered point diagram of PC1 score and PC2 score圖4 前兩個主成分得分的散點圖
在數(shù)據(jù)挖掘中,函數(shù)性數(shù)據(jù)聚類分析算法是一種常用的數(shù)據(jù)分析方法,它通過發(fā)掘函數(shù)性數(shù)據(jù)集中潛在的類結構,將分析對象分組成為由類似對象組成的多個類的過程,使類內(nèi)的對象彼此相似,不同類的對象彼此相異。聚類問題的關鍵在于相似性測度方法。對曲線軌跡相似性測度的研究已有很多成果,主要可分為基于曲線數(shù)值模式和曲線形狀模式的相似性測度[4,8,12]。使用聚類分析可以更好地研究數(shù)據(jù)信息,提取出對人們生活有利的信息。
在聚類算法中,對象與對象之間的距離的計算方法有很多種,本文中只利用L2距離:
而類間距采用類平均法。
利用Matlab編寫時間序列下各行業(yè)工資相似性的聚類分析程序,對構成我國19個不同行業(yè)就業(yè)人員平均工資及其增長速度的數(shù)據(jù)曲線進行聚類分析。聚類結果見圖5和圖6。圖5的結構顯示,可以將19個行業(yè)聚為平均工資收入明顯不同的3類,各類行業(yè)平均工資曲線如圖7所示。由圖7可見:第1類屬于薪資最高的一類,包括F7、F10、F13等3個行業(yè)。第2類屬于薪資最低的一類,包括F1、F3、F5、F8、F9、F14、F15等7個行業(yè)。第3類的薪資居于前兩類之間,包括F2、F4、F6、F11、F12、F16、F17、F18、F19等9個行業(yè)。事實上,這與主成分分析的結果一致(見圖4)。
Fig.5 Average wage clustering diagram of 19 industries圖5 19個行業(yè)平均工資的聚類圖
Fig.6 Average wage growth speed clustering diagram of 19 industries圖6 19個行業(yè)的平均工資增長速度聚類圖
實踐中,對某些時間序列的分析而言,序列的速度變化趨勢也是有用的深層次信息和研究的重要內(nèi)容。因而我們對各行業(yè)的工資增長速度也進行了數(shù)據(jù)挖掘。根據(jù)圖6,將速度曲線大致可以分為四類,見圖8。第1類增長速度最快,包括F10。第2類速度次之,包括F2、F7、F13。第3類速度比第2類又稍緩,包括F4、F6F8F11F12F16F17F18F19等。第4類速度最緩,包括F1F3F5F9F14F15等。
Fig.7 Classification diagram for average wage curves in different industries圖7 不同行業(yè)平均工資曲線的分類圖
Fig.8 Classification diagram for the growth speed curves of average wage in different industries圖8 不同行業(yè)平均工資增長速度曲線的分類圖
本文運用兩種函數(shù)性數(shù)據(jù)分析方法(函數(shù)性主成分分析和聚類分析)研究了我國各行業(yè)就業(yè)人員的平均工資數(shù)據(jù)。從聚類分析結果可知,我國科研和地質(zhì)勘查業(yè),金融業(yè),計算機服務和軟件業(yè)這3個行業(yè)屬于高薪行業(yè),并且增長速度相較于其他行業(yè)也是最快的;電燃氣水的供應業(yè),采礦業(yè),公共管理和社會組織業(yè),教育,房地產(chǎn)業(yè),文化體育娛樂業(yè),租賃和商務服務業(yè),衛(wèi)生社會福利業(yè)以及運輸倉儲郵政業(yè)這9個行業(yè)的工資次之;住宿餐飲業(yè),水利環(huán)境公共設施業(yè),建筑業(yè),批發(fā)和零售業(yè),服務業(yè),制造業(yè)以及農(nóng)林牧漁業(yè)7個行業(yè)屬于工資最低一類,其增長速度相較于其他行業(yè)也比較慢。這與主成分分析的結果保持一致。說明我國目前各行業(yè)就業(yè)人員的平均工資基本呈現(xiàn)該特點。
[1] 歷年中國統(tǒng)計年鑒[Z].北京:中國統(tǒng)計出版社,2012.
[2] Cardot H,F(xiàn)erraty F,Sarda P.Spline Estimators for the Functional Linear Model[J].Statistica Sinica,2003,13:571-591.
[3] Ramsay J O.When the Data Are Functions[J].Psychometrika,1982,47(4):379-396.
[4] Ramsay J O,Silverman B W.Functional Data Analysis[M].Second Edition.Springer,2005.
[5] Lee H J.Functional data analysis:Classification and Regression[D].Texas A & M University,2004.
[6] 嚴明義.函數(shù)性數(shù)據(jù)的統(tǒng)計分析:思想、方法和應用[J].統(tǒng)計研究,2007,2:87-94.
[7] 嚴明義.經(jīng)濟數(shù)據(jù)分析:一種基于數(shù)據(jù)的函數(shù)性視角的分析方法[J].當代經(jīng)濟科學,2007b,1:108-113.
[8] 靳劉蕊.函數(shù)性數(shù)據(jù)分析方法及應用研究[D].廈門:廈門大學,2008.
[9] 孟銀鳳,梁吉業(yè),原曦曦.函數(shù)性數(shù)據(jù)分析中的主成分分析[J].山西大學學報:自然科學版,2011,34(1):21-25.
[10] 朱建平.應用多元統(tǒng)計分析[M].北京:科學出版社,2006.
[11] 雷欽禮.經(jīng)濟管理多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,2002.
[12] 朱建平,陳民懇.面板數(shù)據(jù)的聚類分析及其應用[J].統(tǒng)計研究,2007,2:11-14.