張麗虹
摘 要:通過相關(guān)性分析(Correlation)與支持向量機(Support Vector Machine)對經(jīng)濟普查系統(tǒng)中的部分典型數(shù)據(jù)進行具體的試驗與分析:研究了企業(yè)的資產(chǎn)總額、高學歷員工比例、女性員工比例與企業(yè)盈利能力的相關(guān)性,也研究了企業(yè)機構(gòu)類型與其高學歷員工比例的關(guān)系;并利用數(shù)據(jù)分析與挖掘技術(shù)對經(jīng)濟普查數(shù)據(jù)進行分析,從海量數(shù)據(jù)中發(fā)現(xiàn)知識,驗證了該系統(tǒng)的可操作性和先進性,以期利用這些統(tǒng)計數(shù)據(jù)為我國的社會與經(jīng)濟發(fā)展服務(wù)。
關(guān)鍵詞:經(jīng)濟普查系統(tǒng);數(shù)據(jù)挖掘;支持向量機
中圖分類號:D9
文獻標識碼:A
文章編號:1672-3198(2015)25-0229-03
0 引言
為了全面掌握國民經(jīng)濟的發(fā)展規(guī)模、結(jié)構(gòu)和效益等情況,我國于2008年進行了第二次全國經(jīng)濟普查。這次普查的標準時間點為2008年12月31日,時期資料為2008年度,普查對象是在我國境內(nèi)從事第二產(chǎn)業(yè)、第三產(chǎn)業(yè)的全部法人單位、產(chǎn)業(yè)活動單位和個體經(jīng)營戶。普查內(nèi)容主要包括單位基本屬性、就業(yè)人員、財務(wù)狀況、生產(chǎn)經(jīng)營情況、生產(chǎn)能力、原材料和能源消耗、科技活動情況等。
針對經(jīng)濟普查中收集的大量數(shù)據(jù),有必要利用數(shù)據(jù)分析與挖掘方法對其分析,并通過相關(guān)性分析(Correlation)與SVM(Support Vector Machine,支持向量機)進行具體試驗,充分利用這些統(tǒng)計數(shù)據(jù)為我國的社會與經(jīng)濟發(fā)展服務(wù),使我國在統(tǒng)計機構(gòu)信息系統(tǒng)的研究水平達到或超過國外的水平。
1 經(jīng)濟普查統(tǒng)計指標解釋
開展經(jīng)濟普查,不僅是為了掌握重要的國情國力,而且還要通過普查在人力、物力上的特殊優(yōu)勢,使普查制度設(shè)計成為推動經(jīng)常性統(tǒng)計制度科學性的極好機會,發(fā)揮普查工作在整個統(tǒng)計工作中的基礎(chǔ)地位。
本次經(jīng)濟普查收集了23,028家各類型企業(yè)的各66項數(shù)據(jù),總計1,522,488條。為了方便對如此繁多的數(shù)據(jù)進行解讀,發(fā)現(xiàn)知識,擬按下列經(jīng)濟普查統(tǒng)計指標進行分類、統(tǒng)計。
(1)登記注冊類型。主要分為三類:內(nèi)資;港澳臺資;外資。
(2)執(zhí)行的會計制度。主要包括企業(yè)、事業(yè)、行政三種。
(3)機構(gòu)類型。主要分為企業(yè)、事業(yè)、機關(guān)三種。
(4)控股情況。主要分為國有、集體、私人、港澳臺、外商五種。
(5)隸屬關(guān)系。主要分為中央、省、地、縣四級。
(6)經(jīng)濟指標。主要包括主營業(yè)務(wù)收入與資產(chǎn)總計兩項。
(7)人力資源。人力資源的調(diào)查較為細致,對同一人群,采用了性別、學歷、技術(shù)職稱、技術(shù)等級四種不同的分類方法。(注:多樣的分類方法使調(diào)查結(jié)果數(shù)據(jù)內(nèi)容更加豐富,更有價值,但細致的分類似乎對參與調(diào)查的企業(yè)造成一些困擾,導(dǎo)致很多數(shù)據(jù)是空的。在數(shù)據(jù)挖掘的過程中,相關(guān)數(shù)據(jù)為空的條目將被移除。)
2 基于數(shù)據(jù)分析與挖掘的普查數(shù)據(jù)分析
在前期分類、統(tǒng)計數(shù)據(jù)的基礎(chǔ)上,針對一些特征數(shù)據(jù),如不同類型企業(yè)、企業(yè)員工組成、經(jīng)營狀況等數(shù)據(jù),進行數(shù)據(jù)分析與挖掘,并進行相關(guān)性分析與SVM試驗,所得的研究結(jié)論可供相關(guān)部門參考。
2.1 數(shù)據(jù)分析與挖掘算法選擇
數(shù)據(jù)挖掘分類技術(shù),主要有決策樹法、貝葉斯法、神經(jīng)網(wǎng)絡(luò)法和粗糙集等方法。而近幾年來,作為新興智能數(shù)據(jù)挖掘技術(shù),SVM主要用于非線性回歸領(lǐng)域,能更好地解決小樣本、非線性及高維模式識別問題、網(wǎng)絡(luò)結(jié)構(gòu)的確定問題、過學習與欠學習問題、局部極小點問題等。SVM起源于二類分類問題,也可以用作多類分類,并基于結(jié)構(gòu)風險最小化原則,直接進行樣本集自組織學習訓練來逼近系統(tǒng)非線性規(guī)律,容錯和泛化性能優(yōu)良。
針對特征數(shù)據(jù)的特點,選擇SVM訓練超平面,用超平面把不同類的企業(yè)分開,從而獲得不同類別企業(yè)間差異的信息。使用SVM劃分不同類別企業(yè)更大限度利用了所有的信息,訓練所得的超平面可以明確顯示兩類企業(yè)各有多少家在超平面的這一邊,又各有多少家在超平面的另一邊。根據(jù)SVM的原理,訓練得到的超平面是把不同類分開的最優(yōu)超平面,因此由該超平面得到的分類結(jié)果,其實就是各類不同企業(yè)的最大差異。用SVM對兩類企業(yè)分類等價于將兩類企業(yè)的差異最大化。
2.2 企業(yè)資產(chǎn)總額與盈利能力的相關(guān)性
研究企業(yè)的資產(chǎn)總額與盈利能力(主營業(yè)務(wù)收入/資產(chǎn)總額)的相關(guān)性,有助于發(fā)現(xiàn)企業(yè)規(guī)模與盈利能力的關(guān)系。
首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額一欄填寫值為0,部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入一欄填寫值為空,這些企業(yè)均被剔除,最終剩余13,872家企業(yè)。初步的相關(guān)性分析發(fā)現(xiàn)企業(yè)的資產(chǎn)總額與盈利能力的相關(guān)性并不直接,因此對資產(chǎn)總額取以十為底的對數(shù)。圖1是log10(資產(chǎn)總額)與企業(yè)盈利能力的相關(guān)性分析圖。為了方便觀察點的密度,僅顯示了兩千個點。
圖1 企業(yè)資產(chǎn)總額與盈利能力的相關(guān)性分析圖
由圖1可見,對于資產(chǎn)總額較小的、在一百萬以下的企業(yè),其盈利能力跳躍較大;對資產(chǎn)總額在四百萬以上的企業(yè),其盈利能力與log10(資產(chǎn)總額)表現(xiàn)出較為明顯的負相關(guān)。相關(guān)性分析表明,盈利能力與log10(資產(chǎn)總額)的相關(guān)系數(shù)為-0.2981,其95%置信區(qū)間為[-0.3307,-0.2656]。
結(jié)果表明,對資產(chǎn)總額四百萬以上的企業(yè),其盈利能力與資產(chǎn)總額存在負相關(guān)性。造成這一現(xiàn)象的原因,可能是小企業(yè)更易管理,更容易從競爭較少的行業(yè)獲益,而大企業(yè)往往管理不易,涉及的利益過于龐大,同行競爭也較為殘酷,壓低了平均利潤水平。另一方面,也可能是小企業(yè)采取的會計制度不如大企業(yè)嚴格,夸大了收益。這一結(jié)果在一定程度上支持了股市投資的一個觀點,就是小公司的股票上漲更快,這個結(jié)論也與美股市場過去百年間的統(tǒng)計結(jié)果相吻合。
2.3 企業(yè)高學歷員工比例與盈利能力的相關(guān)性
研究高學歷員工比例(研究生及其以上員工人數(shù)/員工總數(shù))與盈利能力(主營業(yè)務(wù)收入/資產(chǎn)總額)的相關(guān)性,有助于考察高層次人才對企業(yè)盈利能力的影響。
首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額或員工總數(shù)一欄填寫值為0,部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入或員工總數(shù)或研究生及其以上員工總數(shù)一欄填寫值為空,這些企業(yè)均被剔除。研究生數(shù)量為0的企業(yè)過多,本文將其剔除。最終剩余1,313家企業(yè)。圖2是企業(yè)研究生以上學歷員工比例與盈利能力的相關(guān)性分析圖。
圖2 企業(yè)研究生以上學歷員工比例與
盈利能力的相關(guān)性分析圖
實驗采用Matlab R2007a編程,運行在奔騰雙核CPU E5200(2.50GHz、2.49GHz),內(nèi)存 3GB的個人計算機上,運行時間約7s。
由圖2可見,在研究生及其以上員工比例大于0的企業(yè)里(1,313家,約占企業(yè)總數(shù)5669家的2316%),絕大多數(shù)企業(yè)研究生及其以上員工比例在10%以下,研究生及其以上員工比例越高,企業(yè)數(shù)量越少,但在100%的位置有顯著的峰值,即有不少企業(yè)所有員工都是研究生及其以上學歷,這些企業(yè)或許是從事研究性工作的研究所或咨詢機構(gòu)。從圖上看,企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)性并不顯然,這是由于絕大部分企業(yè)集中在坐標原點附近。相關(guān)性分析表明,企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)系數(shù)為0.0192,其95%置信區(qū)間為[00157,0.0227],可靠性較盈利能力與log10(資產(chǎn)總額)稍差,但都為正值。即,企業(yè)盈利能力與研究生及其以上員工比例有極為輕微的正相關(guān)。
對本科員工比例與盈利能力的相關(guān)性分析,取得了類似的結(jié)果。圖3為2000家企業(yè)的本科學歷員工人數(shù)比例與盈利能力(圖3)。企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)系數(shù)為0.0183,其95%置信區(qū)間為[0.0154,0.0212],可靠性較研究生及其以上員工比例與盈利能力稍差,但都為正值。
圖3 企業(yè)本科學歷員工比例與
盈利能力的相關(guān)性分析圖
結(jié)果表明,高學歷并非顯著的導(dǎo)致高產(chǎn)出。盡管學歷依然受到重視,高學歷員工比例高一定程度上代表了高的科技含量,但這一特色并未明顯的在市場上轉(zhuǎn)化為直接的經(jīng)濟效益。這一結(jié)果有些耐人尋味,但的確與股市的一個選股原則缺失相對應(yīng),即上市公司的高學歷員工比例并未被列為選股原則之一。由此推論,不僅在中國,在世界各國,都可能存在“高學歷并非顯著導(dǎo)致高產(chǎn)出”這一現(xiàn)象。導(dǎo)致這一現(xiàn)象的深層次原因可能是:(1)高學歷學生進入公司無法應(yīng)用所學;(2)企業(yè)招聘高學歷學生,很大程度出于裝點門面考慮;(3)高學歷學生斗志減弱,傾向于進入穩(wěn)定的、盈利少的事業(yè)單位而非競爭激烈的企業(yè)單位等因素;(4)亦或擁有較高比例高學歷員工的企業(yè)往往較為正規(guī),遵守的會計制度更為嚴格;等等。
2.4 企業(yè)女性員工比例與盈利能力的相關(guān)性
對于招收女性員工,企業(yè)往往徘徊不定,因為招收女性員工對企業(yè)效益同時具有正面與負面的影響。其正面影響,是企業(yè)需要一定比例的女性員工,來調(diào)節(jié)工作氣氛,促進生產(chǎn)效率;其負面影響,是女性員工往往會因生子而耽誤工作。通過數(shù)據(jù)挖掘的方法,分析企業(yè)女性員工比例與盈利能力的相關(guān)性,可以發(fā)現(xiàn)女性員工對企業(yè)盈利的影響。
首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額或員工總數(shù)一欄填寫值為0,部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入或女性員工數(shù)量或員工總數(shù)一欄填寫值為空,這些企業(yè)均被剔除,最終剩余14,789家企業(yè)。圖4是企業(yè)女性員工比例與盈利能力的相關(guān)性分析圖。為了方便觀察點的密度,僅顯示了兩千個點。
圖4 企業(yè)女性員工比例與盈利能力的相關(guān)性分析圖
由圖4可見,企業(yè)女性員工比例與盈利能力的關(guān)系具有分段性。對于女性比例在30%以下的企業(yè),女性員工比例與盈利能力似乎存在一定的正相關(guān),對于女性比例在30%以上的企業(yè),女性員工比例與盈利能力似乎存在一定的負相關(guān)。因此本文將女性員工比例分為[0,0.3]與[0.3,1]兩個區(qū)間。相關(guān)分析的結(jié)果表明,當女性員工比例小于30%時,女性員工比例與盈利能力的相關(guān)系數(shù)為0.0129,其95%置信區(qū)間為[00114,0.0143];當女性員工比例大于30%時,女性員工比例與盈利能力的相關(guān)系數(shù)為-0.0235,其95%置信區(qū)間為[-0.0259,-0.0218]。
結(jié)果表明,當女性員工比例在30%以下時,女性員工比例與盈利能力存在輕微的正相關(guān),當女性員工比例在30%以上時,女性員工比例與盈利能力存在稍明顯的負相關(guān)。即,女性員工的比例不宜過低,也不宜過高,而是以維持一定的比例為佳。造成這一現(xiàn)象的原因,可能是一定比例的女性員工,可有效調(diào)節(jié)工作氣氛,促進員工整體的生產(chǎn)效率;而當女性員工比例過半時,這一調(diào)節(jié)效果則容易失效,并且女性員工往往會因生孩子而耽誤工作,造成企業(yè)營業(yè)收入的下滑。
2.5 公司企業(yè)與高學歷員工比例的關(guān)系
通過SVM方法對機構(gòu)分類、試驗,可以發(fā)現(xiàn)公司企事業(yè)與人力資源學歷構(gòu)成之間的關(guān)系。由于SVM本質(zhì)上是對只有兩類的問題進行分類,因此,需先把多類問題轉(zhuǎn)化為兩類問題,再用SVM分類。處理方法是,考慮某個機構(gòu)類型時,把該類型標簽設(shè)定為1,其余類型標簽設(shè)定為0。
實驗采用Matlab R2007a編程,運行在奔騰雙核CPU E5200(2.50GHz、2.49GHz),內(nèi)存3GB的個人計算機上,運行時間約8670s。
首先是數(shù)據(jù)的前處理。部分企業(yè)員工總數(shù)一欄填寫值為0,部分企業(yè)員工總數(shù)或本科學歷員工總數(shù)或研究生及其以上員工總數(shù)一欄填寫值為空,這些企業(yè)均被剔除。最終剩余1,313家企業(yè)。為了方便觀察點的密度,圖上只顯示了200個點。
圖5 公司企業(yè)與高學歷員工比例關(guān)系的SVM分類結(jié)果
如圖5,+號代表公司企業(yè),*號代表其他類型的企業(yè)單位;深色的+號與*號代表被分為訓練集的元素,淺色的+號與*號代表被分為測試集的元素;圓圈中的元素為支持向量。圖中的直線是SVM判別直線。SVM分類成功率為81.20%,即約80%的企業(yè)單位集中在判別線之上的區(qū)域。
結(jié)果表明,公司企業(yè)與其他類型單位在員工學歷構(gòu)成的傾向上具有明顯地差別,公司企業(yè)傾向于擁有更高比例的本科生,其研究生比例基本都在30%以下;其他類型單位則表現(xiàn)得較為零散。這可能是由于其他類型單位包含了事業(yè)單位、機關(guān)單位、社會團體、居委會、村委會等等,自身構(gòu)成較為復(fù)雜。公司企業(yè)傾向于招收本科生的結(jié)果,與校園招聘會的現(xiàn)實接近,在各大公司企業(yè)的招聘章程里,本科生的需求量都是最大的。究其原因,首先是本科生基數(shù)遠大于研究生及其以上學歷學生,其次或許與公司企業(yè)注重企業(yè)文化的建設(shè),本科畢業(yè)生單純易于栽培有關(guān);另外本科生薪資期待比研究生及其以上學歷學生要低,精力卻更年輕因而更充沛,更肯拼搏奮斗,性價比較高;最后,研究生或更高學歷學生在校所學未必為公司企業(yè)所需;或許這些都是造成注重收益的公司企業(yè)更傾向于招收本科生的原因。
3 結(jié)語
通過相關(guān)分析與SVM方法,對系統(tǒng)的數(shù)據(jù)分析與挖掘功能進行了試驗和分析,發(fā)現(xiàn)如下結(jié)論:
(1)企業(yè)資產(chǎn)總額與盈利能力存在一定的負相關(guān),相關(guān)系數(shù)為-0.2981,其95%置信區(qū)間為[-0.3307,-0.2656]。
(2)企業(yè)高學歷員工比例與盈利能力存在輕微的正相關(guān),研究生及其以上員工比例與盈利能力的相關(guān)系數(shù)為0.0192,其95%置信區(qū)間為[0.0157,0.0227],本科學歷員工比例與盈利能力的相關(guān)系數(shù)為0.0183,其95%置信區(qū)間為[0.0154,0.0212]。
(3)企業(yè)女性員工比例與盈利能力,當女性員工比例小于30%時,存在輕微的正相關(guān),相關(guān)系數(shù)為00129,其95%置信區(qū)間為[0.0114,0.0143];當女性員工比例大于30%時,存在稍大的負相關(guān),相關(guān)系數(shù)為-0.0235,其95%置信區(qū)間為[-0.0259,-0.0218]。
(4)公司企業(yè)的員工學歷構(gòu)成與其他類型單位有顯著地區(qū)別,用SVM分類可達到81.20%的分類正確率,其員工組成的特點是側(cè)重本科生。
實驗結(jié)果表明,用相關(guān)分析與SVM方法對機構(gòu)分類,并通過數(shù)據(jù)分析與挖掘,可以從海量數(shù)據(jù)中發(fā)現(xiàn)大量知識,驗證了該經(jīng)濟普查系統(tǒng)的可操作性和先進性。
參考文獻
[1]四川省人民政府經(jīng)濟普查領(lǐng)導(dǎo)小組辦公室.第二次全國經(jīng)濟普查概要[J].四川省情,2008,(8).
[2]全國經(jīng)濟普查條例[J].北京:北京統(tǒng)計,2004,(10).
[3]張敏敏.中國經(jīng)濟普查的數(shù)據(jù)挖掘方法研究[D].哈爾濱:東北林業(yè)大學,2005.
[4]對新一輪經(jīng)濟普查的幾點思考[EB/OL].安徽統(tǒng)計信息網(wǎng),2001-6-4.
[5]楊會志.數(shù)據(jù)挖掘技術(shù)的主要方法及其發(fā)展方向[J].河北科技大學學報,2000,(5):86-90.
[6]業(yè)寧,梁作鵬,董逸生,王厚立.一種SVM非線性回歸算法[J].計算機工程,2005,(20).
[7]李望晨,張利平,王培承.基于SVM數(shù)據(jù)挖掘的國民經(jīng)濟序列補缺及預(yù)測—以青海省國民經(jīng)濟為例[J].工業(yè)技術(shù)經(jīng)濟,2010,(1).
[8]牟琦,畢孝儒,龔尚福,厙向陽.基于中間分類超平面的SVM入侵檢測[J].上海:計算機工程,2011,(16).