經(jīng)濟普查數(shù)據(jù)的分析與挖掘

2016-01-05 13:17:08張麗虹

現(xiàn)代商貿(mào)工業(yè) 2015年27期

張麗虹

摘要：通過相關(guān)性分析（Correlation）與支持向量機（Support Vector Machine）對經(jīng)濟普查系統(tǒng)中的部分典型數(shù)據(jù)進行具體的試驗與分析：研究了企業(yè)的資產(chǎn)總額、高學歷員工比例、女性員工比例與企業(yè)盈利能力的相關(guān)性，也研究了企業(yè)機構(gòu)類型與其高學歷員工比例的關(guān)系；并利用數(shù)據(jù)分析與挖掘技術(shù)對經(jīng)濟普查數(shù)據(jù)進行分析，從海量數(shù)據(jù)中發(fā)現(xiàn)知識，驗證了該系統(tǒng)的可操作性和先進性，以期利用這些統(tǒng)計數(shù)據(jù)為我國的社會與經(jīng)濟發(fā)展服務(wù)。

關(guān)鍵詞：經(jīng)濟普查系統(tǒng)；數(shù)據(jù)挖掘；支持向量機

中圖分類號：D9

文獻標識碼：A

文章編號：1672-3198（2015）25-0229-03

0 引言

為了全面掌握國民經(jīng)濟的發(fā)展規(guī)模、結(jié)構(gòu)和效益等情況，我國于2008年進行了第二次全國經(jīng)濟普查。這次普查的標準時間點為2008年12月31日，時期資料為2008年度，普查對象是在我國境內(nèi)從事第二產(chǎn)業(yè)、第三產(chǎn)業(yè)的全部法人單位、產(chǎn)業(yè)活動單位和個體經(jīng)營戶。普查內(nèi)容主要包括單位基本屬性、就業(yè)人員、財務(wù)狀況、生產(chǎn)經(jīng)營情況、生產(chǎn)能力、原材料和能源消耗、科技活動情況等。

針對經(jīng)濟普查中收集的大量數(shù)據(jù)，有必要利用數(shù)據(jù)分析與挖掘方法對其分析，并通過相關(guān)性分析（Correlation）與SVM（Support Vector Machine，支持向量機）進行具體試驗，充分利用這些統(tǒng)計數(shù)據(jù)為我國的社會與經(jīng)濟發(fā)展服務(wù)，使我國在統(tǒng)計機構(gòu)信息系統(tǒng)的研究水平達到或超過國外的水平。

1 經(jīng)濟普查統(tǒng)計指標解釋

開展經(jīng)濟普查，不僅是為了掌握重要的國情國力，而且還要通過普查在人力、物力上的特殊優(yōu)勢，使普查制度設(shè)計成為推動經(jīng)常性統(tǒng)計制度科學性的極好機會，發(fā)揮普查工作在整個統(tǒng)計工作中的基礎(chǔ)地位。

本次經(jīng)濟普查收集了23，028家各類型企業(yè)的各66項數(shù)據(jù)，總計1，522，488條。為了方便對如此繁多的數(shù)據(jù)進行解讀，發(fā)現(xiàn)知識，擬按下列經(jīng)濟普查統(tǒng)計指標進行分類、統(tǒng)計。

（1）登記注冊類型。主要分為三類：內(nèi)資；港澳臺資；外資。

（2）執(zhí)行的會計制度。主要包括企業(yè)、事業(yè)、行政三種。

（3）機構(gòu)類型。主要分為企業(yè)、事業(yè)、機關(guān)三種。

（4）控股情況。主要分為國有、集體、私人、港澳臺、外商五種。

（5）隸屬關(guān)系。主要分為中央、省、地、縣四級。

（6）經(jīng)濟指標。主要包括主營業(yè)務(wù)收入與資產(chǎn)總計兩項。

（7）人力資源。人力資源的調(diào)查較為細致，對同一人群，采用了性別、學歷、技術(shù)職稱、技術(shù)等級四種不同的分類方法。（注：多樣的分類方法使調(diào)查結(jié)果數(shù)據(jù)內(nèi)容更加豐富，更有價值，但細致的分類似乎對參與調(diào)查的企業(yè)造成一些困擾，導(dǎo)致很多數(shù)據(jù)是空的。在數(shù)據(jù)挖掘的過程中，相關(guān)數(shù)據(jù)為空的條目將被移除。）

2 基于數(shù)據(jù)分析與挖掘的普查數(shù)據(jù)分析

在前期分類、統(tǒng)計數(shù)據(jù)的基礎(chǔ)上，針對一些特征數(shù)據(jù)，如不同類型企業(yè)、企業(yè)員工組成、經(jīng)營狀況等數(shù)據(jù)，進行數(shù)據(jù)分析與挖掘，并進行相關(guān)性分析與SVM試驗，所得的研究結(jié)論可供相關(guān)部門參考。

2.1 數(shù)據(jù)分析與挖掘算法選擇

數(shù)據(jù)挖掘分類技術(shù)，主要有決策樹法、貝葉斯法、神經(jīng)網(wǎng)絡(luò)法和粗糙集等方法。而近幾年來，作為新興智能數(shù)據(jù)挖掘技術(shù)，SVM主要用于非線性回歸領(lǐng)域，能更好地解決小樣本、非線性及高維模式識別問題、網(wǎng)絡(luò)結(jié)構(gòu)的確定問題、過學習與欠學習問題、局部極小點問題等。SVM起源于二類分類問題，也可以用作多類分類，并基于結(jié)構(gòu)風險最小化原則，直接進行樣本集自組織學習訓練來逼近系統(tǒng)非線性規(guī)律，容錯和泛化性能優(yōu)良。

針對特征數(shù)據(jù)的特點，選擇SVM訓練超平面，用超平面把不同類的企業(yè)分開，從而獲得不同類別企業(yè)間差異的信息。使用SVM劃分不同類別企業(yè)更大限度利用了所有的信息，訓練所得的超平面可以明確顯示兩類企業(yè)各有多少家在超平面的這一邊，又各有多少家在超平面的另一邊。根據(jù)SVM的原理，訓練得到的超平面是把不同類分開的最優(yōu)超平面，因此由該超平面得到的分類結(jié)果，其實就是各類不同企業(yè)的最大差異。用SVM對兩類企業(yè)分類等價于將兩類企業(yè)的差異最大化。

2.2 企業(yè)資產(chǎn)總額與盈利能力的相關(guān)性

研究企業(yè)的資產(chǎn)總額與盈利能力（主營業(yè)務(wù)收入/資產(chǎn)總額）的相關(guān)性，有助于發(fā)現(xiàn)企業(yè)規(guī)模與盈利能力的關(guān)系。

首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額一欄填寫值為0，部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入一欄填寫值為空，這些企業(yè)均被剔除，最終剩余13，872家企業(yè)。初步的相關(guān)性分析發(fā)現(xiàn)企業(yè)的資產(chǎn)總額與盈利能力的相關(guān)性并不直接，因此對資產(chǎn)總額取以十為底的對數(shù)。圖1是log10（資產(chǎn)總額）與企業(yè)盈利能力的相關(guān)性分析圖。為了方便觀察點的密度，僅顯示了兩千個點。

圖1 企業(yè)資產(chǎn)總額與盈利能力的相關(guān)性分析圖

由圖1可見，對于資產(chǎn)總額較小的、在一百萬以下的企業(yè)，其盈利能力跳躍較大；對資產(chǎn)總額在四百萬以上的企業(yè)，其盈利能力與log10（資產(chǎn)總額）表現(xiàn)出較為明顯的負相關(guān)。相關(guān)性分析表明，盈利能力與log10（資產(chǎn)總額）的相關(guān)系數(shù)為-0.2981，其95%置信區(qū)間為[-0.3307，-0.2656]。

結(jié)果表明，對資產(chǎn)總額四百萬以上的企業(yè)，其盈利能力與資產(chǎn)總額存在負相關(guān)性。造成這一現(xiàn)象的原因，可能是小企業(yè)更易管理，更容易從競爭較少的行業(yè)獲益，而大企業(yè)往往管理不易，涉及的利益過于龐大，同行競爭也較為殘酷，壓低了平均利潤水平。另一方面，也可能是小企業(yè)采取的會計制度不如大企業(yè)嚴格，夸大了收益。這一結(jié)果在一定程度上支持了股市投資的一個觀點，就是小公司的股票上漲更快，這個結(jié)論也與美股市場過去百年間的統(tǒng)計結(jié)果相吻合。

2.3 企業(yè)高學歷員工比例與盈利能力的相關(guān)性

研究高學歷員工比例（研究生及其以上員工人數(shù)/員工總數(shù)）與盈利能力（主營業(yè)務(wù)收入/資產(chǎn)總額）的相關(guān)性，有助于考察高層次人才對企業(yè)盈利能力的影響。

首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額或員工總數(shù)一欄填寫值為0，部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入或員工總數(shù)或研究生及其以上員工總數(shù)一欄填寫值為空，這些企業(yè)均被剔除。研究生數(shù)量為0的企業(yè)過多，本文將其剔除。最終剩余1，313家企業(yè)。圖2是企業(yè)研究生以上學歷員工比例與盈利能力的相關(guān)性分析圖。

圖2 企業(yè)研究生以上學歷員工比例與

盈利能力的相關(guān)性分析圖

實驗采用Matlab R2007a編程，運行在奔騰雙核CPU E5200（2.50GHz、2.49GHz），內(nèi)存 3GB的個人計算機上，運行時間約7s。

由圖2可見，在研究生及其以上員工比例大于0的企業(yè)里（1，313家，約占企業(yè)總數(shù)5669家的2316%），絕大多數(shù)企業(yè)研究生及其以上員工比例在10%以下，研究生及其以上員工比例越高，企業(yè)數(shù)量越少，但在100%的位置有顯著的峰值，即有不少企業(yè)所有員工都是研究生及其以上學歷，這些企業(yè)或許是從事研究性工作的研究所或咨詢機構(gòu)。從圖上看，企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)性并不顯然，這是由于絕大部分企業(yè)集中在坐標原點附近。相關(guān)性分析表明，企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)系數(shù)為0.0192，其95%置信區(qū)間為[00157，0.0227]，可靠性較盈利能力與log10（資產(chǎn)總額）稍差，但都為正值。即，企業(yè)盈利能力與研究生及其以上員工比例有極為輕微的正相關(guān)。

對本科員工比例與盈利能力的相關(guān)性分析，取得了類似的結(jié)果。圖3為2000家企業(yè)的本科學歷員工人數(shù)比例與盈利能力（圖3）。企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)系數(shù)為0.0183，其95%置信區(qū)間為[0.0154，0.0212]，可靠性較研究生及其以上員工比例與盈利能力稍差，但都為正值。

圖3 企業(yè)本科學歷員工比例與

盈利能力的相關(guān)性分析圖

結(jié)果表明，高學歷并非顯著的導(dǎo)致高產(chǎn)出。盡管學歷依然受到重視，高學歷員工比例高一定程度上代表了高的科技含量，但這一特色并未明顯的在市場上轉(zhuǎn)化為直接的經(jīng)濟效益。這一結(jié)果有些耐人尋味，但的確與股市的一個選股原則缺失相對應(yīng)，即上市公司的高學歷員工比例并未被列為選股原則之一。由此推論，不僅在中國，在世界各國，都可能存在“高學歷并非顯著導(dǎo)致高產(chǎn)出”這一現(xiàn)象。導(dǎo)致這一現(xiàn)象的深層次原因可能是：（1）高學歷學生進入公司無法應(yīng)用所學；（2）企業(yè)招聘高學歷學生，很大程度出于裝點門面考慮；（3）高學歷學生斗志減弱，傾向于進入穩(wěn)定的、盈利少的事業(yè)單位而非競爭激烈的企業(yè)單位等因素；（4）亦或擁有較高比例高學歷員工的企業(yè)往往較為正規(guī)，遵守的會計制度更為嚴格；等等。

2.4 企業(yè)女性員工比例與盈利能力的相關(guān)性

對于招收女性員工，企業(yè)往往徘徊不定，因為招收女性員工對企業(yè)效益同時具有正面與負面的影響。其正面影響，是企業(yè)需要一定比例的女性員工，來調(diào)節(jié)工作氣氛，促進生產(chǎn)效率；其負面影響，是女性員工往往會因生子而耽誤工作。通過數(shù)據(jù)挖掘的方法，分析企業(yè)女性員工比例與盈利能力的相關(guān)性，可以發(fā)現(xiàn)女性員工對企業(yè)盈利的影響。

首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額或員工總數(shù)一欄填寫值為0，部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入或女性員工數(shù)量或員工總數(shù)一欄填寫值為空，這些企業(yè)均被剔除，最終剩余14，789家企業(yè)。圖4是企業(yè)女性員工比例與盈利能力的相關(guān)性分析圖。為了方便觀察點的密度，僅顯示了兩千個點。

圖4 企業(yè)女性員工比例與盈利能力的相關(guān)性分析圖

由圖4可見，企業(yè)女性員工比例與盈利能力的關(guān)系具有分段性。對于女性比例在30%以下的企業(yè)，女性員工比例與盈利能力似乎存在一定的正相關(guān)，對于女性比例在30%以上的企業(yè)，女性員工比例與盈利能力似乎存在一定的負相關(guān)。因此本文將女性員工比例分為[0，0.3]與[0.3，1]兩個區(qū)間。相關(guān)分析的結(jié)果表明，當女性員工比例小于30%時，女性員工比例與盈利能力的相關(guān)系數(shù)為0.0129，其95%置信區(qū)間為[00114，0.0143]；當女性員工比例大于30%時，女性員工比例與盈利能力的相關(guān)系數(shù)為-0.0235，其95%置信區(qū)間為[-0.0259，-0.0218]。

結(jié)果表明，當女性員工比例在30%以下時，女性員工比例與盈利能力存在輕微的正相關(guān)，當女性員工比例在30%以上時，女性員工比例與盈利能力存在稍明顯的負相關(guān)。即，女性員工的比例不宜過低，也不宜過高，而是以維持一定的比例為佳。造成這一現(xiàn)象的原因，可能是一定比例的女性員工，可有效調(diào)節(jié)工作氣氛，促進員工整體的生產(chǎn)效率；而當女性員工比例過半時，這一調(diào)節(jié)效果則容易失效，并且女性員工往往會因生孩子而耽誤工作，造成企業(yè)營業(yè)收入的下滑。

2.5 公司企業(yè)與高學歷員工比例的關(guān)系

通過SVM方法對機構(gòu)分類、試驗，可以發(fā)現(xiàn)公司企事業(yè)與人力資源學歷構(gòu)成之間的關(guān)系。由于SVM本質(zhì)上是對只有兩類的問題進行分類，因此，需先把多類問題轉(zhuǎn)化為兩類問題，再用SVM分類。處理方法是，考慮某個機構(gòu)類型時，把該類型標簽設(shè)定為1，其余類型標簽設(shè)定為0。

實驗采用Matlab R2007a編程，運行在奔騰雙核CPU E5200（2.50GHz、2.49GHz），內(nèi)存3GB的個人計算機上，運行時間約8670s。

首先是數(shù)據(jù)的前處理。部分企業(yè)員工總數(shù)一欄填寫值為0，部分企業(yè)員工總數(shù)或本科學歷員工總數(shù)或研究生及其以上員工總數(shù)一欄填寫值為空，這些企業(yè)均被剔除。最終剩余1，313家企業(yè)。為了方便觀察點的密度，圖上只顯示了200個點。

圖5 公司企業(yè)與高學歷員工比例關(guān)系的SVM分類結(jié)果

如圖5，+號代表公司企業(yè)，*號代表其他類型的企業(yè)單位；深色的+號與*號代表被分為訓練集的元素，淺色的+號與*號代表被分為測試集的元素；圓圈中的元素為支持向量。圖中的直線是SVM判別直線。SVM分類成功率為81.20%，即約80%的企業(yè)單位集中在判別線之上的區(qū)域。

結(jié)果表明，公司企業(yè)與其他類型單位在員工學歷構(gòu)成的傾向上具有明顯地差別，公司企業(yè)傾向于擁有更高比例的本科生，其研究生比例基本都在30%以下；其他類型單位則表現(xiàn)得較為零散。這可能是由于其他類型單位包含了事業(yè)單位、機關(guān)單位、社會團體、居委會、村委會等等，自身構(gòu)成較為復(fù)雜。公司企業(yè)傾向于招收本科生的結(jié)果，與校園招聘會的現(xiàn)實接近，在各大公司企業(yè)的招聘章程里，本科生的需求量都是最大的。究其原因，首先是本科生基數(shù)遠大于研究生及其以上學歷學生，其次或許與公司企業(yè)注重企業(yè)文化的建設(shè)，本科畢業(yè)生單純易于栽培有關(guān)；另外本科生薪資期待比研究生及其以上學歷學生要低，精力卻更年輕因而更充沛，更肯拼搏奮斗，性價比較高；最后，研究生或更高學歷學生在校所學未必為公司企業(yè)所需；或許這些都是造成注重收益的公司企業(yè)更傾向于招收本科生的原因。

3 結(jié)語

通過相關(guān)分析與SVM方法，對系統(tǒng)的數(shù)據(jù)分析與挖掘功能進行了試驗和分析，發(fā)現(xiàn)如下結(jié)論：

（1）企業(yè)資產(chǎn)總額與盈利能力存在一定的負相關(guān)，相關(guān)系數(shù)為-0.2981，其95%置信區(qū)間為[-0.3307，-0.2656]。

（2）企業(yè)高學歷員工比例與盈利能力存在輕微的正相關(guān)，研究生及其以上員工比例與盈利能力的相關(guān)系數(shù)為0.0192，其95%置信區(qū)間為[0.0157，0.0227]，本科學歷員工比例與盈利能力的相關(guān)系數(shù)為0.0183，其95%置信區(qū)間為[0.0154，0.0212]。

（3）企業(yè)女性員工比例與盈利能力，當女性員工比例小于30%時，存在輕微的正相關(guān)，相關(guān)系數(shù)為00129，其95%置信區(qū)間為[0.0114，0.0143]；當女性員工比例大于30%時，存在稍大的負相關(guān)，相關(guān)系數(shù)為-0.0235，其95%置信區(qū)間為[-0.0259，-0.0218]。

（4）公司企業(yè)的員工學歷構(gòu)成與其他類型單位有顯著地區(qū)別，用SVM分類可達到81.20%的分類正確率，其員工組成的特點是側(cè)重本科生。

實驗結(jié)果表明，用相關(guān)分析與SVM方法對機構(gòu)分類，并通過數(shù)據(jù)分析與挖掘，可以從海量數(shù)據(jù)中發(fā)現(xiàn)大量知識，驗證了該經(jīng)濟普查系統(tǒng)的可操作性和先進性。

參考文獻

[1]四川省人民政府經(jīng)濟普查領(lǐng)導(dǎo)小組辦公室.第二次全國經(jīng)濟普查概要[J].四川省情，2008，（8）.

[2]全國經(jīng)濟普查條例[J].北京：北京統(tǒng)計，2004，（10）.

[3]張敏敏.中國經(jīng)濟普查的數(shù)據(jù)挖掘方法研究[D].哈爾濱：東北林業(yè)大學，2005.

[4]對新一輪經(jīng)濟普查的幾點思考[EB/OL].安徽統(tǒng)計信息網(wǎng)，2001-6-4.

[5]楊會志.數(shù)據(jù)挖掘技術(shù)的主要方法及其發(fā)展方向[J].河北科技大學學報，2000，（5）：86-90.

[6]業(yè)寧，梁作鵬，董逸生，王厚立.一種SVM非線性回歸算法[J].計算機工程，2005，（20）.

[7]李望晨，張利平，王培承.基于SVM數(shù)據(jù)挖掘的國民經(jīng)濟序列補缺及預(yù)測—以青海省國民經(jīng)濟為例[J].工業(yè)技術(shù)經(jīng)濟，2010，（1）.

[8]牟琦，畢孝儒，龔尚福，厙向陽.基于中間分類超平面的SVM入侵檢測[J].上海：計算機工程，2011，（16）.