• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      經(jīng)濟普查數(shù)據(jù)的分析與挖掘

      2016-01-05 13:17:08張麗虹
      現(xiàn)代商貿(mào)工業(yè) 2015年27期
      關(guān)鍵詞:支持向量機數(shù)據(jù)挖掘

      張麗虹

      摘 要:通過相關(guān)性分析(Correlation)與支持向量機(Support Vector Machine)對經(jīng)濟普查系統(tǒng)中的部分典型數(shù)據(jù)進行具體的試驗與分析:研究了企業(yè)的資產(chǎn)總額、高學歷員工比例、女性員工比例與企業(yè)盈利能力的相關(guān)性,也研究了企業(yè)機構(gòu)類型與其高學歷員工比例的關(guān)系;并利用數(shù)據(jù)分析與挖掘技術(shù)對經(jīng)濟普查數(shù)據(jù)進行分析,從海量數(shù)據(jù)中發(fā)現(xiàn)知識,驗證了該系統(tǒng)的可操作性和先進性,以期利用這些統(tǒng)計數(shù)據(jù)為我國的社會與經(jīng)濟發(fā)展服務(wù)。

      關(guān)鍵詞:經(jīng)濟普查系統(tǒng);數(shù)據(jù)挖掘;支持向量機

      中圖分類號:D9

      文獻標識碼:A

      文章編號:1672-3198(2015)25-0229-03

      0 引言

      為了全面掌握國民經(jīng)濟的發(fā)展規(guī)模、結(jié)構(gòu)和效益等情況,我國于2008年進行了第二次全國經(jīng)濟普查。這次普查的標準時間點為2008年12月31日,時期資料為2008年度,普查對象是在我國境內(nèi)從事第二產(chǎn)業(yè)、第三產(chǎn)業(yè)的全部法人單位、產(chǎn)業(yè)活動單位和個體經(jīng)營戶。普查內(nèi)容主要包括單位基本屬性、就業(yè)人員、財務(wù)狀況、生產(chǎn)經(jīng)營情況、生產(chǎn)能力、原材料和能源消耗、科技活動情況等。

      針對經(jīng)濟普查中收集的大量數(shù)據(jù),有必要利用數(shù)據(jù)分析與挖掘方法對其分析,并通過相關(guān)性分析(Correlation)與SVM(Support Vector Machine,支持向量機)進行具體試驗,充分利用這些統(tǒng)計數(shù)據(jù)為我國的社會與經(jīng)濟發(fā)展服務(wù),使我國在統(tǒng)計機構(gòu)信息系統(tǒng)的研究水平達到或超過國外的水平。

      1 經(jīng)濟普查統(tǒng)計指標解釋

      開展經(jīng)濟普查,不僅是為了掌握重要的國情國力,而且還要通過普查在人力、物力上的特殊優(yōu)勢,使普查制度設(shè)計成為推動經(jīng)常性統(tǒng)計制度科學性的極好機會,發(fā)揮普查工作在整個統(tǒng)計工作中的基礎(chǔ)地位。

      本次經(jīng)濟普查收集了23,028家各類型企業(yè)的各66項數(shù)據(jù),總計1,522,488條。為了方便對如此繁多的數(shù)據(jù)進行解讀,發(fā)現(xiàn)知識,擬按下列經(jīng)濟普查統(tǒng)計指標進行分類、統(tǒng)計。

      (1)登記注冊類型。主要分為三類:內(nèi)資;港澳臺資;外資。

      (2)執(zhí)行的會計制度。主要包括企業(yè)、事業(yè)、行政三種。

      (3)機構(gòu)類型。主要分為企業(yè)、事業(yè)、機關(guān)三種。

      (4)控股情況。主要分為國有、集體、私人、港澳臺、外商五種。

      (5)隸屬關(guān)系。主要分為中央、省、地、縣四級。

      (6)經(jīng)濟指標。主要包括主營業(yè)務(wù)收入與資產(chǎn)總計兩項。

      (7)人力資源。人力資源的調(diào)查較為細致,對同一人群,采用了性別、學歷、技術(shù)職稱、技術(shù)等級四種不同的分類方法。(注:多樣的分類方法使調(diào)查結(jié)果數(shù)據(jù)內(nèi)容更加豐富,更有價值,但細致的分類似乎對參與調(diào)查的企業(yè)造成一些困擾,導(dǎo)致很多數(shù)據(jù)是空的。在數(shù)據(jù)挖掘的過程中,相關(guān)數(shù)據(jù)為空的條目將被移除。)

      2 基于數(shù)據(jù)分析與挖掘的普查數(shù)據(jù)分析

      在前期分類、統(tǒng)計數(shù)據(jù)的基礎(chǔ)上,針對一些特征數(shù)據(jù),如不同類型企業(yè)、企業(yè)員工組成、經(jīng)營狀況等數(shù)據(jù),進行數(shù)據(jù)分析與挖掘,并進行相關(guān)性分析與SVM試驗,所得的研究結(jié)論可供相關(guān)部門參考。

      2.1 數(shù)據(jù)分析與挖掘算法選擇

      數(shù)據(jù)挖掘分類技術(shù),主要有決策樹法、貝葉斯法、神經(jīng)網(wǎng)絡(luò)法和粗糙集等方法。而近幾年來,作為新興智能數(shù)據(jù)挖掘技術(shù),SVM主要用于非線性回歸領(lǐng)域,能更好地解決小樣本、非線性及高維模式識別問題、網(wǎng)絡(luò)結(jié)構(gòu)的確定問題、過學習與欠學習問題、局部極小點問題等。SVM起源于二類分類問題,也可以用作多類分類,并基于結(jié)構(gòu)風險最小化原則,直接進行樣本集自組織學習訓練來逼近系統(tǒng)非線性規(guī)律,容錯和泛化性能優(yōu)良。

      針對特征數(shù)據(jù)的特點,選擇SVM訓練超平面,用超平面把不同類的企業(yè)分開,從而獲得不同類別企業(yè)間差異的信息。使用SVM劃分不同類別企業(yè)更大限度利用了所有的信息,訓練所得的超平面可以明確顯示兩類企業(yè)各有多少家在超平面的這一邊,又各有多少家在超平面的另一邊。根據(jù)SVM的原理,訓練得到的超平面是把不同類分開的最優(yōu)超平面,因此由該超平面得到的分類結(jié)果,其實就是各類不同企業(yè)的最大差異。用SVM對兩類企業(yè)分類等價于將兩類企業(yè)的差異最大化。

      2.2 企業(yè)資產(chǎn)總額與盈利能力的相關(guān)性

      研究企業(yè)的資產(chǎn)總額與盈利能力(主營業(yè)務(wù)收入/資產(chǎn)總額)的相關(guān)性,有助于發(fā)現(xiàn)企業(yè)規(guī)模與盈利能力的關(guān)系。

      首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額一欄填寫值為0,部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入一欄填寫值為空,這些企業(yè)均被剔除,最終剩余13,872家企業(yè)。初步的相關(guān)性分析發(fā)現(xiàn)企業(yè)的資產(chǎn)總額與盈利能力的相關(guān)性并不直接,因此對資產(chǎn)總額取以十為底的對數(shù)。圖1是log10(資產(chǎn)總額)與企業(yè)盈利能力的相關(guān)性分析圖。為了方便觀察點的密度,僅顯示了兩千個點。

      圖1 企業(yè)資產(chǎn)總額與盈利能力的相關(guān)性分析圖

      由圖1可見,對于資產(chǎn)總額較小的、在一百萬以下的企業(yè),其盈利能力跳躍較大;對資產(chǎn)總額在四百萬以上的企業(yè),其盈利能力與log10(資產(chǎn)總額)表現(xiàn)出較為明顯的負相關(guān)。相關(guān)性分析表明,盈利能力與log10(資產(chǎn)總額)的相關(guān)系數(shù)為-0.2981,其95%置信區(qū)間為[-0.3307,-0.2656]。

      結(jié)果表明,對資產(chǎn)總額四百萬以上的企業(yè),其盈利能力與資產(chǎn)總額存在負相關(guān)性。造成這一現(xiàn)象的原因,可能是小企業(yè)更易管理,更容易從競爭較少的行業(yè)獲益,而大企業(yè)往往管理不易,涉及的利益過于龐大,同行競爭也較為殘酷,壓低了平均利潤水平。另一方面,也可能是小企業(yè)采取的會計制度不如大企業(yè)嚴格,夸大了收益。這一結(jié)果在一定程度上支持了股市投資的一個觀點,就是小公司的股票上漲更快,這個結(jié)論也與美股市場過去百年間的統(tǒng)計結(jié)果相吻合。

      2.3 企業(yè)高學歷員工比例與盈利能力的相關(guān)性

      研究高學歷員工比例(研究生及其以上員工人數(shù)/員工總數(shù))與盈利能力(主營業(yè)務(wù)收入/資產(chǎn)總額)的相關(guān)性,有助于考察高層次人才對企業(yè)盈利能力的影響。

      首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額或員工總數(shù)一欄填寫值為0,部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入或員工總數(shù)或研究生及其以上員工總數(shù)一欄填寫值為空,這些企業(yè)均被剔除。研究生數(shù)量為0的企業(yè)過多,本文將其剔除。最終剩余1,313家企業(yè)。圖2是企業(yè)研究生以上學歷員工比例與盈利能力的相關(guān)性分析圖。

      圖2 企業(yè)研究生以上學歷員工比例與

      盈利能力的相關(guān)性分析圖

      實驗采用Matlab R2007a編程,運行在奔騰雙核CPU E5200(2.50GHz、2.49GHz),內(nèi)存 3GB的個人計算機上,運行時間約7s。

      由圖2可見,在研究生及其以上員工比例大于0的企業(yè)里(1,313家,約占企業(yè)總數(shù)5669家的2316%),絕大多數(shù)企業(yè)研究生及其以上員工比例在10%以下,研究生及其以上員工比例越高,企業(yè)數(shù)量越少,但在100%的位置有顯著的峰值,即有不少企業(yè)所有員工都是研究生及其以上學歷,這些企業(yè)或許是從事研究性工作的研究所或咨詢機構(gòu)。從圖上看,企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)性并不顯然,這是由于絕大部分企業(yè)集中在坐標原點附近。相關(guān)性分析表明,企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)系數(shù)為0.0192,其95%置信區(qū)間為[00157,0.0227],可靠性較盈利能力與log10(資產(chǎn)總額)稍差,但都為正值。即,企業(yè)盈利能力與研究生及其以上員工比例有極為輕微的正相關(guān)。

      對本科員工比例與盈利能力的相關(guān)性分析,取得了類似的結(jié)果。圖3為2000家企業(yè)的本科學歷員工人數(shù)比例與盈利能力(圖3)。企業(yè)盈利能力與研究生及其以上員工比例的相關(guān)系數(shù)為0.0183,其95%置信區(qū)間為[0.0154,0.0212],可靠性較研究生及其以上員工比例與盈利能力稍差,但都為正值。

      圖3 企業(yè)本科學歷員工比例與

      盈利能力的相關(guān)性分析圖

      結(jié)果表明,高學歷并非顯著的導(dǎo)致高產(chǎn)出。盡管學歷依然受到重視,高學歷員工比例高一定程度上代表了高的科技含量,但這一特色并未明顯的在市場上轉(zhuǎn)化為直接的經(jīng)濟效益。這一結(jié)果有些耐人尋味,但的確與股市的一個選股原則缺失相對應(yīng),即上市公司的高學歷員工比例并未被列為選股原則之一。由此推論,不僅在中國,在世界各國,都可能存在“高學歷并非顯著導(dǎo)致高產(chǎn)出”這一現(xiàn)象。導(dǎo)致這一現(xiàn)象的深層次原因可能是:(1)高學歷學生進入公司無法應(yīng)用所學;(2)企業(yè)招聘高學歷學生,很大程度出于裝點門面考慮;(3)高學歷學生斗志減弱,傾向于進入穩(wěn)定的、盈利少的事業(yè)單位而非競爭激烈的企業(yè)單位等因素;(4)亦或擁有較高比例高學歷員工的企業(yè)往往較為正規(guī),遵守的會計制度更為嚴格;等等。

      2.4 企業(yè)女性員工比例與盈利能力的相關(guān)性

      對于招收女性員工,企業(yè)往往徘徊不定,因為招收女性員工對企業(yè)效益同時具有正面與負面的影響。其正面影響,是企業(yè)需要一定比例的女性員工,來調(diào)節(jié)工作氣氛,促進生產(chǎn)效率;其負面影響,是女性員工往往會因生子而耽誤工作。通過數(shù)據(jù)挖掘的方法,分析企業(yè)女性員工比例與盈利能力的相關(guān)性,可以發(fā)現(xiàn)女性員工對企業(yè)盈利的影響。

      首先是數(shù)據(jù)的前處理。部分企業(yè)資產(chǎn)總額或員工總數(shù)一欄填寫值為0,部分企業(yè)資產(chǎn)總額或主營業(yè)務(wù)收入或女性員工數(shù)量或員工總數(shù)一欄填寫值為空,這些企業(yè)均被剔除,最終剩余14,789家企業(yè)。圖4是企業(yè)女性員工比例與盈利能力的相關(guān)性分析圖。為了方便觀察點的密度,僅顯示了兩千個點。

      圖4 企業(yè)女性員工比例與盈利能力的相關(guān)性分析圖

      由圖4可見,企業(yè)女性員工比例與盈利能力的關(guān)系具有分段性。對于女性比例在30%以下的企業(yè),女性員工比例與盈利能力似乎存在一定的正相關(guān),對于女性比例在30%以上的企業(yè),女性員工比例與盈利能力似乎存在一定的負相關(guān)。因此本文將女性員工比例分為[0,0.3]與[0.3,1]兩個區(qū)間。相關(guān)分析的結(jié)果表明,當女性員工比例小于30%時,女性員工比例與盈利能力的相關(guān)系數(shù)為0.0129,其95%置信區(qū)間為[00114,0.0143];當女性員工比例大于30%時,女性員工比例與盈利能力的相關(guān)系數(shù)為-0.0235,其95%置信區(qū)間為[-0.0259,-0.0218]。

      結(jié)果表明,當女性員工比例在30%以下時,女性員工比例與盈利能力存在輕微的正相關(guān),當女性員工比例在30%以上時,女性員工比例與盈利能力存在稍明顯的負相關(guān)。即,女性員工的比例不宜過低,也不宜過高,而是以維持一定的比例為佳。造成這一現(xiàn)象的原因,可能是一定比例的女性員工,可有效調(diào)節(jié)工作氣氛,促進員工整體的生產(chǎn)效率;而當女性員工比例過半時,這一調(diào)節(jié)效果則容易失效,并且女性員工往往會因生孩子而耽誤工作,造成企業(yè)營業(yè)收入的下滑。

      2.5 公司企業(yè)與高學歷員工比例的關(guān)系

      通過SVM方法對機構(gòu)分類、試驗,可以發(fā)現(xiàn)公司企事業(yè)與人力資源學歷構(gòu)成之間的關(guān)系。由于SVM本質(zhì)上是對只有兩類的問題進行分類,因此,需先把多類問題轉(zhuǎn)化為兩類問題,再用SVM分類。處理方法是,考慮某個機構(gòu)類型時,把該類型標簽設(shè)定為1,其余類型標簽設(shè)定為0。

      實驗采用Matlab R2007a編程,運行在奔騰雙核CPU E5200(2.50GHz、2.49GHz),內(nèi)存3GB的個人計算機上,運行時間約8670s。

      首先是數(shù)據(jù)的前處理。部分企業(yè)員工總數(shù)一欄填寫值為0,部分企業(yè)員工總數(shù)或本科學歷員工總數(shù)或研究生及其以上員工總數(shù)一欄填寫值為空,這些企業(yè)均被剔除。最終剩余1,313家企業(yè)。為了方便觀察點的密度,圖上只顯示了200個點。

      圖5 公司企業(yè)與高學歷員工比例關(guān)系的SVM分類結(jié)果

      如圖5,+號代表公司企業(yè),*號代表其他類型的企業(yè)單位;深色的+號與*號代表被分為訓練集的元素,淺色的+號與*號代表被分為測試集的元素;圓圈中的元素為支持向量。圖中的直線是SVM判別直線。SVM分類成功率為81.20%,即約80%的企業(yè)單位集中在判別線之上的區(qū)域。

      結(jié)果表明,公司企業(yè)與其他類型單位在員工學歷構(gòu)成的傾向上具有明顯地差別,公司企業(yè)傾向于擁有更高比例的本科生,其研究生比例基本都在30%以下;其他類型單位則表現(xiàn)得較為零散。這可能是由于其他類型單位包含了事業(yè)單位、機關(guān)單位、社會團體、居委會、村委會等等,自身構(gòu)成較為復(fù)雜。公司企業(yè)傾向于招收本科生的結(jié)果,與校園招聘會的現(xiàn)實接近,在各大公司企業(yè)的招聘章程里,本科生的需求量都是最大的。究其原因,首先是本科生基數(shù)遠大于研究生及其以上學歷學生,其次或許與公司企業(yè)注重企業(yè)文化的建設(shè),本科畢業(yè)生單純易于栽培有關(guān);另外本科生薪資期待比研究生及其以上學歷學生要低,精力卻更年輕因而更充沛,更肯拼搏奮斗,性價比較高;最后,研究生或更高學歷學生在校所學未必為公司企業(yè)所需;或許這些都是造成注重收益的公司企業(yè)更傾向于招收本科生的原因。

      3 結(jié)語

      通過相關(guān)分析與SVM方法,對系統(tǒng)的數(shù)據(jù)分析與挖掘功能進行了試驗和分析,發(fā)現(xiàn)如下結(jié)論:

      (1)企業(yè)資產(chǎn)總額與盈利能力存在一定的負相關(guān),相關(guān)系數(shù)為-0.2981,其95%置信區(qū)間為[-0.3307,-0.2656]。

      (2)企業(yè)高學歷員工比例與盈利能力存在輕微的正相關(guān),研究生及其以上員工比例與盈利能力的相關(guān)系數(shù)為0.0192,其95%置信區(qū)間為[0.0157,0.0227],本科學歷員工比例與盈利能力的相關(guān)系數(shù)為0.0183,其95%置信區(qū)間為[0.0154,0.0212]。

      (3)企業(yè)女性員工比例與盈利能力,當女性員工比例小于30%時,存在輕微的正相關(guān),相關(guān)系數(shù)為00129,其95%置信區(qū)間為[0.0114,0.0143];當女性員工比例大于30%時,存在稍大的負相關(guān),相關(guān)系數(shù)為-0.0235,其95%置信區(qū)間為[-0.0259,-0.0218]。

      (4)公司企業(yè)的員工學歷構(gòu)成與其他類型單位有顯著地區(qū)別,用SVM分類可達到81.20%的分類正確率,其員工組成的特點是側(cè)重本科生。

      實驗結(jié)果表明,用相關(guān)分析與SVM方法對機構(gòu)分類,并通過數(shù)據(jù)分析與挖掘,可以從海量數(shù)據(jù)中發(fā)現(xiàn)大量知識,驗證了該經(jīng)濟普查系統(tǒng)的可操作性和先進性。

      參考文獻

      [1]四川省人民政府經(jīng)濟普查領(lǐng)導(dǎo)小組辦公室.第二次全國經(jīng)濟普查概要[J].四川省情,2008,(8).

      [2]全國經(jīng)濟普查條例[J].北京:北京統(tǒng)計,2004,(10).

      [3]張敏敏.中國經(jīng)濟普查的數(shù)據(jù)挖掘方法研究[D].哈爾濱:東北林業(yè)大學,2005.

      [4]對新一輪經(jīng)濟普查的幾點思考[EB/OL].安徽統(tǒng)計信息網(wǎng),2001-6-4.

      [5]楊會志.數(shù)據(jù)挖掘技術(shù)的主要方法及其發(fā)展方向[J].河北科技大學學報,2000,(5):86-90.

      [6]業(yè)寧,梁作鵬,董逸生,王厚立.一種SVM非線性回歸算法[J].計算機工程,2005,(20).

      [7]李望晨,張利平,王培承.基于SVM數(shù)據(jù)挖掘的國民經(jīng)濟序列補缺及預(yù)測—以青海省國民經(jīng)濟為例[J].工業(yè)技術(shù)經(jīng)濟,2010,(1).

      [8]牟琦,畢孝儒,龔尚福,厙向陽.基于中間分類超平面的SVM入侵檢測[J].上海:計算機工程,2011,(16).

      猜你喜歡
      支持向量機數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于改進支持向量機的船舶縱搖預(yù)報模型
      中國水運(2016年11期)2017-01-04 12:26:47
      基于SVM的煙草銷售量預(yù)測
      動態(tài)場景中的視覺目標識別方法分析
      論提高裝備故障預(yù)測準確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
      價值工程(2016年29期)2016-11-14 00:13:35
      基于支持向量機的金融數(shù)據(jù)分析研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      伊春市| 澄江县| 永兴县| 岑溪市| 苏州市| 曲松县| 稻城县| 乡城县| 兴国县| 都安| 大连市| 松潘县| 蓝田县| 墨玉县| 江孜县| 称多县| 汽车| 宿松县| 油尖旺区| 嘉黎县| 讷河市| 普陀区| 达孜县| 新晃| 沙河市| 青神县| 英吉沙县| 肃宁县| 北碚区| 平凉市| 新干县| 安吉县| 张掖市| 永嘉县| 海南省| 洪湖市| 齐齐哈尔市| 若尔盖县| 武陟县| 彭州市| 温宿县|