袁帥 石艷 張國鋒 張慧麗 王曉燕
本文針對大數(shù)據(jù)處理的生命周期,研究分析大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)的就業(yè)崗位需求。本文根據(jù)國家大數(shù)據(jù)的政策,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展?fàn)顩r及河南大數(shù)據(jù)產(chǎn)業(yè)狀況,分析大數(shù)據(jù)的生命周期,根據(jù)大數(shù)據(jù)的生命周期,提出了大數(shù)據(jù)的就業(yè)崗位及崗位詳細(xì)描述,能對大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)建設(shè)提供較好的幫助。
隨著大數(shù)據(jù)的爆炸式增長和大數(shù)據(jù)產(chǎn)業(yè)的快速發(fā)展,企業(yè)對大數(shù)據(jù)的處理應(yīng)更為準(zhǔn)確規(guī)范。針對大數(shù)據(jù)處理的生命周期,需要更精確的崗位對應(yīng)。
國家政策
自2015年9月,經(jīng)李克強總理簽批,國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,系統(tǒng)部署了我國大數(shù)據(jù)發(fā)展工作,至此,大數(shù)據(jù)成為國家級的發(fā)展戰(zhàn)略。2016年,政策細(xì)化落地,國家發(fā)改委、環(huán)保部、工信部、國家林業(yè)局、農(nóng)業(yè)部等均推出了關(guān)于大數(shù)據(jù)的發(fā)展意見和方案;2017年,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展正從理論研究加速進(jìn)入應(yīng)用時代;2018年,大數(shù)據(jù)產(chǎn)業(yè)相關(guān)的政策內(nèi)容已經(jīng)從全面、總體的指導(dǎo)規(guī)劃逐漸向各大行業(yè)、細(xì)分領(lǐng)域延伸,物聯(lián)網(wǎng)、云計算、人工智能、5G技術(shù)與大數(shù)據(jù)的關(guān)系越走越近。
行業(yè)發(fā)展情況
大數(shù)據(jù)產(chǎn)業(yè)指以數(shù)據(jù)生產(chǎn)、采集、存儲、加工、分析、服務(wù)為主的相關(guān)經(jīng)濟(jì)活動,包括數(shù)據(jù)資源建設(shè)、大數(shù)據(jù)軟硬件產(chǎn)品的開發(fā)、銷售和租賃活動,以及相關(guān)信息技術(shù)服務(wù)。2015年,我國信息產(chǎn)業(yè)收入達(dá)到17.1萬億元,比2010年進(jìn)入“十二五”前翻了一番。其中軟件和信息技術(shù)服務(wù)業(yè)實現(xiàn)軟件業(yè)務(wù)收入4.3萬億元,同比增長15.7%。大型數(shù)據(jù)中心向綠色化、集約化發(fā)展,跨地區(qū)經(jīng)營互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)業(yè)務(wù)的企業(yè)達(dá)到 295家。云計算服務(wù)逐漸成熟,主要云計算平臺的數(shù)據(jù)處理規(guī)模已躋身世界前列,為大數(shù)據(jù)提供強大的計算存儲能力并促進(jìn)數(shù)據(jù)集聚。在大數(shù)據(jù)資源建設(shè)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用領(lǐng)域涌現(xiàn)出一批新模式和新業(yè)態(tài)。龍頭企業(yè)引領(lǐng),上下游企業(yè)互動的產(chǎn)業(yè)格局初步形成。基于大數(shù)據(jù)的創(chuàng)新創(chuàng)業(yè)日趨活躍,大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)與服務(wù)成為社會資本投入的熱點。
河南省大數(shù)據(jù)產(chǎn)業(yè)狀況
作為新興產(chǎn)業(yè),河南省大數(shù)據(jù)管理局貫徹落實黨中央關(guān)于政務(wù)服務(wù)和數(shù)據(jù)管理工作的方針政策和決策部署,在履行職責(zé)過程中堅持和加強黨對政務(wù)服務(wù)和數(shù)據(jù)管理工作的集中統(tǒng)一領(lǐng)導(dǎo)。加強統(tǒng)籌協(xié)調(diào),構(gòu)建河南政務(wù)大數(shù)據(jù)平臺,打破信息孤島,加快數(shù)據(jù)共享。開展大數(shù)據(jù)示范應(yīng)用,統(tǒng)籌推進(jìn)“數(shù)字政府”建設(shè),建立“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”新機(jī)制。
產(chǎn)業(yè)發(fā)展,人才先行。2017年6月,河南省委、省政府聯(lián)合印發(fā)《關(guān)于加快推進(jìn)國家大數(shù)據(jù)綜合試驗區(qū)建設(shè)的若干意見》,提出河南要打造全國一流的大數(shù)據(jù)產(chǎn)業(yè)中心、數(shù)據(jù)應(yīng)用先導(dǎo)區(qū)、創(chuàng)新創(chuàng)業(yè)集聚區(qū)、制度創(chuàng)新先行區(qū),建成引領(lǐng)中部、特色鮮明的國家大數(shù)據(jù)綜合試驗區(qū)。
2018年5月,河南省發(fā)改委發(fā)布《河南省大數(shù)據(jù)產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》,力爭到2019年大數(shù)據(jù)核心產(chǎn)業(yè)規(guī)模超過400億元,關(guān)聯(lián)業(yè)態(tài)規(guī)模達(dá)到2000億元。到2020年,大數(shù)據(jù)核心產(chǎn)業(yè)規(guī)模突破1000億元,關(guān)聯(lián)業(yè)態(tài)規(guī)模超過5000億元。2018年跨境電子商務(wù)交易額達(dá)到1200億元,2019年達(dá)到1350億元,2020年達(dá)到1500億元。加快龍子湖智慧島核心區(qū)建設(shè),2018年入駐大數(shù)據(jù)領(lǐng)域企業(yè)超過150家,產(chǎn)值達(dá)到150億元;2020年入駐企業(yè)達(dá)到500家,產(chǎn)值達(dá)到1000億元。建成一批輻射帶動力強的省級大數(shù)據(jù)產(chǎn)業(yè)園區(qū),發(fā)展壯大5~10家大數(shù)據(jù)龍頭企業(yè),培育50家專業(yè)化數(shù)據(jù)服務(wù)創(chuàng)新型中小企業(yè),形成比較完善的大數(shù)據(jù)產(chǎn)業(yè)鏈。
2018年9月,河南省人民政府辦公廳下發(fā)了《關(guān)于河南省促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展若干政策的通知》,明確提出用電價格減半、以獎代補、設(shè)立信息產(chǎn)業(yè)發(fā)展基金、土地出讓優(yōu)惠等十項“硬措施”,以促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展。
河南發(fā)展大數(shù)據(jù)產(chǎn)業(yè)最缺的是人才,河南省既缺乏保障大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎(chǔ)人才和技能人才,也缺乏大數(shù)據(jù)產(chǎn)業(yè)領(lǐng)軍人才,人才培養(yǎng)體系不成熟,激勵機(jī)制和保障體系待完善。政府規(guī)劃綱要中明確要求高校、科研機(jī)構(gòu)和行業(yè)協(xié)會等企事業(yè)單位積極參與大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,鼓勵高等院校開設(shè)大數(shù)據(jù)相關(guān)專業(yè)和課程,推動省內(nèi)外高校與行業(yè)企業(yè)、科研院所深度合作,培養(yǎng)大數(shù)據(jù)技術(shù)研發(fā)、市場推廣、服務(wù)咨詢等應(yīng)用型人才。支持有條件的企業(yè)與科研院所、高校合作建設(shè)大數(shù)據(jù)方面專業(yè),重點實驗室,實訓(xùn)基地。以培養(yǎng)大量技術(shù)技能型、復(fù)合技能型和知識技能型專業(yè)技術(shù)人才,滿足大數(shù)據(jù)產(chǎn)業(yè)發(fā)展需求。
大數(shù)據(jù)的爆炸式增長在大容量、多樣性和高增速方面,全面考驗著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力;同時,也為企業(yè)帶來了獲取更豐富、更深入和更準(zhǔn)確地洞察市場行為的大量機(jī)會。大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料規(guī)模巨大到無法透過目前傳統(tǒng)的主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策達(dá)到更積極目的的資訊。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC 以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
據(jù)數(shù)聯(lián)尋英發(fā)布《大數(shù)據(jù)人才報告》顯示,目前全國的大數(shù)據(jù)人才僅46萬,未來3-5年內(nèi)大數(shù)據(jù)人才的缺口將高達(dá)150萬。根據(jù)中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會統(tǒng)計,未來中國基礎(chǔ)性數(shù)據(jù)分析人才缺口將達(dá)到1400萬,而在BAT企業(yè)招聘的職位里,60%以上都在招大數(shù)據(jù)人才。這些人才缺口的存在使大數(shù)據(jù)技術(shù)與應(yīng)用人才可選擇的優(yōu)質(zhì)就業(yè)崗位遍地開花,使得高等院校為社會培養(yǎng)大數(shù)據(jù)技術(shù)與應(yīng)用人才成為大勢所趨。
大數(shù)據(jù)整個處理流程可以大致分為四個階段,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計和分析,最后是數(shù)據(jù)挖掘。
數(shù)據(jù)采集階段:大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App 或者傳感器等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫 MySQL 或者 Oracle 等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis 和 MongoDB 這樣的NoSQL 數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
預(yù)處理階段:雖然采集階段涉及到很多不同的數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式存儲數(shù)據(jù)庫或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter 的 Storm 來對數(shù)據(jù)進(jìn)行流式計算,以滿足部分業(yè)務(wù)的實時計算需求。
統(tǒng)計分析階段:統(tǒng)計與分析主要利用分布式存儲數(shù)據(jù)庫或者分布式存儲集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到基于 MySQL 的列式存儲 Infobright 等,而一些批處理或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用 Hadoop。
數(shù)據(jù)挖掘階段:數(shù)據(jù)挖掘一般沒有預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面嘗試進(jìn)行各種挖掘算法的計算,從而起到預(yù)測和警告的作用,以實現(xiàn)一些高級別數(shù)據(jù)分析的需求。主要使用的工具有 Hadoop 的 Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
通過對大數(shù)據(jù)概念、處理流程的分析,以及對行業(yè)企業(yè)的調(diào)研,收集了大量崗位調(diào)查報告。形成如下崗位分析表,較為全面的反應(yīng)了大數(shù)據(jù)技術(shù)應(yīng)用及云計算平臺運維就業(yè)崗位的需求。
本文基于大數(shù)據(jù)處理的生命周期,研究分析大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)的就業(yè)崗位與崗位描述,使就業(yè)崗位與大數(shù)據(jù)處理生命周期需求一致,就業(yè)崗位描述更加清晰,更加明確。
(鄭州電力高等專科學(xué)校信息通信系)
(河南信息工程學(xué)校計算機(jī)系)