朱揚勇,熊贇
1.復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院,上海 200433;
2.上海市數(shù)據(jù)科學(xué)重點實驗室,上海 200433
大數(shù)據(jù)人才培養(yǎng)的基礎(chǔ)條件初探
朱揚勇1,2,熊贇1,2
1.復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院,上海 200433;
2.上海市數(shù)據(jù)科學(xué)重點實驗室,上海 200433
人才短缺是發(fā)展大數(shù)據(jù)的主要障礙,越來越多的大學(xué)啟動了大數(shù)據(jù)人才培養(yǎng)計劃。大數(shù)據(jù)人才培養(yǎng)的基礎(chǔ)條件有哪些?首先要有師資,但這是一個矛盾的基礎(chǔ)條件,人才短缺意味著師資更短缺;其次要有數(shù)據(jù),且是“大”的數(shù)據(jù),沒有數(shù)據(jù)的人才培養(yǎng)是紙上談兵;有了“大”數(shù)據(jù),就需要相應(yīng)的計算條件。探索了大數(shù)據(jù)人才培養(yǎng)所需的師資、數(shù)據(jù)和計算條件問題,提出超學(xué)科創(chuàng)新培養(yǎng)模式解決師資條件問題、建立大數(shù)據(jù)試驗場解決數(shù)據(jù)和計算條件問題。
大數(shù)據(jù);人才培養(yǎng);數(shù)據(jù)分析師;數(shù)據(jù)科學(xué)家
從應(yīng)用的視角來看,大數(shù)據(jù)是運用來自多個領(lǐng)域的數(shù)據(jù)解決問題,數(shù)據(jù)的交叉意味著領(lǐng)域的交叉,領(lǐng)域的交叉意味著知識的交叉,知識的交叉意味著方法的交叉,從而產(chǎn)生新的科學(xué)研究方法、新的治理管理方法、新的經(jīng)濟增長方式、新的社會發(fā)展方式等。交叉導(dǎo)致了在實施一個大數(shù)據(jù)應(yīng)用時,常常由來自于統(tǒng)計、計算機和業(yè)務(wù)領(lǐng)域的一個數(shù)據(jù)科學(xué)家團隊完成[1]。然而,這些專業(yè)在大學(xué)里是分別設(shè)置的,這說明,目前在大學(xué)沒有什么專業(yè)具備了數(shù)據(jù)科學(xué)家所需要的知識,這是一個新問題。事實上,大數(shù)據(jù)人才短缺是全球性問題[2],大數(shù)據(jù)人才被《2015薪資指南(2015 salary guide)》列為薪資漲幅最大的六大行業(yè)之一①http://www.roberthalf.com/ salary-guides。面對大數(shù)據(jù)人才緊缺現(xiàn)狀,大學(xué)紛紛啟動了數(shù)據(jù)科學(xué)或大數(shù)據(jù)專業(yè)培養(yǎng)計劃,提升人才培養(yǎng)和輸出能力。到2016年,美國有包括哈佛大學(xué)、斯坦福大學(xué)、芝加哥大學(xué)等數(shù)10所知名大學(xué)開設(shè)了數(shù)據(jù)科學(xué)或大數(shù)據(jù)學(xué)位計劃,中國有清華大學(xué)、復(fù)旦大學(xué)、南京大學(xué)等10余所大學(xué)開設(shè)了數(shù)據(jù)科學(xué)或大數(shù)據(jù)學(xué)位計劃。
盡管大數(shù)據(jù)人才的培養(yǎng)已經(jīng)起步,但值得注意的是,當(dāng)前的數(shù)據(jù)科學(xué)家培養(yǎng)的基礎(chǔ)條件缺乏。首先,師資是人才培養(yǎng)的主體,師資結(jié)構(gòu)要與專業(yè)適應(yīng),然而,大數(shù)據(jù)人才短缺意味著大數(shù)據(jù)師資的短缺,因此,這成為一個非常矛盾的基礎(chǔ)條件;其次,大數(shù)據(jù)人才培養(yǎng)的核心是要有數(shù)據(jù),而且是“大”的數(shù)據(jù),因為人才培養(yǎng)需要得到基礎(chǔ)研究和應(yīng)用研究的訓(xùn)練,具有扎實的基礎(chǔ)理論知識和實驗技能,沒有數(shù)據(jù)的大數(shù)據(jù)人才培養(yǎng)就像是紙上談兵;最后,有了“大”的數(shù)據(jù),就需要有相應(yīng)的計算條件,提供實踐鍛煉的基礎(chǔ)環(huán)境。圍繞大數(shù)據(jù)人才培養(yǎng)的師資條件、數(shù)據(jù)條件和計算條件三大基礎(chǔ)問題,本文提出兩個解決方案:一是,利用超學(xué)科創(chuàng)新培養(yǎng)模式解決師資條件問題;二是,建立大數(shù)據(jù)試驗場解決數(shù)據(jù)條件和計算條件問題。
2001年,Cleveland W S提出了一個數(shù)據(jù)科學(xué)行動計劃,指出了數(shù)據(jù)科學(xué)需要發(fā)展的重要方面(跨領(lǐng)域數(shù)據(jù)分析能力、數(shù)據(jù)建模和方法、數(shù)據(jù)計算能力、學(xué)科規(guī)劃、工具、基礎(chǔ)理論)[3]。這是最早的關(guān)于數(shù)據(jù)學(xué)科的研究,但長期來沒有引起重視,直到大數(shù)據(jù)熱潮到了,大數(shù)據(jù)人才培養(yǎng)才引起廣泛重視。
2.1 大數(shù)據(jù)人才及其培養(yǎng)
大數(shù)據(jù)是指為決策問題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。數(shù)據(jù)資源開發(fā)利用是實現(xiàn)大數(shù)據(jù)價值的關(guān)鍵,而大數(shù)據(jù)問題是指不能用當(dāng)前技術(shù)在決策希望的時間內(nèi)處理分析的數(shù)據(jù)資源開發(fā)利用問題[4]。因此,大數(shù)據(jù)人才主要包括:能夠用數(shù)據(jù)解決業(yè)務(wù)領(lǐng)域的問題的人和解決數(shù)據(jù)自身的問題的人這兩大類,可細(xì)分為:領(lǐng)域大數(shù)據(jù)應(yīng)用人才、大數(shù)據(jù)工程師、大數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家等。
用一個應(yīng)用例子來說明這些人才在大數(shù)據(jù)中扮演的角色。
以RTB(real time bidding,實時競價)精準(zhǔn)廣告為例。
設(shè)有一個網(wǎng)絡(luò)平臺(NP),一批廣告商AS(as1, as2, …, asi, …,asm),一批廣告和廣大網(wǎng)民X(x1, x2, …, xj, …,xn),精準(zhǔn)廣告按照如下步驟運行:
(1)當(dāng)一個網(wǎng)民xj打開網(wǎng)絡(luò)平臺網(wǎng)頁;
(2)網(wǎng)絡(luò)平臺就會向所有的廣告商發(fā)布一條信息,說有一個網(wǎng)民xj現(xiàn)在正打開網(wǎng)頁,誰要在RTB窗口出廣告;
(3)廣告商分析網(wǎng)民xj的個人行為信息,在他的廣告庫中搜尋匹配廣告,如果有,就找出一個匹配度最高的廣告,然后向網(wǎng)絡(luò)平臺發(fā)出競價報價;
(4)網(wǎng)絡(luò)平臺開始啟動各廣告商的報價競爭,在規(guī)定的時間內(nèi),以價高者得的原則,將廣告位賣給某個廣告商asi;
(5)獲得廣告位的廣告商asi從廣告庫中將最高匹配的廣告推送到網(wǎng)絡(luò)平臺網(wǎng)頁的RTB窗口中;
(6)一次RTB廣告結(jié)束,整個過程耗時不超過100 ms。
精準(zhǔn)廣告是大數(shù)據(jù)應(yīng)用最成功的領(lǐng)域,從中可以看到大數(shù)據(jù)人才從事的具體工作:領(lǐng)域大數(shù)據(jù)應(yīng)用人才要給出精準(zhǔn)廣告的業(yè)務(wù)模型,根據(jù)可能得到的數(shù)據(jù),設(shè)計業(yè)務(wù)邏輯;大數(shù)據(jù)工程師要進行軟件開發(fā)、工程實施、優(yōu)化系統(tǒng),確保100 ms內(nèi)完成所有工作;數(shù)據(jù)分析師要運用各種數(shù)據(jù)分析工具對廣告和網(wǎng)民進行聚類、分類等數(shù)據(jù)分析工作;數(shù)據(jù)科學(xué)家則需要根據(jù)RTB精準(zhǔn)廣告業(yè)務(wù)和潛在的網(wǎng)民、廣告內(nèi)容等設(shè)計相似性函數(shù)、數(shù)據(jù)分析算法、建立分析模型等。
從上述分析,可以大致看出如下幾類大數(shù)據(jù)人才的情況。
(1)領(lǐng)域大數(shù)據(jù)應(yīng)用人才
他們是各領(lǐng)域中的數(shù)據(jù)人才,之前,他們中的大部分從事本單位的信息化工作,現(xiàn)在開始從事本單位的數(shù)據(jù)資源開發(fā)工作。其中,主要代表是一些之前的首席信息官(chief information officer,CIO)正試圖轉(zhuǎn)變?yōu)槭紫瘮?shù)據(jù)官(chief data officer,CDO)。調(diào)查機構(gòu)IDC預(yù)測,到2020年,全球組織中將有60%的首席信息官被首席數(shù)據(jù)官取代②http://www.forbes.com/ sites/gilpress/ 2014/10/30/ idc-to-cios-60-percentof-you-willbe-supplantedby-chief-digitalofficers-by-2020/ #676fc280313c。
(2)大數(shù)據(jù)工程師
他們是掌握Hadoop、MapReduce、Spark、HBase等大數(shù)據(jù)開發(fā)環(huán)境和工具的工程師,善于在數(shù)據(jù)規(guī)模和系統(tǒng)配置、軟件優(yōu)化方面進行調(diào)優(yōu),使得大數(shù)據(jù)系統(tǒng)得以在用戶希望的時間內(nèi)完成相應(yīng)的工作。
(3)大數(shù)據(jù)分析師
他們掌握了MATLAB、R、Python語言之類的大數(shù)據(jù)分析工具,具備良好的數(shù)理統(tǒng)計知識背景,通常是統(tǒng)計學(xué)家,能理解業(yè)務(wù)需求并應(yīng)用工具開展數(shù)據(jù)分析的人。
(4)數(shù)據(jù)科學(xué)家
他們掌握數(shù)據(jù)分析算法原理、善于發(fā)揮個體能力和經(jīng)驗,創(chuàng)造性地設(shè)計數(shù)據(jù)分析算法,尤其是設(shè)計相似性函數(shù)之類的創(chuàng)造性勞動。他們是發(fā)現(xiàn)數(shù)據(jù)規(guī)律和現(xiàn)象、探尋數(shù)據(jù)本質(zhì)的科學(xué)家。
針對不同的大數(shù)據(jù)人才,可以設(shè)計針對性的培養(yǎng)方案,即大數(shù)據(jù)人才的培養(yǎng)是多類型的。復(fù)旦大學(xué)上海市數(shù)據(jù)科學(xué)重點實驗室就建立了系統(tǒng)化的大數(shù)據(jù)培養(yǎng)體系,包括:青年數(shù)據(jù)科學(xué)家交流計劃、數(shù)據(jù)科學(xué)家博士后計劃、數(shù)據(jù)科學(xué)家研究生計劃、數(shù)據(jù)科學(xué)家本科第二專業(yè)計劃、軟件工程碩士大數(shù)據(jù)方向培養(yǎng)計劃和數(shù)據(jù)科學(xué)家訓(xùn)練營計劃、數(shù)據(jù)科學(xué)FIST課程計劃,涵蓋了數(shù)據(jù)科學(xué)家培養(yǎng)的各個方面,是目前國際上最為系統(tǒng)化的數(shù)據(jù)科學(xué)家培養(yǎng)計劃[1]。
從大的范圍看,大數(shù)據(jù)人才培養(yǎng)就是學(xué)位培養(yǎng)和應(yīng)用培訓(xùn)兩類。學(xué)位培養(yǎng)需要設(shè)置完整的培養(yǎng)體系,包括:培養(yǎng)方案、課程體系、師資力量、實驗條件等;應(yīng)用培訓(xùn)相對比較簡單,主要注重的是技能培訓(xùn),掌握大數(shù)據(jù)分析工具,例如Hadoop、MapReduce、Spark、Mahout等,熟悉大數(shù)據(jù)應(yīng)用案例等。
2.2 師資條件
師資條件是目前相當(dāng)缺乏的數(shù)據(jù)科學(xué)人才培養(yǎng)資源,也是影響未來數(shù)據(jù)科學(xué)人才培養(yǎng)成果的關(guān)鍵。大數(shù)據(jù)師資建設(shè)需要優(yōu)化知識結(jié)構(gòu)、教材和教師隊伍,培養(yǎng)在大數(shù)據(jù)領(lǐng)域具有影響力的學(xué)術(shù)帶頭人,形成大數(shù)據(jù)學(xué)術(shù)創(chuàng)新團隊。
從知識結(jié)構(gòu)看,大數(shù)據(jù)人才的知識體系結(jié)構(gòu)主要由科學(xué)的基礎(chǔ)理論和方法、大數(shù)據(jù)計算技術(shù)、領(lǐng)域業(yè)務(wù)知識3方面構(gòu)成[1]。大數(shù)據(jù)人才應(yīng)該是具備多種能力的跨界人才,數(shù)據(jù)科學(xué)人才培養(yǎng)體系應(yīng)該是多層次多類型的。
目前,關(guān)于大數(shù)據(jù)、數(shù)據(jù)科學(xué)方面的書籍大多是零散的大數(shù)據(jù)技術(shù)的介紹,系統(tǒng)化地適用于大數(shù)據(jù)、數(shù)據(jù)科學(xué)人才培養(yǎng)方面的教材尚未出現(xiàn),這是大數(shù)據(jù)師資隊伍建設(shè)的源頭,需要盡快組織相關(guān)教材的編撰;此外,大數(shù)據(jù)師資隊伍的建設(shè),不能在現(xiàn)有的單個專業(yè)或?qū)W院中擁有大部分課程和教師,需要根據(jù)數(shù)據(jù)科學(xué)的知識結(jié)構(gòu)進行合理配置,設(shè)置大數(shù)據(jù)專業(yè)課程。
2.3 數(shù)據(jù)條件
大數(shù)據(jù)人才是解決大數(shù)據(jù)問題的,大數(shù)據(jù)問題是指不能用當(dāng)前技術(shù)在決策希望的時間內(nèi)處理分析的數(shù)據(jù)資源開發(fā)利用問題。大數(shù)據(jù)問題的關(guān)鍵技術(shù)挑戰(zhàn)在于:找到隱含在低價值密度數(shù)據(jù)資源中的價值;在希望的時間內(nèi)完成所有的任務(wù)。為了訓(xùn)練大數(shù)據(jù)人才,就需要各種各樣的數(shù)據(jù)環(huán)境,在實踐中總結(jié)經(jīng)驗,訓(xùn)練發(fā)現(xiàn)問題和解決問題的能力。數(shù)據(jù)環(huán)境是要有來源多樣、類型多樣的數(shù)據(jù)集合,并且數(shù)據(jù)規(guī)模要足夠大。
首先,數(shù)據(jù)來源多樣、類型多樣造成了數(shù)據(jù)復(fù)雜性。一是,數(shù)據(jù)來源于不同的數(shù)據(jù)采集設(shè)備或由專用數(shù)字設(shè)備產(chǎn)生,例如傳感器、醫(yī)療設(shè)備、GIS、多媒體等,這產(chǎn)生了多種數(shù)據(jù)類型;二是,數(shù)據(jù)由不同的數(shù)據(jù)庫及其管理系統(tǒng)存儲和管理,例如Oracle、HBase、MongoDB等,這形成多種數(shù)據(jù)結(jié)構(gòu);三是,業(yè)務(wù)數(shù)據(jù)分析需要來自多個相關(guān)領(lǐng)域的數(shù)據(jù)輔助,例如精準(zhǔn)醫(yī)療中除了來自醫(yī)院的電子病歷數(shù)據(jù),還需要生物組學(xué)數(shù)據(jù),甚至需要有環(huán)境、社交等數(shù)據(jù)。為實現(xiàn)不同領(lǐng)域的數(shù)據(jù)的融合,需要分析數(shù)據(jù)在格式、類型、來源等方面的復(fù)雜性。異質(zhì)數(shù)據(jù)網(wǎng)絡(luò)[5]是大數(shù)據(jù)環(huán)境下的一種主要數(shù)據(jù)組織方式[6],是一種復(fù)雜數(shù)據(jù)類型。異質(zhì)數(shù)據(jù)網(wǎng)絡(luò)具有多種類型對象(節(jié)點)和多種類型連接(邊)的數(shù)據(jù)網(wǎng)絡(luò),網(wǎng)絡(luò)中的不同路徑代表了對象間的不同關(guān)系,具有不同的語義信息。
其次,數(shù)據(jù)規(guī)模足夠大,意味著超出了當(dāng)前技術(shù)能力。隨著數(shù)據(jù)規(guī)模的增大,數(shù)據(jù)處理的能力也在不斷地發(fā)展,當(dāng)前已經(jīng)產(chǎn)生了大量滿足大規(guī)模數(shù)據(jù)分析能力的挖掘算法和計算技術(shù),例如K-means++[7]、K-meansⅡ[8]等聚類算法對經(jīng)典K-means算法進行了改進,實現(xiàn)了大規(guī)模數(shù)據(jù)的高效聚類;又如特異群組挖掘算法[9]的提出,實現(xiàn)了不同于簇或孤立點的特異群組這樣一類高價值低密度的大數(shù)據(jù)分析;同時,一系列大數(shù)據(jù)計算框架也發(fā)展迅速,包括Hadoop、HDFS、MapReduce、NoSQL、Hive、Storm、Spark等,這些框架中的功能也存在差異。
大數(shù)據(jù)人才培養(yǎng)需要有足夠多的數(shù)據(jù)作為基礎(chǔ)條件。如果數(shù)據(jù)量、數(shù)據(jù)種類有限,目前已有的信息技術(shù)能夠很好地進行處理,那么研究的技術(shù)、應(yīng)用是否真的適用于大數(shù)據(jù),是否真的是大數(shù)據(jù)將無法保證;沒有數(shù)量足夠多、種類足夠多的數(shù)據(jù)作為研發(fā)的支撐,很難真正開展大數(shù)據(jù)技術(shù)研究與應(yīng)用研發(fā)。此外,需要足夠多的數(shù)據(jù)也意味著需要有能夠存儲管理大量、多種類數(shù)據(jù)的設(shè)備和能力。
那么,到底多大規(guī)模的數(shù)據(jù)才是足夠的數(shù)據(jù)呢?就目前技術(shù)水平,引發(fā)技術(shù)挑戰(zhàn)的大數(shù)據(jù)集,其規(guī)模應(yīng)該要有PB級別。PB級別的數(shù)據(jù)計算、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)等方面有很多技術(shù)問題。雖然,很多成功的大數(shù)據(jù)應(yīng)用的數(shù)據(jù)集規(guī)模都沒有超過PB級別,但是,數(shù)據(jù)的復(fù)雜度相對較高。
2.4 計算條件
面對以上的數(shù)據(jù)條件,需要相應(yīng)的計算條件,需要有能夠分析處理這些數(shù)據(jù)的軟硬件環(huán)境。有了足夠多的數(shù)據(jù)之后,若要分析挖掘這些數(shù)據(jù),就需要具有足夠計算能力的計算環(huán)境。以深度學(xué)習(xí)為例,Hinton G E于2006年在《Science》上發(fā)表的論文[10]提出數(shù)據(jù)降維方法deep autoencoder,這成為深度學(xué)習(xí)開創(chuàng)性標(biāo)志算法之一。然而,其卻并沒有成為廣泛關(guān)注和使用的方法,而是隨著數(shù)年后計算條件和計算能力的提升,在大數(shù)據(jù)的熱潮下,深度學(xué)習(xí)方法開始發(fā)揮更為重要的應(yīng)用價值。
傳統(tǒng)的獨立服務(wù)器(或小規(guī)模服務(wù)器集群)是無法直接處理大數(shù)據(jù)的。然而,建立一套可用的大數(shù)據(jù)分析處理環(huán)境需要投入大量的硬件設(shè)備和構(gòu)建復(fù)雜的軟件環(huán)境,這使得開展大數(shù)據(jù)研發(fā)需要有足夠的資金投入。
由于大數(shù)據(jù)的知識結(jié)構(gòu)還沒有統(tǒng)一認(rèn)識、學(xué)科體系還沒有建立,目前還沒有單個學(xué)院或?qū)I(yè)具備培養(yǎng)大數(shù)據(jù)人才的能力,多學(xué)科的課程和師資隊伍共同培養(yǎng)大數(shù)據(jù)人才是一種可行的培養(yǎng)模式,稱為超學(xué)科人才培養(yǎng)模式。其內(nèi)涵是:在大數(shù)據(jù)學(xué)科還不成熟的情況下,不將大數(shù)據(jù)作為單個學(xué)科來看待。事實上,大數(shù)據(jù)的廣泛交叉性(不是兩個、三個之類的簡單交叉)決定了其人才培養(yǎng)的廣泛交叉性。在人才培養(yǎng)方面將打破原有的學(xué)科限制,大數(shù)據(jù)人才所需要的知識結(jié)構(gòu)是涵蓋和橫跨不同學(xué)科,融合多學(xué)科的研究方法,甚至超越并取代它們,是一種新的視角和一種新的學(xué)習(xí)體驗,即超學(xué)科[11]。
在超學(xué)科概念下,可以組織各學(xué)科(包括數(shù)學(xué)、計算機、金融、醫(yī)療、生物、管理、經(jīng)濟、新聞等多學(xué)科領(lǐng)域)的科學(xué)家,圍繞大數(shù)據(jù)人才所需要的數(shù)學(xué)基礎(chǔ)、計算機技能、分析基礎(chǔ)、領(lǐng)域知識和實踐經(jīng)驗,設(shè)置課程、編寫教材、安排實驗,使學(xué)生對數(shù)據(jù)科學(xué)的基本原理、方法、技術(shù)及領(lǐng)域應(yīng)用具有深入的理解。
目前,數(shù)據(jù)科學(xué)研究機構(gòu)人員組成一般來自多個學(xué)科交叉領(lǐng)域,下面以中國復(fù)旦大學(xué)、美國哥倫比亞大學(xué)、美國紐約大學(xué)為例。
(1)復(fù)旦大學(xué)
復(fù)旦大學(xué)上海市數(shù)據(jù)科學(xué)重點實驗室③http://www.datascience.cn/的師資力量包括復(fù)旦大學(xué)各學(xué)院教師形成的固定人員團隊以及復(fù)旦大學(xué)外部的國外高校和企業(yè)形成的流動人員團隊,其專業(yè)方向分別來自計算機、數(shù)學(xué)、生命科學(xué)、管理、經(jīng)濟等多學(xué)科,見表1。
(2)哥倫比亞大學(xué)
哥倫比亞大學(xué)數(shù)據(jù)科學(xué)研究院(Data Science Institute,Columbia University)劃分為多個分研究中心,分別研究數(shù)據(jù)科學(xué)基礎(chǔ)、智慧城市、新媒體等,每個中心的研究人員均來自多學(xué)科領(lǐng)域,其人員④http:// datascience.columbia.edu/ people/all結(jié)構(gòu)情況見表2。
(3)紐約大學(xué)
紐約大學(xué)數(shù)據(jù)科學(xué)研究中心(NYUCenter for Data Science,New York University)的人員⑤http://cds.nyu.edu/ people/結(jié)構(gòu)情況見表3。
表1 復(fù)旦大學(xué)上海市數(shù)據(jù)科學(xué)重點實驗室人員學(xué)科結(jié)構(gòu)
表2 哥倫比亞大學(xué)數(shù)據(jù)科學(xué)研究院人員學(xué)科結(jié)構(gòu)
表3 紐約大學(xué)數(shù)據(jù)科學(xué)研究中心人員學(xué)科結(jié)構(gòu)
大數(shù)據(jù)試驗場是鄔江興和朱揚勇于2014年提出的概念,目前已經(jīng)寫入上海市大數(shù)據(jù)相關(guān)規(guī)劃,上海市正在推進建設(shè)大數(shù)據(jù)試驗場。眾所周知,大數(shù)據(jù)最先是作為技術(shù)問題或技術(shù)挑戰(zhàn)提出來的。就是說,現(xiàn)階段還沒有適合大數(shù)據(jù)分析的計算機及集群、計算框架和軟件系統(tǒng),但大數(shù)據(jù)應(yīng)用需求迫切,因此,邊使用、邊探索是好的方式。這包含兩個方面:一個方面用現(xiàn)有的技術(shù)解決各類數(shù)據(jù)應(yīng)用問題、建立應(yīng)用模型(如精準(zhǔn)廣告、精準(zhǔn)醫(yī)療等);另一方面,對于現(xiàn)有技術(shù)不能解決的問題,探索新型技術(shù)。把擁有大規(guī)模數(shù)據(jù)及其相應(yīng)的計算分析能力的試驗環(huán)境稱為大數(shù)據(jù)試驗場。
開展大數(shù)據(jù)人才培養(yǎng),需要做大量的大數(shù)據(jù)試驗,需要一個大數(shù)據(jù)試驗場,以解決大數(shù)據(jù)人才培養(yǎng)的數(shù)據(jù)條件和計算條件。數(shù)據(jù)條件和計算條件是相輔相成的,良好的數(shù)據(jù)條件需要良好的計算條件支撐,良好的計算條件需要良好的數(shù)據(jù)條件來實踐。針對當(dāng)前大數(shù)據(jù)狀況,1 PB的數(shù)據(jù)規(guī)模應(yīng)該是開展大數(shù)據(jù)研究、訓(xùn)練的基礎(chǔ)要求。然而,在1 PB規(guī)模的數(shù)據(jù)上做大數(shù)據(jù)分析,則需要5 PB以上的存儲空間以及相應(yīng)的計算能力,需要5000萬元左右的投資。顯然,這樣的投資規(guī)模,對于一般的大學(xué)都是難以承受的,因此,需要建設(shè)公共的大數(shù)據(jù)人才培養(yǎng)大數(shù)據(jù)試驗場。
一個用于大數(shù)據(jù)人才培養(yǎng)的大數(shù)據(jù)試驗場,其數(shù)據(jù)條件和計算條件如下。
(1)數(shù)據(jù)條件
首先,要求大數(shù)據(jù)試驗場要能夠存儲1 PB的待處理數(shù)據(jù),可以采用兩種形式:一種是單體數(shù)據(jù)規(guī)模達到1 PB,用于探索、訓(xùn)練和試驗大規(guī)模數(shù)據(jù)的移動、管理、分析等方面的快速方法;另一種是多類型可關(guān)聯(lián)的多學(xué)科數(shù)據(jù),總規(guī)模是1 PB,用于探索、訓(xùn)練和試驗復(fù)雜數(shù)據(jù)的關(guān)聯(lián)和分析方法。同時要配置相應(yīng)的存儲設(shè)備??紤]到主流的大數(shù)據(jù)平臺(如Spark或基于Hadoop的各發(fā)行版本等)的數(shù)據(jù)自動備份、多副本并行處理等因素,因此至少需要3倍的數(shù)據(jù)存儲空間,即實際用于存儲數(shù)據(jù)的容量大于3 PB。另外,還需要2 PB的存儲空間用于數(shù)據(jù)副本或虛擬化工作以及數(shù)據(jù)分析工作。因此,1 PB數(shù)據(jù)規(guī)模的大數(shù)據(jù)試驗場至少要達到5 PB的物理存儲能力。
(2)計算條件
從低成本出發(fā),采用單臺主流的PC服務(wù)器(8個CPU內(nèi)核)單次任務(wù)處理4 TB數(shù)據(jù),1/3的數(shù)據(jù)需要同時處理估算,需要近100臺PC服務(wù)器,相當(dāng)于采用虛擬化技術(shù)后達到每內(nèi)核處理約0.5 TB以上數(shù)據(jù)的并行處理規(guī)模。再加上作為集群管理、任務(wù)調(diào)度等專門用途的服務(wù)器,共需要約130臺服務(wù)器。另需要一批網(wǎng)絡(luò)設(shè)備。由于大數(shù)據(jù)處理對服務(wù)器間的網(wǎng)絡(luò)通信壓力巨大,需要能夠快速傳輸GB級甚至TB級的數(shù)據(jù),因此,整個服務(wù)器間的網(wǎng)絡(luò)至少應(yīng)達到10 Gbit/s(按80%線速傳輸計算,約為每秒傳輸1 GB數(shù)據(jù)),試驗場內(nèi)網(wǎng)的骨干交換機之間應(yīng)達到至少40 Gbit/s的數(shù)據(jù)交換能力。
雖然大數(shù)據(jù)是新生事物,大數(shù)據(jù)人才的知識結(jié)構(gòu)、培養(yǎng)計劃還需要較長時間的探索,當(dāng)前還沒有一個獲得廣泛認(rèn)可的大數(shù)據(jù)或數(shù)據(jù)科學(xué)學(xué)科計劃,但是,各種人才培養(yǎng)方式都需要師資、數(shù)據(jù)和計算這3個基礎(chǔ)條件。本文通過分析大數(shù)據(jù)人才培養(yǎng)現(xiàn)狀,指出大數(shù)據(jù)并不是簡單的學(xué)科交叉,而是和所有學(xué)科相關(guān),提出用超學(xué)科人才培養(yǎng)方法解決大數(shù)據(jù)師資短缺問題;提出建設(shè)公共的大數(shù)據(jù)人才培養(yǎng)試驗場來解決數(shù)據(jù)條件和計算條件。建議政府出資建設(shè)大數(shù)據(jù)人才培養(yǎng)大數(shù)據(jù)試驗場,支持跨校、跨學(xué)科的大數(shù)據(jù)綜合人才培養(yǎng),支持大數(shù)據(jù)市場培訓(xùn)機構(gòu)。
[1] 朱揚勇, 熊赟.大數(shù)據(jù)時代的數(shù)據(jù)科學(xué)家培養(yǎng)[J].大數(shù)據(jù), 2016, 2(3): 106-112.ZHU Y Y, XIONG Y.Training data scientists in the era of big data[J].Big Data Research, 2016, 2(3): 106-112.
[2] McKinsey Global Institute.Big data: the next frontier for innovation, competition, and productivity[R].[S.l.]: McKinsey Global Institute, 2011.
[3] CLEVELAND W S.Data science: an action plan for expanding the technical areas of the field of statistics[J].International Statistical Review, 2001, 69(1): 21-26.
[4] 朱揚勇, 熊赟.大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用[J].大數(shù)據(jù), 2015, 1(1): 71-81.ZHU Y Y, XIONG Y.Defining big data[J].Big Data Research, 2015, 1(1): 71-81.
[5] SUN Y, HAN J.Mining heterogeneous information networks: principles and methodologies[J].ACM Sigkdd Explorations Newsletter, 2010, 14(2): 439-473.
[6] 熊赟, 朱揚勇, 陳志淵.大數(shù)據(jù)挖掘[M].上海: 上??茖W(xué)技術(shù)出版社, 2016.XIONG Y, ZHU Y Y, CHEN Z Y.Big data mining[M].Shanghai: Shanghai Scientific and Technological Literature Press, 2016.
[7] BAHMANI B, MOSELEY B, VATTANI A, et al.Scalable k-means++[J].Proceedingsof the VLDB Endowment, 2012, 5(7): 622-633.
[8] ARTHUR D, VASSILVITSKII S.K-means++: the advantages of careful seeding[C]//Eighteenth ACM-SIAM Symposium on Discrete Algorithms, January 7-9, 2007, New Orleans, USA.[S.l.:s.n.], 2007: 1027-1035.
[9] 熊赟, 朱揚勇.特異群組挖掘:框架與應(yīng)用[J].大數(shù)據(jù), 2015020.XIONG Y, ZHU Y Y.Abnormal group mining: framework and applications[J].Big Data Research, 2015020.
[10] HINTON G E, SALAKHUDINOV R R.Reducing the dimensionality of data with neural networks[J].Science, 2006, 313(5786): 504-507.
[11] BASARAB N.Transdisciplinarity —theory and practice[M].Cresskill: Hampton Press, 2008.
On prerequisites for cultivating big data talents
ZHU Yangyong1,2, XIONG Yun1,2
1.School of Computer Science, Fudan University, Shanghai 200433, China
2.Shanghai Key Lab of Data Science, Shanghai 200433, China
The shortage of big data talents becomes a global concern, which restricts the development of big data.Cultivating big data talents has been paid attention widely and increasing universities have launched big data talents training plans.It is important and necessary to discuss the prerequisites for cultivating big data talents, including qualified teachers, data resources, computing capabilities.Building qualified teachers team is the first element.It is impossible to discuss cultivating talents if there is no qualified teacher.However, this is a contradiction, because the shortage of big data talents means the shortage of the qualified teachers for big data training.The second one is data resource, especially big data.If there is no data, the big data talents training will not make sense.Correspondingly, the third one is computation capability for big data.Three main prerequisites for big data talents training were discussed including qualified teachers, data resources and computation capabilities.Two solutions were presented: one was to develop an innovation talents training pattern, namely transdisciplinary, for the shortage of qualified teachers, the other was to establish big data arena for innovation and advance to supply the data resource and computation capability.
big data, talents training, data analyst, data scientist
TP3
A
10.11959/j.issn.2096-0271.2016059
朱揚勇(1963-),男,博士,復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、學(xué)術(shù)委員會主任,上海市數(shù)據(jù)科學(xué)重點實驗室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護和利用,2009年發(fā)表了數(shù)據(jù)科學(xué)論文“Data explosion, data nature and dataology”,并出版專著《數(shù)據(jù)學(xué)》,對數(shù)據(jù)科學(xué)進行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。擔(dān)任第462次香山科學(xué)會議“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的理論問題探索”的執(zhí)行主席、《大數(shù)據(jù)技術(shù)與應(yīng)用叢書》主編。目前主要研究方向為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。
熊贇(1980-),女,博士,復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項目負(fù)責(zé)人主持國家自然科學(xué)基金、上海市科委發(fā)展基金以及企業(yè)合作項目。相關(guān)研究成果在本領(lǐng)域國際權(quán)威期刊或會議發(fā)表論文30余篇,出版著作3本。目前主要研究方向為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。
2016-08-10
上海市科技發(fā)展基金資助項目(No.16JC1400801)
Foundation Item: Shanghai Science and Technology Development Fund (No.16JC1400801)