周傲英,錢衛(wèi)寧,王長(zhǎng)波
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院 上海 200062
數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時(shí)代的新興交叉學(xué)科
周傲英,錢衛(wèi)寧,王長(zhǎng)波
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院 上海 200062
大數(shù)據(jù)時(shí)代的IT發(fā)展的基本特點(diǎn)是:應(yīng)用驅(qū)動(dòng)創(chuàng)新,開源加速創(chuàng)新,硬件助力創(chuàng)新。基于對(duì)這些特點(diǎn)的認(rèn)識(shí),從社會(huì)創(chuàng)新發(fā)展、人才需求變化、技術(shù)發(fā)展趨勢(shì)等方面論述了數(shù)據(jù)科學(xué)與工程這一新興交叉學(xué)科的發(fā)展必然性,進(jìn)一步闡述了數(shù)據(jù)科學(xué)與工程學(xué)科的特點(diǎn)、學(xué)科內(nèi)涵與知識(shí)體系,最后從科學(xué)研究、系統(tǒng)開發(fā)和人才培養(yǎng)的角度探討了數(shù)據(jù)科學(xué)與工程學(xué)科的建設(shè)思路。
大數(shù)據(jù);數(shù)據(jù)科學(xué)與工程;交叉學(xué)科;萬(wàn)眾創(chuàng)新;人才培養(yǎng)
當(dāng)前,“大數(shù)據(jù)”這一術(shù)語(yǔ)已經(jīng)遠(yuǎn)遠(yuǎn)超越了當(dāng)初的互聯(lián)網(wǎng)或信息技術(shù)(IT)的技術(shù)范疇,變成了一個(gè)時(shí)代的標(biāo)志。大數(shù)據(jù)時(shí)代的到來(lái)有其必然性,當(dāng)計(jì)算和通信取得長(zhǎng)足進(jìn)步的時(shí)候,當(dāng)傳感器網(wǎng)絡(luò)和互聯(lián)網(wǎng)等信息采集平臺(tái)日臻完善的時(shí)候,數(shù)據(jù)的存儲(chǔ)管理和分析處理就自然成為關(guān)注的焦點(diǎn)?!按髷?shù)據(jù)”概念的提出意味著信息技術(shù)領(lǐng)域的重點(diǎn)由“計(jì)算”轉(zhuǎn)為“數(shù)據(jù)”。稍微留意一下就可以看到,許多原本在IT其他領(lǐng)域成就卓著的著名專家和學(xué)者都紛紛轉(zhuǎn)向大數(shù)據(jù)領(lǐng)域。這種現(xiàn)象可以引發(fā)大家的思考:類比于已經(jīng)發(fā)展了半個(gè)多世紀(jì)的“計(jì)算機(jī)科學(xué)”,現(xiàn)在是否也應(yīng)該單獨(dú)認(rèn)真考慮一下“數(shù)據(jù)科學(xué)”這樣一個(gè)學(xué)科方向?
大數(shù)據(jù)不僅僅是信息技術(shù)領(lǐng)域的事情,它的典型特點(diǎn)就是與應(yīng)用密切結(jié)合。在當(dāng)前階段,大數(shù)據(jù)概念的提出和被廣泛接受才不過三四年,屬于發(fā)展初期。這個(gè)時(shí)期,如果離開了應(yīng)用來(lái)談大數(shù)據(jù),相信大家都會(huì)認(rèn)為是“空談”。回顧一下,大數(shù)據(jù)在科學(xué)研究(如地球科學(xué)、生命科學(xué)、高能物理研究等)[1]和商業(yè)領(lǐng)域(如行為分析、趨勢(shì)分析、行情預(yù)測(cè)、精準(zhǔn)營(yíng)銷、商品推薦等)[2]都有成功的應(yīng)用?;ヂ?lián)網(wǎng)已經(jīng)成為人們生活生產(chǎn)中不可或缺的環(huán)境和平臺(tái),正因?yàn)榇髷?shù)據(jù)在互聯(lián)網(wǎng)商業(yè)領(lǐng)域的巨大成功,使得這一概念已經(jīng)被社會(huì)各個(gè)層面廣泛認(rèn)可,開始從線上走到線下,越來(lái)越多的人從企業(yè)管理、社會(huì)治理、科學(xué)研究等領(lǐng)域探討大數(shù)據(jù)的應(yīng)用。這種來(lái)源于應(yīng)用的關(guān)于大數(shù)據(jù)技術(shù)的爆發(fā)式需求,為一門新型的獨(dú)立學(xué)科的形成和發(fā)展帶來(lái)了挑戰(zhàn)和機(jī)遇。因?yàn)槠洹皯?yīng)用驅(qū)動(dòng)”的特點(diǎn),工程實(shí)現(xiàn)和應(yīng)用部署至關(guān)重要,“數(shù)據(jù)科學(xué)與工程”是個(gè)更貼切的學(xué)科名稱。
基于以上基本認(rèn)識(shí),本文從社會(huì)需求、學(xué)科本質(zhì)以及人才培養(yǎng)等方面進(jìn)行探討。
2.1 我國(guó)創(chuàng)新驅(qū)動(dòng)發(fā)展的需求
我國(guó)的社會(huì)經(jīng)濟(jì)發(fā)展進(jìn)入新常態(tài),經(jīng)濟(jì)發(fā)展從高速進(jìn)入中高速,生產(chǎn)制造從中低端轉(zhuǎn)向中高端。在新常態(tài)下,如何有效促進(jìn)經(jīng)濟(jì)結(jié)構(gòu)調(diào)整,同時(shí)保證就業(yè)和經(jīng)濟(jì)平穩(wěn)發(fā)展,這有賴于信息化。新時(shí)期的信息化還和建設(shè)生態(tài)文明、拉動(dòng)消費(fèi)、提高產(chǎn)品競(jìng)爭(zhēng)力等密切關(guān)聯(lián)。與以前的“信息化帶動(dòng)工業(yè)化”以及稍后的“兩化融合”等信息化戰(zhàn)略相比,新型的信息化是在移動(dòng)互聯(lián)網(wǎng)的環(huán)境下提出來(lái)的,有著深刻的云計(jì)算和大數(shù)據(jù)背景,對(duì)數(shù)據(jù)科學(xué)與工程學(xué)科的發(fā)展有重要的指導(dǎo)意義。
自從斯諾登“棱鏡門”事件以來(lái),世界各國(guó)都高度重視網(wǎng)絡(luò)(空間)安全問題。我國(guó)成立了由最高領(lǐng)導(dǎo)人擔(dān)任組長(zhǎng)的國(guó)家網(wǎng)絡(luò)安全領(lǐng)導(dǎo)小組,負(fù)責(zé)制定和指導(dǎo)關(guān)鍵任務(wù)信息系統(tǒng)及其安全的規(guī)劃和建設(shè)。習(xí)近平總書記提出了“沒有網(wǎng)絡(luò)安全就沒有國(guó)家安全”的論斷。目前,我國(guó)的核心信息系統(tǒng)主要還是運(yùn)行在來(lái)自美國(guó)的IT壟斷企業(yè)的基礎(chǔ)系統(tǒng)和平臺(tái)之上,擺脫這種技術(shù)依賴是IT業(yè)界和關(guān)鍵應(yīng)用行業(yè)的當(dāng)務(wù)之急。針對(duì)這種狀況,互聯(lián)網(wǎng)業(yè)界從成本考慮,提出了“去IOE”(即擺脫對(duì)IBM主機(jī)、Oracle高性能數(shù)據(jù)庫(kù)以及EMC高端存儲(chǔ)的依賴)的口號(hào)。對(duì)于國(guó)家核心信息系統(tǒng),這不僅僅是成本問題,更是安全問題。因此,“技術(shù)先進(jìn)、企業(yè)領(lǐng)先、安全可靠、自主可控”已經(jīng)成為我國(guó)發(fā)展信息技術(shù)和系統(tǒng)的基本戰(zhàn)略。這對(duì)從事IT研發(fā)和人才培養(yǎng)的專業(yè)人士提出了很高的要求。為滿足這一要求,需要與時(shí)俱進(jìn),從新的學(xué)科角度來(lái)審視面臨的挑戰(zhàn)和機(jī)遇,尋找實(shí)現(xiàn)“跨越式發(fā)展”和“彎道超車”的發(fā)展途徑。
2015年3月5日,李克強(qiáng)總理在政府工作報(bào)告中發(fā)出了“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”的號(hào)召,得到了全社會(huì)的積極響應(yīng)?;仡櫼幌挛覈?guó)的創(chuàng)新發(fā)展戰(zhàn)略,改革開放以來(lái)的30多年,大致經(jīng)歷了從以“星期日工程師”為標(biāo)志的大學(xué)創(chuàng)新,到“企業(yè)是創(chuàng)新的主體”的企業(yè)創(chuàng)新,再到2011年胡錦濤總書記提出的“協(xié)同創(chuàng)新”,一直到當(dāng)前的“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”4個(gè)階段,創(chuàng)新一直被高度重視。自1996年4月江澤民總書記提出“創(chuàng)新是一個(gè)民族進(jìn)步的靈魂”的論斷以來(lái),迄今也有20年時(shí)間,離2020年建成創(chuàng)新型國(guó)家的時(shí)間節(jié)點(diǎn)也日益迫近。黨的十八大以來(lái),隨著“兩個(gè)一百年”奮斗目標(biāo)和實(shí)現(xiàn)中華民族偉大復(fù)興的“中國(guó)夢(mèng)”的提出,“創(chuàng)新驅(qū)動(dòng)發(fā)展”作為國(guó)家的發(fā)展戰(zhàn)略被提到前所未有的高度,凸顯了新一代領(lǐng)導(dǎo)人對(duì)于創(chuàng)新的高度重視。從李克強(qiáng)總理提出的“互聯(lián)網(wǎng)+”理念以及在各種場(chǎng)合對(duì)創(chuàng)新創(chuàng)業(yè)的解讀來(lái)看,中國(guó)互聯(lián)網(wǎng)企業(yè)的巨大成功是“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”最好的注解,互聯(lián)網(wǎng)本身作為人和人之間的連接平臺(tái),為創(chuàng)新創(chuàng)業(yè)提供了嶄新的環(huán)境。互聯(lián)網(wǎng)和“互聯(lián)網(wǎng)+”的成功與否本質(zhì)上就取決于大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用。在當(dāng)前的創(chuàng)新創(chuàng)業(yè)背景下,探討數(shù)據(jù)科學(xué)與工程學(xué)科恰逢其時(shí)。
2.2 IT人才市場(chǎng)變化的需求
信息技術(shù)作為近年來(lái)發(fā)展最快的領(lǐng)域,人才市場(chǎng)需求的變化也最為明顯。2006年是一個(gè)轉(zhuǎn)折點(diǎn),這個(gè)轉(zhuǎn)折點(diǎn)的標(biāo)志性事件是,百度作為國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè),第一次對(duì)國(guó)內(nèi)高校的畢業(yè)生給出了比老牌的跨國(guó)IT企業(yè)更高的薪酬。在那之前,國(guó)內(nèi)高校的大多數(shù)畢業(yè)生是以拿到那些著名跨國(guó)IT企業(yè)提供的職位為追求目標(biāo)的。其深層次的原因在于,國(guó)內(nèi)的信息系統(tǒng)都是架構(gòu)在這些跨國(guó)IT企業(yè)的基礎(chǔ)系統(tǒng)或平臺(tái)之上的,國(guó)內(nèi)的IT企業(yè)實(shí)際上就是系統(tǒng)集成商或是解決方案提供商,所有源頭的核心技術(shù)都不掌握在自己手里,我國(guó)培養(yǎng)的IT人才要做的就是用好壟斷企業(yè)的系統(tǒng)和平臺(tái),最多需要再做些簡(jiǎn)單的二次開發(fā)。壟斷企業(yè)對(duì)優(yōu)秀人才的吸引也進(jìn)一步枯竭了我國(guó)自主創(chuàng)新和研發(fā)的能力。
近10年來(lái),以BAT(指百度(B)、阿里巴巴(A)、騰訊(T))為代表的中國(guó)互聯(lián)網(wǎng)企業(yè)在商業(yè)上取得了被世人認(rèn)可的巨大成功,這對(duì)于我國(guó)信息技術(shù)產(chǎn)業(yè)以及其他相關(guān)領(lǐng)域的影響也同樣巨大。當(dāng)然,互聯(lián)網(wǎng)企業(yè)不是IT企業(yè),因?yàn)樗惶峁┲T如硬件、軟件或是咨詢服務(wù)、解決方案等傳統(tǒng)IT企業(yè)提供的產(chǎn)品,它只是第三產(chǎn)業(yè)中的信息服務(wù)業(yè)企業(yè)。但是,對(duì)互聯(lián)網(wǎng)企業(yè)而言,IT能力是其核心競(jìng)爭(zhēng)力?;ヂ?lián)網(wǎng)企業(yè)的IT能力建設(shè)不依賴于傳統(tǒng)的IT企業(yè),這一事實(shí)有著非凡的意義:一是破除迷信,打破了IT界以往對(duì)于傳統(tǒng)壟斷性IT企業(yè)的盲目崇拜,以為那些高端的技術(shù)和系統(tǒng)是他們的獨(dú)門秘籍,是我們望塵莫及的;二是解放思想,使得各行各業(yè)可以效仿互聯(lián)網(wǎng)業(yè)界,針對(duì)自身的應(yīng)用需求,融會(huì)貫通地利用掌握的IT知識(shí)和開源技術(shù),從應(yīng)用需求出發(fā),從硬件體系結(jié)構(gòu)到網(wǎng)絡(luò)架構(gòu)再到軟件系統(tǒng)直至應(yīng)用軟件,度身定制所需要的IT系統(tǒng)和平臺(tái)。這帶來(lái)的不僅僅是成本的降低,更重要的是可以對(duì)創(chuàng)新型商業(yè)模式的開發(fā)提供有效的支持。商業(yè)模式是服務(wù)業(yè)企業(yè)的生命線,創(chuàng)新型商業(yè)模式的開發(fā)依賴于“數(shù)據(jù)科學(xué)家”,企業(yè)IT能力的建設(shè)依賴于“系統(tǒng)架構(gòu)師”。
在我國(guó),雖然經(jīng)濟(jì)下行沒有影響IT的就業(yè)形勢(shì),但是市場(chǎng)上對(duì)IT人才的需求與高校能夠提供的人才相比還是有很大的差距,這表現(xiàn)在企業(yè)需要的合格的“系統(tǒng)架構(gòu)師”和“數(shù)據(jù)科學(xué)家”很難直接從學(xué)校招到。這一點(diǎn)在高校表現(xiàn)尤為明顯,課堂和實(shí)驗(yàn)室學(xué)的東西遠(yuǎn)離市場(chǎng)需求,厭學(xué)頻發(fā)。
2.3 技術(shù)和產(chǎn)業(yè)發(fā)展的需求
現(xiàn)有的計(jì)算機(jī)或IT技術(shù)和系統(tǒng)是基于三四十年以前的硬件技術(shù)水平而研發(fā)的。最近十幾年以來(lái),硬件技術(shù)產(chǎn)生了突飛猛進(jìn)的發(fā)展。CPU從多核走向眾核、萬(wàn)兆以太網(wǎng)等網(wǎng)絡(luò)連接技術(shù)的成熟、新型存儲(chǔ)設(shè)備和非易失存儲(chǔ)介質(zhì)的研發(fā)成功、計(jì)算機(jī)新型體系結(jié)構(gòu)的探索,這在很大程度上打破了大多數(shù)沿用至今的IT技術(shù)和系統(tǒng)的假設(shè)前提。表1展現(xiàn)了硬件技術(shù)近40年以來(lái)的迅猛發(fā)展,也說(shuō)明了其發(fā)展的不均衡性。如何充分發(fā)揮硬件技術(shù)發(fā)展的潛力,是傳統(tǒng)的IT企業(yè)在考慮其優(yōu)勢(shì)產(chǎn)品升級(jí)換代時(shí)重點(diǎn)考慮的問題,但由于基本假設(shè)前提的不吻合以及本質(zhì)上的不適應(yīng),想做到和硬件發(fā)展與時(shí)俱進(jìn)幾乎是不可能的。
為了充分利用硬件技術(shù)的發(fā)展,也為了降低成本和契合現(xiàn)實(shí)應(yīng)用的實(shí)際需求,人們開始了圍繞應(yīng)用進(jìn)行定制式的系統(tǒng)研發(fā)和部署。也就是說(shuō),針對(duì)應(yīng)用進(jìn)行垂直式的系統(tǒng)架構(gòu)設(shè)計(jì)和功能模塊開發(fā),從計(jì)算平臺(tái)搭建和系統(tǒng)軟件開發(fā),直到應(yīng)用的開發(fā)都是為解決目標(biāo)應(yīng)用而做的。相對(duì)這種垂直式的技術(shù)研發(fā),傳統(tǒng)的IT系統(tǒng)發(fā)展是水平式的,從計(jì)算機(jī)系統(tǒng)到系統(tǒng)軟件再到中間件都是通用或相對(duì)通用的,應(yīng)用開發(fā)人員要做的工作就是選型、系統(tǒng)集成,然后再進(jìn)行應(yīng)用層的開發(fā)和部署。GFS[3]和MapReduce[4]就是這種垂直開發(fā)的典型例子,為了解決Google公司的PageRank問題,內(nèi)部人員開發(fā)了存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù)和日志數(shù)據(jù)的文件系統(tǒng)GFS以及其上的便于分布并行處理數(shù)據(jù)的MapReduce編程界面。如果說(shuō)“one size fits all”是傳統(tǒng)的理念,那么垂直式定制化的研發(fā)就是秉承“one size fits a case”理念[5]。這種探索,不僅可以充分利用硬件技術(shù)的最新成果,更能體現(xiàn)IT領(lǐng)域“應(yīng)用驅(qū)動(dòng)創(chuàng)新”的基本精神。
Hadoop的成功開源以及對(duì)以后數(shù)據(jù)管理領(lǐng)域產(chǎn)生的巨大影響昭示了新的技術(shù)發(fā)展趨勢(shì),那就是開源社區(qū)和技術(shù)生態(tài)的重要性[6]。這和我國(guó)時(shí)下倡導(dǎo)的“萬(wàn)眾創(chuàng)新”也非常吻合。正是通過開源,吸引更多的人致力于技術(shù)的研發(fā)或是應(yīng)用,反過來(lái)又貢獻(xiàn)于開源社區(qū),產(chǎn)生創(chuàng)新的正循環(huán)。Hadoop開源的成功也給了開源技術(shù)鼻祖的美國(guó)加州大學(xué)伯克利分校以有益的啟示,AMP實(shí)驗(yàn)室的開源系統(tǒng)Spark成為來(lái)源于大學(xué)實(shí)驗(yàn)室的成功開源系統(tǒng)[7]。通過開源,可以把來(lái)源于應(yīng)用的垂直式定制化的技術(shù)和系統(tǒng)推廣到其他應(yīng)用領(lǐng)域,并吸引廣大技術(shù)人員參與研發(fā)和創(chuàng)新。把一種只適合于某一個(gè)具體應(yīng)用的技術(shù)和系統(tǒng)變成適合于一類應(yīng)用,這就是實(shí)現(xiàn)所謂的“one size fits a bunch”[5]。開源和技術(shù)生態(tài)建設(shè)是當(dāng)前技術(shù)發(fā)展的重要趨勢(shì)之一。
表1 40多年來(lái)硬件技術(shù)發(fā)展對(duì)比
2.4 國(guó)內(nèi)外現(xiàn)狀分析
在開設(shè)數(shù)據(jù)科學(xué)和工程相關(guān)課程方面,美國(guó)的加州大學(xué)伯克利分校、伊利諾伊大學(xué)香檳分校、哥倫比亞大學(xué)、紐約大學(xué)等從2011年開始就進(jìn)行了卓有成效的嘗試。紐約大學(xué)、華盛頓大學(xué)等著名高校已經(jīng)開始設(shè)置碩士學(xué)位培養(yǎng)計(jì)劃。在我國(guó),從2012年開始,清華大學(xué)、中國(guó)人民大學(xué)、復(fù)旦大學(xué)、北京航空航天大學(xué)等高校也開始設(shè)置了學(xué)術(shù)型或?qū)I(yè)型碩士學(xué)位培養(yǎng)計(jì)劃。
在本科專業(yè)設(shè)置方面,上海紐約大學(xué)從2015年4月份開始就在內(nèi)部討論設(shè)置一個(gè)數(shù)據(jù)科學(xué)的學(xué)士學(xué)位,除了計(jì)算機(jī)系的教授外,商學(xué)院、設(shè)計(jì)學(xué)院等教授也參與其中,并計(jì)劃于2015年9月開始招收本科生。
2015年6月7日,中山大學(xué)宣布成立“數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院”,整合了與計(jì)算機(jī)相關(guān)專業(yè)的優(yōu)勢(shì)資源。2015年5月27日,復(fù)旦大學(xué)在其110周年校慶日宣布籌建“大數(shù)據(jù)科學(xué)與技術(shù)學(xué)院”。相信未來(lái)會(huì)有更多的學(xué)校在學(xué)科設(shè)置和學(xué)院建制方面進(jìn)行新的探索。
華東師范大學(xué)從2007年成立海量計(jì)算研究所以來(lái),一直致力于培養(yǎng)海量數(shù)據(jù)處理領(lǐng)域的人才,探索數(shù)據(jù)科學(xué)與工程領(lǐng)域的協(xié)同創(chuàng)新和人才培養(yǎng)道路;2012年,華東師范大學(xué)在國(guó)內(nèi)外伙伴企業(yè)和兄弟高校的支持下,成立了云計(jì)算與大數(shù)據(jù)研究中心;2013年,華東師范大學(xué)宣布成立國(guó)內(nèi)第一個(gè)數(shù)據(jù)科學(xué)與工程研究院,重申協(xié)同創(chuàng)新的理念,聚焦中國(guó)式應(yīng)用,進(jìn)行大數(shù)據(jù)技術(shù)和系統(tǒng)研發(fā)以及創(chuàng)新人才培養(yǎng)。
3.1 應(yīng)用驅(qū)動(dòng)創(chuàng)新
雖然互聯(lián)網(wǎng)是推動(dòng)大數(shù)據(jù)熱的始作俑者,但廣泛來(lái)說(shuō),大數(shù)據(jù)不僅僅局限于互聯(lián)網(wǎng)數(shù)據(jù)。要討論這林林總總的數(shù)據(jù),從認(rèn)識(shí)論的觀點(diǎn)來(lái)看,首先就是要對(duì)大數(shù)據(jù)進(jìn)行分類,這非常必要,它是確保大家在同一論域進(jìn)行討論的前提。按照筆者的理解,大數(shù)據(jù)大致可以分為Web數(shù)據(jù)、決策數(shù)據(jù)、科學(xué)數(shù)據(jù)三大類。顧名思義,Web數(shù)據(jù)是與Web相關(guān)的數(shù)據(jù),包括網(wǎng)頁(yè)、鏈接、日志等具體類型,門戶網(wǎng)站、搜索引擎、社交網(wǎng)絡(luò)、電子商務(wù)等以Web形式呈現(xiàn)或以Web為載體的新型信息服務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)大多可以歸納為此類型。決策數(shù)據(jù)主要是指由傳統(tǒng)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)管理的、在生產(chǎn)過程中產(chǎn)生的數(shù)據(jù),是用于決策的數(shù)據(jù),也可稱為商務(wù)智能(business intelligence,BI)數(shù)據(jù)。科學(xué)數(shù)據(jù)實(shí)際上是最早的一類大數(shù)據(jù),包括科學(xué)實(shí)驗(yàn)數(shù)據(jù)、科學(xué)觀測(cè)數(shù)據(jù)、科學(xué)文獻(xiàn)數(shù)據(jù)、設(shè)計(jì)數(shù)據(jù)等,這類數(shù)據(jù)與科學(xué)領(lǐng)域密切相關(guān),品種最多,研究最難,若沒有領(lǐng)域?qū)<业膮⑴c,IT專家難以勝任科學(xué)數(shù)據(jù)的管理和分析任務(wù)。
關(guān)于大數(shù)據(jù)研究的認(rèn)識(shí),筆者也有一個(gè)3個(gè)層次的觀點(diǎn)。大數(shù)據(jù)的研究全景可以看作一個(gè)倒立的三角形,如圖1所示。這個(gè)倒立三角形分為3層:第一層代表形形色色的各種應(yīng)用,這些應(yīng)用是數(shù)據(jù)的來(lái)源,也是數(shù)據(jù)的應(yīng)用場(chǎng)所;第二層(中間一層)代表模型和算法,是指把對(duì)應(yīng)用進(jìn)行理解、抽象、建模,然后在底層的計(jì)算平臺(tái)上予以實(shí)現(xiàn)[8];第三層(最下面的一層)就代表IT計(jì)算系統(tǒng)或平臺(tái),這是傳統(tǒng)信息技術(shù)行業(yè)關(guān)心和擅長(zhǎng)的領(lǐng)域[9~11]。這3個(gè)層次中,第一層中每一類應(yīng)用有各自對(duì)應(yīng)的學(xué)科去深入研究;第二層是有關(guān)模型和算法的;第三層對(duì)應(yīng)的學(xué)科就是計(jì)算機(jī)或IT學(xué)科。
第一個(gè)層次是大數(shù)據(jù)應(yīng)用層次,大數(shù)據(jù)應(yīng)用是一個(gè)從科學(xué)研究、企業(yè)管理到電子商務(wù)、搜索引擎的完整譜系。這個(gè)層次涉及的人員來(lái)自各個(gè)領(lǐng)域,包括領(lǐng)域?qū)<?、用戶和客戶等。在理解現(xiàn)實(shí)應(yīng)用的基礎(chǔ)上進(jìn)行建模,再選定合適的技術(shù)和系統(tǒng)予以實(shí)現(xiàn),這體現(xiàn)了應(yīng)用驅(qū)動(dòng)創(chuàng)新的特點(diǎn)。
3.2 多學(xué)科交叉融合
隨著大數(shù)據(jù)成為當(dāng)前的熱點(diǎn),信息技術(shù)發(fā)展的重點(diǎn)從計(jì)算轉(zhuǎn)向數(shù)據(jù),數(shù)據(jù)的有效應(yīng)用變得至關(guān)重要。數(shù)據(jù)科學(xué)就是在這一背景下產(chǎn)生和發(fā)展起來(lái)的。數(shù)據(jù)科學(xué)通常指基于計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、信息系統(tǒng)等學(xué)科的理論和技術(shù),研究數(shù)據(jù)的收集整理以及從海量數(shù)據(jù)中分析處理,獲得有效知識(shí)并加以應(yīng)用的新興學(xué)科;數(shù)據(jù)工程是指利用工程的觀點(diǎn)進(jìn)行數(shù)據(jù)管理和分析以及開展系統(tǒng)的研發(fā)和應(yīng)用。
數(shù)據(jù)量的爆炸式增長(zhǎng)不但改變了人們的生活方式、企業(yè)的運(yùn)營(yíng)模式,也改變了科學(xué)研究的基本范式。數(shù)據(jù)科學(xué)和工程可以作為支撐大數(shù)據(jù)研究與應(yīng)用的交叉學(xué)科,其理論基礎(chǔ)來(lái)自多個(gè)不同的學(xué)科領(lǐng)域,包括計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、人工智能、信息系統(tǒng)、情報(bào)科學(xué)等。數(shù)據(jù)科學(xué)與工程學(xué)科的目的在于系統(tǒng)深入地探索大數(shù)據(jù)應(yīng)用中遇到的各類科學(xué)問題、技術(shù)問題和工程實(shí)現(xiàn)問題,包括數(shù)據(jù)全生命周期管理、數(shù)據(jù)管理和分析技術(shù)和算法、數(shù)據(jù)系統(tǒng)基礎(chǔ)設(shè)施建設(shè)以及大數(shù)據(jù)應(yīng)用實(shí)施和推廣。培養(yǎng)具有扎實(shí)理論功底和大數(shù)據(jù)思維的數(shù)據(jù)科學(xué)與工程方面的高層次專門人才,推動(dòng)與大數(shù)據(jù)相關(guān)的理論體系的建設(shè)和技術(shù)的進(jìn)步,為解決各行各業(yè)中遇到的大數(shù)據(jù)管理和應(yīng)用問題提供人才和技術(shù)儲(chǔ)備。因此,多學(xué)科交叉融合也是數(shù)據(jù)科學(xué)與工程學(xué)科的另一個(gè)特點(diǎn)。
圖1 大數(shù)據(jù)研究全景
3.3 學(xué)科的基礎(chǔ)內(nèi)涵
與傳統(tǒng)計(jì)算機(jī)和軟件工程等學(xué)科相比,數(shù)據(jù)科學(xué)與工程學(xué)科具備獨(dú)特的學(xué)科基礎(chǔ)和內(nèi)涵。數(shù)據(jù)科學(xué)與工程學(xué)科的理論基礎(chǔ)涉及統(tǒng)計(jì)分析、商務(wù)智能以及數(shù)據(jù)處理基礎(chǔ),具體包括以下幾個(gè)方面。
● 大數(shù)據(jù)表達(dá)理論方面:包括大數(shù)據(jù)的生命周期、演化與傳播規(guī)律,數(shù)據(jù)科學(xué)與社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等之間的互動(dòng)機(jī)制以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性。
● 在大數(shù)據(jù)計(jì)算理論方面:研究大數(shù)據(jù)的表示以及大數(shù)據(jù)的計(jì)算模型及其復(fù)雜性。
● 在大數(shù)據(jù)應(yīng)用基礎(chǔ)理論方面:研究大數(shù)據(jù)與知識(shí)發(fā)現(xiàn),大數(shù)據(jù)環(huán)境下的實(shí)驗(yàn)與驗(yàn)證方法以及大數(shù)據(jù)的安全與隱私。
相比較而言,計(jì)算機(jī)科學(xué)學(xué)科是研究算法的科學(xué),而數(shù)據(jù)科學(xué)不局限于此,其研究對(duì)象是數(shù)據(jù),隨著計(jì)算機(jī)應(yīng)用從以計(jì)算為中心逐漸向以數(shù)據(jù)為中心的遷移,數(shù)據(jù)科學(xué)與工程學(xué)科的內(nèi)涵和外延更加寬泛。軟件工程學(xué)科中的相關(guān)技術(shù)提供了數(shù)據(jù)分析處理的工具以及具體開發(fā)時(shí)的范式。數(shù)據(jù)處理技術(shù)是數(shù)據(jù)研究領(lǐng)域的一種重要的研究方法,用于研究和發(fā)現(xiàn)數(shù)據(jù)本身的現(xiàn)象和規(guī)律。
數(shù)據(jù)科學(xué)與工程也不同于傳統(tǒng)的商業(yè)智能和統(tǒng)計(jì)學(xué),商業(yè)智能主要從商業(yè)模式、經(jīng)濟(jì)管理的角度對(duì)數(shù)據(jù)應(yīng)用進(jìn)行研究,而統(tǒng)計(jì)學(xué)提供具體的數(shù)據(jù)分析處理的方法論,但是面對(duì)PB級(jí)以上的海量數(shù)據(jù),大數(shù)據(jù)的分析不能停留在獲得概率分布結(jié)果,也不能滿足于對(duì)細(xì)節(jié)問題的數(shù)據(jù)挖掘,而是需要更簡(jiǎn)單、有效的問題求解方法,爭(zhēng)取從大數(shù)據(jù)中獲得新的知識(shí),構(gòu)建新的應(yīng)用范式。
3.4 學(xué)科的知識(shí)體系
數(shù)據(jù)科學(xué)與工程作為一個(gè)大數(shù)據(jù)時(shí)代的新興交叉學(xué)科,主要的知識(shí)結(jié)構(gòu)來(lái)源于計(jì)算機(jī)科學(xué)、應(yīng)用數(shù)學(xué)以及信息系統(tǒng)和信息管理3個(gè)學(xué)科,但是也和這3個(gè)學(xué)科分別都有很大的不同。在當(dāng)前大數(shù)據(jù)時(shí)代,從知識(shí)結(jié)構(gòu)和人才培養(yǎng)角度來(lái)看計(jì)算機(jī)、軟件工程學(xué)科,不難得出,其知識(shí)結(jié)構(gòu)過于老化,教材和課堂上傳授的知識(shí)基本屬于“博物館”和“百科全書式”的內(nèi)容,還是服務(wù)于壟斷企業(yè)的IT產(chǎn)品和系統(tǒng),對(duì)于知識(shí)的融會(huì)貫通和綜合應(yīng)用不夠重視。這也導(dǎo)致學(xué)校教育無(wú)法滿足人才市場(chǎng)的需求,出現(xiàn)學(xué)生厭學(xué)、老師厭教的現(xiàn)象。而綜合應(yīng)用和融會(huì)貫通是互聯(lián)網(wǎng)企業(yè)和開源社區(qū)最為重視的方面,也是一個(gè)“系統(tǒng)架構(gòu)師”必須具備的能力和素養(yǎng)。應(yīng)用數(shù)學(xué)學(xué)科也很強(qiáng)調(diào)與信息學(xué)科和產(chǎn)業(yè)的結(jié)合,這一點(diǎn)從“計(jì)算數(shù)學(xué)”專業(yè)的更名歷史就可略見一斑,計(jì)算數(shù)學(xué)1987年更名為“計(jì)算數(shù)學(xué)及其應(yīng)用軟件”,1998年教育部將其更名為“信息與計(jì)算科學(xué)”專業(yè)。但是,這一專業(yè)在招生和就業(yè)方面頻頻亮起紅燈。究其根本原因,想必就是沒有真正和現(xiàn)實(shí)應(yīng)用相結(jié)合,也許是因?yàn)槲覈?guó)單純的數(shù)學(xué)背景的院系缺少這方面的基因。信息系統(tǒng)和信息管理專業(yè)非常重視企、事業(yè)單位的應(yīng)用,關(guān)注需求和機(jī)構(gòu)組織,這是實(shí)現(xiàn)應(yīng)用系統(tǒng)至關(guān)重要的因素。但因?yàn)樵诠芾韺W(xué)院或商學(xué)院,數(shù)學(xué)和計(jì)算機(jī)的訓(xùn)練相對(duì)薄弱,在針對(duì)應(yīng)用的數(shù)學(xué)建模和信息系統(tǒng)的工程實(shí)現(xiàn)方面就難以勝任。
根據(jù)前面所描述的大數(shù)據(jù)全景圖(如圖1所示),數(shù)據(jù)科學(xué)與工程學(xué)科的知識(shí)體系構(gòu)建的基本原則是:針對(duì)不同的應(yīng)用,本學(xué)科培養(yǎng)的人才可以充分理解應(yīng)用需求,利用合適的數(shù)學(xué)工具進(jìn)行建模,同時(shí)能夠根據(jù)具體的應(yīng)用搭建計(jì)算環(huán)境和平臺(tái),并進(jìn)行有效的算法實(shí)現(xiàn)。
在計(jì)算機(jī)學(xué)科方面,主要包括新型的專用型計(jì)算平臺(tái)的搭建,這涉及互聯(lián)網(wǎng)計(jì)算架構(gòu)、新硬件的應(yīng)用以及開源系統(tǒng)的使用等。由此倒推,需要對(duì)計(jì)算機(jī)學(xué)科的現(xiàn)有知識(shí)體系進(jìn)行裁剪,舍棄那些與系統(tǒng)和平臺(tái)搭建無(wú)關(guān)的知識(shí)。在應(yīng)用數(shù)學(xué)方面,著重于對(duì)數(shù)學(xué)建模工具的靈活掌握,具體而言,就是對(duì)概率論、數(shù)理統(tǒng)計(jì)以及矩陣計(jì)算(計(jì)算方法)等工程數(shù)學(xué)能活學(xué)活用,既能利用這些數(shù)學(xué)工具來(lái)抽象具體的現(xiàn)實(shí)應(yīng)用,又能進(jìn)行有效的算法實(shí)現(xiàn)。在信息系統(tǒng)學(xué)科方面,需要培養(yǎng)數(shù)據(jù)全生命周期管理的基本理念,從數(shù)據(jù)的生成和收集,到數(shù)據(jù)的存儲(chǔ)和管理,再到數(shù)據(jù)的使用和共享,實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。
信息技術(shù)和互聯(lián)網(wǎng)是創(chuàng)新創(chuàng)業(yè)的最前沿,在專業(yè)教學(xué)和人才培養(yǎng)中踐行創(chuàng)新創(chuàng)業(yè)教育?!叭f(wàn)眾創(chuàng)新”其實(shí)就是“草根創(chuàng)新”,“草根創(chuàng)新”的本質(zhì)就是立足應(yīng)用,解決應(yīng)用中遇到的現(xiàn)實(shí)問題。我國(guó)成功的互聯(lián)網(wǎng)公司就是典型的“草根創(chuàng)新”,其基本的途徑是通過商業(yè)模式設(shè)計(jì),著重用戶體驗(yàn),利用開源技術(shù),搭建服務(wù)平臺(tái),部署應(yīng)用,收集反饋信息,再進(jìn)行完善和優(yōu)化,形成一個(gè)完整的創(chuàng)新鏈條。如果說(shuō)“草根創(chuàng)新”是從應(yīng)用出發(fā),以追求商業(yè)價(jià)值為驅(qū)動(dòng)力,那么還需要“精英創(chuàng)新”配合進(jìn)行概念抽象和應(yīng)用推廣。大學(xué)的師生作為有學(xué)術(shù)情懷的“精英”階層,需要主動(dòng)對(duì)接創(chuàng)業(yè)企業(yè)的“草根創(chuàng)新”,這樣才能把在實(shí)際應(yīng)用中獲得的創(chuàng)新固化下來(lái),并廣為傳播,同時(shí)也能養(yǎng)成學(xué)生對(duì)創(chuàng)新創(chuàng)業(yè)的深入理解。
設(shè)計(jì)思維對(duì)于踐行“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”有著重要的參考意義。設(shè)計(jì)思維的本質(zhì)就是盡一切可能站在用戶的角度看問題,設(shè)身處地地體驗(yàn)用戶需求,進(jìn)行社會(huì)化思考,通過原型設(shè)計(jì)和試用,經(jīng)過反復(fù)迭代完善產(chǎn)品設(shè)計(jì)。這是互聯(lián)網(wǎng)上的服務(wù)產(chǎn)品的典型開發(fā)過程,應(yīng)用設(shè)計(jì)思維進(jìn)行工業(yè)產(chǎn)品設(shè)計(jì)是當(dāng)前的趨勢(shì),在國(guó)際頂級(jí)的商學(xué)院和設(shè)計(jì)學(xué)院成為必修課程,會(huì)很快滲透到各個(gè)學(xué)科的人才培養(yǎng)計(jì)劃中。破除迷信,解放思想,需要克服傳統(tǒng)思維定勢(shì),從思想觀念上主動(dòng)對(duì)接當(dāng)前提倡的創(chuàng)新創(chuàng)業(yè)理念。
4.1 科學(xué)研究和系統(tǒng)開發(fā)
數(shù)據(jù)科學(xué)與工程學(xué)科是一個(gè)面向應(yīng)用的綜合交叉型學(xué)科,學(xué)科交叉和協(xié)同創(chuàng)新是開展科研開發(fā)的基本途徑。立足中國(guó)式應(yīng)用,瞄準(zhǔn)國(guó)際研究前沿,通過與企業(yè)或用戶的合作,提高研發(fā)能力和應(yīng)用能力,研發(fā)具有中國(guó)特色的大數(shù)據(jù)技術(shù)和系統(tǒng),為大數(shù)據(jù)應(yīng)用中的數(shù)據(jù)采集、整理、存儲(chǔ)、維護(hù)、分析等管理任務(wù)提供全方位的支持,提供公共技術(shù)平臺(tái)、大數(shù)據(jù)應(yīng)用部署咨詢服務(wù)等。
通過和企業(yè)合作伙伴的密切合作,落實(shí)應(yīng)用驅(qū)動(dòng)研發(fā)的戰(zhàn)略。研發(fā)工作根據(jù)與企業(yè)合作的成熟程度,切實(shí)做到科學(xué)研究與生產(chǎn)實(shí)踐相結(jié)合,克服科研和生產(chǎn)“兩張皮”的現(xiàn)象,闖出一條我國(guó)數(shù)據(jù)管理技術(shù)和系統(tǒng)研發(fā)的可持續(xù)發(fā)展的新路。
立足“數(shù)據(jù)科學(xué)與工程”學(xué)科特色,發(fā)揮高校在技術(shù)綜述、核心技術(shù)研發(fā)、原型設(shè)計(jì)與開發(fā)上的優(yōu)勢(shì),秉承“one size fits a bunch”的理念,面向行業(yè)應(yīng)用,充分了解需求,在應(yīng)用抽象的基礎(chǔ)上,從核心技術(shù)研發(fā)出發(fā),通過原型系統(tǒng)開源,逐步從理論與技術(shù)驗(yàn)證走向系統(tǒng)試用和最終應(yīng)用。在這一過程中,營(yíng)造或融入以開源社區(qū)為中心的技術(shù)生態(tài)圈,催生技術(shù)型初創(chuàng)公司或促成研發(fā)成果的技術(shù)轉(zhuǎn)化,在人才培養(yǎng)的同時(shí),實(shí)現(xiàn)科研成果的推廣應(yīng)用。
4.2 數(shù)據(jù)科學(xué)與工程學(xué)科人才培養(yǎng)
圍繞計(jì)算機(jī)、應(yīng)用數(shù)學(xué)和信息系統(tǒng)設(shè)計(jì)從本科生到博士生的人才培養(yǎng)方案,結(jié)合開源技術(shù)與時(shí)俱進(jìn)地更新計(jì)算機(jī)教學(xué),結(jié)合應(yīng)用實(shí)踐加強(qiáng)數(shù)理統(tǒng)計(jì)和矩陣計(jì)算等建模和算法訓(xùn)練,培養(yǎng)“系統(tǒng)架構(gòu)師”和“數(shù)據(jù)科學(xué)家”,這也是當(dāng)前最需要的兩類人才。
基于以上培養(yǎng)目標(biāo),針對(duì)本科生、碩士研究生、博士研究生各自的學(xué)制和教學(xué)特點(diǎn),專業(yè)的課程設(shè)計(jì)遵循以下指導(dǎo)思想。
● 突出數(shù)據(jù)科學(xué)基礎(chǔ)課程教學(xué):結(jié)合統(tǒng)計(jì)、應(yīng)用數(shù)學(xué)等學(xué)科的優(yōu)勢(shì),在強(qiáng)調(diào)概率論教學(xué)的同時(shí),將數(shù)理統(tǒng)計(jì)、數(shù)值計(jì)算與優(yōu)化、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、信息檢索、自然語(yǔ)言處理等課程作為重要的專業(yè)必修課或選修課在本科教學(xué)階段進(jìn)行講授,為研究生階段講授統(tǒng)計(jì)學(xué)習(xí)理論、概率圖模型、語(yǔ)言模型、信息抽取與集成、海量數(shù)據(jù)分析與挖掘等高階課程打下扎實(shí)的基礎(chǔ)。
● 裁剪傳統(tǒng)計(jì)算機(jī)和信息系統(tǒng)類課程,適應(yīng)新技術(shù)發(fā)展和應(yīng)用場(chǎng)景:在操作系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、計(jì)算機(jī)體系結(jié)構(gòu)、編譯原理、分布式系統(tǒng)等傳統(tǒng)計(jì)算機(jī)課程中,弱化歷史性材料的講授(作為課外閱讀作業(yè)),補(bǔ)充相關(guān)系統(tǒng)與應(yīng)用的最新進(jìn)展。例如,補(bǔ)充云計(jì)算系統(tǒng)中的資源調(diào)度、大數(shù)據(jù)系統(tǒng)(如Hadoop)、集群搭建與實(shí)踐、新型編程范型(如MapReduce)及其編譯執(zhí)行等內(nèi)容,彌補(bǔ)近年來(lái)技術(shù)與應(yīng)用快速發(fā)展造成的傳統(tǒng)課程教學(xué)內(nèi)容和教材與時(shí)代的脫節(jié)。
● 強(qiáng)調(diào)數(shù)據(jù)管理與處理的全生命周期:結(jié)合情報(bào)和信息管理等學(xué)科的優(yōu)勢(shì),課程覆蓋數(shù)據(jù)從獲取、整理、存儲(chǔ)、索引,到查詢與檢索、分析與挖掘、加工與展現(xiàn)的整個(gè)生命周期的基礎(chǔ)理論、技術(shù)方法以及系統(tǒng)。在課程設(shè)置上,通過在本科低年級(jí)設(shè)置計(jì)算機(jī)系統(tǒng)、信息管理與信息系統(tǒng)等專業(yè)必修課,在高年級(jí)開設(shè)開源軟件、大數(shù)據(jù)系統(tǒng)等專業(yè)選修課,達(dá)到從宏觀角度介紹數(shù)據(jù)全生命周期、聯(lián)接相關(guān)課程的目的。
● 充分利用企業(yè)和行業(yè)力量,強(qiáng)調(diào)設(shè)計(jì)思維(design thinking),提升課程實(shí)用性:開設(shè)計(jì)算廣告、智慧城市、社會(huì)計(jì)算、推薦系統(tǒng)等具有較強(qiáng)實(shí)用性的選修課,由企業(yè)兼職教師單獨(dú)或與專職教師聯(lián)合講授,突出應(yīng)用場(chǎng)景抽象、問題建模、案例分析、原型系統(tǒng)搭建、結(jié)果評(píng)測(cè)等環(huán)節(jié)的教學(xué),將學(xué)生所學(xué)的基礎(chǔ)理論和方法與應(yīng)用聯(lián)系起來(lái),同時(shí)培養(yǎng)學(xué)生針對(duì)實(shí)際應(yīng)用的發(fā)現(xiàn)問題、分析問題、解決問題的能力。
互聯(lián)網(wǎng)改變了一切,也改變了信息技術(shù)的發(fā)展范型。IT領(lǐng)域當(dāng)前的熱點(diǎn)無(wú)疑是云計(jì)算和大數(shù)據(jù),是互聯(lián)網(wǎng)企業(yè)而非傳統(tǒng)的IT企業(yè)推動(dòng)了云計(jì)算和大數(shù)據(jù)的發(fā)展。這一現(xiàn)象的意義在于,IT的發(fā)展范型發(fā)生了改變,“應(yīng)用驅(qū)動(dòng)創(chuàng)新”成為IT領(lǐng)域創(chuàng)新鏈上的重要環(huán)節(jié)?;ヂ?lián)網(wǎng)企業(yè)IT能力建設(shè)的巨大成功,破除了“迷信”;硬件技術(shù)的飛速發(fā)展為新一代IT技術(shù)的發(fā)展奠定了基礎(chǔ);“安全可靠、自主可控”的國(guó)家安全戰(zhàn)略的提出和落實(shí)對(duì)我國(guó)IT界而言是挑戰(zhàn),更是機(jī)遇。基于以上3點(diǎn),再加上我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展提出的豐富、迫切而又極具特色的信息化應(yīng)用需求,可以看出,當(dāng)前我國(guó)IT界處在充滿機(jī)遇的窗口期。如何利用這個(gè)難得的時(shí)間窗口實(shí)現(xiàn)跨越式發(fā)展和彎道超車,不僅需要認(rèn)真分析和清晰認(rèn)識(shí)現(xiàn)實(shí)的創(chuàng)新機(jī)遇,更需要適時(shí)定義和發(fā)展新的學(xué)科方向,探索學(xué)科實(shí)質(zhì)內(nèi)涵,明確知識(shí)結(jié)構(gòu),開展人才培養(yǎng),從而進(jìn)行持續(xù)、有效的“萬(wàn)眾創(chuàng)新”行動(dòng),全面激發(fā)創(chuàng)新活力。
[1] Hey T, Tansley S, Tolle K M. The Fourth Paradigm: Data-Intensive Scientific Discovery. USA: Microsoft Rr, 2009
[2] Manyika J, Chui M, Brown B,et al. Big Data: the Next Frontier for Innovation, Competition, and Productivity. USA: McKinsey Global Institute, 2011
[3] Ghemawat S, Gobioff H, Leung S T. The Google file system. Proceedings of the ACM Symposium on Operating Systems Principles(SOSP), Lake George, NY, USA, 2003: 29~43
[4] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Proceedings of the 6th Symposium on Operating System Design and Implementation, San Francisco, USA, 2004: 137~150
[5] Stonebraker M, Cetintemel U. One size fits all: 10 years later. Proceedings of International Conference on Data Engineering, Seoul, Korea, 2015
[6] White T. Hadoop - The Definitive Guide: Storage and Analysis at Internet Scale (4. ed., revised & updated). USA: O'Reilly Media, 2015
[7] Stoica I. A berkeley view of big data: algorithms, machines & people. Proceedings of Berkeley EECS Annual Research Symposium, California, USA, 2011
[8] 美國(guó)國(guó)家學(xué)術(shù)院國(guó)家研究委員會(huì). 海量數(shù)據(jù)分析前沿. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院譯. 北京:清華大學(xué)出版社, 2015 National Research Council of the National Academies. Frontiers in Massive Data Analysis. Translated by Data science and Engineering Research Institute of East China Normal University. Beijing: Tsinghua University Press, 2015
[9] 李戰(zhàn)懷, 王國(guó)仁, 周傲英. 從數(shù)據(jù)庫(kù)視角解讀大數(shù)據(jù)的研究進(jìn)展與趨勢(shì). 計(jì)算機(jī)工程與科學(xué). 2013, 35(10): 1~11 Li Z H, Wang G R, Zhou A Y. Research progress and trends of big data from a database perspective. Computer Engineering & Science, 2013, 35(10): 1~11
[10] Abadi D J, Agrawal R, Ailamaki A,et al. Proceedings of The Beckman Report on Database Research, California, USA, 2014: 61~70
[11] Jagadish H V, Gehrke J, Labrinidis A,et al. Big data and its technical challenges. Communications of the ACM, 2014, 57(7): 86~94
周傲英,男,華東師范大學(xué)長(zhǎng)江學(xué)者、特聘教授、數(shù)據(jù)科學(xué)與工程研究院院長(zhǎng),主要研究方向?yàn)閃eb數(shù)據(jù)管理、數(shù)據(jù)密集型計(jì)算、內(nèi)存集群計(jì)算、分布事務(wù)處理、大數(shù)據(jù)基準(zhǔn)測(cè)試和性能優(yōu)化。
錢衛(wèi)寧,男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院教授、博士生導(dǎo)師,主要研究方向?yàn)榛ヂ?lián)網(wǎng)環(huán)境下的數(shù)據(jù)管理、大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)、社交媒體數(shù)據(jù)分析、知識(shí)圖譜構(gòu)建與應(yīng)用等。
王長(zhǎng)波,男,華東師范大學(xué)教授、博士生導(dǎo)師、軟件學(xué)院常務(wù)副院長(zhǎng),主要研究方向?yàn)樾畔⒖梢暬?、大?shù)據(jù)可視分析、計(jì)算機(jī)圖形學(xué)。
Zhou A Y, Qian W N, Wang C B. Data sciences and engineering: an emerging interdisciplinary in the big data era. Big Data Research, 2015022
Data Sciences and Engineering: An Emerging Interdisciplinary in the Big Data Era
Zhou Aoying, Qian Weining, Wang Changbo
Institute for Data Science and Engineering, East China Normal University, Shanghai 200062, China
There are some characteristics for IT development in the big data era: the real-life applications are the driving force for innovation; open sourcing accelerates innovation, and the advancement in hardware lay the foundation for innovation. The data sciences and engineering was regarded as an emerging and developing interdisciplinary and discussed from the aspects such as social innovation and development, talents demand changes, and technology development. Then the features, connotations, and knowledge hierarchy of data sciences and engineering as a discipline were described. Finally, the associated research and development, talent training, and best practice were also presented.
big data, data sciences and engineering, interdisciplinary, mass innovation, talent training
10.11959/j.issn.2096-0271.2015022
2015-06-28
周傲英, 錢衛(wèi)寧, 王長(zhǎng)波. 數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時(shí)代的新興交叉學(xué)科. 大數(shù)據(jù), 2015022