• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)的若干基礎(chǔ)研究方向

      2017-04-21 08:06:40朱揚(yáng)勇熊贇
      大數(shù)據(jù) 2017年2期
      關(guān)鍵詞:基礎(chǔ)方法研究

      朱揚(yáng)勇,熊贇

      1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433;2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200433

      大數(shù)據(jù)的若干基礎(chǔ)研究方向

      朱揚(yáng)勇1,2,熊贇1,2

      1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433;2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200433

      大數(shù)據(jù)問(wèn)題的關(guān)鍵技術(shù)挑戰(zhàn)在于:找到隱含在低價(jià)值密度數(shù)據(jù)中的價(jià)值;在希望的時(shí)間內(nèi)完成。指出前者需要將領(lǐng)域知識(shí)和數(shù)據(jù)技術(shù)結(jié)合,這種結(jié)合的理論和新型算法構(gòu)成大數(shù)據(jù)的分析基礎(chǔ)和應(yīng)用基礎(chǔ);后者需要設(shè)計(jì)新的計(jì)算機(jī)、集群體系、計(jì)算框架、存儲(chǔ)體系和數(shù)據(jù)管理方法,這些構(gòu)成大數(shù)據(jù)的計(jì)算基礎(chǔ)和數(shù)據(jù)基礎(chǔ)。另外,這兩個(gè)挑戰(zhàn)都涉及數(shù)學(xué)理論,這是大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)。系統(tǒng)地分析了大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)、計(jì)算基礎(chǔ)、數(shù)據(jù)基礎(chǔ)、分析基礎(chǔ)和應(yīng)用基礎(chǔ)等基礎(chǔ)研究方向。

      大數(shù)據(jù);數(shù)據(jù)科學(xué);大數(shù)據(jù)基礎(chǔ);數(shù)據(jù)資源

      1 引言

      數(shù)據(jù)資源開(kāi)發(fā)利用的目的是實(shí)現(xiàn)大數(shù)據(jù)價(jià)值。大數(shù)據(jù)是指為決策問(wèn)題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱(chēng)[1];大數(shù)據(jù)問(wèn)題是指不能用當(dāng)前技術(shù)在決策希望的時(shí)間內(nèi)處理分析的數(shù)據(jù)資源開(kāi)發(fā)利用問(wèn)題[1]。就當(dāng)下而言,現(xiàn)有技術(shù)難以處理PB級(jí)別以上的數(shù)據(jù)。PB級(jí)別的數(shù)據(jù)規(guī)模已經(jīng)超過(guò)了大部分企業(yè)和機(jī)構(gòu)自身積累的業(yè)務(wù)數(shù)據(jù)規(guī)模,這說(shuō)明PB級(jí)別數(shù)據(jù)規(guī)模的應(yīng)用涉及了企業(yè)和機(jī)構(gòu)外部的數(shù)據(jù),這是質(zhì)的轉(zhuǎn)變。在PB級(jí)別數(shù)據(jù)規(guī)模下,企業(yè)和機(jī)構(gòu)可以用歷史數(shù)據(jù)、跨界數(shù)據(jù)等足夠多的數(shù)據(jù)來(lái)做決策。這將對(duì)科學(xué)研究、政府治理、民生改善、產(chǎn)業(yè)發(fā)展發(fā)揮革命性的作用。PB級(jí)別數(shù)據(jù)規(guī)模帶來(lái)的技術(shù)挑戰(zhàn)也是非常明顯的,即“大數(shù)據(jù)問(wèn)題”。從技術(shù)角度看,PB級(jí)別的數(shù)據(jù)量給計(jì)算機(jī)的硬件和軟件都帶來(lái)了挑戰(zhàn):機(jī)械硬盤(pán)、盤(pán)陣、體系結(jié)構(gòu)、計(jì)算框架、數(shù)據(jù)移動(dòng)、多地計(jì)算/異地計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)分析等。隨著計(jì)算技術(shù)的進(jìn)步,這些技術(shù)問(wèn)題是否就會(huì)得到解決?回答是否定的。摩爾定律(Moore’s Law)不能解決大數(shù)據(jù)問(wèn)題,摩爾定律是由英特爾(Intel)創(chuàng)始人之一戈登·摩爾(Gordon Moore)提出來(lái)的[2]。其內(nèi)容為:當(dāng)價(jià)格不變時(shí),集成電路上可容納的元器件的數(shù)目,每隔18~24個(gè)月便會(huì)增加一倍,性能也將提升一倍。換言之,每一美元所能買(mǎi)到的電腦性能,將每隔18~24個(gè)月翻一倍以上。這一定律揭示了信息技術(shù)進(jìn)步的速度。自從PC時(shí)代以來(lái),每次技術(shù)進(jìn)步生產(chǎn)的計(jì)算機(jī)以?xún)|萬(wàn)臺(tái)計(jì),每臺(tái)計(jì)算機(jī)都在生產(chǎn)數(shù)據(jù)?,F(xiàn)在想將很多臺(tái)計(jì)算機(jī)生產(chǎn)的數(shù)據(jù)集中起來(lái)處理和分析,顯然是現(xiàn)有技術(shù)不能實(shí)現(xiàn)的。這就是大數(shù)據(jù)問(wèn)題產(chǎn)生的根源。大數(shù)據(jù)問(wèn)題的關(guān)鍵技術(shù)挑戰(zhàn)在于:找到隱含在低價(jià)值密度數(shù)據(jù)資源中的價(jià)值;在希望的時(shí)間內(nèi)完成所有的任務(wù)。前者需要領(lǐng)域業(yè)務(wù)知識(shí)和數(shù)據(jù)技術(shù)相結(jié)合,這種結(jié)合的理論和新型算法構(gòu)成了大數(shù)據(jù)的分析基礎(chǔ)和應(yīng)用基礎(chǔ);后者需要設(shè)計(jì)新的計(jì)算機(jī)、集群體系、計(jì)算框架、存儲(chǔ)體系和數(shù)據(jù)管理方法,這些構(gòu)成了大數(shù)據(jù)的計(jì)算基礎(chǔ)和數(shù)據(jù)基礎(chǔ)。另外,這兩個(gè)挑戰(zhàn)都涉及了一些抽象的數(shù)學(xué)理論,這是大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)。面對(duì)大數(shù)據(jù)問(wèn)題的挑戰(zhàn),需要研究如何發(fā)展大數(shù)據(jù),如何從實(shí)踐總結(jié)經(jīng)驗(yàn),抓住核心問(wèn)題重點(diǎn)突破,實(shí)現(xiàn)原始創(chuàng)新,從基礎(chǔ)做起,掌握核心技術(shù),探索大數(shù)據(jù)的基礎(chǔ)理論,為解決大數(shù)據(jù)如何用、如何管、如何算等關(guān)鍵問(wèn)題提供理論指導(dǎo)。

      2 大數(shù)據(jù)的基礎(chǔ)

      信息化和大數(shù)據(jù)二者的關(guān)系是“不混淆、不沖突”。

      ● 不混淆是指信息化和大數(shù)據(jù)是不同的,不能混為一談,信息化是生產(chǎn)數(shù)據(jù)的,大數(shù)據(jù)是開(kāi)發(fā)數(shù)據(jù)的。從技術(shù)角度來(lái)看,信息化是技術(shù)進(jìn)步促進(jìn)數(shù)據(jù)增長(zhǎng);大數(shù)據(jù)是數(shù)據(jù)增長(zhǎng)促進(jìn)技術(shù)進(jìn)步。

      ● 不沖突是指大數(shù)據(jù)不取代信息化,信息化不包含大數(shù)據(jù)。這樣,信息化工作照樣做,并且信息化仍然將快速發(fā)展。但大數(shù)據(jù)已經(jīng)從信息化工作中獨(dú)立出來(lái),如果說(shuō)信息化對(duì)應(yīng)的技術(shù)叫信息技術(shù)(information technology,IT),那么大數(shù)據(jù)對(duì)應(yīng)的技術(shù)可以叫數(shù)據(jù)技術(shù)(data technology,DT)。

      核心點(diǎn)是數(shù)據(jù)增長(zhǎng)促進(jìn)技術(shù)進(jìn)步。例如,當(dāng)前10 PB規(guī)模的數(shù)據(jù)無(wú)論是從上海到北京,或者是從一個(gè)數(shù)據(jù)中心到另外一個(gè)數(shù)據(jù)中心,甚至從一個(gè)存儲(chǔ)集群到另一個(gè)存儲(chǔ)集群,都是困難的、難以忍受的。既然數(shù)據(jù)大到難以移動(dòng),那么如何集成多個(gè)數(shù)據(jù)資源進(jìn)行計(jì)算,如何設(shè)計(jì)數(shù)據(jù)不移動(dòng)、軟件移動(dòng)的計(jì)算模型,實(shí)現(xiàn)多地計(jì)算、異地計(jì)算。又如,如何開(kāi)發(fā)利用數(shù)據(jù)資源,如何確保數(shù)據(jù)安全和數(shù)據(jù)主權(quán),這些都是數(shù)據(jù)量增長(zhǎng)對(duì)技術(shù)進(jìn)步的要求。

      信息化的技術(shù)和大數(shù)據(jù)的技術(shù)是不同的,參考文獻(xiàn)[1]給出了二者技術(shù)的對(duì)比。這樣,信息化的基礎(chǔ)研究和大數(shù)據(jù)的基礎(chǔ)研究也是不一樣的。大數(shù)據(jù)的基礎(chǔ)包括:應(yīng)用基礎(chǔ)、分析基礎(chǔ)、數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)5個(gè)方面。

      圖1 大數(shù)據(jù)基礎(chǔ)邏輯關(guān)系

      圖2 2012—2016年國(guó)家自然科學(xué)基金資助的以“大數(shù)據(jù)”為主題詞的項(xiàng)目數(shù)

      大數(shù)據(jù)的應(yīng)用基礎(chǔ)包括各學(xué)科、各領(lǐng)域的基于數(shù)據(jù)的新方法、新范式、新理論等,用于支撐基于大數(shù)據(jù)的科學(xué)研究方法、社會(huì)發(fā)展方式、經(jīng)濟(jì)建設(shè)模式和國(guó)防安全手段。大數(shù)據(jù)的應(yīng)用基礎(chǔ)是建立在大數(shù)據(jù)技術(shù)、產(chǎn)品、工具和解決方案之上的,而這些產(chǎn)品和工具的開(kāi)發(fā)需要大數(shù)據(jù)的分析基礎(chǔ)。大數(shù)據(jù)的分析基礎(chǔ)包括大數(shù)據(jù)分析理論與框架、大數(shù)據(jù)分析方法和算法、業(yè)務(wù)驅(qū)動(dòng)的分析理論和方法等,大數(shù)據(jù)分析方法和算法的實(shí)現(xiàn)和實(shí)施需要大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)。大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)包括大數(shù)據(jù)的治理和管理、存儲(chǔ)理論和模型、可視化等;大數(shù)據(jù)的計(jì)算基礎(chǔ)包括多地計(jì)算/異地計(jì)算、計(jì)算框架、硬件設(shè)備、網(wǎng)絡(luò)設(shè)備等;大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)包括數(shù)據(jù)的數(shù)學(xué)結(jié)構(gòu)、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性等。圖1給出了大數(shù)據(jù)基礎(chǔ)的邏輯關(guān)系。

      自2012年起,國(guó)家自然科學(xué)基金委員會(huì)對(duì)大數(shù)據(jù)研究開(kāi)始立項(xiàng),總體資助情況分布如圖2可以看出,在這5年期間,大數(shù)圖2所示。

      從據(jù)相關(guān)項(xiàng)目資助數(shù)持續(xù)增長(zhǎng),尤其是在2014年,相對(duì)于2013年有較大幅度的增長(zhǎng)。2012年,大數(shù)據(jù)概念剛剛興起,國(guó)家自然科學(xué)基金項(xiàng)目申請(qǐng)時(shí)間點(diǎn)已過(guò),所以2012年幾乎沒(méi)有什么項(xiàng)目。2013年,各學(xué)部開(kāi)始支持大數(shù)據(jù)項(xiàng)目,全社會(huì)掀起大數(shù)據(jù)熱,各行各業(yè)都在討論大數(shù)據(jù)。于是,到2014年,大數(shù)據(jù)項(xiàng)目大幅度增長(zhǎng),主要是應(yīng)用基礎(chǔ)的研究項(xiàng)目大幅度增長(zhǎng),幾乎每個(gè)學(xué)部都支持了大數(shù)據(jù)的研究項(xiàng)目(如圖3所示)。受資助的大數(shù)據(jù)相關(guān)項(xiàng)目在應(yīng)用基礎(chǔ)、分析基礎(chǔ)、數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)各方面的項(xiàng)目資助占比情況如圖4所示??傮w來(lái)看,科研項(xiàng)目關(guān)注最多的是對(duì)各個(gè)領(lǐng)域大數(shù)據(jù)應(yīng)用問(wèn)題的研究(應(yīng)用基礎(chǔ)占62%),其次主要集中在大數(shù)據(jù)挖掘方法研究(即分析基礎(chǔ)占18%),其他依次為:數(shù)據(jù)基礎(chǔ)(占11%)、計(jì)算基礎(chǔ)(占7%)和數(shù)學(xué)基礎(chǔ)(占2%)。

      圖3 2012—2016年國(guó)家自然科學(xué)基金委員會(huì)各學(xué)部資助項(xiàng)目數(shù)分布

      從2012—2016年每年的占比情況來(lái)看(如圖5所示),應(yīng)用基礎(chǔ)有明顯的上升趨勢(shì);分析基礎(chǔ)在2013年有明顯的上升,隨后占比較為平穩(wěn);數(shù)據(jù)基礎(chǔ)歷年占比都較為平穩(wěn),且所占比重也并不大;計(jì)算基礎(chǔ)所占比例呈現(xiàn)出逐年下降的趨勢(shì)(2016年稍有回升);數(shù)學(xué)基礎(chǔ)被關(guān)注的比例歷年很低,并維持穩(wěn)定(低比例)。

      圖4 2012—2016年在五大基礎(chǔ)方面的項(xiàng)目數(shù)總占比

      圖5 2012—2016年在五大基礎(chǔ)方面的項(xiàng)目數(shù)年度占比

      從圖5可以看出,在2012年大數(shù)據(jù)發(fā)展初期,計(jì)算框架和計(jì)算能力是推動(dòng)大數(shù)據(jù)發(fā)展最急需的基礎(chǔ),而之后隨著開(kāi)源計(jì)算框架的出現(xiàn),計(jì)算基礎(chǔ)的比例又開(kāi)始下降。然而,2016年,數(shù)據(jù)開(kāi)放共享成為趨勢(shì)和重點(diǎn),數(shù)據(jù)遷移、異地交換的需求又促進(jìn)研究者探索新的計(jì)算框架。并且,分析基礎(chǔ)在2013年的突增也說(shuō)明當(dāng)時(shí)對(duì)大數(shù)據(jù)方法需求的增長(zhǎng),隨后相對(duì)穩(wěn)定。在計(jì)算基礎(chǔ)下降的過(guò)程中,應(yīng)用基礎(chǔ)占比逐漸上升,這說(shuō)明越來(lái)越多的領(lǐng)域參與到大數(shù)據(jù)的研究中來(lái)。

      圖6為2012—2016年國(guó)家自然科學(xué)基金項(xiàng)目在五大基礎(chǔ)方面的項(xiàng)目數(shù)的變化情況??梢钥闯觯髷?shù)據(jù)研究過(guò)程中數(shù)學(xué)基礎(chǔ)方面還需要更多的研究者參與和關(guān)注。在應(yīng)用基礎(chǔ)研究方面目前已經(jīng)涉及眾多領(lǐng)域,應(yīng)該總結(jié)共性技術(shù)和理論,減少重復(fù)研究。數(shù)據(jù)的資源性迫切需要開(kāi)放共享,數(shù)據(jù)基礎(chǔ)的新問(wèn)題、新技術(shù)、新理論的研究應(yīng)該建立起來(lái)。

      圖6 2012—2016年在五大基礎(chǔ)方面的項(xiàng)目數(shù)年度變化情況

      3 大數(shù)據(jù)的應(yīng)用基礎(chǔ)

      大數(shù)據(jù)的應(yīng)用滲透到越來(lái)越多的領(lǐng)域,各領(lǐng)域大數(shù)據(jù)理論和方法的研究將為創(chuàng)新大數(shù)據(jù)應(yīng)用、提升大數(shù)據(jù)價(jià)值奠定基礎(chǔ),創(chuàng)造出基于大數(shù)據(jù)的新型科學(xué)研究、管理決策、社會(huì)發(fā)展、經(jīng)濟(jì)建設(shè)方法和模式等。大數(shù)據(jù)的應(yīng)用基礎(chǔ)主要表現(xiàn)在各個(gè)學(xué)科基于大數(shù)據(jù)的創(chuàng)新,以科學(xué)研究的第四范式為代表[3],包括對(duì)人文社會(huì)科學(xué)的研究、管理決策新方法、外部事件驅(qū)動(dòng)的管理決策方法、基于微觀數(shù)據(jù)的宏觀經(jīng)濟(jì)學(xué)等。

      GRAY J指出[3]:幾千年前,科學(xué)研究是用實(shí)驗(yàn)解釋自然現(xiàn)象的;幾百年前,科學(xué)研究用理論模型探索科學(xué)規(guī)律,用實(shí)驗(yàn)驗(yàn)證理論;幾十年前,科學(xué)研究用計(jì)算機(jī)模擬復(fù)雜現(xiàn)象,探索其中的奧秘;現(xiàn)在,科學(xué)研究是基于對(duì)數(shù)據(jù)的探索??茖W(xué)的目的是認(rèn)識(shí)宇宙、認(rèn)識(shí)物質(zhì)、認(rèn)識(shí)生命、認(rèn)識(shí)社會(huì)。

      ● 在認(rèn)識(shí)宇宙方面:人們用了很多方法,早期科學(xué)家用肉眼觀測(cè)天空,后來(lái)用望遠(yuǎn)鏡,現(xiàn)在用射電望遠(yuǎn)鏡。這些望遠(yuǎn)鏡得到的結(jié)果是各種各樣的宇宙圖像,天文學(xué)家通過(guò)分析這些圖像來(lái)研究宇宙。

      ● 在認(rèn)識(shí)物質(zhì)方面:人類(lèi)還在研究物質(zhì)的構(gòu)成,為此于2008年建成并運(yùn)行了歐洲強(qiáng)子對(duì)撞機(jī)裝置。每一次正負(fù)電子的對(duì)撞,都產(chǎn)生了巨量的數(shù)據(jù)??茖W(xué)家們經(jīng)過(guò)不懈的努力,用了150個(gè)計(jì)算站點(diǎn)對(duì)200 PB數(shù)據(jù)用了3年時(shí)間分析,繼而科學(xué)家發(fā)現(xiàn)上帝粒子[4]。

      ● 在認(rèn)識(shí)生命方面:自從DNA被發(fā)現(xiàn),人類(lèi)對(duì)生命的認(rèn)識(shí)進(jìn)入了全新的階段,人類(lèi)似乎找到生命的本質(zhì)、遺傳的本質(zhì)。DNA可以用A(腺嘌呤)、C(胞嘧啶)、G(鳥(niǎo)嘌呤)、T(胸腺嘧啶)4個(gè)字母的字符串表示,于是DNA變成了可以用計(jì)算機(jī)計(jì)算的數(shù)據(jù),生命科學(xué)研究就出現(xiàn)計(jì)算生物學(xué)的分支,并且迅速發(fā)展。生命科學(xué)家開(kāi)始分析數(shù)據(jù),或者通過(guò)分析數(shù)據(jù)來(lái)研究生命。

      ● 在認(rèn)識(shí)社會(huì)方面:信息化極大地推動(dòng)了社會(huì)的發(fā)展和進(jìn)步,社會(huì)的抽樣調(diào)查、問(wèn)卷之類(lèi)的研究方法將被淘汰,國(guó)家統(tǒng)計(jì)局已經(jīng)和百度、阿里巴巴等數(shù)十家互聯(lián)網(wǎng)公司合作進(jìn)行數(shù)據(jù)收集和統(tǒng)計(jì)工作,共同推進(jìn)大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用,不斷增強(qiáng)政府統(tǒng)計(jì)的科學(xué)性和及時(shí)性。

      從上述分析可知,不論是自然科學(xué)還是社會(huì)科學(xué),先進(jìn)的研究方法是在數(shù)據(jù)上開(kāi)展研究,這也說(shuō)明,認(rèn)識(shí)數(shù)據(jù)先于認(rèn)識(shí)宇宙、認(rèn)識(shí)物質(zhì)、認(rèn)識(shí)生命和認(rèn)識(shí)社會(huì)。

      大數(shù)據(jù)應(yīng)用基礎(chǔ)的主要研究方向如下。

      ● 各學(xué)科基于大數(shù)據(jù)的新方法、新范式、新理論等,包括生命科學(xué)、物理、化學(xué)、天文、歷史、社會(huì)、管理、經(jīng)濟(jì)等學(xué)科的大數(shù)據(jù)方法和模型研究與探索。

      ● 各領(lǐng)域基于數(shù)據(jù)的新方法、新范式、新理論等,包括醫(yī)療、金融、交通、環(huán)保、商業(yè)等領(lǐng)域的大數(shù)據(jù)創(chuàng)新模式、智能決策方法和模型研究與探索。

      ● 用于支撐基于大數(shù)據(jù)的科學(xué)研究方法、社會(huì)發(fā)展方式、經(jīng)濟(jì)建設(shè)模式和國(guó)防安全手段。

      國(guó)家自然科學(xué)基金委員會(huì)也已對(duì)上述各個(gè)研究方向開(kāi)展資助,例如在生命科學(xué)的大數(shù)據(jù)方法研究項(xiàng)目有:“利用大數(shù)據(jù)信息挖掘和基因進(jìn)化方法研究禽流感病毒的跨地域傳播”“基于大數(shù)據(jù)整合挖掘的腎細(xì)胞癌分子進(jìn)化機(jī)制研究”等;商業(yè)、交通、環(huán)保等領(lǐng)域的大數(shù)據(jù)方法研究項(xiàng)目有:“大數(shù)據(jù)背景下的商業(yè)模式創(chuàng)新機(jī)制研究”“大數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品精確設(shè)計(jì)理論、方法及其應(yīng)用研究”“大數(shù)據(jù)環(huán)境下的復(fù)雜城市交通系統(tǒng)預(yù)測(cè)與控制”“數(shù)據(jù)驅(qū)動(dòng)的我國(guó)PM2.5污染規(guī)律模型智能構(gòu)建方法研究”“大數(shù)據(jù)驅(qū)動(dòng)的我國(guó)典型重點(diǎn)流域水污染防控決策研究”以及“數(shù)據(jù)驅(qū)動(dòng)的軍事復(fù)雜系統(tǒng)風(fēng)險(xiǎn)決策分析方法及其應(yīng)用研究”“面向軍事情報(bào)的多媒體大數(shù)據(jù)分析與展示”等項(xiàng)目。

      4 大數(shù)據(jù)的分析基礎(chǔ)

      開(kāi)發(fā)數(shù)據(jù)的核心是數(shù)據(jù)分析,也就是說(shuō)大數(shù)據(jù)技術(shù)的核心是數(shù)據(jù)分析技術(shù)。目前,大數(shù)據(jù)分析技術(shù)主要在傳統(tǒng)方法上延伸拓展,還沒(méi)有從本質(zhì)上解決大數(shù)據(jù)利用面臨的挑戰(zhàn)。這需要探索大數(shù)據(jù)分析技術(shù)的共性問(wèn)題,主要研究方向如下。

      (1)傳統(tǒng)數(shù)據(jù)分析算法的改進(jìn)原理

      現(xiàn)有的大數(shù)據(jù)分析理論與方法大多從傳統(tǒng)的統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)融合等領(lǐng)域派生出來(lái),例如K-means++[5]、K-meansⅡ[6]等聚類(lèi)算法對(duì)經(jīng)典K-means算法進(jìn)行了改進(jìn),實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)高效聚類(lèi)。大數(shù)據(jù)的特點(diǎn)使現(xiàn)有方法超出了其使用條件和范圍。因此,如何在拓展原有方法的基礎(chǔ)上,研究適用于大數(shù)據(jù)特征的數(shù)據(jù)分析方法成為大數(shù)據(jù)時(shí)代的挑戰(zhàn),包括研究擴(kuò)展傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)融合算法的原理。

      (2)新型數(shù)據(jù)挖掘算法

      大數(shù)據(jù)挖掘是從大數(shù)據(jù)中尋找其規(guī)律的技術(shù)[7]。大數(shù)據(jù)具有高價(jià)值、低密度的特性,“尋找”變得更具挑戰(zhàn)性。分類(lèi)分析需要有標(biāo)簽的訓(xùn)練集指導(dǎo)建模,但是大數(shù)據(jù)集中大多是沒(méi)有經(jīng)過(guò)專(zhuān)家打好標(biāo)簽的數(shù)據(jù),需探索新的分類(lèi)方法,以利用較少的有標(biāo)簽樣本和較多的無(wú)標(biāo)簽樣本進(jìn)行學(xué)習(xí)。此外,面向高價(jià)值低密度的大數(shù)據(jù)集,存在這樣一類(lèi)數(shù)據(jù)挖掘需求:發(fā)現(xiàn)給定大數(shù)據(jù)集里面少數(shù)相似的數(shù)據(jù)對(duì)象組成的、表現(xiàn)出相異于大多數(shù)數(shù)據(jù)對(duì)象而形成異常的群組,被稱(chēng)為特異群組挖掘[8-10]。新的大數(shù)據(jù)挖掘方法研究包括特異群組挖掘方法、面向海量數(shù)據(jù)查詢(xún)的相似性計(jì)算方法、大規(guī)模帶時(shí)序可信知識(shí)圖譜自動(dòng)構(gòu)建方法、動(dòng)態(tài)大圖分析方法等。

      (3)高維數(shù)據(jù)分析方法

      通過(guò)對(duì)大數(shù)據(jù)本身的壓縮來(lái)適應(yīng)有限存儲(chǔ)和計(jì)算資源,除了研發(fā)計(jì)算能力更強(qiáng)、存儲(chǔ)量更大的計(jì)算機(jī)之外,維規(guī)約技術(shù)(包括選維、降維、維度子空間等)是一類(lèi)有效的方法,但也具備技術(shù)挑戰(zhàn)。需要面向不同類(lèi)型的數(shù)據(jù)研究語(yǔ)義保持下的大數(shù)據(jù)維規(guī)約技術(shù)(包括特征分析、特征選擇、降維、子空間等),形成新的高維大數(shù)據(jù)分析方法和理論。

      (4)深度學(xué)習(xí)方法

      深度學(xué)習(xí)[11]已成為機(jī)器學(xué)習(xí)研究中的一個(gè)熱點(diǎn)領(lǐng)域,通過(guò)構(gòu)建具有多隱層的學(xué)習(xí)模型和大量訓(xùn)練數(shù)據(jù)學(xué)習(xí)特征。對(duì)深度學(xué)習(xí)的研究不僅僅聚集在視覺(jué)、圖像、語(yǔ)音、文本等分析研究中,也需要拓展到時(shí)間序列、復(fù)雜網(wǎng)絡(luò)等數(shù)據(jù)集上。深度學(xué)習(xí)模型優(yōu)化、計(jì)算能力等方面仍然是當(dāng)前深度學(xué)習(xí)的難點(diǎn),需要形成理論體系。

      國(guó)家自然科學(xué)基金委員會(huì)在大數(shù)據(jù)分析基礎(chǔ)方面資助的項(xiàng)目有:“大數(shù)據(jù)機(jī)器學(xué)習(xí)分布式算法的可行性理論”“基于知識(shí)指導(dǎo)和模糊信息?;臅r(shí)序大數(shù)據(jù)分析和挖掘”“RADIUS K-means算法及其拓展問(wèn)題的研究”“基于多源異構(gòu)不確定數(shù)據(jù)的高效用信息挖掘的研究”“面向圖像序列的深度學(xué)習(xí)理論與方法”“面向大數(shù)據(jù)的快速關(guān)聯(lián)分析關(guān)鍵技術(shù)研究”“面向大數(shù)據(jù)分析的自學(xué)習(xí)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究”“基于認(rèn)知計(jì)算的大數(shù)據(jù)挖掘理論與技術(shù)”項(xiàng)目等。

      5 大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)

      數(shù)據(jù)是基礎(chǔ)資源和戰(zhàn)略資源,對(duì)資源競(jìng)爭(zhēng)就會(huì)產(chǎn)生很多問(wèn)題。國(guó)家之間的競(jìng)爭(zhēng)涉及數(shù)據(jù)主權(quán)和數(shù)據(jù)安全,還有全球數(shù)據(jù)治理;一個(gè)國(guó)家內(nèi)部涉及政府和公共數(shù)據(jù)資源的開(kāi)放共享、交易流通,涉及數(shù)據(jù)權(quán)屬和隱私安全保障,還涉及數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、可視化等數(shù)據(jù)可用性問(wèn)題。大數(shù)據(jù)研究需要有各種各樣的數(shù)據(jù)環(huán)境,數(shù)據(jù)環(huán)境要與來(lái)源多樣、類(lèi)型多樣的數(shù)據(jù)結(jié)合,并且數(shù)據(jù)規(guī)模要足夠大。需要從數(shù)據(jù)質(zhì)量保障、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)索引等方面,研究大數(shù)據(jù)管理和治理的基礎(chǔ)方法,包括以下幾個(gè)方面。

      (1)大數(shù)據(jù)治理

      確保數(shù)據(jù)稀缺性不喪失和隱私不泄露是推動(dòng)和實(shí)現(xiàn)數(shù)據(jù)開(kāi)放共享的關(guān)鍵,有必要探索數(shù)據(jù)隱私保護(hù)機(jī)制及模型、大數(shù)據(jù)權(quán)屬認(rèn)定與保障理論及體系、區(qū)塊鏈技術(shù),構(gòu)建數(shù)據(jù)自治開(kāi)放理論體系,推動(dòng)大數(shù)據(jù)交易。

      (2)外部數(shù)據(jù)的質(zhì)量保障機(jī)制

      大數(shù)據(jù)來(lái)源廣泛,也導(dǎo)致了數(shù)據(jù)的可靠性下降,如果不經(jīng)過(guò)處理而將非確定的大數(shù)據(jù)用在后續(xù)分析中,必然會(huì)導(dǎo)致最終結(jié)果的不確定或不準(zhǔn)確。因而要研究數(shù)據(jù)清潔的收益和代價(jià)計(jì)算,高效量化出單個(gè)數(shù)據(jù)清洗對(duì)全局結(jié)果判決質(zhì)量的提升以及清洗單個(gè)數(shù)據(jù)耗費(fèi)的開(kāi)銷(xiāo),從而選擇最高性?xún)r(jià)比的數(shù)據(jù)進(jìn)行清洗。研究多數(shù)據(jù)源融合的清洗問(wèn)題,梳理融合中多數(shù)據(jù)源之間的依賴(lài)關(guān)系,確定數(shù)據(jù)清洗的時(shí)機(jī)與策略,達(dá)到最優(yōu)的清洗性?xún)r(jià)比。研究大數(shù)據(jù)可用性的定義與表達(dá)、大數(shù)據(jù)的錯(cuò)誤傳播與可用性相關(guān)模型,大數(shù)據(jù)可用性中的可計(jì)算與計(jì)算復(fù)雜性度量模型,基于群智計(jì)算的迭代數(shù)據(jù)清洗機(jī)制等基礎(chǔ)理論和框架。

      (3)大數(shù)據(jù)建模

      關(guān)系模型、面向?qū)ο竽P驮谝郧暗臄?shù)據(jù)管理技術(shù)中發(fā)揮了核心作用。但原有的數(shù)學(xué)模型多是針對(duì)一種類(lèi)型的數(shù)據(jù),而大數(shù)據(jù)中包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),因此需要研究相應(yīng)的建模方法,將不同類(lèi)型的數(shù)據(jù)從語(yǔ)義上關(guān)聯(lián)在一起,以復(fù)雜關(guān)聯(lián)網(wǎng)絡(luò)等技術(shù)為基礎(chǔ)研究連接各種不同類(lèi)型數(shù)據(jù)的數(shù)據(jù)描述機(jī)制,支撐對(duì)大數(shù)據(jù)的管理。

      (4)大數(shù)據(jù)索引

      傳統(tǒng)索引結(jié)構(gòu)常用于結(jié)構(gòu)化數(shù)據(jù)庫(kù)系統(tǒng),能夠提高小規(guī)模數(shù)據(jù)檢索速度和查詢(xún)表連接效率。然而,大數(shù)據(jù)環(huán)境下,傳統(tǒng)索引結(jié)構(gòu)存在冗余、存儲(chǔ)空間過(guò)大、更新困難以及不適用于分布式存儲(chǔ)環(huán)境等缺陷,這需要針對(duì)大數(shù)據(jù)的存儲(chǔ)與數(shù)據(jù)特性研究大數(shù)據(jù)索引,包括非結(jié)構(gòu)化數(shù)據(jù)索引結(jié)構(gòu)、基于分布式存儲(chǔ)的數(shù)據(jù)索引結(jié)構(gòu)、高維與多目標(biāo)需求下的數(shù)據(jù)索引結(jié)構(gòu)等多種索引模型和索引性能評(píng)估模型。

      (5)大數(shù)據(jù)可視化機(jī)理和方法

      可視化是刻畫(huà)數(shù)據(jù)之間關(guān)聯(lián)性的有效手段,可視化分析貫穿于大數(shù)據(jù)全過(guò)程,如何實(shí)現(xiàn)可視化方法協(xié)助分析大規(guī)模、高維度、多來(lái)源、動(dòng)態(tài)演化的數(shù)據(jù),是當(dāng)前可視化面臨的挑戰(zhàn)。因此,需要探索大數(shù)據(jù)全局視圖可視化機(jī)理、時(shí)空相關(guān)的交互可視化機(jī)理、超大規(guī)模節(jié)點(diǎn)的高速數(shù)據(jù)渲染方法。

      (6)知識(shí)圖譜

      知識(shí)圖譜用于刻畫(huà)實(shí)體或概念及其之間的關(guān)系,在大數(shù)據(jù)環(huán)境下,知識(shí)圖譜更新和復(fù)雜性都急劇增加,為構(gòu)建高質(zhì)量知識(shí)圖譜和實(shí)現(xiàn)有效推理,需要研究復(fù)雜知識(shí)圖譜的語(yǔ)義描述方法、不確定知識(shí)圖譜的構(gòu)建與管理、基于知識(shí)圖譜的多種類(lèi)型數(shù)據(jù)表示模型、跨結(jié)構(gòu)數(shù)據(jù)的存取機(jī)制和語(yǔ)義表示等。

      國(guó)家自然科學(xué)基金委員會(huì)對(duì)數(shù)據(jù)基礎(chǔ)研究方向的資助項(xiàng)目有:“大數(shù)據(jù)協(xié)同計(jì)算及查詢(xún)服務(wù)的隱私保護(hù)”“大數(shù)據(jù)環(huán)境下的首席數(shù)據(jù)官、數(shù)據(jù)治理及組織績(jī)效關(guān)系研究”“高質(zhì)量大數(shù)據(jù)集成關(guān)鍵技術(shù)的研究”“大數(shù)據(jù)一致性錯(cuò)誤管理理論與關(guān)鍵技術(shù)”“大數(shù)據(jù)集背景下概念格的多粒度構(gòu)造和存儲(chǔ)研究”“分布式不確定數(shù)據(jù)查詢(xún)處理關(guān)鍵技術(shù)研究”“面向大數(shù)據(jù)的信息可視化設(shè)計(jì)方法研究”“高維大數(shù)據(jù)可視化的散度模型、算法及評(píng)價(jià)”“基于外存的海量知識(shí)圖譜數(shù)據(jù)的查詢(xún)處理”等。

      6 大數(shù)據(jù)的計(jì)算基礎(chǔ)

      大數(shù)據(jù)通常需要有能夠分析處理這些數(shù)據(jù)的軟硬件環(huán)境,即需要具有足夠計(jì)算能力的計(jì)算環(huán)境。以深度學(xué)習(xí)為例,Hinton G E于2006年在《Science》上發(fā)表的論文《Reducing the dimensionality of data with neural networks》[11]提出了數(shù)據(jù)降維方法—— deep autoencoder,這成為深度學(xué)習(xí)開(kāi)創(chuàng)性標(biāo)志算法之一。然而,卻并沒(méi)有作為被廣泛關(guān)注和使用的方法,而是隨著數(shù)年后計(jì)算條件和計(jì)算能力的提升,深度學(xué)習(xí)方法才開(kāi)始發(fā)揮更為重要的應(yīng)用價(jià)值。這意味著需要探索新型高效能系統(tǒng)結(jié)構(gòu)、性能導(dǎo)向的大數(shù)據(jù)計(jì)算框架和多地計(jì)算/異地計(jì)算理論與方法。

      (1)新型高效能系統(tǒng)結(jié)構(gòu)

      當(dāng)前,計(jì)算機(jī)系統(tǒng)的計(jì)算部件、存儲(chǔ)部件、通信部件的功能和性能已朝著高速、高容量、高帶寬的方向發(fā)展,并具有可編程、可定制等特點(diǎn)。如何利用這些部件構(gòu)建新型高效能計(jì)算機(jī)系統(tǒng)滿足大數(shù)據(jù)處理需求,是一個(gè)迫切需要解決的問(wèn)題。這需要探索可重構(gòu)、高度可配置的新型高效能系統(tǒng)結(jié)構(gòu);研究計(jì)算、存儲(chǔ)和通信部件的有機(jī)結(jié)合、按需配置、彈性伸縮的方法;研究可變結(jié)構(gòu)、軟硬件結(jié)合的擬態(tài)計(jì)算機(jī)系統(tǒng)結(jié)構(gòu);研究高效能分布式存儲(chǔ)系統(tǒng)的構(gòu)建原理。

      (2)性能導(dǎo)向的大數(shù)據(jù)計(jì)算框架

      大數(shù)據(jù)的規(guī)模、計(jì)算時(shí)效性以及異構(gòu)數(shù)據(jù)分布存儲(chǔ)的特征,對(duì)計(jì)算機(jī)系統(tǒng)的高通量、高時(shí)效和高并行提出了挑戰(zhàn)。性能導(dǎo)向的并行計(jì)算框架是應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的關(guān)鍵和基礎(chǔ)。這需要研究分析大數(shù)據(jù)應(yīng)用的計(jì)算特征、通信特征和存儲(chǔ)特征;研究并行計(jì)算系統(tǒng)的高通量、高時(shí)效計(jì)算技術(shù),包括實(shí)時(shí)分布式內(nèi)存系統(tǒng)、內(nèi)存計(jì)算系統(tǒng)、異構(gòu)多核平臺(tái)的性能加速技術(shù)等;研究性能可預(yù)測(cè)的并行計(jì)算模型。

      (3)多地計(jì)算/異地計(jì)算理論與方法

      數(shù)據(jù)大的難以移動(dòng)、數(shù)據(jù)重要的不愿移動(dòng),在此背景下,如何求解一個(gè)全局問(wèn)題是一大挑戰(zhàn)。通常在大數(shù)據(jù)所屬地計(jì)算局部解,即大數(shù)據(jù)應(yīng)用具有數(shù)據(jù)存儲(chǔ)的分布性問(wèn)題,在數(shù)據(jù)所在地進(jìn)行計(jì)算,產(chǎn)生的部分計(jì)算結(jié)果可能出現(xiàn)不一致、相互背離等現(xiàn)象,需要通過(guò)不同方式的計(jì)算進(jìn)行驗(yàn)證,這給求解全局問(wèn)題帶來(lái)挑戰(zhàn)。因此,需要研究大數(shù)據(jù)多地計(jì)算/異地計(jì)算基礎(chǔ)問(wèn)題,包括異地計(jì)算行為建模;研究局部解的局限性評(píng)估機(jī)制、局部解發(fā)送接收的身份驗(yàn)證機(jī)制、局部解的優(yōu)化融合策略;研究全局解的最優(yōu)性評(píng)估機(jī)制、提高全局解最優(yōu)率的異地選取策略等。

      國(guó)家自然科學(xué)基金委員會(huì)對(duì)上述各個(gè)研究方向開(kāi)展資助的項(xiàng)目有:“云計(jì)算環(huán)境下大數(shù)據(jù)本地化技術(shù)研究”“結(jié)合邏輯與物理I/O訪問(wèn)信息的存儲(chǔ)系統(tǒng)優(yōu)化策略的研究”“互聯(lián)云環(huán)境下面向數(shù)據(jù)中心的服務(wù)資源分配與調(diào)度機(jī)制研究”“面向大數(shù)據(jù)的高時(shí)效并行計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)與技術(shù)”“大數(shù)據(jù)高效能存儲(chǔ)與管理方法研究”“面向大數(shù)據(jù)的計(jì)算與存儲(chǔ)融合CPU體系結(jié)構(gòu)研究”“分布式計(jì)算與系統(tǒng)”“面向大數(shù)據(jù)內(nèi)存計(jì)算的計(jì)算機(jī)體系結(jié)構(gòu)”“大數(shù)據(jù)環(huán)境下增量式迭代計(jì)算框架的研究與優(yōu)化”“云計(jì)算環(huán)境下面向大數(shù)據(jù)的在線聚集并行優(yōu)化機(jī)制研究”等。

      7 大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)

      現(xiàn)有的大數(shù)據(jù)研究大多關(guān)注將傳統(tǒng)方法應(yīng)用于大數(shù)據(jù)的實(shí)際場(chǎng)景,而沒(méi)有從大數(shù)據(jù)的內(nèi)在結(jié)構(gòu)、本質(zhì)特征出發(fā),這制約了大數(shù)據(jù)研究的深度發(fā)展,使得大數(shù)據(jù)技術(shù)面臨瓶頸。因此,研究大數(shù)據(jù)需要從數(shù)據(jù)本身出發(fā),這離不開(kāi)數(shù)學(xué)方法的支持。大數(shù)據(jù)的表示和度量是大數(shù)據(jù)研究的關(guān)鍵和基礎(chǔ),相應(yīng)地,與之密切相關(guān)的大數(shù)據(jù)代數(shù)系統(tǒng)、大數(shù)據(jù)內(nèi)在數(shù)學(xué)結(jié)構(gòu)和大數(shù)據(jù)相似性度量成為大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)的重要內(nèi)容。

      (1)大數(shù)據(jù)的代數(shù)系統(tǒng)

      關(guān)系代數(shù)為關(guān)系型計(jì)算提供理論依據(jù)。然而,高擴(kuò)展性是大數(shù)據(jù)分析的重要需求,傳統(tǒng)的關(guān)系數(shù)據(jù)模型難以勝任當(dāng)前存在的非結(jié)構(gòu)化數(shù)據(jù)(如文本數(shù)據(jù)、序列數(shù)據(jù)、流式數(shù)據(jù)等)的處理。近年來(lái),已出現(xiàn)一些非關(guān)系型數(shù)據(jù)庫(kù)(如HBase、MongoDB等),在非結(jié)構(gòu)化數(shù)據(jù)上的復(fù)雜數(shù)據(jù)分析能力有所提高,并得到廣泛應(yīng)用。但是,目前缺少對(duì)非關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)代數(shù)的研究。對(duì)于非關(guān)系型數(shù)據(jù),定義由數(shù)據(jù)集構(gòu)成的集合上的度量方法和運(yùn)算,形成一定論域上的數(shù)據(jù)代數(shù)等,這些都將在數(shù)學(xué)基礎(chǔ)上對(duì)非關(guān)系型數(shù)據(jù)提供理論支持,有望突破現(xiàn)有技術(shù)瓶頸。

      (2)大數(shù)據(jù)內(nèi)在數(shù)學(xué)結(jié)構(gòu)

      數(shù)據(jù)有復(fù)雜的拓?fù)?、網(wǎng)絡(luò)等不同結(jié)構(gòu),在大數(shù)據(jù)問(wèn)題中,數(shù)據(jù)本身往往具有更為復(fù)雜的內(nèi)在數(shù)學(xué)結(jié)構(gòu),例如,高維數(shù)據(jù)空間中因?yàn)榫哂幸欢ǖ募s束條件而具有流形的數(shù)據(jù)結(jié)構(gòu);又如,在圖像等非結(jié)構(gòu)化數(shù)據(jù)中,先天性地具有低秩的數(shù)學(xué)性質(zhì)。在深刻理解和挖掘內(nèi)在相應(yīng)結(jié)構(gòu)的基礎(chǔ)上,才能有效建立分析模型。針對(duì)大數(shù)據(jù)集的流形或復(fù)形等復(fù)雜數(shù)學(xué)結(jié)構(gòu)和稀疏、低秩等數(shù)學(xué)性質(zhì),設(shè)計(jì)合理描述的數(shù)據(jù)結(jié)構(gòu),構(gòu)建相應(yīng)的度量,選取多尺度自適應(yīng)的基底表示,為構(gòu)建分析模型、形成反映內(nèi)在結(jié)構(gòu)參數(shù)的分析算法提供理論支撐,并通過(guò)數(shù)學(xué)結(jié)構(gòu)的性質(zhì),保證算法的適用性。

      (3)大數(shù)據(jù)的相似性度量

      相似性是數(shù)據(jù)挖掘分析任務(wù)的核心。簡(jiǎn)單數(shù)據(jù)類(lèi)型的相似性度量支撐傳統(tǒng)數(shù)據(jù)分析模型,然而,針對(duì)復(fù)雜數(shù)據(jù)類(lèi)型,這些相似性度量難以真實(shí)反映數(shù)據(jù)之間的關(guān)系。針對(duì)大數(shù)據(jù)復(fù)雜性特征,定義空間非剛性結(jié)構(gòu)的相似性度量和超高維、多類(lèi)型的大數(shù)據(jù)相似性度量,發(fā)展非線性降維方法、核理論以及相應(yīng)的高效算法和穩(wěn)定性分析。

      如前所述,大數(shù)據(jù)研究過(guò)程中數(shù)學(xué)基礎(chǔ)方面還需要更多的研究者參與和關(guān)注,目前,國(guó)家自然科學(xué)基金用在大數(shù)據(jù)的數(shù)學(xué)基礎(chǔ)方面的相對(duì)較少,但也有對(duì)上述研究方向的涉及,例如:“大數(shù)據(jù)環(huán)境下服務(wù)的存儲(chǔ)范式理論及操作代數(shù)研究”“大數(shù)據(jù)中的廣義稀疏幾何結(jié)構(gòu)學(xué)習(xí)方法研究”“適應(yīng)大數(shù)據(jù)處理的概率相似度學(xué)習(xí)研究”等。

      8 結(jié)束語(yǔ)

      數(shù)據(jù)作為一種基礎(chǔ)性資源已經(jīng)得到廣泛認(rèn)可,大數(shù)據(jù)開(kāi)始在各行各業(yè)發(fā)揮作用,同時(shí)也遇到了很多難題,例如數(shù)據(jù)質(zhì)量、數(shù)據(jù)權(quán)屬、數(shù)據(jù)開(kāi)放共享、數(shù)據(jù)快速分析、異地?cái)?shù)據(jù)計(jì)算等,這些問(wèn)題可以統(tǒng)稱(chēng)為大數(shù)據(jù)問(wèn)題。由于大數(shù)據(jù)的廣泛性,大數(shù)據(jù)問(wèn)題是多層次、多樣的,需要各領(lǐng)域的科學(xué)家共同努力。本文將大數(shù)據(jù)的基礎(chǔ)問(wèn)題歸類(lèi)為應(yīng)用基礎(chǔ)、分析基礎(chǔ)、數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)和數(shù)學(xué)基礎(chǔ)五大類(lèi)別。特別地,將各學(xué)科基于大數(shù)據(jù)的創(chuàng)新研究也歸類(lèi)為大數(shù)據(jù)的應(yīng)用基礎(chǔ)。這是因?yàn)榭茖W(xué)研究進(jìn)入了所謂的第四范式,第四范式的科學(xué)研究需要先行積累數(shù)據(jù)、研究數(shù)據(jù)、分析數(shù)據(jù)、觀察數(shù)據(jù),然后才進(jìn)行業(yè)務(wù)研究,或者說(shuō),認(rèn)識(shí)宇宙、認(rèn)識(shí)物質(zhì)、認(rèn)識(shí)生命、認(rèn)識(shí)社會(huì),需要先行認(rèn)識(shí)相應(yīng)的數(shù)據(jù),即認(rèn)識(shí)數(shù)據(jù)先于認(rèn)識(shí)宇宙、物質(zhì)、生命和社會(huì)。建議國(guó)家層面研究基金全面部署,探究大數(shù)據(jù)各層面的基礎(chǔ)問(wèn)題,實(shí)現(xiàn)大數(shù)據(jù)原始創(chuàng)新,推動(dòng)數(shù)據(jù)科學(xué)發(fā)展,有利于形成大數(shù)據(jù)的核心競(jìng)爭(zhēng)力。

      [1]朱揚(yáng)勇, 熊贇. 大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用[J]. 大數(shù)據(jù), 2015007. ZHU Y Y, XIONG Y. Defining big data[J]. Big Data Research, 2015007.

      [2]MOORE G E. The microprocessor:engine of the technology revolution[J]. Communications of the ACM, 1997, 40(2): 112.

      [3]HEY T, STEWART T, KRISTIN T. The forth paradigm: data-intensive scientific discovery[M]. Beijing: Microsoft Research, 2009.

      [4]CARMI D, FALKOWSKI A, KUFLIK E, et al. Higgs after the discovery: a status report[J]. Journal of High Energy Physics, 2012, arXiv:1207.1718.

      [5]BAHMANI B, MOSELEY B, VATTANI A, et al. Scalable k-means++[J]. Proceedings of the VLDB Endowment, 2012,5(7): 622-633.

      [6]A R T H U R D, VA S S I LV I T S K I I S. K-means++: the advantages of careful seeding[C]// 18th ACM-SIAM Symposium on Discrete Algorithms, January 7 - 9, 2007, New Orleans, Louisiana, USA. New York: ACM Press, 2007: 1027-1035.

      [7]熊贇, 朱揚(yáng)勇, 陳志淵. 大數(shù)據(jù)挖掘[M]. 上海: 上海科學(xué)技術(shù)出版社, 2016.

      XIONG Y, ZHU Y Y, CHEN Z Y. Big datamining[M]. Shanghai: Shanghai Scientific & Technical Publishers, 2016.

      [8]熊贇, 朱揚(yáng)勇. 特異群組挖掘:框架與應(yīng)用[J].大數(shù)據(jù), 2015020.

      XIONG Y, ZHU Y Y. Abnormal group mining: framework and applications[J]. Big Data Research, 2015020.

      [9]XIONG Y, ZHU Y Y, YU P S, et al. Towards cohesive anomaly mining[C]// 27th AAAI Conference on Artificial Intelligence (AAAI), July 14 - 18, 2013, Bellevue, Washington, USA. San Francisco: AAAI Press, 2013:984-990.

      [10]XIONG Y, ZHU Y Y. Mining peculiarity groups in day-by-day behavioral datasets[C]//IEEE International Conference on Data Mining (ICDM), December 6 - 9, 2009, Miami, Florida, USA. New Jersey:IEEE Press, 2009: 578-587.

      [11]HINTON G E, SALAKHUDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

      Foundation issues for big data research

      ZHU Yangyong1,2, XIONG Yun1,2
      1. School of Computer Science, Fudan University, Shanghai 200433, China
      2. Shanghai Key Lab of Data Science, Shanghai 200433, China

      The key technical challenges for big data lie in how to discover the value of the low-value-density data and how to complete the task in the desired time. The ways to take up these challenges from three aspects were discussed. First is that the former challenge requires the combination of domain knowledge and data technology. This combination of theory and new algorithms forms the basis of application and analysis of big data. Second is that the latter challenge needs to design new types of computer, cluster system, computing framework, storage system and data management method, which forms the basis of computing and data of big data. Thirdly, both challenges relate to mathematical theory, which is the basis of mathematics of big data. In conclusion, several foundation issues for big data research including the basis of mathematics, computing, data, analysis and application of big data were analyzed.

      big data, data science, foundation of big data, data resource

      TP311

      A

      10.11959/j.issn.2096-0271.2017023

      朱揚(yáng)勇(1963-),男,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、學(xué)術(shù)委員會(huì)主任,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護(hù)和利用,2009年發(fā)表了數(shù)據(jù)科學(xué)論文《Data explosion, data nature and dataology》,并出版專(zhuān)著《數(shù)據(jù)學(xué)》,對(duì)數(shù)據(jù)科學(xué)進(jìn)行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。擔(dān)任第462次香山科學(xué)會(huì)議“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的理論問(wèn)題探索”的執(zhí)行主席、《大數(shù)據(jù)技術(shù)與應(yīng)用叢書(shū)》主編。主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)。

      熊贇(1980-),女,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項(xiàng)目負(fù)責(zé)人主持國(guó)家自然科學(xué)基金、上海市科委發(fā)展基金以及企業(yè)合作項(xiàng)目。相關(guān)研究成果在本領(lǐng)域國(guó)際權(quán)威期刊或會(huì)議發(fā)表論文40余篇,出版著作3本。主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)。

      2017-01-06

      國(guó)家自然科學(xué)基金資助項(xiàng)目(No. 91546105);上海市科技發(fā)展基金資助項(xiàng)目(No. 16JC1400801)

      Foundation Items: The National Natural Science Foundation of China (No. 91546105), Shanghai Science and Technology Development Fund (No. 16JC1400801)

      猜你喜歡
      基礎(chǔ)方法研究
      “不等式”基礎(chǔ)鞏固
      FMS與YBT相關(guān)性的實(shí)證研究
      “整式”基礎(chǔ)鞏固
      遼代千人邑研究述論
      視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
      科技傳播(2019年22期)2020-01-14 03:06:54
      EMA伺服控制系統(tǒng)研究
      “防”“治”并舉 筑牢基礎(chǔ)
      可能是方法不對(duì)
      用對(duì)方法才能瘦
      Coco薇(2016年2期)2016-03-22 02:42:52
      四大方法 教你不再“坐以待病”!
      Coco薇(2015年1期)2015-08-13 02:47:34
      同德县| 米脂县| 浙江省| 荆门市| 叙永县| 贺兰县| 田阳县| 精河县| 安达市| 庆云县| 永胜县| 榆林市| 共和县| 永川市| 鄢陵县| 肇庆市| 郧西县| 津市市| 封丘县| 莱州市| 天台县| 虎林市| 台安县| 周至县| 沅江市| 杨浦区| 迁西县| 离岛区| 延安市| 长沙县| 卓资县| 泸水县| 永丰县| 密云县| 黄平县| 依兰县| 三穗县| 泗阳县| 红河县| 朝阳市| 嘉鱼县|