• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)于大數(shù)據(jù)人才培養(yǎng)的思考與探索

      2014-03-01 09:19:22
      教育教學(xué)論壇 2014年45期
      關(guān)鍵詞:數(shù)據(jù)庫(kù)模型

      黃 晉

      (華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510631)

      一、引言

      隨著計(jì)算機(jī)軟硬件技術(shù)的快速發(fā)展,計(jì)算技術(shù)已從傳統(tǒng)的P C平臺(tái)計(jì)算模式發(fā)展到嵌入式計(jì)算、移動(dòng)計(jì)算、并行計(jì)算和服務(wù)計(jì)算等多種計(jì)算系統(tǒng)并存及融合的計(jì)算模式,處理的對(duì)象也呈現(xiàn)出網(wǎng)絡(luò)化、多媒體化、大數(shù)據(jù)化和智能化需求的特征,而物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展促進(jìn)了這一趨勢(shì),從而迎來(lái)了大數(shù)據(jù)時(shí)代的到來(lái)。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后興起的又一新興發(fā)展方向,被學(xué)術(shù)界、工業(yè)界乃至政府機(jī)構(gòu)密切關(guān)注和廣泛研究。

      大數(shù)據(jù)又稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極的目的的資訊。在維克托·邁爾·舍恩伯格及肯尼斯·庫(kù)克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)的方法。一般說(shuō)來(lái),大數(shù)據(jù)具有4 V的特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

      二、大數(shù)據(jù)時(shí)代對(duì)人才的要求

      從廣義上講,大數(shù)據(jù)人才就是具備大數(shù)據(jù)處理能力的科學(xué)家和工程師。目前,國(guó)際上開(kāi)設(shè)了大量的數(shù)據(jù)科學(xué)方面的課程、數(shù)據(jù)科學(xué)學(xué)位計(jì)劃以及數(shù)據(jù)科學(xué)短期培訓(xùn)班。從國(guó)際上設(shè)置的培養(yǎng)計(jì)劃來(lái)看,大數(shù)據(jù)人才應(yīng)該系統(tǒng)地掌握數(shù)據(jù)分析相關(guān)的技能,主要包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、商業(yè)分析和自然語(yǔ)言處理等,具有較寬的知識(shí)面,具有獨(dú)立獲取知識(shí)的能力,具有較強(qiáng)的實(shí)踐能力、創(chuàng)新意識(shí)和團(tuán)隊(duì)合作意識(shí)。具體來(lái)說(shuō),大數(shù)據(jù)人才首先應(yīng)具備獲取大數(shù)據(jù)的能力,例如能根據(jù)任務(wù)的具體要求,綜合利用各種計(jì)算機(jī)手段和知識(shí),收集整理海量數(shù)據(jù)并加以存儲(chǔ),為支撐相關(guān)的決策和行為做好數(shù)據(jù)準(zhǔn)備。其次,應(yīng)具備分析大數(shù)據(jù)的能力,對(duì)于經(jīng)過(guò)預(yù)處理的各類數(shù)據(jù),能夠根據(jù)具體的需求,進(jìn)行選擇、轉(zhuǎn)換、加載,采用有效方法和模型對(duì)數(shù)據(jù)進(jìn)行分析,并形成分析報(bào)告,為實(shí)際問(wèn)題提供決策依據(jù)。最后,應(yīng)具備良好的團(tuán)隊(duì)合作精神,大數(shù)據(jù)時(shí)代下的數(shù)據(jù)分析任務(wù)通常無(wú)法依賴個(gè)人能力來(lái)完成,需要在團(tuán)隊(duì)制度的約束下,與他人一同攜手、互相鼓勵(lì)、分工合作來(lái)實(shí)現(xiàn)既定目標(biāo),因此具備較強(qiáng)的責(zé)任心與團(tuán)隊(duì)合作精神也是大數(shù)據(jù)從業(yè)人員必備的基本條件。

      三、大數(shù)據(jù)人才培養(yǎng)的探索

      大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,對(duì)大數(shù)據(jù)人才提出了新的需求,國(guó)內(nèi)各高校在積極進(jìn)行大數(shù)據(jù)學(xué)術(shù)研究的同時(shí),也開(kāi)始考慮將大數(shù)據(jù)相關(guān)課程納入培養(yǎng)體系,以滿足社會(huì)對(duì)大數(shù)據(jù)人才的需求。以下結(jié)合作者在數(shù)據(jù)庫(kù)及分布式技術(shù)系列課程中的教學(xué)經(jīng)驗(yàn),以及大數(shù)據(jù)分析與處理方面的實(shí)踐經(jīng)驗(yàn),探討大數(shù)據(jù)系列課程教學(xué)內(nèi)容和實(shí)踐形式的設(shè)置。

      在教學(xué)內(nèi)容的設(shè)置上,大數(shù)據(jù)系列課程建議可分為理論教學(xué)和技術(shù)教學(xué)兩個(gè)方面,因?yàn)槔碚撌谴髷?shù)據(jù)認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線;而技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。在理論方面,講授的理論內(nèi)容可涵蓋如下幾點(diǎn):

      (1)大數(shù)據(jù)概念:大數(shù)據(jù)概念出現(xiàn)的歷史,關(guān)于大數(shù)據(jù)定義的各種流派以及說(shuō)明,大數(shù)據(jù)的四個(gè)特征,大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系,大數(shù)據(jù)與大規(guī)模數(shù)據(jù)、海量數(shù)據(jù)的差別。這個(gè)部分主要突出“大數(shù)據(jù)”概念中應(yīng)包含的“對(duì)數(shù)據(jù)對(duì)象的處理行為”。

      (2)典型的大數(shù)據(jù)應(yīng)用實(shí)例:精選有新意的大數(shù)據(jù)分析典型案例,可幫助學(xué)生更清晰的理解大數(shù)據(jù)的概念和含義,這樣的案例如:美國(guó)梅西百貨的實(shí)時(shí)定價(jià)機(jī)制(根據(jù)需求和庫(kù)存的情況對(duì)多達(dá)7300萬(wàn)種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià))、百度搜索的實(shí)時(shí)熱點(diǎn)排行榜(以數(shù)億網(wǎng)民的搜索行為作為數(shù)據(jù)基礎(chǔ),建立權(quán)威的關(guān)鍵詞排行榜與分類熱點(diǎn))、沃爾瑪?shù)乃阉饕鍼olaris(利用語(yǔ)義數(shù)據(jù)進(jìn)行文本分析、機(jī)器學(xué)習(xí)和同義詞挖掘使得在線購(gòu)物的完成率提升了10%~15%)、谷歌流感趨勢(shì)工具(通過(guò)跟蹤搜索詞相關(guān)數(shù)據(jù)來(lái)判斷全美地區(qū)的流感情況)等。在教學(xué)過(guò)程中,教師應(yīng)注意將授課的重點(diǎn)放在系統(tǒng)化的開(kāi)發(fā)步驟和關(guān)鍵性問(wèn)題的求解上,介紹案例的設(shè)計(jì)思想、主要方法和應(yīng)用過(guò)程等。

      (3)大數(shù)據(jù)關(guān)鍵技術(shù)與挑戰(zhàn):介紹大數(shù)據(jù)時(shí)代面臨的新挑戰(zhàn),包括大數(shù)據(jù)集成(數(shù)據(jù)異構(gòu)性和數(shù)據(jù)質(zhì)量問(wèn)題)、大數(shù)據(jù)分析(數(shù)據(jù)形式多樣化、數(shù)據(jù)處理的實(shí)時(shí)性、索引結(jié)構(gòu)的復(fù)雜性等)、大數(shù)據(jù)隱私問(wèn)題(隱私保護(hù)和數(shù)據(jù)分析的矛盾)、大數(shù)據(jù)能耗問(wèn)題(低功耗硬件的設(shè)計(jì))、大數(shù)據(jù)處理與硬件的協(xié)同、大數(shù)據(jù)管理易用性問(wèn)題以及性能測(cè)試基準(zhǔn)。

      (4)大數(shù)據(jù)存儲(chǔ)和管理技術(shù):介紹如何把采集到的大數(shù)據(jù)存儲(chǔ)起來(lái),建立相應(yīng)的數(shù)據(jù)庫(kù),并進(jìn)行管理和調(diào)用。主要內(nèi)容包括:分布式文件系統(tǒng)(HDFS)、去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù)、新型數(shù)據(jù)庫(kù)技術(shù)(鍵值數(shù)據(jù)庫(kù)、列存數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)以及文檔數(shù)據(jù)庫(kù)等)、異構(gòu)數(shù)據(jù)融合技術(shù)、分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)、大數(shù)據(jù)索引技術(shù)和大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù)。

      (5)大數(shù)據(jù)分析及挖掘技術(shù):介紹從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),通常由數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)階段組成。數(shù)據(jù)準(zhǔn)備是從上述大數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)中選取所需數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含規(guī)律找出來(lái);規(guī)律表示則是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來(lái)。根據(jù)挖掘任務(wù)可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。

      在技術(shù)方面,可考慮分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程,具體可包括以下幾點(diǎn):

      (1)NoSQL技術(shù):NoSQL產(chǎn)生的背景、NoSQL現(xiàn)狀、NoSQL數(shù)據(jù)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)的比較、聚合數(shù)據(jù)模型、分布式模型、數(shù)據(jù)一致性、典型的NoSQL數(shù)據(jù)庫(kù)分類、NoSQL數(shù)據(jù)庫(kù)開(kāi)源軟件。

      (2)MapReduce:MapReduce模型概述、編程模型:Map和Reduce函數(shù)、MapReduce工作流程、并行計(jì)算的實(shí)現(xiàn)、實(shí)例、Yarn等

      (3)Hadoop分布式文件系統(tǒng):Hadoop出現(xiàn)的背景、Hadoop的功能與作用、為什么不用關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)、Hadoop的優(yōu)點(diǎn)、Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢(shì)、Hadoop項(xiàng)目及其結(jié)構(gòu)、Hadoop的體系結(jié)構(gòu)、Hadoop與分布式開(kāi)發(fā)、Hadoop應(yīng)用案例、Hadoop平臺(tái)上的海量數(shù)據(jù)排序。

      (4)還可進(jìn)一步包括數(shù)據(jù)流的管理與挖掘、云數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)等。

      由于大數(shù)據(jù)系列課程所涉及的技術(shù)具有很強(qiáng)的應(yīng)用背景和實(shí)踐意義,因此應(yīng)摒棄傳統(tǒng)教學(xué)模式中“重理論、輕實(shí)踐”的思想,在掌握大數(shù)據(jù)相關(guān)的理論知識(shí)和技術(shù)知識(shí)之后,還需重點(diǎn)培養(yǎng)學(xué)生的綜合實(shí)踐能力,以滿足社會(huì)就業(yè)的需要。為此,應(yīng)設(shè)立一定的大數(shù)據(jù)技術(shù)實(shí)踐課程內(nèi)容,幫助學(xué)生從知識(shí)型向能力型轉(zhuǎn)變。結(jié)合上一節(jié)分析的大數(shù)據(jù)時(shí)代對(duì)人才的具體要求,建議按以下流程設(shè)置實(shí)踐環(huán)節(jié)的內(nèi)容:

      (1)分組。如前所述,大數(shù)據(jù)時(shí)代下的數(shù)據(jù)分析任務(wù)通常需要以團(tuán)隊(duì)的形式來(lái)完成,因此首先要求學(xué)生根據(jù)自身情況,結(jié)合各自的技術(shù)優(yōu)勢(shì),合理進(jìn)行分組。

      (2)選題。在具體選題上,可使用校企合作的具體項(xiàng)目或以Apache Hadoop、MongoDB、Dremel、Gephi 等一系列的開(kāi)源大數(shù)據(jù)分析軟件作為實(shí)踐平臺(tái),以Kaggle為數(shù)據(jù)科學(xué)平臺(tái)來(lái)進(jìn)行選題。

      (3)明確需求并撰寫(xiě)大數(shù)據(jù)分析任務(wù)書(shū)。明確選定的題目范圍內(nèi),數(shù)據(jù)分析要研究的主要問(wèn)題和預(yù)期的分析目標(biāo)。只有明確了數(shù)據(jù)分析的目標(biāo),才能正確地制定數(shù)據(jù)收集方案,即收集哪些數(shù)據(jù),采用怎樣的方式收集等,進(jìn)而為數(shù)據(jù)分析做好準(zhǔn)備。

      (4)數(shù)據(jù)收集及預(yù)處理。由于大數(shù)據(jù)分析最終的結(jié)果與其獲取的數(shù)據(jù)質(zhì)量緊密相關(guān),因此收集的數(shù)據(jù)是否真正符合數(shù)據(jù)分析的目標(biāo)是必須注意的重要問(wèn)題。該步驟要求學(xué)生從分析目標(biāo)出發(fā),從浩瀚的數(shù)據(jù)中正確的收集高質(zhì)量且服務(wù)于既定分析目標(biāo)的數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行必要的加工整理,包括填寫(xiě)空缺值、平滑噪聲數(shù)據(jù)、識(shí)別和刪除孤立點(diǎn)、解決不一致性、規(guī)范化(消除冗余屬性)和聚集(數(shù)據(jù)匯總)等。

      (5)探索性數(shù)據(jù)分析。由于大數(shù)據(jù)分析的數(shù)據(jù)量通常達(dá)到PB甚至YB級(jí)以上,因此希望直接選定一個(gè)分析模型是不現(xiàn)實(shí)的,而且面對(duì)高維海量數(shù)據(jù),也很難直接看出數(shù)據(jù)的規(guī)律。在這個(gè)步驟中,應(yīng)指導(dǎo)學(xué)生通過(guò)基本描述統(tǒng)計(jì)量的計(jì)算、基本統(tǒng)計(jì)圖形的繪制、用各種形式的方程擬合等手段,計(jì)算某些特征量等方法探索規(guī)律性的可能形式,幫助學(xué)生快速掌握數(shù)據(jù)的分布特征,這是進(jìn)一步深入分析和建模的基礎(chǔ)。

      (6)模型選定分析。在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過(guò)進(jìn)一步的分析從中挑選一定的模型。有時(shí)選擇幾種統(tǒng)計(jì)分析方法對(duì)數(shù)據(jù)進(jìn)行探索性的反復(fù)分析也是極為重要的。每一種統(tǒng)計(jì)分析方法都有自己的特點(diǎn)和局限,因此,一般需要選擇幾種方法反復(fù)印證分析,僅依據(jù)一種分析方法的結(jié)果就斷然下結(jié)論是不科學(xué)的。

      (7)模型的驗(yàn)證及分析報(bào)告。指導(dǎo)學(xué)生對(duì)選擇的數(shù)據(jù)分析模型及結(jié)果進(jìn)行分析,可使用數(shù)理統(tǒng)計(jì)方法對(duì)所定模型或估計(jì)的可靠程度和精確程度作出推斷。觀察模型提供決策的信息是否充分、可信,所發(fā)揮的作用是否與期望值一致,數(shù)據(jù)分析方法是否合理,是否將風(fēng)險(xiǎn)控制在可接受的范圍。

      以上這種項(xiàng)目式實(shí)踐形式的優(yōu)勢(shì)是:在學(xué)生參與完成某一具體的大數(shù)據(jù)分析任務(wù)過(guò)程中,通過(guò)主動(dòng)地學(xué)習(xí)來(lái)自主地進(jìn)行知識(shí)的建構(gòu),讓學(xué)生經(jīng)歷項(xiàng)目開(kāi)發(fā)的整個(gè)過(guò)程,從中去發(fā)現(xiàn)和掌握相關(guān)知識(shí),達(dá)到既能熟悉大數(shù)據(jù)分析過(guò)程,又完成了經(jīng)驗(yàn)的積累,還能實(shí)現(xiàn)學(xué)習(xí)知識(shí)、培養(yǎng)能力的目的。在這里,教師不再是知識(shí)的傳授者,而是項(xiàng)目活動(dòng)的組織者和咨詢者。

      四、校企合作推動(dòng)人才培養(yǎng)

      一方面,大數(shù)據(jù)的核心業(yè)務(wù)必然是一種扎根于特定行業(yè),綜合運(yùn)用已有的存儲(chǔ)、分析、挖掘、展現(xiàn)技術(shù),根據(jù)用戶需求并融入行業(yè)特色技術(shù)模型的一站式大數(shù)據(jù)平臺(tái)業(yè)務(wù)。另一方面,對(duì)于企業(yè)來(lái)說(shuō),各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件。大數(shù)據(jù)解決方案是有價(jià)值的,但是苦于找不到既懂?dāng)?shù)據(jù)分析技術(shù),又懂得業(yè)務(wù)的專業(yè)人才。由此可見(jiàn),既懂得相關(guān)技術(shù),又諳熟企業(yè)業(yè)務(wù)的復(fù)合型人才才是企業(yè)部署大數(shù)據(jù)應(yīng)用最迫切需要的人才。因此,企業(yè)可以與學(xué)校聯(lián)合培養(yǎng)自己所需要的大數(shù)據(jù)人才,這種方式有兩方面的優(yōu)勢(shì):一是大數(shù)據(jù)技能訓(xùn)練的對(duì)象,即大量的數(shù)據(jù),只有企業(yè)才具備;二是在企業(yè)的支持下,學(xué)校也能通過(guò)針對(duì)性的實(shí)踐訓(xùn)練來(lái)培養(yǎng)學(xué)生的大數(shù)據(jù)處理技能。

      大數(shù)據(jù)時(shí)代下的校企合作的形式多種多樣,可通過(guò)聯(lián)合辦學(xué)、聯(lián)合制定人才培養(yǎng)方案、合作開(kāi)發(fā)課程和教學(xué)內(nèi)容、設(shè)置實(shí)訓(xùn)項(xiàng)目、教學(xué)管理和共建“雙師”結(jié)構(gòu)教學(xué)團(tuán)隊(duì)等形式展開(kāi)。

      五、結(jié)語(yǔ)

      未來(lái)的十年將是一個(gè)“大數(shù)據(jù)”引領(lǐng)的智慧科技的時(shí)代。隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升,云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富。更多的傳感設(shè)備、移動(dòng)終端接入到網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)及增長(zhǎng)速度將比歷史上的任何時(shí)期都要多,都要快?!按髷?shù)據(jù)”時(shí)代的腳步悄然而至,未來(lái)幾年,中國(guó)項(xiàng)目數(shù)據(jù)分析專業(yè)人才需求達(dá)幾十萬(wàn)人以上。國(guó)內(nèi)高校應(yīng)及時(shí)關(guān)注大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析人才培養(yǎng),融基礎(chǔ)理論、實(shí)驗(yàn)教學(xué)、工程實(shí)踐為一體,為大數(shù)據(jù)這樣的新興產(chǎn)業(yè)發(fā)展輸出高層次、實(shí)用性、國(guó)際化的復(fù)合型專業(yè)人才,確保產(chǎn)業(yè)科學(xué)、持續(xù)、高速的發(fā)展。

      猜你喜歡
      數(shù)據(jù)庫(kù)模型
      一半模型
      p150Glued在帕金森病模型中的表達(dá)及分布
      重要模型『一線三等角』
      重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
      數(shù)據(jù)庫(kù)
      數(shù)據(jù)庫(kù)
      3D打印中的模型分割與打包
      數(shù)據(jù)庫(kù)
      數(shù)據(jù)庫(kù)
      數(shù)據(jù)庫(kù)
      海南省| 那曲县| 肇州县| 平山县| 报价| 满洲里市| 当涂县| 光山县| 夏河县| 南开区| 同江市| 鄱阳县| 南召县| 略阳县| 金昌市| 岳普湖县| 湟中县| 庄浪县| 新和县| 栾城县| 宜良县| 岳阳市| 万山特区| 大港区| 嘉禾县| 崇左市| 庄浪县| 张家港市| 吐鲁番市| 嘉定区| 吴旗县| 临邑县| 浦城县| 河西区| 阆中市| 闵行区| 淮阳县| 中江县| 留坝县| 罗城| 金溪县|