陳國彬
摘 要:數(shù)據(jù)挖掘與分析是近幾年本科專業(yè)中,成為新工科的強(qiáng)勢(shì)專業(yè)。能夠引導(dǎo)很多專業(yè)建設(shè)與之交叉應(yīng)用,具有很大的發(fā)展空間和應(yīng)用前景。在本科教學(xué)中,數(shù)據(jù)挖掘與分析知識(shí)體系結(jié)構(gòu)與人才培養(yǎng)的目標(biāo)要一致,特別是面向企業(yè)中應(yīng)用,能夠適應(yīng)企業(yè)的用人需求。這樣才能培養(yǎng)出適應(yīng)新工科的學(xué)生培養(yǎng)目標(biāo),實(shí)現(xiàn)對(duì)現(xiàn)代企業(yè)的人才需求高度吻合。
關(guān)鍵詞:數(shù)據(jù)挖掘與分析;新工科;交叉應(yīng)用;本科教學(xué)
1、引言
隨著國家人才政策調(diào)整和國家經(jīng)濟(jì)發(fā)展轉(zhuǎn)型,對(duì)生產(chǎn)技術(shù)提出更高的要求。人才培養(yǎng)是大學(xué)教育的重要環(huán)節(jié),能夠培養(yǎng)出適應(yīng)我國現(xiàn)階段的人才是實(shí)現(xiàn)我國家經(jīng)濟(jì)發(fā)展的重要保障。然而現(xiàn)階段本科高等學(xué)校對(duì)數(shù)據(jù)挖掘與分析課程體系建設(shè)不足,存在知識(shí)點(diǎn)過舊,傳統(tǒng)的體系結(jié)構(gòu)已經(jīng)不適應(yīng)現(xiàn)在科學(xué)等問題。要對(duì)數(shù)據(jù)挖掘與分析課程進(jìn)行相關(guān)改革和應(yīng)用,文獻(xiàn)[1]從培養(yǎng)數(shù)據(jù)意識(shí)、加強(qiáng)理論體系、創(chuàng)新教學(xué)方法和深入科學(xué)研究等4個(gè)方面來探索如何設(shè)計(jì)高校數(shù)據(jù)挖掘課程,以解決大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘課程因抽象而帶來的問題;文獻(xiàn)[2]針對(duì)大數(shù)據(jù)的特點(diǎn),以構(gòu)建課程核心知識(shí)體系為主題,采用案例教學(xué)法,改革傳統(tǒng)的教學(xué)評(píng)價(jià)方式,理論結(jié)合實(shí)踐進(jìn)行研究生數(shù)據(jù)挖掘課程教學(xué)創(chuàng)新嘗試,教學(xué)達(dá)到了預(yù)期效果,受到學(xué)生好評(píng);文獻(xiàn)[3]結(jié)合大數(shù)據(jù)的特點(diǎn),對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)存儲(chǔ)與挖掘算法的教學(xué)改革進(jìn)行分析,對(duì)后續(xù)研究提供了參考;文獻(xiàn)[4]對(duì)數(shù)據(jù)挖掘課程的特點(diǎn)和應(yīng)用領(lǐng)域、數(shù)據(jù)預(yù)處理方法和關(guān)鍵的四項(xiàng)技術(shù)、Web 挖掘與個(gè)性化推薦以及算法實(shí)現(xiàn)及應(yīng)用上做了分析,對(duì)應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程做了嘗試;文獻(xiàn)[5]提出通過建設(shè)開放數(shù)據(jù)挖掘?qū)嵺`教學(xué)資源庫來提升教學(xué)效果。
2、課程體系存在的問題
2.1 知識(shí)點(diǎn)過舊
很多知識(shí)都是對(duì)傳統(tǒng)的一些基本算法和結(jié)構(gòu)進(jìn)行講解,知識(shí)點(diǎn)基本是采用10年左右知識(shí)點(diǎn),從理論創(chuàng)新性來講已經(jīng)失去了價(jià)值。從課程體系上分析,課程采用的知識(shí)結(jié)構(gòu)大概如下:認(rèn)識(shí)數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫、挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性、分類與預(yù)測、聚類分析、離群點(diǎn)檢測等知識(shí)點(diǎn)。這些知識(shí)點(diǎn)采用很強(qiáng)的理論方法與形式化方法進(jìn)行理論推導(dǎo)與證明。
2.2 課程體系結(jié)構(gòu)存在的問題
傳統(tǒng)課程體系上采用不同知識(shí)的融于整課程教學(xué)體系,而后面幾個(gè)章節(jié)中,例如:分類與預(yù)測、聚類分析等兩個(gè)知識(shí)講解中,會(huì)使很多同學(xué)感覺到在大量的數(shù)據(jù)面前,不知道如何運(yùn)用這些知識(shí)點(diǎn)進(jìn)行運(yùn)用。課程體系上存在不足,對(duì)運(yùn)用知識(shí)點(diǎn)不能夠正確的應(yīng)用。要能課程體系進(jìn)行統(tǒng)一規(guī)劃,能夠把知識(shí)一環(huán)扣一環(huán)地進(jìn)行講解。從同一個(gè)數(shù)據(jù)采用不同方法得到不同結(jié)果,來分析這些理論的真正意義。
2.3 實(shí)踐性不強(qiáng)
這些知識(shí)點(diǎn)都是注重理論上講解,從公式推導(dǎo)一步一步實(shí)現(xiàn)最終的結(jié)果。然而,如何采用計(jì)算機(jī)能夠操作語言來進(jìn)行運(yùn)用,存在較大的差異,采用什么語言和算法對(duì)結(jié)果都存在差異。對(duì)于課程中基本無可操作性代碼,對(duì)實(shí)現(xiàn)過程不注重算法實(shí)現(xiàn)。
2.4 課程與其它課程交叉應(yīng)用不足
數(shù)據(jù)挖掘與分析一般是針對(duì)其它領(lǐng)域中的應(yīng)用研究,一般能夠服務(wù)其它行業(yè)。它實(shí)際是一個(gè)實(shí)踐工具,對(duì)其它課程或?qū)I(yè)進(jìn)行有效地結(jié)合,能夠起解決其它專業(yè)的很多實(shí)際應(yīng)用問題。然而,課程體系中并沒有用足夠的章節(jié)來對(duì)專業(yè)交叉應(yīng)用進(jìn)行講解,而是一直講知識(shí)點(diǎn)本身的理論來源與證明過程。
3 數(shù)據(jù)挖掘課程體系幾點(diǎn)建議
3.1 知識(shí)進(jìn)行實(shí)時(shí)更新
數(shù)據(jù)挖掘知識(shí)除了對(duì)分類與預(yù)測、聚類分析、關(guān)聯(lián)和相關(guān)性等知識(shí)講解外,能夠注重?cái)?shù)據(jù)處理過程。在不同教學(xué)過程中,對(duì)教學(xué)內(nèi)容注重實(shí)踐性和現(xiàn)在主流技術(shù)講解。對(duì)其它知識(shí)點(diǎn)要進(jìn)行補(bǔ)充:回歸分析、數(shù)據(jù)挖掘工具、知識(shí)發(fā)現(xiàn)過程、中文文本挖掘、Web挖掘等知識(shí)點(diǎn)進(jìn)行學(xué)習(xí)。
3.2 運(yùn)用語言進(jìn)行實(shí)踐
數(shù)據(jù)挖掘課程是理論和實(shí)踐性都比較強(qiáng)的課程,能夠運(yùn)用計(jì)算機(jī)語言實(shí)現(xiàn)各類數(shù)據(jù)算法進(jìn)行實(shí)現(xiàn)。目前比較理想的語言Python,能夠提供各種算法的包,不斷更新和下載等服務(wù)。
3.3 教學(xué)實(shí)踐內(nèi)容增強(qiáng)
對(duì)于課程中存在大量的理論知識(shí)點(diǎn),很多都沒有通過實(shí)踐形式來實(shí)現(xiàn)知識(shí)點(diǎn)的應(yīng)用價(jià)值,為了能夠?qū)崿F(xiàn)應(yīng)用于本科教學(xué)中實(shí)踐內(nèi)容,本論文提出對(duì)以下知識(shí)點(diǎn)內(nèi)容進(jìn)行實(shí)踐教學(xué),其內(nèi)容如下表所示:
知識(shí)點(diǎn) 實(shí)踐內(nèi)容
分類 ID3判斷性別、神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)判斷葡萄酒偽劣品,基于分類技術(shù)對(duì)某零售商產(chǎn)品精準(zhǔn)廣告投放營銷,采用樸素貝葉斯分類模型和KNN分類模型、決策樹分類、神經(jīng)網(wǎng)絡(luò)分類幾種分類算法在同一組數(shù)據(jù)進(jìn)行實(shí)現(xiàn),分別體會(huì)差異性。
回歸分析 多元線性回歸實(shí)踐、邏輯回歸模型實(shí)踐、基于線性回歸技術(shù)預(yù)測某社區(qū)新客戶的熱燃油用量、基于邏輯回歸技術(shù)預(yù)測心臟病二次發(fā)作率。
聚類分析 k-means實(shí)踐,基于聚類分析方法的患冠心病率狀況實(shí)踐。
文本挖掘 中文文本挖掘?qū)嵺`、基于文本挖掘技術(shù)對(duì)垃圾短信、郵件精準(zhǔn)檢測、基于協(xié)同過濾算法的電影推薦。
上述知識(shí)點(diǎn)的實(shí)踐,都是對(duì)算法設(shè)計(jì)和程序設(shè)計(jì)要求比較高,通過這種實(shí)踐教學(xué),能夠大大提高學(xué)生實(shí)踐應(yīng)用能力和技術(shù)水平。
4 結(jié)論
本科教學(xué)中,在數(shù)據(jù)挖掘與分析課程建設(shè)中存在很多問題,通過相關(guān)問題的深入解讀和調(diào)整,能夠把學(xué)生的實(shí)踐應(yīng)用能力提高,再是解決學(xué)生與企業(yè)之間的障礙。讓整個(gè)課程體系得到一個(gè)正常地發(fā)展,也能面向現(xiàn)代技術(shù)進(jìn)步帶來的挑戰(zhàn)。
參考文獻(xiàn)
[1] 李海林. 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J]. 計(jì)算機(jī)時(shí)代, 2014(2): 54-55.
[2] 張艷. 大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J]. 計(jì)算機(jī)時(shí)代, 2014(4): 59-61.
[3] 黃艷梅. 大數(shù)據(jù)存儲(chǔ)與挖掘算法的教學(xué)改革分析[J]. 電腦迷, 2016(11): 69-69.
[4] 徐金寶. 對(duì)應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J]. 計(jì)算機(jī)教育; 2007(14): 27-29.
[5] 黃嵐. 數(shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫建設(shè)[J]. 計(jì)算機(jī)教育, 2014(12): 89-92.