劉波 李承耕
【摘 要】數(shù)據(jù)挖掘已經(jīng)成為很多應用領域的重要技術。本文分析了本科階段數(shù)據(jù)挖掘課程的特點,闡述了以理論和案例教學相結合的教學方法,以更好地培養(yǎng)應用型人才。
【關鍵詞】數(shù)據(jù)挖掘 案例教學 教學探索
【中圖分類號】G642 【文獻標識碼】A 【文章編號】1674-4810(2015)33-0063-02
我們生活在一個信息爆炸的時代,更具體地說我們生活在一個數(shù)據(jù)爆炸的時代。每天,來自商業(yè)、社會、科學、互聯(lián)網(wǎng)、移動設備等各個領域的數(shù)據(jù)以爆炸的方式增長著。巨大的數(shù)據(jù)中蘊藏著重要的信息和知識,因此我們需要強大和通用的工具,從海量的數(shù)據(jù)中發(fā)現(xiàn)這些有價值的信息,把數(shù)據(jù)轉化為知識,因此導致了數(shù)據(jù)挖掘的誕生。“數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識的過程。數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。”
隨著越來越多的企事業(yè)單位認識到數(shù)據(jù)挖掘的重要性,對數(shù)據(jù)挖掘人才的需要近兩年也呈現(xiàn)快速增長的態(tài)勢,大數(shù)據(jù)分析師更是被媒體稱為“未來最具發(fā)展?jié)摿Φ穆殬I(yè)之一”。因此很多高校開設了數(shù)據(jù)挖掘課程。通過本課程的學習,使學生了解數(shù)據(jù)挖掘技術的整體概貌,了解數(shù)據(jù)挖掘技術的主要應用及當前的研究熱點問題,了解數(shù)據(jù)挖掘技術的發(fā)展方向,掌握最基本的概念、算法原理和技術方法,培養(yǎng)學生應用數(shù)據(jù)挖掘解決實際問題的能力。本文分析了在本科階段開設數(shù)據(jù)挖掘課程的特點,闡述了教學內(nèi)容和教學方法,對數(shù)據(jù)挖掘課程教學進行了新的思考和探索
一 數(shù)據(jù)挖掘課程特點
1.大數(shù)據(jù)背景
“大數(shù)據(jù)”成為近年來比較熱門的詞語,同時也反映數(shù)據(jù)的爆炸式增長給我們帶來的機遇和挑戰(zhàn)。大數(shù)據(jù)在維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結構復雜、類型眾多數(shù)據(jù)構成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應用模式,通過數(shù)據(jù)的整合共享,交叉復用形成的智力資源和知識服務能力。大數(shù)據(jù)的四個特征是:數(shù)據(jù)量浩大;模態(tài)繁多、異構;生成快速;價值巨大?!按髷?shù)據(jù)”分析的需求導致了數(shù)據(jù)挖掘的產(chǎn)生,也同時給數(shù)據(jù)挖掘帶來了巨大的發(fā)展前景。
2.學科發(fā)展快,內(nèi)容豐富
數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代后期,90年代之后開始突飛猛進的發(fā)展,新的和改進的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應用領域逐漸擴大。比如數(shù)據(jù)類型,有流、序列、圖、時間序列、生物序列、空間、音頻、圖像和視頻數(shù)據(jù)等。數(shù)據(jù)挖掘的模型和算法豐富,比如關聯(lián)規(guī)則的挖掘有Apriori算法,分類規(guī)則的挖掘有決策樹、神經(jīng)元網(wǎng)絡、樸素貝葉斯、支持向量機等,聚類規(guī)則挖掘,時間序列挖掘等。
3.學科交叉,難度大
數(shù)據(jù)挖掘課程作為一門多學科交叉的專業(yè)課程,涉及的學科較多。如統(tǒng)計學,多元統(tǒng)計學,時間序列,統(tǒng)計推斷等;機器學習中的監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習、主動學習等;數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫、計算機軟件編程和開發(fā)、Web搜索引擎。眾多的學科交叉增加了課程的教學難度,因此需要合理地規(guī)劃課程內(nèi)容和重點,循序漸進地展開教學內(nèi)容。
二 教學探索
1.課程內(nèi)容體系
數(shù)據(jù)挖掘是一門多學科交叉的前沿學科,它結合了數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、知識系統(tǒng)、信息檢索、高性能計算和可視化等多問學科的知識。然而在目前的大學課程體系中,很難在有限的時間內(nèi)開設這些課程。
————————————————————————
* 韓山師范學院2014年校級優(yōu)質網(wǎng)絡課程——數(shù)學模型資助項目,通訊作者:李承耕
特別是對于數(shù)學與統(tǒng)計學院的學生,數(shù)學基礎理論比較好,但是在數(shù)據(jù)庫技術、計算機軟件算法和編程方面比較薄弱,大部分的同學沒有編程經(jīng)驗和數(shù)據(jù)處理分析能力。針對這些問題,我們數(shù)據(jù)挖掘課程的授課對象為大三或大四應用型專業(yè)的學生,并在前期課程中開設數(shù)學分析、高等代數(shù)、概率與統(tǒng)計、多元統(tǒng)計學等數(shù)學類課程,同時開設c語言、java語言、數(shù)值分析、數(shù)據(jù)庫原理等計算機課程,這些課程的開設為數(shù)據(jù)挖掘授課打下了必要的理論基礎。
數(shù)據(jù)挖掘的內(nèi)容豐富,包含的知識點很多,我們構建了課程的核心知識結構。核心知識為三部分:(1)數(shù)據(jù)預處理,主要任務包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)規(guī)約;(2)數(shù)據(jù)倉庫,主要包括數(shù)據(jù)倉庫的基本概念,數(shù)據(jù)立方體,數(shù)據(jù)立方體的設計與實現(xiàn);(3)數(shù)據(jù)挖掘,主要包括數(shù)據(jù)挖掘的基本流程,數(shù)據(jù)挖掘的主要算法,數(shù)據(jù)挖掘的常用工具及數(shù)據(jù)挖掘的應用實例。考慮到數(shù)學與統(tǒng)計學院學生的特點和教學課時的限制,教學重點為數(shù)據(jù)預處理、數(shù)據(jù)倉庫的基本概念、數(shù)據(jù)挖掘的主要模型三個方面,特別是數(shù)據(jù)挖掘的模型是重點講授的內(nèi)容。由于數(shù)據(jù)挖掘的模型和算法非常多,我們采用首先講解數(shù)據(jù)挖掘的基本流程,然后重點講解數(shù)據(jù)挖掘中關聯(lián)分析、分類、聚類三個方面的模型。
我們采用理論講解、實驗操作、模型應用三個步驟來講解每個模型。理論講解使學生掌握數(shù)據(jù)挖掘模型的基本理論和算法流程。在實驗操作階段,學生要親手實現(xiàn)模型的基本算法,我們使用的編程語言是python,通過算法的實現(xiàn),鞏固和加深學生對模型的理解。模型應用步驟要求學生綜合應用所學的數(shù)據(jù)挖掘模型知識,選擇一個應用領域,應用自己學習的算法解決這個實際問題,并按照數(shù)據(jù)挖掘的流程完成實驗報告。實驗報告要求按照數(shù)據(jù)說明、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示等幾個部分完成,使學生掌握數(shù)據(jù)挖掘的全過程,充分認識數(shù)據(jù)挖掘各個階段要完成的工作。通過這三個階段的學習和實踐,學生基本掌握了數(shù)據(jù)挖掘的算法并具備了基本的模型應用能力。
2.以應用為背景,用案例教學方式組織教學
案例教學法是教師以具有鮮明代表性的案例為學生創(chuàng)設問題情境,引導學生通過對案例進行分析討論,在情境中掌握理論知識并總結規(guī)律,創(chuàng)造性地將知識與實踐相結合,找到更多的實際生活范例或提出解決實際問題的思路與方法。數(shù)據(jù)挖掘本身就是一門應用性很強的學科,課程內(nèi)容非常適合進行案例教學。
數(shù)據(jù)挖掘課程主要針對數(shù)學與統(tǒng)計學院應用型本科專業(yè)開設,考慮到學生就業(yè)和當前市場需求,以及課程本身實踐性強的特點,在教學過程中注重理論結合實踐,培養(yǎng)學生解決實際問題的能力。因此,在向學生介紹目前常用的數(shù)據(jù)挖掘基本模型的基礎上,結合市場需求,以實例為切入點,采用案例教學的方式組織教學。案例的來源豐富,有醫(yī)療、商業(yè)、航空、環(huán)保等眾多領域,案例全部來自于真實的數(shù)據(jù)挖掘項目,每個案例有背景與挖掘目標、數(shù)據(jù)預處理、構建模型、模型評價、上機實驗幾個部分組成。通過講解真實案例,讓學生了解數(shù)據(jù)挖掘的算法在實際中是如何應用的,培養(yǎng)學生應用數(shù)據(jù)挖掘的思想,使學生對數(shù)據(jù)挖掘有了感性認識,激發(fā)其學習興趣。具體采用的案例如下表所示。
三 結束語
數(shù)據(jù)挖掘是一門多學科交叉的應用型學科,在數(shù)學與統(tǒng)計學院開設數(shù)據(jù)挖掘課程有現(xiàn)實意義,同時對教師和學生也是一個挑戰(zhàn)。因此通過將理論教學和實踐相結合,使用案例教學的方式組織教學,激發(fā)學生的學習興趣,提高課堂教學效率,增強學生實踐能力,培養(yǎng)學生應用數(shù)據(jù)挖掘的基本方法解決實際問題的能力。同時,數(shù)據(jù)挖掘也是一個快速發(fā)展的學科,因此也要不斷更新教學案例,不斷學習和總結,使教學更加完善合理。
參考文獻
[1]〔美〕Jiawei Han、Micheline Kamber、Jian Pei等.數(shù)據(jù)挖掘概念與技術(第3版)(范明、孟小峰譯)[M].北京:機械工業(yè)出版社,2012
[2]張良均等.MATLAB數(shù)據(jù)分析與挖掘實戰(zhàn)[M].北京:機械工業(yè)出版,2015
[3]譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013
[4]〔美〕Pang-Ning Tan、Michael Steinbach、Vipin Kumar.數(shù)據(jù)挖掘導論(范明等譯)[M].北京:人民郵電出版社,2006
[5]〔美〕Peter Harrington.機器學習實戰(zhàn)(李銳、李鵬、曲亞東等譯)[M].北京:人民郵電出版社,2013
[6]王青梅、趙革.國內(nèi)外案例教學法研究綜述[J].寧波大學學報(教育科學版),2009(3):7~11
〔責任編輯:林勁、李婷婷〕