楊琳
摘 要:數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)相關(guān)專(zhuān)業(yè)的專(zhuān)業(yè)核心課程,其內(nèi)容豐富,涉及知識(shí)點(diǎn)多,是一門(mén)交叉性很強(qiáng)的學(xué)科,教學(xué)難度大。結(jié)合高職特點(diǎn),本文從該門(mén)課程教學(xué)模式及課程設(shè)計(jì)兩方面進(jìn)行研究和探索,為數(shù)據(jù)挖掘技術(shù)課程的教學(xué)提供一些參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;PBL;課程設(shè)計(jì);挖掘建模
如今,大數(shù)據(jù)的蓬勃發(fā)展,各行各業(yè)的決策越來(lái)越依靠大數(shù)據(jù)說(shuō)話(huà),傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)已經(jīng)不能滿(mǎn)足現(xiàn)實(shí)需求,數(shù)據(jù)挖掘技術(shù)這一知識(shí)發(fā)現(xiàn)型數(shù)據(jù)技術(shù)日趨成熟。隨著大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)紛紛在各大高職院校中設(shè)置,數(shù)據(jù)挖掘技術(shù)作為專(zhuān)業(yè)核心課程,同時(shí)也是一門(mén)涉及多學(xué)科領(lǐng)域的交叉學(xué)科,課程內(nèi)容豐富,教學(xué)難度較大。隨著數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)挖掘在商務(wù)智能、人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域有著舉足輕重的地位,是一門(mén)面向未來(lái)的課程。通過(guò)本門(mén)課程學(xué)習(xí),可以培養(yǎng)學(xué)生的數(shù)據(jù)思維及應(yīng)用能力,無(wú)論以后從事大數(shù)據(jù)相關(guān)事業(yè),或其他的行業(yè)都可終身受益。面對(duì)本門(mén)課程的復(fù)雜性,怎樣進(jìn)行課程設(shè)計(jì),讓高職學(xué)生得以掌握,是作為教學(xué)工作者一直思考的問(wèn)題,本文從教學(xué)模式及課程設(shè)計(jì)兩方面對(duì)此進(jìn)行探討。
一、選取先進(jìn)的教學(xué)模式
高職大數(shù)據(jù)技術(shù)及應(yīng)用專(zhuān)業(yè)開(kāi)設(shè)的數(shù)據(jù)挖掘技術(shù)課程是一門(mén)基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),兼有大數(shù)據(jù)的數(shù)據(jù)類(lèi)型多、數(shù)據(jù)價(jià)值密度低、處理速度快的特征。同時(shí),數(shù)據(jù)挖掘涉及數(shù)據(jù)庫(kù)理論、統(tǒng)計(jì)學(xué)等數(shù)學(xué)知識(shí)、編程算法、編程工具等相關(guān)學(xué)科,有范圍廣,交叉性強(qiáng),難度大的特點(diǎn)。高職生的數(shù)學(xué)、編程算法理論基礎(chǔ)較為薄弱,用傳統(tǒng)的教學(xué)模式來(lái)進(jìn)行教學(xué)對(duì)該門(mén)課程的教學(xué)是不夠的,選取一個(gè)合適的教學(xué)模式來(lái)優(yōu)化教學(xué)尤為重要。
數(shù)據(jù)挖掘過(guò)程主要有:確定挖掘目標(biāo)——數(shù)據(jù)取樣——數(shù)據(jù)探索——數(shù)據(jù)預(yù)處理——挖掘建?!P驮u(píng)價(jià)六個(gè)步驟。具體實(shí)施過(guò)程中很難單純用理論描述,通常會(huì)引入案例來(lái)實(shí)現(xiàn)這一過(guò)程。通過(guò)各種教學(xué)模式的綜合比較發(fā)現(xiàn), PBL教學(xué)模式非常適合數(shù)據(jù)挖掘技術(shù)這門(mén)課程。
PBL教學(xué)模式是問(wèn)題驅(qū)動(dòng)型教學(xué)模式,以問(wèn)題為學(xué)習(xí)的起點(diǎn),圍繞著專(zhuān)業(yè)領(lǐng)域可能遇到的真實(shí)案例進(jìn)行學(xué)習(xí),整個(gè)過(guò)程以學(xué)生為中心,教師更多是擔(dān)任認(rèn)知指導(dǎo),每個(gè)課程單元即問(wèn)題結(jié)束后要進(jìn)行評(píng)價(jià)。這一過(guò)程和數(shù)據(jù)挖掘過(guò)程不謀而合。
二、基于PBL教學(xué)模式進(jìn)行課程設(shè)計(jì)
數(shù)據(jù)挖掘技術(shù)這一門(mén)課程主要分為理論教學(xué)和實(shí)踐操作兩個(gè)部分,本文主要從理論教學(xué)這一部分入手。在教學(xué)過(guò)程中,為了避免過(guò)程的交叉重復(fù),理論教學(xué)主要選取一個(gè)項(xiàng)目貫穿教學(xué)全過(guò)程,實(shí)踐操作項(xiàng)目和理論教學(xué)同步,由淺入深,便于學(xué)生理解掌握。這就要求理論教學(xué)引入的案例具有廣泛性,能夠覆蓋到全部知識(shí)點(diǎn)。在此,本文以連鎖餐飲為案例,作一個(gè)說(shuō)明引導(dǎo)。
與此同時(shí),數(shù)據(jù)挖掘技術(shù)在高職課程中開(kāi)設(shè),主要特點(diǎn)在于應(yīng)用,必須要掌握一門(mén)數(shù)據(jù)挖掘工具,常用的工具有SPSS、R語(yǔ)言,Python語(yǔ)言等等。鑒于Python語(yǔ)言眾多開(kāi)源庫(kù),如用于數(shù)據(jù)分析的Pandas,用于可視化的Matplotlib,用于數(shù)值計(jì)算的Numpy,用于機(jī)器學(xué)習(xí)的Sklearn等資源豐富,操作簡(jiǎn)單實(shí)用,是目前最主流的數(shù)據(jù)挖掘工具。因此,本門(mén)課程選用Python語(yǔ)言進(jìn)行編程展現(xiàn)。
1、問(wèn)題驅(qū)動(dòng),案例主導(dǎo)
數(shù)據(jù)挖掘的目的是在大量數(shù)據(jù)中提取有用的信息,從而幫助用戶(hù)作決策。針對(duì)案例,如連鎖餐飲進(jìn)行數(shù)據(jù)挖掘應(yīng)用,先找到問(wèn)題點(diǎn),確定挖掘目標(biāo)。真實(shí)情境是連鎖餐飲同質(zhì)化,客戶(hù)流失加速,市場(chǎng)競(jìng)爭(zhēng)大,資源未得到有效合理的應(yīng)用等問(wèn)題。驅(qū)動(dòng)型問(wèn)題主要是通過(guò)數(shù)據(jù)挖掘開(kāi)發(fā)應(yīng)用需求,以解決某連鎖餐飲經(jīng)營(yíng)危機(jī),如:菜單智能推送、客戶(hù)群分類(lèi)、菜品銷(xiāo)售預(yù)測(cè)等。
2、數(shù)據(jù)探索及預(yù)處理
通過(guò)對(duì)原始數(shù)據(jù)取樣,使用Python數(shù)據(jù)分析工具進(jìn)行數(shù)據(jù)探索,對(duì)數(shù)據(jù)質(zhì)量進(jìn)行異常值、缺失值分析,對(duì)數(shù)據(jù)特征進(jìn)行分布、對(duì)比、統(tǒng)計(jì)、周期性、貢獻(xiàn)度、相關(guān)性分析。通過(guò)對(duì)數(shù)據(jù)進(jìn)行探索分析,了解數(shù)據(jù)的規(guī)律和趨勢(shì),為數(shù)據(jù)預(yù)處理環(huán)節(jié)提供支持。
在數(shù)據(jù)挖掘中,由于數(shù)據(jù)量大,價(jià)值密度低,常常存在大量數(shù)據(jù)不完整、不一致、有異常數(shù)據(jù)等情況,將會(huì)嚴(yán)重影響挖掘建模的效率及準(zhǔn)確性,因此數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘中占有極為重要的地位,由于數(shù)據(jù)量大,數(shù)據(jù)預(yù)處理的工作量占比很重,一般在60%左右,屬于數(shù)據(jù)挖掘技術(shù)中的苦力活。一般數(shù)據(jù)預(yù)處理主要由以下四個(gè)部分組成:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約。其中,涉及大量的數(shù)據(jù)知識(shí),在高職學(xué)生中主要以應(yīng)用為主,如數(shù)據(jù)變換中的規(guī)范化,如最小-最大規(guī)范化和零-均值規(guī)范化,教學(xué)過(guò)程中用Python代碼和數(shù)學(xué)公式對(duì)比演示,這樣學(xué)生能夠輕松掌握,不再對(duì)著一個(gè)個(gè)專(zhuān)業(yè)術(shù)語(yǔ)不知所措。
3、挖掘建模,評(píng)價(jià)優(yōu)化
在PBL教學(xué)模式中,提出驅(qū)動(dòng)性問(wèn)題是該模式的關(guān)鍵。在建立數(shù)據(jù)挖掘模型時(shí),問(wèn)題的提出直接影響模型的選擇。以連鎖餐飲為例,在此前通過(guò)數(shù)據(jù)預(yù)處理以后,數(shù)據(jù)符合數(shù)據(jù)建模要求,進(jìn)入建模階段。根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)的形式,可以通過(guò)不同的建模方法獲取不同的信息,幫助企業(yè)作出商業(yè)決策,提升競(jìng)爭(zhēng)力。數(shù)據(jù)挖掘建模主要有:分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、離群點(diǎn)檢測(cè)。教師先簡(jiǎn)單介紹幾種挖掘模型的特征及實(shí)現(xiàn)方法,然后用PBL的問(wèn)題驅(qū)動(dòng)法提出問(wèn)題,引導(dǎo)學(xué)生通過(guò)共同探討分析選擇模型,最后實(shí)現(xiàn)模型構(gòu)建及模型評(píng)價(jià)優(yōu)化。
在此,做簡(jiǎn)單的類(lèi)比,幫助學(xué)生通俗地理解業(yè)務(wù)與挖掘模型的關(guān)系??梢酝ㄟ^(guò)菜單智能推送這一商業(yè)模式,提高點(diǎn)菜效率,提升客戶(hù)體驗(yàn),選擇的關(guān)聯(lián)規(guī)則這一挖掘建模模式可以實(shí)現(xiàn);通過(guò)對(duì)餐飲客戶(hù)消費(fèi)行為的測(cè)量,可以評(píng)判客戶(hù)的價(jià)值,可以選用聚類(lèi)分析這一挖掘建模模式;對(duì)菜品銷(xiāo)售進(jìn)行預(yù)測(cè),選用時(shí)序模式可以解決生產(chǎn)和銷(xiāo)售的匹配度,讓資源優(yōu)化。
不同的商業(yè)決策可以通過(guò)不同的挖掘建模方法解決,選用不同的算法可以得出不同的結(jié)果,如選用LM神經(jīng)網(wǎng)絡(luò)和CART決策樹(shù)兩種算法建立預(yù)測(cè)模型,得到的結(jié)論并不一致,可以通過(guò)調(diào)參優(yōu)化、模型評(píng)價(jià)等方法得到最優(yōu)解。
4、實(shí)踐實(shí)戰(zhàn),總結(jié)提煉
通過(guò)設(shè)置和理論課程同進(jìn)度的實(shí)踐項(xiàng)目,讓學(xué)生學(xué)到的知識(shí)點(diǎn)得以強(qiáng)化,并提高動(dòng)手及編程能力。同時(shí),數(shù)據(jù)挖掘常常應(yīng)用在分析或方案中,用數(shù)據(jù)說(shuō)話(huà)是當(dāng)今決策的重要手段。高職生重操作輕寫(xiě)作很顯然不利于技能提升,所以在提交實(shí)踐成果主要以項(xiàng)目報(bào)告形式提交。除了建模代碼外,還要結(jié)合Python可視化編程,及過(guò)程解析和總結(jié)說(shuō)明等方式展現(xiàn)在項(xiàng)目報(bào)告中,從而鍛煉學(xué)生的綜合素養(yǎng)。
三、結(jié)論
本文主要針對(duì)數(shù)據(jù)挖掘技術(shù)這門(mén)教學(xué)難度大,綜合性強(qiáng)的交叉性課程,在高職中開(kāi)展的教學(xué)方式進(jìn)行探討。使用PBL教學(xué)模式,解決了照搬照抄機(jī)械模仿學(xué)習(xí)方法,通過(guò)問(wèn)題啟發(fā)驅(qū)動(dòng)學(xué)生思考,從而達(dá)到教學(xué)目標(biāo)。
參考文獻(xiàn):
[1] 何鋒; 劉祖根; 余建坤; 余益民. 數(shù)據(jù)挖掘技術(shù)課程中的貫穿式案例教學(xué)設(shè)計(jì) [J]. 科技資訊,2019(10): 169-171
[2] 張艷. 大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J]. 計(jì)算機(jī)時(shí)代,2014(4): 59-61