• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      “數(shù)據(jù)挖掘”課程教學探討

      2022-03-19 23:57:43曹楠源許衛(wèi)霞
      教育教學論壇 2022年4期
      關(guān)鍵詞:數(shù)據(jù)挖掘教學設(shè)計課程思政

      曹楠源 許衛(wèi)霞

      [摘 要] “數(shù)據(jù)挖掘”課程是大數(shù)據(jù)相關(guān)專業(yè)的重要專業(yè)課程,通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的價值。該課程采取理論與實踐相結(jié)合的教學模式,在理論教學方面主要講解數(shù)據(jù)挖掘的經(jīng)典算法;在實踐教學方面使用Python編程實現(xiàn)理論部分的經(jīng)典算法,讓學生通過算法的編程進一步掌握算法。按照課程思政改革的要求,在課程設(shè)計中設(shè)置一些以社會實際問題為主題的案例,在提高學生學習興趣的同時引導學生樹立正確的價值觀。對于復雜的、抽象的數(shù)據(jù)挖掘理論算法開設(shè)線上課程,有利于學生回顧重要的、難理解的知識點,幫助學生掌握理論知識。

      [關(guān)鍵詞] 數(shù)據(jù)挖掘;課程思政;教學設(shè)計

      [基金項目] 2020年度上海立信會計金融學院信息管理學院高地大項目“數(shù)值計算微專業(yè)建設(shè)”

      [作者簡介] 曹楠源(1989—),女,江蘇鹽城人,博士,上海立信會計金融學院信息管理學院講師,主要從事數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)研究;許衛(wèi)霞(1988—),女,江蘇南通人,博士,上海立信會計金融學院信息管理學院講師,主要從事數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)研究。

      [中圖分類號] G642.3 [文獻標識碼] A [文章編號] 1674-9324(2022)04-0172-04 [收稿日期] 2021-05-20

      引言

      近年來,人們越來越認識到數(shù)據(jù)的重要性,數(shù)據(jù)也被稱為“未來的石油”。數(shù)據(jù)挖掘可以看作是開采“石油”的工具,幫助人們從海量的數(shù)據(jù)中通過數(shù)據(jù)挖掘算法將隱藏在數(shù)據(jù)中的價值提取出來[1]。數(shù)據(jù)挖掘匯集了統(tǒng)計學、人工智能、機器學習、數(shù)據(jù)庫等諸多學科的知識,主要研究如何從大量、有噪聲、不完全,以及隨機的數(shù)據(jù)中提取隱含的、預(yù)先未知的且有潛在價值的信息[2-6]?!皵?shù)據(jù)挖掘”課程可以促進學生了解大數(shù)據(jù)、用好大數(shù)據(jù),并且善于獲取數(shù)據(jù)、分析數(shù)據(jù)、運用數(shù)據(jù),培養(yǎng)學生正確的世界觀、價值觀、人生觀,提高學生的學習興趣和解決現(xiàn)實問題的能力。

      目前,“數(shù)據(jù)挖掘”采取線下教學模式,使用理論與實踐相結(jié)合的教學方式。數(shù)據(jù)挖掘主要包括問題的定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘,以及結(jié)果評估和展示五個步驟。課程的理論部分主要講解數(shù)據(jù)挖掘的經(jīng)典算法,例如:樸素貝葉斯分類算法、ID3算法、C4.5算法、Apriori算法、FP增長算法、Cart算法、K均值算法等。實踐部分分為三個階段講解:一是使用Python程序進行數(shù)據(jù)的采集及數(shù)據(jù)的預(yù)處理;二是使用Python程序?qū)崿F(xiàn)數(shù)據(jù)挖掘的經(jīng)典算法的代碼實現(xiàn);三是使用Python程序?qū)崿F(xiàn)數(shù)據(jù)挖掘結(jié)果的可視化展現(xiàn)?!皵?shù)據(jù)挖掘”課程中包含了大量復雜、抽象的算法,對學生的數(shù)學功底要求較高。如果學生的數(shù)學功底不是太好,對課程算法的學習會比較吃力,也會失去對“數(shù)據(jù)挖掘”課程學習的興趣。同時,對于“數(shù)據(jù)挖掘”課程中的綜合案例,往往不是一個算法就能分析得到想要的結(jié)果,一般需要循序漸進地使用不同的分析方法、算法來處理數(shù)據(jù),得到結(jié)果。而學生在面對綜合案例時往往沒有清晰的思路,不知道在哪個步驟使用哪種分析方法及算法,因此,如何讓學生不畏懼學習“數(shù)據(jù)挖掘”課程中復雜抽象的算法,如何讓學生更好地掌握理論知識,以及如何讓學生能夠條理清晰地分析綜合案例、使用合適的分析方法和建立適當?shù)哪P?,這些都是我們改進教學設(shè)計的方向。

      本文以課程思政改革為指導思想,以提高學生的學習興趣、增強學生解決現(xiàn)實具體問題的能力為目標,對“數(shù)據(jù)挖掘”課程的教學設(shè)計進行探討,研究如何提升“數(shù)據(jù)挖掘”課程的理論和實踐教學的效果。

      一、課程教學設(shè)計探討

      本節(jié)分別從“數(shù)據(jù)挖掘”的課程目標、課程設(shè)置、課程實驗及課程案例四個方面探討“數(shù)據(jù)挖掘”課程的教學設(shè)計。

      (一)課程目標

      “數(shù)據(jù)挖掘”是大數(shù)據(jù)相關(guān)專業(yè)的重要專業(yè)課,也是一門交叉學科,包含了統(tǒng)計學、人工智能、機器學習、數(shù)據(jù)庫等學科的知識。

      該課程的主要目標是幫助學生從紛繁復雜且參差不齊的信息中發(fā)現(xiàn)有價值的規(guī)律和知識,并將它們提煉出來以幫助科學決策。例如,在零售業(yè)的數(shù)據(jù)倉庫系統(tǒng)中,存儲著海量的零售商和客戶交易的詳細數(shù)據(jù),而我們無法通過人眼直接看出這些大量交易數(shù)據(jù)中的商品是否存在著某些聯(lián)系。1993年,Rakesh Agrawal等人提出了購物籃分析[7],提出了在數(shù)據(jù)倉庫系統(tǒng)所存儲的交易數(shù)據(jù)中的商品存在著某種聯(lián)系——關(guān)聯(lián)關(guān)系[8],通過分析交易數(shù)據(jù)當中的商品集合,可以找到關(guān)聯(lián)算法(計算哪些商品之間存在關(guān)聯(lián)關(guān)系),而商品之間所存在的關(guān)聯(lián)關(guān)系則表示了用戶的購買行為。當零售商分析得到用戶的購買行為后,就可以對商品的庫存量、商品在貨架上的排布等進行統(tǒng)一安排,從而使零售商的競爭力進一步得到提高。沃爾瑪超市的啤酒和尿布的陳列故事是一個經(jīng)典的購物籃分析案例,數(shù)據(jù)挖掘公司NCR Teradata利用數(shù)據(jù)挖掘工具(關(guān)聯(lián)算法)對沃爾瑪超市數(shù)據(jù)倉庫系統(tǒng)中的商品集合進行了分析,意外得出了和尿布一起被人們購買的產(chǎn)品是啤酒的結(jié)論,之后,沃爾瑪超市就在其門店中將尿布和啤酒陳列在一起,這種匪夷所思的陳列卻讓兩種商品的銷售量都得到很大的提升。當今已進入大數(shù)據(jù)時代,各行各業(yè)每天都在產(chǎn)生著大量的數(shù)據(jù),數(shù)據(jù)中可能隱藏著我們所不知道的價值,人的大腦無法從海量的數(shù)據(jù)中把數(shù)據(jù)的價值快速地提取,但借助數(shù)據(jù)挖掘工具,我們可以快速地從數(shù)據(jù)中提煉出數(shù)據(jù)的價值和有益的信息。“數(shù)據(jù)挖掘”課程就是幫助學生認識數(shù)據(jù)的價值,為學生提供將價值從數(shù)據(jù)提取出來的方法,提高學生以后的工作能力。

      通過“數(shù)據(jù)挖掘”課程,學生能夠擁有分析數(shù)據(jù)的能力。“數(shù)據(jù)挖掘”課程中包含很多經(jīng)典的算法,教師除了詳細講解經(jīng)典的算法外,對每個算法會設(shè)置具體的案例,同時設(shè)置綜合案例以使學生鞏固所學。本課程的主要目的是不僅讓學生掌握經(jīng)典的數(shù)據(jù)分析算法,也讓學生學以致用,能夠靈活地運用算法,將算法運用到實際問題中,提高學生解決實際問題的能力。

      (二)課程設(shè)置

      在“數(shù)據(jù)挖掘”教學中,根據(jù)學生的學習反饋,主要有如下兩個問題:一是學習算法難度大?!皵?shù)據(jù)挖掘”課程中包含了支持向量積、邏輯回歸、粗糙集、BP神經(jīng)網(wǎng)路、卷積神經(jīng)網(wǎng)絡(luò)等算法,掌握這些抽象的算法需要學生具有較強的數(shù)學功底和邏輯分析能力,所以,大量抽象的定義、算法,容易讓學生望而生畏,也降低了學生學習的興趣。二是綜合案例分析難度大。在對特定的數(shù)據(jù)挖掘算法而設(shè)定的具體案例進行分析時,學生知道用何種學習算法訓練模型分析數(shù)據(jù);但對于綜合案例,學生的思路是模糊不清的,無法把所學的挖掘算法串聯(lián)起來靈活地使用。在做數(shù)據(jù)的挖掘和分析時,要么不知道選擇何種學習算法,在數(shù)據(jù)挖掘時比較片面,要么在挖掘過程中沒有條理,比較混亂。因此,在課程設(shè)置方面,為了解決以上問題,嘗試下述方法。

      1.在講解難度較大的算法之前,先劃定部分課時來講解相關(guān)的預(yù)備知識,將算法中涉及的數(shù)學等重要知識提取出來,做總結(jié)和歸納,幫助學生理解數(shù)據(jù)挖掘算法的核心思想。

      2.對于抽象的算法,使用學生比較熟悉的案例進行引導,通過展示例子的計算過程,讓學生理解并熟悉算法流程的每一個步驟,掌握算法的核心思想。

      3.利用網(wǎng)絡(luò)資源,建設(shè)“數(shù)據(jù)挖掘”線上課程。梳理“數(shù)據(jù)挖掘”教學內(nèi)容,提煉課程中的知識點,對每一個知識點錄制視頻詳細講解。學生如果對課程中的知識點有疑問,就可以隨時隨地觀看相應(yīng)知識點的講解,掌握課程內(nèi)容。

      4.調(diào)整課程設(shè)置中的理論課時和實踐課時的占比,增加實踐課時,培養(yǎng)學生解決實際問題的能力。對于案例的選擇,不拘泥于每次課所學的算法。挑選綜合案例,將已學的算法進行綜合應(yīng)用,采取教師帶學、學生分組討論等方式進行案例分析,通過實踐使學生更加深入地掌握各個算法,并學會靈活應(yīng)用。

      (三)課程實驗

      “數(shù)據(jù)挖掘”課程中所涉及的知識面廣,知識點抽象,不易理解,邏輯性強。若偏重于理論教學,就會削弱學生動手實踐的能力,特別是在面對綜合案例時,學生將會無從下手,不知道怎樣選擇學習算法、怎么優(yōu)化模型。為增強學生完成挖掘數(shù)據(jù)的能力,本課程嘗試增加實驗的課時量,在每個算法講解完后,給出具體的案例,讓學生通過編程完成數(shù)據(jù)分析,使學生在實踐中體會數(shù)據(jù)挖掘算法在解決現(xiàn)實問題中的魅力。

      本課程對樸素貝葉斯算法、ID3算法、Cart算法、Apriori算法、FP增長算法、K-均值等數(shù)據(jù)挖掘中的經(jīng)典算法展開實驗。通過Python程序設(shè)計語言,實現(xiàn)樣本數(shù)據(jù)的采集、預(yù)處理,以及模型的建模和優(yōu)化。課程實驗過程中所涉及的數(shù)據(jù)數(shù)量為中小規(guī)模,根據(jù)數(shù)據(jù)的數(shù)量,選擇適合的模型。對樣本數(shù)據(jù)進行分析,不同模型所給出的分析結(jié)果的準確率也會存在差異,對比不同模型的分析結(jié)果,幫助學生在以后的數(shù)據(jù)挖掘中能夠選擇更優(yōu)的模型進行數(shù)據(jù)的分析預(yù)測。通過設(shè)置綜合實驗,把已學的算法應(yīng)用到具體的實事案例中,幫助學生掌握數(shù)據(jù)的預(yù)處理、建模、優(yōu)化分析流程,提高學生做數(shù)據(jù)分析的能力。

      課程實驗主要分為三個模塊:一是實現(xiàn)數(shù)據(jù)的采集,數(shù)據(jù)的來源主要是互聯(lián)網(wǎng)。使用Python程序設(shè)計語言編寫爬蟲代碼,從互聯(lián)網(wǎng)上爬取相關(guān)的數(shù)據(jù)。通過具體實驗,讓學生了解爬蟲的概念、常見爬蟲的框架、爬蟲的架構(gòu),以及爬蟲的策略,并初步掌握使用哪些模塊可以對爬取的數(shù)據(jù)進行清洗。同時,設(shè)置實驗,爬取網(wǎng)絡(luò)上的博客文章、豆瓣電影信息、智聯(lián)招聘信息等。二是實現(xiàn)數(shù)據(jù)的預(yù)處理。無論是從互聯(lián)網(wǎng)上,還是從數(shù)據(jù)庫中獲取的數(shù)據(jù),都易出現(xiàn)數(shù)據(jù)異常、數(shù)據(jù)缺失、數(shù)據(jù)輸入錯誤等問題,因此我們需要對數(shù)據(jù)進行預(yù)處理。另外,由于不同的數(shù)據(jù)挖掘算法工具所處理的數(shù)據(jù)特征各不相同,所以要對數(shù)據(jù)特征進行處理,主要通過設(shè)置實驗對數(shù)據(jù)進行特征選擇、特征降維、特征編碼等,使處理后的數(shù)據(jù)特征滿足數(shù)據(jù)挖掘算法工具的要求。三是實現(xiàn)數(shù)據(jù)挖掘的經(jīng)典算法,并實現(xiàn)結(jié)果的可視化呈現(xiàn)。使用Python程序設(shè)計語言,將經(jīng)典算法編寫成代碼,分析相關(guān)數(shù)據(jù);設(shè)置實驗,使用樸素貝葉斯算法對舊金山犯罪分類進行預(yù)測,使用Apriori算法挖掘用戶購買產(chǎn)品的關(guān)聯(lián)性、分析用戶的購買習慣,使用支持向量機(support vector machine,SVM)算法進行人臉識別,使用FP增長(FP Growth)算法從新聞網(wǎng)站中挖掘熱點新聞,使用K近鄰(K Nearest Neighbor,KNN)算法、Cart決策樹分類算法分別對筆跡識別與偷稅漏稅行為進行預(yù)測等。

      (四)課程案例

      以史為鑒,可以知興替。在大數(shù)據(jù)時代,培養(yǎng)學生以數(shù)據(jù)為鑒的觀念,可以改善人們的生活,有助于社會經(jīng)濟的發(fā)展。在課程思政背景下,“數(shù)據(jù)挖掘”課程旨在通過社會案例幫助學生樹立正確的世界觀、價值觀和人生觀,提升學生的工作能力,為社會的發(fā)展貢獻自己的力量。例如,通過吸煙有害健康的案例,提醒學生要有一個良好的生活習慣,并且提高他們對數(shù)據(jù)更深層次的認識。吸煙有害健康是人類的共識,但吸煙行為在社會上卻又是一個很普遍的行為,且一直以來并沒有相關(guān)的研究確切地表明吸煙會使人得絕癥,吸煙和患絕癥之間并不形成因果關(guān)系。曾經(jīng)美國的煙草公司一度被告上法庭,訴訟它生產(chǎn)的煙草有害,然而由于煙草和健康沒有因果關(guān)系,案件最后不了了之。直到20世紀90年代,通過對患絕癥病人的數(shù)據(jù)進行分析挖掘,得出吸煙和患絕癥之間是有關(guān)聯(lián)性的結(jié)論,才使美國煙草公司敗訴,做出了相應(yīng)的賠償。通過具體的社會案例可以培養(yǎng)學生對數(shù)據(jù)的敏感度,培養(yǎng)學生用數(shù)據(jù)說話的觀念,同時也歸正他們的生活習慣。

      課程實驗是為了讓學生理論結(jié)合實踐,深刻地掌握理論算法。課程案例本質(zhì)上是綜合實驗,以具體的社會問題為案例,從互聯(lián)網(wǎng)或業(yè)務(wù)數(shù)據(jù)庫中采集數(shù)據(jù),對數(shù)據(jù)進行探索,分析數(shù)據(jù)的特征,對數(shù)據(jù)進行預(yù)處理,最后建模與評估。

      為提升學生的思想覺悟,樹立正確的“三觀”,做一個誠信的人,擬設(shè)置“信用評分”和“保險欺詐行為挖掘”案例[9]。“信用評分”案例以銀行小額貸款樣本數(shù)據(jù)為本源,將貸款的風險問題轉(zhuǎn)化為數(shù)據(jù)分析問題,根據(jù)客戶的信用行為預(yù)測未來拖欠貸款的可能性?!氨kU欺詐行為挖掘”案例以醫(yī)療保險數(shù)據(jù)為本源,對客戶的交易數(shù)據(jù)做分析,通過統(tǒng)計分析、聚類分析、關(guān)聯(lián)分析等方法將有欺詐特征的樣本數(shù)據(jù)挖掘出來,通過案例讓學生重視個人的信用,做一個誠實守信的人。為培養(yǎng)學生解決實際問題的能力,更好地為社會發(fā)展服務(wù),擬設(shè)置“大數(shù)據(jù)用戶畫像”案例[10],以廣電用戶數(shù)據(jù)為本源,建立聚類分析、關(guān)聯(lián)分析、神經(jīng)網(wǎng)絡(luò)等模型,通過用戶畫像把握客戶特征和行為習慣模式,為用戶提供更好的服務(wù)。

      二、展望

      “數(shù)據(jù)挖掘”是大數(shù)據(jù)專業(yè)的一門重要專業(yè)課,課程目標在于幫助學生在大數(shù)據(jù)時代了解大數(shù)據(jù)、用好大數(shù)據(jù),并能夠善于獲取有用的數(shù)據(jù)、分析數(shù)據(jù)、運用數(shù)據(jù),讓學生有一雙善于發(fā)現(xiàn)數(shù)據(jù)之美的眼睛,為以后參加工作提供助力。在教學設(shè)計中,合理地分配理論課時和實踐課時,通過實踐課程幫助學生更加深刻地理解理論算法。按照課程思政改革的指導思想,增加課程案例,通過具體的案例不僅可以培養(yǎng)學生解決具體問題的能力,也能幫助學生樹立正確的價值觀,為今后社會和經(jīng)濟的發(fā)展做貢獻。

      參考文獻

      [1]林子雨.大數(shù)據(jù)導論——數(shù)據(jù)思維、數(shù)據(jù)能力和數(shù)據(jù)倫理[M].北京:高等教育出版社,2020.

      [2]羅森林,馬俊,潘麗敏.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:電子工業(yè)出版社,2013.

      [3]李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.

      [4]賈俊平,何曉群,金勇進.統(tǒng)計學[M].7版.北京:中國人民大學出版社,2018.

      [5]李長河.人工智能以及應(yīng)用[M].北京:機械工業(yè)出版社,2006.

      [6]周志華.機器學習[M].北京:清華大學出版社,2016.

      [7]AGRAWAL Rakesh, IMIELINSKI Tomasz, SWAMI Arun. Mining Association Rules between Sets of Items in Large Databases[J]. ACM SIGMOD Record, 22 (2): 207-216.

      [8]張維明.數(shù)據(jù)倉庫原理與應(yīng)用[M].北京:電子工業(yè)出版社,2002.

      [9]張大斌.數(shù)據(jù)挖掘與商務(wù)智能實驗教程[M].武漢:華中師范大學出版社,2015.

      [10]張文彤,鐘云飛.IBM SPSS數(shù)據(jù)分析與挖掘?qū)崙?zhàn)案例精粹[M].北京:清華大學出版社,2013.

      Discussion on the Teaching of Data Mining

      CAO Yuan-nan, XU Wei-xia

      (School of Information Management, Shanghai Lixin University of Accounting and Finance, Shanghai 201209, China)

      Abstract: The course of Data Mining is an important professional course for big data related majors. The teaching mode of this course is the combination of classical theory and practice. In theory teaching, it mainly explains the classical algorithms of Data Mining. In practical teaching, Python programming is used to realize the classical algorithm of the theoretical part, so that students can further master the algorithm through algorithm programming. According to the requirements of curriculum ideological and political education, some cases with the theme of social practical problems are set up in the curriculum design to guide students to establish correct values while improving students’ interest in learning. For complex and abstract Data Mining theories and algorithms, setting up online courses is helpful for students to review important and difficult knowledge points and help students master theoretical knowledge.

      Key worlds: Data Mining; curriculum ideological and political education; teaching design

      2992501186279

      猜你喜歡
      數(shù)據(jù)挖掘教學設(shè)計課程思政
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      發(fā)揮專業(yè)特色 實施“課程思政”
      湖南工藝美術(shù)職業(yè)學院湘繡專業(yè)實施課程思政的可行性研究
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      高中數(shù)學一元二次含參不等式的解法探討
      考試周刊(2016年79期)2016-10-13 22:17:05
      “仿真物理實驗室” 在微課制作中的應(yīng)用
      考試周刊(2016年77期)2016-10-09 11:49:00
      翻轉(zhuǎn)課堂在高職公共英語教學中的應(yīng)用現(xiàn)狀分析及改善建議
      考試周刊(2016年76期)2016-10-09 09:18:59
      提高課堂教學有效性的研究
      成才之路(2016年26期)2016-10-08 11:13:47
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      龙南县| 阜城县| 北海市| 绵阳市| 修文县| 池州市| 科尔| 鄂温| 顺义区| 定州市| 大洼县| 巫山县| 杭锦后旗| 南川市| 南丰县| 郎溪县| 岢岚县| 浪卡子县| 类乌齐县| 开阳县| 和平县| 泾源县| 光泽县| 汤原县| 嘉兴市| 东方市| 当雄县| 永和县| 平邑县| 佛坪县| 阿图什市| 银川市| 嘉善县| 桑日县| 黄龙县| 大厂| 巴林右旗| 宽甸| 利川市| 綦江县| 乌什县|