賈立秀 林忠 韓磊
摘? 要:隨著大數(shù)據(jù)和云計算等新興技術的發(fā)展,數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)應運而生。本文根據(jù)應用型本科人才培養(yǎng)的特點和要求,結合筆者開設的數(shù)據(jù)清洗技術課程的經驗,初步探討了該課程的教學目的、教學內容和考核方法等課程教學設計問題?,F(xiàn)階段開設的數(shù)據(jù)清洗技術課程重點培養(yǎng)學生掌握專業(yè)基礎理論知識和提高工程實踐能力,凸顯其專業(yè)核心類課程的地位,注重與大數(shù)據(jù)人才需求的接軌。
關鍵詞:數(shù)據(jù)科學? 大數(shù)據(jù)技術? 數(shù)據(jù)清洗技術? 教學初探
中圖分類號:TP311.13-4;G642 文獻標識碼:A 文章編號:1674-098X(2021)07(a)-129-03
On the Teaching of Data Cleaning Technology for Big Data Specialty
JIA Lixiu*? LIN Zhong? HAN Lei
(School of Computer Engineering, Nanjing Institute of Technology, Nanjing, Jiangsu Province, 211167 China)
Abstract: With the development of emerging technologies such as big data and cloud computing, majors in data science and big data emerged. According to the characteristics and requirements of application-oriented undergraduate talent training, the author combines her own experience in Data Cleaning Technology course to preliminarily discuss the course teaching design issues such as the course's teaching purpose, teaching content and assessment methods. Data Cleaning Technology course offered at this stage focuses on cultivating students to master basic professional theoretical knowledge and improve engineering practice capabilities, highlighting its status as core professional courses, and focusing on the integration of big data talent needs.
Key Words: Data science; Big data technology; Data cleaning technique; Teaching exploration
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)即是最寶貴的“石油資源”,具有國家戰(zhàn)略意義[1],數(shù)據(jù)質量的重要性日益顯著。大數(shù)據(jù)具有規(guī)模性、高速性、多樣性和價值稀疏性等時代特征,其數(shù)據(jù)質量問題尤為突出。數(shù)據(jù)清洗是提高數(shù)據(jù)質量的重要技術,保障大數(shù)據(jù)的可用性。在很多大數(shù)據(jù)項目中,數(shù)據(jù)清洗工作在開發(fā)時間和預算方面占30%~80%[2,3]?,F(xiàn)實世界中“臟”數(shù)據(jù)無處不在,數(shù)據(jù)不完整、不一致或不正確會嚴重影響數(shù)據(jù)分析和挖掘的結果,從而產生消極的作用[4]。數(shù)據(jù)清洗技術是一門活躍的學科,在數(shù)據(jù)管理和數(shù)據(jù)分析的歷史上發(fā)揮了重要作用,并且仍在快速發(fā)展。此外,數(shù)據(jù)清洗被認為是大數(shù)據(jù)時代的主要挑戰(zhàn),因為在許多應用中,數(shù)據(jù)的體積、速度和多樣性不斷增加[5]。
數(shù)據(jù)清洗方面的研究最早出現(xiàn)在美國[6],“臟”數(shù)據(jù)每年導致大約14%的美國醫(yī)療支出被浪費,每年讓美國經濟損失3萬億美元以上。2012年,英國一次性投入1.8億英鎊用于大數(shù)據(jù)領域的科研與創(chuàng)新,并將大數(shù)據(jù)作為八大前瞻性技術領域之首。2015—2016年QS世界排名前50的大學中有17所大學開設數(shù)據(jù)科學相關碩士培養(yǎng)計劃,其中10所在美國,6所在英國,1所在新加坡[7]。2013年,韓國多部門聯(lián)合發(fā)布“大數(shù)據(jù)產業(yè)發(fā)展戰(zhàn)略”,于2015年初,給出全球進入大數(shù)據(jù)2.0時代的重大判斷。2013年6月,日本公布了新IT戰(zhàn)略——《創(chuàng)新最尖端IT國家宣言》,全面闡述了2013—2020年以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略。2017年,我國工業(yè)和信息化部印發(fā)了《大數(shù)據(jù)產業(yè)發(fā)展規(guī)劃》,全面部署“十三五”時期大數(shù)據(jù)產業(yè)發(fā)展工作。2016年,教育部批準北京大學、中南大學及對外經貿大學開設數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè),2018年增至283所[8]。數(shù)據(jù)科學與大數(shù)據(jù)技術是一門新興學科專業(yè),其課程體系相關建設尚在發(fā)展與完善中,具有獨立性、交叉性、實踐性和系統(tǒng)性等特點[9]。
本文以南京工程學院2018級數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)為例,從教學目的、教學內容和考核方法等方面初探應用型本科課程《數(shù)據(jù)清洗技術》教學,以學生為主體,不斷激發(fā)學生的學習熱情和學習主動性。
1? 教學目的
從數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)人才培養(yǎng)方案可以看出,數(shù)據(jù)清洗技術課程的教學重點應放在讓學生掌握如何使用數(shù)據(jù)清洗技術解決特定業(yè)務領域的問題,在完成本課程學習后能夠熟練地應用數(shù)據(jù)清洗技術解決企業(yè)中的實際工程問題。作為大數(shù)據(jù)專業(yè)的專業(yè)核心類課程,需要講解數(shù)據(jù)清洗的理論、方法、流程、工具及技術等內容,為學生進一步學習數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等課程奠定基礎。具體而言,本課程的教學目的主要包括以下幾點
(1)理解數(shù)據(jù)清洗的理論、方法、流程、工具及技術。
(2)掌握數(shù)據(jù)質量的評價指標和問題分類。
(3)掌握ETL的關鍵技術和常見工具的基本功能。
(4)掌握數(shù)據(jù)去重、缺失值處理以及異常值處理的方法。
(5)熟悉多數(shù)據(jù)源的合并,掌握不一致和數(shù)據(jù)粒度的轉換及數(shù)據(jù)的合計處理。
(6)提高使用數(shù)據(jù)清洗技術解決實際問題的能力和動手實踐能力以及學習數(shù)據(jù)科學相關知識的興趣。
眾所周知,興趣是最好的老師,培養(yǎng)學生的學習興趣和學習信心是本課程教學的最基本的目的。此外,學生對先修基礎課程,如概率論與數(shù)理統(tǒng)計、機器學習、Python、R語言、MySQL、數(shù)據(jù)采集技術及數(shù)據(jù)存儲技術等學習積累直接影響該課程的教學效果,該課程教學中盡量保持數(shù)據(jù)科學基礎知識在廣度上和數(shù)據(jù)清洗技術在深度上的平衡。
2? 教學內容
該課程采用理論與實踐相結合的教學方式,理論知識和實際工程問題相互滲透融合。教學內容主要包括理論教學和實踐教學兩部分,選取的教學內容主要來自《數(shù)據(jù)清洗》(李法平主編)、《數(shù)據(jù)清洗》(黑馬程序員編著)、《大數(shù)據(jù)分析:Python爬蟲、數(shù)據(jù)清洗和數(shù)據(jù)可視化》(黃源、蔣文豪、徐受蓉主編)、《數(shù)據(jù)清洗》(黃源、涂旭東、羅少甫編著)和《大數(shù)據(jù)清洗技術》(王宏志著)等,符合應用型本科數(shù)據(jù)科學與大數(shù)據(jù)專業(yè)人才培養(yǎng)方案的培養(yǎng)目標,主要體現(xiàn)在學習難度適中和課程學時合理。下文將從理論教學和實踐教學兩部分討論教學內容的編排,其中理論教學占32學時,實踐教學占16學時,總共48學時。
2.1 理論教學內容設計
考慮到數(shù)據(jù)清洗理論正在快速發(fā)展,理論教學內容在參考相關書籍的同時,要實時更新解讀國內外最新的經典圖書及重要的學術論文,開闊學術的視野,提高學生學習的興趣和主動性。理論教學內容主要包括以下幾個方面。
(1)數(shù)據(jù)清洗的基本概念和原理,常見數(shù)據(jù)清洗的策略、方法與基本流程,以及數(shù)據(jù)質量的評價指標和問題分類。
(2)Microsoft Excel數(shù)據(jù)清洗基本操作,ETL的概念、體系結構和關鍵技術,ETL的常見工具Kettle、OpenRefine、DataWrangler和Hawk下載安裝、基本概念及基本功能。
(3)使用至少一種軟件工具,如Kettle、Open Refine、Python和R語言等進行數(shù)據(jù)去重、缺失值處理和異常值處理。
(4)使用至少一種軟件工具,如Kettle、Open Refine、Python和R語言等進行多數(shù)據(jù)源的合并、不一致數(shù)據(jù)轉換、數(shù)據(jù)粒度的轉換及數(shù)據(jù)的商務規(guī)則計算。
(5)數(shù)據(jù)的增量加載、全量加載以及MySQL和Oracle的批量加載,數(shù)據(jù)加載異常的處理。
2.2 實踐教學內容設計
實踐教學主要通過機房上機實驗完成,結合實際工程項目問題,精心挑選難度適中的上機實驗題,由淺入深,環(huán)環(huán)相扣,步步推進,進一步加深對理論知識的理解,充分調動學生的學習主動性,并培養(yǎng)學生學習的興趣。實踐教學內容主要包括以下幾個方面。
(1)Microsoft Excel數(shù)據(jù)清洗基本操作。該實驗項目通過企業(yè)招聘職位信息的數(shù)據(jù)集練習使用Microsoft Excel進行數(shù)據(jù)清洗的基本步驟、方法及常見的數(shù)據(jù)清洗函數(shù)。
(2)Kettle軟件數(shù)據(jù)清洗基本概念和基本功能。該實驗項目通過網絡爬蟲獲得的某基金網站的基金名稱和基金代碼信息數(shù)據(jù)集練習使用Kettle軟件進行數(shù)據(jù)重復和錯誤等問題的處理。
(3)OpenRefine、DataWrangler、Hawk軟件數(shù)據(jù)清洗的基本概念和基本功能。該實驗項目通過企業(yè)招聘職位信息的數(shù)據(jù)集練習使用OpenRefine、DataWrangler和Hawk軟件中至少一種進行數(shù)據(jù)重復、缺失、數(shù)據(jù)粒度過大等問題的處理。
(4)使用Kettle、Python、R語言進行數(shù)據(jù)去重、缺失值和異常值處理。該實驗項目通過用戶訪問某網站的數(shù)據(jù)集和某公司就業(yè)人員收入數(shù)據(jù)集等練習使用Kettle、Python與R語言進行數(shù)據(jù)完全去重,不完全去重,刪除缺失值,填充缺失值以及異常值檢測、刪除異常值、修補異常值處理。
(5)使用Kettle、Python、R語言進行數(shù)據(jù)轉換。該實驗項目通過某公司的2個分公司不同城市的銷售數(shù)據(jù)集練習使用Kettle、Python、R語言進行不一致的數(shù)據(jù)轉換、數(shù)據(jù)粒度的轉換及一些商務規(guī)則的計算。
上述實驗內容設計秉承難度適中、切合實際工程問題的原則,不僅使學生深入理解專業(yè)理論知識,還培養(yǎng)了學生利用數(shù)據(jù)清洗技術解決企業(yè)中的實際工程問題的能力。
3? 考核方法
本課程采用傳統(tǒng)的閉卷筆試的考核方式,題型有單項選擇題、填空題、判斷題、簡答題和綜合題等五大類,題型豐富,重點考查了學生對于本課程基本理論知識的掌握程度。平時成績占總成績30%,其中考勤、課堂表現(xiàn)和作業(yè)部分各占5%,上機實驗部分占15%,期末考試成績占總成績的70%。設計合理的考核方案,讓學生重視理論知識和上機實驗操作,其中上機實驗一方面可以通過實驗報告考查學生對理論知識的掌握,實驗報告內容主要包括題目、設計方案、源程序清單、程序運行結果和實驗總結與思考;另一方面可以通過實驗結果考查學生解決實際工程問題的能力,學生根據(jù)具體的實驗要求編寫代碼實現(xiàn)相應的功能,教師對學生編寫的代碼進行提問,要求學生能講解算法設計流程和每句代碼的含義。這樣的考核方法使得學生不僅注重理論知識的學習,更激勵學生認真準備上機實驗,以提高學生解決實際工程問題的能力。
4? 結語
本文探討了應用型本科數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)《數(shù)據(jù)清洗技術》教學的相關問題。從教學目的、教學內容和考核方法等方面做了一定探索,正確認識數(shù)據(jù)清洗技術在大數(shù)據(jù)專業(yè)人才培養(yǎng)方案中的地位,對應用型本科數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)的相關教育工作者或有一定的參考價值。堅持以學生為主體的教學,因材施教,培養(yǎng)學生學習的興趣和信心,以培養(yǎng)高質量的大數(shù)據(jù)人才為目標,是課程今后努力的方向。
參考文獻
[1] 鐘澤靈.大數(shù)據(jù)背景下的政務信息化治理探討[J].中國信息化,2021(3):106-107.
[2] 謝智穎,何原榮,李清泉.基于時空相關性的公交大數(shù)據(jù)清洗[J].計算機工程與應用,2021(4):1-11.
[3] 葉鷗,張璟,李軍懷.中文數(shù)據(jù)清洗研究綜述[J].計算機工程與應用,2012,48(14):121-129.
[4] 郝爽,李國良,馮建華,等.結構化數(shù)據(jù)清洗技術綜述[J].清華大學學報:自然科學版,2018,58(12):1037-1050.
[5] Tang N. Big Data Cleaning[C]//Asia-Pacific Web Conference. Springer,Cham,2014:13-24.
[6] Badia A. Data Cleaning and Pre-processing[M]//SQL for Data Science.Springer,Cham,2020:77-169.
[7] 陳振沖,賀田田.數(shù)據(jù)科學人才的需求與培養(yǎng)[J].大數(shù)據(jù),2016(5):95-106.
[8] 張永亮,劉子昂.大數(shù)據(jù)專業(yè)國內外建設現(xiàn)狀與發(fā)展特征分析[J].科技風,2021(3):125-126.
[9] 賀文武,劉國買.數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)核心課程建設的探索與研究[J].教育評論,2017(11):31-35.