孫偉 郝愛語(yǔ) 雷暉
摘要:通過(guò)對(duì)某高職院校頂崗實(shí)習(xí)數(shù)據(jù)采集和處理,通過(guò)數(shù)據(jù)分析的方法,獲取頂崗實(shí)習(xí)數(shù)據(jù)中所包含的信息,挖掘數(shù)據(jù)中的規(guī)律,為高職教育實(shí)習(xí)工作提供數(shù)據(jù)支持。
關(guān)鍵詞:高職教育;數(shù)據(jù)挖掘;數(shù)據(jù)分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)05-0108-03
1 引言
近年來(lái),數(shù)據(jù)挖掘與分析技術(shù)日趨成熟,而各個(gè)院校在多年信息化的過(guò)程中都積累了大量的教育數(shù)據(jù),教育數(shù)據(jù)的挖掘與分析成為數(shù)據(jù)分析和挖掘中的一個(gè)熱門研究方向[1]。
為更好地服務(wù)高職院校實(shí)習(xí)工作,在采集某高職院校的頂崗實(shí)習(xí)數(shù)據(jù)后,按照要求對(duì)數(shù)據(jù)進(jìn)行清理,并使用數(shù)據(jù)分析的方法進(jìn)行研究,得到相應(yīng)的信息,最后通過(guò)數(shù)據(jù)直觀、準(zhǔn)確地展示頂崗實(shí)習(xí)的真實(shí)狀態(tài),并分析其中的原因,為研究頂崗實(shí)習(xí)管理工作提供數(shù)據(jù)上的支持和服務(wù)。
2 數(shù)據(jù)采集處理
2.1 數(shù)據(jù)采集
根據(jù)Garcia等的教育數(shù)據(jù)挖掘流程,將教育數(shù)據(jù)挖掘工作分為六大步驟:數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)挖掘、結(jié)果評(píng)估、知識(shí)發(fā)現(xiàn)和反饋實(shí)驗(yàn)教學(xué)[2]。其中第一步數(shù)據(jù)采集是從教學(xué)環(huán)境中采集數(shù)據(jù)的過(guò)程。這個(gè)過(guò)程有時(shí)會(huì)非常的復(fù)雜,某些數(shù)據(jù)需要自己進(jìn)行爬取或采集,這可能涉及程序開發(fā)、數(shù)據(jù)統(tǒng)計(jì),有時(shí)還需要得到信息管理人員支持、高層管理人員授權(quán)等多方面工作。這是教育數(shù)據(jù)挖掘工作的第一步,有時(shí)也是最難的實(shí)施的一步,可能的困難主要是否允許獲取數(shù)據(jù)、數(shù)據(jù)的類型、范圍、特征、隱私問(wèn)題、數(shù)據(jù)集覆蓋面等各方面的問(wèn)題。
為更好地采集頂崗實(shí)習(xí)數(shù)據(jù),本文所研究的頂崗實(shí)習(xí)數(shù)據(jù)集由某高職院校頂崗實(shí)習(xí)管理系統(tǒng)直接導(dǎo)出,數(shù)據(jù)集格式為csv格式,這種方式避免了數(shù)據(jù)采集的難度,簡(jiǎn)化了數(shù)據(jù)采集的流程,同時(shí)所獲得原始數(shù)據(jù)集比較全面和準(zhǔn)確。
2.2 數(shù)據(jù)處理
數(shù)據(jù)處理,即數(shù)據(jù)清理,原始數(shù)據(jù)導(dǎo)出后往往存在個(gè)人隱私、數(shù)據(jù)不完整、數(shù)據(jù)與分析需求不對(duì)接等問(wèn)題,需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)處理[3]。
首先是脫敏處理,諸如個(gè)人私密信息如電話、身份證號(hào)、通訊地址等敏感數(shù)據(jù)不能直接使用,為保護(hù)個(gè)人隱私,需要進(jìn)行模糊化處理或予以刪除。
本數(shù)據(jù)集中隱私字段的具體處理過(guò)程如下:
1)將學(xué)生姓名、學(xué)號(hào)等信息予以刪除,增加一個(gè)序號(hào)予以區(qū)分。
2)將手機(jī)號(hào)碼按號(hào)段推算出用戶手機(jī)運(yùn)營(yíng)商后刪除手機(jī)號(hào)碼字段;
3)通過(guò)家庭住址推算出學(xué)生居住地城市規(guī)模,并根據(jù)我國(guó)當(dāng)前城市二三四線城市劃分標(biāo)準(zhǔn)進(jìn)行等級(jí)劃分,得到相應(yīng)等級(jí)。根據(jù)家庭住址還可以推算出戶籍類型,得出農(nóng)村和城鎮(zhèn)戶口類別,為生源情況進(jìn)行劃分。此外根據(jù)家庭住址還可以推算出居住地域,并按照江蘇省內(nèi)的情況進(jìn)行區(qū)域劃分,同時(shí)反向補(bǔ)充和完善家庭所在地區(qū)。
4)根據(jù)實(shí)習(xí)單位地址推算出實(shí)習(xí)城市規(guī)模、實(shí)習(xí)城市地域、實(shí)習(xí)城市等級(jí)。
其次需要將原始數(shù)據(jù)進(jìn)行變換,以滿足數(shù)據(jù)分析的需要。因數(shù)據(jù)分析需要,需要對(duì)現(xiàn)有的頂崗實(shí)習(xí)數(shù)據(jù)集進(jìn)行如下的預(yù)處理:
1)數(shù)字型標(biāo)識(shí)字段轉(zhuǎn)換:通過(guò)班級(jí)編號(hào)計(jì)算出理工和人文類別。
2)通過(guò)身份證號(hào)碼反向完善性別、籍貫、生日等信息,彌補(bǔ)學(xué)生登記時(shí)缺失的數(shù)據(jù)字段,同時(shí)刪除原始的身份證號(hào)字段。
3)通過(guò)出生日期和入學(xué)時(shí)間推算出學(xué)生年齡長(zhǎng)幼,并劃分為相應(yīng)的等級(jí)。
4)由擔(dān)任的班干職務(wù)推算出是否擔(dān)任班干。
通過(guò)上面的操作,由原始數(shù)據(jù)生成如圖1的待分析數(shù)據(jù)集:
圖1 數(shù)據(jù)處理后的數(shù)據(jù)集
3 數(shù)據(jù)分析
數(shù)據(jù)分析是針對(duì)現(xiàn)有數(shù)據(jù)采用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法,提取數(shù)據(jù)形成有用的信息,并以直觀有效地形成展現(xiàn)出來(lái),形成結(jié)論和概括總結(jié)的過(guò)程。這一過(guò)程是由數(shù)據(jù)轉(zhuǎn)換為信息的過(guò)程。在實(shí)際應(yīng)用中,數(shù)據(jù)分析的結(jié)果往往以直觀的圖表形式展示出來(lái),以幫助人們根據(jù)結(jié)果圖表做出判斷。
3.1 文理科專業(yè)的性別分布情況分析
借助魔鏡等在線數(shù)據(jù)分析工具,生成了如圖2所示的文理科專業(yè)的性別分布情況圖,該圖清楚的展示出了人文專業(yè)與理工專業(yè)的男女生比例,可以非常清楚地看出人文專業(yè)的女生和理工科男生占比非常高,人文專業(yè)的男女比例約為1:2.4,理工科男女生比例約為:2.6:1。這體現(xiàn)出選擇時(shí)學(xué)生性別與專業(yè)之間有非常強(qiáng)的關(guān)聯(lián)。
3.2 班級(jí)年齡與班干之間分布情況
根據(jù)學(xué)生年齡和正常入學(xué)年齡比較,并將是否擔(dān)任班干因素加入,得到圖3所示的關(guān)系圖。
圖3顯示同一班級(jí)中年齡大(超過(guò)正常年齡2歲)和較大(超過(guò)正常年齡1歲)的同學(xué)較多,擔(dān)任班干的情況與年齡分布類似。這說(shuō)明學(xué)生中因各種原因沒能按正常年齡考入大學(xué)的學(xué)生比例較高,約為正常的2倍,而比正常入學(xué)年齡小的學(xué)生比例較低,約為正常年齡的1/7,擔(dān)任班級(jí)干部的比例與年齡分布情況類似,說(shuō)明是否擔(dān)任班干和年齡關(guān)系不大。
3.3 專業(yè)對(duì)口率
專業(yè)對(duì)口率是學(xué)校非常關(guān)心的一個(gè)指標(biāo),它關(guān)系著專業(yè)辦學(xué)方向是否準(zhǔn)備,專業(yè)人才培養(yǎng)方案是否合理以及教學(xué)水平是否到位等眾多因素。為更真實(shí)地反映出各專業(yè)實(shí)習(xí)階段的對(duì)口率,根據(jù)學(xué)生反饋,將其中的數(shù)據(jù)提取并分析,得到如圖4所示的專業(yè)對(duì)口率:
3.4 實(shí)習(xí)去向
為更方便地開展實(shí)習(xí)就業(yè)指導(dǎo)工作,學(xué)校需要掌握學(xué)生就業(yè)去向,根據(jù)學(xué)生家庭住址和實(shí)習(xí)單位地址,提取并通過(guò)數(shù)據(jù)分類處理,生成如圖5和圖6所示的實(shí)習(xí)去向、實(shí)習(xí)地域變化情況圖。
從圖5和圖6兩張圖可以看出,不少學(xué)生從三線城市進(jìn)入到一二線城市實(shí)習(xí)。為研究得更加細(xì)致,對(duì)學(xué)生原居住城市和實(shí)習(xí)城市進(jìn)行了地域劃分,其中連云港作為學(xué)校所在地,從蘇北五市中單獨(dú)出來(lái),單列為一個(gè)區(qū)域,而根據(jù)傳統(tǒng)分法,將江蘇的南京和鎮(zhèn)江列為一個(gè)區(qū)域,蘇中和蘇南按傳統(tǒng)分法列為兩個(gè)區(qū)域,江蘇以外的區(qū)域按中國(guó)大的地域進(jìn)行劃分。
目前根據(jù)學(xué)生原來(lái)居住的城市和實(shí)習(xí)的具體地域看,該學(xué)校的學(xué)生大量的進(jìn)入到蘇南城市(蘇州、無(wú)錫、常州)實(shí)習(xí),這些城市對(duì)學(xué)生的吸引力非常強(qiáng),這與江蘇大力支持蘇南發(fā)展,蘇南城市經(jīng)濟(jì)相對(duì)發(fā)達(dá)、企業(yè)眾多、就業(yè)機(jī)會(huì)多、發(fā)展機(jī)遇多、收入相對(duì)較高等因素有關(guān)。對(duì)學(xué)生吸引力較大的其他地區(qū)是華東(在此主要指上海和杭州)、連云港、南京、鎮(zhèn)江等,除連云港是學(xué)校所在城市外,其他地區(qū)也是經(jīng)濟(jì)較為發(fā)達(dá)的地區(qū),對(duì)年輕人吸引力非常大。年輕人才的不斷流入,將會(huì)提高這些經(jīng)濟(jì)發(fā)達(dá)地區(qū)勞動(dòng)力素質(zhì)、加大就業(yè)競(jìng)爭(zhēng)壓力、增加流動(dòng)人口管理成本。
與此相對(duì)應(yīng)的是徐州、淮安、鹽城、宿遷及蘇中地區(qū)的學(xué)生則出現(xiàn)大量外流的情況,學(xué)生選擇到外地實(shí)習(xí)與這些城市對(duì)學(xué)生的吸引力下降有關(guān)系。這些城市地處江蘇北部,不是江蘇的發(fā)展重點(diǎn),當(dāng)?shù)亟?jīng)濟(jì)相對(duì)落后、薪資收入相對(duì)較低,就業(yè)機(jī)會(huì)少、發(fā)展?jié)摿τ邢?,大量學(xué)生在實(shí)習(xí)時(shí)不愿意回到家鄉(xiāng)工作,而是選擇到蘇南、南京、上海等機(jī)會(huì)更多的發(fā)達(dá)地區(qū)進(jìn)行實(shí)習(xí),這大大影響了學(xué)生返鄉(xiāng),在此格外注意的是徐州地區(qū),入學(xué)時(shí)離開徐州的學(xué)生數(shù)量眾多,實(shí)時(shí)人才外流的情況也非常明顯。從長(zhǎng)遠(yuǎn)來(lái)看,這些經(jīng)濟(jì)相對(duì)落后區(qū)域的青年人才將逐漸被蘇南、上海、南京等經(jīng)濟(jì)發(fā)達(dá)地區(qū)吸引走,逐漸會(huì)陷入經(jīng)濟(jì)發(fā)展落后與人才不斷外流的惡性循環(huán),這將制約這些城市的長(zhǎng)遠(yuǎn)發(fā)展,蘇南蘇北的發(fā)展差距會(huì)被逐漸拉大。
4 結(jié)語(yǔ)
根據(jù)所收集的數(shù)據(jù),采用數(shù)據(jù)分析和挖掘的方法進(jìn)行了初步的處理,以直觀的形式展現(xiàn)了數(shù)據(jù)中所包含的信息,為更好地開展實(shí)習(xí)工作提供了數(shù)據(jù)上的支持[4]。未來(lái)的研究在現(xiàn)有基礎(chǔ)之上,還需要在數(shù)據(jù)收集的范圍、數(shù)據(jù)量上加大投入,同時(shí)還需要在數(shù)據(jù)挖掘技術(shù)上進(jìn)一步綜深入,爭(zhēng)取獲取更多的價(jià)值。
參考文獻(xiàn):
[1] 楊現(xiàn)民, 李新,邢蓓蓓.面向智慧教育的教學(xué)大數(shù)據(jù)實(shí)踐框架構(gòu)建與趨勢(shì)分析[J].電化教育研究,2018(10):1-5.
[2] GarciaE,RomeroC,VenturaS,de Castro C.A collaborative educational association ruleminingtool[J].The Internet and HigherEducation,2011,14(2):77-88.
[3] 郭寶軍.高校教育大數(shù)據(jù)的分析挖掘與利用[J].電子技術(shù)與軟件工程,2018(18):165.
[4] 何文珍,蔡躍.基于知識(shí)圖譜的國(guó)外學(xué)習(xí)分析可視化研究[J].中國(guó)成人教育,2018(13):15-21.
【通聯(lián)編輯:代影】