• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      聚類分析數(shù)據(jù)挖掘技術(shù)在成人招生中的應(yīng)用

      2018-11-17 07:10:18傅振南
      福建教育學(xué)院學(xué)報 2018年10期
      關(guān)鍵詞:字段類別數(shù)據(jù)挖掘

      傅振南

      (福建教育學(xué)院,福建 福州 350025)

      大數(shù)據(jù)時代,數(shù)據(jù)挖掘被廣泛應(yīng)用于新零售、金融商業(yè)、科學(xué)研究、數(shù)據(jù)云服務(wù)、高校管理等領(lǐng)域。隨著教育改革的進一步深化,成人高等教育面臨著諸多挑戰(zhàn),在普通高等教育擴招的沖擊下,生源萎縮相當(dāng)嚴(yán)重,競爭日趨白熱化,在招生高校數(shù)量不變而生源急劇減少的情況下,拿出更管用更精準(zhǔn)的招生宣傳方法是制勝的關(guān)鍵點。文章以F院校成人招生錄取數(shù)據(jù)為例,通過聚類分析數(shù)據(jù)挖掘技術(shù)對相關(guān)數(shù)據(jù)進行挖掘分析,為招生宣傳工作提供有力決策支持。

      一、聚類分析數(shù)據(jù)挖掘技術(shù)概述

      1.聚類分析數(shù)據(jù)挖掘技術(shù)

      常用的數(shù)據(jù)挖掘技術(shù)包括:神經(jīng)網(wǎng)絡(luò)、決策樹、聚類分析、統(tǒng)計分析、關(guān)聯(lián)規(guī)則、粗糙集方法、支持向量機、遺傳算法等。數(shù)據(jù)挖掘?qū)嶋H上是挖掘算法的選擇、執(zhí)行階段。文章首先根據(jù)挖掘任務(wù),從常用的技術(shù)中選擇適合數(shù)據(jù)分析提取的聚類分析技術(shù)算法。聚類分析被廣泛應(yīng)用于模式識別、市場研究、數(shù)據(jù)分析等眾多應(yīng)用領(lǐng)域,是數(shù)據(jù)挖掘研究領(lǐng)域一個重要分支。它適合探討樣本數(shù)據(jù)的內(nèi)部關(guān)系,因為每個樣本數(shù)據(jù)的類別都是未知的,它是用一定的關(guān)聯(lián)標(biāo)準(zhǔn)將所提供的樣本數(shù)據(jù)劃分成不同的族,同一族內(nèi)的樣本數(shù)據(jù)相似度較高,相似度用距離作為度量方式,根據(jù)對象的屬性值來進行分析評估。K-Means是典型的基于劃分的一種聚類算法。其中K表示類別數(shù),Means表示均值,因此K-Means不難理解是一種通過均值對數(shù)據(jù)單元進行聚類的算法。下面利用K-means 聚類算法的特性,去分析招生宣傳對象所在單位類型存在不同的特征,并加以分析應(yīng)用。

      2.使用聚類分析數(shù)據(jù)挖掘技術(shù)的主要流程

      做任何工作首先都要確定它的目的任務(wù),數(shù)據(jù)挖掘也不例外,確定任務(wù)后再細分選擇數(shù)據(jù),清洗一些屬性缺失、錯誤數(shù)據(jù)值、違反完整約束規(guī)則的數(shù)據(jù),并搜集遺漏數(shù)據(jù),然后進行數(shù)據(jù)整合,整合完有重復(fù)記錄須清洗去除。接著做數(shù)據(jù)預(yù)處理分析,進一步考證數(shù)據(jù)質(zhì)量,為進一步分析做好準(zhǔn)備,根據(jù)事先確定的分析任務(wù),從準(zhǔn)備好的數(shù)據(jù)中提取與任務(wù)相關(guān)的數(shù)據(jù),并選擇挖掘操作類型。最后將數(shù)據(jù)轉(zhuǎn)換成針對挖掘算法建立的分析模型,這也是數(shù)據(jù)挖掘成功與否的關(guān)鍵。

      二、聚類分析數(shù)據(jù)挖掘過程和分析——以F院校2017年錄取數(shù)據(jù)為例

      1.收集樣本數(shù)據(jù)

      從成人高校招生系統(tǒng)導(dǎo)出F院校2017年19張錄取數(shù)據(jù)表,主要包括考生投檔單表、專業(yè)代碼表、職業(yè)類別表、性別代碼表等。

      2.?dāng)?shù)據(jù)預(yù)處理

      (1)數(shù)據(jù)提取。根據(jù)原先確定的分析目標(biāo)提取出樣本數(shù)據(jù)字段,主要從主表——考生的投檔單表(T_TDD.DBF)中提取分析目標(biāo)相關(guān)的樣本數(shù)據(jù)字段,主要是考生的畢業(yè)學(xué)校、所在單位、從業(yè)類別、性別等。由于數(shù)據(jù)庫設(shè)計的原因,T_TDD.DBF表中有些字段是用代碼表示,無法直接讀取它的真正表達意思,如性別用“0”和“1”代碼表示,民族、政治面貌、招生類別、招生層次、招生專業(yè)等字段也均用數(shù)字代碼標(biāo)記,因此需要先做好這些代碼的轉(zhuǎn)換工作,將其整理成一目了然的標(biāo)識,表達出它的實際意思。轉(zhuǎn)換好相關(guān)樣本數(shù)據(jù)表的格式,將其用SQL Server 2000或ACCESS 2003以及更高版本的數(shù)據(jù)庫操作軟件進行表間的數(shù)據(jù)關(guān)聯(lián)操作,然后通過菜單操作或SQL語句進行連接。

      (2)數(shù)據(jù)清洗。連接整合處理后的考生投檔單表(T_TDD.DBF)由68個字段組成,要進行有效的邏輯轉(zhuǎn)換前需要根據(jù)分析目標(biāo)所需的相關(guān)樣本數(shù)據(jù)字段,可使用可視化分析技術(shù)工具如分布圖、條形圖、直方圖去除對目標(biāo)分析不存在任何意義的字段。比如招生類別字段,99.6%的字段值都為“統(tǒng)一考試”,對目標(biāo)分析結(jié)果無任何意義,如圖1,另如果一個表內(nèi)的字段值超過97%都為“NULL”,該字段對目標(biāo)分析結(jié)果也毫無意義,將這些字段及跟分析結(jié)果不相關(guān)的考生號、準(zhǔn)考證號、政治面貌等字段去除,經(jīng)前后對照考慮,選取考生投檔單表(T_TDD.DBF)中的與任務(wù)挖掘高度關(guān)聯(lián)的教學(xué)站點、畢業(yè)學(xué)校、錄取專業(yè)、職業(yè)類別、性別、成績等6個字段。

      圖1 招生類別字段分布圖

      (3)數(shù)據(jù)邏輯轉(zhuǎn)換。通過這個步驟,將考生投檔單表(T_TDD.DBF)的考生數(shù)據(jù)按歸屬教學(xué)站點進行聚合,根據(jù)以往錄取直觀經(jīng)驗考慮,不同教學(xué)站點分布的專業(yè)不同,增加專業(yè)錄取人數(shù)、錄取平均分等字段信息,整合轉(zhuǎn)換后的探索性數(shù)據(jù)集字段如下:教學(xué)站點、錄取人數(shù)、錄取平均分、人力資源管理人數(shù)、行政管理人數(shù)、學(xué)前教育人數(shù)、會計人數(shù)、工商企業(yè)管理人數(shù)、小學(xué)教育人數(shù)、電子商務(wù)人數(shù)、市場營銷人數(shù)、工程造價人數(shù)、機電一體化技術(shù)人數(shù)、建筑工程技術(shù)人數(shù)、計算機應(yīng)用技術(shù)人數(shù)、電氣自動化技術(shù)人數(shù)、電子信息工程技術(shù)人數(shù)、數(shù)控技術(shù)人數(shù)、各畢業(yè)學(xué)校人數(shù)、各職業(yè)類別人數(shù)。

      (4)數(shù)據(jù)規(guī)范化。不同教學(xué)站點樣本數(shù)據(jù)屬性的度量單位不致相同,特別是職業(yè)類別、投檔成績和專業(yè)人數(shù),采用Max-MAX規(guī)范化方式對此類樣本數(shù)據(jù)集進行線性變換標(biāo)準(zhǔn)化操作,可防止初始值域的屬性權(quán)重兩極化。。

      3.結(jié)果可視化

      K-means聚類算法產(chǎn)生教學(xué)站點探索性數(shù)據(jù)集時,重點要將學(xué)生所在教學(xué)站點分成幾個簇,因為它代表K-means算法中k的確定。本方案采用探索性方法,分別創(chuàng)建了包含4,5,6,7,8,9,10個簇的聚類模型,對結(jié)果進行分析比較,綜合可用性、可解釋性原則,發(fā)現(xiàn)6個簇聚類模型信息提供最多,也相對容易將結(jié)果進行展示。

      為便于對聚類挖掘結(jié)果進行解釋和分析,采用可視化技術(shù)工具條形圖,找出各簇所表示的獨特性質(zhì),比較各簇在不同字段上的分布情況,以便提取有用的信息,共生成10幅條形圖,因為篇幅限制,文章只選取圖2展示聚類1在學(xué)前教育和會計相對于其他聚類的顯著特性,表1顯示了各個聚類簇的特征。

      圖2 聚類1在學(xué)前教育和會計相對于其他聚類的顯著特性展示

      表1 各簇的特征匯總

      三、結(jié)果研究與應(yīng)用

      通過聚類結(jié)果分析得出1-6簇的特征匯總,結(jié)合筆者日常招生宣傳的經(jīng)驗總結(jié)、實際情況,可在以下幾方面進行精準(zhǔn)招生宣傳工作:1.族1可以看出職業(yè)中專學(xué)校對這兩個專業(yè)提升學(xué)歷有需求,此類專業(yè)重點宣傳對象為職業(yè)中專學(xué)校學(xué)生。2.族2可以看出技工類學(xué)校對理工類專業(yè)提升學(xué)歷有需求,此類專業(yè)重點宣傳對象為技工類學(xué)?;蚬た祁悓W(xué)校學(xué)生。3.族3可以看出這些教學(xué)站點生源主要是在城鄉(xiāng)結(jié)合部或農(nóng)村的男性打工或務(wù)農(nóng)人員,文化水平不高,可重點在這些區(qū)域的地方媒介進行宣傳,為這類人群進行考前輔導(dǎo),避免想學(xué)沒考上的問題出現(xiàn)。4.族4可以看出負責(zé)電子商務(wù)、工程造價的教學(xué)站點對這兩個專業(yè)招生宣傳不夠,沒針對性在行業(yè)里進行招生宣傳,須加強。5.族5可以看出這個教學(xué)站點報考專業(yè)很集中,考生的職業(yè)類別大部分為“辦事人員”,對專業(yè)要求不高,招生宣傳時統(tǒng)一引導(dǎo)到一個專業(yè),以便更好教學(xué)管理,節(jié)省人力物力。

      綜上,通過對成人招生錄取數(shù)據(jù)的挖掘分析,為招生宣傳決策提供了一定的參考。但未對分析結(jié)果適用高校的范圍進行挖掘,通用性值得進一步研究。

      猜你喜歡
      字段類別數(shù)據(jù)挖掘
      圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      CNMARC304字段和314字段責(zé)任附注方式解析
      無正題名文獻著錄方法評述
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      濉溪县| 长丰县| 滕州市| 兰溪市| 高碑店市| 胶南市| 定远县| 三门峡市| 揭阳市| 安吉县| 察隅县| 游戏| 诸城市| 策勒县| 黔西县| 玉田县| 兴化市| 柳江县| 安宁市| 礼泉县| 台东市| 满城县| 太谷县| 双城市| 蛟河市| 普兰县| 扶风县| 眉山市| 衡阳市| 洛阳市| 虹口区| 多伦县| 东乡族自治县| 沙湾县| 宽甸| 新龙县| 崇仁县| 岳西县| 马鞍山市| 中牟县| 香港 |