• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)背景下學(xué)生消費(fèi)水平分析模型的建立

      2020-05-13 14:15:23范媛蔡敏
      電腦知識與技術(shù) 2020年8期
      關(guān)鍵詞:聚類算法大數(shù)據(jù)

      范媛 蔡敏

      摘要:該研究以中國石油大學(xué)(北京)的校園卡系統(tǒng)消費(fèi)數(shù)據(jù)為數(shù)據(jù)源,建立數(shù)據(jù)倉庫,通過數(shù)據(jù)清洗和數(shù)據(jù)挖掘得到學(xué)生在食堂的消費(fèi)數(shù)據(jù)。通過使用聚類算法對學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行分類,進(jìn)而將學(xué)生的消費(fèi)水平分為四類。以馬氏距離作為判別距離建立學(xué)生消費(fèi)水平判別分析模型,利用該模型判斷學(xué)生的消費(fèi)水平,通過對學(xué)生消費(fèi)水平的分析研究,可以在學(xué)校有關(guān)部門進(jìn)行決策時(shí)提供有效依據(jù)。

      關(guān)鍵詞:校園卡系統(tǒng);大數(shù)據(jù);聚類算法;判別分析;消費(fèi)模型

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A

      文章編號:1009-3044(2020)08-0005-03

      開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

      校園卡系統(tǒng)具有身份識別和電子錢包等功能,實(shí)現(xiàn)了校內(nèi)統(tǒng)一身份認(rèn)證和消費(fèi)統(tǒng)一管理,校園卡使用數(shù)據(jù)完全記錄了使用者在校內(nèi)的消費(fèi)情況和行為軌跡,通過對校園卡數(shù)據(jù)的挖掘分析,對高校數(shù)據(jù)決策具有十分重要的意義。目前各大高校均展開了對校園卡大數(shù)據(jù)的挖掘分析,來為有關(guān)部門進(jìn)行學(xué)生管理提供真實(shí)、有效的數(shù)據(jù)支撐[1]。校園卡系統(tǒng)內(nèi)積累的大量消費(fèi)數(shù)據(jù),對其進(jìn)行挖掘分析可以掌握學(xué)生在校消費(fèi)的偏好和規(guī)律,將對學(xué)校優(yōu)化資源配置、數(shù)據(jù)化決策等提供重要參考。該研究通過建立學(xué)生消費(fèi)水平判別模型,將學(xué)生消費(fèi)水平分為4類,可為貧困生認(rèn)定提供判定依據(jù)[2],為深入研究學(xué)生消費(fèi)水平提供有效方法。

      1 數(shù)據(jù)倉庫建立

      該研究用于進(jìn)行分析的數(shù)據(jù)是以中國石油大學(xué)(北京)2018級本科生消費(fèi)數(shù)據(jù)作為數(shù)據(jù)源,抽取學(xué)生就餐率較高的2018年11月、12月和2019年3月份的消費(fèi)數(shù)據(jù)共計(jì)32萬多條進(jìn)行分析,由于數(shù)據(jù)量龐大,為了不增加數(shù)據(jù)庫的壓力并且滿足數(shù)據(jù)分析和數(shù)據(jù)挖掘的需求,數(shù)據(jù)分析過程不與校園卡系統(tǒng)數(shù)據(jù)庫直接建立關(guān)系,而是通過soL數(shù)據(jù)庫建立數(shù)據(jù)倉庫[3]進(jìn)行分析。

      1.1 數(shù)據(jù)源確認(rèn)

      通過采集校園卡系統(tǒng)內(nèi)學(xué)生消費(fèi)數(shù)據(jù)作為數(shù)據(jù)源進(jìn)行分析,進(jìn)而可以掌握學(xué)生的消費(fèi)習(xí)慣,消費(fèi)水平等情況,在不增加校園卡系統(tǒng)數(shù)據(jù)庫壓力的前提下將學(xué)生的消費(fèi)流水?dāng)?shù)據(jù)提取到指定數(shù)據(jù)庫中,把數(shù)據(jù)處理成可用的數(shù)據(jù)。

      1.2數(shù)據(jù)預(yù)處理

      校園卡消費(fèi)數(shù)據(jù)中包含了大量信息,包括時(shí)間、地點(diǎn)、商戶、消費(fèi)金額、人賬信息等,根據(jù)分析需求對消費(fèi)數(shù)據(jù)進(jìn)行清洗,去除包含噪聲的無意義數(shù)據(jù)以及無用的字段,并對清洗后的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換[4]。

      1.3 建立數(shù)據(jù)倉庫概念模型

      對校園卡系統(tǒng)內(nèi)學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行分析,一般按照消費(fèi)次數(shù)、消費(fèi)金額、消費(fèi)時(shí)間、消費(fèi)地點(diǎn)等字段進(jìn)行分析,建立的數(shù)據(jù)倉庫所需要的數(shù)據(jù)包括:學(xué)生基本信息、消費(fèi)信息、校園卡系統(tǒng)終端數(shù)據(jù),數(shù)據(jù)挖掘的關(guān)鍵性能指標(biāo)是學(xué)生校園卡消費(fèi)流水信息。

      1.4 建立邏輯模型

      邏輯模型的建立主要用于劃分?jǐn)?shù)據(jù)維度,對學(xué)生基本信息、消費(fèi)流水、消費(fèi)終端信息等數(shù)據(jù)進(jìn)行分類儲存、數(shù)據(jù)簡化、同屬類別歸并。邏輯模型如圖1所示。

      1.5 建立物理模型

      建立物理模型的目的是構(gòu)建合理的數(shù)據(jù)庫物理結(jié)構(gòu),通過合理規(guī)劃數(shù)據(jù)庫的結(jié)構(gòu)、字段、索引、存儲等,來實(shí)現(xiàn)模型的建立,從而可以清楚地對學(xué)生消費(fèi)數(shù)據(jù)進(jìn)行分析。物理模型如表1所示。

      2 數(shù)據(jù)挖掘

      在此次學(xué)生消費(fèi)水平分析中,通過對校園卡消費(fèi)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,抽取出分析所需的字段,再通過數(shù)據(jù)清洗與轉(zhuǎn)換將抽取出的數(shù)據(jù)進(jìn)行處理轉(zhuǎn)換為用于數(shù)據(jù)挖掘的形式[5]。

      數(shù)據(jù)來源于校園卡系統(tǒng)學(xué)生消費(fèi)數(shù)據(jù),將數(shù)據(jù)中可壓縮的、可合并的、含噪聲的以及可刪除的字段進(jìn)行數(shù)據(jù)清洗與數(shù)據(jù)合并,通過約減相關(guān)性保持?jǐn)?shù)據(jù)原貌,達(dá)到盡可能地減少數(shù)據(jù)量的目標(biāo)[6j。在不同的應(yīng)用場景中,按照不同的關(guān)鍵詞進(jìn)行數(shù)據(jù)合并,在分析學(xué)生的消費(fèi)水平時(shí),選取學(xué)號作為關(guān)鍵詞進(jìn)行數(shù)據(jù)合并。該研究利用MATLAB對消費(fèi)數(shù)據(jù)進(jìn)行處理,得到了學(xué)生在3個(gè)月的月消費(fèi)數(shù)據(jù)。

      3 建立學(xué)生消費(fèi)水平模型

      3.1 聚類分析

      K-means聚類算法是聚類分析中應(yīng)用最廣泛的聚類算法之一,是一種發(fā)現(xiàn)給定數(shù)據(jù)集k個(gè)簇的算法[7-8]。

      針對學(xué)生消費(fèi)水平的研究中,取學(xué)生平均單筆消費(fèi)額和總消費(fèi)次數(shù)為評價(jià)指標(biāo)如表2所示。由于這兩項(xiàng)指標(biāo)的量綱和數(shù)量級不同,為了便于決策評價(jià),故對原始數(shù)據(jù)進(jìn)行極差規(guī)格化變換處理。

      極差規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即:

      經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中的每列即每個(gè)變量的最大數(shù)值為1,最小值為0,其余數(shù)值取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱。根據(jù)上述公式變換后的評價(jià)指標(biāo)數(shù)據(jù)如表3所示。

      通過聚類算法對極差規(guī)格化變換后評價(jià)指標(biāo)進(jìn)行聚類。確實(shí)聚類數(shù)目為4,得到各類的中心結(jié)果以及各類的類內(nèi)元素與中心的距離和(如表4所示)學(xué)生消費(fèi)水平的分類結(jié)果(如表5所示),聚類結(jié)果示意圖如圖2所示。

      通過聚類分析結(jié)果可得類別A的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)低于均值,但平均消費(fèi)金額高于均值;B類的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)處于均值水平,平均消費(fèi)金額低于均值;C類的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)高于均值,平均消費(fèi)金額低于均值水平;D類的學(xué)生消費(fèi)水平特點(diǎn)為:消費(fèi)次數(shù)高于均值,平均消費(fèi)金額高于均值水平。由此可推斷出學(xué)生家庭經(jīng)濟(jì)狀況,A類消費(fèi)水平的學(xué)生很少在食堂吃飯,并且單筆消費(fèi)金額高,可認(rèn)定為家庭條件良好,B類消費(fèi)水平的學(xué)生經(jīng)常在食堂吃飯,但單筆消費(fèi)金額較低,認(rèn)定為家庭條件一般貧困,C類消費(fèi)水平的學(xué)生基本在食堂消費(fèi),單筆消費(fèi)金額低于平均水平,認(rèn)定為家庭條件貧困,D類消費(fèi)水平的學(xué)生在食堂消費(fèi)次數(shù)高于均值,且單筆消費(fèi)金額較高,認(rèn)定為家庭條件較好。

      3.2 判別分析模型

      根據(jù)距離判別分析原理,選用馬氏距離作為判別距離[9],針對學(xué)生在校食堂消費(fèi)水平建立了學(xué)生消費(fèi)水平距離判別的分析模型,利用該模型判別學(xué)生的消費(fèi)水平。

      式(8)即是學(xué)生消費(fèi)水平判別分析模型,通過該模型可對學(xué)生消費(fèi)情況進(jìn)行判別。將學(xué)生消費(fèi)水平數(shù)據(jù)代入式(8)中,即可判斷其所屬類別。將訓(xùn)練樣本數(shù)據(jù)回代判斷結(jié)果如表6中所示。選取10組學(xué)生消費(fèi)數(shù)據(jù)作為待判樣本,以此模型對待判樣本進(jìn)行判別,得到結(jié)果如表7所示。

      (5)判別準(zhǔn)則評價(jià)

      通過3.2.4中訓(xùn)練樣本回代,樣本總量為80組,正確判別數(shù)為78,誤判數(shù)為2,計(jì)算得到誤判概率為2.5%,可見此模型合理,達(dá)到了對學(xué)生消費(fèi)水平進(jìn)行有效分類的效果。

      4 結(jié)論

      該研究通過構(gòu)建數(shù)據(jù)倉庫,得到有效的學(xué)生校園卡消費(fèi)數(shù)據(jù)。通過聚類算法將學(xué)生的消費(fèi)水平分為四類,可根據(jù)消費(fèi)水平判定學(xué)生家庭經(jīng)濟(jì)情況.為貧困生資助提供數(shù)據(jù)支持;利用以馬氏距離作為判別距離的判別算法建立學(xué)生學(xué)費(fèi)水平判別模型,用以判別學(xué)生消費(fèi)水平的分類是否有效。

      參考文獻(xiàn):

      [1]張艷分,盧小清,劉禹等.基于大數(shù)據(jù)平臺的大學(xué)生校園行為探析[J].中國教育信息化,2019(1):39-42,46.

      [2]張林.基于差分隱私保護(hù)技術(shù)的高校貧困生認(rèn)定系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)技術(shù)與自動(dòng)化,2017(3):151-156.

      [3]田雨露.基于校園一卡通系統(tǒng)的決策支持和數(shù)據(jù)分析研究[D].北京化工大學(xué),2018.

      [4]萬曉燕.基于聚類劃分的大數(shù)據(jù)處理方法研究[J].智庫時(shí)代,2019(39):280,283.

      [5] Nguyen T V,Zhou L,Loong A Y,et al-Predicting customerdemand for remanufactured products:A data-mining approach[J]. European Journal of Operational Research, 2019(8): InPress.

      [6]潘曉英,趙倩,趙普.時(shí)空屬性關(guān)系標(biāo)簽的頻繁軌跡模式挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(10):83-89.

      [7]陸近,郭躍近.一種含噪聲處理的K-means聚類算法[J].計(jì)算機(jī)應(yīng)用于軟件,2015,32(10):265-268.

      [8]鄒晨紅,袁滿.模糊綜合評判的系統(tǒng)聚類算法研究[J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2018,36(5):441-448

      [9]張華平.常用判別分析方法的綜合比較[J].統(tǒng)計(jì)與決策,2015(22):77-78.

      [10] Wang B X,Zou H.A Multicategory Kernel Distance Weight-ed Discrimination Method for Multiclass Classification[J].Technometrics,2019,61(3).

      [11] LIN T,Chen G,Ouyang W L.et al-Hyper-spherical dis-tance discrimination: A novel data description method foraero-engme rolling bearing fault detection[J].Mechanical Sys-tems and Signal Processing,2018,109(9).

      [12]相詩堯,邢會(huì)敏,徐東晶.空間點(diǎn)所屬空間體的距離判別法分析[J].測繪科學(xué),2016,41(6):40-43,112.

      【通聯(lián)編輯:王力】

      作者簡介:范媛(1980-),女,河北南和人,碩士,工程師,主要從事高校一卡通和信息化建設(shè);蔡敏(1995-),女,甘肅慶陽人,碩士在讀,化工過程機(jī)械專業(yè)。

      猜你喜歡
      聚類算法大數(shù)據(jù)
      數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
      K—Means聚類算法在MapReduce框架下的實(shí)現(xiàn)
      基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
      大規(guī)模風(fēng)電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
      科技視界(2016年8期)2016-04-05 18:39:39
      基于暫態(tài)特征聚類的家用負(fù)荷識別
      成安县| 云阳县| 逊克县| 沂源县| 桓台县| 揭西县| 绥阳县| 化隆| 两当县| 六安市| 甘洛县| 武安市| 南川市| 深州市| 荔波县| 大城县| 景谷| 宜宾县| 阆中市| 曲阜市| 开远市| 宿州市| 沙坪坝区| 旅游| 吴忠市| 阿合奇县| 宁武县| 获嘉县| 双牌县| 三门县| 紫阳县| 武汉市| 屏南县| 泰兴市| 富裕县| 固阳县| 措美县| 黔西| 平塘县| 延边| 玉山县|