• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于一卡通大數(shù)據(jù)的家庭經(jīng)濟困難學生消費預警研究

    2019-08-23 02:45:08吳領航王默玉申曉留王璐梁如霞
    電子技術與軟件工程 2019年14期
    關鍵詞:一卡通金額困難

    文/吳領航 王默玉 申曉留 王璐 梁如霞

    1 引言

    近年來,高校相繼建立并投入使用了大量信息系統(tǒng)和大數(shù)據(jù)應用平臺。一卡通消費系統(tǒng)是綜合了大數(shù)據(jù)技術、云計算技術、信息安全技術、數(shù)據(jù)加密技術的平臺,不僅可以方便學生和教師掌握自己在學校的消費情況,也可以更好地安排自身的工作和學習。

    高校在數(shù)字化校園建設的大潮下,學生一卡通系統(tǒng)在實際應用場景中會產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)記錄了學生的消費情況、圈存情況等,是消費預警的重要依據(jù)。本文重點研究一卡通消費數(shù)據(jù)的月變化值和家庭經(jīng)濟困難學生的困難程度的相關關系。以家庭經(jīng)濟困難學生的月消費金額為研究對象,劃分消費區(qū)間,從中總結并研究出規(guī)律,判斷是否存在家庭經(jīng)濟困難學生消費數(shù)據(jù)異常,進一步挖掘出困難程度變化較大的學生數(shù)據(jù)。采用數(shù)據(jù)挖掘技術分析家庭經(jīng)濟困難學生的一卡通消費金額數(shù)據(jù),采用聚類算法劃分消費金額的不同區(qū)間,根據(jù)區(qū)間使用一元離群點檢測算法檢測出消費數(shù)據(jù)異常的學生,進行家庭經(jīng)濟困難學生消費預警,檢測所得結果為家庭經(jīng)濟困難學生認定提供輔助參考,進一步提升精準資助。

    2 數(shù)據(jù)與方法

    2.1 數(shù)據(jù)來源

    本文選取的數(shù)據(jù)來源于某高校一卡通消費平臺和家庭經(jīng)濟困難學生認定系統(tǒng)平臺。高校一卡通消費平臺記錄了全校學生的總消費金額、有效交易次數(shù)、平均消費金額。家庭經(jīng)濟困難認定系統(tǒng)中記錄了高校家庭經(jīng)濟困難學生的經(jīng)濟狀況數(shù)據(jù)。在數(shù)據(jù)分析前先進行數(shù)據(jù)審計、數(shù)據(jù)清洗、數(shù)據(jù)脫敏等數(shù)據(jù)預處理工作,保證數(shù)據(jù)的完整性和有效性。一卡通消費平臺上的消費數(shù)據(jù)表結構如表1所示。

    2.2 分析方法

    2.2.1 Pearson相關系數(shù)

    相關分析是對變量之間關系密切程度的度量,是對總體中具有聯(lián)系的標志進行分析。Pearson相關系數(shù),用于度量兩個變量之間的相關性。一般采用樣本相關系數(shù)(r)進行相關性分析。

    兩個變量間的Pearson相關系數(shù)定義為兩個變量之間的協(xié)方差和標準差的商:

    2.2.2 聚類分析

    聚類是對大量未知標注的數(shù)據(jù)集,按照數(shù)據(jù)的內在相似性將數(shù)據(jù)集劃分為多個類別,使類別內的數(shù)據(jù)相似度較大而類別間的數(shù)據(jù)相似度較小。聚類的基本思想對于給定的類別數(shù)目k,首先給出初始劃分,通過迭代改變樣本和簇的隸屬度關系,使得每一次改進后的劃分方案都較前一次好。

    聚類分析常用于對數(shù)值型數(shù)據(jù)進行數(shù)據(jù)挖掘。運用聚類分析的方法研究學生消費數(shù)據(jù)可實現(xiàn)以下2個方面的作用:

    (1)掌握在校生消費的實際情況。這是開展家庭經(jīng)濟困難學生消費預警工作的重要環(huán)節(jié)。

    (2)劃分消費區(qū)間。運用數(shù)據(jù)挖掘技術對學生一卡通消費數(shù)據(jù)進行數(shù)據(jù)分析,因此選取總消費金額,有效交易次數(shù),平均消費金額,總消費次數(shù)四個指標參數(shù)對學生數(shù)據(jù)進行聚類分析,從而劃分出學生消費區(qū)間。

    2.2.3 k-means算法

    k-means算法被稱為k-平均或k-均值,是一個經(jīng)典的聚類算法,它開始輸入?yún)?shù)k,然后將n個數(shù)據(jù)對象劃分為k個聚類,使同一聚類中的對象之間的相似度較高,不同聚類中的對象之間的相似度較小。其中“聚類相似度”是利用各聚類中對象的均值所獲得的一個“中心對象”的方式計算。當k=2時,k-means算法的步驟可視化如圖1所示。

    假定輸入樣本為S=x1,x2,x3……,xm,則算法步驟為:

    (1)選擇初始的k個類別中心u1u2u3…uk

    表1

    表2:相關性結果

    表3:高校學生消費數(shù)據(jù)聚類分析結果

    表4:正態(tài)性檢驗

    (2)對于每個樣本xi,將其標記為距離類別中心最近的類別,即:

    (3)將每個類別中心更新為隸屬該類別的所有樣本的均值

    (4)重復最后兩步,直到類別中心的變化小于某閾值。

    3 結果分析

    3.1 Pearson相關性分析

    通過Pearson相關系數(shù)來分別分析高校學生平均每天消費金額、每月消費總金額、有效交易天數(shù)、月消費次數(shù)之間的相關性。本文選取2000名高校學生某個月的一卡通消費數(shù)據(jù)。選用spss軟件中的Pearson相關系數(shù)進行相關性分析,結果如表2所示。

    表中指定的顯著性水平為0.01,統(tǒng)計檢驗的概率小于0.01(表中顯示為“0.00”),可以看出各個指標間的相關性十分顯著,具有較強的相關性。針對4個指標作k-means聚類分析,便于進一步劃分消費金額區(qū)間。

    3.2 k-means聚類應用于消費區(qū)間劃分

    根據(jù)Pearson相關性分析得出,學生的平均消費金額、總消費金額、總消費次數(shù)、有效交易天數(shù)之間具有較強的相關性。因此選取上述4個指標數(shù)據(jù)進行k-means聚類分析。通過家庭經(jīng)濟困難認定系統(tǒng)平臺上獲取全校2820名家庭經(jīng)濟困難學生的有效數(shù)據(jù)。按照聚類數(shù)3類、4類、5類進行聚類分析,層間檢驗均呈顯著性差異。表3顯示了快速聚類結果中各簇屬性和個數(shù),涵蓋了各簇包含的示例。

    實驗結果分析:

    分析平均消費額,按三層來劃分消費區(qū)間,各層的“平均消費金額”為14、21、31。按照四層來劃分,各層的“平均消費金額”為14、20、26、35。按照五層來劃分,各層的“平均消費金額”為10、17、26、31、38。以上k-means快速聚類的分類結果和高校之前的人工劃分消費區(qū)間的情況有所不一致,說明了之前的劃分消費區(qū)間更多是主觀的,缺少數(shù)據(jù)和理論的支持。

    以聚類數(shù)3分類,各層人數(shù)比為843:1313:664,各層人數(shù)較多,層內差異較大,不利于家庭經(jīng)濟困難學生的精準資助且消費區(qū)間劃分不夠詳細,各層的“平均消費金額”分別為14元、21元、31元,總體覆蓋的范圍比較小,不能夠較為準確的說明學生的消費情況。

    圖2:正態(tài)性檢驗

    圖3:平均消費數(shù)據(jù)分布直方圖

    分析有效交易天數(shù),在聚類數(shù)為4的情況下,第一層內學生的有效交易天數(shù)為23天,平均消費金額為14元,可能存在交易天數(shù)少而使得消費金額較低的情況,不能夠很好的視為家庭經(jīng)濟困難學生的消費行為。而聚類數(shù)為5時,學生的有效交易天數(shù)為28天,平均每天消費金額10元,這更能說明學生貧困的情況屬實。

    根據(jù)實驗的結果可劃分學生的消費區(qū)間劃分為5個。學生日平均消費金額在10元以下,日消費金額在10元-20元之間,日消費金額在21元-26元之間,日消費金額在27元-31元之間,日消費金額在32元-38元之間。

    3.3 正態(tài)性檢驗

    本文采用spss軟件進行正態(tài)分布的檢驗。選取學生的平均消費金額作為正態(tài)性檢驗的依據(jù)。正態(tài)性檢驗結果如表4和圖2所示,表4以K-S結果為準,sig.=0.2>0.05,圖2中的點都圍繞著一條直線,兩者都顯示服從正態(tài)分布。

    3.4 異常點檢測

    采用2018-2019學年的部分家庭經(jīng)濟困難學生作為樣本數(shù)據(jù),在2018年度的認定過程中,2018級學生有622名同學被認定為家庭經(jīng)濟困難學生。從中隨機抽取600名同學的平均消費金額,共抽取4次,有4組訓練數(shù)據(jù)。則樣本xi的概率函數(shù)為求似然函數(shù)得到:

    根據(jù)4組樣本數(shù)據(jù)進行求解,得出均值近似于20.1。由3.2中的正態(tài)性檢驗可知,學生的平均消費金額數(shù)據(jù)滿足正態(tài)分布。

    擴大樣本數(shù)據(jù)后,針對全校2820名家庭經(jīng)濟困難學生采用基于正態(tài)分布的一元離群點監(jiān)測算法進行異常點的檢測。根據(jù)分析樣本消費數(shù)據(jù)的標準差為6.08,均值為20.36,與4組樣本數(shù)據(jù)計算得出的均值十分接近。

    結合樣本數(shù)據(jù)來進一步分析,低于2元的同學有3人,高于38元的同學有9人。3位消費數(shù)據(jù)低于2元的同學由于消費數(shù)據(jù)太低,需要輔導員去深入了解情況。9位高于38元的同學由于本身是已被認定為家庭經(jīng)濟困難學生,但消費水平已經(jīng)大大超出正常家庭經(jīng)濟困難學生的消費水平,要作為異常點進行分析。相對應的學號可以提交學校資助中心工作人員,對消費異常數(shù)據(jù)的同學進行更深入的了解和評定。如圖3所示。

    4 結語

    本文從數(shù)據(jù)挖掘的技術入手,從中選擇了k-means算法和一元離群點算法應用于高校學生在校消費的數(shù)據(jù)挖掘中,利用聚類分析的方法劃分出家庭經(jīng)濟困難學生的消費區(qū)間,并針對家庭經(jīng)濟困難學生樣本采用基于正態(tài)分布的一元離群點算法進行消費異常情況的檢測。實驗表明,采用Pearson相關性分析法能夠有效的挖掘學生消費金額與有效交易天數(shù)的內在關聯(lián),為聚類分析提供理論的依據(jù)。利用k-means聚類算法將學生的消費區(qū)間劃分為5類,同時消費數(shù)據(jù)分布滿足正態(tài)分布,更加科學地表明了困難程度與消費情況的關系。一元離群點檢測算法檢測所得結果便于開展消費預警工作。但基于一卡通大數(shù)據(jù)的家庭經(jīng)濟困難學生消費預警研究方法還可以進一步的優(yōu)化和改進,首先,數(shù)據(jù)來源于一卡通消費平臺,該研究方法對于一卡通消費數(shù)據(jù)依賴性較強,可能存在學生外出實習導致消費數(shù)據(jù)較低的情況。其次,目前研究的對象是家庭經(jīng)濟困難學生,將來可以將研究對象的范圍擴大,實現(xiàn)資助更加精準。再者,本文是基于一卡通消費大數(shù)據(jù)這一角度進行消費預警的研究,采用數(shù)據(jù)挖掘的算法,為輔導員開展家庭經(jīng)濟困難學生消費預警工作提供理論支撐,也為實現(xiàn)精準資助提供理論基礎,但要進一步實現(xiàn)消費預警的科學性,還需結合高校的家庭經(jīng)濟困難認定系統(tǒng)和模型,完善研究工作。

    猜你喜歡
    一卡通金額困難
    困難中遇見團隊
    2001年-2020年縣級一般公共預算支出資金來源情況表
    困難我不怕
    選擇困難癥
    立案
    上海故事(2016年12期)2016-12-09 16:49:08
    基于“一卡通”開發(fā)的員工信息識別系統(tǒng)
    電子制作(2016年19期)2016-08-24 07:49:44
    向心加速度學習一卡通
    成交金額前10名營業(yè)部買入的前3只個股
    一周資金凈流出金額前20名個股
    向心加速度學習一卡通
    长沙县| 阳谷县| 马龙县| 崇义县| 古蔺县| 铁岭县| 大理市| 南溪县| 珲春市| 宜宾市| 南郑县| 萨嘎县| 惠东县| 文安县| 钦州市| 麻江县| 昌都县| 桐庐县| 阿巴嘎旗| 六盘水市| 阿拉尔市| 监利县| 阿克| 巴林左旗| 凤庆县| 庆云县| 义马市| 溧水县| 肇源县| 塔城市| 定远县| 浦城县| 临武县| 孟村| 新乡市| 宽甸| 台州市| 沅陵县| 扬中市| 甘孜县| 马鞍山市|