文/吳領航 王默玉 申曉留 王璐 梁如霞
近年來,高校相繼建立并投入使用了大量信息系統(tǒng)和大數(shù)據(jù)應用平臺。一卡通消費系統(tǒng)是綜合了大數(shù)據(jù)技術、云計算技術、信息安全技術、數(shù)據(jù)加密技術的平臺,不僅可以方便學生和教師掌握自己在學校的消費情況,也可以更好地安排自身的工作和學習。
高校在數(shù)字化校園建設的大潮下,學生一卡通系統(tǒng)在實際應用場景中會產(chǎn)生海量數(shù)據(jù),這些數(shù)據(jù)記錄了學生的消費情況、圈存情況等,是消費預警的重要依據(jù)。本文重點研究一卡通消費數(shù)據(jù)的月變化值和家庭經(jīng)濟困難學生的困難程度的相關關系。以家庭經(jīng)濟困難學生的月消費金額為研究對象,劃分消費區(qū)間,從中總結并研究出規(guī)律,判斷是否存在家庭經(jīng)濟困難學生消費數(shù)據(jù)異常,進一步挖掘出困難程度變化較大的學生數(shù)據(jù)。采用數(shù)據(jù)挖掘技術分析家庭經(jīng)濟困難學生的一卡通消費金額數(shù)據(jù),采用聚類算法劃分消費金額的不同區(qū)間,根據(jù)區(qū)間使用一元離群點檢測算法檢測出消費數(shù)據(jù)異常的學生,進行家庭經(jīng)濟困難學生消費預警,檢測所得結果為家庭經(jīng)濟困難學生認定提供輔助參考,進一步提升精準資助。
本文選取的數(shù)據(jù)來源于某高校一卡通消費平臺和家庭經(jīng)濟困難學生認定系統(tǒng)平臺。高校一卡通消費平臺記錄了全校學生的總消費金額、有效交易次數(shù)、平均消費金額。家庭經(jīng)濟困難認定系統(tǒng)中記錄了高校家庭經(jīng)濟困難學生的經(jīng)濟狀況數(shù)據(jù)。在數(shù)據(jù)分析前先進行數(shù)據(jù)審計、數(shù)據(jù)清洗、數(shù)據(jù)脫敏等數(shù)據(jù)預處理工作,保證數(shù)據(jù)的完整性和有效性。一卡通消費平臺上的消費數(shù)據(jù)表結構如表1所示。
2.2.1 Pearson相關系數(shù)
相關分析是對變量之間關系密切程度的度量,是對總體中具有聯(lián)系的標志進行分析。Pearson相關系數(shù),用于度量兩個變量之間的相關性。一般采用樣本相關系數(shù)(r)進行相關性分析。
兩個變量間的Pearson相關系數(shù)定義為兩個變量之間的協(xié)方差和標準差的商:
2.2.2 聚類分析
聚類是對大量未知標注的數(shù)據(jù)集,按照數(shù)據(jù)的內在相似性將數(shù)據(jù)集劃分為多個類別,使類別內的數(shù)據(jù)相似度較大而類別間的數(shù)據(jù)相似度較小。聚類的基本思想對于給定的類別數(shù)目k,首先給出初始劃分,通過迭代改變樣本和簇的隸屬度關系,使得每一次改進后的劃分方案都較前一次好。
聚類分析常用于對數(shù)值型數(shù)據(jù)進行數(shù)據(jù)挖掘。運用聚類分析的方法研究學生消費數(shù)據(jù)可實現(xiàn)以下2個方面的作用:
(1)掌握在校生消費的實際情況。這是開展家庭經(jīng)濟困難學生消費預警工作的重要環(huán)節(jié)。
(2)劃分消費區(qū)間。運用數(shù)據(jù)挖掘技術對學生一卡通消費數(shù)據(jù)進行數(shù)據(jù)分析,因此選取總消費金額,有效交易次數(shù),平均消費金額,總消費次數(shù)四個指標參數(shù)對學生數(shù)據(jù)進行聚類分析,從而劃分出學生消費區(qū)間。
2.2.3 k-means算法
k-means算法被稱為k-平均或k-均值,是一個經(jīng)典的聚類算法,它開始輸入?yún)?shù)k,然后將n個數(shù)據(jù)對象劃分為k個聚類,使同一聚類中的對象之間的相似度較高,不同聚類中的對象之間的相似度較小。其中“聚類相似度”是利用各聚類中對象的均值所獲得的一個“中心對象”的方式計算。當k=2時,k-means算法的步驟可視化如圖1所示。
假定輸入樣本為S=x1,x2,x3……,xm,則算法步驟為:
(1)選擇初始的k個類別中心u1u2u3…uk
表1
表2:相關性結果
表3:高校學生消費數(shù)據(jù)聚類分析結果
表4:正態(tài)性檢驗
(2)對于每個樣本xi,將其標記為距離類別中心最近的類別,即:
(3)將每個類別中心更新為隸屬該類別的所有樣本的均值
(4)重復最后兩步,直到類別中心的變化小于某閾值。
通過Pearson相關系數(shù)來分別分析高校學生平均每天消費金額、每月消費總金額、有效交易天數(shù)、月消費次數(shù)之間的相關性。本文選取2000名高校學生某個月的一卡通消費數(shù)據(jù)。選用spss軟件中的Pearson相關系數(shù)進行相關性分析,結果如表2所示。
表中指定的顯著性水平為0.01,統(tǒng)計檢驗的概率小于0.01(表中顯示為“0.00”),可以看出各個指標間的相關性十分顯著,具有較強的相關性。針對4個指標作k-means聚類分析,便于進一步劃分消費金額區(qū)間。
根據(jù)Pearson相關性分析得出,學生的平均消費金額、總消費金額、總消費次數(shù)、有效交易天數(shù)之間具有較強的相關性。因此選取上述4個指標數(shù)據(jù)進行k-means聚類分析。通過家庭經(jīng)濟困難認定系統(tǒng)平臺上獲取全校2820名家庭經(jīng)濟困難學生的有效數(shù)據(jù)。按照聚類數(shù)3類、4類、5類進行聚類分析,層間檢驗均呈顯著性差異。表3顯示了快速聚類結果中各簇屬性和個數(shù),涵蓋了各簇包含的示例。
實驗結果分析:
分析平均消費額,按三層來劃分消費區(qū)間,各層的“平均消費金額”為14、21、31。按照四層來劃分,各層的“平均消費金額”為14、20、26、35。按照五層來劃分,各層的“平均消費金額”為10、17、26、31、38。以上k-means快速聚類的分類結果和高校之前的人工劃分消費區(qū)間的情況有所不一致,說明了之前的劃分消費區(qū)間更多是主觀的,缺少數(shù)據(jù)和理論的支持。
以聚類數(shù)3分類,各層人數(shù)比為843:1313:664,各層人數(shù)較多,層內差異較大,不利于家庭經(jīng)濟困難學生的精準資助且消費區(qū)間劃分不夠詳細,各層的“平均消費金額”分別為14元、21元、31元,總體覆蓋的范圍比較小,不能夠較為準確的說明學生的消費情況。
圖2:正態(tài)性檢驗
圖3:平均消費數(shù)據(jù)分布直方圖
分析有效交易天數(shù),在聚類數(shù)為4的情況下,第一層內學生的有效交易天數(shù)為23天,平均消費金額為14元,可能存在交易天數(shù)少而使得消費金額較低的情況,不能夠很好的視為家庭經(jīng)濟困難學生的消費行為。而聚類數(shù)為5時,學生的有效交易天數(shù)為28天,平均每天消費金額10元,這更能說明學生貧困的情況屬實。
根據(jù)實驗的結果可劃分學生的消費區(qū)間劃分為5個。學生日平均消費金額在10元以下,日消費金額在10元-20元之間,日消費金額在21元-26元之間,日消費金額在27元-31元之間,日消費金額在32元-38元之間。
本文采用spss軟件進行正態(tài)分布的檢驗。選取學生的平均消費金額作為正態(tài)性檢驗的依據(jù)。正態(tài)性檢驗結果如表4和圖2所示,表4以K-S結果為準,sig.=0.2>0.05,圖2中的點都圍繞著一條直線,兩者都顯示服從正態(tài)分布。
采用2018-2019學年的部分家庭經(jīng)濟困難學生作為樣本數(shù)據(jù),在2018年度的認定過程中,2018級學生有622名同學被認定為家庭經(jīng)濟困難學生。從中隨機抽取600名同學的平均消費金額,共抽取4次,有4組訓練數(shù)據(jù)。則樣本xi的概率函數(shù)為求似然函數(shù)得到:
根據(jù)4組樣本數(shù)據(jù)進行求解,得出均值近似于20.1。由3.2中的正態(tài)性檢驗可知,學生的平均消費金額數(shù)據(jù)滿足正態(tài)分布。
擴大樣本數(shù)據(jù)后,針對全校2820名家庭經(jīng)濟困難學生采用基于正態(tài)分布的一元離群點監(jiān)測算法進行異常點的檢測。根據(jù)分析樣本消費數(shù)據(jù)的標準差為6.08,均值為20.36,與4組樣本數(shù)據(jù)計算得出的均值十分接近。
結合樣本數(shù)據(jù)來進一步分析,低于2元的同學有3人,高于38元的同學有9人。3位消費數(shù)據(jù)低于2元的同學由于消費數(shù)據(jù)太低,需要輔導員去深入了解情況。9位高于38元的同學由于本身是已被認定為家庭經(jīng)濟困難學生,但消費水平已經(jīng)大大超出正常家庭經(jīng)濟困難學生的消費水平,要作為異常點進行分析。相對應的學號可以提交學校資助中心工作人員,對消費異常數(shù)據(jù)的同學進行更深入的了解和評定。如圖3所示。
本文從數(shù)據(jù)挖掘的技術入手,從中選擇了k-means算法和一元離群點算法應用于高校學生在校消費的數(shù)據(jù)挖掘中,利用聚類分析的方法劃分出家庭經(jīng)濟困難學生的消費區(qū)間,并針對家庭經(jīng)濟困難學生樣本采用基于正態(tài)分布的一元離群點算法進行消費異常情況的檢測。實驗表明,采用Pearson相關性分析法能夠有效的挖掘學生消費金額與有效交易天數(shù)的內在關聯(lián),為聚類分析提供理論的依據(jù)。利用k-means聚類算法將學生的消費區(qū)間劃分為5類,同時消費數(shù)據(jù)分布滿足正態(tài)分布,更加科學地表明了困難程度與消費情況的關系。一元離群點檢測算法檢測所得結果便于開展消費預警工作。但基于一卡通大數(shù)據(jù)的家庭經(jīng)濟困難學生消費預警研究方法還可以進一步的優(yōu)化和改進,首先,數(shù)據(jù)來源于一卡通消費平臺,該研究方法對于一卡通消費數(shù)據(jù)依賴性較強,可能存在學生外出實習導致消費數(shù)據(jù)較低的情況。其次,目前研究的對象是家庭經(jīng)濟困難學生,將來可以將研究對象的范圍擴大,實現(xiàn)資助更加精準。再者,本文是基于一卡通消費大數(shù)據(jù)這一角度進行消費預警的研究,采用數(shù)據(jù)挖掘的算法,為輔導員開展家庭經(jīng)濟困難學生消費預警工作提供理論支撐,也為實現(xiàn)精準資助提供理論基礎,但要進一步實現(xiàn)消費預警的科學性,還需結合高校的家庭經(jīng)濟困難認定系統(tǒng)和模型,完善研究工作。