• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于校園一卡通數(shù)據(jù)的人群畫像分析?

      2018-09-28 02:30:38劉合富談利芳
      關(guān)鍵詞:刷卡天數(shù)早餐

      黃 剛 劉 蓉 劉合富 談利芳

      (華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院 武漢 430079)

      1 引言

      校園一卡通[1]是集數(shù)據(jù)共享、身份認(rèn)證、金融消費(fèi)等多項(xiàng)功能于一體的信息集成系統(tǒng),為師生提供優(yōu)質(zhì)高效信息化智慧校園服務(wù)[2]的同時(shí)也存儲(chǔ)了海量的信息,對這些數(shù)據(jù)進(jìn)行挖掘分析可以為教學(xué)、科研、后勤和管理等多個(gè)領(lǐng)域做出十分有益的貢獻(xiàn)。

      目前,國內(nèi)已有很多科研團(tuán)隊(duì)利用一卡通數(shù)據(jù)開展相關(guān)研究。如:薛黎明等[3]從時(shí)間維度、消費(fèi)場所維度、用戶性別維度等對消費(fèi)數(shù)量、消費(fèi)金額進(jìn)行分析,得到了消費(fèi)時(shí)間、消費(fèi)地點(diǎn)、消費(fèi)人員及消費(fèi)金額等之間的關(guān)系與規(guī)則模式;徐劍等[4]通過K-means算法分析學(xué)生對熱水使用情況,了解學(xué)生對熱水的需求量,有助于學(xué)校的建設(shè)和管理;姜楠等[5]對學(xué)生的消費(fèi)數(shù)據(jù)進(jìn)行分析,通過K-means聚類算法將學(xué)生分為幾類,分析行為特征,便于對學(xué)生進(jìn)行分門別類的管理。2015年,EMC杯競賽中上海交大張宏倫等[6]對全校學(xué)生在食堂、洗浴中心及超市的消費(fèi)次數(shù)和平均消費(fèi)金額進(jìn)行分析,描述了五類學(xué)生人群的特性,為學(xué)校的管理工作提供了參考和依據(jù)。

      為順應(yīng)高校信息化的發(fā)展,本文運(yùn)用數(shù)據(jù)挖掘技術(shù)對學(xué)生一卡通數(shù)據(jù)進(jìn)行行為分析。通過對一卡通數(shù)據(jù)進(jìn)行去噪、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換等預(yù)處理后,提取特征信息,采用K-means聚類算法建立數(shù)據(jù)分析模型,對不同行為特征用戶畫像,為分析現(xiàn)代大學(xué)生的行為特點(diǎn),優(yōu)化校園服務(wù)、輔助學(xué)校管理人員決策提供參考。

      2 一卡通數(shù)據(jù)分析模型

      2.1 系統(tǒng)框架

      一卡通系統(tǒng)是利用智能卡技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)、加密技術(shù)和軟件工程等技術(shù),在校園內(nèi)為用戶提供身份認(rèn)證和金融服務(wù)的管理信息系統(tǒng)。系統(tǒng)每天都會(huì)產(chǎn)生大量的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中,經(jīng)過多年應(yīng)用,系統(tǒng)積累了千萬級(jí)乃至上億級(jí)數(shù)據(jù)。這些數(shù)據(jù)中隱藏了用戶的行為特征,如何利用海量的數(shù)據(jù)為學(xué)校的日常管理工作提供決策支持是目前亟待解決的問題,本文在此背景下展開研究,通過一卡通刷卡信息,分析學(xué)生的消費(fèi)習(xí)慣和行為特征,為不同類別學(xué)生畫像,系統(tǒng)分析框架圖如圖1所示。

      圖1 系統(tǒng)分析框架圖

      用戶的食堂就餐消費(fèi)和超市購物消費(fèi)所產(chǎn)生的數(shù)據(jù)都存于消費(fèi)數(shù)據(jù)庫中,圖書館刷卡的數(shù)據(jù)都存于圖書館數(shù)據(jù)庫中。經(jīng)過數(shù)據(jù)預(yù)處理從中抽取出相關(guān)特征屬性存放到數(shù)據(jù)倉庫中,通過數(shù)據(jù)挖掘取樣[7]建模,采用K-means聚類算法對數(shù)據(jù)倉庫中的數(shù)據(jù)集進(jìn)行聚類,對聚類結(jié)果進(jìn)行分析并以決策樹加以展示。

      2.2 K-means聚類算法

      聚類是按照某個(gè)特定標(biāo)準(zhǔn)把一個(gè)數(shù)據(jù)集分割成不同的類簇,使得同一個(gè)簇內(nèi)數(shù)據(jù)對象的相似性盡可能大,同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對象的差異性也盡可能地大。本文采用K-means算法對用戶刷卡數(shù)據(jù)進(jìn)行聚類分析。

      K-means算法[8]的核心思想是把n個(gè)數(shù)據(jù)對象劃分為k類,使每個(gè)聚類中的數(shù)據(jù)點(diǎn)到該聚類中心的平方和最小,基于K-means算法的用戶特征聚類過程如下:

      l)數(shù)據(jù)預(yù)處理。原始數(shù)據(jù)經(jīng)去噪、特征提取、特征值標(biāo)準(zhǔn)化后構(gòu)成用戶特征數(shù)據(jù)集n。

      2)用組內(nèi)方差圖選取合適K值,確定聚類個(gè)數(shù)。

      3)在用戶一卡通特征數(shù)據(jù)集n中任意選取K個(gè)數(shù)據(jù)作為初始聚類中心。

      4)分別計(jì)算每個(gè)對象到各聚類中心的最短距離,將對象分配到距離最近的聚類中。

      5)所有對象分配完成后,重新計(jì)算K個(gè)聚類的中心。

      6)與前一次計(jì)算得到的K個(gè)聚類中心比較,若聚類中心發(fā)生變化,轉(zhuǎn)4),直到聚類中心不發(fā)生變化或達(dá)到最大迭代次數(shù)為止。

      7)輸出聚類結(jié)果。

      算法流程圖如圖2所示。

      圖2 K-means算法流程圖

      首先從n個(gè)數(shù)據(jù)對象中任意選擇K個(gè)對象作為初始聚類中心,計(jì)算其他數(shù)據(jù)對象與這些聚類中心的相似度(距離),分別將他們分配給與其最相似的類簇。所有數(shù)據(jù)對象都分配結(jié)束后再重新計(jì)算每個(gè)類簇的聚類中心,不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。本文采用均方差作為標(biāo)準(zhǔn)測度函數(shù),如公式(1)所示:

      其中SSE為誤差的平方和,dist表示兩個(gè)對象之間的標(biāo)準(zhǔn)歐氏距離,ci為簇i的質(zhì)心,x為屬于簇i的數(shù)據(jù)點(diǎn)的集合。經(jīng)過聚類后,相似行為特征的用戶要聚成一簇,同一類簇盡可能地緊湊,不同類簇間盡可能地分開。

      3 用戶分類及數(shù)據(jù)分析

      3.1 數(shù)據(jù)預(yù)處理及特征提取

      一卡通數(shù)據(jù)儲(chǔ)存于oracle數(shù)據(jù)庫中,有消費(fèi)信息表、圖書館刷卡記錄表等,建表方式為按月建表,存放當(dāng)月全校所有的學(xué)生刷卡消費(fèi)信息。為方便得到聚類數(shù)據(jù)集,需要對數(shù)據(jù)進(jìn)行預(yù)處理[9],數(shù)據(jù)預(yù)處理主要剔除部分月份缺失和屬性值缺失的數(shù)據(jù)。數(shù)據(jù)預(yù)處理后就可以根據(jù)建模的需要提取相關(guān)的特征值,本文選取有效早餐次數(shù)、有效正餐次數(shù)、食堂刷卡次數(shù)、超市刷卡次數(shù)、圖書館刷卡次數(shù)、有效食堂消費(fèi)天數(shù)、年總額七維特征。

      有效早餐次數(shù)定義為學(xué)生早上8點(diǎn)前的有效刷卡次數(shù),如式(2)所示。其中distinct表示在這個(gè)時(shí)間段內(nèi),一天無論刷卡多少次記一次有效刷卡次數(shù)。

      有效正餐次數(shù)定義為學(xué)生的有效午餐次數(shù)與有效晚餐次數(shù)之和,如式(3)所示。有效午餐次數(shù)為11點(diǎn)到14點(diǎn)的有效刷卡次數(shù),有效晚餐次數(shù)為17點(diǎn)到20點(diǎn)的有效刷卡次數(shù)。其中distinct表示在這個(gè)時(shí)間段內(nèi),一天無論刷卡多少次記一次有效刷卡次數(shù)。

      有效食堂消費(fèi)天數(shù)定義為學(xué)生的有效刷卡天數(shù),即一天內(nèi)無論刷卡多少次記一次有效刷卡天數(shù)。食堂刷卡次數(shù)定義為學(xué)生在食堂的總刷卡次數(shù),超市刷卡次數(shù)定義為學(xué)生在超市的總刷卡次數(shù),圖書館刷卡次數(shù)定義為學(xué)生在圖書館的總刷卡次數(shù),年總額定義為學(xué)生在食堂超市消費(fèi)的總金額。

      所有用戶的七維特征系數(shù)提取后,為了讓數(shù)據(jù)分析得到更加泛化的結(jié)果,保證程序運(yùn)行時(shí)收斂加快,但并不改變問題的本質(zhì),對所有的特征值進(jìn)行Z-score標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化處理方法如式(4)所示。

      其中x為具體數(shù)值,μ表示平均值,σ表示標(biāo)準(zhǔn)差。這種方法對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1。

      3.2 最佳K值選取

      聚類算法中K值的選取非常關(guān)鍵,通常憑經(jīng)驗(yàn)分辨聚類結(jié)果好壞選K值或者通過輪廓系數(shù)圖等理論知識(shí)來指導(dǎo)K值選?。?0]。本文通過對處理后的樣本集進(jìn)行聚類實(shí)驗(yàn),得到不同K值和中心值下聚類的組內(nèi)方差值,繪制組內(nèi)方差圖以選取合適K值。最佳K值選取步驟如下:

      1)令 K=2,選取30組不同的seed(初始類中心值)進(jìn)行30次聚類實(shí)驗(yàn)。

      2)記錄下K=2及所選seed值聚類得到的SSE值。

      3)求得30組聚類實(shí)驗(yàn)得到的SSE平均值作為K=2時(shí)的組內(nèi)方差。

      4)令K從2增加到10,得到10組聚類的組內(nèi)方差值。

      利用特征數(shù)據(jù)值繪制的方差圖如圖3所示。

      圖3 組內(nèi)方差圖

      圖3中x軸代表聚類個(gè)數(shù),y軸代表平均組內(nèi)方差。當(dāng)聚類數(shù)目越大時(shí),每組的組內(nèi)方差越小??梢钥闯霎?dāng)聚類個(gè)數(shù)K>5后組內(nèi)方差下降趨勢變緩,同時(shí)K足夠小,故此選取K=5為聚類個(gè)數(shù)。

      3.3 聚類分析

      選取2015年6月至2016年7月一學(xué)年的數(shù)據(jù),數(shù)據(jù)集共包含17956人,其中男生4914人,女生13042人,由上文可知聚類的最佳K值為5,對標(biāo)準(zhǔn)化后的數(shù)據(jù)選擇30組不同的類中心值進(jìn)行聚類處理,避免局部最優(yōu)解,最終對應(yīng)SSE誤差平方和最小的即為最優(yōu)聚類結(jié)果,結(jié)果如表1所示。

      表1 聚類結(jié)果比較

      從表1得出,初始聚類中心為14400時(shí)所有樣本數(shù)據(jù)的總方差和SSE最小,聚類結(jié)果最佳,因此采用這一組的結(jié)果作為最終聚類結(jié)果。

      得到聚類中心后,根據(jù)可視化結(jié)果觀察食堂刷卡次數(shù)和早餐次數(shù)的散點(diǎn)圖,如圖4所示,其中x軸代表食堂刷卡次數(shù),y軸代表早餐次數(shù),各類別輪廓邊界分明,可以看出形成了比較明顯的聚類,驗(yàn)證了上述K值和中心值選取的合理性。

      圖4 食堂刷卡次數(shù)和早餐次數(shù)散點(diǎn)圖

      3.4 用戶消費(fèi)習(xí)慣分析

      由上述的聚類分類結(jié)果,分別統(tǒng)計(jì)各類別消費(fèi)原始數(shù)據(jù)的平均值,根據(jù)直方圖比較各類別的消費(fèi)差異,分析各特征人群[11]的消費(fèi)習(xí)慣,所得結(jié)果如圖5所示。

      圖5 各類別人群消費(fèi)習(xí)慣圖

      圖5中橫坐標(biāo)代表人群類別,縱坐標(biāo)分別代表用餐次數(shù)或刷卡次數(shù)。第Ⅰ類人群早餐次數(shù)、正餐次數(shù)和食堂次數(shù)都是最高值,且早餐次數(shù)明顯高于其他類,這類人群樂于早起,正常在食堂就餐,屬于生活極其自律的人群。第Ⅱ類人群和第Ⅰ類人群相比,僅早餐次數(shù)差距較大,說明第Ⅱ類人群的在校生活也比較規(guī)律。第Ⅲ類人群各項(xiàng)消費(fèi)在各類中都占第三,這類人群的消費(fèi)習(xí)慣比較均衡。第Ⅳ類人群早餐次數(shù)、正餐次數(shù)、食堂次數(shù)和超市次數(shù)都較少,推測這類人群更傾向于校外消費(fèi),生活自由度較大。第Ⅴ類人群早餐次數(shù)、正餐次數(shù)、食堂次數(shù)和超市次數(shù)都是最少的,和其他類相比差距很大,這類人群很少在校消費(fèi)。

      3.5 消費(fèi)人群畫像

      用戶五個(gè)類別聚類中心如表2所示,聚類中心點(diǎn)特征代表該類別人群特征的均值水平。

      表2 聚類中心

      由表2可知,第Ⅰ類人群。早餐次數(shù)和圖書館次數(shù)都明顯高于其他類,正餐次數(shù)、食堂刷卡次數(shù)、食堂刷卡天數(shù)和年消費(fèi)額都明顯高于均值,超市刷卡次數(shù)略高于均值。這類人群習(xí)慣早起吃早餐,按時(shí)在食堂就餐,生活極其規(guī)律,生活習(xí)慣非常好。還喜歡去圖書館學(xué)習(xí),學(xué)習(xí)習(xí)慣也非常好,是傳統(tǒng)的好學(xué)生的生活習(xí)慣。推測這類人群是按時(shí)作息,學(xué)習(xí)成績比較好的學(xué)霸型。

      第Ⅱ類人群。早餐次數(shù)略大均值,正餐次數(shù)、食堂刷卡次數(shù)、食堂刷卡天數(shù)、年消費(fèi)額都明顯大于均值,超市刷卡次數(shù)也明顯大于均值,圖書館次數(shù)略小于均值。這類人群在食堂超市消費(fèi)的記錄都很規(guī)律,按時(shí)就餐偶爾也能早起吃早餐,在校生活習(xí)慣較好。圖書館次數(shù)較少,說明學(xué)習(xí)積極性還有待提高,屬于學(xué)習(xí)潛力型,若能再提高早餐習(xí)慣和去圖書館學(xué)習(xí)的習(xí)慣,這類人群的成績將有很大的提升空間。

      第Ⅲ類人群。除食堂刷卡天數(shù)略大于均值,其他特征值都與均值比較均衡。這類人群去食堂、超市、圖書館的情況比較正常,是大多數(shù)人的生活習(xí)慣,屬于群眾型。

      第Ⅳ類人群。早餐次數(shù)、午餐次數(shù)、食堂刷卡次數(shù)、食堂刷卡天數(shù)、年消費(fèi)額都小于均值,超市刷卡次數(shù)和圖書館刷卡次數(shù)略小于均值。這類人群較少早起吃早餐,也較少在食堂就餐,推測經(jīng)常晚睡晚起,偏愛叫外賣。去超市的次數(shù)也略少,推測喜歡網(wǎng)購。圖書館去得不多,說明學(xué)習(xí)不夠勤奮。推測這類人群是偏愛網(wǎng)絡(luò)生活的宅男宅女型。

      第Ⅴ類人群。各特征值為所有類別中最低值,早餐、正餐次數(shù)很低,食堂刷卡次數(shù)、食堂刷卡天數(shù)和年消費(fèi)額都很低,很少在食堂就餐。超市刷卡次數(shù)和圖書館刷卡次數(shù)極低,說明也很少在學(xué)校超市消費(fèi),很少去圖書館學(xué)習(xí),推測這類人群的個(gè)性化較強(qiáng),自我掌控空間較大。

      上海交大的EMC杯智慧校園開放數(shù)據(jù)大賽,選取了學(xué)生在食堂、洗浴中心及超市的消費(fèi)次數(shù)、平均消費(fèi)金額作為特征值,對消費(fèi)人群進(jìn)行聚類畫像分析后得到了女神or男神、潛力股or學(xué)術(shù)帝、宅男、奇行種和人民群眾這五類人群畫像,從生活化方向?qū)淮髮W(xué)生進(jìn)行了人群畫像,重點(diǎn)突出了不同人群在學(xué)校的生活習(xí)慣。本文采用了不同的聚類特征值,以生活和學(xué)習(xí)兩方面相結(jié)合為出發(fā)點(diǎn)對華中師范大學(xué)學(xué)生進(jìn)行了人群畫像[12],得到了符合我校本科生在校生活學(xué)習(xí)的不同人群特征,為校園管理者提供了管理決策參考的價(jià)值。

      4 實(shí)驗(yàn)結(jié)果評估

      4.1 用戶行為模式聚類的有效性分析

      選取數(shù)據(jù)集中某理科院系2013~2015級(jí)本科生的數(shù)據(jù)作為聚類數(shù)據(jù)集來驗(yàn)證聚類的有效性。同上文的聚類方式對此院本科生的數(shù)據(jù)進(jìn)行特征采集、標(biāo)準(zhǔn)化處理后分成五類,然后計(jì)算各類人群的課程成績優(yōu)秀率,結(jié)果如表3所示。

      表3 各類人群優(yōu)秀率

      學(xué)霸型人群中80.46%的學(xué)生學(xué)習(xí)成績達(dá)優(yōu)秀,優(yōu)秀率明顯高于其他類人群,符合生活學(xué)習(xí)習(xí)慣極其規(guī)律學(xué)生的成績特征。奇行類人群中29.09%的學(xué)生學(xué)習(xí)成績達(dá)優(yōu)秀,優(yōu)秀率明顯低于其他類人群,但也有成績優(yōu)秀的學(xué)生,說明這類人群中有自主安排學(xué)習(xí)能力極強(qiáng)的個(gè)性化學(xué)生。學(xué)習(xí)潛力型的優(yōu)秀率達(dá)到54.85%,說明這類人群的可塑性很高,調(diào)整下學(xué)習(xí)習(xí)慣亦能成為學(xué)霸型人群。宅男宅女型的優(yōu)秀率不足40%,體現(xiàn)了生活學(xué)習(xí)習(xí)慣不佳的確影響學(xué)習(xí)成績。群眾型的優(yōu)秀率在五類人群中的中等位置,說明大部分人的學(xué)習(xí)生活習(xí)慣處于規(guī)律與不規(guī)律之間,隨著年級(jí)的增長很可能會(huì)向其他類型人群轉(zhuǎn)變。

      4.2 決策樹模型

      本文利用WEKA[13]J48中的C4.5算法對聚類后的數(shù)據(jù)集進(jìn)行決策樹建模[14],通過 REP(Reduced Error Pruning錯(cuò)誤率降低剪枝)剪枝處理[15]后生成的決策樹圖如圖6所示。

      圖6 剪枝后生成決策樹圖

      其中stday代表食堂刷卡天數(shù),stcs代表食堂刷卡次數(shù),8zao代表8點(diǎn)前早餐次數(shù),dinner代表正餐次數(shù),library代表圖書館打卡次數(shù),nze代表年消費(fèi)總額。由圖6可知,食堂刷卡天數(shù)是關(guān)鍵屬性,先對食堂刷卡天數(shù)進(jìn)行判斷,當(dāng)食堂刷卡天數(shù)小于-1.28時(shí),用戶分為第Ⅴ類人群。當(dāng)食堂刷卡天數(shù)大于-1.28小于-0.35時(shí)分為第Ⅳ類人群宅男宅女型。當(dāng)食堂刷卡天數(shù)大于-0.35小于-0.1,且食堂刷卡次數(shù)小于-0.4時(shí),分為第Ⅳ類人群,但食堂刷卡次數(shù)大于-0.4時(shí)分為第Ⅲ類人群群眾型。當(dāng)食堂刷卡天數(shù)大于-0.1且早餐次數(shù)大于1.2時(shí)分為第Ⅰ類人群學(xué)霸型。然后再依次分裂,達(dá)到分裂結(jié)束條件時(shí)分為具體類別。每個(gè)所分的類別中都有給出2個(gè)數(shù)值,前面的代表分類正確的數(shù)目,后面代表分錯(cuò)的數(shù)目。通過決策樹樹狀圖能夠很清晰地判斷出聚類的好壞,進(jìn)一步驗(yàn)證了上述實(shí)驗(yàn)的合理性及可靠性。利用圖6的決策樹模型可對學(xué)生進(jìn)行有效分類,以對學(xué)生管理工作提供依據(jù)。

      5 結(jié)語

      通過分析學(xué)生一卡通的消費(fèi)記錄和圖書館刷卡記錄,提取出與學(xué)生在?;顒?dòng)密切相關(guān)的特征屬性,8點(diǎn)前早餐次數(shù)、正餐次數(shù)、食堂刷卡次數(shù)、超市刷卡次數(shù)、圖書館刷卡次數(shù)、食堂刷卡天數(shù)和年總額,標(biāo)準(zhǔn)化處理后通過K-means聚類分出了5類,根據(jù)聚類的簇特征給5類人群畫像為奇行類、宅男宅女型、群眾型、學(xué)習(xí)潛力型和學(xué)霸型,并驗(yàn)證了分類的正確性。對高校的學(xué)生管理工作具有一定的參考價(jià)值。

      猜你喜歡
      刷卡天數(shù)早餐
      本周連漲天數(shù)居前個(gè)股
      本周連跌天數(shù)居前個(gè)股
      你怎么過早餐,就怎么過一生
      好日子(2021年8期)2021-11-04 09:02:40
      早餐
      生日謎題
      吃早餐
      幼兒園(2016年8期)2016-05-19 19:25:10
      刷卡
      成長日記
      刷臉就可以購物
      奧秘(2014年8期)2014-08-30 06:32:04
      二月為什么天數(shù)最少
      清河县| 苏州市| 亚东县| 温宿县| 隆林| 永济市| 永泰县| 邳州市| 犍为县| 柯坪县| 德格县| 灵石县| 全椒县| 四平市| 日照市| 峨眉山市| 金沙县| 博罗县| 凭祥市| 万州区| 石棉县| 黄冈市| 浮山县| 托里县| 卓尼县| 施秉县| 上饶市| 苏尼特右旗| 宁武县| 长武县| 百色市| 长春市| 特克斯县| 儋州市| 本溪市| 康定县| 阿勒泰市| 阿拉善右旗| 盈江县| 灵石县| 昌图县|