劉文開 焦飛
摘要:為從師生消費(fèi)行為數(shù)據(jù)中找出有價(jià)值的信息,該文把某高校的校園一卡通中的交易筆數(shù)作為研究對(duì)象,使用RapidMiner工具進(jìn)行數(shù)據(jù)挖掘。對(duì)原始數(shù)據(jù)預(yù)處理、選擇合適的模型并進(jìn)行評(píng)估,挖掘出師生食堂消費(fèi)行為的規(guī)律,并預(yù)測未來交易總量。預(yù)測的準(zhǔn)確率較高,相對(duì)誤差達(dá)到可接受的區(qū)間。高校管理者可以運(yùn)用這些信息進(jìn)行科學(xué)、高效的管理,從而讓管理水平得到一定的突破。
關(guān)鍵詞:校園一卡通;RapidMiner;食堂;預(yù)測;數(shù)據(jù)挖掘
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)28-0034-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Data Mining and Forecast of Campus One-card Based on RapidMiner
LIU Wen-kai, JIAO Fei
(Zhaoqing University, Zhaoqing 526061, China)
Abstract: In order to find out valuable information from the consumption behavior data of teachers and students, this paper takes the campus one-card transaction data of a university as the research object, and uses RapidMiner tool for data mining. The original data is preprocessed at first and the appropriate model is chosen and evaluated. The rules of consumption behavior of teachers and students in the canteen can be found out. The total volume of future transactions can be forecasted The accuracy of forecast is high, and the relative error reaches an acceptable range. Administrators of the university can use this information for scientific and efficient management, so as to get a breakthrough in the management level.
Key words: campus one-card; RapidMiner; canteen; forecast; data mining
1 背景
當(dāng)今社會(huì)處于信息技術(shù)高速發(fā)展的時(shí)期,各行各業(yè)都會(huì)產(chǎn)生很多數(shù)據(jù)。同時(shí),數(shù)據(jù)挖掘、大數(shù)據(jù)、云計(jì)算等信息技術(shù)日新月異,發(fā)展很快,使得眾多高校日益重視本身的校園信息化建設(shè)。校園一卡通建設(shè)在校園信息化建設(shè)中又是優(yōu)先建設(shè)的重點(diǎn)。而校園一卡通的使用過程,就是各種相關(guān)數(shù)據(jù)信息的流通與存儲(chǔ)。比如,師生使用校園一卡通進(jìn)行刷卡消費(fèi)、門禁刷卡、上課考勤、會(huì)議考勤、水電充值和圖書借閱等[1],都會(huì)產(chǎn)生數(shù)據(jù)。產(chǎn)生的每一條簡單的數(shù)據(jù)匯聚存儲(chǔ)起來就形成了一個(gè)龐大的數(shù)據(jù)庫。如果針對(duì)這個(gè)數(shù)據(jù)庫去提取、處理、分析,就可以形成一份非常有用的報(bào)告?;趫?bào)告的分析與結(jié)果,既可為校園建設(shè)提供科學(xué)依據(jù),也可提升學(xué)校相關(guān)職能部門的管理水平。
以某高校校園一卡通消費(fèi)系統(tǒng)的食堂營收數(shù)據(jù)為研究對(duì)象,對(duì)營收數(shù)據(jù)深入挖掘并加以處理分析,找到高校師生在食堂的消費(fèi)行為習(xí)慣,預(yù)測未來的數(shù)據(jù)變化趨勢,形成可靠建議供學(xué)校相關(guān)職能部門參考,從而改進(jìn)管理與服務(wù)方式,通過食堂精準(zhǔn)服務(wù)促進(jìn)營收[2]。該高校接近3萬師生,每人都配有一卡通校園卡,食堂售賣無現(xiàn)金,也沒有微信或支付寶直接支付,所以食堂的收入幾乎都是來自一卡通刷卡行為。因此,以一卡通食堂消費(fèi)數(shù)據(jù)來研究分析與預(yù)測師生在食堂消費(fèi)行為習(xí)慣是可行的。結(jié)合現(xiàn)有的分析方法與類似案例,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,再通過合適的模型進(jìn)行挖掘分析,找出消費(fèi)產(chǎn)生的時(shí)間序列發(fā)展的趨勢和規(guī)律,得出師生消費(fèi)行為習(xí)慣的結(jié)果,最后檢驗(yàn)結(jié)果的準(zhǔn)確性并預(yù)測發(fā)展趨勢。挖掘過程總的流程圖如圖1所示。
2 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中建立合適的算法模型,根據(jù)一定的算法找出隱含的規(guī)律或人們感興趣的信息。為使結(jié)果精準(zhǔn)、可靠,首先要提高被挖掘數(shù)據(jù)的質(zhì)量,即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。這里選取的數(shù)據(jù)挖掘工具為RapidMiner 9.4版本。RapidMiner提供了豐富的數(shù)據(jù)挖掘分析和算法功能,用戶通過圖形化開發(fā)環(huán)境,用拖拽的方式來設(shè)計(jì)分析流程,使用便捷,無需編程就可以進(jìn)行分析挖掘[3]。它運(yùn)算速度快,常用于解決各種商業(yè)關(guān)鍵問題。為達(dá)到RapidMiner數(shù)據(jù)挖掘的數(shù)據(jù)需求,數(shù)據(jù)準(zhǔn)備一般需要數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理等。
2.1 數(shù)據(jù)抽取
目前,某高校一卡通建設(shè)還處于初級(jí)階段,校園卡主要用途為食堂消費(fèi)。根據(jù)初步統(tǒng)計(jì)的結(jié)果,發(fā)現(xiàn)食堂消費(fèi)占約94.8%,而師生考勤、門禁等刷卡功能還不成熟,沒有得到普遍應(yīng)用,僅僅占約5.2%。在食堂消費(fèi)中,消費(fèi)行為又分別發(fā)生在6個(gè)食堂,因此需要抽取全部食堂消費(fèi)的總流水?dāng)?shù)據(jù)作為研究對(duì)象。然后考慮到物價(jià)隨時(shí)間會(huì)有變化,實(shí)驗(yàn)中只分析全部食堂交易流水中總的交易筆數(shù)而不是消費(fèi)金額。借助RapidMiner工具,將作為訓(xùn)練數(shù)據(jù)集的一卡通各個(gè)食堂交易筆數(shù)總和抽取出來,在RapidMiner設(shè)計(jì)視圖(Design)中導(dǎo)入操作流程(Process)。
2.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理階段,是提高數(shù)據(jù)的質(zhì)量并使其適合用于RapidMiner工具進(jìn)行挖掘,其主要內(nèi)容為數(shù)據(jù)清洗、缺失值處理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。食堂消費(fèi)數(shù)據(jù)比較規(guī)范,只需進(jìn)行數(shù)據(jù)清洗、缺失值分析和異常值分析即可。
數(shù)據(jù)清洗的主要目的是根據(jù)高校的需求和建模的特點(diǎn)篩選出需要的數(shù)據(jù)。校園一卡通系統(tǒng)中的食堂消費(fèi)數(shù)據(jù)主要是由教師、學(xué)生產(chǎn)生,但還有一些由教師家屬、工勤教輔人員和參加培訓(xùn)的少量社會(huì)人士刷卡產(chǎn)生,為了保證研究數(shù)據(jù)的可靠性和穩(wěn)定性,需要抽取教師和學(xué)生這個(gè)主體對(duì)象的數(shù)據(jù),而把其它噪音數(shù)據(jù)清理掉。數(shù)據(jù)導(dǎo)入時(shí),在“Cell range”處選擇教師和學(xué)生所在字段即可達(dá)到數(shù)據(jù)清洗的目的。
對(duì)數(shù)據(jù)進(jìn)行簡單的視覺評(píng)估,發(fā)現(xiàn)因停電、自然災(zāi)害等不可抗拒因素造成的數(shù)據(jù)缺失,調(diào)用“Replace Missing Value”操作符對(duì)缺失值進(jìn)行插補(bǔ)。插值法有很多種,這里采用均值插補(bǔ)法。還有極少部分異常值,通過視覺評(píng)估很容易發(fā)現(xiàn),可以調(diào)用“Filter Examples”操作符添加過濾條件以過濾掉這些異常值。
3 數(shù)據(jù)分析和挖掘
3.1 數(shù)據(jù)初步分析
對(duì)高校食堂的營業(yè)數(shù)據(jù)進(jìn)行分析,得出結(jié)論如下:
1)以學(xué)年為時(shí)間軸,食堂一個(gè)學(xué)年的營業(yè)數(shù)據(jù)規(guī)律性地出現(xiàn)了兩個(gè)分水嶺,分別是節(jié)假日(周六、周日、寒假、暑假)和工作日的食堂消費(fèi),節(jié)假日的刷卡消費(fèi)數(shù)據(jù)遠(yuǎn)小于工作日的刷卡消費(fèi)數(shù)據(jù),說明校內(nèi)師生更多是選擇工作日在學(xué)校食堂消費(fèi)。
2)節(jié)假日師生外出消費(fèi)多,特別是寒、暑假留校師生很少,分析食堂節(jié)假日的刷卡消費(fèi)數(shù)據(jù),沒有明顯的消費(fèi)時(shí)間峰值規(guī)律,通過食堂刷卡數(shù)據(jù)來尋找相關(guān)時(shí)間序列,要排除節(jié)假日與寒暑假的季節(jié)性的影響。
3)工作日有幾個(gè)規(guī)律的消費(fèi)高峰時(shí)間段,分別是7:40-8:10,9:40-10:00,11:30-12:10,17:00-17:30。食堂出現(xiàn)消費(fèi)高峰期與學(xué)校上、下課時(shí)間、食堂的位置有關(guān);午餐數(shù)據(jù)峰值明顯高于晚餐數(shù)據(jù)峰值,說明晚上部分師生沒有在學(xué)校進(jìn)餐。
4)食堂年?duì)I業(yè)數(shù)據(jù)中,2017年食堂刷卡數(shù)據(jù)同比出現(xiàn)了顯著的急速下降,之后2018至2020年食堂消費(fèi)數(shù)據(jù)同比都顯著下降,這是由于學(xué)校因特殊情況在2017年開始逐年大量減少招生人數(shù),因而出現(xiàn)食堂刷卡消費(fèi)逐年減少的結(jié)果。
3.2 模型建立
數(shù)據(jù)準(zhǔn)備完成后,接著進(jìn)入建模階段,尋找最優(yōu)的算法。食堂交易筆數(shù)的月資料是以月為單位的時(shí)間序列,而時(shí)間序列分析和預(yù)測常使用分類和回歸類型的算法。這里嘗試了線性回歸、ARIMA和神經(jīng)網(wǎng)絡(luò)三種模型[4]。以ARIMA模型為例,在RapidMiner設(shè)計(jì)界面中模型建立的流程如圖2所示。
首先,對(duì)訓(xùn)練數(shù)據(jù)集調(diào)用“Set Role”操作符,和訓(xùn)練數(shù)據(jù)輸出端鏈接,在參數(shù)設(shè)置界面里,選擇訓(xùn)練數(shù)據(jù)集中“交易筆數(shù)”的字段作為 “l(fā)abel”,即對(duì)它指定為標(biāo)簽類型,后面模型學(xué)習(xí)中還會(huì)繼續(xù)如此設(shè)置這個(gè)字段為一個(gè)標(biāo)記屬性。對(duì)于測試數(shù)據(jù)集也重復(fù)以上的操作。然后,為了找出訓(xùn)練數(shù)據(jù)集中找出各項(xiàng)之間的關(guān)聯(lián)關(guān)系,調(diào)用“Correlation Matrix”操作符,建立相關(guān)鏈接,進(jìn)行關(guān)聯(lián)規(guī)則分析。結(jié)果發(fā)現(xiàn)交易筆數(shù)與時(shí)間的相關(guān)性很高,其他字段都遠(yuǎn)遠(yuǎn)低于0.5,所以被RapidMiner自動(dòng)剔除。
然后,調(diào)用“Split Data”分割數(shù)據(jù)操作符,將食堂消費(fèi)數(shù)據(jù)選取90%設(shè)置為訓(xùn)練數(shù)據(jù),10%設(shè)置為測試數(shù)據(jù)。再調(diào)用ARIMA模型操作符并調(diào)用“Apply Model”應(yīng)用模型操作符。同樣,可選擇“Linear Regression”線性回歸和“Neural Net”神經(jīng)網(wǎng)絡(luò)模型進(jìn)行測試。
3.3 模型評(píng)估
模型評(píng)估就是評(píng)估數(shù)據(jù)挖掘中用到的算法模型對(duì)挖掘分析和預(yù)測結(jié)果的準(zhǔn)確性影響,通過檢測結(jié)果的是否在置信區(qū)間,誤差是否可以接受,判定結(jié)果是否達(dá)到目的。連接“Performance”性能測試操作符,驗(yàn)證模型的準(zhǔn)確性。對(duì)本次樣本數(shù)據(jù),ARIMA模型預(yù)測分析具有較高的準(zhǔn)確度,預(yù)測效果是最好的。將需要預(yù)測的新數(shù)據(jù)導(dǎo)入模型,連接“Apply Model”應(yīng)用模型,運(yùn)行并輸出預(yù)測結(jié)果。調(diào)用“Validation”交叉驗(yàn)證數(shù)據(jù)集進(jìn)行模型評(píng)估,如圖3所示。進(jìn)去交叉驗(yàn)證操作符,里面還有子流程,可以選擇ARIMA等多個(gè)模型.進(jìn)行驗(yàn)證。如圖4所示。
用相對(duì)絕對(duì)誤差、平均絕對(duì)誤差、根均方差、相對(duì)平方根誤差等指標(biāo)來衡量。這里選用相對(duì)絕對(duì)誤差來衡量,符合預(yù)期。預(yù)測值和實(shí)際值統(tǒng)計(jì)結(jié)果如表1所示。
4 高校食堂管理改進(jìn)措施
通過實(shí)驗(yàn)來構(gòu)建出師生消費(fèi)的時(shí)間序列曲線,可以更深層次挖掘數(shù)據(jù)里面的意義[5]。首先,食堂節(jié)假日與工作日的消費(fèi)量不同,前者明顯小于后者;其次,工作日食堂刷卡消費(fèi)有明顯且規(guī)律的峰值。因此,通過學(xué)校師生的消費(fèi)習(xí)慣分析,建議食堂管理部門調(diào)整經(jīng)營管理策略。
1)在就餐高峰期加派工作人員,增加服務(wù)窗口,減少排隊(duì)現(xiàn)象。
2)增加菜品數(shù)量,改善菜品味道,推出不同特色菜品,盡可能滿足不同消費(fèi)者品位,吸引更多師生回歸食堂消費(fèi)。
3)位置靠近學(xué)生生活區(qū)和教學(xué)樓的飯?zhí)?,是最多師生就餐選擇的食堂,所以要繼續(xù)重視服務(wù)與菜品,才能做到不流失舊消費(fèi)者,吸引新的師生在此養(yǎng)成就餐習(xí)慣。
4)主要食堂每天進(jìn)餐人數(shù)最多,可適當(dāng)延長營業(yè)時(shí)間。在保持好三餐服務(wù)質(zhì)量的前提下,增加下午茶或者宵夜菜品,加強(qiáng)服務(wù),打造學(xué)校品牌和口碑。
5)位置較偏且陳舊的飯?zhí)茫腿萘啃?,需要學(xué)校下?lián)苜Y金進(jìn)行翻新整改,改善照明與通風(fēng)。由于位置較偏不能改變,建議食堂推出特色餐,差別營銷,吸引顧客。
5 結(jié)束語
本文以某高校近5年的食堂消費(fèi)數(shù)據(jù)為對(duì)象,將數(shù)據(jù)挖掘平臺(tái)RapidMiner應(yīng)用于高校一卡通數(shù)據(jù)的分析與預(yù)測,結(jié)合學(xué)校實(shí)際情況來判定食堂經(jīng)營情況與預(yù)測經(jīng)營發(fā)展趨勢。運(yùn)用多種模型訓(xùn)練并進(jìn)行比較,找出性能最優(yōu)的ARIMA模型,然后對(duì)模型應(yīng)用和預(yù)測,與實(shí)際值比較,預(yù)測效果良好。今后,隨著一卡通系統(tǒng)功能的進(jìn)一步擴(kuò)展,將會(huì)產(chǎn)生大量的上課考勤數(shù)據(jù),圖書借閱數(shù)據(jù),琴房借用數(shù)據(jù)等,這些數(shù)據(jù)存在有價(jià)值的信息,若能夠運(yùn)用現(xiàn)代信息技術(shù)去充分挖掘里面的令人感興趣的東西,將會(huì)給學(xué)校的整體管理提供更大的幫助。
參考文獻(xiàn):
[1] 袁學(xué)松.智慧校園一卡通建設(shè)實(shí)踐和探索[J].電腦知識(shí)與技術(shù),2020,16(10):42-43.
[2] 龔黎旰,顧坤,明心銘,等.基于校園一卡通大數(shù)據(jù)的高校學(xué)生消費(fèi)行為分析[J].深圳大學(xué)學(xué)報(bào)(理工版),2020,37(S1):150-154.
[3] 李冠利.基于RapidMiner數(shù)據(jù)挖掘技術(shù)的NCRE成績預(yù)測分析[J].南京廣播電視大學(xué)學(xué)報(bào),2018(4):80-82.
[4] Huang T W,Jiao F.Study on data transfer in meteorological forecast of small and medium-sized cities and its application in Zhaoqing city[J].The Computer Journal,2020,63(7):1076-1083.
[5] 曹芳,章翰源.基于大數(shù)據(jù)的學(xué)生食堂消費(fèi)畫像構(gòu)建及其應(yīng)用[J].湖南郵電職業(yè)技術(shù)學(xué)院學(xué)報(bào),2020,19(4):27-30.
【通聯(lián)編輯:謝媛媛】