蘇兆兆 欒靜
摘要:目前高校本科生的身體素質(zhì)普遍下降,大學(xué)生除了加強(qiáng)體育鍛煉外,還需要在日常飲食上注意養(yǎng)成良好的習(xí)慣。校園卡是高校智能化管理的重要手段和媒介,學(xué)生在校園內(nèi)的各項活動都能通過校園卡后臺管理系統(tǒng)反映出來,將學(xué)生消費(fèi)數(shù)據(jù)從數(shù)據(jù)庫中提取出來,分析學(xué)生的三餐消費(fèi)情況,通過關(guān)聯(lián)分析不同消費(fèi)屬性之間的關(guān)聯(lián)強(qiáng)度得到學(xué)生的就餐習(xí)慣。對不在食堂就餐的學(xué)生,應(yīng)重點(diǎn)關(guān)注這類學(xué)生的就餐問題,確保學(xué)生按時就餐,不節(jié)食。
關(guān)鍵詞:本科生;校園卡;飲食消費(fèi);數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
1引言
隨著經(jīng)濟(jì)的快速發(fā)展和物質(zhì)生活水平的提高,很多高校大學(xué)生的身體素質(zhì)卻在下降,根據(jù)《國民體質(zhì)監(jiān)測公報(2014)》調(diào)查顯示,與前幾年相比,學(xué)生體質(zhì)與健康狀況總體改善,中小學(xué)生身體素質(zhì)繼續(xù)呈現(xiàn)穩(wěn)中向好趨勢,而大學(xué)生身體素質(zhì)繼續(xù)呈現(xiàn)下降趨勢。很多高校對學(xué)生的體育課程數(shù)量作了添加,以期提高學(xué)生的身體素質(zhì)。除了體育鍛煉外,是不是存在部分學(xué)生因為飲食不規(guī)律而導(dǎo)致身體素質(zhì)下降?如男生熬夜玩游戲?qū)е聸]有時間吃早餐,女生為了瘦身節(jié)食等情況。本論文通過對在校本科生的消費(fèi)挖掘分析,得到學(xué)生的就餐情況,對飲食不規(guī)律的學(xué)生,校方和老師要加強(qiáng)管理,及時解決存在的問題,培養(yǎng)良好的飲食習(xí)慣。
2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的目的是提高數(shù)據(jù)質(zhì)量,通過對所收集的不同來源數(shù)據(jù)的審核、清理、補(bǔ)充完善等一系列操作,保證數(shù)據(jù)的挖掘和分析結(jié)果。
2.1數(shù)據(jù)收集
數(shù)據(jù)收集是根據(jù)目的需求,收集所需數(shù)據(jù)到單個位置以便挖掘分析。由于本校的校園卡管理系統(tǒng)覆蓋各個層面,包括多個應(yīng)用平臺,因此本論文的數(shù)據(jù)分別來源于校園卡管理平臺下的綜合業(yè)務(wù)管理子系統(tǒng)(留學(xué)生餐廳、馕房消費(fèi))、商務(wù)子系統(tǒng)(昆侖校區(qū)食堂、商店消費(fèi))、第三方對接子系統(tǒng)(國際教育大廈水控、商店、休閑吧消費(fèi))、POS子系統(tǒng)(溫泉校區(qū)漢餐及清餐充值、消費(fèi))等不同子系統(tǒng)。整理匯總后,本論文從校園卡后臺數(shù)據(jù)庫獲取的2016-2017學(xué)年第一學(xué)期138天的消費(fèi)流水?dāng)?shù)據(jù)量約801萬條。
2.2數(shù)據(jù)清理
數(shù)據(jù)清理是通過約簡數(shù)據(jù)和屬性、糾正錯誤、填寫缺失值等可行性操作來保證數(shù)據(jù)的質(zhì)量。本論文對匯總后801萬條消費(fèi)流水?dāng)?shù)據(jù)進(jìn)行審核后,發(fā)現(xiàn)不同子系統(tǒng)平臺下的數(shù)據(jù)格式不同,各屬性列所占存儲空間也不同,為提高數(shù)據(jù)的一致性,本論文將采用下列四種不同方式的數(shù)據(jù)清理。
2.2.1約簡數(shù)據(jù)
本論文的分析主體為在校本科生,因此約簡了外國留學(xué)生、教職工、研究生等15項與本論文研究無關(guān)人員的數(shù)據(jù),約簡后的數(shù)據(jù)量為538萬條。
2.2.2約簡屬性
本論文的分析主題為在校本科生的飲食消費(fèi),因此約簡了開戶單位、賬戶類型、操作員、流水狀態(tài)、交易單位等16項與學(xué)生消費(fèi)無關(guān)的屬性。
2.2.3糾正錯誤
本論文審核數(shù)據(jù)時發(fā)現(xiàn)由于業(yè)務(wù)操作員的誤拼或者輸入法的切換沖突等,導(dǎo)致民族學(xué)生姓名中的分隔符“·”,錯誤顯示為“?”或“-”等,因此在導(dǎo)人數(shù)據(jù)庫之后糾正錯誤信息,糾正為正確的“·”。
2.2.4填寫缺失值
因為學(xué)?,F(xiàn)有三個校區(qū),當(dāng)學(xué)生在三個校區(qū)之間活動時,偶爾會因為網(wǎng)絡(luò)延遲或者不同子系統(tǒng)間上傳數(shù)據(jù)而產(chǎn)生亂碼,本論文將亂碼數(shù)據(jù)分別歸類填寫到相應(yīng)的屬性列中。
3數(shù)據(jù)挖掘分析思路及方法
確定分析思路主要是為了準(zhǔn)確、全面分析學(xué)生的就餐情況。本論文將從三餐消費(fèi)維度切人對在校本科生的消費(fèi)情況作統(tǒng)計、挖掘分析。
3.1三餐分析
每日三餐是學(xué)生在校內(nèi)學(xué)習(xí)和生活的基礎(chǔ)保障,也是學(xué)生自我管理的體現(xiàn),通過對在校本科生的一日三餐統(tǒng)計分析,了解學(xué)生的飲食情況,幫助老師規(guī)范學(xué)生飲食習(xí)慣。本論文從日常的消費(fèi)流水?dāng)?shù)據(jù)中,將學(xué)生的三餐根據(jù)對應(yīng)的時間段分別統(tǒng)計,每餐的所有刷卡次數(shù)和金額累計為該餐的一次消費(fèi)和金額,統(tǒng)計出三餐的就餐天數(shù)后計算三餐的就餐率,根據(jù)各餐的頻繁性得到學(xué)生的就餐習(xí)慣。
3.2算法選擇
算法是對問題解決方案的準(zhǔn)確而完整的描述,確定分析維度之后,將數(shù)據(jù)收斂到與分析主題相關(guān)的范圍,提高數(shù)據(jù)的處理速度與準(zhǔn)確性,然后選擇合適、高效的算法來分析。
3.2.1統(tǒng)計分析
統(tǒng)計分析是應(yīng)用最廣泛的數(shù)據(jù)處理技術(shù),通常三個步驟即可完成對數(shù)據(jù)的操作,即收集-整理-分析。本論文將不同來源的食堂消費(fèi)流水?dāng)?shù)據(jù)收集整理后,對學(xué)生三餐消費(fèi)數(shù)據(jù)進(jìn)行分析,如統(tǒng)計出各餐的消費(fèi)人數(shù)及天數(shù),查看隨著時間的增加,學(xué)生的消費(fèi)天數(shù)是否增加,有多少學(xué)生能保證規(guī)律性就餐,學(xué)生的就餐趨勢是遞增還是遞減。
3.2.2關(guān)聯(lián)分析
關(guān)聯(lián)規(guī)則挖掘的主要目的在于發(fā)現(xiàn)數(shù)據(jù)中有意義的關(guān)聯(lián)關(guān)系。本論文通過創(chuàng)建關(guān)聯(lián)矩陣,查看所有學(xué)生的消費(fèi)金額、天數(shù)與總金額之間的關(guān)聯(lián)強(qiáng)度。前面通過統(tǒng)計的方式分別計算機(jī)出學(xué)生的三餐消費(fèi)天數(shù)和消費(fèi)金額、學(xué)期總消費(fèi)次數(shù)和總金額,利用關(guān)聯(lián)分析查看每個學(xué)生的三餐對總消費(fèi)的影響和支持度,哪些餐次頻繁出現(xiàn)、在學(xué)生總消費(fèi)中所占權(quán)重最大,學(xué)生的消費(fèi)習(xí)慣是否一樣,這些都將通過各屬性之間的關(guān)聯(lián)系數(shù)體現(xiàn)出來。
關(guān)聯(lián)系數(shù)位于矩陣中,它是表示關(guān)系強(qiáng)度的一種指標(biāo),取值范圍在±0至±1之間,所有介于0到1之間的關(guān)聯(lián)系數(shù)都表示正關(guān)聯(lián),所有介于0到-1之間的關(guān)聯(lián)系數(shù)都表示負(fù)關(guān)聯(lián)。在屬性與自身相交的位置,關(guān)聯(lián)系數(shù)為“1”,因為任何事物在與自身進(jìn)行比較時都具有完全匹配的關(guān)系,所有其他屬性對的關(guān)聯(lián)系數(shù)都小于1。
3.3工具選擇
3.3.1統(tǒng)計工具
本論文對校園卡消費(fèi)流水?dāng)?shù)據(jù)的統(tǒng)計分析使用了SQLServer 2012數(shù)據(jù)庫,SQL Server是關(guān)系數(shù)據(jù)庫管理系統(tǒng),支持存儲過程、ODBC等,且自身包含的SQL語言操作方便。由于數(shù)據(jù)量大,且存儲過程具有執(zhí)行數(shù)度快,代碼可重用、共享等優(yōu)點(diǎn),本論文使用存儲過程來實現(xiàn)對數(shù)據(jù)的操作。
3.3.2挖掘工具
本論文使用的數(shù)據(jù)挖掘工具是RapidMiner Studio開源工具,RapidMiner是目前世界上開源工具中比較可靠、先進(jìn)的數(shù)據(jù)挖掘工具,軟件自帶1500多個函數(shù),無需編程,拖拽建模,并且可連接多個類型的數(shù)據(jù)庫,能實現(xiàn)完整的建模步驟,從數(shù)據(jù)的加載、匯集到轉(zhuǎn)化,再到分析和預(yù)測。
本論文將RapidMiner和SQL Server數(shù)據(jù)庫連接起來,在左下角的數(shù)據(jù)源窗口選擇DB(數(shù)據(jù)庫)將數(shù)據(jù)源拖拽到界面正中的主流程(main process)工作區(qū),在左上角的算子(operator)窗口選擇所需的算子,拖入至流程中,在右側(cè)參數(shù)選項(Parameters)中對具體參數(shù)進(jìn)行設(shè)置,選擇上方工具欄中的運(yùn)行,即可在結(jié)果視圖(Result Overview)中看到關(guān)聯(lián)分析結(jié)果。
4數(shù)據(jù)挖掘分析
本論文在對計算機(jī)學(xué)院508名學(xué)生的數(shù)據(jù)進(jìn)行分析時,為保證數(shù)據(jù)的穩(wěn)定性和精確性,約簡了外出實習(xí)的93名畢業(yè)班學(xué)生和46天節(jié)假日期間的消費(fèi)數(shù)據(jù),分析了415名學(xué)生92個工作日的三餐消費(fèi)情況。
4.1學(xué)生三餐就餐情況
如圖1所示,本論文對計算機(jī)學(xué)院學(xué)生的三餐就餐天數(shù)、人數(shù)分析后得到如下結(jié)果:
1)早餐就餐人數(shù)遠(yuǎn)低于午餐和晚餐,且人數(shù)隨時間的增加而遞減。
2)所有學(xué)生都在食堂吃過午餐,且大部分學(xué)生在食堂就餐天數(shù)高于45天。
3)晚餐時段的學(xué)生人數(shù)分三段:第一部分是就餐天數(shù)在5-25天,第二部分是就餐天數(shù)在25-55天,第三部分是就餐天數(shù)在55-85天。其中,第二階段的學(xué)生人數(shù)占多數(shù)。
根據(jù)分析結(jié)果可推斷出:
1)早餐就餐人數(shù)過少,可能存在部分學(xué)生購買零食代替早餐,因此需對學(xué)生的早餐就餐隋況作進(jìn)一步分析。
2)午餐就餐人數(shù)較高且比較穩(wěn)定的原因可能是午休時間較短且下午要上課,學(xué)生選擇在食堂就餐比較方便、快捷。
3)晚餐就餐人數(shù)低于午餐的原因可能是晚上時間充裕,學(xué)生選擇何種方式就餐的形式多種多樣,如外出就餐、叫外賣、吃零食或者減肥不吃等。
4.2學(xué)生早餐就餐情況
由于學(xué)生早餐在食堂就餐人數(shù)過少,本論文提取了早餐時間段內(nèi)在商店購買零食的消費(fèi)數(shù)據(jù)來對比分析,根據(jù)圖1早餐消費(fèi)的變化曲線,分為五個時間段,結(jié)果如圖2所示:
根據(jù)對圖2的數(shù)據(jù)對比分析可知:
1)僅有8%的學(xué)生能規(guī)律性的在食堂吃早餐,就餐天數(shù)在66-92天內(nèi),17%的學(xué)生就餐天數(shù)在45-65天內(nèi),21%的學(xué)生就餐天數(shù)在24-44天內(nèi),48%的學(xué)生就餐天數(shù)在1-23天內(nèi),8%的學(xué)生從來沒去食堂吃過早餐。
2)計算機(jī)學(xué)院的學(xué)生在商店買零食的人數(shù)并不多,并沒有學(xué)生每天去買零食代替早餐,1%的學(xué)生購買天數(shù)為45-65天,9%的學(xué)生購買天數(shù)在24-44天內(nèi),82%的學(xué)生購買天數(shù)在1-23天內(nèi),8%的學(xué)生購買天數(shù)為0。
3)通過賬戶對比發(fā)現(xiàn)經(jīng)常在食堂吃早餐的8%的學(xué)生與從不在商店買零食的8%的學(xué)生為一類學(xué)生,符合實際情況。
對學(xué)生早餐分析的結(jié)果,可以得到如下結(jié)論:
1)學(xué)生在食堂吃早餐的人數(shù)確實過少,可能存在部分學(xué)生認(rèn)為食堂飯菜不合口味。
2)在早餐時間段內(nèi)學(xué)生購買零食代替早餐的人數(shù)也不多,推測可能存在部分學(xué)生提前備好零食和干糧,如牛奶、面包、馕、奶茶等,對這類學(xué)生老師要適當(dāng)引導(dǎo)學(xué)生去食堂吃新鮮、熱乎的早餐,且食堂的早餐價格要低于零食的花費(fèi)。
3)可能存在部分學(xué)生直接空腹上課,對這類學(xué)生老師應(yīng)重點(diǎn)關(guān)注。
4.3學(xué)生消費(fèi)情況關(guān)聯(lián)分析
為探索和證實學(xué)生的三餐消費(fèi)情況,本論文在RapidMiner中創(chuàng)建了一個包含九個屬性的關(guān)聯(lián)矩陣對學(xué)生的消費(fèi)情況進(jìn)行挖掘分析,得到各屬性之間的關(guān)聯(lián)系數(shù)如圖3所示:
根據(jù)各屬性之間的關(guān)聯(lián)系數(shù)值可知:
1)早餐消費(fèi)金額、消費(fèi)天數(shù)占學(xué)生的學(xué)期消費(fèi)金額及天數(shù)的權(quán)重為0.507和0.746,屬于有些關(guān)聯(lián)關(guān)系。
2)午餐消費(fèi)金額、消費(fèi)天數(shù)占學(xué)生的學(xué)期消費(fèi)金額及天數(shù)的權(quán)重為0.921和0.912,屬于強(qiáng)關(guān)聯(lián)關(guān)系。
3)晚餐消費(fèi)金額、消費(fèi)天數(shù)占學(xué)生的學(xué)期消費(fèi)金額及天數(shù)的權(quán)重為0.866和0.848,屬于較強(qiáng)關(guān)聯(lián)關(guān)系。
根據(jù)挖掘結(jié)果,可得到如下結(jié)論:
1)早餐就餐率太低,無論是哪種原因,都應(yīng)該重視起來,避免有學(xué)生長期不吃早餐出現(xiàn)頭暈、惡心等突發(fā)狀況。
2)午餐就餐率很好,晚餐就餐率略低于午餐,但總體呈現(xiàn)良好發(fā)展趨勢。
3)早餐消費(fèi)金額最低,午餐的消費(fèi)金額與晚餐的消費(fèi)金額相差不大,與食堂飯菜價格相符。
4)學(xué)生在食堂的消費(fèi)習(xí)慣是平均每天就餐兩次,早餐被大部分學(xué)生忽略。
5總結(jié)與展望
本論文通過對在校本科生飲食消費(fèi)數(shù)據(jù)的挖掘分析,得到學(xué)生的消費(fèi)情況及就餐習(xí)慣,通過分析和減少部分學(xué)生的飲食不合理現(xiàn)象,既能加強(qiáng)學(xué)校和老師對學(xué)生的了解,同時也能引導(dǎo)學(xué)生加強(qiáng)自我管理。
學(xué)生的消費(fèi)數(shù)據(jù)仍待進(jìn)一步挖掘分析和利用,如通過分析各類學(xué)生的消費(fèi)金額作為甄選貧困生的標(biāo)準(zhǔn)之一,對這些數(shù)據(jù)的每一次深入分析,都是管理學(xué)生向前邁進(jìn)的一大步。