申 一,周 鵬
(河北經(jīng)貿(mào)大學,石家莊050001)
基于CART 決策樹的大學生游戲消費行為研究
——以某高校大學生為例
申 一,周 鵬
(河北經(jīng)貿(mào)大學,石家莊050001)
針對大學生游戲消費行為,提出了基于CART決策樹的預測方法,此方法具有較高的的準確率和良好的自學能力。利用CART決策樹可以對影響游戲消費行為的復雜因素進行回歸分類及規(guī)則提取,進而從眾多的數(shù)據(jù)中得出一致性規(guī)律,經(jīng)過CART決策樹模型的構建,結(jié)果表明,CART決策樹方法良好地預測了影響大學生消費行為的因素。
決策樹;CART算法;大學生;游戲消費行為
隨著網(wǎng)絡的飛速發(fā)展,PC終端、移動設備(手機)、各種游戲主機的不斷換代更新,游戲在數(shù)量、類型題材、質(zhì)量、市場規(guī)模等方面都實現(xiàn)了持續(xù)穩(wěn)定的增長,游戲用戶在游戲上花費的時間、金錢愈來愈多。而游戲用戶的組成中,大學生這一群體占有重要的地位。由于大學生普遍時間充裕,個人可支配財產(chǎn)較為穩(wěn)定,接受新鮮事物的愿望與能力較強,所以要研究中國現(xiàn)階段的游戲產(chǎn)業(yè),研究大學生的游戲消費行為必不可少,在此,以某大學的大學生為例進行分析。使用的決策樹方法相對其他數(shù)據(jù)挖掘算法,擁有的優(yōu)勢:一是決策樹易于理解和實現(xiàn);二是對于決策樹,數(shù)據(jù)的準備往往是簡單或者不必要的;三是能夠同時處理數(shù)據(jù)型和常規(guī)型屬性;四是易于通過靜態(tài)測試來對模型進行預測;五是在相對短的時間內(nèi)能夠?qū)?shù)據(jù)做出可行且效果良好的結(jié)果。因此運用CART決策時算法進行分析。
分類回歸樹包含了分類樹和回歸樹,是通過向現(xiàn)有數(shù)據(jù)學習,用于實現(xiàn)對數(shù)據(jù)內(nèi)在的規(guī)律進行探究,并用于對未來新數(shù)據(jù)進行分類預測的方法。本文采取的是 CART(Classification And Regression Tree)算法。這種算法與C5.0算法的思路是相似的,都包括了決策樹生長和決策樹剪枝過程。CART算法的輸入變量和輸出變量可以是分類型也可以是數(shù)值型,CART算法只能建立二叉樹,這兩點是CART算法和C5.0算法最明顯的區(qū)別。
本文所采用的輸入變量均為多分類型輸入變量,由于CART只能夠建立二叉樹,所以對于本文選用的多分類型變量,首先需要將多類別進行合并產(chǎn)生兩個類別,通常稱為“超類”,然后需要計算兩個“超類”下樣本輸出變量取值的異質(zhì)性。
理想情況下,“超類”應該能夠起到讓兩組輸出變量取值異質(zhì)性的和達到最小的作用。也就是使得“純度”達到最大。
Gini系數(shù)是CART算法用來測度異質(zhì)性的。數(shù)學定義為:
其中,t為節(jié)點,k為輸出變量的類別數(shù),p為節(jié)點t中樣本輸出變量取j的“歸一化”概率。由此可見,當節(jié)點樣本的輸出變量均取同一類別值時,輸出變量取值的差異性達到最小值,Gini系數(shù)取最小值為0,當個類別取概率值相等時,輸出變量取值的差異性最大,Gini系數(shù)值達到最大,為1-1/k。
所以,Gini系數(shù)的減少量可以用來衡量異質(zhì)性的下降,數(shù)學定義為:
其中G(t)和N分別為分組之前的輸出變量的Gini系數(shù)和樣本量,r和l下標分別表示分組后的右子樹和左子樹。
利用上述兩式可以得到使得兩“超類”下輸出變量取值異質(zhì)性下降最快(即“純度”上升最快)的分割點。除此方法之外,CART算法還可以采用Twoing策略和Ordered策略得到最佳分組變量。
在通過決策樹方法對某大學學生游戲消費行為進行分析。數(shù)據(jù)采集方法為網(wǎng)絡問卷調(diào)查。選取性別、年級、每月生活費用、接觸游戲時間、每天玩游戲的時長、游戲類型、消費數(shù)額、消費動機、消費所處的游戲進程作為輸入變量,消費行為作為輸出變量。其中消費行為是包含理性行為、沖動行為和中性行為的三分類型變量。利用clementine軟件進行分析。
上述圖1為本次數(shù)據(jù)分析過程的數(shù)據(jù)流,首先對數(shù)據(jù)進行了預處理。預處理第一步是對利用Type節(jié)點輸入變量類型進行處理。如下表。
第二步是對輸出變量的處理。原問卷中,將消費行為作為五級量表進行調(diào)查,現(xiàn)為了方便分析,將原問卷中的選項進行合并,利用Reclassify節(jié)點將原有取值進行重新賦值,最后將消費行為設置為沖動、中性和理性三種不同行為。
圖1 數(shù)據(jù)流
二分類型變量(F l a g)年級 多分類型變量(s d t)每月生活費用 有次序的多分類型變量(O r d e r e d S e t)接觸游戲的時間 有次序的多分類型變量(O r d e r e d S e t)每天游戲時長 有次序的多分類型變量(O r d e r e d S e t)游戲類型 多分類型變量(s d t)消費數(shù)額 有次序的多分類型變量(O r d e r e d S e t)消費動機 多分類型變量(s d t)消費時的游戲進程 有次序的多分類型變量(O r d e r e d S e t)性別
由于本文采用的數(shù)據(jù)不存在缺失數(shù)據(jù)和離群值,所以不涉及數(shù)據(jù)插補工作。接下來在圖1所示節(jié)點位置添加CART節(jié)點。分析結(jié)果以及決策樹如下圖所示。
由上述分析過程可以得出。想要分析游戲玩家消費者行為,首先應該關注的是該消費者在玩游戲過程中的累計消費金額,這是因為玩家消費過多可能導致沖動消費過多。
在消費金額100元以下以內(nèi)的消費者中:首先應該關注的是玩家在游戲什么進程時進行消費,這是由于老玩家和新手玩家對于游戲的理解不同,可能導致的消費行為也不同。在游戲前中期進行消費的消費者中,所玩游戲類型不同導致的消費行為也會有一定的差異,對于手機游戲玩家和網(wǎng)絡游戲玩家來說,由于外界因素影響以及為了增加游戲觀感體驗和增加游戲人物實力導致的消費,大都是沖動消費而為了節(jié)省時間成本的消費大都是理性的消費。而單機游戲和主機游戲玩家,不管由于什么動機進行消費,他們的消費行為大都是理性的;在游戲后期消費的玩家中則分為兩類:第一類玩家的消費動機大都受周圍人群影響,理性與否受所玩游戲類型所影響,手機和網(wǎng)絡游戲玩家消費行為大都是理性的,單機和主機游戲玩家更傾向于沖動消費;第二類玩家游戲消費的最大動機是增加游戲觀感體驗、增加游戲人物實力、節(jié)省時間成,他們的游戲消費行為大都是理性的。
圖5 決策樹
[1]汪 輝,侯傳宇.決策樹相關算法研究[J].電腦知識與技術,2011,7(15):3572-3574,3581.
[2]駱盈盈,王柯玲,陳川等.結(jié)合遞增式學習的CART算法改進[J].計算機工程與設計,2007,28(7):1520-1522.
[責任編輯:王 鑫]
F0631.2
A
1005-913X(2017)07-0052-02
2017-05-26
申 一(1994-),男,山西長治人,碩士研究生,研究方向:調(diào)查與大數(shù)據(jù)分析;周 鵬(1992-),男,河北張家口人,碩士研究生,研究方向:金融統(tǒng)計與風險管理。