毛乾任,王朝斌
(西華師范大學(xué)計(jì)算機(jī)學(xué)院,四川南充 637000)
當(dāng)代大學(xué)生在筆記本消費(fèi)方面存在巨大的潛在市場(chǎng)??紤]到筆記本市場(chǎng)的影響力和獨(dú)特性,有必要將其作為一個(gè)獨(dú)特的細(xì)分市場(chǎng)來加以重視和研究[1]。目前針對(duì)這方面的研究多局限于問卷調(diào)查分析的結(jié)果。C4.5決策樹是ID3樹的改進(jìn),能處理離散型和連續(xù)性屬性,并且分類精度高,分類規(guī)則易于理解[2-3]。本文采用問卷調(diào)查得到原始數(shù)據(jù)后,經(jīng)K-均值聚類,用C4.5決策樹算法提取特征規(guī)則,可更加具體和直觀地得到大學(xué)生筆記本購買行為的規(guī)律。
根據(jù)筆記本電腦行業(yè)消費(fèi)者的行為特征設(shè)計(jì)問卷,并進(jìn)行問卷調(diào)查。通過問卷調(diào)查分析,對(duì)所收集的信息數(shù)據(jù)進(jìn)行挖掘建模,進(jìn)而提取有意義的特征和規(guī)律。具體包括確定分析指標(biāo)、設(shè)計(jì)問卷調(diào)查、模型構(gòu)建和模型評(píng)估4個(gè)方面。
圖1 分析過程與方法
大學(xué)生消費(fèi)者對(duì)筆記本的購買決策因素細(xì)分為主觀和客觀2個(gè)方面,細(xì)分結(jié)果見表1。
表1 影響購買行為的因素細(xì)分結(jié)果
客觀因素是筆記本電腦商品本身對(duì)大學(xué)生電腦消費(fèi)者的影響;主觀因素則是從消費(fèi)者對(duì)產(chǎn)品的滿意度方面來進(jìn)行分析,是顧客的實(shí)際使用感受、需求和期望[4-6]。
通過在線問卷調(diào)查平臺(tái)發(fā)出問卷,共收回128份來自全國各地的問卷。隨機(jī)選取100份問卷作為研究對(duì)象。問卷設(shè)計(jì)的目的在于將消費(fèi)調(diào)查的問題具體化,并把問卷結(jié)果保存為excel文檔作為建模的數(shù)據(jù)輸入。問卷設(shè)計(jì)主要從影響購買行為的指標(biāo)入手,采用提問選答的形式。針對(duì)影響購買行為的客觀因素,設(shè)置的問題如下:Q2你中意的 CPU 型號(hào):Q2.1 酷睿 i7、Q2.2 酷睿 i5、Q2.3 酷睿 i3、Q2.4 四代 i7、Q2.5 四代 i5、Q2.6 四代 i3、Q2.7奔騰/賽揚(yáng)雙核、Q2.8等。針對(duì)影響購買行為的主觀因素,設(shè)置的問題如下:Q12下列筆記本的產(chǎn)品定位中,你會(huì)優(yōu)先考慮購買哪一種:Q12.1超極本、Q12.22合1電腦、Q12.3游戲影音本、Q12.4 輕薄便攜本、Q12.5 全能學(xué)生本、Q12.6 家庭娛樂本、Q12.7時(shí)尚麗人本、Q12.8商務(wù)辦公本等。
TipDM在線平臺(tái)數(shù)據(jù)挖掘?qū)儆谑褂猛诰虻囊环N。整個(gè)挖掘過程可以分為3個(gè)相依賴的階段[7-9]:數(shù)據(jù)收集和預(yù)處理、K-均值聚類分析和C4.5決策樹特征規(guī)則提取。
對(duì)于采用問卷調(diào)查收集到的數(shù)據(jù)資料,必須對(duì)其進(jìn)行預(yù)處理,轉(zhuǎn)換成可被數(shù)據(jù)挖掘工具分析處理的數(shù)據(jù)類型[10]。在K均值建模時(shí),提取的數(shù)據(jù)全部轉(zhuǎn)換為二進(jìn)制1,0。1代表屬性值Yes,0代表屬性值No。在進(jìn)行特征規(guī)則的提取時(shí),excel格式文檔中的數(shù)據(jù)將全部轉(zhuǎn)換為字符型后再作為特征規(guī)則提取的輸入。
1.5.1 K均值聚類
TipDM系統(tǒng)將樣本聚成2類:第一類(A類)有42個(gè)樣本;第二類有(B類)有58個(gè)樣本。表2列舉了聚類輸出結(jié)果的部分列和行。
表2 聚類結(jié)果部分列和行
1.5.2 C4.5決策樹的特征規(guī)則提取
C4.5決策樹算法通過學(xué)習(xí)數(shù)據(jù)建立決策樹,用于提取每一聚類類別的特征[11]。在輸入聚類數(shù)據(jù)之前,要將導(dǎo)入的樣本數(shù)據(jù)全部轉(zhuǎn)換為字符型數(shù)據(jù)作為特征規(guī)則挖掘的數(shù)據(jù)輸入,分別選取訓(xùn)練集和測(cè)試集的樣本數(shù)據(jù),生成規(guī)則列表。通過多次交換重設(shè)的數(shù)據(jù)樣本的訓(xùn)練集和檢測(cè)集,重復(fù)執(zhí)行可挖掘出列表所給出的所有規(guī)則[12-13]。以聚類結(jié)果B類的特征規(guī)則1為例:
特征規(guī)則提取:
規(guī)則1:C4.5決策樹
聚類結(jié)果為2類,0類即A類,1類即B類。聚類完成后,借助特征規(guī)則的提取進(jìn)行詳細(xì)的聚類分析。
規(guī)則2:C4.5決策樹
可以看出采用規(guī)則1劃分的正確分類百分比為100%。如果sex的屬性值為W即性別為女,且Price值為No,如果Brand值為Yes,輸出A類,占A類13個(gè)樣本的百分比為30.95%;否則Brand值為No,如果After service值為No,輸出B類,占B類15個(gè)樣本,百分比為25.86%,由此可找到?jīng)Q定行為的特征屬性。
在10個(gè)正確樣本百分比為85%及以上的決策樹中,A類的特征規(guī)則決定因素主要有品牌、操作系統(tǒng)、外殼設(shè)計(jì)以及攝像頭像素。B類的特征規(guī)則決定因素主要有CPU、顯卡、硬盤容量和電池續(xù)航時(shí)間和價(jià)格。下面用分層交叉進(jìn)行具體驗(yàn)證。
交叉分析用于分析2個(gè)變量之間的關(guān)系[7]。在導(dǎo)出聚類結(jié)果后,把聚類的A類和B類作為自變量。而把要研究分析的其他屬性作為因變量。這里的因變量分別是影響購買行為的主觀因素、客觀因素。輸出結(jié)果如下:
表3 客觀因素交叉分析
表4 主觀因素交叉分析
表5 購買途徑交叉分析
表6 影響購買的其他因素交叉分析
總體來看,A、B類消費(fèi)者對(duì)CPU的要求是所有因素中最高的,分別占到了各自客觀考慮因素的74.29%,84.48%;其次,兩類消費(fèi)者購買因素所占比例超過50%的還有使用需求,散熱和內(nèi)存容量。大學(xué)生在購買因素中,可以根據(jù)自己的使用需求,依次參考CPU型號(hào)、散熱和內(nèi)存容量。這幾個(gè)因素也是生產(chǎn)商應(yīng)該考慮的重心。
從客觀因素可以看出:A類消費(fèi)者在操作系統(tǒng)、外殼材質(zhì)以及攝像頭像素、散熱幾個(gè)因素方面的要求普遍高于B類消費(fèi)者。在購買途徑中,A類消費(fèi)者絕大部分(85.71%)去電腦城購買,少部分選擇大型商場(chǎng)購買,基本不在二手市場(chǎng)和網(wǎng)上購買。并且這類消費(fèi)者比較看重筆記本電腦的獨(dú)特功能以及售后服務(wù),分別高出B類消費(fèi)者27.33個(gè)百分點(diǎn)和18.73個(gè)百分點(diǎn)。
從主觀因素分析,A類消費(fèi)者在品牌和促銷活動(dòng)方面的考慮因素分別高出B類消費(fèi)者25.60個(gè)百分點(diǎn)和26.70個(gè)百分點(diǎn),并在筆記本獨(dú)特的新功能要求上超出B類27.29個(gè)百分點(diǎn)。這類消費(fèi)者大部分選擇在線下電腦城購買,在線上的購買幾率很低??梢?,此類大學(xué)生消費(fèi)者追逐個(gè)性化的獨(dú)特風(fēng)格,并且對(duì)價(jià)格的看重遠(yuǎn)不及B類高,消費(fèi)大頭已經(jīng)從實(shí)用化趨向時(shí)尚化。
商家對(duì)于這類消費(fèi)者在抓品牌效應(yīng)的同時(shí),可以經(jīng)營便攜性較強(qiáng),外觀設(shè)計(jì)時(shí)尚的筆記本,并且可以適當(dāng)延長售后服務(wù)期,在實(shí)體店里開展一些促銷活動(dòng),從而在很大程度上吸引A類消費(fèi)者。而對(duì)于生產(chǎn)商,產(chǎn)品要保證很好的便攜性、外殼材質(zhì)和外觀設(shè)計(jì)。一些新功能的推出會(huì)更加吸引這部分消費(fèi)者。家庭娛樂本、輕薄便攜本、時(shí)尚麗人本、超極本將受到這類消費(fèi)者的青睞,同時(shí)在產(chǎn)品配置上,生產(chǎn)商可以適當(dāng)調(diào)低成本。
從客觀因素分析,B類消費(fèi)者對(duì)CPU、顯卡類型、硬盤容量和電池續(xù)航時(shí)間的要求遠(yuǎn)高于A類消費(fèi)者。B類消費(fèi)者對(duì)CPU的要求高出A類消費(fèi)者約10個(gè)百分點(diǎn),對(duì)顯卡類型要求高出A類消費(fèi)者約24個(gè)百分點(diǎn),電池續(xù)航時(shí)間和硬盤容量以及接口數(shù)量高出A類消費(fèi)者約12個(gè)百分點(diǎn),而對(duì)操作系統(tǒng)、筆記本厚度、便攜和外殼材質(zhì)的要求較低。
從主觀因素來看,B類消費(fèi)者只在價(jià)格要求方面高于A類消費(fèi)者14.86個(gè)百分點(diǎn),而對(duì)于外觀設(shè)計(jì)、材質(zhì)、品牌要求和是否促銷,并不是主要的考慮因素。
在購買途徑中,B類消費(fèi)者在網(wǎng)上購買的需求遠(yuǎn)遠(yuǎn)大于A類。這類消費(fèi)者在購機(jī)過程中可以選擇市面上一些配置較好的游戲影音本、商務(wù)辦公本、2合1電腦等;品牌上可以考慮如宏基、華碩、聯(lián)想及ThinkPad等配置較好、價(jià)格不高的品牌。B類大學(xué)生消費(fèi)者在購買筆記本時(shí)青睞商家降價(jià)促銷和贈(zèng)送購機(jī)禮包。商家在營銷上可以抓住這一點(diǎn),在經(jīng)營模式上可以選擇線上實(shí)行購買優(yōu)惠禮品套機(jī)的策略,在線下開展降價(jià)促銷活動(dòng),或者采用贈(zèng)送購機(jī)禮包的方式來吸引B類消費(fèi)者。對(duì)于生產(chǎn)商,則要根據(jù)這類消費(fèi)者看重配置如CPU、顯卡、電池、硬盤容量的特點(diǎn),均衡配置、外觀設(shè)計(jì)和價(jià)格三方面的成本。
用分層交叉技術(shù)評(píng)估期望泛化能力,即預(yù)測(cè)模型對(duì)新鮮樣本的適應(yīng)能力[14-15]。模型泛化能力驗(yàn)證結(jié)果如下:
從決策樹的混淆矩陣中可以看出:在大學(xué)生類別A的實(shí)例中,39個(gè)被正確預(yù)測(cè)為A類,3個(gè)被錯(cuò)誤預(yù)測(cè)。在類別為B的實(shí)例中,57個(gè)被正確預(yù)測(cè)為B類,正確分類百分比為96%,錯(cuò)誤分類百分比為4%,驗(yàn)證說明模型具有較高的新樣本數(shù)據(jù)適應(yīng)能力。
[1]榮曉華,何成義.大學(xué)生自我概念與購買決策關(guān)系的實(shí)證研究——以筆記本電腦市場(chǎng)為例[J].吉林工商學(xué)院學(xué)報(bào),2012(1):48-51.
[2]Honkanen P,Olsen S,Myrland O.Preference-based Segmentation:A study of meal preferences among Norweigian teenager[J].Journal of consumer Behavior,2004,3(3):235-250.
[3]Mobasher B.Web Usage Mining In John Wang,Encyclopedia of Data Warehousing and Mining[M].Idea Group,2006.
[4]Jefrey Lijffijt,Panagiotis Papapetrou.A statistical significance testing approach to mining the most informative set of patterns[J].Data Mining and Knowledge Discovery,2014,28(1):238-263.
[5]林嘉.系統(tǒng)設(shè)計(jì)和基于用戶行為分析[D].廣州:中州大學(xué),2013.
[6]俞勇,薛貴榮,韓定一,等.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2009.322-324.
[7]樊寧.K均值聚類算法在銀行客戶細(xì)分中的研究[J].計(jì)算機(jī)仿真,2011(3):369-372.
[8]瞿小寧.K均值聚類算法在商業(yè)銀行客戶分類中的應(yīng)用[J].計(jì)算機(jī)仿真,2011,06:357-360.
[9]關(guān)云鴻.改進(jìn)K-均值聚類算法在電信客戶分類中的應(yīng)用[J].計(jì)算機(jī)仿真,2011,08:138-140.
[10]Menardi G,Torelli N.Training and assessing classification rules with imbalanced data[J].Data Mining and Knowledge Discovery,2014,28(1):92-122.
[11]Sathyadevan S,Remya R Nair.Comparative Analysis of Decision Tree Algorithms:ID3,C4.5 and Random Forest[J].Computational Intelligence in Data Mining-Volume 1Smart Innovation,Systems and Technologies Volume,2015,31:549-562.
[12]Iwata T,Sawada H.Topic model for analyzing purchase data with price information[J].Data Mining and Knowledge Discovery,2013,26(3):559-573.
[13]湯克明.不確定數(shù)據(jù)流中頻繁數(shù)據(jù)挖掘研究[D].南京:南京航空航天大學(xué),2012.
[14]王萍.基于數(shù)據(jù)挖掘技術(shù)的消費(fèi)者行為研究[D].長春:吉林大學(xué),2004.
[15]李軍.基于用戶行為挖掘的數(shù)據(jù)流管理技術(shù)研究[D].北京:北京郵電大學(xué),2012.
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2015年2期