張晨陽,余 榮*,張浩川
(廣東工業(yè)大學 自動化學院,廣東 廣州 510006)
基于決策樹的移動互聯(lián)網(wǎng)用戶付費意愿分析與預測
張晨陽,余 榮*,張浩川
(廣東工業(yè)大學 自動化學院,廣東 廣州 510006)
針對開放移動互聯(lián)網(wǎng)下難以識別和跟蹤潛在用戶,無法提供更具個性化服務的狀況,文章在傳統(tǒng)決策樹分類器的基礎上,提取用戶基礎數(shù)據(jù)特征,引入感知模型分析處理用戶行為數(shù)據(jù),提出一種基于決策樹的移動互聯(lián)網(wǎng)用戶付費分類預測方法。該方法強化用戶感知對付費行為的影響,利用決策樹建模進行分類并最終作出付費預測,根據(jù)模型結果探究付費影響因素,從運營者角度思考如何提高用戶的付費意愿。
移動互聯(lián)網(wǎng);感知理論;付費預測;決策樹
日前,廣州市地鐵“花生WiFi”一經推出,即受到千萬出行者的追捧。由此可見,信息網(wǎng)絡全面深入地融合人與人、人與物以及物與物之間的現(xiàn)實物理空間與抽象信息空間,并向無所不在的泛在網(wǎng)絡(Ubiquitous Network, UN)方向演進[1]。以此為契機,移動互聯(lián)網(wǎng)提供商給用戶提供免費WiFi,當獲得很大的訪問量的同時,WiFi即作為移動互聯(lián)網(wǎng)系統(tǒng)的入口,能夠產生大規(guī)模的用戶流量。多數(shù)人受WiFi引流而來,并非目的明確地搜尋具有某種功能的系統(tǒng)應用,造成移動互聯(lián)網(wǎng)借以推出的收費模式難以被用戶所接受。
上述問題反映出當下互聯(lián)網(wǎng)產業(yè)現(xiàn)狀,能夠借助互聯(lián)網(wǎng)的特性短時間集聚大量用戶,但流失率高、轉化率低使得行業(yè)迫切需要獲得每一位用戶的付費可能性,進而提供更具針對性、個性化的服務帶來更高效益。利用直觀明了的算法,幫助我們分析得出影響用戶付費的因素,根據(jù)這些信息來指導我們的策略制定工作,讓網(wǎng)站功能直達用戶痛點,或者采取其他能夠有效增加用戶付費意愿的策略[2]。此處,運營商所構建的移動互聯(lián)網(wǎng)系統(tǒng),給予每位用戶試用機會,并能隨時根據(jù)用戶意愿向付費版或更高級系統(tǒng)升級?;ヂ?lián)網(wǎng)系統(tǒng)可以很方便的借助OAuth開放授權方式,獲得用戶微信或其他賬號數(shù)據(jù)用以開通使用權限,并將由此獲得的用戶信息收集、記錄,明確哪些用戶選擇成為付費用戶,具有較高付費意愿。
通常,網(wǎng)站直接詢問用戶個人信息的答卷鮮有問津,為了避免這種情況并盡量減少用戶的工作量,我們決定從服務器的日志中收集這些信息,比如:用戶來源、用戶基本屬性以及瀏覽過的網(wǎng)頁,等等。假設我們收集到了這些數(shù)據(jù),并且將其填入一張表格中,其結果如表1所示。
表1 用戶基本信息及行為表(節(jié)選)
2.1 理論模型分析與構建
本文建立感知模型對移動互聯(lián)網(wǎng)用戶付費意愿的影響因素進行深入研究,最后使用決策樹算法對影響因素與付費意愿間的相關關系進行挖掘及預測,首先建立感知理論模型如下。
2.1.1 感知有用性和感知易用性
感知有用性與感知易用性因素是技術接受理論(Technology Acceptance Model,TAM)[3]中的基本因素,均可影響付費意愿,感知易用性是指用戶在使用新系統(tǒng)時感知到的難易程度,感知有用性是指用戶感知到的使用移動互聯(lián)網(wǎng)對自己的有利程度[4]。TAM模型認為若用戶能夠使用較少的時間掌握新信息系統(tǒng)也就是用戶花費的時間成本少而收益相對較高時,用戶就更傾向于使用這種系統(tǒng)。針對本移動互聯(lián)網(wǎng)系統(tǒng),此處我們以用戶首次進入到網(wǎng)絡覆蓋環(huán)境到用戶關注的時間間隔作為有用性特征,同時,以用戶關注到首次接入互聯(lián)網(wǎng)的時間間隔作為易用性特征。
2.1.2 感知兼容性
兼容性是Rogers教授提出的創(chuàng)新擴散理論中的一個因素,它是指用戶使用新的信息系統(tǒng)與社會現(xiàn)有的價值觀念及當前需求的一致性[5]。若某互聯(lián)網(wǎng)系統(tǒng)不能夠滿足用戶消費需求或與其生活方式不匹配,那么該互聯(lián)網(wǎng)系統(tǒng)則無法滿足兼容性特征,從而影響用戶的付費意愿。隨著便攜智能設備的滲透率在各年齡層的提高,用戶在移動網(wǎng)絡的基礎上能夠使用移動WiFi網(wǎng)絡,增強了用戶對移動互聯(lián)網(wǎng)的付費傾向,帶來的流量消耗即作為影響用戶付費意愿的感知兼容性特征。
2.1.3 感知風險
感知風險理論由哈佛大學學者Bauer首次提出并運用在市場營銷領域中[6]。之后國內外的許多學者在對此理論進行研究時發(fā)現(xiàn),感知風險理論可以被運用在多個領域用來解決許多不同問題;文鵬等[7]將感知風險因素與技術接受模型結合,探尋微信用戶使用意愿的影響因素,研究發(fā)現(xiàn)感知風險因素與用戶使用意愿呈負相關關系,即存在感知風險情況下,削弱用戶的購買意愿。在移動互聯(lián)網(wǎng)環(huán)境下,用戶可能感知到的財務、隱私、安全等方面的風險及威脅,因此以是否獲得用戶授權作為感知風險特征。
2.1.4 人口統(tǒng)計特征
人口統(tǒng)計變量包括被調查者的性別、地區(qū)、對移動互聯(lián)網(wǎng)的認識及等基本情況。李長城等[8]在構建移動網(wǎng)絡用戶使用意愿影響因素模型時均將性別、地區(qū)等人口統(tǒng)計特征變量加入其中,通過實證分析證實個別人口統(tǒng)計特征的確與用戶付費意愿有顯著相關性。
圖1 移動互聯(lián)網(wǎng)用戶付費意愿模型
除以上特征外,用戶在移動互聯(lián)網(wǎng)環(huán)境下,獲取移動互聯(lián)網(wǎng)運營商所提供的服務內容及站點信息,留下大量蘊藏用戶偏好的日志信息,經過數(shù)據(jù)清洗及必要的整理,同時將系統(tǒng)采集到的各種環(huán)境信息進行關聯(lián),能夠為后續(xù)分類預測所用。
因此,在本文所構建的移動互聯(lián)網(wǎng)用戶付費意愿影響因素模型中,同時引入上文中提到的感知有用性、感知易用性、感知兼容性、感知風險,包括人口統(tǒng)計因素,來對模型加以完善。
2.2 決策樹建模
2.2.1 決策樹的引入
和大多數(shù)分類器不同,決策樹能夠給予我們直觀且易于理解的推導過程,甚至可以由if-then的語句來簡單表示。
在構建理論模型后,代入提取到的數(shù)據(jù)設計用戶特征表,通過分類回歸樹(CART)[9]的算法,首先構造出根節(jié)點,通過表2中的所有觀測變量,從中選出最合適的變量對數(shù)據(jù)進行拆分,并通過結果數(shù)據(jù)的分解來推測用戶意圖。
對合適變量的選取,即需要一種衡量數(shù)據(jù)集合中各種因素的混合情況,根據(jù)經驗,這里我們選擇以熵作為度量標準。為此,我們需要求出整個群組的熵,同時利用每個屬性的取值拆分出新群組,并繼續(xù)求出拆分所得到群組的熵。我們取當前熵與新群組經過加權平均后的熵之間的差值,作為信息增益(Information gain),從中選出信息增益最大的屬性,作為每個新生節(jié)點的最佳拆分屬性,對分支的拆分及樹的構造過程不斷持續(xù)下去,即以遞歸方式構造樹,而當某節(jié)點拆分所得信息增益不大于0時則停止,最終構造出整棵樹。
表2 基于感知理論模型設計用戶特征表(節(jié)選)
2.2.2 決策樹的剪枝與優(yōu)化
通常上述訓練過程會帶來過度擬合的問題,也就是說變得過于針對訓練數(shù)據(jù)。并且在有些時候,一棵經過訓練的決策樹過于“繁茂”,知識過多,或者說得到的規(guī)則集合過大。
對其加以改進,如在前述構造好的整棵樹上,對具有相同父節(jié)點的一組節(jié)點進行檢查,消除多余的節(jié)點使得熵的增加量小于指定的閾值,則進行剪枝操作,有效避免過度擬合的情況。剪枝后,可以得到一棵相對簡潔的決策樹,較少的規(guī)則使得在進行分類預測時,決策樹效率更高[10]。
同時,用戶并非使用系統(tǒng)全部功能的情況下,對于用戶行為數(shù)據(jù)缺失,可以通過為所在節(jié)點賦予權重的方法,對各分支對應的結果值進行加權統(tǒng)計,計算觀察數(shù)據(jù)對于數(shù)據(jù)項是否屬于某個特定分類的概率。對缺失值的樣本賦予該屬性所有屬性值的概率分布,即將缺失值按照其所在屬性已知值的相對概率分布來創(chuàng)建決策樹[11]。
2.2.3 決策樹的顯示
決策樹能夠實現(xiàn)分類時執(zhí)行推理過程的可視化表達,使得我們能夠直觀地看到隱藏在推理過程背后的邏輯,是決策樹的一大優(yōu)勢。根據(jù)上述決策樹生成結果,從樹的根節(jié)點開始,以遞歸的方式,繪制當前節(jié)點,并計算子節(jié)點的位置,然后以此循環(huán)。如圖2所示,Ture分支總是位于右側,那么按圖索驥能夠很容易地追蹤推斷的過程。
本文選取的數(shù)據(jù)來源于廣東工業(yè)大學智能信息研究所項目實際采集數(shù)據(jù),經過整理抽樣取出2 500條用戶樣本數(shù)據(jù),為了檢驗決策樹模型的準確程度,將其分為兩部分,前80%的樣本作為訓練樣本數(shù)據(jù),用來進行決策樹模型的構建,剩下的20%樣本數(shù)據(jù)作為測試樣本數(shù)據(jù),用來檢驗決策樹的準確性。
圖2 用于預測移動互聯(lián)網(wǎng)用戶付費的決策樹(局部)
通過決策樹分類我們得到了移動互聯(lián)網(wǎng)用戶付費意愿的預測規(guī)則,現(xiàn)在對上述分類規(guī)則進行檢驗。通過樣本準確性表(見表3)可看出,經過訓練后,決策樹的正確性為91%,即該模型可91%的正確率判斷用戶付費的付費意愿;對于測試數(shù)據(jù)集,該模型對于500份測試數(shù)據(jù)的預測準確率為83.2%,錯誤率為16.8%。分析可以看出,該決策樹模型的預測準確率較高,可根據(jù)提取的感知模型對用戶付費意愿進行預測。
表3 決策樹模型準確性
為了更好地提取用戶行為數(shù)據(jù)特征,以及用戶付費意愿的預測規(guī)則,本文提出了一種感知理論分析模型,然后運用決策樹分類方法進行移動互聯(lián)網(wǎng)用戶付費預測的分析與研究。在實現(xiàn)用戶行為特征提取與模型建立中,通過感知理論建立用戶感知行為分類規(guī)則,增加了用戶感知重要因素作為決策樹模型的輸入變量,并將用戶付費意愿作為輸出變量,引入到決策樹中得到移動互聯(lián)網(wǎng)付費意愿的預測規(guī)則,對提高分類預測的準確度具有積極影響。
通過上述規(guī)則,可以挖掘出各影響因素間更為具體、深入的關系,通過探索數(shù)據(jù)之間的關聯(lián)模式,挖掘大數(shù)據(jù)中所蘊含的信息,借助相關關系取代因果關系,即只需知道“是什么”,而不需知道“為什么”,幫助企業(yè)尋找有用信息,進而幫助企業(yè)制定更為詳盡的銷售計劃與營銷策略,對于迅速占領市場、劃分目標人群具有非常重要的現(xiàn)實意義[12],也是大數(shù)據(jù)分析的價值所在。
[1]LEE C S, LEE G M, RHEE W S.Smart ubiquitous networks for future telecommunication environments[J].Computer Standards and Interfaces, 2014(2):412-422.
[2]西格蘭.集體智慧編程[M].莫映,譯.北京:電子工業(yè)出版社,2015.
[3]DAVIS F D.Perceived usefulness, perceived ease of use and user acceptance of information technology[J].Mis Quarterly, 1989(3):319-340.
[4]謝曉文.移動支付用戶使用意愿分析與預測研究[D].北京:北京交通大學,2017.
[5]羅杰斯.創(chuàng)新的擴散[M].辛欣,譯.北京:電子工業(yè)出版社,2016.
[6]BAUER R A.Consumer behavior as risk taking[J].Dynamic marketing for a changing world,1960(21):389-392.
[7]文鵬,蔡瑞.微信用戶使用意愿影響因素研究[J].情報雜志,2014(6):156-161.
[8]李長城.第三方移動支付用戶接受影響因素研究[D].北京:郵電大學,2015.
[9]BREIMAN L, FRIEDMAN J, OLSHEN R, et al.Classi fi cation and regression trees[J].Biometrics,1984(3):358.
[10]李泓波.決策樹剪枝研究[J].計算機時代,2016(2):2-3.
[11]鞏固.決策樹算法中屬性缺失值的研究[J].計算機應用與軟件,2008(9):242-244.
[12]何軍.大數(shù)據(jù)對企業(yè)管理決策影響分析[J].科技進步與對策,2014(4):65-68.
Analysis and prediction of willingness to pay for mobile networks users based on decision tree
Zhang Chenyang, Yu Rong*, Zhang Haochuan
(Automation School of Guangdong University of Technology, Guangzhou 510006, China)
In view of the situation taht due to open mobile network is dif fi cult to identify and track potential users, which cannot provide more targeted services, based on traditional decision tree classi fi er, this paper extracts feature of user data and introduces the perception model to analyze users’ behavior data processing, a classi fi cation method for mobile Internet users’ pay classi fi cation based on decision tree is proposed.This method strengthens the in fl uence of user perception on cost behavior, and uses decision tree modeling to classify and makes fi nal payment prediction, to think how to improve the users’ willingness to pay from the operator point of view.
mobile Internet; perception theory; payment forecast; decision tree
張晨陽(1993— ),男,安徽阜陽,碩士研究生;研究方向:物聯(lián)網(wǎng),智能交通,數(shù)據(jù)挖掘。
*通信作者:余榮(1979— ),男,廣東潮州,教授;研究方向:車聯(lián)網(wǎng)。