游 星
(成都理工大學管理科學學院 四川 成都 610059)
中國互聯(lián)網絡信息中心(CNNIC)報告,截至2020年3月,中國電子商務使用用戶人員已經達到7.1億,較2018年底增長1億,占網民整體的78.6%;通過手機購物使用客戶達7.07億,比2018年底高出1.16億,占手機用戶的78.9%,如圖1所示。
圖1 2015.12—2020.3網絡購物用戶規(guī)模及使用率(數據來源:CNNIC中國互聯(lián)網發(fā)展狀況統(tǒng)計調查)
當前,網絡商城已經深度融入人們的日常生活中,電子商務使用用戶規(guī)模已經得到不斷發(fā)展。網絡商鋪采取了多種多樣的銷售手段來提高銷量,但在這一過程中,也出現(xiàn)了違規(guī)造假該領域業(yè)內數據來蒙騙廣大客戶等情況,擾亂市場次序。因此,如何杜絕這種現(xiàn)象的出現(xiàn),使廣大客戶和消費者接受更好的服務,進而逐步增強消費者的購買欲望及不斷拉高商鋪的銷售額度成為電子商鋪需要解決的一個關鍵問題(力蕓,2013)。借助數據挖掘、人工智能等技術可以在大數據背景下分析網絡商鋪運行的決策數據(李行龍,2013),通過提取網絡商鋪的相關關鍵指標,結合相關定量化方法,為最終商品銷量策略制定提供依據。
基于指標評價體系的構建,使電子商鋪用戶數量保持穩(wěn)定性。依據合法性、客觀性、科學性與量化性相結合、公平性、準確性、公正性等原則(樊正洪等,2011),本文從某電子商務平臺中抽取了100家知名品牌運動鞋商鋪,利用數據挖掘技術及分類方法對這些商鋪的各項指標進行研究分析,并建立指標評價體系結構,如圖2所示。
圖2 商鋪評價指標體系
ID3算法原理及步驟
決策樹是一種數據挖掘分類算法,具有高效的數據挖掘分類的能力,因而受到學術各領域的廣泛應用。本文基于ID3算法對電子商務網絡商鋪的客戶穩(wěn)定性進行分類研究。其具體步驟如下:
訓練集為X={(xi,yi)|i=1,2,…,total},其中樣本xi(i=1,2,…,total)用維特征向量xi=(xi1,xi2,…,xid)來表示,xi1,xi2,…,xid分別對應個描述屬性A1,A2,…,Ad的具體取值;yi(i=1,2,…,total)表示樣本的類標號,假設訓練集中包含個類別,則yi∈{c1,c2,…cm}。
(1)
設描述屬性Af(f=1,2,…,d)中包含個不同的取值{a1f,a2f,…,aqf},那么可以將研究屬性的訓練集劃分為多個不同子集{X1,X2,…,Xq}。其中Xs(s=1,2,…,q)中的樣本具有相同的取值。則對應的熵:
(2)
其中:
(3)
式(2)中所計算的熵值越小,意味著該屬性劃分訓練集具有更高的純度。
根據上述三個公式,可以得到描述屬性Af(f=1,2,…,d)的信息增益,如下式所示:
Gain(Af)=I(n1,n2,…,nm)-E(Af)
(4)
該決策樹將以“最大”信息增益值的描述屬性作為根節(jié)點,自上而下進行計算,直到某個分枝上的所有數據不再具有多個不同類別時停止劃分,在每個停止點上的葉節(jié)點定義為一個分類。
本文選取的電子商務商鋪樣本百家(即:total=100),表現(xiàn)為“穩(wěn)定性”的類別屬性(m=3)的值域為{高;中;低}。設c1為“高”,包含的樣本量n1=37,c2為“中”,包含的樣本量n2=30,c3為“低”,包含的樣本量n3=33。本文使用SQL Server 2008進行決策樹分類驗證,采用Analysis Services以導入的網絡商城商鋪數據進行決策樹分類挖掘。將客戶穩(wěn)定性作為基礎及其他屬性進行導入,進而創(chuàng)建決策樹用于“商鋪數據挖掘”,結果如下圖3、圖4所示。
圖3 客戶穩(wěn)定性決策樹結果圖
圖4 屬性依賴關系圖
基于數據挖掘的思想,本文利用決策樹ID3算法研究并分析了在電子商務平臺上的百家商鋪客戶數量的穩(wěn)定性。本文所提取的商鋪屬性劃分為高、中和低三類,該算法有效地避免了對商鋪屬性數量值的依賴。通過ID3算法所確定的屬性指標能夠客觀真實地反映了網絡商鋪客戶數量的穩(wěn)定性。結果表明:通過本文建立的模型可以有效、定量地對網絡商店進行較為全面的綜合評價,同時也為網店的管理、為網絡商鋪發(fā)展等提供了重要的數據參考依據。