王鑫
(山東商業(yè)職業(yè)技術(shù)學(xué)院,濟(jì)南250103)
?
跨行業(yè)數(shù)據(jù)挖掘在農(nóng)產(chǎn)品電子商務(wù)中的應(yīng)用研究
王鑫
(山東商業(yè)職業(yè)技術(shù)學(xué)院,濟(jì)南250103)
摘要:利用跨行業(yè)數(shù)據(jù)挖掘方法對(duì)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站搜集的各種信息進(jìn)行整理和分析,并運(yùn)用數(shù)據(jù)挖掘模型對(duì)數(shù)據(jù)進(jìn)行運(yùn)算,可以發(fā)現(xiàn)農(nóng)產(chǎn)品相關(guān)客戶的行為特征、購(gòu)買習(xí)慣以及商品的特性。通過(guò)發(fā)現(xiàn)的這些規(guī)律對(duì)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站進(jìn)行優(yōu)化可以提高客戶的訪問(wèn)率和轉(zhuǎn)化率,大大提高農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的運(yùn)營(yíng)效果。
關(guān)鍵詞:CRISP-DM;電子商務(wù);網(wǎng)絡(luò)日志;C5.0模型
跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)是目前業(yè)界主流的數(shù)據(jù)挖掘流程,簡(jiǎn)稱CRISP-DM。1999年由歐盟機(jī)構(gòu)聯(lián)合起草,在金融、醫(yī)療保健、市場(chǎng)營(yíng)銷、零售業(yè)、制造業(yè)、司法、工程和科學(xué)、保險(xiǎn)等行業(yè)適用廣泛。據(jù)統(tǒng)計(jì),超過(guò)60%的挖掘模型使用跨行業(yè)數(shù)據(jù)挖掘技術(shù)。商業(yè)理解(Business Understanding)、數(shù)據(jù)理解(Data Understanding)、數(shù)據(jù)準(zhǔn)備(Data Preparation)、建立模型(Modeling)、模型評(píng)估(E鄄valuation)、模型應(yīng)用(Deployment)六個(gè)部分完成了數(shù)據(jù)挖掘在各個(gè)行業(yè)的應(yīng)用,他們從大量的數(shù)據(jù)中,通過(guò)分類、估計(jì)、預(yù)測(cè)、相關(guān)分析、關(guān)聯(lián)分析等手段,揭示以往未被發(fā)現(xiàn)的、隱含的、有潛在價(jià)值的信息。但是,此項(xiàng)技術(shù)在農(nóng)產(chǎn)品電子商務(wù)中鮮有應(yīng)用。
在商業(yè)應(yīng)用上,數(shù)據(jù)挖掘能夠解決以下技術(shù)難關(guān):數(shù)據(jù)庫(kù)營(yíng)銷(Database Marketing)、客戶群劃分(Customer Segmentation Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場(chǎng)分析行為,以及客戶流失性分析(Churn Anal鄄ysis)、客戶信用分析(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等,以上應(yīng)用全部基于Inter鄄net的發(fā)展。[1]由于互聯(lián)網(wǎng)的信息交互,大量的數(shù)據(jù)被記錄在Web頁(yè)面或者數(shù)據(jù)庫(kù)中,人們通過(guò)不同的手段提取這些記錄的價(jià)值。農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站同樣有強(qiáng)大的數(shù)據(jù)庫(kù)支撐,任何一個(gè)客戶在網(wǎng)絡(luò)上的瀏覽軌跡、注冊(cè)、登陸、購(gòu)買信息等都會(huì)被忠實(shí)的記錄下來(lái)。通過(guò)特殊的技術(shù)和方法,從Web頁(yè)面文檔或者網(wǎng)絡(luò)活動(dòng)中提取具有潛在價(jià)值和隱藏的信息,進(jìn)而對(duì)這些信息進(jìn)行處理和分析,最后獲得有價(jià)值的農(nóng)業(yè)相關(guān)信息。除了強(qiáng)大的數(shù)據(jù)庫(kù)之外,農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站同樣有各類不同的客戶群,以及基于經(jīng)紀(jì)人、種植戶等交叉銷售的行為,具備使用CRISP-DM的基礎(chǔ)。經(jīng)過(guò)跨行業(yè)數(shù)據(jù)挖掘,可以分析農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站客戶流失的原因,以及客戶信用等級(jí)評(píng)價(jià)等問(wèn)題。[2]以上問(wèn)題的解決對(duì)于農(nóng)產(chǎn)品電子商務(wù)業(yè)務(wù)運(yùn)營(yíng)商來(lái)說(shuō)意義重大,他們對(duì)了解用戶以及客戶的使用和購(gòu)買習(xí)慣具有極大興趣,通過(guò)對(duì)網(wǎng)站結(jié)構(gòu)進(jìn)行優(yōu)化,使得客戶瀏覽、購(gòu)買體驗(yàn)更加舒適。根據(jù)客戶消費(fèi)習(xí)慣推送有價(jià)值的銷售信息,有效實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。只有更好的吸引客戶,增加客戶粘性,最終才能提高網(wǎng)站的轉(zhuǎn)化率。結(jié)合數(shù)據(jù)挖掘的各項(xiàng)條件以及農(nóng)產(chǎn)品電子商務(wù)的各項(xiàng)特性,利用數(shù)據(jù)挖掘來(lái)提升農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的運(yùn)營(yíng)效果,具有廣闊的應(yīng)用空間。
(一)商務(wù)理解下的基礎(chǔ)數(shù)據(jù)來(lái)源
電子商務(wù)的屬性是商務(wù)。通常,電子商務(wù)是通過(guò)網(wǎng)站這一載體實(shí)現(xiàn)的,因此商務(wù)活動(dòng)要首先從電子商務(wù)網(wǎng)站的數(shù)據(jù)分析開(kāi)始。一般來(lái)說(shuō),電子商務(wù)網(wǎng)站運(yùn)營(yíng)狀況可查看訪問(wèn)量和成交量?jī)深悢?shù)據(jù)。訪問(wèn)量考察這是一個(gè)客戶的多次訪問(wèn)還是不同客戶的一次訪問(wèn),每次訪問(wèn)的時(shí)間長(zhǎng)短和訪問(wèn)深度表現(xiàn)如何。[3]成交量是通過(guò)購(gòu)買的產(chǎn)品組合發(fā)現(xiàn)客戶的購(gòu)買習(xí)慣和產(chǎn)品之間的聯(lián)系,通過(guò)多次交易行為提取購(gòu)買習(xí)慣。農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站與其他網(wǎng)站相同,也是以商業(yè)屬性為主,同樣我們可以通過(guò)查看訪問(wèn)量和成交量?jī)深悢?shù)據(jù)來(lái)取得農(nóng)產(chǎn)品商務(wù)的特征。農(nóng)產(chǎn)品的網(wǎng)絡(luò)數(shù)據(jù)分析根據(jù)不同數(shù)據(jù)提取層次,分為以下幾類:
從整體網(wǎng)站進(jìn)行的數(shù)據(jù)準(zhǔn)備。網(wǎng)站級(jí)別的數(shù)據(jù)挖掘通常將農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站作為一個(gè)整體進(jìn)行分析,主要內(nèi)容包括:訪問(wèn)網(wǎng)站的用戶(消費(fèi)者、瀏覽者、經(jīng)紀(jì)人、種植戶等)分析、網(wǎng)站購(gòu)買情況分析、網(wǎng)站銷售金額分析等情況,以上數(shù)據(jù)可以從網(wǎng)絡(luò)日志中提取并進(jìn)行挖掘。[4]
從頁(yè)面進(jìn)行的數(shù)據(jù)準(zhǔn)備。需要關(guān)注:哪些網(wǎng)頁(yè)訪問(wèn)量最大、訪問(wèn)者進(jìn)入與退出網(wǎng)頁(yè)分析,同樣通過(guò)網(wǎng)絡(luò)日志提取相應(yīng)分析數(shù)據(jù)。
從訪問(wèn)者個(gè)體行為進(jìn)行的數(shù)據(jù)準(zhǔn)備。對(duì)于訪問(wèn)級(jí)別的數(shù)據(jù)挖掘通常從訪問(wèn)者的角度進(jìn)行數(shù)據(jù)分析,主要涉及以下方面:網(wǎng)站訪問(wèn)留滯時(shí)間分析、網(wǎng)站/網(wǎng)頁(yè)訪問(wèn)順序、網(wǎng)站/網(wǎng)頁(yè)訪問(wèn)導(dǎo)致購(gòu)買行為分析,訪問(wèn)級(jí)別的數(shù)據(jù)分析。除了依賴于網(wǎng)絡(luò)日志數(shù)據(jù),也需要結(jié)合Cookie數(shù)據(jù)分析。[5]
從訪問(wèn)者群體進(jìn)行的數(shù)據(jù)準(zhǔn)備。訪問(wèn)者級(jí)別數(shù)據(jù)挖掘除了關(guān)注訪問(wèn)情況之外,還需要注意不同的訪問(wèn)是否由同一個(gè)訪問(wèn)者產(chǎn)生和發(fā)起,同時(shí)對(duì)該訪問(wèn)者不同時(shí)間的訪問(wèn)行為進(jìn)行進(jìn)一步的對(duì)比分析與挖掘。訪問(wèn)者級(jí)別的數(shù)據(jù)挖掘除了利用網(wǎng)絡(luò)日志搜集相應(yīng)數(shù)據(jù),還需要網(wǎng)站注冊(cè)信息數(shù)據(jù)。
從客戶進(jìn)行的數(shù)據(jù)準(zhǔn)備??蛻艏?jí)別的網(wǎng)絡(luò)數(shù)據(jù)挖掘關(guān)注已經(jīng)至少產(chǎn)生過(guò)一次購(gòu)買行為的客戶。在進(jìn)行客戶級(jí)別分析的時(shí)候,往往利用包括網(wǎng)絡(luò)日志、注冊(cè)信息、瀏覽歷史、購(gòu)買歷史行為數(shù)據(jù)、評(píng)價(jià)信息等多方面的數(shù)據(jù)。
(二)數(shù)據(jù)采集途徑
數(shù)據(jù)挖掘的對(duì)象是通過(guò)各種路徑搜集來(lái)的各種數(shù)據(jù),電子商務(wù)數(shù)據(jù)主要來(lái)源于電子商務(wù)網(wǎng)頁(yè),包括:點(diǎn)擊流數(shù)據(jù)(Click stream)、結(jié)果數(shù)據(jù)(Out鄄comes)、研究數(shù)據(jù)(Research Data)、競(jìng)爭(zhēng)數(shù)據(jù)(Competitive Data)這四類,他們的來(lái)源途徑分別為:
點(diǎn)擊流數(shù)據(jù)。通過(guò)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的Web日志、Web Beacons、JavaScript標(biāo)記和包嗅探器獲得,點(diǎn)擊流數(shù)據(jù)記錄了用戶訪問(wèn)網(wǎng)站的全部情況,包括用戶的電腦信息,如用戶瀏覽器類型、各類經(jīng)人員(包括農(nóng)民經(jīng)紀(jì)人、種植戶)等訪問(wèn)歷史、客戶購(gòu)買的訪問(wèn)歷史數(shù)據(jù);用戶的請(qǐng)求與相應(yīng)信息,如種植戶查看或者操作的內(nèi)容,以及點(diǎn)擊后的響應(yīng)情況(響應(yīng)時(shí)間、數(shù)據(jù)流量等)等。[6]
結(jié)果數(shù)據(jù)。結(jié)果數(shù)據(jù)是各類農(nóng)產(chǎn)品相關(guān)用戶在網(wǎng)站中使用服務(wù)或者購(gòu)買產(chǎn)品時(shí)被記錄的數(shù)據(jù)。對(duì)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站來(lái)說(shuō),此部分?jǐn)?shù)據(jù)是數(shù)據(jù)挖掘的主要內(nèi)容。[7]
農(nóng)產(chǎn)品研究數(shù)據(jù)。主要是通過(guò)市場(chǎng)調(diào)研手段獲得的數(shù)據(jù),這部分?jǐn)?shù)據(jù)通常是網(wǎng)站根據(jù)業(yè)務(wù)需要主動(dòng)獲取。
競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)據(jù)。來(lái)源于競(jìng)爭(zhēng)對(duì)手或者相關(guān)網(wǎng)站的數(shù)據(jù)的收集與整理。
(三)數(shù)據(jù)挖掘內(nèi)容
網(wǎng)絡(luò)日志中包含了眾多的信息,但是對(duì)于電子商務(wù)數(shù)據(jù)分析來(lái)說(shuō)這些信息大多不能直接用于數(shù)據(jù)分析,需要對(duì)這些信息進(jìn)行各種復(fù)雜的交換,才能從中提取對(duì)數(shù)據(jù)分析有使用價(jià)值的變量,同時(shí)結(jié)合其他來(lái)源的多個(gè)數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘。[8]一般在對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行整理的時(shí)候有以下三個(gè)步驟。
首先,厘清訪問(wèn)數(shù)據(jù),識(shí)別不同的訪問(wèn)及訪問(wèn)者。在網(wǎng)絡(luò)日志中,IP地址相同、操作間隔不超過(guò)30分鐘,并且用戶代理(瀏覽器)未發(fā)生變化則可認(rèn)為是同一訪問(wèn);為了識(shí)別同一訪問(wèn)者對(duì)網(wǎng)站的多次訪問(wèn),還需要通過(guò)Cookie信息以判斷其為同一個(gè)人(使用同一臺(tái)電腦)。
其次,從網(wǎng)絡(luò)日志中提取農(nóng)產(chǎn)品網(wǎng)站的變量信息。提取用戶的搜索關(guān)鍵詞信息,便于生成反映用戶查詢關(guān)鍵詞信息的數(shù)據(jù)表(包含查詢次數(shù)超過(guò)30次的關(guān)鍵詞);提取訪問(wèn)時(shí)間、每頁(yè)停留時(shí)間、訪問(wèn)連續(xù)頁(yè)面直接的間隔時(shí)間、訪問(wèn)的頂級(jí)目錄和從何處(從何種搜索引擎或門戶網(wǎng)站)進(jìn)入網(wǎng)頁(yè)等信息,便于生成用戶網(wǎng)絡(luò)訪問(wèn)習(xí)慣數(shù)據(jù)表。
最后,清洗并合并數(shù)據(jù)。將網(wǎng)絡(luò)日志中提取的數(shù)據(jù)與其他來(lái)源的數(shù)據(jù)進(jìn)行合并,將注冊(cè)信息、登陸信息、產(chǎn)品信息、購(gòu)買信息等與從網(wǎng)絡(luò)日志中提取的信息進(jìn)行合并,進(jìn)而生成比較完整的分析數(shù)據(jù)集。
(一)訪問(wèn)用戶購(gòu)買行為預(yù)測(cè)模型
用戶購(gòu)買行為預(yù)測(cè)模型所采用的大多是決策樹(shù)模型,它可以利用一系列規(guī)則劃分,通過(guò)建立樹(shù)狀圖用于分類和預(yù)測(cè)。當(dāng)用戶在農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站產(chǎn)生購(gòu)買行為時(shí),用戶一定會(huì)在訂購(gòu)確認(rèn)或者付款界面進(jìn)行訂單確認(rèn)。此模型的目的即預(yù)測(cè)用戶的哪些特征或者其在網(wǎng)頁(yè)上的行為導(dǎo)致用戶使用訂購(gòu)確認(rèn)或者付款界面。決策樹(shù)模型常用的算法有CART、CHAID、ID3、ID4.5.C5.0,在農(nóng)產(chǎn)品數(shù)據(jù)挖掘中,C5.0模型是應(yīng)用較廣泛的一種,其優(yōu)點(diǎn)是適用于處理大數(shù)據(jù)集,采用Boosting方式提高模型準(zhǔn)確率。[9]
C5.0模型采用屬性的信息增益率來(lái)選擇屬性,根據(jù)帶來(lái)最大信息增益的字段拆分樣本,以信息熵的下降速度作為最佳分支變量和分割閥值的依據(jù)。[10]在利用C5.0算法建立模型之前需要對(duì)從網(wǎng)絡(luò)日志中搜集到的一次訪問(wèn)中包含的多條記錄變?yōu)橐淮卧L問(wèn)只包含一條記錄,并且要將用戶方位網(wǎng)頁(yè)、引用網(wǎng)頁(yè)、網(wǎng)頁(yè)頂級(jí)目錄分別作為不同變量來(lái)建模。由于用戶使用訂購(gòu)確認(rèn)或者付款界面的頻率相對(duì)較少,因此在建模過(guò)程中需要對(duì)變量進(jìn)行平衡處理。
(二)農(nóng)產(chǎn)品精準(zhǔn)推薦模型
農(nóng)產(chǎn)品精準(zhǔn)推薦模型的原理是利用聚類分析算法對(duì)用戶進(jìn)行細(xì)分,找出每個(gè)聚類類別最常購(gòu)買的若干農(nóng)產(chǎn)品。利用C5.0決策樹(shù)模型的聚類功能,將用戶訪問(wèn)網(wǎng)站的行為數(shù)據(jù)作為模型的信息熵,對(duì)用戶進(jìn)行細(xì)分,對(duì)訪問(wèn)用戶根據(jù)其訪問(wèn)行為歸入到某個(gè)聚類類別,并向此類別的客戶推薦該聚類類別中歷史客戶最常購(gòu)買的產(chǎn)品。模型建立之后可以根據(jù)用戶訪問(wèn)的頁(yè)面想起推薦感興趣的產(chǎn)品,包括消費(fèi)者購(gòu)買的水果,或農(nóng)民種植戶購(gòu)買的化肥,均可以實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。
(三)人性化網(wǎng)頁(yè)推薦模型
農(nóng)產(chǎn)品網(wǎng)站使用客戶具有其特殊的使用習(xí)慣,通過(guò)搜集用戶在網(wǎng)站上的行為,包括訪問(wèn)用戶最初瀏覽的三個(gè)頁(yè)面,結(jié)合瀏覽這三個(gè)頁(yè)面的時(shí)間間隔這5個(gè)變量,利用C5.0模型對(duì)用戶的習(xí)慣進(jìn)行聚類。模型建立之后,當(dāng)新的訪問(wèn)用戶訪問(wèn)了3個(gè)頁(yè)面之后,可以應(yīng)用之前已經(jīng)生成的聚類模型將其歸入某個(gè)聚類中,并根據(jù)該類別中最常被查看的3個(gè)頁(yè)面向該訪問(wèn)用戶推薦頁(yè)面,推薦的形式可以體現(xiàn)為第4個(gè)頁(yè)面的鏈接,也可以在第4個(gè)頁(yè)面的特定區(qū)域先生這些頁(yè)面的概況。
除此之外,還可以利用電子商務(wù)數(shù)據(jù)對(duì)訪問(wèn)者建立模型,包括訪問(wèn)者細(xì)分模型、訪問(wèn)內(nèi)容預(yù)測(cè)模型、訪問(wèn)內(nèi)容細(xì)分模型、基于關(guān)聯(lián)貴州的產(chǎn)品特征模型等等。
利用數(shù)據(jù)挖掘方法對(duì)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站搜集的各種信息進(jìn)行整理和分析,并運(yùn)用數(shù)據(jù)挖掘模型對(duì)數(shù)據(jù)進(jìn)行運(yùn)算,可以發(fā)現(xiàn)農(nóng)產(chǎn)品相關(guān)客戶的行為特征、購(gòu)買習(xí)慣以及商品的特性。通過(guò)發(fā)現(xiàn)的這些規(guī)律對(duì)農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站進(jìn)行優(yōu)化,可以提高客戶的訪問(wèn)率和轉(zhuǎn)化率,大大提高農(nóng)產(chǎn)品電子商務(wù)網(wǎng)站的運(yùn)營(yíng)效果。
參考文獻(xiàn):
[1]藺莉,潘浩.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識(shí)與技術(shù),2010(04):816-818.
[2]于小兵,曹杰,張夢(mèng)男.B2C電子商務(wù)客戶流失原因評(píng)估研究[J].模糊系統(tǒng)與數(shù)學(xué),2012(6):167.
[3]王峰.網(wǎng)站訪問(wèn)量統(tǒng)計(jì)應(yīng)用實(shí)踐[J].中國(guó)傳媒科技,2015(07):79-81.
[4]董莉芬.基于用戶行為分析的精準(zhǔn)營(yíng)銷探討[J].電信技術(shù),2013(04):67-69.
[5]劉曉峰等.基于分布式網(wǎng)絡(luò)爬蟲(chóng)的移動(dòng)互聯(lián)網(wǎng)用戶行為分析系統(tǒng)研發(fā)[J].廣西通信技術(shù),2013(4):18-21.
[6]鄒麗新,陳維斌.基于點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù)的用戶行為分析[J].微計(jì)算機(jī)信息,2009(15):151-152.
[7]申彥.大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D].江蘇大學(xué),2013:2-5.
[8]戴菲.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識(shí)與技術(shù),2011(21):5043-5044.
[9]鄭麗琴.基于數(shù)據(jù)挖掘的決策樹(shù)算法和原理簡(jiǎn)介[J].知識(shí)經(jīng)濟(jì),2014(7):87-88.
[10]薛薇等.基于Clementine的數(shù)據(jù)挖掘[M].北京:中國(guó)人民大學(xué)出版社,2012:169-178.
編輯:邵西梅
作者簡(jiǎn)介:王鑫(1973-),女,山東商業(yè)職業(yè)技術(shù)學(xué)院工商管理學(xué)院院長(zhǎng)、副教授,研究方向?yàn)殡娮由虅?wù)、項(xiàng)目管理。
收稿日期:2015-07-05
DOI:10.3969/J.ISSN.2095-7238.2016.01.013
中圖分類號(hào):F325.2
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):2095-7238(2016)01-0074-03