錢丹丹 周金海
摘要:為了將大數(shù)據(jù)與傳統(tǒng)商業(yè)智能相結(jié)合,重新設(shè)計(jì)了商業(yè)智能的架構(gòu)平臺(tái),著重探討了數(shù)據(jù)獲取方式,以中藥飲片企業(yè)電商數(shù)據(jù)為例,用聚類分析中的K-Means算法對消費(fèi)者進(jìn)行分群,以此實(shí)現(xiàn)對不同消費(fèi)者進(jìn)行個(gè)性化營銷的目的。
關(guān)鍵詞:大數(shù)據(jù);商業(yè)智能;數(shù)據(jù)挖掘;聚類分析
引言
商業(yè)智能(Bl)概念由Gartner Group提出,涉及信息搜索、管理和分析,目的是使企業(yè)決策者獲得知識(shí),促使他們做出對企業(yè)更加有力的決策。商業(yè)智能不是一種獨(dú)立的技術(shù),而是一套完整的解決方案。它將數(shù)據(jù)倉庫,聯(lián)機(jī)分析(OLAP),數(shù)據(jù)挖掘和可視化等技術(shù)結(jié)合應(yīng)用于業(yè)務(wù)活動(dòng),使企業(yè)的復(fù)雜信息轉(zhuǎn)化為可供輔助的知識(shí),最后將知識(shí)呈現(xiàn)給用戶,以支持企業(yè)決策[1]。
隨著Internet應(yīng)用程序規(guī)模的不斷擴(kuò)大,需要處理的數(shù)據(jù)量呈指數(shù)級增長,數(shù)據(jù)結(jié)構(gòu)變得越來越復(fù)雜。業(yè)務(wù)運(yùn)營壓力急劇增大,從而直接推動(dòng)了大數(shù)據(jù)處理技術(shù)的發(fā)展[2]。隨著電子商務(wù)、云計(jì)算、移動(dòng)社交媒體等新一代IT技術(shù)的快速發(fā)展,傳統(tǒng)的Bl系統(tǒng)逐漸不能滿足企業(yè)數(shù)據(jù)分析的需求。個(gè)性化、數(shù)據(jù)化、科學(xué)的數(shù)據(jù)分析技術(shù)逐漸使傳統(tǒng)的Bl系統(tǒng)需要與大數(shù)據(jù)技術(shù)相結(jié)合,實(shí)現(xiàn)一種滿足大數(shù)據(jù)分析的新平臺(tái)架構(gòu)。
1、基于傳統(tǒng)BI體系的大數(shù)據(jù)應(yīng)用設(shè)計(jì)
在大數(shù)據(jù)時(shí)代,傳統(tǒng)BI的數(shù)據(jù)存儲(chǔ)能力、數(shù)據(jù)分析能力、實(shí)時(shí)數(shù)據(jù)處理能力不能勝任非結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)源的應(yīng)用分析。因此,如何綜合利用現(xiàn)有的BI和大數(shù)據(jù)技術(shù)是新平臺(tái)架構(gòu)設(shè)計(jì)的關(guān)鍵。傳統(tǒng)的BI數(shù)據(jù)主要來自內(nèi)部操作系統(tǒng)和管理系統(tǒng);大數(shù)據(jù)的主要來源是互聯(lián)網(wǎng),如微博,網(wǎng)頁和其他數(shù)據(jù)交換。在數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)和以后的數(shù)據(jù)應(yīng)用程序方面,這兩者都有本質(zhì)上的不同?;谝陨峡紤],設(shè)計(jì)了新的架構(gòu)平臺(tái)如圖1所示。
數(shù)據(jù)源主要包括企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)由OA系統(tǒng)、ERP系統(tǒng)、財(cái)務(wù)報(bào)表系統(tǒng)等相關(guān)結(jié)構(gòu)化數(shù)據(jù)組成;外部數(shù)據(jù)包括互聯(lián)網(wǎng)上的非結(jié)構(gòu)化數(shù)據(jù),如超文本,圖像和視頻。數(shù)據(jù)采集在原有采集方式中新增了互聯(lián)網(wǎng)網(wǎng)頁爬蟲的采集方式。針對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)采用不同的處理方法。非結(jié)構(gòu)化數(shù)據(jù)整理成結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式結(jié)構(gòu)化數(shù)據(jù)庫中;傳統(tǒng)數(shù)據(jù)仍存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中。大數(shù)據(jù)主要以分布式文件系統(tǒng)(HDFS)和NoSQL數(shù)據(jù)庫的形式存儲(chǔ)。最終數(shù)據(jù)主要用于聯(lián)機(jī)分析處理,數(shù)據(jù)挖掘,數(shù)據(jù)可視化等方面。
2、數(shù)據(jù)采集方式
大數(shù)據(jù)背景下的數(shù)據(jù)收集方法主要包括三類:系統(tǒng)日志收集,網(wǎng)絡(luò)數(shù)據(jù)收集和數(shù)據(jù)接口收集。日志數(shù)據(jù)的采集是通過設(shè)備中的日志記錄子系統(tǒng)實(shí)現(xiàn)的,這個(gè)子系統(tǒng)能夠在必要的時(shí)候生成日志消息。常用的商用數(shù)據(jù)API都支持REST API的方式獲取數(shù)據(jù)信息。網(wǎng)絡(luò)數(shù)據(jù)采集主要采用網(wǎng)絡(luò)爬蟲技術(shù),其核心原則是:使用超文本傳輸協(xié)議HTTP仿真瀏覽器通過統(tǒng)一資源定位器URL地址訪問Web服務(wù)器,獲取Web服務(wù)器的權(quán)限,返回到原始頁面并解析數(shù)據(jù)[3]。
傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)可能存在問題,因此為爬取web資源而設(shè)計(jì)的聚焦爬蟲技術(shù)應(yīng)運(yùn)而生。聚焦爬蟲有選擇地訪問因特網(wǎng)上的與網(wǎng)頁相關(guān)的鏈接,以基于已建立的爬行目標(biāo)(使用某電商銷售主題)獲得他們所需的信息。聚焦爬蟲并不追求網(wǎng)頁的全面覆蓋,相反,它針對與特定主題相關(guān)的網(wǎng)頁,并為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。
3、中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用案例
3.1中藥飲片企業(yè)發(fā)展?fàn)顩r
傳統(tǒng)中藥飲片在生產(chǎn)銷售過程中比較混亂,沒有統(tǒng)一的質(zhì)量標(biāo)準(zhǔn),因此,質(zhì)量監(jiān)督管理難度較大。由于中藥飲片生產(chǎn)企業(yè)已經(jīng)逐漸全面實(shí)施藥品GMP認(rèn)證,其生產(chǎn)已從純手工加工獨(dú)立出來成為中藥行業(yè)的一項(xiàng)產(chǎn)業(yè)。也因此中藥飲片、中藥材、中成藥并稱為中藥的三大組成部分。隨著GMP認(rèn)證的實(shí)施,中藥飲片生產(chǎn)企業(yè)也發(fā)生了本質(zhì)的變化,中藥飲片的質(zhì)量得到了提高,同時(shí)取得了良好的社會(huì)效益。然而,中藥飲片的來源,加工方法和用途均有其傳統(tǒng)特征。這一目標(biāo)特性與GMP要求之間存在很大差異。因此,在實(shí)施過程中存在很多問題,特別是2010版的GMP和附錄對中藥飲片生產(chǎn)的要求達(dá)到了前所未有的高度,中藥飲片企業(yè)的管理面臨嚴(yán)峻挑戰(zhàn)。
3.2 K-Means算法
K均值是一種廣泛使用的聚類方法,它將D個(gè)實(shí)體劃分為N個(gè)聚類。從而確保集群內(nèi)的相似性盡可能高,集群之間的相似性盡可能低。K-means算法的過程如下:
(1)隨機(jī)選擇N個(gè)數(shù)據(jù)點(diǎn)作為質(zhì)心;
(2)計(jì)算數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)到質(zhì)心的距離,并將數(shù)據(jù)集中的所有數(shù)據(jù)點(diǎn)聚合為N個(gè)簇;
(3)根據(jù)第2步計(jì)算得到的N組數(shù)據(jù)點(diǎn),迭代計(jì)算出新的質(zhì)心:
(4)重復(fù)步驟2-3,直到最終質(zhì)心與前一個(gè)質(zhì)心之間的距離很?。M足收斂);
(5)最后讀入所有的觀察值,將每個(gè)觀察值按照最接近質(zhì)心的類別進(jìn)行分類,分類結(jié)束。
質(zhì)心和距離是K-MEANS算法的兩個(gè)基本概念。質(zhì)心可以被看做是一個(gè)樣本,或者可以被認(rèn)為是數(shù)據(jù)集中的某個(gè)數(shù)據(jù)點(diǎn)A,并規(guī)定它是具有相似性的一組數(shù)據(jù)的中心。質(zhì)心的選擇對聚類結(jié)果有很大影響,因?yàn)樵撍惴ㄊ请S機(jī)選擇任何一個(gè)對象作為初始聚類的質(zhì)心,并且最初表示聚類結(jié)果。當(dāng)然,這個(gè)結(jié)果通常是不合理的,只是隨機(jī)劃分的數(shù)據(jù)集。質(zhì)心的具體校正還需要多輪迭代計(jì)算才能逐漸逼近所需的聚類結(jié)果:具有相似性的對象被分組為一組,所有這些對象都具有共同的質(zhì)心。另外,由于初始質(zhì)心選擇的隨機(jī)性,最終結(jié)果不一定是預(yù)期的,因此需要多次迭代,在每次迭代時(shí)重新隨機(jī)獲得初始質(zhì)心,直到最終聚類結(jié)果滿足預(yù)期。
距離實(shí)際上是相似度的度量。常見的距離公式計(jì)算有:曼哈頓距離,歐幾里德距離,閔可夫斯基距離,切比雪夫距離等。聚類分析中最常用的距離公式是歐氏距離,因?yàn)闅W氏距離直觀且容易計(jì)算,而且歐式距離對對象的點(diǎn)進(jìn)行坐標(biāo)偏移和變化旋轉(zhuǎn),最后,距離的值保持不變,因此仍然可以通過對象的原始相似性來判斷對象相似性。設(shè)d(x,y)為對象a和b之間的距離,則d(x,y)應(yīng)滿足以下三個(gè)屬性:
(1)非負(fù)性:即d(x,y)30恒成立;當(dāng)且僅當(dāng)x=y時(shí),d(x,y)=O。
(2)對稱性:即d(x,y)=d(y,X)。
(3)三角不等式:任意對象a,b,c恒有d(x,y+d(y,z)3d(x,z)。
3.3中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用分析
在大數(shù)據(jù)時(shí)代,獨(dú)立的數(shù)據(jù)本身價(jià)值不大,通過數(shù)據(jù)預(yù)測未來趨勢以及利用數(shù)據(jù)發(fā)現(xiàn)隱藏的知識(shí)才是關(guān)鍵。眾多中藥飲片企業(yè)緊跟時(shí)代發(fā)展,在電商網(wǎng)站都有相應(yīng)的門店銷售中藥飲片,因此積累了大量顧客購買中藥飲片的消費(fèi)記錄。對這些消費(fèi)記錄的分析可以對消費(fèi)者進(jìn)行分組,不同群體的消費(fèi)者可以根據(jù)消費(fèi)行為對營銷進(jìn)行個(gè)性化??蛻舴诸愑欣谥兴庯嬈髽I(yè)針對性的為不同群體客戶提供差別化服務(wù),也能夠讓企業(yè)及時(shí)察覺市場和客戶的一些微小變化并針對其調(diào)整策略。
RFM模型是廣泛應(yīng)用的多因素客戶分類方法,R(Recency)表示客戶最近交易到當(dāng)前時(shí)間的時(shí)間段。F(Frequency)代表在指定時(shí)間段內(nèi)客戶與企業(yè)合作的次數(shù)(即購買行為),M(Monetary)代表在指定時(shí)間段內(nèi)客戶與企業(yè)交易所產(chǎn)生的金額[4],RFM是以客戶創(chuàng)造的絕對金額來衡量客戶價(jià)值的。
現(xiàn)從某中藥飲片電商網(wǎng)站爬取相關(guān)數(shù)據(jù),依據(jù)一定的數(shù)據(jù)處理原則對原始數(shù)據(jù)進(jìn)行清洗采集,經(jīng)過處理后得到消費(fèi)者數(shù)據(jù)(3000條),R在這里表示最近一次購買中藥飲片的時(shí)間間隔,F(xiàn)表示購買中藥飲片頻率,M表示在某平臺(tái)上消費(fèi)的總金額,截取部分有效數(shù)據(jù)見表1:
不同數(shù)據(jù)項(xiàng)之間存在著數(shù)值大小和數(shù)值單位的差異,因此不能直接用來參與運(yùn)算。比如,消費(fèi)者購買的產(chǎn)品總金額M是一個(gè)很大的數(shù)值屬性,單位一般在百以上,而在一定時(shí)間內(nèi)購買產(chǎn)品的頻率往往較小,且相對于消費(fèi)金額來說沒什么作用。為了讓這些屬性都能發(fā)揮作用,需要將屬性與其自身對應(yīng)的范圍進(jìn)行比較,保證單位和數(shù)值不存在差值性,以便后期直接使用這些標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行運(yùn)算。本文采用歸一化處理方法對數(shù)據(jù)進(jìn)行處理,以下表2是經(jīng)過處理后的3000條數(shù)據(jù)中的部分?jǐn)?shù)據(jù)。
使用K-Means算法設(shè)置簇的數(shù)量為3,最大迭代次數(shù)為3,距離函數(shù)使用歐幾里德距離。由于初始質(zhì)心是隨機(jī)的,因此每個(gè)簇的結(jié)果可能不同。經(jīng)過多次重復(fù)實(shí)驗(yàn)后,檢測聚類結(jié)果基本相同,因此可以采用此聚類結(jié)果,對聚類用戶進(jìn)行群體特征分析,并進(jìn)行群體個(gè)性化營銷。以下是K-Means算法聚類生成的群體一、二、三的圖片,如圖3消費(fèi)群體所示:
群體一:這些客戶最近一次在電商網(wǎng)站消費(fèi)間隔天數(shù)(R)較短,消費(fèi)總金額(M)較多。他們是企業(yè)最理想的客戶類型,同時(shí)也是潛在客戶,對公司貢獻(xiàn)大,但所占比例很小。企業(yè)應(yīng)優(yōu)先考慮將資源投放到他們身上,以此實(shí)現(xiàn)差異化管理和一對一營銷,從而提高此類客戶的忠誠度和滿意度,并最大限度地提高此類客戶的高消費(fèi)水平。
群體二:這些客戶的購買頻率(F)一般,最后一次在電子商務(wù)網(wǎng)站上消費(fèi)的時(shí)間間隔(R)較短,并且消費(fèi)總量(M)是適中的。他們客戶價(jià)值變化的不確定性很高,消費(fèi)下降的原因各不相同,因此及時(shí)了解客戶信息并與客戶保持互動(dòng)尤為重要。企業(yè)可以根據(jù)近期消費(fèi)間隔時(shí)間和消費(fèi)頻次來推測顧客消費(fèi)行為的變化,重點(diǎn)關(guān)注這些客戶并采用特定的營銷方案來延長這類客戶的生命周期。
群體三:這類客戶的購買頻率(F)一般,最近一次在電商網(wǎng)站消費(fèi)間隔天數(shù)(R)適中,消費(fèi)總金額(M)較少。他們是中藥飲片企業(yè)的一般用戶與低價(jià)值客戶,可能只有中藥飲片打折促銷時(shí)才會(huì)購買。
4、總結(jié)
在大數(shù)據(jù)的背景下,充分利用數(shù)據(jù)挖掘信息可以抓住市場機(jī)遇。眾多企業(yè)除了線下實(shí)體銷售外也開展了具有獨(dú)特優(yōu)勢的線上交易,從電商大數(shù)據(jù)中挖掘隱藏的信息,根據(jù)這些信息,針對不同的客戶群體進(jìn)行個(gè)性化營銷,從而提高企業(yè)的客戶滿意度和經(jīng)濟(jì)效益。本文主要研究了大數(shù)據(jù)與傳統(tǒng)商業(yè)智能在電商企業(yè)(中藥飲片電商網(wǎng)站)數(shù)據(jù)分析中的應(yīng)用,重點(diǎn)描述聚類分析的K—Means算法并應(yīng)用于電子商務(wù)網(wǎng)站中客戶消費(fèi)數(shù)據(jù)的挖掘。通過聚類分析將客戶分為3個(gè)群體,根據(jù)不同客戶群體的特征有助于企業(yè)識(shí)別客戶,從而實(shí)現(xiàn)差異化的營銷目標(biāo)。
參考文獻(xiàn):
[1]陳榮鑫,付永鋼,陳維斌.基于Pentaho的商業(yè)智能系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,09: 2407-2409.
[2]楊超.基于大數(shù)據(jù)技術(shù)的BI系統(tǒng)關(guān)鍵技術(shù)研究[D].華南理工大學(xué),2016.
[3]卞偉瑋,王永超,崔立真,郭偉,李暉,周苗,薛付忠,劉靜.基于網(wǎng)絡(luò)爬蟲技術(shù)的健康醫(yī)療大數(shù)據(jù)采集整理系統(tǒng)[J].山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2017,55[06): 47-55.
[4]李品睿,許守任,許暉.基于RFM模型的核心客戶識(shí)別與關(guān)系管理研究——以保險(xiǎn)業(yè)為例[J].現(xiàn)代管理科學(xué),2015,(6):24-26.