宋廣科
(廣東女子職業(yè)技術(shù)學(xué)院應(yīng)用設(shè)計學(xué)院 廣東省廣州市 511450)
隨著電商產(chǎn)業(yè)的不斷發(fā)展,電商數(shù)據(jù)源出現(xiàn)了內(nèi)容豐富化、結(jié)構(gòu)復(fù)雜化的特點。采用傳統(tǒng)的數(shù)據(jù)收集、存儲、分析和應(yīng)用模式,則難以適應(yīng)新時期電商大數(shù)據(jù)的應(yīng)用需要?;诖?,人們要求建立與電商產(chǎn)業(yè)向適應(yīng)的信息數(shù)據(jù)平臺。從數(shù)據(jù)來源來看,在傳統(tǒng)BI數(shù)據(jù)模式下,內(nèi)部操作系統(tǒng)、管理系統(tǒng)是平臺數(shù)據(jù)的主要來源;而在大數(shù)據(jù)時代下,企業(yè)經(jīng)營數(shù)據(jù)的來源本身具有豐富性的特點,在多種數(shù)據(jù)來源中,互聯(lián)網(wǎng)是大數(shù)據(jù)時代下電商數(shù)據(jù)的主要來源。相比于傳統(tǒng)的經(jīng)營管理及數(shù)據(jù)處理模式,大數(shù)據(jù)時代下的電商數(shù)據(jù)在收集、存儲、分析處理和應(yīng)用上具有較大差異。
為滿足電商產(chǎn)業(yè)發(fā)展需要,越來越多的企業(yè)開始構(gòu)建電商大數(shù)據(jù)平臺;該平臺一般包含外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)兩個數(shù)據(jù)源。就外部數(shù)據(jù)源而言,其主要指的是超文本、圖像、視頻等網(wǎng)絡(luò)上的非結(jié)構(gòu)數(shù)據(jù);而內(nèi)部數(shù)據(jù)源包含多種類型,除電商經(jīng)營CA 系統(tǒng)、ERP 系統(tǒng)外,電商企業(yè)財務(wù)報表系統(tǒng)等都是其數(shù)據(jù)的主要來源。在電商大數(shù)據(jù)平臺應(yīng)用中,工作人員一般會采用互聯(lián)網(wǎng)網(wǎng)頁爬蟲的方式,實現(xiàn)各類數(shù)據(jù)的全方位采集;同時其會通過分布式文件和數(shù)據(jù)庫的形式完成數(shù)據(jù)存儲;在數(shù)據(jù)存儲、分析和應(yīng)用中,需要對各類數(shù)據(jù)進行深層次的挖掘和分類,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在處理過程中存在一定的差異,有必進行不同類型數(shù)據(jù)算法和分類方式分析。值得注意的是,在新時期,人們對于電商大數(shù)據(jù)挖掘和分類的人工智能程度提出了較高要求,這要求在具體操作中,深化技術(shù)應(yīng)用,實現(xiàn)電商大數(shù)據(jù)挖掘和分類的智能化發(fā)展。
與以往相比,電商大數(shù)據(jù)的信息來源范圍較廣,信息形式較為復(fù)雜,這使得信息挖掘的難度較大。為實現(xiàn)電商大數(shù)據(jù)的快速挖掘和處理,本研究在會出要注重兩個層面的要點把控:其一,在對電商大數(shù)據(jù)進行挖掘處理前,應(yīng)先建立必要的維度控制機制,這樣能在獲取節(jié)點數(shù)據(jù)后,實現(xiàn)這些數(shù)據(jù)信息的有效分割,繼而使得數(shù)據(jù)在分布時處于離散狀態(tài),為高維度數(shù)據(jù)的挖掘提供有效支撐。其二,在進行數(shù)據(jù)挖掘過程時,要較為快速的形成所挖掘數(shù)據(jù)的對應(yīng)集合,提升數(shù)據(jù)挖掘精度,還必須建立Spark 機制,以此來解決以往數(shù)據(jù)挖掘中數(shù)據(jù)信息冗余的問題。
建設(shè)數(shù)據(jù)模型樹是補充并完善電商大數(shù)據(jù)維度控制機制的重要方式。對于電商企業(yè)而言,準確獲取用戶信息對于自身決策和經(jīng)營管理工作的開展具有深刻影響。對此,有必要在電商大數(shù)據(jù)管理中,建立必要的用戶信息模型樹,以此來實現(xiàn)用戶行為的有效挖掘。
圖1:用戶行為挖掘樹模型
圖2:挖掘速度和挖掘錯誤率參數(shù)對比
就數(shù)據(jù)模型樹本身而言,要確保模型樹與電商企業(yè)經(jīng)營模式高度匹配,確保電商大數(shù)據(jù)的準確性、全面性,首要任務(wù)就是對全網(wǎng)的所有數(shù)據(jù)進行全面的掃描,這樣能知曉具體的網(wǎng)絡(luò)節(jié)點,并獲得較為完整的數(shù)據(jù)集合。將數(shù)據(jù)集合作為基礎(chǔ),從中選擇數(shù)據(jù)量最大的節(jié)點作為數(shù)據(jù)挖掘的初始節(jié)點,然后對剩余的數(shù)據(jù)節(jié)點進行排序處理。在每個排序周期內(nèi),僅選擇數(shù)據(jù)量最大的節(jié)點,然后進行數(shù)據(jù)挖掘處理,并由此形成最基本的數(shù)據(jù)模型樹。
完成基本的數(shù)據(jù)模型樹,出于精準營銷目的,電商企業(yè)還應(yīng)考慮消費者的行為,然后分析消費者具體行為與特定節(jié)點的關(guān)系,以此來構(gòu)建用戶行為挖掘樹。值得注意的是,電商企業(yè)大數(shù)據(jù)的形成與用戶行為之間并沒有一個具體的正向波動關(guān)系,這要求在用戶行為挖掘樹建設(shè)中,其不僅要考慮消費者消費行為,而且需要對查看等行為進行相應(yīng)的更改,然后在考慮周期性的特征下,對用戶行為進行排序,并且在排序中,應(yīng)注重用戶行為最多節(jié)點與數(shù)據(jù)總量最大階段的有序?qū)?yīng),最后采用二叉樹的方式進行數(shù)據(jù)排列,可獲得較為完整的用戶行為挖掘樹。電商大數(shù)據(jù)用戶行為挖掘樹模型如圖1所示。
電商企業(yè)經(jīng)營大數(shù)據(jù)管理中,在建立維度控制機制后,不僅可以獲得較為完整的基礎(chǔ)數(shù)據(jù)模型樹,而且能建成用戶行為挖掘樹;然從數(shù)據(jù)應(yīng)用過程來看,這兩種數(shù)據(jù)模型的關(guān)聯(lián)性并不突出。針對這一情況,創(chuàng)建Spark 機制,能進一步增強兩個數(shù)據(jù)模型之間的關(guān)聯(lián)度。
表1:仿真測試參數(shù)
在Spark 機制下,可通過“以列排序”的方式,對電商大數(shù)據(jù)中的節(jié)點進行排序,隨后按照傅里葉變化的方式,對排列后的數(shù)據(jù)進行處理,并開展基礎(chǔ)數(shù)據(jù)模型樹和用戶行為挖掘樹的耦合處理,由此可得到一個全新的數(shù)據(jù)序列,該序列可通過Spark 機制進行映射,其映射方式可表達為:
在該映射方式下,可通過隨意變換序列的方式,對原有數(shù)據(jù)序列進行變化;隨后在RSO 機制的作用下,對隨意變化的序列進行兩次結(jié)構(gòu)混淆操作,待整個網(wǎng)絡(luò)中全部節(jié)點數(shù)據(jù)變換結(jié)束后,得到基于RSO 機制的全新混淆序列和最終的Spark 機制映射序列。
科學(xué)合理地進行數(shù)據(jù)分類,能有效提升電商大數(shù)據(jù)的應(yīng)用價值。通常電商大數(shù)據(jù)分類在數(shù)據(jù)挖掘后進行,在對數(shù)據(jù)分類前,現(xiàn)需要對挖掘的數(shù)據(jù)進行清洗,并且在完成數(shù)據(jù)清洗后,還需要通過人工智能算法進行處理。這樣能較為準確的發(fā)現(xiàn)數(shù)據(jù)中所包含的規(guī)律,繼而獲得較為具體的模型。本研究中,采用KNN 算法進行數(shù)據(jù)分類處理,該模式下,電商大數(shù)據(jù)的分類按照用戶數(shù)據(jù)預(yù)處理、特征項目提取、構(gòu)造分類、數(shù)據(jù)分類的流程進行操作。
進行電商大數(shù)據(jù)的預(yù)處理,能為后期數(shù)據(jù)分類和應(yīng)用創(chuàng)造有利條件。以電商企業(yè)挖掘的用戶大數(shù)據(jù)為例,在進行用戶數(shù)據(jù)處理時,就必須根據(jù)用戶數(shù)據(jù)的具體類型,對所有的數(shù)據(jù)信息進行初步分類,然后實現(xiàn)具體分類欄目與數(shù)據(jù)類型的初步對應(yīng)。在用戶數(shù)據(jù)初步分類中,不僅可以根據(jù)消費意向、常住地、消費習(xí)慣的模式進行分類,也可以根據(jù)消費規(guī)模、個人愛好等進行處理,此外,根據(jù)用戶年齡段、性別等進行分類也是較為常用的這樣能較為常用的數(shù)據(jù)預(yù)處理方式,這樣清晰的獲得用戶的消費情況,進而為電商企業(yè)的經(jīng)營管理提供參考。
對初步完成分類的電商大數(shù)據(jù)進行特征提取,并擬定相應(yīng)的編碼,能為后期的數(shù)據(jù)的存儲管理和調(diào)取應(yīng)用提供保證?;陔娚檀髷?shù)據(jù)人工智能管理需要,對數(shù)據(jù)編碼過程中,還需要進行編碼種類的有效區(qū)分。現(xiàn)階段,除文字編碼、語義編碼外,電子編碼、神經(jīng)編碼、記憶編碼也是較為常用的編碼形式。并且受互聯(lián)網(wǎng)自身開放性的影響,電商大數(shù)據(jù)在應(yīng)用中存在一定的外部風(fēng)險,此時基于數(shù)據(jù)安全管理需要,在編碼過程中,還需要進行編碼數(shù)據(jù)的加密和譯碼的有效處理,以此來確保電商大數(shù)據(jù)應(yīng)用的靈活性、安全性。
通過Spark 機制建立電商大數(shù)據(jù)平臺后,通過數(shù)據(jù)的算法分析和分類處理訓(xùn)練,可得到一個K 值,按照KNN 分類算法,將K 值相接近的數(shù)據(jù)歸為一個組別,這樣可根據(jù)用戶的實際情況,分類投放相應(yīng)的營銷內(nèi)容,這不僅降低了電商企業(yè)的營銷成本,而且有效地提升了精準程度,為電商企業(yè)的精準營銷鋪平了道路。
電商大數(shù)據(jù)的仿真測試:
針對本研究提出的電商大數(shù)據(jù)挖掘算法和分類模式,進一步確定其在實際應(yīng)用的智能化程度,還需對于數(shù)據(jù)挖掘、數(shù)據(jù)分類的過程進行仿真測試。本研究中,采用Matlab 進行仿真測試,得到測試結(jié)果后,將測試結(jié)果與現(xiàn)階段數(shù)據(jù)挖掘中最常用的SCM 及SGM算法結(jié)果進行對照,由此可獲得一定的方針參數(shù)。利用本研究算法模式及分類方式,對某電商企業(yè)的大數(shù)據(jù)進行處理,隨后經(jīng)Matlab進行仿真測試,所得仿真測試的參數(shù)如表1所示。
為實現(xiàn)本研究設(shè)計數(shù)據(jù)挖掘算法和分類方法的有效評估,將上述測試結(jié)果與SCM,SGM 兩種算法進行對比,在實際對比中考慮挖掘速度和挖掘錯誤率兩個參數(shù)。實際對比結(jié)果如圖2所示。
由圖2 可知,在同種挖掘強度下,本研究所提出的挖掘算法和分類方法挖掘時間較短,這表明在電商大數(shù)據(jù)挖掘應(yīng)用中,本研究所提算法具有較高的效率性;這不僅解決了傳統(tǒng)算法陌模式下,電商大數(shù)據(jù)挖掘應(yīng)用的缺陷,而且有效地避免了電商大數(shù)據(jù)挖掘周期頻繁等問題。
值得注意的是,當(dāng)挖掘強度區(qū)域無限大時,各算法對于電商大數(shù)據(jù)的挖掘速度區(qū)域平緩,這主要是受到了電商企業(yè)用戶具體行為、具體算法整合節(jié)點資源等因素的影響。
傳統(tǒng)算法模式下,電商大數(shù)據(jù)挖掘處理中存在數(shù)據(jù)冗余程度較高的問題,較多的數(shù)據(jù)容易對電商企業(yè)信息的挖掘和應(yīng)用造成干擾。然而從錯誤率兩個層面來看,在同等挖掘前度下,本研究所提出算法和分類方式的錯誤率較小,這表明在電商數(shù)據(jù)挖掘應(yīng)用中,本研究所提供的算法具有較高的準確性,其能有效滿足電商企業(yè)應(yīng)用需要。
實現(xiàn)電商大數(shù)據(jù)的智能化挖掘和分類是電商數(shù)據(jù)高質(zhì)量應(yīng)用的基礎(chǔ)。新時期,電商企業(yè)發(fā)展尤為迅速,這使得企業(yè)的經(jīng)營數(shù)據(jù)類型不斷豐富,數(shù)據(jù)總量不斷增加,在以往數(shù)據(jù)分類、挖掘和利用中,受數(shù)據(jù)挖掘算法滯后、人工智能程度不高等因素的影響,電商大數(shù)據(jù)的挖掘、應(yīng)用存在周期頻繁、遞歸效率低下、待挖掘信息冗余程度高等問題。對于這一問題,本文基于人工智能背景,提出了一種全新化電商大數(shù)據(jù)分類和挖掘方式,該數(shù)據(jù)分類及挖掘模式下,對所有需要挖掘的數(shù)據(jù)進行離散處理,然后在人工智能工具下,依托Spark 架構(gòu)對其進行挖掘,并按照依次映射的方式對戶行為樹及其數(shù)據(jù)的集合進行分類處理,通過仿真測試得出:本研究所提供的數(shù)據(jù)挖掘和分類方式具有較高適用性,其能在解決傳統(tǒng)電商大數(shù)據(jù)挖掘處理問題的基礎(chǔ)上,為電商企業(yè)的精準營銷提供相應(yīng)的技術(shù)支持。