王紅艷,李選芒
(陜西工業(yè)職業(yè)技術(shù)學(xué)院,陜西咸陽(yáng) 712000)
隨著數(shù)據(jù)處理技術(shù)的迅速發(fā)展,數(shù)據(jù)處理在物流行業(yè)中的應(yīng)用也日益廣泛[1]。近年來(lái),網(wǎng)購(gòu)的人數(shù)迅速增加,規(guī)模不斷擴(kuò)大,物流信息的總量也呈現(xiàn)出幾何增長(zhǎng)的趨勢(shì)。這些龐大的數(shù)據(jù)對(duì)傳統(tǒng)物流管理系統(tǒng)的正常運(yùn)行造成了較大的壓力,同時(shí),目前系統(tǒng)太局限,與相關(guān)用戶的信息交流不足、信息化程度不高,對(duì)獲取到的數(shù)據(jù)無(wú)法進(jìn)行深入的分析,且數(shù)據(jù)利用率不足[2-4]。針對(duì)上述問(wèn)題,該文在分析數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,建立了一種基于數(shù)據(jù)挖掘的物流信息監(jiān)控系統(tǒng)。
該系統(tǒng)充分發(fā)揮數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì),利用樸素貝葉斯算法作為系統(tǒng)的引擎,對(duì)數(shù)據(jù)(倉(cāng))庫(kù)中的歷史數(shù)據(jù)進(jìn)行深度挖掘分析,以此得到數(shù)據(jù)之間的可能隱含關(guān)系并進(jìn)行事件發(fā)展預(yù)測(cè)。系統(tǒng)包含基本功能測(cè)試、物流信息監(jiān)控功能測(cè)試以及行為監(jiān)控功能測(cè)試。測(cè)試結(jié)果說(shuō)明,該系統(tǒng)除了能夠較好地實(shí)現(xiàn)基本需求外,還可以通過(guò)建立的模型較為準(zhǔn)確地預(yù)測(cè)企業(yè)相關(guān)數(shù)據(jù)未來(lái)發(fā)展的趨勢(shì)。通過(guò)與真實(shí)數(shù)據(jù)比較,其誤差在2%以內(nèi)。該系統(tǒng)為充分利用歷史物流數(shù)據(jù)、輔助用戶進(jìn)行判斷提供了一種可行的方案。
數(shù)據(jù)挖掘(Data Mining,DM)是一種新興的融合多門學(xué)科的數(shù)據(jù)處理方法,也可稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)[5]。具體是指將大量隱藏、有價(jià)值、不被了解的知識(shí)(模型或規(guī)則)從數(shù)據(jù)庫(kù)中發(fā)掘出來(lái)的過(guò)程。與傳統(tǒng)數(shù)據(jù)分析的不同在于數(shù)據(jù)挖掘具有先前未知的特點(diǎn),主要表現(xiàn)在挖掘出的知識(shí)是在沒有任何假設(shè)的條件下得到的,這在較大程度上避免了人為主觀因素對(duì)結(jié)果的影響[6]。
對(duì)于一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng),其主要包括用戶界面、模式評(píng)估、服務(wù)器、數(shù)據(jù)挖掘引擎、數(shù)據(jù)庫(kù)及知識(shí)庫(kù)等部分。系統(tǒng)結(jié)構(gòu)如圖1 所示[7]。
圖1 典型數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)
從整體上看,數(shù)據(jù)挖掘系統(tǒng)的工作流程可分為兩大部分:1)數(shù)據(jù)預(yù)處理。該部分通過(guò)服務(wù)器對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等信息存儲(chǔ)庫(kù)中的原始數(shù)據(jù)進(jìn)行清洗、集成與過(guò)濾,以此得到可進(jìn)行后續(xù)處理的數(shù)據(jù)[8];2)數(shù)據(jù)挖掘[9]。該部分利用數(shù)據(jù)挖掘引擎以及知識(shí)庫(kù)中的專業(yè)領(lǐng)域知識(shí)對(duì)前面所得到的數(shù)據(jù)進(jìn)行深度挖掘,從而得到相應(yīng)的知識(shí)或模型等。
數(shù)據(jù)挖掘可以實(shí)現(xiàn)多種功能,在實(shí)際使用中通常根據(jù)不同需求進(jìn)行選擇,這些功能主要分為以下4個(gè)方面:
1)關(guān)聯(lián)規(guī)則分析[10-12]。實(shí)際上是指獲取到的大量數(shù)據(jù)通常存在某些相互依賴關(guān)系,但這些關(guān)系在原始數(shù)據(jù)中無(wú)法直觀地表現(xiàn)出來(lái)。關(guān)聯(lián)規(guī)則分析即利用相關(guān)數(shù)據(jù)挖掘算法,通過(guò)設(shè)置恰當(dāng)?shù)闹眯哦扰c支持度,將數(shù)據(jù)之間的潛在相關(guān)關(guān)系表現(xiàn)出來(lái)。關(guān)聯(lián)規(guī)則的結(jié)果反映了各數(shù)據(jù)對(duì)應(yīng)的事件在一定置信度與支持度條件下的依賴關(guān)系。在實(shí)際使用中,通常得到的依賴關(guān)系相對(duì)較多,不利于進(jìn)一步分析。解決辦法是在數(shù)據(jù)發(fā)掘的過(guò)程中引入“興趣度”(具體代表的是使用者對(duì)所發(fā)現(xiàn)知識(shí)或規(guī)則的感興趣程度)的概念,從而提升結(jié)果的可用性。關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中研究最多,也是最深入的一個(gè)方向。
2)數(shù)據(jù)分類分析。其是指將獲取到的原始數(shù)據(jù)按照預(yù)先訓(xùn)練數(shù)據(jù)建立起來(lái)的類模板,劃分成具有不同維度和特性的類別[13]。分類分析則是將數(shù)據(jù)庫(kù)分好的各個(gè)類別進(jìn)行挖掘,得到用于描述該類的知識(shí)或模型。該模型可以用于表示現(xiàn)實(shí)中的一些預(yù)測(cè)或分類問(wèn)題,例如判斷一篇報(bào)道屬于文藝類還是軍事類;判斷銀行卡客戶的風(fēng)險(xiǎn)等級(jí)等。
3)數(shù)據(jù)聚類分析。在人工智能領(lǐng)域稱為非監(jiān)督學(xué)習(xí),是指在預(yù)先不清楚規(guī)則的條件下,利用相關(guān)算法將物理或抽象的信息數(shù)據(jù)自動(dòng)劃分為若干類。同時(shí),在聚類過(guò)程中需要保證每一個(gè)類別數(shù)據(jù)之間的差異性盡可能小,而不同類別數(shù)據(jù)之間的差異性盡可能大[14],如圖2 所示。與分類分析不同的是,聚類分析的結(jié)果是基于獲取到的數(shù)據(jù),且在處理時(shí)不依賴訓(xùn)練數(shù)據(jù)集事先所建立的類模板,所得到的分類結(jié)果也無(wú)法預(yù)測(cè)。相比于分類分析,數(shù)據(jù)聚類算法的時(shí)間復(fù)雜度和空間復(fù)雜度均較大,目前聚類分析在生物學(xué)、市場(chǎng)營(yíng)銷及圖書管理等領(lǐng)域已有較為廣泛的應(yīng)用。
圖2 數(shù)據(jù)聚類分析原理
4)預(yù)測(cè)。其是指根據(jù)已得到的分析結(jié)果對(duì)未來(lái)某些數(shù)據(jù)或事件發(fā)展趨勢(shì)的判斷,即通過(guò)分類建立相應(yīng)的知識(shí)或模型。利用該知識(shí)對(duì)數(shù)據(jù)庫(kù)所存儲(chǔ)的歷史信息進(jìn)行分析,從而找到影響事件發(fā)展變化的預(yù)測(cè)值[15]。數(shù)據(jù)挖掘的預(yù)測(cè)功能能夠運(yùn)用在推斷后續(xù)股票的走向、某一景區(qū)的假期旅游人數(shù)等。需要注意的是,預(yù)測(cè)只是一種對(duì)未來(lái)事物發(fā)展可能性的判斷,具有較大的不確定性。最終的真實(shí)結(jié)果只有當(dāng)實(shí)際事件發(fā)生后,才會(huì)有確切的評(píng)價(jià)。
現(xiàn)代物流業(yè)與傳統(tǒng)運(yùn)輸業(yè)的顯著區(qū)別在于一些新興技術(shù)的引入,如Barcode(條形碼)、EDI(電子數(shù)據(jù)交換)、VAN(增值網(wǎng)絡(luò))等[16]。為了提高物流數(shù)據(jù)信息的共享率與使用率,該文將近年來(lái)研究火熱的數(shù)據(jù)挖掘技術(shù)引入到物流信息監(jiān)控系統(tǒng)設(shè)計(jì)中,并建立基于數(shù)據(jù)挖掘的物流信息監(jiān)控系統(tǒng)。
相對(duì)于傳統(tǒng)運(yùn)輸業(yè),現(xiàn)代物流業(yè)需要解決的問(wèn)題主要包括以下幾點(diǎn):
1)盡可能縮短從訂貨到發(fā)貨的時(shí)間;
2)提高運(yùn)輸信息的共享程度,降低運(yùn)輸成本;
3)提高訂單處理的準(zhǔn)確度;
4)使倉(cāng)儲(chǔ)資源適量化;
5)根據(jù)歷史數(shù)據(jù)合理調(diào)整需求與供給,提高歷史數(shù)據(jù)的利用率;
6)與客戶之間的交互。
針對(duì)上述需求,該文所設(shè)計(jì)的基于數(shù)據(jù)挖掘的物流信息監(jiān)控系統(tǒng)框架如圖3 所示。
圖3 物流信息監(jiān)控系統(tǒng)框架
所設(shè)計(jì)的物流信息監(jiān)控系統(tǒng)可以分為6個(gè)部分:
1)物流數(shù)據(jù)的采集。主要負(fù)責(zé)采集和傳輸貨物運(yùn)輸過(guò)程中產(chǎn)生的各種有效信息,并儲(chǔ)存在數(shù)據(jù)庫(kù)中;
2)物流信息監(jiān)控平臺(tái)。該部分的功能是一方面對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行篩選和處理,使其能夠按照規(guī)定的格式存入數(shù)據(jù)倉(cāng)庫(kù)。另一方面是根據(jù)數(shù)據(jù)挖掘處理后的數(shù)據(jù),為系統(tǒng)管理人員提供最有效的信息或知識(shí),使其作出更準(zhǔn)確的決策;
3)數(shù)據(jù)挖掘。該部分首先利用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的相關(guān)信息進(jìn)行預(yù)處理,再利用算法從預(yù)處理結(jié)果中挖掘出更深層的知識(shí)或模型等,所用到的具體數(shù)據(jù)挖掘算法將在下一小節(jié)進(jìn)行詳細(xì)介紹;
4)數(shù)據(jù)倉(cāng)庫(kù)。負(fù)責(zé)存儲(chǔ)數(shù)據(jù)庫(kù)中經(jīng)過(guò)處理后的統(tǒng)一格式數(shù)據(jù);
5)知識(shí)庫(kù)。主要包括數(shù)據(jù)倉(cāng)庫(kù)的組成結(jié)構(gòu)、隸屬函數(shù)等知識(shí);
6)系統(tǒng)接口。主要為開發(fā)人員和專家提供訪問(wèn)知識(shí)庫(kù)的接口,以便對(duì)其進(jìn)行定義與維護(hù)。
常用于物流信息數(shù)據(jù)挖掘的算法有神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、模糊集算法、貝葉斯算法、決策樹算法及近鄰算法等。下面將對(duì)該文所采用的貝葉斯算法進(jìn)行簡(jiǎn)單介紹與分析。
貝葉斯算法是對(duì)以貝葉斯定理為基礎(chǔ)的一類分類算法的總稱,通常分為樸素型、樹增強(qiáng)型及傳統(tǒng)型貝葉斯算法。其中,樸素貝葉斯算法是三者中最常見,也是最容易實(shí)現(xiàn)的一種,文中采用該算法作為設(shè)計(jì)物流信息監(jiān)控系統(tǒng)的數(shù)據(jù)挖掘算法。該挖掘算法的定義如下:
1)假設(shè)A={a1,a2,…,am}是一個(gè)具有m個(gè)不同特征屬性的原始數(shù)據(jù)集;C={c1,c2,…,cn}是具有n個(gè)不同類別的集合。
2)將已知分類的集合D作為訓(xùn)練樣本集。令類別為c,特征屬性為a,然后分別計(jì)算c類別下a特征屬性的條件概率值,即:
3)假設(shè)A中的各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理可知:
其中,分子可以等價(jià)為:
4)根據(jù)式(1),計(jì)算P(c1|A),P(c2|A),…,P(cn|A)。
5)找出P(ck|A)=max{P(c1|A),P(c2|A),…,P(cn|A)},則A∈ck。
具體的算法流程如圖4 所示。
圖4 樸素貝葉斯算法流程
上述流程主要可分為4 個(gè)階段:挖掘準(zhǔn)備、分類器訓(xùn)練、分類器評(píng)價(jià)及實(shí)際應(yīng)用。挖掘準(zhǔn)備階段的主要作用是確定待挖掘?qū)ο蟮奶卣鲗傩?,并通過(guò)人工方法對(duì)其進(jìn)行劃分,這一步對(duì)后續(xù)數(shù)據(jù)的處理效果有著較大影響;分類器訓(xùn)練階段是利用已知的訓(xùn)練樣本數(shù)據(jù)對(duì)各類別下的各個(gè)特征屬性的條件概率進(jìn)行計(jì)算;分類器評(píng)估階段計(jì)算每個(gè)類別屬性下認(rèn)為其值最大的集合A對(duì)應(yīng)的類別,并得到相應(yīng)的分類器模型;實(shí)際應(yīng)用是根據(jù)得到的模型對(duì)新傳入的數(shù)據(jù)進(jìn)行分析。
為了驗(yàn)證基于數(shù)據(jù)挖掘的物流信息監(jiān)控系統(tǒng)的可行性與實(shí)用性,在完成對(duì)該系統(tǒng)的搭建后,與國(guó)內(nèi)線上線下公司、物流企業(yè)進(jìn)行合作,對(duì)該監(jiān)控系統(tǒng)所實(shí)現(xiàn)的各項(xiàng)功能進(jìn)行測(cè)試。
首先是物流信息監(jiān)控系統(tǒng)的基本功能測(cè)試,主要目的在于測(cè)試各用戶(包括私人、電商公司、實(shí)體公司以及物流企業(yè)等)能否在系統(tǒng)中較好地完成用戶注冊(cè)、登錄、查看與修改賬戶信息及注銷賬戶等基本項(xiàng)。系統(tǒng)的該項(xiàng)測(cè)試結(jié)果如表1 所示。
表1 系統(tǒng)基本功能測(cè)試結(jié)果
由表1 可以看出,所設(shè)計(jì)的物流監(jiān)控系統(tǒng)的基本功能測(cè)試全部正常,為后續(xù)進(jìn)一步測(cè)試其他系統(tǒng)功能奠定了較優(yōu)的基礎(chǔ)。
然后是系統(tǒng)物流信息的發(fā)布與查詢測(cè)試,該項(xiàng)測(cè)試的目的在于測(cè)試個(gè)人與企業(yè)能否順利完成,對(duì)原始物流數(shù)據(jù)的迅速發(fā)布及對(duì)系統(tǒng)內(nèi)有權(quán)限信息的準(zhǔn)確查詢。這兩者所發(fā)布與查詢的信息相同,為倉(cāng)儲(chǔ)資源a、貨源b 及運(yùn)輸資源c。測(cè)試結(jié)果如表2 所示。
表2 物流數(shù)據(jù)發(fā)布與查詢測(cè)試結(jié)果
由表2 可知,所設(shè)計(jì)的系統(tǒng)能夠?qū)⒏黝愑脩舭l(fā)布的資源信息全部導(dǎo)入系統(tǒng)數(shù)據(jù)庫(kù)中,完成對(duì)資源的存儲(chǔ)與整合,方便后續(xù)對(duì)相關(guān)信息的查詢;物流數(shù)據(jù)查詢結(jié)果說(shuō)明,用戶對(duì)于系統(tǒng)內(nèi)有權(quán)限資源數(shù)據(jù)的查詢準(zhǔn)確率能夠達(dá)到100%,充分說(shuō)明該系統(tǒng)的物流信息查詢結(jié)果具有較高的可信任度。
最終是系統(tǒng)的行為監(jiān)控功能測(cè)試,包括系統(tǒng)對(duì)用戶操作的監(jiān)控、異常行為的反饋及數(shù)據(jù)挖掘模型的預(yù)測(cè)準(zhǔn)確性3 項(xiàng)。其中,系統(tǒng)對(duì)用戶操作的監(jiān)控與異常行為反饋主要是測(cè)試系統(tǒng)能否對(duì)用戶的日常操作正確生成日志,以及在檢測(cè)到異常行為時(shí)能否向管理員及時(shí)地發(fā)送相關(guān)信息。測(cè)試結(jié)果如表3所示。
表3 系統(tǒng)監(jiān)控功能測(cè)試結(jié)果
為了進(jìn)一步測(cè)試該文方法建立的數(shù)據(jù)挖掘模型的預(yù)測(cè)準(zhǔn)確性,利用該系統(tǒng)對(duì)3 家企業(yè)數(shù)據(jù)庫(kù)中的6 月之前的歷史數(shù)據(jù),例如物資采購(gòu)量、市場(chǎng)資源量及市場(chǎng)價(jià)格等進(jìn)行處理分析,得到相應(yīng)的預(yù)測(cè)模型,來(lái)預(yù)測(cè)該企業(yè)在七月份的物資采購(gòu)量,并與實(shí)際的數(shù)據(jù)相對(duì)比。對(duì)比試驗(yàn)結(jié)果如表4 所示。
表4 挖掘模型試驗(yàn)結(jié)果
由表3、表4的結(jié)果可以看出,該系統(tǒng)可以較優(yōu)地生成不同用戶操作日志,同時(shí)在試驗(yàn)過(guò)程中未發(fā)現(xiàn)異常操作。由數(shù)據(jù)挖掘模型試驗(yàn)結(jié)果可以看出,利用該系統(tǒng)得到的模型預(yù)測(cè)值與實(shí)際值吻合程度較高,誤差在2%以內(nèi)。
該文通過(guò)介紹與分析數(shù)據(jù)挖掘技術(shù)的基本原理和主要功能,建立了一種基于數(shù)據(jù)挖掘技術(shù)的物流信息監(jiān)控系統(tǒng)。該系統(tǒng)選用數(shù)據(jù)挖掘算法中最常見、適用性強(qiáng)且最容易實(shí)現(xiàn)的樸素貝葉斯算法作為設(shè)計(jì)物流信息監(jiān)控系統(tǒng)的數(shù)據(jù)分析處理算法。通過(guò)系統(tǒng)的基本功能測(cè)試、物流信息監(jiān)控功能測(cè)試以及行為監(jiān)控功能測(cè)試,驗(yàn)證了所設(shè)計(jì)系統(tǒng)的可行性與可靠性。