劉春英 黃玉文 于繼江
1、緒論
近年來,信息技術(shù)越來越廣泛地應(yīng)用于現(xiàn)代物流企業(yè)的各種物流環(huán)節(jié)中,物流企業(yè)在運(yùn)輸、儲存、搬運(yùn)、流通加工、配送等物流業(yè)務(wù)運(yùn)行和實施過程中產(chǎn)生與物流調(diào)度相關(guān)的海量數(shù)據(jù)[1,2]。海量物流調(diào)度數(shù)據(jù)多以時間序列的形式存在,能夠?qū)ξ锪髡{(diào)度正在發(fā)生的和未來狀況進(jìn)行描述,是處于動態(tài)變化中的數(shù)據(jù)。對海量動態(tài)物流調(diào)度數(shù)據(jù)中隱含深層次信息進(jìn)行挖掘,從而獲取到商品移動過程的情況和其表現(xiàn)出來的移動趨勢信息,用這些信息可以對物流調(diào)度進(jìn)行優(yōu)化,最終實現(xiàn)降低物流調(diào)度成本,故對物流調(diào)度數(shù)據(jù)挖掘的研究越來越多的引起物流企業(yè)的重視[3]。目前對物流調(diào)度數(shù)據(jù)挖掘的相關(guān)研究,多是探討與分析針對靜態(tài)數(shù)據(jù)源的傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在物流調(diào)度數(shù)據(jù)分析中的應(yīng)用,難以處理異構(gòu)數(shù)據(jù)源、動態(tài)數(shù)據(jù)源和分散數(shù)據(jù)源,存在著數(shù)據(jù)處理瓶頸;目前研究構(gòu)建的海量數(shù)據(jù)挖掘模型,難以處理海量動態(tài)增長的數(shù)據(jù),無法滿足海量數(shù)據(jù)挖掘?qū)τ嬎隳芰Φ男枨?,很難從海量流動數(shù)據(jù)中發(fā)現(xiàn)可理解和有用的知識[4]。大數(shù)據(jù)時代必須創(chuàng)新數(shù)據(jù)挖掘理論與方法,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于分析物流調(diào)度數(shù)據(jù),研究和探索適應(yīng)物流企業(yè)處理大規(guī)模、實時化、動態(tài)性物流調(diào)度數(shù)據(jù)的方法和模式,能夠有效配置物流資源和輔助物流決策,提高物流企業(yè)運(yùn)行速度和執(zhí)行效率,促進(jìn)物流運(yùn)作的智能化發(fā)展進(jìn)程,這已成為物流企業(yè)十分關(guān)注和重視的問題。當(dāng)面對的挖掘任務(wù)涉及不同類型的代價時,現(xiàn)有數(shù)據(jù)挖掘方法并不能滿足挖掘要求,代價敏感數(shù)據(jù)挖掘考慮不同類型數(shù)據(jù)代價,挖掘的目的在于使得所采取的行為代價最小或產(chǎn)生最優(yōu)決策行為,對海量動態(tài)物流調(diào)度數(shù)據(jù)進(jìn)行代價敏感數(shù)據(jù)挖掘,有助于提高物流企業(yè)的目標(biāo)針對性和傳輸效率,降低物流運(yùn)輸?shù)某杀竞涂偼顿Y成本,能夠極大地提高物流企業(yè)的經(jīng)濟(jì)效益,具有非常重要的應(yīng)用價值和實際意義。
2.動態(tài)代價敏感的海量物流調(diào)度數(shù)據(jù)挖掘模型
為了有效的對海量物流調(diào)度數(shù)據(jù)進(jìn)行挖掘,本課題設(shè)置如圖1 所示的挖掘模型,從數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和模式評估四個步驟研究動態(tài)代價敏感的海量物流調(diào)度數(shù)據(jù)挖掘,具體研究模型如下:
2.1海量動態(tài)物流調(diào)度數(shù)據(jù)的抽取
針對海量物流調(diào)度數(shù)據(jù)的海量性,首先利用代價敏感對海量物流數(shù)據(jù)進(jìn)行并行抽取。本文首先利用云計算平臺對海量數(shù)據(jù)流進(jìn)行劃分用于并行學(xué)習(xí),從海量物流數(shù)據(jù)中抽取和車輛調(diào)度相關(guān)的車輛信息、貨物信息、道路交通信息、裝卸數(shù)據(jù)、配送數(shù)據(jù)等海量物流調(diào)度數(shù)據(jù)。然后,針對物流調(diào)度數(shù)據(jù)的動態(tài)性特點(diǎn),利用基于增量式學(xué)習(xí)的代價敏感抽取技術(shù)對海量物流調(diào)度數(shù)據(jù)進(jìn)行抽取。最后,從異構(gòu)多數(shù)據(jù)源中抽取和物流調(diào)度相關(guān)的歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)。
2.2海量動態(tài)物流調(diào)度數(shù)據(jù)的預(yù)處理
針對海量物流調(diào)度數(shù)據(jù)含有缺失數(shù)據(jù)、不確定數(shù)據(jù)、冗余數(shù)據(jù)和噪聲數(shù)據(jù)等,對海量物流調(diào)度數(shù)據(jù)的數(shù)據(jù)清洗。利用代價敏感數(shù)據(jù)數(shù)據(jù)清洗模型對海量物流調(diào)度數(shù)據(jù)進(jìn)行預(yù)處理。首先,把海量動態(tài)物流調(diào)度數(shù)據(jù)進(jìn)行分類,針對連續(xù)型數(shù)據(jù)和離散性數(shù)據(jù)采用不同的數(shù)據(jù)預(yù)處理技術(shù)。然后,對海量物流調(diào)度數(shù)據(jù)維度較高的數(shù)據(jù),結(jié)合代價敏感學(xué)習(xí)思想,對海量物流調(diào)度數(shù)據(jù)的代價敏感進(jìn)行降維。最后,獲取含有較少噪聲并且維度低的海量物流調(diào)度數(shù)據(jù)。
2.3 海量物流調(diào)度數(shù)據(jù)的動態(tài)代價敏感挖掘模型
綜合考慮車輛行駛路徑、顧客對貨物的時間要求、調(diào)用車輛花費(fèi)費(fèi)用和貨物的庫存費(fèi)用等各種代價因素,結(jié)合動態(tài)代價敏感學(xué)習(xí)思想、并行技術(shù)和集成技術(shù),本文提出面向海量物流調(diào)度數(shù)據(jù)的基于增量式學(xué)習(xí)的代價敏感并行挖掘模型,該挖掘模型能夠?qū)ε滠嚪桨浮⑿熊嚶肪€和貨物組合等物流調(diào)度方案提供有效的決策支持。物流調(diào)度數(shù)據(jù)挖掘模型的自適應(yīng)性,不斷對挖掘模型更新力求適應(yīng)動態(tài)海量物流調(diào)度數(shù)據(jù)的變化,選擇綜合代價最小的調(diào)度方案作為最優(yōu)調(diào)度方案,最大化服務(wù)顧客的同時降低物流企業(yè)調(diào)度成本,提高運(yùn)輸資源的利用率。
本文采用分布式并行數(shù)據(jù)處理方法來挖掘與分析海量物流調(diào)度數(shù)據(jù),能夠有效處理和利用分布在各節(jié)點(diǎn)的數(shù)據(jù)和計算設(shè)備,能夠?qū)Χ嗄K、多源、多格式、多結(jié)構(gòu)的數(shù)據(jù)進(jìn)行存儲和挖掘,實現(xiàn)實時高效的動態(tài)海量物流數(shù)據(jù)代價敏感挖掘。
2.4挖掘模式評估和交互服務(wù)
首先,深入物流調(diào)度數(shù)據(jù)挖掘的不同層次中,結(jié)合代價敏感學(xué)習(xí)思想,對海量物流調(diào)度數(shù)據(jù)的不同處理階段的模式進(jìn)行性能評估。挖掘模式評估利用全新的數(shù)據(jù)對挖掘結(jié)果進(jìn)行檢測和評價,如果不滿足要求,就要利用動態(tài)數(shù)據(jù)收集調(diào)整及處理重新挖掘,從而將用戶感興趣的知識進(jìn)行挖掘。然后,構(gòu)建海量物流調(diào)度數(shù)據(jù)的動態(tài)代價敏感挖掘交互服務(wù),允許用戶通過交互服務(wù)功能模塊定制物流調(diào)度數(shù)據(jù)挖掘?qū)ο蟆⑽锪髡{(diào)度數(shù)據(jù)挖掘任務(wù)、物流調(diào)度數(shù)據(jù)挖掘方法,并將數(shù)據(jù)挖掘結(jié)果以可視化的形式提交給用戶。
3 動態(tài)代價敏感的海量物流調(diào)度數(shù)據(jù)挖掘模型的設(shè)計
3.1 海量物流調(diào)度數(shù)據(jù)計算環(huán)境層的設(shè)計
海量物流調(diào)度數(shù)據(jù)計算環(huán)境層屬于物流信息分析模型的基礎(chǔ),本設(shè)計選擇分布式計算環(huán)境,其主要包括分布式編程環(huán)境、分布式文件系統(tǒng)和分布式系統(tǒng)管理等。分布式計算平臺利用分布式存儲數(shù)據(jù),利用冗余存儲的方式使數(shù)據(jù)備份,并且通過分布式數(shù)據(jù)處理還動態(tài)海量物流調(diào)度數(shù)據(jù)挖掘算法,自主分配物流調(diào)度數(shù)據(jù)計算資源,實現(xiàn)動態(tài)數(shù)據(jù)的海量物流調(diào)度數(shù)據(jù)挖掘計算,有效調(diào)用動態(tài)海量物流調(diào)度數(shù)據(jù)挖掘算法,從而使其能夠為服務(wù)提供海量物流調(diào)度環(huán)境。
3.2海量物流調(diào)度數(shù)據(jù)采集層和預(yù)處理的設(shè)計
海量物流調(diào)度數(shù)據(jù)采集層的主要目的就是實現(xiàn)物流調(diào)度數(shù)據(jù)收集,包括歷史數(shù)據(jù)、當(dāng)前數(shù)據(jù)和后續(xù)數(shù)據(jù)。海量物流調(diào)度數(shù)據(jù)采集層的收集的既要實現(xiàn)歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的轉(zhuǎn)移、集成;又要利用變動物流調(diào)度數(shù)據(jù)捕捉技術(shù)收集數(shù)據(jù),從而能夠?qū)崿F(xiàn)海量物流調(diào)度數(shù)據(jù)的全面、快速及精準(zhǔn)收集和預(yù)處理[5]。
3.3 代價敏感海量動態(tài)物流調(diào)度數(shù)據(jù)挖掘算法
實現(xiàn)代價敏感海量動態(tài)物流調(diào)度數(shù)據(jù)挖掘,通過代價敏感海量動態(tài)物流調(diào)度數(shù)據(jù)挖掘算法進(jìn)行,創(chuàng)建并行代價敏感數(shù)據(jù)挖掘算法庫,無論是代價敏感挖掘算法或者是的深度學(xué)習(xí)的挖掘算法,都能夠?qū)崿F(xiàn)優(yōu)化升級和擴(kuò)充。
代價敏感海量動態(tài)物流調(diào)度數(shù)據(jù)挖掘的步驟為:
1)利用代價敏感的FP-Tree算法實現(xiàn)物流調(diào)度數(shù)據(jù)頻繁項集挖掘,在 Hadoop 計算平臺中進(jìn)行分布式運(yùn)算的時候上傳到分布式文件系統(tǒng)中;
2)用戶能夠重寫動態(tài)代價敏感函數(shù)對頻繁項挖掘算法進(jìn)行改寫,利用HDFD 存儲的物流調(diào)度數(shù)據(jù)流劃分成為多個不相交數(shù)據(jù)分塊,之后將數(shù)據(jù)分塊對執(zhí)行挖掘操作 Datanode 中發(fā)送,在接收到指令之后挖掘頻繁項集,從而得出局部頻繁項集;
3)集合 Datanode 中的局部頻繁項集,從而得到全局候選頻繁項集。對物流調(diào)度數(shù)據(jù)流進(jìn)行遍歷,得到最終的頻繁項集。
4.結(jié)論
物流調(diào)度為我國經(jīng)濟(jì)的主要組成部分,也是實現(xiàn)經(jīng)濟(jì)發(fā)展轉(zhuǎn)變和提高競爭力的基礎(chǔ)。目前的物流調(diào)度數(shù)據(jù)日益呈現(xiàn)出信息量大、數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)異構(gòu)性、地理分布廣、高度動態(tài)性、時效性等特點(diǎn),而現(xiàn)有研究所提出的相關(guān)模型存不足,本文就將物流調(diào)度信息作為基礎(chǔ),在物流信息分析過程中融合動態(tài)數(shù)據(jù)挖掘技術(shù),提出了動態(tài)代價敏感的海量物流調(diào)度數(shù)據(jù)挖掘智能挖掘,使物流調(diào)度智能化程度及信息化效率得到提高,實現(xiàn)企業(yè)物流使用范圍的擴(kuò)展,以此使物流信息分析優(yōu)勢朝著現(xiàn)實核心競爭力進(jìn)行轉(zhuǎn)變。
參考文獻(xiàn)
[1]Weihua Liu,Qian Wang,Qiaomei Mao,Shuqing Wang,Donglei Zhu.A scheduling model of logistics service supply chain based on the mass customization service and uncertainty of FLSP’s operation time.Transportation Research Part E:Logistics and Transportation Review,2015,83:189-215.
[2]孫玉硯,楊紅,劉卓華,皇甫偉.基于無線傳感器網(wǎng)絡(luò)的智能物流跟蹤系統(tǒng).計算機(jī)研究與發(fā)展,2011,48:343-39.
[3]張玉峰,曾奕棠.基于動態(tài)數(shù)據(jù)挖掘的物流信息分析模型研究.情報科學(xué),2016,34(1):15-19.
[4]趙強(qiáng)利,蔣艷凰,盧宇彤.具有回憶和遺忘機(jī)制的數(shù)據(jù)流挖掘模型與算法.軟件學(xué)報,2015,26(10):2567-2580.
[5]馬百皓.基于動態(tài)數(shù)據(jù)挖掘的物流信息分析模型設(shè)計分析.電子設(shè)計工程,2019,27(3):16-25.
基金項目:本論文受菏澤學(xué)院科研基金科技計劃項目(編號:XY16KJ01)支持,在此表示感謝。
作者簡介:劉春英,女,山東成武縣人,副教授,研究方向:數(shù)據(jù)挖掘,計算機(jī)教育。