常曉彬 安育賢
摘 要:當今時代,電子商業(yè)不斷發(fā)展,物流數據呈爆炸式增長。大規(guī)模的物流數據必定含非常有價值的信息,這些數據不僅能幫助物流公司了解行業(yè)動態(tài),而且能夠提供參考資料,讓企業(yè)經營人員做出正確的決策。對大量的物流數據存儲和分析需要越來愈強烈,因此,建立物流數據倉庫是一個非常重要問題。
關鍵詞:大數據;物流;數據倉庫;
0引言
近幾年,物聯(lián)網、大數據等技術在各行各業(yè)中的應用迅速普及,而物流行業(yè)如果能夠深度整合大數據、云計算等新技術,那么將會大大提升物流行業(yè)的整體效率。
1大數據的概念
大數據最明顯的特征是數據量特別大,并且種類較多,但有價值的數據較少。網絡的發(fā)展以及信息技術的提升,會使各個行業(yè)的生產和消費行為產生大量的數據,而分析這些數據可以充分挖掘潛在的價值,從而促進企業(yè)的發(fā)展。
2數據倉庫的相關介紹
數據倉庫以面向分析為設計初衷,可以存儲更多的數據,為企業(yè)提供決策支持。數據倉庫中的數據一般為歷史數據,主要記錄了過去某一時段的信息。
2.1數據倉庫的主要特征
數據倉庫中的數據四個主要特征是面向主題、集成、非易失、隨時間變化,它用于支持管理者的決定。
2.1.1面向主題
主題是指在利用數據倉庫進行分析時用戶著重關心的點,因此主題需要根據分析的要求來定。從邏輯上說,它是與企業(yè)宏觀分析相對應的領域。
2.1.2集成性
數據在進入數據倉庫之前是分散的,并且有很多臟亂差的數據,因此需要將這些數據抽取、清洗、轉換和加載。要統(tǒng)一數據間的所有矛盾 ,其次再對數據進行綜合和統(tǒng)一計算。
2.1.3非易失性
在數據倉庫中,只需保存過去的業(yè)務數據,而不必對每項業(yè)務進行實時的更新。數據被加入到數據倉庫,一般很少進行修改和刪除的操作,多為數據查詢,或者是更復雜的挖掘,通常會保持更長時間。
2.1.4時變性
數據倉庫中的數據可能是一年、一個季度、一個月、一個星期或一天的數據。數據倉庫的目標是分析企業(yè)在經營中的一段時期情況,并充分挖掘企業(yè)潛在的模式。數據倉庫中的數據并不是永遠不變的,只是說用戶一般不會修改其中的數據,但會定期更新。分析的是歷史數據,結果也只能反映以往的情況,當業(yè)務發(fā)生變化時,挖掘出的模式就會失去其時效。因此,數據倉庫中的數據需要更新,以適應決策的需求。從這一角度來看,數據倉庫建設是項目,更多的是過程。
2.2數據倉庫分層架構
根據數據的進出過程,數據倉庫架構可以分為源數據層,數據倉庫層和數據應用層。數據倉庫的數據來源有很多種途徑,而且可以應用到很多地方。數據倉庫是一種管理平臺,它負責集成的中間數據,數據進入數據倉庫后,會向上層開放。
2.2.1源數據層(ODS)
該處理層中的數據不需要改變,直接可以使用外部系統(tǒng)的數據結構和處理數據,不對外開放;為臨時數據儲存處理層,是外部接口系統(tǒng)數據的臨時進行儲存處理區(qū)域,為進行后續(xù)接口數據處理應用作提前準備。
2.2.2數據倉庫層(DW)
數據倉庫層也又稱細節(jié)處理層,數據倉庫層的數據在應用時具有較高一致性、精確的和干凈性,也就是在清洗了源數據層中的數據之后的數據。
2.2.3數據應用層(DA)
這一層的數據一般是根據各種維度分析處理的結果。
3物流企業(yè)數據倉庫的設計
3.1物流企業(yè)數據倉庫分析
隨著電商的不斷發(fā)展,物流企業(yè)累積了大量的貨運資料,但這些信息并不都有助于物流企業(yè),真正的幫助了物流公司的決定者,從而促進了自身的發(fā)展,只是在這些信息的大量中很少的一部分。為了獲得這些巨量的物流信息,并從這些巨大的物流信息中獲取真實價值的信息,必須分析這些巨大的物流信息。數據倉庫非常適合于分析物流企業(yè)各種資料,它可以對物流企業(yè)進行不同的源資料分析,或者進行數據分析,從而對物流企業(yè)發(fā)展提供更好的支持,實現(xiàn)數據增值。數據間的競爭目前已經非常激烈,物流行業(yè)也不例外。因此,建立物流企業(yè)數據倉庫是非常重要的一項任務。
3.2數據倉庫維度建?;靖拍?/p>
維度模型設計是由中國數據倉庫技術界的設計大師Ralph Kimall所倡導的,他所倡導使用的維度數據倉庫設計工具箱在中國數據倉庫設計界當中是最為廣受歡迎的部分。維度數據建模模式是基于維度分析數據決定用戶需要的一種模式,它通過構建了一個數據模型系統(tǒng)來準確分析用戶需求,因此它的研究重點不僅在于能夠解決企業(yè)用戶如何迅速準確完成數據分析的關鍵需求,同時還需要具有更好的大型的復雜數據查詢以及回應分析能力。
3.2.1事實表
發(fā)生在實際世界中的一種操作事件,其產生的可量數值存儲在實際情況中。從最小粒度的角度來看,事實表行相對應于一個度量事件。
3.2.2維度表
維度是指當對數據進行分析時使用的量,例如分析產品的銷售狀況,可以選擇分析類別或區(qū)域分析,這樣的分析構成了一個維。
3.3維度建模模式
3.3.1星型模型
星型模型是在一張事實表的基礎上,周圍建立維度表,因其形狀猶如星星,故稱其為星型模型。
3.3.2雪花模型
雪花模型是星型模型的一種擴展模型。雪花模式的維度表也認為可以包含有其它的維度表,盡管這種模式更規(guī)范,但由于這種模式不太易被人理解,維護費用相對較高,而且性能較低,所以通常不太常用。
3.3.3星座模型
星座模式是在多張事實表,并可以共享不同維度上的信息。
4物流企業(yè)數據倉庫實施的意義
傳統(tǒng)的物流企業(yè)是在關系型數據庫的基礎上來進行數據存儲和處理。而目前企業(yè)的業(yè)務量較之前擴大了很多,每天產生的數據迅速增長,歷史資料的存儲規(guī)模也不斷擴大,同時對數據分析的需求越來愈大,傳統(tǒng)數據庫無論在硬件和軟件方面都有很高的要求,需要非常昂貴的費用來維護,不滿足對數據庫高擴展、低成本的要求。而數據倉庫在查詢大量的企業(yè)數據方面,具有低成本、高效率、高擴展的優(yōu)勢,因此,物流企業(yè)急需建立數據倉庫來解決處理海量數據的難題,并對現(xiàn)實具有重要意義。
5結束語
在當下物流企業(yè)已積累大量數據的情況下,為了能夠更有效地支撐物流服務企業(yè)的持續(xù)發(fā)展,構建數據倉庫是非常重要的選擇。
參考文獻:
[1] 惠毅.淺談大數據在物流企業(yè)中的應用[J].物流工程與管理,2016,38(1):68-69.
[2] Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters [J].Conference on Symposium on Operating Systems Desigin&Implemention, 2004,51(1):137-150.
[3] 羅鵬,袁兵,梁耿等. 基于 Hadoop 的分布式 ETL 系統(tǒng)研究 [J]. 廣西通信技術,2014(4):17-20.
[4] 費仕憶.Hadoop 大數據平臺與傳統(tǒng)數據倉庫的協(xié)作研究[D].上海:東華大學,2010.
[5] Zaharia M, Chowdhury M, Franklin MJ, etc. Cluster Computing with Working Sets [J].Usenix Conference on Hot Topics in Clouding Computing, 2010, 15(1), 10-10.
(北京信息科技大學信息管理學院 ? 北京 ? 100000)