劉靜,吳陳
(江蘇科技大學(xué) 江蘇 鎮(zhèn)江 212003)
隨著信息技術(shù)的飛速發(fā)展及其在商業(yè)領(lǐng)域的廣泛應(yīng)用,連鎖餐飲業(yè)的數(shù)據(jù)庫系統(tǒng)中積累了大量業(yè)務(wù)數(shù)據(jù)。海量數(shù)據(jù)沒有得到有效利用,使得企業(yè)的決策過程變得日漸復(fù)雜,出現(xiàn)了“數(shù)據(jù)泛濫、知識貧乏”的局面。如何從歷史數(shù)據(jù)中獲取有用的信息,以挖掘潛在的商機、降低企業(yè)的運作成本;如何通過歷史經(jīng)營情況歸納出成功的經(jīng)驗和失敗的教訓(xùn),并用數(shù)據(jù)、信息來預(yù)測未來的企業(yè)發(fā)展趨勢,快速準確地把握風(fēng)云變幻的市場脈搏,已成為企業(yè)界和IT界共同關(guān)注的熱點。因此,商業(yè)智能(Business Intelligence,BI)在連鎖餐飲業(yè)的應(yīng)用,是市場發(fā)展的要求,也是企業(yè)信息化發(fā)展到一定程度的必然結(jié)果。
BI系統(tǒng)的目標(biāo)就是要為企業(yè)提供一個統(tǒng)一的數(shù)據(jù)分析平臺,充分利用運營系統(tǒng)中積累的海量數(shù)據(jù),對其進行深層次的知識挖掘,從不同的維度去分析企業(yè)的各種業(yè)務(wù)指標(biāo)并構(gòu)建業(yè)務(wù)知識模型。多年來,困擾連鎖餐飲業(yè)高層主管的一個重要問題就是如何將多年來積累的海量數(shù)據(jù)提取成為有商業(yè)價值的信息,從而解決決策層日益關(guān)注的如何培育忠誠的消費群體和發(fā)掘潛在的消費群體、如何應(yīng)用商業(yè)智能系統(tǒng)為企業(yè)的經(jīng)營提供決策指導(dǎo)的問題。
商業(yè)智能的概念最早是由Gartner Group于1996年提出來的,定義為:商業(yè)智能技術(shù)提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后再分發(fā)到企業(yè)各處,輔助商業(yè)決策的制定。商業(yè)智能是商業(yè)數(shù)據(jù)海洋中的指南針,它從歷史數(shù)據(jù)中提取信息,通過對信息的分析獲取對經(jīng)營決策有價值的知識,從而幫助用戶對自身的業(yè)務(wù)經(jīng)營做出正確而明智的決策,提升企業(yè)競爭力。比如,通過商業(yè)智能可以解決客戶在不同地域的分布情況,可以對客戶進行各個角度的分類,還可以把客戶和訂單聯(lián)系起來,找出其變化趨勢。
從業(yè)務(wù)角度看,商業(yè)智能是探討通過技術(shù)手段對分散在不同系統(tǒng)的數(shù)據(jù)進行有效整合,從數(shù)據(jù)中獲取有用的信息,再將這些信息轉(zhuǎn)換為知識,用于商業(yè)決策。商業(yè)智能(Business Intelligence,BI) 主 要 是 通 過 數(shù) 據(jù) 倉 庫 (Data Warehouse,DW)、ETL(數(shù)據(jù)抽取、轉(zhuǎn)換、加載)、聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘(Data Mining,DM)等技術(shù),對數(shù)據(jù)進行處理分析,以實現(xiàn)商業(yè)價值。
數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的《Building the Data Warehouse》一書中所提出的數(shù)據(jù)倉庫定義為:數(shù)據(jù)倉 庫 (Data Warehouse) 是 一 個 面 向 主 題 的 (Subject Oriented)、集成的(Integrated)、相 對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,主要用于支持管理決策(Decision Making Support)?!懊嫦蛑黝}”是指一個數(shù)據(jù)倉庫包含的內(nèi)容通常是一個領(lǐng)域內(nèi)的知識,在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必然要經(jīng)過加工和集成,將原始數(shù)據(jù)結(jié)構(gòu)從面向應(yīng)用轉(zhuǎn)為面向主題;“集成”是指將來自于多個異種數(shù)據(jù)源的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、導(dǎo)入過程集成到一個數(shù)據(jù)倉庫中;相對穩(wěn)定是指數(shù)據(jù)被放入到數(shù)據(jù)倉庫中后,將被長期保留,很少會變動:反應(yīng)歷史變化是指數(shù)據(jù)倉庫中的數(shù)據(jù)記錄了企業(yè)從開始使用數(shù)據(jù)倉庫到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
ETL是數(shù)據(jù)抽取、轉(zhuǎn)換、加載的過程,是數(shù)據(jù)倉庫的重要步驟,是商業(yè)智能的核心和靈魂。用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。如果說數(shù)據(jù)倉庫的模型設(shè)計是一座大廈的設(shè)計藍圖,數(shù)據(jù)是磚瓦的話,那么ETL就是建設(shè)大廈的過程。在整個項目中最難部分就是用戶需求分析和模型設(shè)計,而ETL規(guī)則設(shè)計和實施則是工作量最大的,約占整個項目的60%~80%。
聯(lián)機分析處理(OLAP)是共享多維信息的、針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析的快速軟件技術(shù)。OLAP支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果,使分析人員能夠快速、一致、交互地從各個維度查詢信息。OLAP數(shù)據(jù)被組織到多維數(shù)據(jù)集(Cube)中,Cube中的基本單元稱為度量值(Measure),記錄著經(jīng)過處理、計算的OLTP系統(tǒng)中的數(shù)據(jù)。由于Measure中的數(shù)據(jù)是經(jīng)過處理計算的,并且Cube可以有多個維度,因此非常便于查詢、分析。OLAP是數(shù)據(jù)倉庫的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
數(shù)據(jù)挖掘(Data Mining)也被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),就是從既有的大量的實際應(yīng)用數(shù)據(jù)中,發(fā)掘出蘊藏在其中的、不為人肉眼所見的、同時又具有潛在價值的知識的過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等技術(shù),高度自動化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式和隱含的有用信息,幫助決策者做出正確的決策。數(shù)據(jù)挖掘的對象不僅可以是數(shù)據(jù)庫,也可以是文件系統(tǒng),或其它任何組織在一起的數(shù)據(jù)集合。數(shù)據(jù)挖掘中常見的算法包括關(guān)聯(lián)、聚類、決策樹、時間序列、序列聚類等。
從系統(tǒng)的角度來看,連鎖業(yè)商業(yè)智能系統(tǒng)由四部分組成:數(shù)據(jù)處理、數(shù)據(jù)倉庫、聯(lián)機分析處理和數(shù)據(jù)挖掘。系統(tǒng)結(jié)構(gòu)圖如下圖所示。
圖1 商業(yè)智能系統(tǒng)基本結(jié)構(gòu)圖Fig.1 BI system basic structure
近年來,連鎖餐飲業(yè)在信息化建設(shè)中,積累了大量紛繁復(fù)雜的數(shù)據(jù),包括形式各異的數(shù)據(jù)表,數(shù)據(jù)庫,以及各種數(shù)據(jù)文件等。由于異構(gòu)數(shù)據(jù)源種類多而且復(fù)雜,數(shù)據(jù)源形式多種多樣,獲取數(shù)據(jù)的途徑不同,必然會引起數(shù)據(jù)的千差萬別,以及各種形式的臟數(shù)據(jù)的產(chǎn)生,因此在保證數(shù)據(jù)源的準確、可靠統(tǒng)一性,數(shù)據(jù)質(zhì)量的可提取性問題等方面就顯得比較必要。所以必須先對數(shù)據(jù)進行預(yù)處理,才能導(dǎo)入到數(shù)據(jù)倉庫系統(tǒng)中,也就是通常所說的ETL。ETL的建設(shè)在整個數(shù)據(jù)倉庫建設(shè)中起著至關(guān)重要的作用,是整個數(shù)據(jù)倉庫建設(shè)的靈魂。
針對連鎖餐飲業(yè)的需求與特點,數(shù)據(jù)倉庫按照如下方式建立:
事實表有2個,分別為:
表1 事實表Tab.1 Fact table
維度表共有16個,分別為:
表2 維度表Tab.2 Dimension table
除此之外,還有一些表和視圖,輔助后續(xù)的數(shù)據(jù)挖掘工作。
本文項目中,為了查詢方便,根據(jù)數(shù)據(jù)倉庫的結(jié)構(gòu),在OLAP服務(wù)器上建立了10個共享維度,建立的Cube視圖如下圖。
圖2 Cube視圖Fig.2 Cube view
圖3 挖掘模型設(shè)置項視圖Fig.3 DM model settings view
圖4 數(shù)據(jù)挖掘模型Fig.4 DM model view
圖5 數(shù)據(jù)挖掘圖例視圖Fig.5 DM legend view
市場部想提高客戶滿意度和客戶保有率,于是希望通過實行相關(guān)的市場手段來達到這些目標(biāo)。于是對原有的會員卡方案重新進行定義,以便更好地為客戶提供服務(wù)并且使所提供的服務(wù)能夠更加密切地滿足客戶的期望。市場部想分析當(dāng)前銷售事務(wù)并找出客戶人口統(tǒng)計信息(婚姻狀況、年收入和擁有子女?dāng)?shù)等)和所申請卡之間的模式,然后根據(jù)這些信息和申請會員卡的客戶的特征重新定義會員卡。
以前的會員卡有4種,分別是普卡、銅卡、銀卡和金卡,還有一些客戶沒有辦會員卡,在銷售業(yè)務(wù)數(shù)據(jù)中,每一個客戶的個人信息和其所擁有的卡類型都存儲在DimCustomer表中,表中除了“member_card”字段代表擁有會員卡的類型外,還有分別表示“性別”、“擁有子女?dāng)?shù)”、“教育程度”和“是否有房”等一系列信息,那么這些信息中哪個與客戶擁有會員卡的類型關(guān)聯(lián)最大,以及影響客戶會員級別的因素有哪些,這是市場部經(jīng)理迫切需要知道的。
圖6 數(shù)據(jù)挖掘模型和圖例視圖(1)Fig.6 DM model&legend view(1)
圖7 數(shù)據(jù)挖掘模型和圖例視圖(2)Fig.7 DM model&legend view(2)
本文通過SSAS數(shù)據(jù)挖掘組件進行數(shù)據(jù)挖掘,SSAS包含了決策樹模型、時間序列模型、聚類分析模型等,挖掘的結(jié)構(gòu)可以通過Analysis Service數(shù)據(jù)挖掘組件瀏覽查詢和分析。如圖3,即為挖掘模型的設(shè)置項。
設(shè)置其背景為“golden”,顯示級別為3,則在決策樹顯示窗格中會顯示如圖4所示的決策樹,即對客戶數(shù)據(jù)進行挖掘的結(jié)果。同時,在整個工作窗口的右下角有如圖5所示的“挖掘圖例”窗格,單擊決策樹上的不同分支,不同類型的卡在這個分支上出現(xiàn)的概率和相應(yīng)的顏色都在窗格中標(biāo)識出來了。
在決策樹顯示區(qū)域中,顏色代表滿足相關(guān)條件的客戶的密度。顏色越深則節(jié)點中包含的客戶就越多。從圖6可以發(fā)現(xiàn),“Yearly Income=$150K+”這一節(jié)點的密度高于其他任何節(jié)點,代表符合“Yearly Income=$150K+”這一條件的金卡客戶是最多的。
根據(jù)決策樹上的“全部”節(jié)點,“挖掘圖例”窗格會有如圖5所示的顯示數(shù)據(jù),這表明總共抽樣的數(shù)據(jù)有7197條,其中銅卡用戶最多,占了55.79%。
圖8 數(shù)據(jù)挖掘依賴網(wǎng)絡(luò)模型視圖Fig.8 Miningmodel dependency network view
樹的第一個級別由“yearly income”屬性決定。樹的組織由算法決定,其基礎(chǔ)是該屬性在輸出中的重要性。這意味著“yearly income”屬性是最重要的因素,它將決定客戶可能選擇的會員卡的類型。如圖5.9所示,選擇 “Yearly Income=$150K+”節(jié)點。該特性窗格顯示收入較多的客戶中,46.16%的客戶可能會選擇金卡。這個百分比要比“全部”節(jié)點中的(11.48%)高得多。
另外打開“Yearly Income=?$150K+”節(jié)點,如圖7所示。選擇顏色很深的“Marital Status not=S”節(jié)點,在“挖掘圖例”窗格中,可以看到收入高于150000美元且已婚的客戶中,較高百分比 (82.72%)的客戶可能會選擇金卡。而同時“Marital Status=S”節(jié)點的顏色非常淺,這意味著這些客戶選擇金卡的可能性非常小。
將挖掘模型查看器切換到“依賴關(guān)系網(wǎng)絡(luò)”選項卡,可以看到如圖8所示的界面,這是和“Member Card”的屬性關(guān)聯(lián)的客戶屬性依賴圖,通過拖動左邊的滑塊,可以發(fā)現(xiàn),“Yearly Income”的確是影響會員卡類型的最重要的因素。
有了以上信息,市場部就可以確定最可能選擇某種類型卡的客戶的特征。根據(jù)這些特征(收入、子女?dāng)?shù)和婚姻狀況等),可以重新定義會員卡的服務(wù)和方案以便更好地適應(yīng)其客戶。
本文主要介紹了商業(yè)智能技術(shù),包括數(shù)據(jù)倉庫、ETL、在線分析處理、數(shù)據(jù)挖掘技術(shù)的應(yīng)用。從客戶的基本信息中分析、挖掘出可以協(xié)助重新定義會員卡服務(wù)和方案的價值信息,以便采取措施提高老客戶的忠誠度和挖掘新客戶。本文課題仍然存在著很多值得改進的方面,例如,可以充分利用SQL Server 2012數(shù)據(jù)挖掘算法可擴充的特性,將更多適合連鎖餐飲業(yè)挖掘具體信息的算法應(yīng)用到系統(tǒng)中。相信隨著技術(shù)的日趨完善,商業(yè)智能將在各行業(yè)中發(fā)揮更大的作用。
[1]謝壹.商業(yè)智能在互聯(lián)網(wǎng)業(yè)務(wù)分析中的研究與應(yīng)用[J].微計算機信息,2006,22(4-3):199-200.XIE Yi.Application and research of business intelligence in internet business analysis[J].Micro Computer Information,2006,22(4-3):199-200.
[2]孟海洋,薛紅.數(shù)據(jù)倉庫和Web技術(shù)在超市商業(yè)智能系統(tǒng)中的應(yīng)用[J].北京工商大學(xué)學(xué)報:自然科學(xué)版,2008,26(3):40-42.MENG Hai-yang,XUE Hong.Application of data Warehouse and web technology in supermarket business intelligence[J].Journal of Beijing Technology and Business University:Natural Science Edition,2008,26(3):40-42.
[3]崔凱.零售業(yè)商業(yè)智能系統(tǒng)的應(yīng)用研究[D].青島:青島科技大學(xué),2011.CUI Kai.The research of business intelligence system in retail industry[D].Qingdao University of Science and Technology,2011.
[4]米天勝.商業(yè)智能與企業(yè)競爭力的提升[J].中國管理信息化,2006,9(7):14-17.MITian-sheng.Promotion ofbusiness and enterprise competitiveness[J].China Management Informationization,2006,9(7):14-17.
[5]WilliamH.inmon.Building the Data Warehosue[M].北京:機械工業(yè)出版社,2006.
[6]Erik Thomsen.OLAP Solutions:Building Multidimensional Information System[M].北京:電子工業(yè)出版社,2004:110-120.