孟強
摘 要:文章運用SQL Server 2008商務智能平臺和決策樹分析技術,通過構建決策樹挖掘模型,對倉儲企業(yè)的綜合競爭力進行了科學的、準確的、合理的評估分析,實現(xiàn)了認知規(guī)則的提取和知識的發(fā)現(xiàn),具有一定的理論和現(xiàn)實意義。
關鍵詞:決策樹;倉儲企業(yè);評估;SQL Server 2008
中圖分類號:F253 文獻標識碼:A
Ahstract: The use of SQL Server 2008 business intelligence
platform and decision tree analysis technology, by constructing a decision tree mining model, comprehensive competitiveness of enterprise logistics were analyzed and the scientific, accurate and reasonable assessment. The cognitive rules extraction and knowledge discovery have certain theoretical and practical significance.
Key words: decision tree; storage enterprise; evaluation; SQL Server 2008
倉儲業(yè)是物流業(yè)的重要組成部分,也是第三產(chǎn)業(yè)中的獨立行業(yè),近10年來,我國經(jīng)濟持續(xù)穩(wěn)定高速增長,電子商務迅猛發(fā)展,促使物流業(yè)的規(guī)模不斷擴大,傳統(tǒng)物流企業(yè)逐步轉型,現(xiàn)代物流發(fā)展的生態(tài)環(huán)境日益優(yōu)化,物流基礎設施和信息化建設進度加快,現(xiàn)代物流服務體系已逐漸形成,倉儲物流配送服務的能力和水平得到了顯著的提高,現(xiàn)代物流業(yè)已成為現(xiàn)代服務業(yè)的重要支撐。然而,與西方發(fā)達國家相比,我國倉儲業(yè)的發(fā)展還不夠成熟,存在著許多不足,需要進一步加強和完善現(xiàn)代倉儲物流體系的構建,并對倉儲物流企業(yè)進行綜合評估和考察,促使倉儲物流企業(yè)競爭、創(chuàng)新和發(fā)展,不斷提升倉儲物流企業(yè)的服務質量和綜合競爭力,以更好地適應現(xiàn)代倉儲業(yè)的發(fā)展。
1 SQL Server 2008 BI平臺概述
Business Intelligence Development Studio,即微軟公司SQL Server 2008商業(yè)智能平臺,被用于創(chuàng)建和使用數(shù)據(jù)挖掘模型,通過對該平臺中數(shù)據(jù)挖掘算法和工具的使用,進而為企業(yè)提供有價值的、高效的、可靠的商務智能決策方案。
SQL Server 2008系統(tǒng)結構主要包括4個部分,即數(shù)據(jù)庫引擎、分析服務(Analysis Services)、報表服務(Reporting Services)和集成服務(Integration Services)。在用BI平臺進行數(shù)據(jù)挖掘時,主要使用的是Analysis Services,它不僅能夠被用來進行多維數(shù)據(jù)分析,還能創(chuàng)建數(shù)據(jù)挖掘結構和模型,并且提供了9種比較常用的數(shù)據(jù)挖掘技術(Microsoft Naive Bayes、關聯(lián)規(guī)則、聚類分析、決策樹、邏輯回歸、神經(jīng)網(wǎng)絡、時序、線性回歸、順序分析和聚類分析),除此之外用戶還能自定義算法。
2 決策樹簡介
數(shù)據(jù)挖掘的本質就是知識發(fā)現(xiàn)的過程,它是從海量的數(shù)據(jù)中提取有價值的、對人們有用的信息和知識[1],而決策樹是數(shù)據(jù)挖掘技術中常用的一種,在分類和預測中運用比較廣泛,該技術就是通過分析已知類別訓練集,挖掘并發(fā)現(xiàn)分類規(guī)則,再對未知數(shù)據(jù)的類別進行分析預測,從而給決策者提供參考[2-3]。
據(jù)此可知該技術的實施一般分為模型訓練和應用兩個步驟[4],該方法具有以下幾個優(yōu)點:方法簡單,計算量較?。蝗菀淄诰蚝桶l(fā)現(xiàn)有價值的規(guī)則;連續(xù)和離散字段均能適用;能夠明顯直觀地顯現(xiàn)出各字段的重要性程度。然而也存在一些不足,比如對連續(xù)字段和時間順序這樣的字段需要進一步轉化處理,類別太多會增加錯誤決策的概率等。
3 數(shù)據(jù)挖掘的ETL過程
3.1 數(shù)據(jù)的獲取和導入
根據(jù)挖掘和分析的需要,文章隨機從物流產(chǎn)業(yè)大數(shù)據(jù)平臺[5]中抽取全國倉儲物流企業(yè)相關數(shù)據(jù)集,該樣本數(shù)據(jù)集合共有400條記錄,每條記錄主要選取了10個相關屬性,其屬性名稱分別為Comp_ID(企業(yè)ID)、Comp_Name(企業(yè)名稱)、Comp_Prop(企業(yè)性質)、Region(所屬區(qū)域)、Address(企業(yè)地址)、Cont_Way(聯(lián)系方式)、Asset(TTY)(企業(yè)資產(chǎn)(萬元))、Income(TTY)(企業(yè)經(jīng)營收入(萬元))、Comp_Numb(企業(yè)員工數(shù))和Comp_Eval_Result(企業(yè)評估結果)。通過Excel對所需數(shù)據(jù)進行初步的匯集和整理,再運用SQL server 2008 Management Studio所提供的數(shù)據(jù)導入功能,進行數(shù)據(jù)的導入并創(chuàng)建Basic_Info(基本信息)表,儲存在事先已創(chuàng)建好的名為倉儲物流企業(yè)綜合競爭力評估系統(tǒng)數(shù)據(jù)庫中。
3.2 數(shù)據(jù)的清洗和轉換
在隨機抽取的400條數(shù)據(jù)中,數(shù)據(jù)可能并不是非常完整,不能被直接用來進行數(shù)據(jù)分析,需要根據(jù)分析需求對數(shù)據(jù)本身做進一步的處理,也就是所謂的查缺補漏工作。如果某條記錄超過3個屬性值為空,則放棄錄入該條數(shù)據(jù)。為了能夠更好地對倉儲物流企業(yè)的綜合競爭力進行評估,需要對相關數(shù)據(jù)進行轉換,基于Basic_Info表,需要對Asset(TTY)、Income(TTY)、Comp_Numb和Region字段的數(shù)據(jù)進行離散化處理轉換,也就是把待處理字段的每個取值用“字符串”的形式進行處理轉換[6],然后把各字段轉換后的值存儲在數(shù)據(jù)庫中,其轉換處理字段的具體結構如表1所示。文章將Asset(TTY)(企業(yè)資產(chǎn)(萬元))按照“高”、“中”、“低”3個級別進行劃分、轉換并生成Comp_Asset_Class(企業(yè)資產(chǎn)級別)字段,基于此創(chuàng)建Asset_Class(資產(chǎn)級別表);將Income(TTY)(企業(yè)經(jīng)營收入(萬元))按照“強”、“中”、“弱”3個級別進行劃分、轉換并生成Comp_Mana_Ability(企業(yè)經(jīng)營能力)字段,基于此創(chuàng)建Mana_Ability(經(jīng)營能力表);將Comp_Numb(企業(yè)員工數(shù))按照“大”、“中”、“小”3個級別進行劃分、轉換并生成Comp_Empl_Size(企業(yè)員工規(guī)模)字段,基于此創(chuàng)建Empl_Size(員工規(guī)模表);將Region(所屬區(qū)域)按照“強”、“中”、“弱”3個級別進行劃分、轉換并生成Comp_Regi_Adva(企業(yè)區(qū)域優(yōu)勢)字段,基于此創(chuàng)建Regional_Adva(區(qū)域優(yōu)勢表)。
基于Basic_Info表,對S1、S2、S3、S4這4個字段進行劃分與轉換時的SQL部分語句如圖1所示:
通過前期數(shù)據(jù)的導入、整合、清理和轉換,將所需不同表中字段的相關數(shù)據(jù)進行拆分和合并,進一步得到了適合數(shù)據(jù)挖掘的Wara_Logi_Comp_Eval(倉儲物流企業(yè)評估表),其中部分數(shù)據(jù)如表2所示。
4 決策樹挖掘模型的創(chuàng)建及準確性驗證
4.1 挖掘結構和模型的構建
啟動BI Dev Studio,在開發(fā)環(huán)境中新建名為“倉儲物流企業(yè)綜合競爭力評估”的Analysis Services項目,以及定義項目保存位置信息和解決方案名稱,然后創(chuàng)建數(shù)據(jù)源和數(shù)據(jù)源視圖(DSV),最終所建DSV如圖2所示。
然后按照數(shù)據(jù)挖掘向導的提示,逐步構建挖掘結構和挖掘模型,在創(chuàng)建的過程中,需要重視測試集的創(chuàng)建,即指定要為模型測試保留的事例數(shù),一般需要指定測試數(shù)據(jù)百分比和測試數(shù)據(jù)集中的最大事例數(shù),通常指定測試數(shù)據(jù)百分比為30%。本文隨機抽取120個作為測試集,用來測試和檢驗模型,剩余280個作為訓練集,用來生成規(guī)則。最后將所創(chuàng)建的數(shù)據(jù)挖掘結構和模型都命名為“倉儲物流企業(yè)評估模型”。該挖掘模型成功部署處理之后,就可以查看所創(chuàng)建的挖掘結構、挖掘模型、挖掘模型查看器、挖掘準確性圖表和挖掘模型預測相關的各種信息,通過挖掘模型查看器可以查看所生成的決策樹如圖3所示。
4.2 模型的準確性驗證
4.2.1 分類矩陣
分類矩陣(Classification Matrix)也稱無秩序矩陣,它能夠精確地顯示該算法測試的結果正確的次數(shù),并且顯示錯誤的預測是什么。本文所創(chuàng)建的決策樹挖掘模型選取對應的測試集共400*30%=120個事例來對所生成的挖掘模型進行測試并將測試結果以分類矩陣的形式加以表示,如圖4所示。
根據(jù)分類矩陣所顯示的內(nèi)容可知,本模型預測的結果為:真“差”事例數(shù)目為3,假“差”事例數(shù)目為1;真“良”事例數(shù)目為67,假“良”事例數(shù)目為12;真“優(yōu)”事例數(shù)目為18,假“優(yōu)”事例數(shù)目為1;真“中”事例數(shù)目為18,假“中”事例數(shù)目為0[7]。綜上所述,可求出本模型在測試集上的平均分類評估的準確率為:(3+67+18+18)/(3+1+10+67+2+1+18+18)
≈88.33%,該結果表明模型具有較強的可靠性。
4.2.2 挖掘提升圖
提升圖是按照測試數(shù)據(jù)集中可預測列的已知值來繪制從該測試數(shù)據(jù)集進行預測查詢的結果,并同時展示理想模型、隨機模型和所建模型的結果。本文測試數(shù)據(jù)集中共有120個事例,可以得到企業(yè)評估結果(可預測字段)分別為“優(yōu)”、“良”、“中”和“差”不同條件下的模型所對應的提升圖,文章僅給出企業(yè)評估結果為“良”條件下模型所對應的提升圖(如圖5所示)及其相應的挖掘圖例(如圖6所示)。
從提升圖(圖5)明顯可以看出,紅色曲線不斷向綠色曲線靠攏,也就是所構建模型的提升曲線十分靠近理想模型的提升曲線,此外由挖掘圖例(圖6)可知分數(shù)為0.99,非常接近1,所以該模型性能非常好,且具有較高的預測準確率。
4.2.3 綜合競爭力評估依賴關系
通過挖掘模型查看器進行模型挖掘,查看倉儲物流企業(yè)綜合競爭力評估主要強依賴關系如圖7所示,在Wara_Logi_Comp_Eval(倉儲物流企業(yè)評估表)中,若干字段包括Comp_Mana_Ability(企業(yè)經(jīng)營能力)、Comp_Asset_Class(企業(yè)資產(chǎn)級別)、Comp_Empl_Size(企業(yè)員工規(guī)模)和Comp_Regi_Adva(企業(yè)區(qū)域優(yōu)勢),對倉儲物流企業(yè)綜合競爭力評估影響最大的是企業(yè)經(jīng)營能力,其次是企業(yè)資產(chǎn)級別,對于較弱的依賴關系圖中并沒有顯示出來,這是由于微軟SQL Server 2008所提供的決策算法不同造成的,然而主要結論是一致的,那就是倉儲物流企業(yè)綜合競爭力評估主要依賴于企業(yè)經(jīng)營能力和企業(yè)資產(chǎn)級別這兩個因素。