唐學(xué)華
基于隨機森林決策樹質(zhì)量管理方法研究
唐學(xué)華
摘要:全面質(zhì)量管理為企業(yè)實現(xiàn)科學(xué)、全面、高效的管理提供了理論依據(jù)。在分析產(chǎn)品生產(chǎn)過程中影響產(chǎn)品質(zhì)量各方面因素的基礎(chǔ)上,利用隨機森林決策樹算法對數(shù)據(jù)進行處理,挖掘內(nèi)在的、本質(zhì)的信息,能為企業(yè)的管理提供幫助。通過實測數(shù)據(jù)分析,結(jié)果顯示基于隨機森林決策樹的方法有較好的性能,可以滿足企業(yè)的實際應(yīng)用要求,提高企業(yè)效率和產(chǎn)品合格率,降低企業(yè)成本。
關(guān)鍵詞:全面質(zhì)量管理;隨機森林;決策樹
中圖分類號:TG65
文獻標(biāo)識碼:A
文章編號:1673-1999(2015)07-0061-03
作者簡介:唐學(xué)華(1977-),女,碩士,安徽財貿(mào)職業(yè)學(xué)院(安徽合肥230601)行知管理學(xué)院黨總支副書記,副教授,主要研究方向為企業(yè)管理理論。
收稿日期:2015-06-04
基金項目:安徽省高等學(xué)校省級質(zhì)量工程項目“工商企業(yè)管理專業(yè)校企合作實踐教育基地”(2012sjjd068)。
隨著科學(xué)技術(shù)的發(fā)展,社會分工日益細化,生產(chǎn)過程日益復(fù)雜化,影響產(chǎn)品或服務(wù)質(zhì)量的因素越來越多,給企業(yè)實現(xiàn)高效的質(zhì)量管理提出了新的問題與挑戰(zhàn)。全面質(zhì)量管理(Total Quality Management,TQM)理論[1]的提出為各個企業(yè)實現(xiàn)質(zhì)量管理提供了理論支撐。全面質(zhì)量管理強調(diào)將有效的數(shù)理統(tǒng)計方法與企業(yè)管理各個環(huán)節(jié)有機結(jié)合起來,以提高產(chǎn)品或服務(wù)質(zhì)量為核心目標(biāo),統(tǒng)籌考慮產(chǎn)品生產(chǎn)過程中的工作環(huán)境、工作狀態(tài)、技術(shù)水平以及生產(chǎn)條件等因素,實現(xiàn)對各個環(huán)節(jié)的全面掌控,提高各個環(huán)節(jié)的工作效率,提高產(chǎn)品或服務(wù)質(zhì)量。TQM成為備受廣大企業(yè)家所關(guān)注的一門重要的科學(xué)管理體系。
在產(chǎn)品的生產(chǎn)過程中,產(chǎn)品的質(zhì)量由多方面因素決定,主要包括工作環(huán)境、基礎(chǔ)設(shè)施、機器的精度水平、物流水平、工人的技術(shù)水平以及產(chǎn)品的檢測方法等。對于生產(chǎn)廠商而言,如何從繁多的因素中找出影響產(chǎn)品質(zhì)量的關(guān)鍵因素以及因素間的相互關(guān)系是必須關(guān)注的問題。隨著大數(shù)據(jù)時代的到來,生產(chǎn)過程中記錄的數(shù)據(jù)量非常巨大,如何從海量的數(shù)據(jù)中提取影響產(chǎn)品質(zhì)量的關(guān)鍵信息,是每個企業(yè)決策者必須充分關(guān)注的問題。數(shù)據(jù)挖掘技術(shù)是從海量的、高維的數(shù)據(jù)中挖掘出決定性的信息,并被廣泛應(yīng)用于商務(wù)管理、金融市場等領(lǐng)域。
近年來,一些研究者將數(shù)據(jù)挖掘技術(shù)應(yīng)用到質(zhì)量管理中[2-6]。決策樹就是其中一種常用的數(shù)據(jù)挖掘方法[2-5]。魯釗[3]等討論了ID3決策樹算法在機械制造中的應(yīng)用,對質(zhì)量管理信息進行挖掘,以實現(xiàn)提高決策效率的目標(biāo)。宋建聰?shù)龋?]通過對ID3算法的分析改進,提出了基于C4.5決策樹算法建立企業(yè)生產(chǎn)質(zhì)量分析模型,分析生產(chǎn)中各環(huán)節(jié)的因素,為管理者決策提供數(shù)據(jù)支持。富珍[4]和盧榮展[5]分別研究了決策樹算法在信息管理和醫(yī)學(xué)信息等領(lǐng)域的應(yīng)用,證明了基于決策樹算法數(shù)據(jù)挖掘方法在質(zhì)量管理領(lǐng)域的可行性。但是,上述幾種基于決策樹的數(shù)據(jù)挖掘方法均沒有考慮產(chǎn)品生產(chǎn)過程中的不確定性因素。由收集到的數(shù)據(jù)制定一棵確定的決策樹,沒有考慮決策信息的不確定性,以及生產(chǎn)加工過程的不確定性等信息??紤]質(zhì)量生成過程的不確定性,蔡政英[6]等采取模糊集表達決策的模糊性,運用模糊決策的方法實現(xiàn)無偏好信息作用下的決策分析。此方法只考慮到?jīng)Q策信息的不確定性,沒有考慮生產(chǎn)環(huán)境、機器加工、工人情緒變化等不確定信息。
考慮影響產(chǎn)品質(zhì)量的各方面因素,以下提出了基于隨機森林決策樹的數(shù)據(jù)挖掘方法。文章后續(xù)章節(jié)內(nèi)容安排如下:首先,分析產(chǎn)品生產(chǎn)過程中,影響質(zhì)量生成的相關(guān)因素以及存在的不確定性;其次,介紹基于隨機森林決策樹的決策方法;第三,對實際采集的數(shù)據(jù)進行處理與分析;最后,給出文章的結(jié)論。
在質(zhì)量管理中,最常用的是ISO9001質(zhì)量管理體系標(biāo)準(zhǔn)(Quality Management System)評價質(zhì)量管理的質(zhì)量。參照IS09000QMS標(biāo)準(zhǔn)及某裝備生產(chǎn)企業(yè)的實際情況,企業(yè)生產(chǎn)產(chǎn)品的質(zhì)量評價標(biāo)準(zhǔn)可以將QMS分解為總體要求、管理層決策、資源調(diào)配、產(chǎn)品生產(chǎn)、檢測、分析和改進五個二級指標(biāo)。將每個二級指標(biāo)進行細化,得到影響產(chǎn)品質(zhì)量的各個因素。
一是產(chǎn)品的質(zhì)量要求,包括產(chǎn)品的整體質(zhì)量和
關(guān)鍵部件的質(zhì)量要求。
二是管理層決策,包括管理承諾、質(zhì)量方針、實施方案、職責(zé)職權(quán)的界定以及各部門間的協(xié)調(diào)溝通。
三是資源調(diào)配,由基礎(chǔ)設(shè)施、工作環(huán)境、機械設(shè)備配備以及人力資源的合理組織等部分組成。
四是產(chǎn)品生產(chǎn),作為產(chǎn)品質(zhì)量生成的重要階段,包括原料和部件采購、技術(shù)中心策劃設(shè)計與開發(fā)、實時數(shù)據(jù)監(jiān)控,物流效率和生產(chǎn)部門間的協(xié)作。
五是檢測分析和改進,包括制定檢測標(biāo)準(zhǔn)、檢測方案、不合格率的控制,數(shù)據(jù)分析與改進,以及責(zé)任確定與理賠等問題。
考慮到產(chǎn)品生產(chǎn)過程中各因素的不確定性,對影響產(chǎn)品質(zhì)量的各個因素的狀態(tài)不能簡單的表示成“是”與“非”的二元表達,而是進行多級量化。在管理決策過程中可能涉及多個管理者,每個管理者的決策方法各不相同。在決策量化的過程中,決策的量綱不同,量化等級不同等差異性因素,細化量化等級可以使決策意圖更加清晰明了,有利于后續(xù)工作的實施?;A(chǔ)設(shè)施的健全狀況、工作環(huán)境舒適程度、工人的技術(shù)水平、設(shè)備的磨損情況、采購質(zhì)量、實施方案的細化程度、物流效率、多部門協(xié)作水平、檢測指標(biāo)的制定、不合格率的標(biāo)準(zhǔn)等,都需要多級量化。一方面,可以明確各個環(huán)節(jié)的執(zhí)行標(biāo)準(zhǔn),便于執(zhí)行和數(shù)據(jù)檢測;另一方面,可以明確有效模擬信息的不確定性。對各個環(huán)節(jié)中的因素進行選擇,組成特征向量;對每個特征進行量化,形成特征空間。企業(yè)的質(zhì)量管理由此特征向量進行描述,高維特征向量作為隨機森林決策方法的輸入,用于企業(yè)質(zhì)量管理。
基于隨機森林的質(zhì)量管理決策模型如圖1所示。首先,對企業(yè)的數(shù)據(jù)進行預(yù)處理、采樣、標(biāo)記,生成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集;然后用訓(xùn)練數(shù)據(jù)訓(xùn)練隨機森林;用剪枝法對生成的決策樹進行簡化;最后,在測試數(shù)據(jù)集上評估決策方法。
圖1 基于隨機森林的質(zhì)量管理決策方法流程圖
(一)數(shù)據(jù)的收集與采樣
在質(zhì)量管理的整個過程中,并不是每項數(shù)據(jù)都能明確地量化成數(shù)字表示,同時也會受到客觀或主觀因素的影響,使得數(shù)據(jù)殘缺、重復(fù),受噪聲污染等。另外,用海量的原始數(shù)據(jù)進行決策樹的訓(xùn)練是不可行的,必須對數(shù)據(jù)進行預(yù)處理。首先,去除干擾信息,將不完整的、錯誤的信息去除;其次,為了保證樣本間的可區(qū)分性,不重復(fù)采樣相同的數(shù)據(jù);另外,為保證樣本空間的完備性,采樣盡量分布在特征空間的全空間。最后,將特征空間的特征進行合理的量化。預(yù)處理之后的數(shù)據(jù)隨機的生成訓(xùn)練隨機森林的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。
(二)隨機森林原理
隨機森林是決策樹的組合,是因為其每個決策樹都是隨機生成的。而最常用的決策樹組合方式為求均值:
其中,pt(y|v)為每顆決策樹的決策結(jié)果;T為決策樹的個數(shù);Z為歸一化因子;p(y|v)為整個隨機森林對樣本v的決策結(jié)果。
決策樹的思想是將復(fù)雜問題分割成多個簡單問題來逐步處理。決策樹由節(jié)點和連接節(jié)點的邊組成,其中節(jié)點可分為內(nèi)部節(jié)點和葉子節(jié)點,每個節(jié)點只有一個輸入邊,而內(nèi)部節(jié)點可以有兩個或兩個以上的輸出邊,葉子節(jié)點沒有輸出邊。當(dāng)內(nèi)部節(jié)點的輸出邊有且只有兩條時,決策樹為二分樹。決策樹的決策過程可簡化為:輸入一組樣本到?jīng)Q策樹的根節(jié)點,根據(jù)內(nèi)部節(jié)點對應(yīng)的分裂準(zhǔn)則,自頂向下通過內(nèi)部節(jié)點并且判斷樣本類型,直到達到葉子節(jié)點,而葉子節(jié)點存儲的是樣本類別。
決策樹的決策過程根據(jù)已知的信息來估計未知的信息,即當(dāng)樣本到達一個內(nèi)部節(jié)點時,此內(nèi)部節(jié)點存儲有已知的分類屬性(訓(xùn)練時產(chǎn)生的),以節(jié)點存儲的分類屬性作為分類依據(jù)來判斷樣本的分裂方向。在這個判斷過程中,并沒有用到該節(jié)點未存儲的分類屬性,這個過程就是通過確定性屬性(節(jié)點存儲的屬性)來估計樣本類別,不確定性屬性(節(jié)點未存儲的屬性)對本節(jié)點的判斷過程沒有影響。分類屬性是由上一步的回答決定的,這種決定關(guān)系可以用一個從根節(jié)點到葉子節(jié)點的路徑來表示。
(三)決策樹的構(gòu)建過程
決策樹的訓(xùn)練過程如下:首先,從根節(jié)點開始訓(xùn)練,所謂的訓(xùn)練實際上是找出根節(jié)點對應(yīng)的最優(yōu)分類特征。在特征中找出一維特征,使得輸入樣本按照該特征分類后的信息增益最高,信息增益的定義如公式(2)所示。確定最優(yōu)特征后,將其標(biāo)記為根節(jié)點的分類特征。其他內(nèi)部節(jié)點的訓(xùn)練方式和根節(jié)點的訓(xùn)練方式相同。通過遍歷所有節(jié)點,可以得到一種節(jié)點和最優(yōu)特征的關(guān)系,這個最優(yōu)特征就是決策過程中的分裂準(zhǔn)則。信息增益的表達式如下:
其中,S為輸入數(shù)據(jù);F為從特征中選取的最優(yōu)特征;樣本標(biāo)記為正樣本時,v=1,S1為正樣本的數(shù)量;負樣本時,v=0,S0為負樣本的數(shù)量。對于兩類問
題的熵E(S)由下式得:
其中p1和p0分別為正負樣本出現(xiàn)的頻率。選擇信息增益最大化的特征作為節(jié)點對應(yīng)的最優(yōu)特征,可以使分類后的各類樣本的純度最高。對于多類問題,可以簡化為多個兩類問題來處理。
(四)決策樹剪枝
為簡化決策樹,需要對決策樹的葉子節(jié)點進行判別,刪除部分葉子節(jié)點,保留有用的節(jié)點。常用的方法有閾值法和剪枝法。由于在實際應(yīng)用中閾值法的閾值很難確定,筆者采用剪枝法對生成的決策樹進行簡化。
剪枝法是一種自下而上修剪決策樹的方法。首先,要使決策樹充分生長,到達每個葉子節(jié)點的純度最大;然后對同父的葉子節(jié)點進行試驗性的修剪,如果修剪前后純度的變化很小,就可以進行剪枝,修剪后父節(jié)點就變?yōu)槿~子節(jié)點,否則不做修剪。按照這種方法對決策樹自下而上進行修剪,葉子節(jié)點就會出現(xiàn)在范圍很廣的層次上。筆者選擇熵的不純度作為樣本的不純度評價準(zhǔn)則。
(五)決策樹的決策過程
使用二分的決策樹的決策過如下:假設(shè)有一個樣本集X,樣本從決策樹的根節(jié)點開始判斷,直到達到葉子節(jié)點,決策樹的葉子節(jié)點存儲了對樣本類型的預(yù)測。決策樹的分裂節(jié)點可表示為N(φ(x),l,r),其中φ(x)為分裂準(zhǔn)則,l和r為左右分支。分裂準(zhǔn)則由訓(xùn)練過程得到。當(dāng)φ(x)=0時,下一步向左分支分裂;如果φ(x)=1,則向右分支前進,直到達到可以給出結(jié)果的葉子節(jié)點為止。
(一)訓(xùn)練集與測試集的選擇
實驗數(shù)據(jù)來源于某裝備生產(chǎn)公司,該公司屬于產(chǎn)品組裝總廠。通過對采集數(shù)據(jù)進行預(yù)處理之后,選取10 000條記錄數(shù)據(jù)作為實驗數(shù)據(jù)的正樣本,10 000條數(shù)據(jù)作為負樣本。將20 000條數(shù)據(jù)隨機分成10組,每組2 000條數(shù)據(jù),隨機選取9組作為訓(xùn)練數(shù)據(jù),1組作為測試數(shù)據(jù),交叉驗證。每條記錄數(shù)據(jù)包括因素如下:質(zhì)量要求,管理承諾合理性、質(zhì)量方針科學(xué)性、實施方案明顯程度、管理職責(zé)職權(quán)明確程度,基礎(chǔ)設(shè)施完畢情況、工作環(huán)境舒適狀況、機械設(shè)備健康水平、工人技術(shù)水平、原料和部件采購質(zhì)量、技術(shù)中心策劃設(shè)計與開發(fā)合理性與實時性、實時數(shù)據(jù)監(jiān)控準(zhǔn)確性,物流效率、生產(chǎn)部門間的協(xié)作水平、檢測標(biāo)準(zhǔn)合理程度、檢測方案科學(xué)性、不合格率的控制情況、數(shù)據(jù)分析與改進,以及責(zé)任確定與理賠合理性。筆者依據(jù)這些數(shù)據(jù)生成20維特征向量。
(二)隨機森林參數(shù)選擇
用訓(xùn)練數(shù)據(jù)訓(xùn)練隨機森林時,要對一些參數(shù)進行分析,其中兩個重要的參數(shù)為決策樹的個數(shù)和決策樹的最大深度。確定合適閾值的方法是對于同一組訓(xùn)練數(shù)據(jù),固定其他閾值,通過調(diào)整的參數(shù)閾值使得算法在數(shù)據(jù)集上的準(zhǔn)確率最高,最高精度對應(yīng)的閾值為該參數(shù)的最佳閾值。對于某一組訓(xùn)練樣本,參數(shù)分析的結(jié)果如圖2所示。一方面,如圖2(a)所示,決策樹個數(shù)增加會使準(zhǔn)確率上升,但是森林中決策樹越多計算代價和運算速度會下降。當(dāng)決策樹個數(shù)大于4時,準(zhǔn)確率提高不大,綜合計算效率與代價,決策樹個數(shù)選擇為4;另一方面,如圖2(b)所示,當(dāng)決策樹深度小于6時,隨著決策樹深度增加,準(zhǔn)確率有明顯的提升,但是當(dāng)深度大于6時,準(zhǔn)確率呈現(xiàn)出緩慢下降趨勢。這是由于深度過大時,出現(xiàn)了過擬合的現(xiàn)象。文中決策樹的最大深度選為6。
(三)決策樹評估方法
為驗證訓(xùn)練得到的隨機森林決策樹的有效性,使用1 000組測試樣本進行測試,準(zhǔn)確率precision的定義如下:
圖2 決策樹個數(shù)和決策樹最大深度對準(zhǔn)確率的影響示意圖
其中,TP為預(yù)測正確的正樣本個數(shù),F(xiàn)P為將實
際的負樣本預(yù)測為正樣本的個數(shù)。10組數(shù)據(jù)進行交叉驗證,預(yù)測準(zhǔn)確率的如圖3所示。從圖3可以看出,基于隨機森林的決策樹的預(yù)測準(zhǔn)確度均值為96%,最高精度可以達到97.43%,證明基于隨機森林決策樹的方法在質(zhì)量管理領(lǐng)域具有很好的性能,顯示了良好的應(yīng)用前景。
圖3 10組數(shù)據(jù)的測試精度
分析了企業(yè)全面質(zhì)量管理中影響產(chǎn)品質(zhì)量的各方面因素,結(jié)合實際情況選擇關(guān)鍵因素,通過量化分析,將全面質(zhì)量管理問題用高維特征向量表示,采用隨機森林決策樹的方法從高維數(shù)據(jù)中挖掘隱含在數(shù)據(jù)中的關(guān)鍵關(guān)系、因素間的內(nèi)在聯(lián)系以及不確定因素的影響,用實測數(shù)據(jù)訓(xùn)練得到隨機森林決策樹,并在測試集上測試決策效果。實驗結(jié)果表明,基于隨機森林決策樹的方法有較好的性能,可以滿足企業(yè)的實際應(yīng)用要求,該方法能提高企業(yè)效率和產(chǎn)品合格率,降低企業(yè)成本。
參考文獻:
[1]吳思斌.質(zhì)量管理的發(fā)展與通信企業(yè)質(zhì)量管理的簡述[J].移動通信產(chǎn)品質(zhì)量管理專欄,2014(19).
[2]魯釗,陳世平.基于ID3算法的機械制造業(yè)決策應(yīng)用[J].計算機應(yīng)用,2011(11).
[3]宋建聰,戴青云,付品欣,鐘潤陽.數(shù)據(jù)挖掘在生產(chǎn)過程質(zhì)量管理中的應(yīng)用[J].現(xiàn)代制造工程,2013(9).
[4]富珍,郭順生,李益兵.基于數(shù)據(jù)倉庫的質(zhì)量管理決策支持系統(tǒng)研究[J].計算機技術(shù)與發(fā)展,2006(1).
[5]陸榮展,相秉仁,徐建平.決策樹算法在藥品GSP預(yù)警管理中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2009(5).
[6]蔡政英,楊斌,張勁松.不確定偏好信息下質(zhì)量管理的含糊群體決策[J].計算機集成制造系統(tǒng),2008(1).
(編輯:唐龍)