沈維蕾, 楊雪春, 吳善春
(合肥工業(yè)大學(xué) 機械工程學(xué)院,安徽 合肥 230009)
隨著市場競爭壓力的增加,制造業(yè)生產(chǎn)方式已逐漸向多品種、小批量模式轉(zhuǎn)變,導(dǎo)致傳統(tǒng)的統(tǒng)計分析方法難以有效控制小批量生產(chǎn)過程質(zhì)量[1]。傳統(tǒng)質(zhì)量監(jiān)控以及異常診斷方法通常假設(shè)采集的數(shù)據(jù)是連續(xù)的,并且遵循正態(tài)或多元正態(tài)分布,在此基礎(chǔ)上才能建立較高精度的統(tǒng)計過程控制圖來檢測生產(chǎn)過程質(zhì)量是否受控[2-4]。
近年來,有研究者開始將數(shù)據(jù)挖掘與統(tǒng)計過程控制相結(jié)合來控制非正態(tài)生產(chǎn)過程質(zhì)量,并取得了很好的效果[5]。針對中小批量生產(chǎn)過程,文獻[6]提出了一種結(jié)構(gòu)化方法,將具有相似生產(chǎn)特征的生產(chǎn)過程進行聚類分析,用以獲得足夠的樣本數(shù)據(jù)監(jiān)控小批量生產(chǎn)過程,并成功地用于鏜銑床的制造過程中;文獻[7]提出一種基于共軛貝葉斯方法的多批次小批量生產(chǎn)的控制圖,該方法首先從先前的批次中找出適當(dāng)?shù)南闰炐畔?然后基于過程均值和過程方差的貝葉斯估計量,提出了用于計算控制極限的共軛貝葉斯方法;文獻[8-9]使用支持向量機技術(shù)通過歸一化的監(jiān)控統(tǒng)計數(shù)據(jù)來構(gòu)造魯棒的K控制圖,結(jié)果表明,除了非常規(guī)數(shù)據(jù)的靈活性外,強大的K圖還可以有效地處理自相關(guān)過程數(shù)據(jù);文獻[10]根據(jù)支持向量數(shù)據(jù)描述 (support vector data description,SVDD) 算法提出了基于核距離的K控制圖,K控制圖的監(jiān)測統(tǒng)計量根據(jù)觀測點與SVDD算法生成決策邊界之間的距離得到,并通過調(diào)節(jié)SVDD算法的參數(shù)調(diào)整控制限制;文獻[11-12]研究了基于SVDD算法控制圖控制限計算問題,在此基礎(chǔ)上提出了基于核距離的D2控制圖,該控制圖根據(jù)多個統(tǒng)計量均值確定控制圖的控制上限,因此不依賴于用戶設(shè)置第一類錯誤和統(tǒng)計量分布類型;文獻[13]提出了基于D2統(tǒng)計量的多元加權(quán)移動平均控制圖S-EWMA,實驗結(jié)果表明該控制圖對小偏移較為敏感,且對于數(shù)據(jù)分布沒有特定要求。
上述文獻在解決質(zhì)量過程異常監(jiān)測時大多假設(shè)數(shù)據(jù)符合正態(tài)分布,但是當(dāng)數(shù)據(jù)本身分布不均勻、分布較為分散時,通過SVDD算法訓(xùn)練得到的SVDD模型無法準(zhǔn)確檢測,導(dǎo)致漏報、虛警率增加。針對此問題,本文結(jié)合密度峰值聚類(density peaks clustering,DPC)與SVDD方法對小批量生產(chǎn)過程建立基于內(nèi)核距離的DPC控制圖,實現(xiàn)對小批量生產(chǎn)過程質(zhì)量波動的實時監(jiān)控,從而實現(xiàn)制造過程的多元質(zhì)量監(jiān)控與異常診斷。
SVDD是一種單分類數(shù)據(jù)描述算法,具有極強的模式識別能力和推廣能力,因此被廣泛應(yīng)用于模式識別和異常檢測領(lǐng)域[14-15]。該算法的核心思想是尋找一個能夠包含全部或大部分目標(biāo)類樣本數(shù)據(jù)的最小超球體,同時使非目標(biāo)類樣本點位于超球體之外,而超球體的確定僅依靠目標(biāo)集的訓(xùn)練樣本。為了降低尋找超球體的難度,通常將訓(xùn)練樣本數(shù)據(jù)映射到高維空間。若新樣本點在高維特征空間的像落入超球體內(nèi)部,則認(rèn)為該樣本屬于目標(biāo)類;反之,該樣本點落入超球體外,則該樣本點被識別為異常點[16]。SVDD分類結(jié)果如圖1所示。
圖1 SVDD分類示意圖
假設(shè)需要對包含N個樣本點的訓(xùn)練數(shù)據(jù)集進行描述,令{xi|xi∈X,i=1,2,…,N}為已知的訓(xùn)練數(shù)據(jù)集,超球體的球心和半徑分別為A和R,則SVDD算法尋找的超球體應(yīng)滿足如下關(guān)系:
(1)
(2)
其中,xi·xj表示xi和xj的內(nèi)積,可用核函數(shù)K(xi·xj)替換,考慮到核函數(shù)對分類器性能的影響,本文選擇使用較為廣泛的高斯核函數(shù),即
(3)
通過求解二次規(guī)劃問題可以得到最優(yōu)解集α=(α1,α2,…,αn)。其中,存在少部分不為0的αi對應(yīng)的變量xi使不等式中的等號成立,這些變量共同確定了分類器邊界的支持向量。
通過計算球體中心到權(quán)重因子小于C(0<αi R2=‖xk-α‖2=K(xk·xk)- (4) 為了判斷測試數(shù)據(jù)z是否在超球體內(nèi)部,可計算測試數(shù)據(jù)到球心A的距離D2。當(dāng)測試點z到球心A的距離小于球體半徑R時,測試點z位于球體內(nèi),即滿足D2≤R2,則此樣本點屬于目標(biāo)類,否則屬于異常點。 距離D2的計算公式如下: (5) 此外,文獻[17]定義了參數(shù)f,f=1/(NC),其中,N為目標(biāo)類樣本個數(shù);C為控制超球體之外的目標(biāo)類樣本數(shù)的懲罰參數(shù),通過調(diào)整f的大小可以達(dá)到控制超球體內(nèi)部樣本數(shù)的目的,適合的f有利于提高分類器性能。 SVDD算法屬于典型的單分類算法,只能通過目標(biāo)類數(shù)據(jù)對分類器進行訓(xùn)練,但是對于分布較為分散的樣本數(shù)據(jù),核函數(shù)的計算復(fù)雜度會導(dǎo)致SVDD訓(xùn)練難度增加。 此外,由于數(shù)據(jù)集各個區(qū)域的數(shù)據(jù)密度相差較大,原始的支持向量數(shù)據(jù)描述算法訓(xùn)練出的超球體體積較大,分散的決策邊界導(dǎo)致非目標(biāo)類樣本點落入超球體內(nèi)部的概率增加,最終引起分類器漏報率增加,降低模型的異常檢測性能力。而且SVDD算法只能對目標(biāo)數(shù)據(jù)集進行整體的邊界描述,無法對數(shù)據(jù)集中所包含的多個不同樣本之間的差異進行分析[17]。 不同參數(shù)下SVDD分類邊界的分布情況如圖2所示。 圖2a所示為當(dāng)數(shù)據(jù)本身分布不均勻時,訓(xùn)練得到的超球體體積較大導(dǎo)致無法對異常樣本進行準(zhǔn)確監(jiān)測的情況。調(diào)整核函數(shù)參數(shù)以及懲罰參數(shù)后所得結(jié)果如圖2b~圖2f所示,出現(xiàn)將正常的目標(biāo)類樣本排除在超球體之外的情況,導(dǎo)致分類器虛警增加。 因此,在實際生產(chǎn)制造過程中,使用SVDD算法檢測生產(chǎn)過程質(zhì)量仍存在諸多限制。而本文提出的基于DPC改進的DPC-SVDD算法,可以有效解決上述缺陷,降低數(shù)據(jù)分布密度不均勻?qū)VDD分類器的消極影響。 為解決數(shù)據(jù)分布不均勻?qū)VDD分類的消極影響,本文采用基于樣本分割的并行學(xué)習(xí)算法,提高算法效率。同時為了提高分類準(zhǔn)確性,采用基于密度峰值的聚類算法DPC對SVDD算法進行改進,將訓(xùn)練樣本集劃分為K個高密度的子集,降低算法尋找超球體的難度。 DPC聚類算法的核心通過局部密度與相對距離這2個特征對聚類中心進行描述:① 每個聚類中心的局部密度高于周圍所有的其他樣本;② 聚類中心到其他密度較高點的相對距離較大。根據(jù)局部密度和相對距離這2個指標(biāo),該聚類過程可分為2步:第1步快速搜索密度峰值;第2步將密度峰標(biāo)記為聚類中心,再將其余的點分配到各個簇中,最終得到若干個彼此之間相似度較低、密度較高的子集[18-19]。 DPC與傳統(tǒng)密度聚類算法的不同之處在于該算法提出了從2個維度對聚類中心進行描述,即樣本點的局部密度ρi、到局部密度比它大的樣本點的距離δi。 假設(shè)存在數(shù)據(jù)集S={xi|xi∈X,i=1,2,…,N},dij=dis(xi,xj)表示樣本點xi與xj之間的距離,對于S中的任何一點xi,都可以求出該點的局部密度ρi和相對距離δi,且這2個值僅取決于兩點之間的距離dij。 任意一點i的局部密度ρi可以通過下式進行計算: (6)式中的dc為截斷距離,是一個超參數(shù),因此局部密度ρi可看作距離點i的距離小于dc的點的個數(shù)。 通過計算樣本點i與其他具有更高密度的樣本點之間的最小距離,計算相對距離δi,即 (8) 對于具有最高密度的點,其相對距離計算公式如下: (9) 最終可以得到所有點的局部密度ρi和相對距離δi,根據(jù)局部密度和相對距離得到基于ρ和δ的二維聚類決策圖。根據(jù)決策圖將具有最高局部密度和相對距離的樣本點標(biāo)記為聚類中心,最后將其他的樣本點歸入局部密度大于自身且距離最近的樣本點所在的子類簇中,完成對所有樣本點的聚類處理。 為解決小批量生產(chǎn)環(huán)境下生產(chǎn)過程數(shù)據(jù)分布不均勻的問題,本文將SVDD算法與聚類算法相結(jié)合,提出基于DPC-SVDD算法的質(zhì)量診斷模型,模型整體框圖如圖3所示。 離線建模過程如下: (1) 數(shù)據(jù)預(yù)處理,將質(zhì)量數(shù)據(jù)標(biāo)準(zhǔn)化后隨機取樣。 (2) 利用主成分分析法對采集到的生產(chǎn)過程特征數(shù)據(jù)進行主元分析計算各主元貢獻度并提取其中貢獻度較高的若干主元。 (3) 利用DPC算法對提取出的主元進行自動聚類分析,根據(jù)樣本點的局部密度與相對距離得到?jīng)Q策圖,最后依據(jù)決策圖得到k個分布相對緊湊的子集。 (4) 訓(xùn)練SVDD模型建立k個超球體對樣本空間進行劃分。 (5) 依據(jù)各超球體決策邊界和圓心建立K個控制圖,根據(jù)(4)式計算控制限D(zhuǎn)2。 圖3 DPC-SVDD質(zhì)量監(jiān)控模型 本節(jié)以某企業(yè)生產(chǎn)制造的再制造發(fā)動機曲軸生產(chǎn)過程為例來驗證所提出方法的有效性。 某再制造企業(yè)生產(chǎn)的發(fā)動機曲軸有5個主軸頸,如圖4所示。 圖4 某再制造曲軸結(jié)構(gòu) 該企業(yè)主要采用三坐標(biāo)測量儀來測量主軸頸的圓度,該類型的測量儀精度為0.9 μm;對于曲軸的直線度,通常使用帶千分表的專用測量平臺進行測量,測量精度為1 μm。針對該企業(yè)連續(xù)生產(chǎn)的15個批次的曲軸,初步整理了各批次曲軸主軸頸圓度和直線度的檢測數(shù)據(jù)總計150組,曲軸制造過程的部分?jǐn)?shù)據(jù)見表1所列。 表1 再制造曲軸頸圓柱度和直線度數(shù)據(jù) 單位:μm 研究發(fā)現(xiàn),該企業(yè)生產(chǎn)的再制造曲軸的徑向跳動合格率較低,其合格率均值為85%,經(jīng)分析影響曲軸徑向跳動的主要因素為曲軸各主軸頸的圓度和曲軸的直線度。因此,本文以曲軸5個主軸頸的圓度和曲軸直線度作為監(jiān)測指標(biāo),對再制造曲軸生產(chǎn)制造過程進行質(zhì)量控制與優(yōu)化。 在再制造過程中,廢舊曲軸的數(shù)量與回收時間不確定,導(dǎo)致收集的數(shù)據(jù)可能不再符合多元正態(tài)分布。各主軸頸以及直線度的正態(tài)分布概率如圖5所示。 由圖5可知,曲軸各個變量均偏離正態(tài)分布,因此傳統(tǒng)的質(zhì)量控制方法使用受到限制。 圖5 曲軸各變量正態(tài)分布性檢驗 為此,本文采用基于DPC-SVDD的質(zhì)量控制方法進行再制造曲軸頸質(zhì)量過程的監(jiān)控。 (1) 利用主成分分析法進行數(shù)據(jù)降維,根據(jù)85%的方差貢獻率確定主元數(shù)量。方差貢獻率解釋見表2所列。由表2可知,前2個主元包含了原始數(shù)據(jù)86.5%的分類信息。因此可以用主元Y1和Y2代替原始信息,主元Y1和Y2合成系數(shù)見表2所列。 (2) 利用DPC聚類算法對得到的二維特征數(shù)據(jù)進行聚類分析。使用DPC算法得到的二維決策圖如圖6所示。由圖6可知,該二維數(shù)據(jù)可自動聚類為2個子類,聚類中心分別為二維決策圖右上方2個點代表的數(shù)據(jù);此外根據(jù)決策圖可知,該數(shù)據(jù)集包含3個異常點,異常點距離正常樣本較遠(yuǎn)且局部密度較大。因此,在訓(xùn)練SVDD超球體的過程中將導(dǎo)致超球體體積過大,在實際過程中增加漏報的概率。故將異常點放入測試樣本集,用來測試分類器的識別率。 表2 方差貢獻率解釋 圖6 二維決策圖 原始SVDD算法和改進后的DPC-SVDD算法的運行結(jié)果如圖7所示。其中:圖7a和圖7b為原始算法訓(xùn)練得到的超球體和相應(yīng)的D2控制圖;圖7c和圖7d為改進后的DPC-SVDD算法的訓(xùn)練結(jié)果。 由圖7的對比結(jié)果可知:改進后的算法分類邊界比較貼近質(zhì)量受控數(shù)據(jù)集且具有更高的分類準(zhǔn)確率,在測試的30組樣本數(shù)據(jù)中存在3個質(zhì)量異常點;而依據(jù)原始算法建立的控制僅對其中2個點(10、13)進行報錯。 圖7 SVDD算法改進前、后對比結(jié)果 對于偏移量較小的數(shù)據(jù)無法做出準(zhǔn)確判斷;在DP-SVDD算法下的DPC控制圖通過綜合比較樣本點到2個圓心的距離可以準(zhǔn)確判斷出全部質(zhì)量異常點,并及時發(fā)出警報,從而監(jiān)測過程失控。 DP-SVDD和SVDD算法的性能比較結(jié)果如圖8所示。其中:ROC曲線的橫坐標(biāo)表示假正類率(FPR);縱坐標(biāo)表示真正類率(TPR)。 圖8 DP-SVDD和SVDD算法的S比較 將模型的每個閾值(FPR,TPR)當(dāng)作坐標(biāo)畫在坐標(biāo)系中即可得到ROC曲線,該曲線下的面積用S表示,當(dāng)S=1時,分類器接近完美。從圖8可以看出,改進后的DP-SVDD算法SDPC=0.990 64,遠(yuǎn)大于SVDD算法的SSVDD=0.840 47。由此可以判斷改進后的DP-SVDD算法對于質(zhì)量異常波動的監(jiān)測能力遠(yuǎn)高于傳統(tǒng)的SVDD算法,在實際的質(zhì)量過程異常監(jiān)控中有著積極的意義。 針對生產(chǎn)過程中由于過程數(shù)據(jù)分布類型未知引起的傳統(tǒng)質(zhì)量控制圖異常檢測精度低的問題,本文提出結(jié)合SVDD和DPC的生產(chǎn)過程質(zhì)量異常檢測方法。首先,利用主成分分析法對質(zhì)量特征數(shù)據(jù)進行特征提取、融合,降低算法的計算量、提高分類準(zhǔn)確率;其次,采用DPC方法根據(jù)樣本點局部密度和相對距離對樣本數(shù)據(jù)進行自動聚類,相較于傳統(tǒng)聚類,本文聚類算法不需要人為確定聚類數(shù)量,同時可以識別出噪點,保留質(zhì)量受控數(shù)據(jù),有利于提高算法準(zhǔn)確率;然后,利用聚類得到的子集訓(xùn)練出相應(yīng)的SVDD模型,根據(jù)超球體圓心A和半徑R2建立DPC控制圖監(jiān)測生產(chǎn)過程;最后,將本文提出的DPC-SVDD方法與SVDD方法應(yīng)用到再制造曲軸質(zhì)量監(jiān)測中,對本文方法的有效性和優(yōu)越性進行比較,結(jié)果表明DPC-SVDD方法可以有效識別制造過程質(zhì)量異常,并且識別速度較快、對質(zhì)量偏移較為敏感。1.2 SVDD缺陷分析
2 改進的DPC-SVDD算法
2.1 DPC算法簡介
2.2 DPC-SVDD算法過程質(zhì)量監(jiān)控模型
3 實例分析
4 結(jié) 論