李岸達(dá),張 陽,b,劉曉杰,b
(天津商業(yè)大學(xué) a.管理學(xué)院;b管理創(chuàng)新與評價研究中心,天津 300134)
復(fù)雜產(chǎn)品結(jié)構(gòu)復(fù)雜、零部件眾多,其復(fù)雜制造過程包含大量影響產(chǎn)品質(zhì)量的潛在因素(包括過程參數(shù)、零部件尺寸參數(shù)等)。從大量潛在因素中識別顯著影響產(chǎn)品質(zhì)量的關(guān)鍵因素,是復(fù)雜產(chǎn)品質(zhì)量改進(jìn)和控制[1-2]前中的關(guān)鍵步驟。近年來,智能傳感器、智能制造等技術(shù)的應(yīng)用極大降低了制造過程數(shù)據(jù)的收集難度,為識別關(guān)鍵質(zhì)量因素奠定了數(shù)據(jù)基礎(chǔ)[3]。如何構(gòu)建針對大規(guī)模、高維制造過程數(shù)據(jù)的關(guān)鍵質(zhì)量因素識別方法成為近年來質(zhì)量工程領(lǐng)域關(guān)注的熱點問題。
特征(變量)選擇是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的重要降維方法,該方法能夠有效識別影響類標(biāo)簽的關(guān)鍵特征(變量)[4-6]。由于能夠有效處理高維數(shù)據(jù),近年來部分學(xué)者構(gòu)建了基于特征選擇的關(guān)鍵質(zhì)量因素識別方法[7-12]。特征選擇模型可構(gòu)建為最大化特征對類標(biāo)簽預(yù)測性能和最小化特征數(shù)的多目標(biāo)優(yōu)化問題?;谠撍悸罚墨I(xiàn)[10]構(gòu)建了最大化質(zhì)量因素對產(chǎn)品質(zhì)量預(yù)測精度和最小化質(zhì)量因素數(shù)的關(guān)鍵因素識別模型。然而,該模型沒有考慮制造過程數(shù)據(jù)的非平衡性(生產(chǎn)線收集的不同質(zhì)量水平產(chǎn)品的數(shù)量不平衡)。針對此,文獻(xiàn)[11]將識別模型構(gòu)建為最大化分類性能指標(biāo)“G-mean”和最小化質(zhì)量因素數(shù)的優(yōu)化問題,并采用改進(jìn)多目標(biāo)直接搜索(Improved Direct Multisearch, IDMS)算法求解模型。然而,IDMS算法收斂速度較慢,如何針對識別模型構(gòu)建快速高效的多目標(biāo)優(yōu)化算法值得進(jìn)一步研究。
基于分解的多目標(biāo)進(jìn)化算法(Multi-Objective Evolutionary Algorithm Based on Decomposition, MOEA/D)[13]具有收斂速度快、所得非支配解集分布均勻等優(yōu)點。同時,與經(jīng)典的多目標(biāo)進(jìn)化算法NSGA-II相比,其時間復(fù)雜度更低。因此,構(gòu)建基于MOEA/D的復(fù)雜制過程關(guān)鍵質(zhì)量因素識別方法值得研究。
基于以上分析,本文擬構(gòu)建基于改進(jìn)MOEA/D算法的關(guān)鍵質(zhì)量因素識別方法。該方法采用了針對非平衡制造過程數(shù)據(jù)的關(guān)鍵質(zhì)量因素識別模型,并采用改進(jìn)MOEA/D算法求解模型。改進(jìn)MOEA/D采用了一種新的基于信息增益(Information Gain, IG)的種群初始化方法和一種平衡的變異方法,以改進(jìn)算法針對特征選擇問題的優(yōu)化性能。
假定DM×(D+1)為生產(chǎn)線收集的一組復(fù)雜制造過程數(shù)據(jù)。該數(shù)據(jù)包含M個產(chǎn)品(樣本)、D個質(zhì)量因素(特征)Q={q1,q2,...,qD},以及一個質(zhì)量水平變量(類標(biāo)簽)C∈{-1,+1}。其中“-1”和“+1”分別表示多類產(chǎn)品(如一般質(zhì)量/合格)和少類產(chǎn)品(如高質(zhì)量/不合格)對應(yīng)的質(zhì)量。關(guān)鍵質(zhì)量因素識別可以定義為選擇一個特征子集Qs?Q,以最大化Qs對產(chǎn)品質(zhì)量的預(yù)測效果和最小化質(zhì)量因素數(shù)的多目標(biāo)特征選擇問題。通常,制造過程數(shù)據(jù)是非平衡的。因此,本文采用文獻(xiàn)[11]所用G-mean指標(biāo)度量Qs對產(chǎn)品質(zhì)量的預(yù)測性能。在二分類問題中,敏感性(Sensitivity)和特異性(Specificity)分別衡量對少類樣本和多類樣本的分類效果。G-mean指標(biāo)為敏感性指標(biāo)和特異性指標(biāo)的幾何平均,定義如下:
(1)
由于低敏感性或低特異性都會顯著降低G-mean值,因此該指標(biāo)能夠有效衡量非平衡數(shù)據(jù)條件下的產(chǎn)品質(zhì)量預(yù)測性能。
基于以上分析,本文將關(guān)鍵質(zhì)量因素識別構(gòu)建為最大化G-mean指標(biāo)和最小化質(zhì)量因素數(shù)的多目標(biāo)優(yōu)化問題,具體如下所示:
minf1=1-G-mean(Qs)
minf2=|Qs|/D
s.t.Qs?Q,Qs≠?
(2)
其中,G-mean(Qs)表示質(zhì)量因素集Qs所得G-mean指標(biāo)值,|Qs|/D表示所選質(zhì)量因素數(shù)占所有質(zhì)量因素的比例。在對式(2)進(jìn)行優(yōu)化時,本文采用特征選擇包裹(Wrapper)框架中常用的內(nèi)部5折交叉驗證法[5]估計G-mean(Qs)的值。
本文提出改進(jìn)MOEA/D算法求解式(2)所示識別模型。改進(jìn)MOEA/D算法流程如圖1所示。MOEA/D的總體思路是將原多目標(biāo)優(yōu)化問題,分解為N個子單目標(biāo)優(yōu)化問題gte(X|λi,z)(i=1,...,N),各子優(yōu)化問題由權(quán)重向量λi和理想點z決定,通過優(yōu)化子問題,群體在迭代過程中能夠不斷進(jìn)化。根據(jù)圖1,算法總體步驟如下:首先,初始化N個個體(解),并基于初始群體得到一組初始非支配解Ω。其次,針對每個權(quán)重向量λi計算規(guī)模為K的權(quán)重索引集合Bi,該集合確定了與該權(quán)重向量最近的K個權(quán)重向量和對應(yīng)個體。接著,在算法迭代過程中,從各集合Bi所確定的個體中,選取兩個個體并基于遺傳算子(交叉、變異)產(chǎn)生新的個體X′。新個體X′能夠?qū)硐朦cZ、集合Bi確定的一組個體、以及非支配解集Ω進(jìn)行更新。其中,對Bi確定的個體Xj(j∈Bi)的更新基于子優(yōu)化問題gte(X|λj,z)。若新個體X′取得更小的目標(biāo)函數(shù)值,則用X′替換當(dāng)前個體Xj。 最后,在算法達(dá)到迭代次數(shù)T之后,輸出最終非支配解集Ω。
與傳統(tǒng)MOEA/D相比,改進(jìn)MOEA/D使用了一種基于信息增益的群體初始化方法,該方法能夠基于信息增益得到更高質(zhì)量的初始群體。此外,針對關(guān)鍵質(zhì)量因素識別問題,改進(jìn)MOEA/D采用一種平衡變異算子,以提高算法過濾非關(guān)鍵質(zhì)量因素的效率。
輸入:群體規(guī)模N,迭代次數(shù)T,N個均勻分布的權(quán)重向量λ1,…,λN,近鄰權(quán)重向量規(guī)模K;
輸出:非支配解集Ω;
1 初始化群體X1,X2,…,XN并計算目標(biāo)函數(shù)值(f1(Xi),f2(Xi)),i=1,2,…,N,將群體中的非支配解添加到Ω,;
2 計算權(quán)重向量之間的距離,針對每個權(quán)重向量λi,令Bi={ii,…,ik},其中λi1,…,λik為與該權(quán)重向量最近的K個向量;
4 fori←1,…,Ndo
5 隨機(jī)選擇兩個個體Xia和Xib(ia∈Bi,ib∈Bi)并使用遺傳算子產(chǎn)生新的解X′;
6 更新理想點z=(z1,z2),z1=min(z1,f1(X′)),z2=min(z2,f2(X′));
7 foreachj∈Bido
11 end
12 使用X′對Ω進(jìn)行更新;
13 end
14 return 非支配解集Ω;
圖1 改進(jìn)MOEA/D算法流程
令λ1,...,λN為N個權(quán)重向量,z=(z1,z2)為理想點,則切比雪夫法(Tchebycheff Approach)將多目標(biāo)優(yōu)化問題分解為N個子單目標(biāo)優(yōu)化問題。對于第j個單目標(biāo)優(yōu)化問題,其定義如下:
(3)
其中,X表示解,λj ,o表示權(quán)重向量λj的第o個分量,fo表示原多目標(biāo)優(yōu)化問題中的第o個目標(biāo)函數(shù)。
采用二進(jìn)制編碼,將Qs編碼為一個D維向量X=(x1,x2,...,xD),其中D為原質(zhì)量因素數(shù)。X中的每個元素xi(i=1,...,D)取值為1或0,其中1表示第i個質(zhì)量因素qi被選擇,0表示第i個質(zhì)量因素未被選擇。
信息增益是基于信息熵理論的一種重要指標(biāo),該指標(biāo)能夠度量兩個隨機(jī)變量之間的相關(guān)程度[14]。假定X和Y為兩個隨機(jī)變量,則給定Y之后X的信息增益定義為:
(4)
其中,xi和yj為隨機(jī)變量X和Y的觀測值。式(4)前一項表示X的信息熵,后一項表示給定Y后的條件信息熵,信息增益被定義為兩者之差。
令式(4)中的X和Y分別為質(zhì)量因素qi和質(zhì)量水平變量C,則可以計算每個質(zhì)量因素給定質(zhì)量水平變量后的信息增益IG(qi,C)。因此,信息增益能夠度量質(zhì)量因素與產(chǎn)品質(zhì)量水平的相關(guān)程度?;诖耍疚奶岢龌谛畔⒃鲆娴娜后w初始化方法。該方法的思路是基于信息增益值初始化解X=(x1,...,xD)中的xi(i=1,...,D)。若IG(qi,C)較大則以較大概率初始化xi為1,反之亦然。該初始化方法具體步驟如下。
首先,計算各質(zhì)量因素的信息增益IG(qi,C)(i=1,...,D)。接著,采用最大最小歸一化方法將各因素的信息增益值轉(zhuǎn)換為0~1之間的權(quán)重值wi(i=1,...,D)。再次,將各權(quán)重值轉(zhuǎn)化為取值為[βl,βu]的初始化概率值pi,定義如下:
pi=βl+wi(βu-βl)
(5)
最后,以概率pi初始化xi為1(否則為0)。
采用以上方法,MOEA/D中個體X的每個元素不再以0.5的概率被設(shè)置為1或0。擁有更高信息增益的元素能夠以更高概率設(shè)置為1。該設(shè)置有助于提高初始群體的質(zhì)量,進(jìn)而提高算法收斂速度。參照分位數(shù)的劃分規(guī)則,本文設(shè)置 [βl,βu]=[1/4,3/4]。另外,群體多樣性也是影響 MOEA/D性能的關(guān)鍵要素。為了在提高初始群體質(zhì)量的同時保證群體多樣性,群體中N/2個體基于信息增益方法初始化,其他個體仍然采用傳統(tǒng)隨機(jī)初始化的策略。
MOEA/D采用遺傳算子產(chǎn)生新的個體。遺傳算子包括交叉算子和變異算子。改進(jìn)MOEA/D中仍采用常用的單點交叉算子。傳統(tǒng)變異算子中,個體中每一元素以相同概率pc隨機(jī)進(jìn)行變異,如果該元素當(dāng)前為1,則變異為0,反之亦然。然而,當(dāng)個體中取值為0的元素多于取值為1元素時,傳統(tǒng)變異算子會傾向于將更多0變異為1,導(dǎo)致個體選擇質(zhì)量因素數(shù)的增加。這種趨勢不利于算法高效過濾非關(guān)鍵質(zhì)量因素。
針對以上問題,本文提出平衡變異算子用于改進(jìn)MOEA/D,該變異算子流程如下。給定個體X=(x1,...,xD),ρ1和ρ0為兩個集合,分別存儲X中取值為1和取值為0的元素序列號,即xi=1(?i∈ρ1),xj=0(?j∈ρ0)。平衡變異算子首先以概率pc確定個體是否變異。如果變異,則以0.5的概率從集合ρ1或ρ0選擇元素進(jìn)行變異,將個體變異為Xm,定義如下:
(6)
其中,r為[0,1]之間的隨機(jī)數(shù),i和j為從ρ1和ρ0隨機(jī)選擇的兩個值??梢钥吹剑谄胶庾儺愃阕樱瑐€體元素“由0變異為1”和“由1變異為0”的概率是相等的,總體上該變異算子能夠保證群體中的解更加平穩(wěn)變異,能夠解決傳統(tǒng)變異算子的缺點。
選取3組常用復(fù)雜高維制造過程數(shù)據(jù)驗證改進(jìn)MOEA/D,分別為SPIRA、LATEX和ADPN[7, 10]。3組數(shù)據(jù)的具體信息如表1所示。同時,選取5個特征選擇算法作為對比方法,包括NSPSOFS[6]、CMDPSOFS[6]、NSGAII-IPM[10]、SFS[5]、SBS[5]。SFS和SBS為基于序列向前和向后搜索的經(jīng)典特征選擇算法。NSPSOFS和CMDPSOFS是最近提出的基于多目標(biāo)粒子群優(yōu)化的特征選擇算法。NSGAII-IPM為近期提出的基于改進(jìn)NSGA-II的關(guān)鍵質(zhì)量因素識別算法。該算法在用NSGAII識別出一組非支配解之后,基于理想點法(Ideal Point Method, IPM)選擇最終解。為了便于比較,改進(jìn)MOEA/D、NSPSOFS和CMDPSOFS同樣采用IPM選擇最終解(關(guān)鍵質(zhì)量因素集)。改進(jìn)MOEA/D、NSPSOFS、CMDPSOFS和NSGAII-IPM中使用相同的群體規(guī)模N=100和迭代次數(shù)T=100以保證實驗公平性。改進(jìn)MOEA/D采用的交叉和變異概率為pc=pm=0.9,參數(shù)K=10[13]。SFS和SBS使用Weka[15]數(shù)據(jù)挖掘工具中的默認(rèn)設(shè)置。NSPSOFS、CMDPSOFS和NSGAII-IPM中的其他設(shè)置與原文獻(xiàn)保持一致。
表1 數(shù)據(jù)集信息
采用分層10折[16]交叉驗證法進(jìn)行實驗。該方法基于原數(shù)據(jù)集生成10對訓(xùn)練集(Training Set)和測試集(Test Set)。各特征選擇算法基于訓(xùn)練集識別關(guān)鍵質(zhì)量因素,所識別質(zhì)量因素對測試集中產(chǎn)品質(zhì)量的預(yù)測效果可以用于驗證算法性能。重復(fù)3次10折交叉驗證以產(chǎn)生30組實驗結(jié)果,30組實驗的平均結(jié)果用于比較算法性能。所有特征選擇算法使用一種簡單、高效的分類器——樸素貝葉斯[17]。實驗所用設(shè)備為一臺具有3.6 GHz的CPU和16 GB內(nèi)存的個人計算機(jī)。SFS、SBS和樸素貝葉斯分類器從Weka工具調(diào)用,其他算法在MATLAB中實現(xiàn)。采用三類指標(biāo)驗證各算法有效性,分別為預(yù)測性能指標(biāo)、特征過濾性能指標(biāo)和運行時間指標(biāo)。預(yù)測性能指標(biāo)采用分類精度、敏感性和特異性綜合度量所識別關(guān)鍵質(zhì)量因素對產(chǎn)品質(zhì)量的預(yù)測性能;特征過濾性能指標(biāo)采用所選質(zhì)量因素數(shù);運行時間指標(biāo)能夠反映各算法的時間復(fù)雜度。
表2所示為各算法識別關(guān)鍵質(zhì)量因素基于測試集所得的分類精度結(jié)果,平均行所示為各算法在三個數(shù)據(jù)集的平均結(jié)果??梢钥吹?,在SPIRA數(shù)據(jù)集SFS得到最高分類精度82.81%,改進(jìn)MOEA/D得到略低于SFS的分類精度79.64%,其他對比算法所得結(jié)果都低于改進(jìn)MOEA/D。在LATEX和ADPN數(shù)據(jù)集,改進(jìn)MOEA/D能夠得到高于其他各算法的分類精度,分別為80.93%和81.40%。平均結(jié)果同樣表明MOEA/D得到高于對比算法的分類精度結(jié)果。綜合來看,改進(jìn)MOEA/D能夠取得不錯分類精度結(jié)果。
表3和表4所示為各算法所得敏感性、特異性結(jié)果。敏感性和特異性分別反映質(zhì)量因素對少數(shù)的“高質(zhì)量”產(chǎn)品和多數(shù)的“一般質(zhì)量”產(chǎn)品質(zhì)量的預(yù)測效果。根據(jù)表3,在SPIRA數(shù)據(jù)集,改進(jìn)MOEA/D(68.00%)獲得略低于SFS(74.00%)和高于其他算法的敏感性精度。在LATEX和ADPN數(shù)據(jù)集,改進(jìn)MOEA/D所得敏感性精度顯著高于對比算法。此外,改進(jìn)MOEA/D得到高于對比算法的平均敏感性結(jié)果。根據(jù)表4,盡管改進(jìn)MOEA/D在三個數(shù)據(jù)集都未能得到最高特異性精度,但總體能夠得到較高水平的特異性結(jié)果。此外,改進(jìn)MOEA/D得到83.58%的平均特異性精度,略低于NSPSOFS取得的最佳結(jié)果86.64%。綜合來看,改進(jìn)MOEA/D能夠取得顯著高于對比算法的敏感性結(jié)果和接近對比算法的特異性結(jié)果。這表明改進(jìn)MOEA/D顯著提高了對少數(shù)“高質(zhì)量”產(chǎn)品的預(yù)測效果,意味著其能夠更為準(zhǔn)確識別關(guān)鍵質(zhì)量因素。
表2 各算法所得分類精度結(jié)果(%)
表3 各算法所得敏感性結(jié)果(%)
表4 各算法所得特異性結(jié)果(%)
表5所示為各算法30次實驗所得平均關(guān)鍵質(zhì)量因素數(shù)??梢钥吹?,在SPIRA數(shù)據(jù)集改進(jìn)MOEA/D識別了4.1個質(zhì)量因素,略多于 NSGAII-IPM(3.6)和SFS(3.5)。在LATEX和ADPN數(shù)據(jù)集,改進(jìn)MOEA/D分別識別4.5和2.4個關(guān)鍵質(zhì)量因素,少于各對比算法。綜合來看,改進(jìn)MOEA/D在三個數(shù)據(jù)集能夠得到較少質(zhì)量因素,表明該算法能夠有效過濾無關(guān)質(zhì)量因素。
表6列出了各算法30次實驗的平均CPU運行時間。綜合來看,SFS整體上需要最少的運行時間,而SBS所需運行時間顯著多于其他算法。這與SFS和SBS的序列向前、向后搜索策略有關(guān)。由于搜索過程中SFS逐步正向添加質(zhì)量因素,算法運行過程中所需評估的質(zhì)量因素集通常較小,這就明顯降低了質(zhì)量因素重要性評估過程所需時間。而SBS需從完整的質(zhì)量因素集開始逐步剔除因素,因而在運行過程中所需評估的質(zhì)量因素集通常明顯大于其他算法,導(dǎo)致需要最多運行時間。比較基于多目標(biāo)優(yōu)化策略的各識別算法,改進(jìn)MOEA/D的運行時間顯著低于NSPSOFS、CMDPSOFS和NSGAII-IPM,表明了其具有較好的時間效率。
表5 各算法所識別關(guān)鍵質(zhì)量因素數(shù)
表6 各算法CPU運行時間(s)
綜上所述,改進(jìn)MOEA/D能夠有效針對非平衡制造過程數(shù)據(jù)識別關(guān)鍵質(zhì)量因素。算法在高效過濾質(zhì)量因素的同時,獲得了高水平的產(chǎn)品質(zhì)量預(yù)測效果。同時,實驗結(jié)果也表明改進(jìn)MOEA/D具有不錯的時間復(fù)雜度。
本節(jié)將傳統(tǒng)MOEA/D應(yīng)用于式(2)所定義關(guān)鍵質(zhì)量因素識別問題,對比改進(jìn)MOEA/D和傳統(tǒng)MOEA/D的優(yōu)化性能。對比實驗仍采用表1所示數(shù)據(jù)集。兩個算法在30次實驗中所獲得的非支配解集被用來進(jìn)行性能對比。性能指標(biāo)選用逆世代距離(Inverted Generational Distance, IGD)和超體積(Hypervolume, HV)[18]。IGD越小越好,HV越大越好。
表7所示為改進(jìn)MOEA/D與傳統(tǒng)MOEA/D在30次實驗中所得平均IGD和HV結(jié)果??梢钥吹?,改進(jìn)MOEA/D在三個數(shù)據(jù)集都能得到比傳統(tǒng)MOEA/D更低的IGD值。同時,改進(jìn)MOEA/D在三個數(shù)據(jù)集得到比傳統(tǒng)MOEA/D更高的HV值。以上結(jié)果表明改進(jìn)MOEA/D同時獲得更好IGD和HV結(jié)果。因此,針對所提多目標(biāo)關(guān)鍵質(zhì)量識別模型,改進(jìn)MOEA/D具有比傳統(tǒng)MOEA/D更好的優(yōu)化性能。
表7 改進(jìn)與傳統(tǒng)MOEA/D算法優(yōu)化性能對比
識別復(fù)雜制造過程中影響產(chǎn)品質(zhì)量的關(guān)鍵因素是質(zhì)量控制和改進(jìn)前的關(guān)鍵步驟。本文構(gòu)建了針對非平衡制造過程數(shù)據(jù)的關(guān)鍵質(zhì)量因素識別模型,并提出多目標(biāo)優(yōu)化算法“改進(jìn)MOEA/D”求解模型。實驗結(jié)果表明所提改進(jìn)MOEA/D能夠有效識別關(guān)鍵質(zhì)量因素,同時算法具有較低時間復(fù)雜度。進(jìn)一步性能分析表明改進(jìn)MOEA/D具有比傳統(tǒng)MOEA/D更佳的優(yōu)化性能。實際制造過程反映產(chǎn)品質(zhì)量的變量可能為連續(xù)變量。因此,針對輸出為連續(xù)質(zhì)量水平變量的制造過程,構(gòu)建關(guān)鍵質(zhì)量因素識別方法是未來研究方向。