俞晟
(江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院 江蘇省無錫市 214122)
白光LED 作為節(jié)能,高效的光源已經(jīng)逐步替代傳統(tǒng)的光源走進(jìn)人們?nèi)粘I町?dāng)中,白光LED 發(fā)光原理是利用LED 芯片發(fā)出藍(lán)光,激發(fā)涂覆在芯片表面的紅黃綠熒光粉,藍(lán)光與受激熒光粉發(fā)出的幾種光色混合,最終產(chǎn)生白光[1]。評(píng)價(jià)白光LED 的發(fā)光顏色質(zhì)量的重要指標(biāo)是發(fā)光色度,色度可以通過在CIE(1931)XYZ 坐標(biāo)系中的位置(橫坐標(biāo)CX,縱坐標(biāo)CY)來描述。圖1 為坐標(biāo)系中各個(gè)相關(guān)色溫(CCT)對(duì)應(yīng)的麥克亞當(dāng)橢圓,國際上采用這一系列橢圓規(guī)定各色溫光源的色度允許波動(dòng)范圍[2],麥克亞當(dāng)橢圓有3,5,7 階等不同階數(shù)區(qū)別,階數(shù)越大橢圓面積越大,根據(jù)不同的應(yīng)用需求規(guī)定色度的橢圓階數(shù)大小,圖中所展示為3 階麥克亞當(dāng)橢圓。LED封裝器件最終成品測(cè)量下來的色度坐標(biāo)如果偏出指定的橢圓范圍,則會(huì)被判定成不合格品,對(duì)生產(chǎn)企業(yè)造成直接經(jīng)濟(jì)損失。
圖1:LED 不同相關(guān)色溫的3 階麥克亞當(dāng)橢圓
LED封裝作為LED 光源生產(chǎn)中的重要環(huán)節(jié),很大程度決定了最終光源的發(fā)光質(zhì)量。本文探討對(duì)象為大功率白光LED 器件,其封裝過程中熒光粉涂覆采用霧化噴涂工藝,因熒光粉在透明硅膠溶劑中的濃度不變,影響發(fā)光色度的主要因素有熒光粉硅膠的涂覆量[3-4],另外還有增加引線框架反射率的TiO2 硅膠涂覆量[5],以及器件所使用的藍(lán)光芯片的發(fā)光亮度與主波長。因此通過收集這些關(guān)鍵的材料信息與封裝工藝數(shù)據(jù),并加以充分的分析利用,可以實(shí)現(xiàn)過程中對(duì)最終光源色度的準(zhǔn)確預(yù)測(cè)。LED 的封裝生產(chǎn)周期較長,當(dāng)生產(chǎn)過程中擁有可靠準(zhǔn)確的預(yù)測(cè)手段時(shí),可以及時(shí)預(yù)警異常并采取相應(yīng)的補(bǔ)救措施,避免了后續(xù)大批量不合格品的產(chǎn)生,這對(duì)企業(yè)提升良品率以及保證訂單交付有著重要的意義。
關(guān)于數(shù)據(jù)的分析及預(yù)測(cè)方面,文獻(xiàn)[6,7]提出了一種基于k-means聚類與SVM 回歸的方法,分別應(yīng)用在對(duì)機(jī)場(chǎng)噪聲,光伏發(fā)電功率的預(yù)測(cè)中,通過k 均值算法對(duì)歷史數(shù)據(jù)進(jìn)行聚類,然后在各個(gè)類別上分別訓(xùn)練支持向量機(jī)(SVM),對(duì)比直接使用SVM 模型,預(yù)測(cè)準(zhǔn)確度有了明顯提升。文獻(xiàn)[8]利用高斯混合模型,根據(jù)歷史風(fēng)力輸入和電力輸出數(shù)據(jù),將風(fēng)電場(chǎng)內(nèi)發(fā)電機(jī)組進(jìn)行了分類,選擇代表機(jī)組進(jìn)行回歸訓(xùn)練,提高了預(yù)測(cè)準(zhǔn)確性和時(shí)效性。
目前企業(yè)在LED 的熒光粉涂覆完成后抽樣檢測(cè)半成品色度,對(duì)半成品色度及最終成品色度關(guān)系直接采用神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合,該方法生成的預(yù)測(cè)模型忽視了LED 芯片特征和封裝狀態(tài)的差異,訓(xùn)練后得到的籠統(tǒng)的單個(gè)模型在預(yù)測(cè)準(zhǔn)確性方面有所欠缺。本文采用高斯混合模型(Gaussian mixture model, GMM)對(duì)LED 芯片特征和封裝過程中的工藝數(shù)據(jù)進(jìn)行聚類,首先利用貝葉斯信息準(zhǔn)則(Bayesian information criterion, BIC)判定最優(yōu)聚類個(gè)數(shù),然后通過最大期望(Expectation maximization, EM)算法進(jìn)行聚類,最后依靠反向傳播(Back propagation, BP)神經(jīng)網(wǎng)絡(luò)對(duì)各個(gè)類別進(jìn)行回歸運(yùn)算,最終模型能夠準(zhǔn)確地預(yù)測(cè)白光LED 色度,驗(yàn)證所提方法優(yōu)于直接回歸和k-means 聚類后回歸方法,為LED 色度預(yù)測(cè)提供了有效的思路。
1.1.1 模型理論及實(shí)現(xiàn)算法
高斯混合模型是通過多個(gè)高斯分布函數(shù)的線性疊加來擬合樣本分布,假設(shè)樣本數(shù)據(jù)集合服從k 個(gè)參數(shù)未知的高斯分布,服從相同分布的樣本會(huì)被劃分到一類。本文利用最大期望算法[9]對(duì)高斯混合模型的參數(shù)進(jìn)行估計(jì),求出每個(gè)分布各自的均值和協(xié)方差,具體流程如下。
第一步:初始化k 個(gè)高斯分布各自的均值μj和協(xié)方差∑j,分布的權(quán)重φj初始值設(shè)定為1/k,其中1 ≤j ≤k。
第二步:按照公式(1)和公式(2)估計(jì)每一個(gè)樣本點(diǎn)xi(樣本點(diǎn)數(shù)量為m, i=1,2,…,m,)屬于的j 類高斯分布的概率γi,j,。
式中N(﹒)為概率密度函數(shù);d 為xi的維度。
第三步:按照公式(3),公式(4)和公式(5)更新各高斯分布的參數(shù)μj,∑j,φj。
第四步:重復(fù)第二步和第三步,直到各個(gè)高斯分布參數(shù)收斂。
第五步:按照樣本點(diǎn)概率γi,j的最大值對(duì)樣本點(diǎn)進(jìn)行歸類
本文選取LED 芯片亮度,波長,熒光粉硅膠涂覆量,TiO2硅膠涂覆量,半成品色度坐標(biāo)(CX, CY)這些數(shù)據(jù)的中位值作為各個(gè)封裝批次的特征,共7 個(gè)維度,高斯混合聚類模型將這7 維特征作為輸入數(shù)據(jù)對(duì)各個(gè)封裝批次進(jìn)行分類。
1.1.2 混合模型組數(shù)的確定
基于貝葉斯信息準(zhǔn)則[10]來確定高斯混合分布的分組數(shù)量。BIC值的計(jì)算公式中包含似然函數(shù)項(xiàng)和懲罰因子項(xiàng),公式如下:
式中Ln(L)為樣本點(diǎn)集合的高斯混合模型的極大似然函數(shù);np為混合模型中的參數(shù)個(gè)數(shù);m 是樣本點(diǎn)個(gè)數(shù)。
公式中Ln(L)數(shù)值越大,BIC 值越低,表示模型對(duì)樣本點(diǎn)分布的擬合效果越好,同時(shí)np作為懲罰因子起到防止模型過擬合的作用,因此通過計(jì)算不同組數(shù)的BIC 數(shù)值,優(yōu)先尋找低BIC 值的分組數(shù)量。
廣泛應(yīng)用的k-means 聚類方法是通過計(jì)算樣本點(diǎn)到每一類別中心的歐式距離,然后按照距離最小的原則進(jìn)行類別判定,本文采用k-means 聚類方法同步建立分組模型,與GMM 方法做后續(xù)預(yù)測(cè)結(jié)果的對(duì)比。
k-means 聚類的分組個(gè)數(shù)利用輪廓系數(shù)(Silhouette coefficient,SC)作為評(píng)價(jià)分組合理性的指標(biāo),SC 值公式如下:
式中a(xi)為樣本點(diǎn)xi 與同組內(nèi)其他點(diǎn)距離的平均值;b(xi)為樣本點(diǎn)xi與最相鄰的其他組內(nèi)樣本點(diǎn)距離的平均值。
SC 值的取值范圍為[-1,1],SC 值越大,說明同組樣本相距越近,組間樣本相距越遠(yuǎn),分組效果明顯。因此在使用k-means 聚類選擇分組個(gè)數(shù)時(shí),優(yōu)先尋找高SC 值的組數(shù)。
封裝批次分組完成后,在各組上分別建立預(yù)測(cè)模型,圖2 為先聚類后預(yù)測(cè)的模型建立流程。詳細(xì)步驟如下:
圖2:先聚類的色度坐標(biāo)預(yù)測(cè)流程圖
(1)選取影響發(fā)光色度的關(guān)鍵工藝參數(shù)作為輸入特征,清洗異常數(shù)據(jù),并做數(shù)據(jù)歸一化,減少參數(shù)間數(shù)量級(jí)的差異;
(2)基于BIC 值或SC 值選取最優(yōu)的分組方案,利用聚類算法對(duì)各批次按照特征數(shù)據(jù)進(jìn)行分組;
(3)以熒光粉噴涂完成后(半成品狀態(tài))抽樣檢測(cè)的色度坐標(biāo)作為輸入,分別訓(xùn)練各組的預(yù)測(cè)模型,使用訓(xùn)練完成的模型預(yù)測(cè)最終成品的色度坐標(biāo)。
本文色度預(yù)測(cè)模型通過BP 神經(jīng)網(wǎng)絡(luò)[11]構(gòu)建,BP 神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算
法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,其優(yōu)點(diǎn)就是具有很強(qiáng)的非線性映射能力。神經(jīng)網(wǎng)絡(luò)的隱藏層層數(shù)、各層的神經(jīng)元個(gè)數(shù)可根據(jù)具體情況設(shè)定,并且網(wǎng)絡(luò)結(jié)構(gòu)的差異導(dǎo)致其性能也有所不同。本文通過網(wǎng)格搜索選擇最優(yōu)的隱藏層層數(shù)和隱藏層包含的神經(jīng)元個(gè)數(shù),對(duì)分組后的數(shù)據(jù)分別構(gòu)建預(yù)測(cè)模型。
為了驗(yàn)證模型的有效性,本文共收集白光LED 的4 個(gè)CCT 共653 個(gè)封裝批次的數(shù)據(jù),每批次單顆顆粒的成品測(cè)試數(shù)據(jù)1400 個(gè),半成品抽樣測(cè)試數(shù)據(jù)480 個(gè),芯片亮度波長數(shù)據(jù)1400 個(gè),均按批次合并取中位值。熒光粉涂覆量,TiO2硅膠涂覆量則使用設(shè)備記錄的批次數(shù)據(jù)。將樣本數(shù)據(jù)按照80%,20%的比例拆分為訓(xùn)練集和測(cè)試集。
因?yàn)橄到y(tǒng)和機(jī)臺(tái)記錄故障,通訊異常,或者測(cè)試時(shí)接觸不良的情況,產(chǎn)生了許多非正常的生產(chǎn)數(shù)據(jù),異常數(shù)據(jù)對(duì)于預(yù)測(cè)模型的有效性和準(zhǔn)確性有較大影響,根據(jù)異常數(shù)據(jù)的分布特點(diǎn),使用基于密度的局部異常因子(Local Outlier Factor,LOF)[12]算法對(duì)數(shù)據(jù)進(jìn)行清理,該方法將當(dāng)前點(diǎn)密度明顯小于領(lǐng)域點(diǎn)密度判定為異常點(diǎn),以收集的半成品色度坐標(biāo)為例,使用該方法清理前后的數(shù)據(jù)如圖3所示。
圖3:半成品色度坐標(biāo)數(shù)據(jù)清洗前后
去除異常點(diǎn)后需要將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本文采用0-1 標(biāo)準(zhǔn)化將樣本每個(gè)特征都轉(zhuǎn)換為均值為0 和方差為1 的分布,公式如下:
其中μ 為某一樣本特征的平均值,σ 為標(biāo)準(zhǔn)差。
利用LED 芯片亮度,波長,熒光粉硅膠涂覆量,TiO2硅膠涂覆量,半成品色度坐標(biāo)這些數(shù)據(jù)作為封裝批次的特征,對(duì)各批次進(jìn)行分組。使用EM 算法分別按照GMM 分組個(gè)數(shù)2 到10 時(shí)進(jìn)行聚類,計(jì)算不同分組數(shù)量時(shí)對(duì)應(yīng)的BIC 值,另外作為對(duì)比算法,也計(jì)算了k-means算法按2 到10 組聚類,各種分組數(shù)量下的SC 值。BIC 值和SC 值根據(jù)不同分組個(gè)數(shù)的變化如圖所示。
由圖4可以看到,隨著分組數(shù)量的增加,BIC數(shù)值先降低后升高,在分組個(gè)數(shù)為3 時(shí)達(dá)到最低值2488,而SC 值則是分組個(gè)數(shù)為4 時(shí)達(dá)到最大值0.32.根據(jù)最優(yōu)的聚類數(shù)量的判斷規(guī)則,取BIC值最低時(shí),即分組數(shù)量3 作為GMM 最優(yōu)聚類數(shù)量,取SC 值最高時(shí),即分組數(shù)量4 作為k-means 最優(yōu)聚類數(shù)量。
圖4:GMM 分組的BIC 值和k-means 分組的SC 值
訓(xùn)練集上的封裝批次分組完成后,使用LED 半成品的色度坐標(biāo)和成品色度坐標(biāo)分別作為BP 神經(jīng)網(wǎng)絡(luò)的輸入和輸出,進(jìn)行組內(nèi)訓(xùn)練。在測(cè)試集上使用訓(xùn)練完成后的模型預(yù)測(cè)成品色度坐標(biāo),驗(yàn)證模型的準(zhǔn)確性。實(shí)驗(yàn)選取RMSE(Root Mean Squared Erro,均方根誤差)與R2值作為評(píng)價(jià)模型準(zhǔn)確性的指標(biāo),RMSE 表示開根號(hào)的輸出與目標(biāo)之間平均平方差,值越小則表明仿真得到的模型越精準(zhǔn)。R2值則是對(duì)比預(yù)測(cè)模型與基準(zhǔn)模型(取平均值預(yù)測(cè))好壞的指標(biāo),R2取值從負(fù)無窮到1,數(shù)值越大說明預(yù)測(cè)模型較基準(zhǔn)模型優(yōu)勢(shì)明顯,擬合效果越好。RMSE 值和R 值的計(jì)算公式如公式(9)和公式(10)所示:
以相關(guān)色溫5700K 為例,表1 是按照評(píng)價(jià)指標(biāo)對(duì)比不同模型預(yù)測(cè)結(jié)果,未分組的BP 網(wǎng)絡(luò),GMM 分組和k-means 分組得到色度坐標(biāo)CX 預(yù)測(cè)的RMSE 值分別為0.0013,0.0009 和0.001,可以看到GMM 分組后的預(yù)測(cè)效果最好,較未分組的BP 網(wǎng)絡(luò)和k-means分組預(yù)測(cè)值RMSE 指標(biāo)分別降低了44%和11%,色度坐標(biāo)CY 上分別降低了50%和14%。另外從R2值方面,GMM 分組后色度預(yù)測(cè)結(jié)果R2 值最高,其中CY 預(yù)測(cè)上R2值達(dá)到了0.804,同樣證明了模型的預(yù)測(cè)效果優(yōu)秀。
表1:不同模型的成品CX,CY 預(yù)測(cè)RMSE 值和R2 值對(duì)比
圖5 是使用不同算法預(yù)測(cè)色度坐標(biāo)CXCY 數(shù)值的折線圖對(duì)比,從中也可以看到GMM 分組后的預(yù)測(cè)模型折線更加貼合實(shí)際值,預(yù)測(cè)的準(zhǔn)確度較高。
圖5:各批次成品的CX,CY 預(yù)測(cè)值與實(shí)際值
除了在色溫5700K 上,從其他色溫的預(yù)測(cè)結(jié)果來看,GMM 分組后的預(yù)測(cè)網(wǎng)絡(luò)同樣具有較好的準(zhǔn)確度,另外分別計(jì)算了相關(guān)色溫4000K,5000K, 6500K 上不同預(yù)測(cè)模型的色度RMSE 值,如圖6 折線圖顯示,GMM 分組后的預(yù)測(cè)結(jié)果始終好于未分組和k-means分組后的預(yù)測(cè),而且在5000K 的色度預(yù)測(cè)上最優(yōu),CX 和CY 的RMSE 值較未分組的BP 預(yù)測(cè)結(jié)果降低了21%和53%,準(zhǔn)確性提升明顯。在3000K 和4000K 的CX,CY 預(yù)測(cè)上各算法結(jié)果比較接近,GMM 分組算法稍好于其他算法。因此,可以看到GMM 分組后的預(yù)測(cè)網(wǎng)絡(luò)在各個(gè)色溫上的預(yù)測(cè),具有最好的穩(wěn)定性,適用于各個(gè)相關(guān)色溫的色度預(yù)測(cè)。
由于影響大功率白光LED封裝器件色度的因素較多,如藍(lán)光芯片的波長、亮度,還有熒光粉涂覆量,TiO2硅膠涂覆量等,因此本文在對(duì)LED 色度的預(yù)測(cè)中引入了聚類分析,通過EM 算法來對(duì)LED封裝批次特征數(shù)據(jù)進(jìn)行GMM 聚類,然后分別對(duì)各個(gè)類別進(jìn)行BP 神經(jīng)網(wǎng)絡(luò)回歸計(jì)算,實(shí)驗(yàn)結(jié)果證明該算法可以有效地提高預(yù)測(cè)的精確度。使用RMSE 值和R2值作為評(píng)價(jià)指標(biāo),對(duì)比直接回歸和k-means 聚類后回歸,本文方法在評(píng)價(jià)指標(biāo)上均優(yōu)于這兩種方法。另外應(yīng)用在各個(gè)相關(guān)色溫的色度預(yù)測(cè)上,GMM 聚類預(yù)測(cè)模型也表現(xiàn)出更優(yōu)的準(zhǔn)確性和穩(wěn)定性。本文為白光LED封裝器件色度的準(zhǔn)確預(yù)測(cè)提供了新的思路,后續(xù)可以不斷地將最新樣本數(shù)據(jù)加入模型,使得模型能適應(yīng)變化的生產(chǎn)線狀態(tài),以保持較好的預(yù)測(cè)精度。