林 佳,王海明,郭強生,劉曉斌,周 丹
(中國電子科技集團公司第四十五研究所,北京 100176)
晶圓劃片過程中的任何異常都可能導(dǎo)致劃切好的裸片表面產(chǎn)生缺陷。準確識別裸片表面的各種缺陷模式,可幫助發(fā)現(xiàn)和調(diào)整在線劃片過程中的異常因素,以降低廢品率,避免因大批量裸片表面缺陷而造成巨大的成本損失[1]。
基于概率統(tǒng)計模型的方法在晶圓和裸片表面缺陷檢測中被廣泛應(yīng)用[2-4]。這些方法主要對表面缺陷的模式進行統(tǒng)計分析,雖能夠檢測出缺陷的形狀,但無法有效分類出缺陷的模式。隨著機器學(xué)習(xí)研究的深入,隱馬爾科夫[5]和神經(jīng)網(wǎng)絡(luò)[6-8]等方法被越來越多的應(yīng)用于晶圓和裸片表面缺陷檢測。這些常用的模式識別方法都需要大量的訓(xùn)練樣本來訓(xùn)練分類器。
為解決上述問題,本文提出了基于線性判別分析(Linear Discriminant Analysis,LDA)和支持向量機 (Support Vector Machine,SVM)的在線檢測算法。為了突出裸片表面的模式特征,該算法首先使用高斯濾波方法對裸片表面圖像進行濾噪處理。然后,使用Hu不變矩和方向梯度直方圖(Histogram of Oriented Gradients,HOG)等高維特征來表達裸片表面缺陷的模式信息。接著,采用LDA方法消除特征中的冗余信息,獲得能夠準確表達裸片表面缺陷模式的低維特征。接著,離線構(gòu)建正常裸片表面模式的高斯混合模型 (Gaussian Mixture Model,GMM)和各種表面缺陷模式的SVMs。最后,在線檢測時,使用GMM判斷是否存在缺陷,并使用K最近鄰(K Nearest Neighbor,KNN)算法分類缺陷的具體模式。通過與現(xiàn)有方法進行實驗對比,證明了提出方法的準確性和實時性。
提出的算法包括離線建模和在線檢測兩個階段。
(1)使用高斯濾波對訓(xùn)練圖像進行濾噪。訓(xùn)練圖像包含正常的裸片表面圖像和各種缺陷模式的裸片表面圖像。(2)提取裸片表面缺陷的Hu不變矩和HOG等高維特征數(shù)據(jù)。(3)采用LDA算法對高維特征進行降維,得到低維特征。(4)分別構(gòu)建正常裸片表面模式的GMM和各種裸片表面缺陷模式的SVMs。
(1)按1.1中步驟(1)-(3)來處理在線生產(chǎn)時采集的裸片表面圖像。(2)使用1.1步驟(4)中已經(jīng)學(xué)習(xí)好的GMM判斷晶圓表面圖像中是否存在已學(xué)習(xí)的缺陷模式。(3)如果存在缺陷,則采用已學(xué)習(xí)的SVMs,并結(jié)合KNN算法判定其具體的缺陷模式。
高斯濾波算法通過適當加大濾波窗口中心點的權(quán)值來減少濾波處理造成的圖像模糊[9]。隨著距離中心點的距離增大,權(quán)值迅速減小,從而可以確保中心點更接近于與它距離更近的點[9]。大小為(2ω+1)×(2ω+1)的濾波模板 M(x,y)的定義如式(1)所示:
其中,ω為濾波窗口半徑;(x,y)為時刻t采集的圖像It的像素點的坐標;方差為σ。實際進行高斯濾波時,ω和σ都是固定的,也就是對于所有像素點都使用同一個濾波模板。ω和σ的取值不同,濾波效果也會不同,根據(jù)實驗經(jīng)驗,一般設(shè)ω=5,σ=0.8。
提出方法Hu不變矩和HOG特征向量來表征裸片表面缺陷的模式。Hu不變矩特征向量有7維,其描述了目標的形狀。HOG特征向量的維數(shù)從幾十到幾百維不等,由細胞單元大小γ和梯度方向分組數(shù)η決定。它使用梯度和邊緣方向密度分布描述了目標的表觀和形狀。
特征的維數(shù)過高會增加分類器學(xué)習(xí)的計算量和復(fù)雜度,給學(xué)習(xí)和分類缺陷模式帶來“維度災(zāi)難”。實際上維數(shù)過高的特征對于分類性能也會造成負面影響[9]?;贔isher準則的LDA算法能夠有效提取高維特征中最具判別力的低維數(shù)據(jù)信息。LDA通過選擇類間離散度和類內(nèi)離散度的比值最大的低維特征,使同一模式的缺陷樣本聚集在一起,不同模式的缺陷樣本盡量分開[10]。
假設(shè)有N種缺陷模式,樣本的類內(nèi)散布矩陣Sw和類間散布矩陣Sb可以表示為:
式中,K表示樣本總數(shù);Ki表示第i種缺陷模式的特征數(shù)量;表示第i種缺陷模式的特征均值表示第i種缺陷模式的第j個特征表示所有特征的均值。
Fisher準則的目標函數(shù)定義為:
J(W)將不同模式的Sb和Sw結(jié)合在一起,取極大化J(W)的矩陣Wfld作為投影方向。其物理意義是:特征在Wfld上投影后,類間離散度和類內(nèi)離散度之比達到最大[10]。
在離線建模階段建立正常裸片表面的模型GMM,并對現(xiàn)有的N種裸片表面缺陷分別學(xué)習(xí)SVM模型,建模時采用降維后的特征。
GMM是用高斯概率密度函數(shù)精確量化數(shù)據(jù)混合密度分布的模型。設(shè)d維隨機變量H=[H1,...,Hd]服從有限個正態(tài)分布,h=[h1,...,hd]為H的一組樣本,令其中一個樣本h的概率密度函數(shù)為[11]:
其中,L是GMM包含的高斯分量的個數(shù)。πl(wèi)是第 l個概率密度函數(shù)pl(h|θl)的權(quán)重。θl=(μl,Sl),μl是期望,Sl是協(xié)方差矩陣。參數(shù)集定義為 φ =(π1,...,πl(wèi);θ1,...,θl)。L 通過貝葉斯信息準則確定,期望最大算法被用來估計參數(shù)φ。建立正常裸片表面的GMM時,在整個裸片表面圖像內(nèi)提取特征。
SVM以結(jié)構(gòu)化風(fēng)險最小化為原則,兼顧訓(xùn)練誤差(經(jīng)驗風(fēng)險)與測試誤差(期望風(fēng)險)的最小化[9]。給定訓(xùn)練特征樣本(x1,y1),…,(xq,yq),…,(xQ,yQ),xq為d維特征向量,類標簽yq∈{-1,1}[9]。要對兩類樣本進行分類,目標就是根據(jù)訓(xùn)練樣本尋找具有最大分類間隔的分割超平面。超平面方程為式:
其中,xt為測試樣本特征,w為權(quán)矢量,b為偏差項。
對于線性可分的二分類問題,最優(yōu)分類函數(shù)如式(7)所示,
其中,aq為拉個朗日系數(shù),X為某類模式的全部訓(xùn)練特征。aq根據(jù)文獻[9]中的方法求解。
對于線性不可分的情況,可以通過非線性變換將其轉(zhuǎn)化為某個高維空間中的線性問題,在變換空間求得最佳分離超平面[9]。此時的最優(yōu)分類函數(shù)為:
其中,ψ代表非線性映射。由于非支持向量的aq為 0,所以式(8)可以寫為式(9),
其中,SV為支持向量的集合。式(9)就是SVM方法確定的最終非線性分類的決策函數(shù)。aq同樣根據(jù)文獻[9]中的方法進行求解。
在線檢測階段,采用正常裸片表面模式的GMM判斷It中是否存在缺陷,選取式(5)的負對數(shù)似然概率作為GMM輸出。如果存在,則用N種缺陷的SVM模型分別進行分類,并計算相應(yīng)的分類分數(shù),接著采用KNN算法分類缺陷的具體模式。
實驗采用生產(chǎn)過程中采集的裸片表面圖像數(shù)據(jù)集來驗證提出方法的準確性和實時性。數(shù)據(jù)集包含7 000幅已標記缺陷模式的裸片表面圖像樣本,其中 Center、Donut、Local、Edge-local和 Edgering等5種缺陷模式各1 000幅。數(shù)據(jù)集還包含2 000幅正常模式 (Normal)的裸片表面圖像樣本。將文獻[1]中進行晶圓表面缺陷檢測的算法應(yīng)用于裸片表面缺陷檢測,與提出算法進行對比實驗。
離線建模階段隨機選取2 100幅裸片表面圖像樣本,每種表面缺陷模式選300個訓(xùn)練樣本,正常晶圓表面模式選600個訓(xùn)練樣本。在線檢測階段使用剩余的4 900幅裸片表面圖像樣本,即每種表面缺陷模式有700個測試樣本,正常裸片表面模式有1 400個測試樣本。學(xué)習(xí)某類缺陷模式的SVM時,該類缺陷模式的訓(xùn)練樣本作為正樣本,標注為yq=1。其余缺陷模式和正常裸片表面模式的訓(xùn)練樣本作為負樣本,標注為yq=-1。
首先驗證提出方法檢測裸片表面是否存在缺陷的準確性,結(jié)果如表1所示。提出方法在判斷Center、Edge-ring、Edge-local和 Local這 4 種缺陷模式的測試樣本中是否存在缺陷的準確率要高于文獻[1]的方法。提出方法將較多的Nomal模式的裸片表面圖像錯誤地判斷為包含缺陷。采集裸片表面圖像時,由于機器視覺硬件系統(tǒng)的問題,圖像中會包含噪音,導(dǎo)致一些正常裸片表面也會錯誤判定為存在缺陷。根據(jù)實驗結(jié)果,提出方法的總體檢測準確度要高于文獻[1]方法。提出方法的檢測準確率為98.04%,文獻[1]方法的準確率為97.78%。
表1 檢測有無裸片表面缺陷的準確率對比
接著驗證提出方法檢測裸片表面缺陷的具體模式的準確性,結(jié)果如表2所示。通過對比可以發(fā)現(xiàn),提出方法在所有測試樣本中的平均準確率為88.11%,高于文獻[1]的平均準確率86.26%。提出方法的準確率滿足裸片表面缺陷檢測的需要。將提出方法錯誤判定為包含表面缺陷的13個正常裸片樣本進行具體缺陷模式的檢測,其中5個樣本被識別為Edge-ring缺陷模式,8個樣本被識別為Local缺陷模式。
表2 裸片表面缺陷模式的檢測準確率對比
本實驗在4 900幅測試樣本上對比了提出算法和文獻[1]方法,進一步驗證了提出算法的實時性。實驗所用的計算機配置為:Windows10、CPU Intel?CoreTMi7-4700MQ、2.4 GHz、RAM 8 GB。開發(fā)軟件為Matlab R2016a。文獻[1]方法平均每幀的檢測時間為57.3ms,比提出方法平均高了12.6 ms。實驗結(jié)果表明提出方法具有較好的實時性,其檢測效率能夠滿足在線檢測裸片表面缺陷的要求。
本文針對晶圓劃片后檢測裸片表面缺陷的要求,提出了一種基于LDA和SVM的在線檢測算法。首先,使用高斯濾波算法以消除劃片過程中的隨機因素引起的噪聲。然后,提取裸片表面的Hu不變矩和HOG特征來表征裸片表面模式,并采用LDA算法對這特征進行降維。接著,建立正常裸片表面的GMM和各種裸片表面缺陷的SVMs。最后,使用已學(xué)習(xí)的GMM判斷是否存在缺陷,使用已學(xué)習(xí)的SVMs和KNN算法判斷缺陷的具體模式。實驗結(jié)果表明,提出方法實現(xiàn)了裸片表面缺陷的準確與快速檢測。后續(xù)工作將深入研究能更好地表征裸片表面缺陷模式的特征提取方法,并推進研究成果在晶圓劃片中的實際應(yīng)用。
參考文獻:
[1]吳斌,盧笑蕾,余建波.晶圓表面缺陷模式的在線探測與自適應(yīng)識別研究[J].計算機工程與應(yīng)用,2016,52(17):261-265+270.
[2]Hess C,Weiland LH.Extraction ofwafer-leveldefectdensity distributions to improve yield prediction[J].IEEE Transactions on Semiconductor Manufacturing,1999,12(2):175-183.
[3]Hwang JY,Kuo W.Model-based clustering for integrated circuit yield enhancement[J].European Journal of Operational Research,2007,178(1):143-153.
[4]Yuan T,Kuo W.A model-based clustering approach to the recognition of the spatial defect patterns produced during semiconductor fabrication[J].IIE Transactions,2007,40(2):93-101.
[5]Friedman D J,Hansen M H,Nair V N,et al.Model-free estimation of defect clustering in integrated circuit fabrication[J].IEEE Transactions on Semiconductor Manufacturing,1997,10(3):344-359.
[6]曾臻,戴曙光,穆平安.基于神經(jīng)網(wǎng)絡(luò)的晶圓缺陷分類系統(tǒng)[C].第八屆工業(yè)儀表與自動化學(xué)術(shù)會議,上海,2007,364-369.
[7]謝飛.基于計算機視覺的自動光學(xué)檢測關(guān)鍵技術(shù)與應(yīng)用研究[D].南京:南京大學(xué),2013.
[8]C.Y.Chang,C.Li,J.W.Chang,et al.An Unsupervised Neural Network Approach for Automatic Semiconductor Wafer Defect Inspection[J].Expert Systems with Applications,2009,36(1):950-958.
[9]張錚,徐超,任淑霞,等.數(shù)字圖像處理與機器視覺[M].北京:人民郵電出版社,2015.
[10]尹洪濤,付平,沙學(xué)軍.基于DCT和線性判別分析的人臉識別[J].電子學(xué)報,2009,37(10):2211-2214.
[11]余建波,盧笑蕾,宗衛(wèi)周.基于局部與非局部線性判別分析和高斯混合模型動態(tài)集成的晶圓表面缺陷探測與識別[J].自動化學(xué)報,2016,42(1):47-59.