王雪瑩 戴亨瑋 張曉茹 張 喆 夏勁彪
(1、中國石油大學(北京)經(jīng)濟管理學院,北京 102249 2、西南大學計算機與信息科學學院軟件學院,重慶 400700 3、桂林理工大學商學院,廣西 桂林 541004 4、桂林理工大學信息科學與工程學院,廣西 桂林 541004)
物質(zhì)存在的形式多種多樣,固體、液體、氣體、等離子體等等。我們通常把介于導體和絕緣體之間的材料稱為半導體。與導體和絕緣體相比,半導體材料的發(fā)現(xiàn)是最晚的,直到20 世紀30 年代,當材料的提純技術改進以后,半導體的存在才真正被學術界認可。無論從科技或是經(jīng)濟發(fā)展的角度來看,半導體的重要性都是非常巨大的。基于以上背景,本文將解決一下問題:
1.1 根據(jù)半導體制造工藝的實際數(shù)據(jù)集,完成數(shù)據(jù)的預處理。根據(jù)處理后的結(jié)果,研究分析各個因素(變量)之間的相關性,確定關鍵因素,并說明合理性。
1.2 半導體制造工藝的實際數(shù)據(jù)集列出了1567 個產(chǎn)品的觀測數(shù)據(jù),其中存在一些不合格產(chǎn)品,請根據(jù)之前的關鍵因素,建立模型[1],利用這些因素來識別不合格產(chǎn)品。
本文首先進行數(shù)據(jù)分析,發(fā)現(xiàn)該數(shù)據(jù)存在590 個變量和1567 個樣本,并且發(fā)現(xiàn)部分變量的樣本數(shù)據(jù)為常數(shù),大量變量的樣本數(shù)據(jù)都存在缺失值情況,因此我們針對以上兩種情況對其進行處理。
本文發(fā)現(xiàn)大部分變量都存在缺失值,首先通過Excel 自帶的COUNTIF 函數(shù)統(tǒng)計了每個變量缺失值的個數(shù),然后我們決定將缺失值個數(shù)大于5 的變量刪除,最終剩下了242 個變量。本文刪除了缺失值大于5 個的變量,但是還在大量變量有著少數(shù)的缺失值,因此對缺失值的填充將是至關重要的。而對于常數(shù),直接舍棄。我們用各個變量的平均值填充了缺失值之后,整個樣本數(shù)據(jù)就是我們可用的數(shù)據(jù),為了方便后續(xù)的分析,我們將Qualified 變量為“是”的樣本數(shù)據(jù)用1 量化,變量為“否”的樣本數(shù)據(jù)用0 量化。
變量之間的Pearson 相關性分析:
采用多元線性回歸分析能很好的篩選出顯著影響產(chǎn)品質(zhì)量的變量,因此本問采用該方法對樣本數(shù)據(jù)進行回歸分析[2],回歸分析模型如下所示:
其中:y 為因變量,x 為自變量,?為該變量對應的系數(shù),b 為常數(shù)項。
我們采用SPSS 軟件,選擇分析- 多元線性回歸分析選項,將產(chǎn)品質(zhì)量的量化數(shù)據(jù)作為因變量,將數(shù)據(jù)預處理后的242 個變量作為自變量,代入軟件中進行回歸分析,得出分析結(jié)果。
我們選擇顯著性排名為前15 名的變量,作為關鍵因素,具體變量如表1 所示(只展示關鍵因素的標準化系數(shù)和顯著性水平)。
表1 關鍵因素的分布
通過上述相關性分析我們得知這15 個關鍵因素之間相關性并不高,也并不存在多重共性線問題,而我們選取的這幾個因素又具有很高的顯著性,因此我們確定的關鍵因素能夠合理的代表半導體產(chǎn)品質(zhì)量。
本文得出了15 個影響半導體產(chǎn)品質(zhì)量的關鍵因素,那么為了能夠通過這幾個因素來識別不合格產(chǎn)品,構(gòu)建了BP 神經(jīng)網(wǎng)絡評價模型,通過對歷史數(shù)據(jù)的模型訓練,訓練好神經(jīng)網(wǎng)絡,再通過對測試數(shù)據(jù)的仿真,得到模型的準確率,下面就是BP 神經(jīng)網(wǎng)絡模型的構(gòu)建過程。本問使用有監(jiān)督學習的神經(jīng)網(wǎng)絡對股票價格損失進行預測,構(gòu)建過程如下[3]:
(1)初始化:給每一個神經(jīng)元的權(quán)值wi,j、vjt,閾值θj和γt賦予區(qū)間為(-1,1)內(nèi)的隨機數(shù)。
(2)在123 家企業(yè)選取一組學習樣本Xn=(x1,x2,…,xn)和目標樣本Tn=(y1,y2,…,yn)。
(3)對學習樣本Xn=(x1,x2,…,xn)、權(quán)值wi,j和閾值θj利用公式(1)計算隱含層的神經(jīng)元輸入sj,再利用輸入值計算中間層單元的輸出bj。
(4)用隱含層輸出bj,輸出層權(quán)值wi,j和閾值γt計算輸出層神經(jīng)元Lt,利用傳遞函數(shù)計算輸出層的結(jié)果Zt。
(5)計算網(wǎng)絡的目標向量Tn=(y1,y2,…,yn)和實際向量Zn=(z1,z2,…,zn)的差值,得到dt。
(6)用權(quán)值vjt、輸出層誤差dt與中間層輸出值bj計算中間層一般誤差ej。
(7)用輸出層各單元一般誤差dt與中間層單元輸出值bj來修正連接權(quán)值vjt和閾值γt。其中t=1,2,…,q;j=1,2,…,p;0<α<1。
(8)用中間層神經(jīng)元誤差ej來調(diào)整連接權(quán)值wi,j,用輸入層神經(jīng)元的輸入Xn來調(diào)整閾值θj。其中i=1,2,…,q;j=1,2,…,p;.0<β<1。
(9)隨機選取下個樣本代入神經(jīng)網(wǎng)絡進行訓練,執(zhí)行步驟(3),直到網(wǎng)絡的訓練全局誤差達到網(wǎng)絡收斂值,學習結(jié)束。
4.2.1 神經(jīng)元數(shù)目的確定
本文處理之后的關鍵因素為15 個,因此輸入層神經(jīng)節(jié)點數(shù)目為15,而本文神經(jīng)網(wǎng)絡最終輸出的只有一個半導體產(chǎn)品質(zhì)量,因此輸出層節(jié)點個數(shù)為1。
4.2.2 隱含層節(jié)點數(shù)目的確定
4.2.3 模型訓練
本問采用獨立測試方法,將測試數(shù)據(jù)分為兩部分,其一是訓練數(shù)據(jù),我們將附件的半導體樣本數(shù)據(jù)隨機抽取1500 組數(shù)據(jù)作為訓練數(shù)據(jù),剩下的67 組樣本數(shù)據(jù)作為測試集,用于檢測BP神經(jīng)網(wǎng)絡對半導體產(chǎn)品質(zhì)量的評價準確率。
將訓練樣本數(shù)據(jù)代入利用Matlab 的神經(jīng)網(wǎng)絡程序包對神經(jīng)網(wǎng)絡中進行訓練,訓練結(jié)果如圖1 所示。
圖1 神經(jīng)網(wǎng)絡訓練誤差
通過上述訓練結(jié)果,我們可得初步的網(wǎng)絡訓練結(jié)果,訓練誤差小于0.1,為了驗證BP 神經(jīng)網(wǎng)絡,我們將測試數(shù)據(jù)代入已經(jīng)訓練好的網(wǎng)絡模型當中進行測試,結(jié)果如圖2 所示。
圖2 神經(jīng)網(wǎng)絡測試結(jié)果
具體的樣本測試結(jié)果對比數(shù)據(jù)顯示,當測試結(jié)果小于0.8時,就為產(chǎn)品不合格反之,則產(chǎn)品合格。我們通過測試結(jié)果計算模型評價的準確率,用評價準確的個數(shù)除于總測試個數(shù),得到模型對半導體產(chǎn)品質(zhì)量的評價準確率為95.5%, 因此可以基于此得到我們的模型能夠利用關鍵因素對半導體產(chǎn)品質(zhì)量進行識別。
5.1 元器件的設計:先進特征尺寸節(jié)點上,芯片老化問題日益嚴重,老化和可靠性是模擬設計師面臨的挑戰(zhàn)。今天的設計可能不會在明天運行,因為這些設計可能會發(fā)生降級,目前最重要的是必須確保滿足市場所有老化和可靠性的要求。
5.2 元器件的制造:半導體器件的制造涉及到測量僅幾納米的結(jié)構(gòu),很多制造元器件的機器可能存在誤差或者精度達不到,導致制造出的元器件在精度上就不符合要求。
5.3 磁場對半導體影響:隨著智能手機、平板電腦終端的多功能化,制造半導體芯片的過程中,芯片很可能會受到外界設備磁場的影響,導致功能失效。