孫 曼
(南京航空航天大學,江蘇 南京 210000)
問題1:根據(jù)2022-01-13至2022-01-22的生產(chǎn)加工數(shù)據(jù),應(yīng)用原礦參數(shù)和系統(tǒng)設(shè)定溫度數(shù)據(jù),建立數(shù)學模型,給出利用系統(tǒng)溫度預(yù)測產(chǎn)品質(zhì)量的方法,并且用2022-01-23原礦參數(shù)和系統(tǒng)設(shè)定溫度,得出產(chǎn)品質(zhì)量預(yù)測的結(jié)果(注:本題數(shù)據(jù)來源于2022年五一數(shù)學建模競賽B題)。
問題2:根據(jù)問題1的結(jié)果,建立數(shù)學模型,估計產(chǎn)品目標質(zhì)量所對應(yīng)的系統(tǒng)溫度,并且用給定的2022-01-24原礦參數(shù)和目標產(chǎn)品質(zhì)量,得出系統(tǒng)設(shè)定溫度。
問題1屬于預(yù)測問題。解決此類問題,通常情況下利用變量選擇算法從樣本中提取除最優(yōu)的變量子集,再利用預(yù)測理論與方法來構(gòu)建預(yù)測模型,從而利用所得的回歸方程進行數(shù)據(jù)預(yù)測[1]。我們選擇通過給定生產(chǎn)加工數(shù)據(jù),建立相應(yīng)數(shù)學模型以研究系統(tǒng)溫度對產(chǎn)品質(zhì)量的影響,進而給出用系統(tǒng)溫度預(yù)測產(chǎn)品質(zhì)量的方法。
由于以上原因,我們首先建立一個系統(tǒng)溫度之間的數(shù)學模型I,以觀測兩者可能存在的潛在關(guān)系,其次建立一個系統(tǒng)溫度與指標的模型II對結(jié)果進行預(yù)測,同時用神經(jīng)網(wǎng)絡(luò)預(yù)測法進行預(yù)測,并將結(jié)果進行比較。
問題2屬于追溯問題,求從給定數(shù)據(jù)中找到加工條件及環(huán)境和目標參數(shù)間的數(shù)學模型,分析礦石得到所給目標質(zhì)量時的系統(tǒng)溫度參數(shù)。為得到可能性較大的參數(shù),建立模型前我們用多元線性回歸分析,再用神經(jīng)網(wǎng)絡(luò)預(yù)測,得到原數(shù)據(jù)的預(yù)測值,通過比對原數(shù)據(jù)與預(yù)測數(shù)據(jù)得到預(yù)測方法的準確性,再由所確定的預(yù)測方法得到系統(tǒng)所需參數(shù)。
(1)假設(shè)1:系統(tǒng)溫度與調(diào)溫指令設(shè)定的溫度相同。
(2)假設(shè)2:每次溫度調(diào)節(jié)之后的2小時內(nèi)不會傳入新的調(diào)溫指令。
(3)假設(shè)3:由于采樣間隔不一樣,我們將溫度由原先一分鐘采樣一次變?yōu)榕c產(chǎn)品質(zhì)量采樣頻率一致的一小時采樣一次。
(4)假設(shè)4:原礦參數(shù)和目標產(chǎn)品質(zhì)量已知,僅溫度未知。
(5)假設(shè)5:每單位時間生產(chǎn)的產(chǎn)品數(shù)量相同。
首先,我們進行了數(shù)據(jù)處理與配對。由于所給系統(tǒng)溫度數(shù)據(jù)為一分鐘一測量而系統(tǒng)指標為一小時一測量,因此我們選擇抽取每天每小時的第五十分鐘的溫度值來配合各個時刻的指標測量值。但我們在處理過程中發(fā)現(xiàn),2022-01-20-6:50/7:50/8:50的三組溫度數(shù)據(jù)完全缺失,經(jīng)過觀察,發(fā)現(xiàn)前后時間點的數(shù)據(jù)相差不大,因此我們?nèi)拥暨@三組數(shù)據(jù)并用MATLAB繪圖得到圖1。
圖1 系統(tǒng)溫度隨時間的變化
由圖1可見,系統(tǒng)一和系統(tǒng)二的溫度(分別用T1和T2表示)隨時間的走向變化趨勢基本一致,因此我們猜想T1和T2有線性關(guān)系。經(jīng)過線性回歸最小二乘法擬合,我們發(fā)現(xiàn)T1和T2的線性擬合高達80.5%。
建立線性回歸分析的一般模型為
式中,β都是與x無關(guān)的未知參數(shù)z,其中β0、β1稱為回歸系數(shù)。將T1作為自變量,而將合格率作為因變量進行線性回歸分析,在這里采用最小二乘法進行多元回歸模型的擬合。
表1 線性回歸分析結(jié)果
從F檢驗的結(jié)果分析可以得到,顯著性P值為0.000,在水平上呈現(xiàn)顯著性,拒絕回歸系數(shù)為0的原假設(shè),這個回歸模型的復(fù)判定系數(shù)R2=0.805,調(diào)整復(fù)判定系數(shù)R2=0.804。意味著系統(tǒng)一和系統(tǒng)二存在線性關(guān)系。
因此模型基本滿足要求,對于變量共線性表現(xiàn),VIF全部小于10,因此模型沒有多重共線性問題,模型構(gòu)建良好,模型的公式如下:
(1)同問題1,賽題附件1中的系統(tǒng)溫度的數(shù)據(jù)存在缺漏及誤差,例如,1月20日晨間的數(shù)據(jù)存在缺漏,此時無法通過設(shè)定的已知參數(shù)變量進行運算,將數(shù)據(jù)舍棄。
(2)已知的系統(tǒng)溫度參數(shù)存在一定的誤差,系統(tǒng)溫度-時間曲線連續(xù)性較差,將誤差較大的數(shù)據(jù)剔除。
5.1.1 指標預(yù)測模型的建立
我們需要解決的問題是應(yīng)用已有的數(shù)據(jù),建立數(shù)學模型,給出利用系統(tǒng)溫度預(yù)測產(chǎn)品質(zhì)量的方法并在給定的原礦參數(shù)和系統(tǒng)設(shè)定溫度下,給出產(chǎn)品質(zhì)量預(yù)測結(jié)果。我們首先進行指標的回歸分析:
(1)選擇T1、T2作為自變量,將各個指標作為因變量進行回歸分析。經(jīng)分析,僅對于指標A,R2=0.081就遠小于1,因此我們猜想應(yīng)當增加自變量的次數(shù)以求得更高程度的擬合。
(2)選擇T1、T2、T1×T1、T2×T2、T1×T2的排列組合作為自變量,各個指標作為因變量進行回歸分析。
當選擇T1、T2、T1×T1、T2×T2、T1×T2這5個自變量時,我們發(fā)現(xiàn)R2得到極大改善,對于指標A,R2就已經(jīng)上升了十倍,達到了0.18,此時,我們分別去除T1×T1和T2×T2兩個變量之后發(fā)現(xiàn),T1×T1去除時,R2減小到0.157,而當T2×T2去除時,R2增加到0.185,因此,我們舍棄自變量T2×T2。同理可得其余指標的回歸分析。指標的回歸分析如表2所示。
表2 指標的回歸分析
(3)經(jīng)過回歸分析,得出各個指標對應(yīng)的模型分別為:
5.1.2 指標預(yù)測模型的求解
根據(jù)問題所給參數(shù),由上一步模型得出表3預(yù)測。
表3 多元回歸分析指標預(yù)測
5.1.3 神經(jīng)網(wǎng)絡(luò)預(yù)測模型的求解
應(yīng)用MATLAB進行神經(jīng)網(wǎng)絡(luò)預(yù)測,經(jīng)過多次訓(xùn)練可以得到圖形擬合曲線,再經(jīng)過函數(shù)調(diào)用,即可得出預(yù)測值,如表4所示。
表4 神經(jīng)網(wǎng)絡(luò)指標預(yù)測
表5 系統(tǒng)溫度預(yù)測結(jié)果
5.1.4 結(jié)果
通過對兩個模型的對比分析可知,神經(jīng)網(wǎng)絡(luò)預(yù)測更加簡潔直觀并且精確,同時易于操作和計算,因此我們最終采用神經(jīng)網(wǎng)絡(luò)預(yù)測的求解結(jié)果。
5.2.1 系統(tǒng)溫度確定模型的建立
從已知中可以猜想礦石的目標參數(shù)是由礦石原性能參數(shù)(原礦參數(shù))和溫度共同影響得出的,因而可將求解過程看作猜想的逆過程,即以原礦參數(shù)和目標參數(shù)為自變量,探求系統(tǒng)溫度的最大可能指標,此時可以通過多元線性回歸在原礦參數(shù)1、原礦參數(shù)2、原礦參數(shù)3、原礦參數(shù)4、指標A、指標B、指標C、指標D中求取與溫度控制關(guān)系較大的參數(shù),但由于關(guān)聯(lián)都相對較大,達不到舍棄的關(guān)聯(lián)度,所以保留。由于自變量個數(shù)較多,不便于采用Excel繪圖求取函數(shù)關(guān)系以及MATLAB的regress函數(shù)求解線性系數(shù)(自變量間關(guān)系非線性),進而采用神經(jīng)預(yù)測系統(tǒng)預(yù)測性能指標,輸入、輸出矩陣通過網(wǎng)絡(luò)訓(xùn)練得到擬合度較高的預(yù)測方式,選取誤差(err)范圍較小的方式完成預(yù)測。
5.2.2 系統(tǒng)溫度確定模型的擬合結(jié)果
5.2.3 系統(tǒng)擬合度分析
由圖2可知,系統(tǒng)相關(guān)性較好。
圖2 檢驗預(yù)測值和目標值的線性化程度
由于最開始在對數(shù)據(jù)進行預(yù)處理時,在可允許的范圍內(nèi)刪除了偏差過大和缺失的數(shù)據(jù),使整體模型建立與分析存在一定的系統(tǒng)誤差。不過,此類誤差影響極小,可以忽略。
6.1.1 針對于問題1的誤差分析
(1)擬合誤差。
(2)回歸分析誤差:選擇自變量時進行一定的取舍造成一定條件的誤差。
6.1.2 針對于問題2的誤差分析
該模型中存在神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)的誤差,在神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)模型層數(shù)影學習到樣本的特征,在層數(shù)較少時,會有一定的偏差。
(1)我們根據(jù)問題分別建立了模型,合理利用工具算得結(jié)果,對其進行檢驗和評價,準確性可以接受,并且模型建立可自引用,能夠得到滿意的解。
(2)通過兩個模型的分別建立及比較優(yōu)化循序漸進,結(jié)合兩個模型各自的優(yōu)缺點進行預(yù)測,較好地解決了因為方法單一而帶來的誤差問題,并且利用MATLAB自帶的神經(jīng)網(wǎng)絡(luò)預(yù)測,使模型得到簡化,減少大的計算量。
(1)模型的建立有一定局限性,需要明確影響生產(chǎn)產(chǎn)品質(zhì)量的因素,并且控制不研究的變量保持,而需要進行研究的變量需要有足夠數(shù)量的樣本,并且有相等的采樣間隔。對環(huán)境要求和設(shè)備要求都比較嚴格。
(2)盡管我們建立模型已經(jīng)盡力地將龐大繁多的數(shù)據(jù)進行預(yù)處理,過程歸一化,盡量減小誤差、提高準確度,但是不可避免地存在不確定性。預(yù)測結(jié)果還可在現(xiàn)有的準確性上進一步量化,提高精度。同時后續(xù)可以改進置信區(qū)間。
(1)本模型中所使用的問題針對性較強,可以推廣于生產(chǎn)過程中。一般產(chǎn)品的質(zhì)量復(fù)雜,由多因素共同決定,本模型給出了一個,假設(shè)無關(guān)變量保持不變,建立某一或者某幾個因素對產(chǎn)品質(zhì)量的影響,可信度較高。
(2)建立的預(yù)測模型邏輯嚴密,從兩種不同方法出發(fā)求得最優(yōu)解,可以為分析生產(chǎn)變量提供借鑒思路。