王紅珂,劉嘯天,林磊,孫海濤,呂云鶴,張晏瑋,薛飛
(1.蘇州熱工研究院有限公司,江蘇 蘇州 215004;2.生態(tài)環(huán)境部核與輻射安全中心,北京 100082)
材料在服役過(guò)程中,由于受光照、熱能、機(jī)械能、輻照、潮濕等因素的影響,會(huì)逐步發(fā)生老化,進(jìn)而導(dǎo)致材料性能下降甚至失效。材料失效不僅帶來(lái)巨大的經(jīng)濟(jì)損失,造成環(huán)境污染和資源浪費(fèi),甚至可能釀成安全事故,引發(fā)各種社會(huì)問(wèn)題。因此,材料服役性能研究和服役壽命預(yù)測(cè)一直是材料領(lǐng)域的研究熱點(diǎn)之一。
在早期研究中,通常將材料放置在自然環(huán)境或人工模擬環(huán)境中進(jìn)行大量性能試驗(yàn),并在試驗(yàn)過(guò)程中監(jiān)測(cè)材料性能的變化情況。然后找出試驗(yàn)條件和材料性能之間的關(guān)系,進(jìn)而預(yù)測(cè)材料服役性能的變化趨勢(shì)和服役壽命。但這種方法通常需要投放大量的試樣,試驗(yàn)周期漫長(zhǎng),無(wú)法真實(shí)反映出實(shí)際環(huán)境中不同因素之間的協(xié)同作用和綜合效應(yīng),在客觀性和普適性方面存在不足。
目前,材料服役性能研究主要分為四個(gè)方向:加速模擬實(shí)驗(yàn)、力學(xué)性能研究、數(shù)學(xué)模型和數(shù)據(jù)挖掘。其中,加速模擬實(shí)驗(yàn)是最簡(jiǎn)便可行的方案,但加速過(guò)程會(huì)掩蓋材料服役的關(guān)鍵細(xì)節(jié),難以區(qū)分不同條件對(duì)材料性能影響的細(xì)微差別。力學(xué)性能研究通過(guò)經(jīng)典力學(xué)、斷裂力學(xué)、疲勞力學(xué)、損傷力學(xué)等方法建立材料力學(xué)方程,然后進(jìn)行力學(xué)分析和服役性能預(yù)測(cè)。但對(duì)于受力復(fù)雜的情況,建立的力學(xué)方程非常復(fù)雜,并且很難反映材料的真實(shí)受力情況。數(shù)學(xué)模型通過(guò)短期試驗(yàn),推測(cè)長(zhǎng)期服役條件下材料性能的變化情況,但該方法預(yù)測(cè)誤差較大、計(jì)算復(fù)雜、普適性有待進(jìn)一步研究。
數(shù)據(jù)挖掘通過(guò)機(jī)器學(xué)習(xí),對(duì)大量材料服役數(shù)據(jù)進(jìn)行學(xué)習(xí)和規(guī)律總結(jié),然后對(duì)材料服役性能進(jìn)行預(yù)測(cè),目前已經(jīng)在醫(yī)藥、生物信息、圖像識(shí)別、故障診斷等領(lǐng)域取得了應(yīng)用成果。文中首先闡述了機(jī)器學(xué)習(xí)在材料服役性能預(yù)測(cè)中的一般流程及常用機(jī)器學(xué)習(xí)模型原理,并對(duì)各種模型在材料服役性能研究應(yīng)用中的特點(diǎn)進(jìn)行總結(jié);然后具體研究了機(jī)器學(xué)習(xí)在RPV鋼輻照性能預(yù)測(cè)中的應(yīng)用。研究結(jié)果為材料服役性能預(yù)測(cè)提供了新的方法和參考。
機(jī)器學(xué)習(xí)在材料服役性能預(yù)測(cè)的一般流程如圖1所示,主要包括兩個(gè)過(guò)程:1)從材料基因數(shù)據(jù)庫(kù)中選擇要處理的數(shù)據(jù)并進(jìn)行預(yù)處理、特征選擇和樣本劃分,然后通過(guò)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練、測(cè)試和評(píng)估,并獲得最優(yōu)模型及模型參數(shù);2)通過(guò)最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行服役性能預(yù)測(cè),獲得最終結(jié)果。
圖1 基于機(jī)器學(xué)習(xí)的材料服役性能預(yù)測(cè)流程Fig.1 Prediction process of material service performance based on machine learning
材料基因數(shù)據(jù)庫(kù)為源數(shù)據(jù),可源于試驗(yàn)、測(cè)試、仿真計(jì)算或其他數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中數(shù)據(jù)的來(lái)源、格式、完整度等存在差異,需要進(jìn)行數(shù)據(jù)清洗使其符合機(jī)器學(xué)習(xí)模型的輸入要求。數(shù)據(jù)清洗包括異常值剔除、缺失值填充、重復(fù)樣本刪除、數(shù)字化等。對(duì)于不同量綱或存在數(shù)量級(jí)差異的特征值,還需要進(jìn)行歸一化或標(biāo)準(zhǔn)化處理,消除量綱帶來(lái)的偏差。
數(shù)據(jù)清洗和預(yù)處理后需要進(jìn)行特征選擇,找出和目標(biāo)相關(guān)度高的特征進(jìn)行學(xué)習(xí)和訓(xùn)練,消除無(wú)關(guān)特征帶來(lái)的噪聲偏差。常用的特征選擇方法有過(guò)濾式、包裹式和嵌入式,篩選后的特征子集可提高模型的訓(xùn)練效率和預(yù)測(cè)精度。
獲得特征子集后,通過(guò)分層抽樣將其劃分為訓(xùn)練集和測(cè)試集,測(cè)試集約占總樣本的20%~30%。然后選擇合適的模型,并在訓(xùn)練集上進(jìn)行模型訓(xùn)練和參數(shù)調(diào)優(yōu)。模型訓(xùn)練后,根據(jù)預(yù)測(cè)結(jié)果進(jìn)行模型評(píng)估,常用的評(píng)估指標(biāo)有平均絕對(duì)誤差、均方根誤差和決定系數(shù)等。
1)平均絕對(duì)誤差MAE。
2)均方根誤差RMSE。
3)決定系數(shù)。
決定系數(shù)用來(lái)衡量模型對(duì)數(shù)據(jù)集波動(dòng)的解釋程度,最大值為1。越接近1,表明模型的擬合越好。
根據(jù)模型評(píng)估結(jié)果保存最優(yōu)模型及參數(shù),當(dāng)有相同場(chǎng)景的新數(shù)據(jù)輸入時(shí),可直接通過(guò)最優(yōu)模型對(duì)材料屬性進(jìn)行預(yù)測(cè)。
根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,機(jī)器學(xué)習(xí)可分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。材料服役性能預(yù)測(cè)屬于監(jiān)督學(xué)習(xí),常用的學(xué)習(xí)模型有支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)和隨機(jī)森林等。
支持向量機(jī)的目的是獲得N維空間的最優(yōu)超平面,其用于二維空間的分類(lèi)如圖2所示。支持向量機(jī)可解決三類(lèi)問(wèn)題:1)樣本線性可分,通過(guò)硬間隔最大學(xué)習(xí)一個(gè)分類(lèi)器;2)樣本近似線性可分,通過(guò)軟間隔最大學(xué)習(xí)一個(gè)分類(lèi)器;3)樣本線性不可分,通過(guò)核技法將低維非線性問(wèn)題轉(zhuǎn)化為高維線性問(wèn)題,然后學(xué)習(xí)一個(gè)非線性支持向量機(jī)。支持向量機(jī)可用于分類(lèi)也可用于回歸,回歸問(wèn)題的目標(biāo)函數(shù)為:
圖2 支持向量機(jī)分類(lèi)示意Fig.2 Classification schematic diagram of support vector machine (SVM)
式中:= (,,… ,ω)為超平面的法向量;為正則化系數(shù);l為損失函數(shù)。
加入核函數(shù)后,式(4)可表示為:
人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,主要包括正向傳播和誤差反向傳遞兩個(gè)過(guò)程。其中,正向傳播的輸出可表示為:
圖3 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of artificial neural network
式中:、、分別為輸入層到隱藏層的權(quán)重、偏置項(xiàng)和激活函數(shù);、、分別為隱藏層到輸出層的權(quán)重、偏置項(xiàng)和激活函數(shù),為模型輸出。
誤差反向傳遞是根據(jù)預(yù)測(cè)值與期望值的偏差逐層回歸計(jì)算正向傳播過(guò)程中的誤差,并迭代更新各層神經(jīng)元的權(quán)值,回歸問(wèn)題的損失函數(shù)為:
然后根據(jù)損失函數(shù)和正向傳播公式迭代更新各層的權(quán)值及偏置項(xiàng),并使損失函數(shù)越來(lái)越小。通過(guò)建立多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),適當(dāng)增加神經(jīng)元個(gè)數(shù)和樣本數(shù)量,可提高模型的擬合能力。
決策樹(shù)是一種基于樹(shù)結(jié)構(gòu)劃分的學(xué)習(xí)算法,可分為分類(lèi)樹(shù)和回歸樹(shù),圖4為一個(gè)深度為3層的分類(lèi)樹(shù)。決策樹(shù)主要包括決策樹(shù)生長(zhǎng)和剪枝兩個(gè)步驟:1)決策樹(shù)生長(zhǎng)采用的屬性選擇方法有ID3、C4.5和Gini指數(shù),ID3和C4.5分別采用信息增益和信息增益率進(jìn)行屬性選擇;2)決策樹(shù)剪枝是為了防止模型過(guò)擬合,并提高模型的訓(xùn)練速度和識(shí)別能力,通常采用“預(yù)剪枝”和“后剪枝”兩種策略。
圖4 決策樹(shù)結(jié)構(gòu)示意Fig.4 Schematic diagram of decision tree structure
隨機(jī)森林回歸算法的流程如圖5所示,其是一種基于決策樹(shù)模型的Boosting集成算法,可用于分類(lèi)、回歸和特征選擇。首先從原始數(shù)據(jù)中隨機(jī)抽取若干個(gè)樣本組成樣本子集,然后基于每個(gè)樣本子集建立決策樹(shù),并構(gòu)成樹(shù)模型集合{(,),= 1,2,…}。對(duì)于回歸問(wèn)題,(,)采用CART算法生成回歸樹(shù),θ決定每棵樹(shù)的生長(zhǎng)過(guò)程。
圖5 隨機(jī)森林回歸模型結(jié)構(gòu)Fig.5 Structure of random forest regression model
材料服役性能與其結(jié)構(gòu)、成分、環(huán)境條件等密切相關(guān),不同因素之間的相互作用復(fù)雜。機(jī)器學(xué)習(xí)可以從大量服役數(shù)據(jù)中獲得各因素之間的影響規(guī)律,并對(duì)服役性能進(jìn)行預(yù)測(cè)。材料的服役性能主要包括腐蝕、磨損、輻照和疲勞等。
影響材料腐蝕的因素包括化學(xué)成分、組織結(jié)構(gòu)、加工工藝、服役條件等,并且不同因素又包含多個(gè)維度信息,通常采用人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等擬合能力強(qiáng)、適用緯度高的模型進(jìn)行腐蝕性能預(yù)測(cè)。
杜翠微等采用人工神經(jīng)網(wǎng)絡(luò)建立了碳鋼和低合金鋼的腐蝕速率預(yù)測(cè)模型,探究了化學(xué)成分、環(huán)境因素及多因素耦合作用對(duì)海水中金屬材料腐蝕性能的影響。訓(xùn)練數(shù)據(jù)為我國(guó)典型海水區(qū)域長(zhǎng)達(dá)16 a的腐蝕樣本,模型輸入為合金主要元素成分、pH、溫度、溶解氧、鹽度、生物附著物等。當(dāng)僅考慮環(huán)境因素時(shí),模型的預(yù)測(cè)精度達(dá)到75%;當(dāng)同時(shí)考慮環(huán)境因素和材料元素含量時(shí),模型的預(yù)測(cè)精度可提高到90%以上。
LY12CZ鋁合金是飛機(jī)承重構(gòu)件的主要材料,劉延利等]通過(guò)鹽霧試驗(yàn)獲得了鋁合金材料的腐蝕試樣,并對(duì)試樣進(jìn)行疲勞試驗(yàn)和腐蝕深度測(cè)量。然后基于腐蝕溫度、腐蝕時(shí)間、最大點(diǎn)蝕深度及疲勞額定強(qiáng)度, 建立了人工神經(jīng)網(wǎng)絡(luò)模型,模型對(duì)試樣最大腐蝕深度的預(yù)測(cè)誤差為7.24%,對(duì)疲勞額定強(qiáng)度的預(yù)測(cè)誤差為1.63%。
為驗(yàn)證RE-Ni-Cu合金鑄鐵在堿液中的腐蝕性能,王玉榮等通過(guò)靜態(tài)質(zhì)量損失腐蝕試驗(yàn)獲得了35組腐蝕樣本數(shù)據(jù),然后建立了合金成分、腐蝕時(shí)間、堿液溫度與合金鑄鐵腐蝕深度的RBF神經(jīng)網(wǎng)絡(luò)模型。RBF神經(jīng)網(wǎng)絡(luò)對(duì)合金鑄鐵腐蝕深度的預(yù)測(cè)誤差為8.09%,對(duì)樣本的耐腐蝕等級(jí)和耐腐蝕評(píng)價(jià)準(zhǔn)確率達(dá)到100%。
海底管道腐蝕速率的有效預(yù)測(cè)可減少管道失效風(fēng)險(xiǎn),李響等基于Q235鋼材海洋掛片的腐蝕數(shù)據(jù)建立了環(huán)境溫度、含氧量、含鹽量、pH和腐蝕速率之間的SVM模型。首先采用遺傳算法對(duì)模型參數(shù)進(jìn)行優(yōu)化,優(yōu)化后的模型對(duì)試樣腐蝕速率的預(yù)測(cè)誤差小于3%,優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。
針對(duì)長(zhǎng)輸管道腐蝕速率的預(yù)測(cè),馬鋼等建立了PSO-SVM模型,模型輸入為CO含量、硫化物含量、輸送溫度、輸送壓力和流速,輸出為管道腐蝕速率。然后分別采用粒子群算法(PSO)、遺傳算法(GA)、交叉驗(yàn)證(CV)、最小二乘法(LS)和果蠅算法(FOA)對(duì)模型參數(shù)進(jìn)行優(yōu)化。預(yù)測(cè)結(jié)果見(jiàn)表1,其中PSOSVM模型的平均絕對(duì)誤差和均方根誤差最小,分別為0.58%和6.18×10,但該模型的訓(xùn)練時(shí)間較長(zhǎng),仍需進(jìn)一步優(yōu)化。
表1 不同模型的時(shí)間及預(yù)測(cè)誤差[17]Tab.1 Prediction time and error of different models[17]
支持向量機(jī)(SVM)可有效避免過(guò)擬合和局部極小值問(wèn)題,適用于數(shù)據(jù)樣本較小、特征維度中等的數(shù)據(jù)集。但是SVM模型參數(shù)對(duì)預(yù)測(cè)結(jié)果影響較大,通常結(jié)合主成分分析法、遺傳算法、粒子群優(yōu)化算法、交叉驗(yàn)證和最小二乘法等對(duì)模型參數(shù)進(jìn)行優(yōu)化,并采用優(yōu)化后的參數(shù)進(jìn)行模型訓(xùn)練和預(yù)測(cè),從而提高模型效率和預(yù)測(cè)精度。
磨損與材料硬度、受力狀態(tài)、摩擦系數(shù)等因素有關(guān),但這些參數(shù)通常難以全部準(zhǔn)確獲得,容易造成數(shù)據(jù)缺失,通常采用對(duì)缺失值容忍度好的隨機(jī)森林模型進(jìn)行預(yù)測(cè)。由于磨損也是設(shè)備機(jī)械故障的一個(gè)重要原因,但磨損故障樣本較小,容易造成樣本不均衡,因此可選擇適用于小樣本的支持向量機(jī)模型進(jìn)行預(yù)測(cè)。
隨機(jī)森林具有可解釋性好、對(duì)缺失值及異常值容忍度高等特點(diǎn),可用于降維和重要特征篩選。趙帥等提出了一種基于隨機(jī)森林和主成分分析法相結(jié)合的刀具磨損狀態(tài)評(píng)估模型,首先通過(guò)降維獲得刀具磨損的特征主分量,然后對(duì)刀具磨損狀態(tài)進(jìn)行評(píng)估,模型對(duì)刀具磨損狀態(tài)的評(píng)估準(zhǔn)確率達(dá)到94.3%。降維和重要特征篩選提高了模型的效率和評(píng)估精度,降低了噪聲對(duì)評(píng)估結(jié)果的影響,增強(qiáng)了模型的魯棒性。
鐵譜分析法是航空發(fā)動(dòng)機(jī)磨損故障診斷的常用方法,但該方法依賴(lài)于專(zhuān)家經(jīng)驗(yàn)和人工判斷,診斷誤差較大且效率很低。張建等提出一種基于免疫算法優(yōu)化的支持向量機(jī)模型,首先通過(guò)免疫算法對(duì)模型的懲罰因子、松弛變量等進(jìn)行優(yōu)化,然后對(duì)航空發(fā)動(dòng)機(jī)故障類(lèi)型進(jìn)行預(yù)測(cè),預(yù)測(cè)準(zhǔn)確率可達(dá)98%,添加了2%的噪聲后,預(yù)測(cè)準(zhǔn)確率仍大于95%。
人工神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)性好、非線性建模能力強(qiáng)等優(yōu)點(diǎn),適用于特征維度高、規(guī)律復(fù)雜的場(chǎng)景。針對(duì)聚酰胺復(fù)合材料(PA6)磨損性能的預(yù)測(cè),呂若云等提出一種基于BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)如圖6所示。模型輸入為材料成分、載荷和轉(zhuǎn)速,輸出為摩擦因數(shù)和磨損率?;旌仙窠?jīng)網(wǎng)絡(luò)對(duì)材料的摩擦因數(shù)、磨損率的預(yù)測(cè)誤差分別為3.01%和0.32%,為材料磨損性能的研究節(jié)省更多時(shí)間和成本。
圖6 混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[20]Fig.6 Structure of hybrid neural network[20]
磨損量和切削力通常采用解析法或經(jīng)驗(yàn)公式進(jìn)行預(yù)測(cè),但存在預(yù)測(cè)精度低、數(shù)學(xué)模型復(fù)雜等局限性。李鑫等將改進(jìn)后的神經(jīng)網(wǎng)絡(luò)用于合金車(chē)削刀具磨損量和切削力的預(yù)測(cè),預(yù)測(cè)結(jié)果見(jiàn)表2,神經(jīng)網(wǎng)絡(luò)的平均預(yù)測(cè)誤差為2.4%,小于經(jīng)驗(yàn)公式4.9%的預(yù)測(cè)誤差。但是神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度高度依賴(lài)于訓(xùn)練樣本,更傾向于訓(xùn)練樣本范圍內(nèi)的數(shù)據(jù),并且缺乏對(duì)切削加工過(guò)程中物理本質(zhì)的描述,可解釋性差。
表2 神經(jīng)網(wǎng)絡(luò)模型與經(jīng)驗(yàn)公式對(duì)刀具銑削力的預(yù)測(cè)結(jié)果[21]Tab.2 Prediction results of tool milling force by neural network model and empirical formula[21]
壓力容器的輻照性能與材料成分、輻照條件、微觀結(jié)構(gòu)等密切相關(guān),Mathew等提出一種基于人工神經(jīng)網(wǎng)絡(luò)的壓力容器輻照脆化預(yù)測(cè)模型,模型輸入為化學(xué)成分、輻照溫度、中子注量和注量率,輸出為材料的轉(zhuǎn)變溫度。人工神經(jīng)網(wǎng)絡(luò)可以較好反映出材料成分、輻照條件與輻照轉(zhuǎn)變溫度之間的關(guān)系,預(yù)測(cè)結(jié)果與試驗(yàn)結(jié)果基本一致。
針對(duì)輻照環(huán)境下材料硬度的預(yù)測(cè),Kemp等提出了一種基于貝葉斯框架的人工神經(jīng)網(wǎng)絡(luò)模型,并分析了溫度、輻照劑量、化學(xué)成分對(duì)輻照后馬氏體鋼屈服應(yīng)力的影響。神經(jīng)網(wǎng)絡(luò)模型可以很好地捕捉到屈服應(yīng)力與化學(xué)成分及輻照條件之間的非線性關(guān)系,預(yù)測(cè)結(jié)果有助于材料性能試驗(yàn)設(shè)計(jì)及缺失信息的補(bǔ)充。
Castin等提出了兩種不同的人工神經(jīng)網(wǎng)絡(luò)模型,并用于壓力容器鋼輻照后屈服應(yīng)力的預(yù)測(cè)。其中貝葉斯訓(xùn)練神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果更接近于試驗(yàn)值,預(yù)測(cè)精度要好于BP神經(jīng)網(wǎng)絡(luò)。通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的訓(xùn)練和模型優(yōu)化,實(shí)現(xiàn)了高中子注量條件下材料的輻照性能預(yù)測(cè)。
高功率微波輻照條件下電子元器件會(huì)發(fā)生損傷失效,金焱等采用支持向量機(jī)對(duì)電子元器件的損傷概率進(jìn)行預(yù)測(cè),同時(shí)采用模糊神經(jīng)網(wǎng)絡(luò)在相同條件下對(duì)算例進(jìn)行了預(yù)測(cè)分析。支持向量機(jī)和模糊神經(jīng)網(wǎng)絡(luò)都較好地獲得了預(yù)測(cè)結(jié)果,但在小樣本條件下支持向量機(jī)的預(yù)測(cè)精度更高,預(yù)測(cè)結(jié)果也更為穩(wěn)定。
疲勞是指交變載荷作用下結(jié)構(gòu)產(chǎn)生裂紋或斷裂的一種現(xiàn)象,通常用疲勞壽命或疲勞強(qiáng)度表示。材料疲勞失效的因素有很多,如材料成分、加工工藝、表面狀態(tài)、受力情況等。不同因素的細(xì)微差別都可能造成疲勞性能的較大差異,因此需要根據(jù)材料疲勞失效因素的維度、樣本數(shù)量、數(shù)據(jù)完整度等選擇合適的學(xué)習(xí)模型。
Agrawal等基于NIMS提供的鋼材料疲勞數(shù)據(jù)集,對(duì)材料疲勞性能影響因素進(jìn)行重要性篩選,然后采用數(shù)十種模型對(duì)材料疲勞壽命進(jìn)行預(yù)測(cè)。其中人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、多項(xiàng)式回歸模型的預(yù)測(cè)精度都達(dá)到了預(yù)期效果,模型均方根誤差最小為26.44。
為預(yù)測(cè)316不銹鋼的低周疲勞壽命,Mathew等采用神經(jīng)網(wǎng)絡(luò)對(duì)不同溫度和氮含量條件下各因素對(duì)材料疲勞性能的影響進(jìn)行研究。其中,人工神經(jīng)網(wǎng)絡(luò)可準(zhǔn)確預(yù)測(cè)316不銹鋼在任何溫度條件下的疲勞壽命,預(yù)測(cè)誤差為5.4%,具有較高的精度和魯棒性。
盡管人工神經(jīng)網(wǎng)絡(luò)已經(jīng)在復(fù)雜材料疲勞性能預(yù)測(cè)中發(fā)揮出良好的作用,但在材料疲勞樣本較少時(shí)容易出現(xiàn)過(guò)擬合和局部極小值,模型預(yù)測(cè)精度大大降低。吳峰崎等建立了基于支持向量機(jī)的材料疲勞壽命預(yù)測(cè)模型,模型預(yù)測(cè)誤差為7.91%,可以在較少樣本條件下實(shí)現(xiàn)材料疲勞壽命預(yù)測(cè)。
通過(guò)對(duì)各種機(jī)器學(xué)習(xí)模型在材料服役性能預(yù)測(cè)中的應(yīng)用分析,不同服役數(shù)據(jù)的特征不同、數(shù)據(jù)分布及特征復(fù)雜度存在差異。因此需要根據(jù)具體的應(yīng)用場(chǎng)景及數(shù)據(jù)特點(diǎn)選擇合適的模型進(jìn)行訓(xùn)練和性能預(yù)測(cè),常用機(jī)器學(xué)習(xí)模型的特點(diǎn)及使用場(chǎng)景見(jiàn)表3。
表3 常用機(jī)器學(xué)習(xí)模型性能對(duì)比Tab.3 Performance comparison of common machine learning models
文中所用的RPV鋼輻照數(shù)據(jù)來(lái)源于文獻(xiàn)數(shù)據(jù)及試驗(yàn)數(shù)據(jù),共有390條有效樣本,數(shù)據(jù)分布如圖7所示。首先剔除與輻照性能相關(guān)性較小的特征,最終選擇中子注量、注量率、輻照溫度、Cu含量、Ni含量、Mn含量、Si含量、P含量作為模型輸入,輻照后的轉(zhuǎn)變溫度增量Δ作為模型輸出。
圖7 輻照數(shù)據(jù)分布Fig.7 Distribution of radiation data
由于RPV鋼輻照數(shù)據(jù)樣本較小且離散性大,因此需要保證數(shù)據(jù)劃分后仍保持原始數(shù)據(jù)的分布規(guī)律,避免數(shù)據(jù)不均衡造成預(yù)測(cè)偏差。首先對(duì)相關(guān)性較高的Cu含量進(jìn)行區(qū)間劃分并標(biāo)記為4個(gè)類(lèi)別,然后按類(lèi)別進(jìn)行分層抽樣,抽樣結(jié)果見(jiàn)表4。其中,分層抽樣后的樣本分布與原始數(shù)據(jù)基本相同,Cu含量類(lèi)別“4”的樣本占比誤差最大,為-4.76%;隨機(jī)抽樣后的樣本分布與原始樣本差異較大,最大的占比誤差為8.57%。分層抽樣后,將80%的數(shù)據(jù)用作訓(xùn)練,20%用作測(cè)試。
表4 數(shù)據(jù)抽樣結(jié)果及誤差Tab.4 Results and errors of data sampling
數(shù)據(jù)劃分后采用單一模型進(jìn)行訓(xùn)練和預(yù)測(cè),并對(duì)各種模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,結(jié)果如圖8所示。其中,極端梯度增強(qiáng)算法模型(Extreme Grandient Boosting, XGBoost)的均方根誤差最小為10.16,達(dá)到0.88?;跇?shù)模型的集成算法,如隨機(jī)森林(Random Forest, RF)、梯度提升決策樹(shù)(Grandient Boosting Decision Tree, GBDT)、自適應(yīng)提升算法(Adaptive Boosting, AdaBoost)、XGBoost和輕量級(jí)梯度提升算法(Light Grant Boosting Machine,LightGBM)等模型的預(yù)測(cè)平均絕對(duì)誤差均小于10,表明樹(shù)模型對(duì)本數(shù)據(jù)集的預(yù)測(cè)精度相對(duì)較高。
圖8 各種模型評(píng)估結(jié)果Fig.8 Evaluation results of various models
為提高輻照性能的預(yù)測(cè)精度,采用Stacking方法在單一模型預(yù)測(cè)結(jié)果的基礎(chǔ)上再次進(jìn)行模型訓(xùn)練和預(yù)測(cè)。方法流程如圖9所示,具體步驟如下:
圖9 基于Stacking集成方法的預(yù)測(cè)流程Fig.9 Prediction process based on stacking integration method
1)將訓(xùn)練集均分為5個(gè)樣本子集,4個(gè)用于訓(xùn)練,1個(gè)用于預(yù)測(cè);
2)采用RF、GBDT、AdaBoost、XGBoost和LightGBM模型分別在4個(gè)訓(xùn)練子集上進(jìn)行訓(xùn)練,并對(duì)剩余1個(gè)樣本子集進(jìn)行預(yù)測(cè)。五個(gè)模型的預(yù)測(cè)結(jié)果重組為新訓(xùn)練集,大小與訓(xùn)練集相同;
3)采用上述五個(gè)模型分別對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果求平均后作為新測(cè)試集;
4)將新訓(xùn)練集和新測(cè)試集組成一個(gè)新數(shù)據(jù)集,然后采用支持向量機(jī)回歸(Support Vector Regression,SVR)模型在新數(shù)據(jù)集上進(jìn)行訓(xùn)練。
基于Stacking方法的預(yù)測(cè)結(jié)果如圖10所示,模型預(yù)測(cè)值與試驗(yàn)值基本一致,全部落在45°線附近區(qū)域。模型預(yù)測(cè)結(jié)果與試驗(yàn)值的均方根誤差RMSE為9.94,平均絕對(duì)值誤差MAE為8.01,達(dá)到0.89。相比于單一模型,基于Stacking方法的集成模型預(yù)測(cè)性能得到提升,對(duì)RPV鋼輻照性能預(yù)測(cè)具有較高的準(zhǔn)確度和可靠性。
圖10 集成模型預(yù)測(cè)結(jié)果Fig.10 Prediction results of the integrated model
從機(jī)器學(xué)習(xí)流程出發(fā),首先概括了常用機(jī)器學(xué)習(xí)模型的原理及其在材料服役性能預(yù)測(cè)中的應(yīng)用;然后采用多種機(jī)器學(xué)習(xí)模型對(duì)RPV鋼的輻照性能進(jìn)行預(yù)測(cè),并采用Stacking方法提高了模型的預(yù)測(cè)精度。主要結(jié)論如下:
1)機(jī)器學(xué)習(xí)可用于材料服役性能預(yù)測(cè),具有較高的預(yù)測(cè)精度和可靠性;
2)模型選擇應(yīng)考慮材料服役數(shù)據(jù)的質(zhì)量、模型特點(diǎn)及樣本數(shù)量;
3)重要特征提取、模型融合和參數(shù)優(yōu)化算法可提高模型的精度和運(yùn)算效率。
目前,機(jī)器學(xué)習(xí)在材料服役性能預(yù)測(cè)中的應(yīng)用仍處于初級(jí)階段,大量工作仍需進(jìn)一步開(kāi)展。如豐富完善已有的材料基因數(shù)據(jù)庫(kù),開(kāi)展更高精度機(jī)器學(xué)習(xí)算法研究,優(yōu)化機(jī)器學(xué)習(xí)模型參數(shù),提高運(yùn)算效率,結(jié)合物理模型及相關(guān)理論,增強(qiáng)機(jī)器學(xué)習(xí)模型的解釋性。