段志強(qiáng) 裴小龍 郭慶偉 侯華 趙宇宏?
1) (中北大學(xué)材料科學(xué)與工程學(xué)院,太原 030051)
2) (山西省有色金屬液態(tài)成型工程技術(shù)研究中心,太原 030051)
3) (太原科技大學(xué)材料科學(xué)與工程學(xué)院,太原 030024)
數(shù)據(jù)驅(qū)動(dòng)下,基于大量的實(shí)驗(yàn)數(shù)據(jù),建立混合特征與力學(xué)性能之間非線性規(guī)律實(shí)現(xiàn)合金新成分的配比和工藝設(shè)計(jì)一直是一個(gè)挑戰(zhàn).本文基于機(jī)器學(xué)習(xí)的方法,提出一種面向性能的Al-Si-Mg 系合金“成分-工藝-性能”的設(shè)計(jì)策略.將同一體系不同牌號(hào)合金的成分、熔煉及熱處理工藝等混合因素作為特征,通過(guò)隨機(jī)森林尋找特征與抗拉強(qiáng)度之間的非線性規(guī)律.之后將數(shù)據(jù)集中部分合金的成分、工藝參數(shù)設(shè)置為目標(biāo)空值,使用鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)算法對(duì)目標(biāo)缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)插補(bǔ).通過(guò)該策略進(jìn)行性能預(yù)測(cè)或指導(dǎo)設(shè)計(jì)的合金抗拉強(qiáng)度的實(shí)驗(yàn)值和預(yù)測(cè)值的誤差均保持在±5%之內(nèi);而且經(jīng)實(shí)驗(yàn)證實(shí),其中Al-6.8Si-0.6Mg-0.05Sr 的成分配比和540 ℃×10 h+170 ℃×10 h 工藝方案使合金綜合拉伸性能優(yōu)異,質(zhì)量指數(shù)QDJR 達(dá)到517.3,高于同類(lèi)合金低于500QDJR 值的水平.這一結(jié)果表明該策略有助于改善高強(qiáng)度Al-Si-Mg 系合金傳統(tǒng)設(shè)計(jì)方法周期長(zhǎng)、成本高、效率低的問(wèn)題.
憑借高強(qiáng)度(150—400 MPa)、耐腐蝕和可鑄性好的特點(diǎn),Al-Si-Mg 系合金被廣泛應(yīng)用于傳統(tǒng)制造行業(yè).在Al-Si-Mg 系合金的生產(chǎn)過(guò)程中,影響合金最終性能的因素很多.基于傳統(tǒng)試錯(cuò)實(shí)驗(yàn)來(lái)提升合金性能的方法主要包括改善合金成分[1?5],優(yōu)化熔煉[6]和熱處理工藝[7,8],以及制備金屬基復(fù)合材料[9,10]等.然而這些基于傳統(tǒng)試錯(cuò)實(shí)驗(yàn)的方法在設(shè)計(jì)新合金時(shí)存在周期長(zhǎng)、成本高的問(wèn)題.近年來(lái),隨著材料基因組計(jì)劃的提出和發(fā)展[11,12],材料研發(fā)開(kāi)始由經(jīng)驗(yàn)試錯(cuò)模式向基于知識(shí)驅(qū)動(dòng)、數(shù)據(jù)驅(qū)動(dòng)下的大數(shù)據(jù)分析-設(shè)計(jì)-預(yù)測(cè)的模式革新[13,14].
數(shù)據(jù)驅(qū)動(dòng)的金屬材料“成分-工藝-性能”的研究取得了顯著的進(jìn)展,尤其是在鋼材料和輕合金的研究中得到廣泛應(yīng)用.Wang 等[15]從馬氏體鋼的成分、熱處理工藝等19 個(gè)參數(shù)中篩選出7 個(gè)作為輸入,屈服強(qiáng)度和延伸率作為輸出,使用隨機(jī)森林算法得到能夠提升馬氏體鋼屈服強(qiáng)度和延伸率的有效成分(Cr 的質(zhì)量分?jǐn)?shù)為8%—9%)和工藝(回火溫度(755±5) ℃,回火時(shí)間30—120 min).Guo 等[16]通過(guò)篩選得到63127 個(gè)鋼的數(shù)據(jù)樣本,以Cu,Fe,S 等成分和退火溫度等參數(shù)作為輸入,屈服強(qiáng)度、抗拉強(qiáng)度和伸長(zhǎng)率作為輸出,基于隨機(jī)森林設(shè)計(jì)出滿足性能指標(biāo)的成分和工藝(質(zhì)量分?jǐn)?shù)為1%的C,屈服強(qiáng)度(YS)=600 MPa,屈服強(qiáng)度/抗拉強(qiáng)度(TS)=0.8).同樣將合金成分、工藝作為輸入,性能指標(biāo)作為輸出,建立機(jī)器學(xué)習(xí)預(yù)測(cè)模型在鋁、鎂輕合金領(lǐng)域也得到較多的應(yīng)用.對(duì)于加工生產(chǎn)普遍應(yīng)用的AZ31 變形鎂合金,Liu 等[17]基于實(shí)驗(yàn)數(shù)據(jù)使用人工神經(jīng)網(wǎng)絡(luò)算法建立AZ31 退火工藝(退火溫度、退火時(shí)間)與抗拉強(qiáng)度、屈服強(qiáng)度、延伸率間的預(yù)測(cè)模型,最終通過(guò)全排列訓(xùn)練優(yōu)化得到模型的平均相關(guān)系數(shù)為0.89,平均誤差下降了2.91%;Xu等[18]則使用人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)建立AZ31 合金成分(Zn,Al,Ca 等)、工藝參數(shù)(均勻化溫度、擠壓比、軋制溫度、軋制比等)與抗拉強(qiáng)度、屈服強(qiáng)度、延伸率之間的定量關(guān)系,并制造一種新的AZ31 合金(Mg-0.7489Zn-2.998Al).在鋁合金中,Chaudry 等[19]基于文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù)使用梯度提升樹(shù)算法搭建關(guān)于鋁合金成分(Al-Cu-Mg-x(x=Zn,Zr 等))-時(shí)效工藝-硬度之間的非線性預(yù)測(cè)模型,并對(duì)Al-4Cu-0.5Mg-0.15Si-0.1Sc 合金在175 和225 ℃時(shí)效的性能進(jìn)行準(zhǔn)確預(yù)測(cè),其均方誤差僅為7.27,決定系數(shù)達(dá)到0.94.
但是,由于數(shù)據(jù)量不足以及特征選擇較片面,現(xiàn)有的研究對(duì)于Al-Si-Mg 系合金的設(shè)計(jì)仍存在局限性.其中,Yang 等[20]以固溶時(shí)效溫度和時(shí)間4 種因素作為輸入使用人工神經(jīng)網(wǎng)絡(luò)對(duì)A357 合金的抗拉強(qiáng)度和伸長(zhǎng)率進(jìn)行了預(yù)測(cè),實(shí)驗(yàn)值與預(yù)測(cè)值的平均絕對(duì)誤差分別為0.7%和1.85%,并通過(guò)等值線圖找到了抗拉強(qiáng)度和伸長(zhǎng)率之間的關(guān)系.Yi 等[21]使用A356-xSr 合金的計(jì)算熱力學(xué)數(shù)據(jù)(相變溫度、相分?jǐn)?shù)、熱擴(kuò)散率、熱導(dǎo)率、成核指數(shù)等)來(lái)預(yù)測(cè)合金的抗拉強(qiáng)度、屈服強(qiáng)度和延伸率,并通過(guò)分析合金的凝固行為建立“成分-凝固組織”之間的非線性聯(lián)系得到該合金使用Sr 變質(zhì)的最佳質(zhì)量分?jǐn)?shù)為0.005%.但是,影響合金最終性能的因素有很多,僅選取部分因素來(lái)研究其對(duì)性能的影響會(huì)在實(shí)際應(yīng)用過(guò)程中受到限制.因此,有必要將上述研究過(guò)程中所使用到的這些特定的影響因素(合金的成分、熱處理工藝等)以及目前研究過(guò)程中未使用到的影響因素(模具溫度、澆注溫度)整合到一起,使用一個(gè)特征全面、高質(zhì)量的數(shù)據(jù)集通過(guò)機(jī)器學(xué)習(xí)來(lái)模擬整個(gè)實(shí)驗(yàn)過(guò)程,指導(dǎo)設(shè)計(jì)可以滿足性能需求的合金.
本研究提出一種可以同時(shí)滿足Al-Si-Mg 系合金成分、工藝設(shè)計(jì)和性能預(yù)測(cè)的機(jī)器學(xué)習(xí)策略.為了獲得特征全面、數(shù)據(jù)分布均勻和“噪聲”數(shù)據(jù)少的高質(zhì)量數(shù)據(jù)集,收集了關(guān)于Al-Si-Mg 系合金相關(guān)文獻(xiàn)的實(shí)驗(yàn)數(shù)據(jù)構(gòu)成了由文本數(shù)據(jù)和數(shù)值數(shù)據(jù)組成的多模態(tài)數(shù)據(jù)集.將實(shí)驗(yàn)過(guò)程中涉及的合金成分、熔煉工藝及熱處理工藝等因素作為輸入特征,抗拉強(qiáng)度作為輸出,通過(guò)構(gòu)建隨機(jī)森林和多重插補(bǔ)回歸模型實(shí)現(xiàn)新合金的設(shè)計(jì)及其性能預(yù)測(cè).最后經(jīng)過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證,基于該策略我們可以設(shè)計(jì)出滿足預(yù)期(345 MPa)抗拉強(qiáng)度達(dá)到349 MPa 的合金成分及熱處理工藝,優(yōu)于同類(lèi)合金使用Sr 變質(zhì)[22](Al-7.069Si-0.676Mg-0.02Sr) 341.8 MPa、Sc 變質(zhì)[3](Al-7Si-0.6Mg-0.12Sc) 324 MPa和復(fù)合稀土Re變質(zhì)[5](Al-6.75Si-0.63Mg-0.2Re)獲得349.1 MPa的結(jié)果.
本研究提出一種針對(duì)Al-Si-Mg 系合金“成分(Al,Si,Mg,Ti,Sr 等)-工藝(模具類(lèi)型、模具溫度、變質(zhì)溫度、澆注溫度、固溶和時(shí)效工藝)-性能(抗拉強(qiáng)度)”設(shè)計(jì)及預(yù)測(cè)的新策略,具體研究框架如圖1所示.該策略主要包含數(shù)據(jù)收集、數(shù)據(jù)處理、特征篩選、模型構(gòu)建、基于鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)方法的合金設(shè)計(jì)和工藝設(shè)計(jì)、基于隨機(jī)森林算法的性能預(yù)測(cè)、實(shí)驗(yàn)驗(yàn)證.
圖1 Al-Si-Mg 系合金設(shè)計(jì)示意圖Fig.1.Schematic diagram of Al-Si-Mg alloys design.
一個(gè)可以高效表達(dá)輸入與輸出之間非線性規(guī)律的機(jī)器學(xué)習(xí)模型不僅要有足夠的數(shù)據(jù)量,更需要保證數(shù)據(jù)的質(zhì)量.因此,本工作收集了從2010 年至今所有關(guān)于A356,A357,ZL101A,ZL114A 牌號(hào)的實(shí)驗(yàn)數(shù)據(jù),并選擇實(shí)驗(yàn)過(guò)程中可以影響抗拉強(qiáng)度的37 個(gè)因素作為輸入特征,如圖2 所示.其中合金成分主要包括Al,Mg,Si 等基體元素;變質(zhì)元素則是熔煉過(guò)程中常用到的Sr,Zr 等元素或稀土Y,Sc 等;熔煉工藝主要涉及模具類(lèi)型、模具溫度、變質(zhì)溫度等;熱處理工藝主要包含了T6 熱處理工藝的相關(guān)內(nèi)容.
圖2 Al-Si-Mg 合金“成分-工藝-性能”雙向設(shè)計(jì)示意圖Fig.2.Schematic diagram of bidirectional prediction of Al-Si-Mg alloy composition-process-property.
2.2.1 多模態(tài)數(shù)據(jù)集的建立及數(shù)據(jù)預(yù)處理
生活中可以通過(guò)視聽(tīng)等感官收集不同來(lái)源的信息,在大腦中對(duì)這些多模態(tài)的信息進(jìn)行理解、記憶并做出相應(yīng)的反應(yīng).在機(jī)器學(xué)習(xí)中,多模態(tài)數(shù)據(jù)主要是數(shù)據(jù)集中包含多種數(shù)據(jù)類(lèi)型,其中包括數(shù)字、文字、語(yǔ)音、圖片、視頻等.由于多模態(tài)數(shù)據(jù)間相互補(bǔ)充和相互關(guān)聯(lián)的關(guān)系的存在,使得模型能夠提取更多的特征并進(jìn)行更大范圍的預(yù)測(cè),從而獲得比單一數(shù)據(jù)模態(tài)模型更加可靠的預(yù)測(cè)結(jié)果.因此在本模型中,將模具類(lèi)型(金屬型、砂型)、后處理(鑄態(tài)、熱處理態(tài))等文本分類(lèi)描述性數(shù)據(jù)與傳統(tǒng)的數(shù)字類(lèi)型數(shù)據(jù)結(jié)合共同構(gòu)成本模型所使用的多模態(tài)數(shù)據(jù)集.
在多模態(tài)數(shù)據(jù)集中文本特征不能直接作為機(jī)器學(xué)習(xí)模型的輸入,必須進(jìn)行數(shù)字化處理.因此選用one-hot 方法[23]對(duì)文本數(shù)據(jù)進(jìn)行編碼,即使用n位狀態(tài)寄存器對(duì)n個(gè)特征進(jìn)行編碼,將分類(lèi)變量作為二進(jìn)制向量使用,將類(lèi)別字段映射成整數(shù)值,并與原數(shù)據(jù)集中的數(shù)值字段拼接成完整的數(shù)據(jù)集.
在數(shù)據(jù)集中不同字段的量綱或規(guī)模比例是完全不一樣的,從而導(dǎo)致特征值之間的差異較大,不利于樣本處理.因此對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理[24].轉(zhuǎn)換公式如下:
式中,μn為所有樣本數(shù)據(jù)的均值,Sn為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差,Xi為原數(shù)據(jù),Xn為現(xiàn)數(shù)據(jù).
2.2.2 特征篩選
為避免輸入特征中存在的冗余特征對(duì)模型計(jì)算造成負(fù)擔(dān),有必要通過(guò)特征相關(guān)性分析對(duì)高關(guān)聯(lián)性特征進(jìn)行篩選剔除.相關(guān)系數(shù)矩陣圖可以直觀表達(dá)出輸入特征數(shù)據(jù)之間的相關(guān)關(guān)系.由于本研究的輸入特征數(shù)值之間差異較大且不滿足正態(tài)分布的情況,因此選用對(duì)原始數(shù)據(jù)要求較低的斯皮爾曼相關(guān)系數(shù)進(jìn)行特征篩選[25].斯皮爾曼相關(guān)性分析是假設(shè)兩個(gè)具有相同元素個(gè)數(shù)N的隨機(jī)變量分別為X和Y,隨機(jī)取第i (1≤i≤N)個(gè)值分別用Xi,Yi表示.對(duì)X,Y進(jìn)行排序得到兩個(gè)元素排行集合x(chóng),y,其中元素xi,yi分別為Xi在X中的排行以及Yi在Y中的排行.將集合x(chóng),y中的元素對(duì)應(yīng)相減得到一個(gè)排行差分集合d,其中di=xi–yi,1 ≤i≤N.隨機(jī)變量X,Y之間的斯皮爾曼相關(guān)系數(shù)可以由d計(jì)算得到[26],其計(jì)算方式為
式中,ρ為斯皮爾曼相關(guān)相關(guān)系數(shù),di表示順序的差值,N表示數(shù)據(jù)個(gè)數(shù).
隨機(jī)森林是一種為了滿足預(yù)測(cè)需求集成多個(gè)相同類(lèi)型決策樹(shù)算法的集成機(jī)器學(xué)習(xí).隨機(jī)森林的預(yù)測(cè)結(jié)果依賴于其中的每一個(gè)決策樹(shù)算法,是所有決策樹(shù)算法預(yù)測(cè)結(jié)果的平均值,所以隨機(jī)森林比單個(gè)決策樹(shù)得到的結(jié)果更加準(zhǔn)確[27,28].由于隨機(jī)森林對(duì)數(shù)據(jù)集中的噪聲不敏感,其更偏向于處理特征和輸出之間復(fù)雜的非線性關(guān)系[15,16].因此在本研究中主要采用隨機(jī)森林算法來(lái)建立模型,并將建立線性回歸模型作為對(duì)照.訓(xùn)練前按4∶1 將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,為進(jìn)一步衡量模型對(duì)未知樣本預(yù)測(cè)效果,選用決定性系數(shù)R來(lái)評(píng)估模型準(zhǔn)確性,其定義為
基于鏈?zhǔn)椒匠痰亩嘀夭逖a(bǔ)方法最初由van Buuren 等[29]提出并應(yīng)用于關(guān)于老年人生存影響的研究當(dāng)中,之后在關(guān)于解決高空中電波傳播數(shù)據(jù)缺失[30]以及電網(wǎng)電能量數(shù)據(jù)缺失[31]等計(jì)算物理領(lǐng)域的問(wèn)題中有較好的表現(xiàn).
多重插補(bǔ)算法主要是通過(guò)確定被插補(bǔ)變量與協(xié)變量的條件分布,來(lái)對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)充的一種方法[32].實(shí)際上是由一系列回歸模型組成,即將數(shù)據(jù)集中具有缺失值的各個(gè)變量作為回歸算法中的因變量,將其他剩余變量作為預(yù)測(cè)變量,依次擬合每個(gè)回歸模型來(lái)對(duì)缺失的數(shù)據(jù)進(jìn)行回歸預(yù)測(cè),其主要原理如圖3 所示.其中X表示數(shù)據(jù)集的屬性數(shù)量,Xj(j=1,2,3,···,s)表示第j個(gè)屬性的名稱,深藍(lán)色方框表示缺失值,淺藍(lán)色方框表示現(xiàn)有值,m表示填充次數(shù).
圖3 鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)示意圖Fig.3.Schematic diagram of chain equation multiple imputation.
假設(shè)數(shù)據(jù)集有N個(gè)變量,如果N3為缺少值,那么它將在其他變量N1,N2,N4到Nk上回歸.然后,將N3中的缺失值替換為獲得的預(yù)測(cè)值.針對(duì)同一個(gè)數(shù)據(jù)集,在多重插補(bǔ)法主要為每一個(gè)缺失值同時(shí)構(gòu)造m個(gè)插補(bǔ)值(m>1),這樣就會(huì)生成m個(gè)數(shù)據(jù)集,對(duì)每個(gè)數(shù)據(jù)集使用相同的方法進(jìn)行處理,得到m個(gè)結(jié)果,對(duì)來(lái)自各個(gè)插補(bǔ)數(shù)據(jù)集的結(jié)果進(jìn)行整合,產(chǎn)生最終的統(tǒng)計(jì)推斷.
實(shí)驗(yàn)前將各金屬器具、坩堝置于干燥箱中200 ℃恒溫干燥5 h,金屬模具預(yù)熱至200 ℃,所有接觸的鐵質(zhì)器具均在表面噴涂涂料.實(shí)驗(yàn)過(guò)程依次采用Al-5Ti-B 進(jìn)行細(xì)化處理、Al-10Sr 進(jìn)行變質(zhì)處理.
室溫拉伸實(shí)驗(yàn)采用厚度為2.5 mm 的拉伸片(參考GB/T 228.1—2010 標(biāo)準(zhǔn)),采用AG-X plus電子萬(wàn)能試驗(yàn)機(jī)進(jìn)行拉伸實(shí)驗(yàn),取3 個(gè)試樣的平均值作為最終測(cè)試結(jié)果.
通過(guò)斯皮爾曼相關(guān)性分析得到除合金成分外24 個(gè)輸入特征兩兩之間的關(guān)系(合金成分屬于必要的輸入特征),如圖4 所示.圖中斯皮爾曼相關(guān)系數(shù)的正負(fù)代表正相關(guān)或負(fù)相關(guān).數(shù)值大小代表相關(guān)程度,數(shù)值越接近于1 代表兩參量之間的正相關(guān)度越高,將中度相關(guān)等級(jí)±0.75 視為閾值[33].如果兩輸入特征之間的相關(guān)系數(shù)絕對(duì)值大于0.75 時(shí),則說(shuō)明兩輸入特征之間的關(guān)聯(lián)程度較高,需要剔除高相關(guān)性的特征.如圖4 所示,根據(jù)計(jì)算共獲得一組包含兩個(gè)超過(guò)閾值的特征: Sn 和Te,因此,在指導(dǎo)設(shè)計(jì)實(shí)驗(yàn)時(shí)對(duì)于變質(zhì)劑的選擇Sn 和Te 僅需保留其中一個(gè).同時(shí)存在部分特征系數(shù)接近閾值,其主要集中在在熱處理工藝附近,例如固溶溫度和水淬溫度二者系數(shù)達(dá)到0.72,在此稱其為強(qiáng)相關(guān)性特征.當(dāng)我們需要進(jìn)一步優(yōu)化模型時(shí),我們可以選擇對(duì)部分強(qiáng)相關(guān)性特征進(jìn)行二次篩選來(lái)提高整個(gè)模型的效率.
圖4 斯皮爾曼相關(guān)系數(shù)矩陣圖.紫色代表正相關(guān),黃色代表負(fù)相關(guān);橢圓越扁,數(shù)值越大;*號(hào)為顯著性標(biāo)記,根據(jù)顯著性水平變化進(jìn)行設(shè)置,小于0.05 和小于0.01 分別顯示*和**Fig.4.Spearman correlation coefficient matrix plot.Purple represents a positive correlation,and yellow represents a negative correlation;the flatter the ellipse,the larger the value;the * sign is a significant mark,which is set according to the change of the significance level,and it is displayed as * and ** when it is less than 0.05 and less than 0.01.
篩選確定了模型的輸入特征后,對(duì)隨機(jī)森林和線性回歸兩種模型的泛化能力進(jìn)行測(cè)試,并得到訓(xùn)練集和測(cè)試集的預(yù)測(cè)精度,如圖5(a),(b)所示,隨機(jī)森林訓(xùn)練集和測(cè)試集的決定系數(shù)分別為0.989和0.92,圖5(c),(d)則是線性回歸訓(xùn)練集和測(cè)試集的決定系數(shù),分別為0.92 和0.79.通過(guò)對(duì)比兩種模型的結(jié)果,可以發(fā)現(xiàn)隨機(jī)森林模型的擬合程度幾乎與y=x重合,其預(yù)測(cè)結(jié)果非常接近實(shí)際值,同時(shí)也證實(shí)隨機(jī)森林的預(yù)測(cè)效果優(yōu)于線性回歸.
圖5 隨機(jī)森林算法泛化能力測(cè)試結(jié)果 (a)隨機(jī)森林模型訓(xùn)練集的預(yù)測(cè)精度;(b)隨機(jī)森林模型測(cè)試集的預(yù)測(cè)精度;(c)線性回歸模型訓(xùn)練集的預(yù)測(cè)精度;(d)線性回歸模型測(cè)試集的預(yù)測(cè)精度Fig.5.Random forest algorithm generalization ability test results: (a) The prediction accuracy of the random forest model training set;(b) the prediction accuracy of the random forest model test set;(c) the prediction accuracy of the linear regression model training set;(d) the prediction accuracy of the linear regression model test set.
在進(jìn)行合金成分及工藝的設(shè)計(jì)時(shí),將合金目標(biāo)性能作為特征輸入,將要預(yù)測(cè)的合金的成分或相關(guān)工藝參數(shù)在數(shù)據(jù)集中設(shè)置為空值并作為輸出,之后通過(guò)鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)對(duì)數(shù)據(jù)集中缺失的成分或工藝參數(shù)進(jìn)行多次回歸插補(bǔ),生成多組數(shù)據(jù)結(jié)果指導(dǎo)實(shí)驗(yàn)設(shè)計(jì)如表1 所示并對(duì)其進(jìn)行實(shí)驗(yàn)驗(yàn)證得到圖6 所示結(jié)果.
圖6 新合金的成分及工藝的實(shí)驗(yàn)結(jié)果Fig.6.Experimental results of the composition and process of the new alloy.
表1 新合金的成分和工藝Table 1.Composition and process of new alloys.
為了進(jìn)一步顯示基于模型所設(shè)計(jì)合金的綜合性能,引入用來(lái)評(píng)估Al-Si-Mg 鑄造合金拉伸性能的質(zhì)量指數(shù)QDJR=UTS+150log(EL)[34](其中UTS為最終抗拉強(qiáng)度,EL 為伸長(zhǎng)率),結(jié)果如表2 所示.
如表2 所示,經(jīng)實(shí)驗(yàn)驗(yàn)證得到抗拉強(qiáng)度實(shí)驗(yàn)值與目標(biāo)值相對(duì)誤差控制在±5%之間,尤其通過(guò)第八組實(shí)驗(yàn)證實(shí)Al-6.8Si-0.6Mg-0.05Sr 的成分配比和540 ℃×10 h+170 ℃×10 h 工藝方案綜合拉伸性能表現(xiàn)優(yōu)異,QDJR質(zhì)量指數(shù)達(dá)到517.3 (抗拉強(qiáng)度為349.6 MPa,伸長(zhǎng)率為13.1%).
表2 實(shí)驗(yàn)結(jié)果及誤差對(duì)比Table 2.Experimental results and error comparison..
本研究中,為了表現(xiàn)模型在實(shí)際應(yīng)用過(guò)程中的多樣性和普適性,選取了多個(gè)不同尺度的特征變量如變質(zhì)劑含量、變質(zhì)溫度、澆注工藝、熱處理工藝等來(lái)研究其對(duì)抗拉強(qiáng)度的影響,結(jié)果如圖7 和圖8所示.圖7(a)—(d)的誤差帶圖分別對(duì)應(yīng)變質(zhì)劑含量[35]、變質(zhì)溫度[36]、模具溫度[37]和澆注溫度[37]的變化對(duì)合金性能的影響.圖8(a),(b)是基于控制變量法分別從固溶工藝和時(shí)效工藝的角度評(píng)估模型預(yù)測(cè)合金性能的準(zhǔn)確性[38].從圖7 可以看到,隨著特征自變量的變化,預(yù)測(cè)值相對(duì)于實(shí)驗(yàn)值始終保持在±5%的誤差帶內(nèi),由此說(shuō)明模型可以針對(duì)不同自變量的變化做出準(zhǔn)確的結(jié)果預(yù)測(cè).在圖8 中,模型不僅預(yù)測(cè)出在誤差范圍內(nèi)的預(yù)測(cè)值,而且預(yù)測(cè)值整體呈現(xiàn)出來(lái)的變化趨勢(shì)與實(shí)驗(yàn)值相同,這也證明通過(guò)模型可以在不進(jìn)行試錯(cuò)實(shí)驗(yàn)的前提下就可以獲得合金的最佳成分和工藝.
圖7 性能預(yù)測(cè)結(jié)果 (a)變質(zhì)劑K2ZrF6 的含量對(duì)合金性能影響;(b)變質(zhì)溫度對(duì)合金性能的影響;(c)模具溫度對(duì)合金性能的影響;(d)澆注溫度對(duì)合金性能的影響Fig.7.Performance prediction results: (a) The effect of the content of modifier K2ZrF6 on the properties of the alloy;(b) the effect of the modification temperature on the properties of the alloy;(c) the effect of the mold temperature on the properties of the alloy;(d) the effect of the pouring temperature on the properties of the alloy.
圖8 基于控制變量法的合金性能預(yù)測(cè)結(jié)果 (a)固溶工藝對(duì)合金性能的影響;(b)時(shí)效工藝對(duì)合金性能的影響Fig.8.Prediction Results of alloy properties based on controlled variable method: (a) Effect of solution process on alloy properties;(b) effect of aging process on alloy properties.
和同類(lèi)研究建立單一的成分-性能或熱處理工藝-性能等的研究相比,本研究考慮了更多潛在的可以影響合金性能的因素,這不僅使得模型的預(yù)測(cè)結(jié)果更加準(zhǔn)確,同時(shí)基于模型得到新合金的性能也更優(yōu)于同類(lèi)合金.如圖9 所示,基于本模型得到Al-6.8Si-0.6Mg-0.05Sr 的成分配比和540 ℃×10 h+170 ℃×10 h 工藝方案綜合拉伸性能與同類(lèi)合金相比處于較高的水平,其QDJR質(zhì)量指數(shù)達(dá)到517.3,高于同樣使用Sr 變質(zhì)(Al-7.069Si-0.676Mg-0.02Sr)的合金[22],以及使用稀土進(jìn)行變質(zhì)的同類(lèi)合金[3?5].
圖9 合金性能定量比較Fig.9.Quantitative comparison of alloy properties.
本研究主要使用鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)的方法對(duì)合金成分和工藝進(jìn)行回歸預(yù)測(cè),并使用概率分布圖對(duì)插補(bǔ)對(duì)象的準(zhǔn)確性進(jìn)行評(píng)估,如圖10 所示.在原始數(shù)據(jù)旁邊區(qū)分顯示插補(bǔ)值的分布來(lái)判斷預(yù)測(cè)結(jié)果與原始數(shù)據(jù)之間的分布差異,紅線代表原始數(shù)據(jù)的分布,黑線則是每個(gè)數(shù)據(jù)集的插補(bǔ)(估算)值.在圖中可以看到,通過(guò)對(duì)主要特征參數(shù),如鎂硅含量、變質(zhì)劑含量、熱處理工藝等的估算值的概率密度進(jìn)行計(jì)算,將其所擬合出的曲線與原始數(shù)據(jù)的密度分布曲線比較,得出估算值的概率分布與原始數(shù)據(jù)整體分布規(guī)律基本一致,說(shuō)明通過(guò)鏈?zhǔn)椒匠滩逖a(bǔ)設(shè)計(jì)的合金的成分和工藝與原始數(shù)據(jù)在數(shù)據(jù)集中滿足相同的概率分布.
圖10 預(yù)測(cè)概率分布圖Fig.10.Prediction probability distribution map.
雖然模型預(yù)測(cè)結(jié)果符合原始數(shù)據(jù)的分布規(guī)律,但是最終預(yù)測(cè)的精度差異仍比較明顯,例如在圖7中仍然存在個(gè)別噪聲點(diǎn),曲線的增長(zhǎng)趨勢(shì)與實(shí)驗(yàn)值只是在誤差帶內(nèi)保持同步.從模型角度分析發(fā)現(xiàn)目前研究熱處理工藝對(duì)性能的影響的工作量遠(yuǎn)遠(yuǎn)超過(guò)熔煉工藝(見(jiàn)補(bǔ)充材料),這也導(dǎo)致數(shù)據(jù)集中以熔煉工藝為自變量的數(shù)據(jù)遠(yuǎn)遠(yuǎn)少于以熱處理工藝為研究對(duì)象的數(shù)據(jù),最終形成: 單一特征數(shù)據(jù)量的差異→模型對(duì)不同自變量泛化能力的差異→模型對(duì)不同自變量預(yù)測(cè)結(jié)果的差異;同時(shí),對(duì)模型特征重要性進(jìn)行量化時(shí)發(fā)現(xiàn)輸入特征的重要性分?jǐn)?shù)差別較大,如圖11 所示,合金的熱處理工藝在模型的重要性分?jǐn)?shù)中所占比例最高,這也證明了熱處理工藝特征在模型中發(fā)揮著與具體實(shí)驗(yàn)通過(guò)熱處理提高合金性能相同的作用;對(duì)于合金成分的重要性分?jǐn)?shù)來(lái)說(shuō),造成其差異的主要原因是基體元素Al,Si,Mg 外的其余元素是作為變質(zhì)劑、細(xì)化劑進(jìn)行添加的,其在整個(gè)數(shù)據(jù)集中的有效數(shù)據(jù)量遠(yuǎn)遠(yuǎn)低于基體元素,所以其重要性分?jǐn)?shù)較低,最終導(dǎo)致模型對(duì)不同自變量預(yù)測(cè)結(jié)果的差異.
圖11 特征重要性分?jǐn)?shù)Fig.11.Feature importance.
因此可以確定,在一個(gè)模型中,當(dāng)一部分小眾化的研究特征出現(xiàn)在數(shù)據(jù)集中并作為研究對(duì)象時(shí),其特征自身屬性的差異以及其自身數(shù)據(jù)量的差異,都是造成模型預(yù)測(cè)效果差異的主要原因.
基于機(jī)器學(xué)習(xí)搭建了多模態(tài)輸入的Al-Si-Mg系合金性能預(yù)測(cè)-成分-工藝設(shè)計(jì)完整閉環(huán)模型.綜合考慮實(shí)驗(yàn)過(guò)程中能夠影響合金性能的因素,將同一體系不同牌號(hào)合金的成分、熔煉及熱處理工藝等實(shí)驗(yàn)因素作為特征,通過(guò)隨機(jī)森林尋找特征與性能之間的非線性規(guī)律,多角度,多變量的實(shí)現(xiàn)合金性能的預(yù)測(cè);使用鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)方法對(duì)目標(biāo)數(shù)據(jù)進(jìn)行回歸預(yù)測(cè),最終實(shí)現(xiàn)新合金成分和工藝的設(shè)計(jì).結(jié)果表明: 模型中隨機(jī)森林算法的決定系數(shù)可以達(dá)到0.989,使用鏈?zhǔn)椒匠潭嘀夭逖a(bǔ)算法得到的Al-6.8Si-0.6Mg-0.05Sr 的成分配比和540 ℃×10 h+170 ℃×10 h 工藝方案后經(jīng)實(shí)驗(yàn)證實(shí)其綜合拉伸性能表現(xiàn)優(yōu)異,質(zhì)量指數(shù)QDJR達(dá)到517.3 (抗拉強(qiáng)度為349.6 MPa,伸長(zhǎng)率為13.1%),其他使用本模型改變多個(gè)自變量進(jìn)行性能預(yù)測(cè)或指導(dǎo)設(shè)計(jì)的合金的抗拉強(qiáng)度誤差均保持在±5%之內(nèi).這證實(shí)本文所建立的多模態(tài)數(shù)據(jù)庫(kù)和機(jī)器學(xué)習(xí)模型可以很好地指導(dǎo)實(shí)驗(yàn),縮短實(shí)驗(yàn)周期,降低實(shí)驗(yàn)成本,提高整體實(shí)驗(yàn)效率從而設(shè)計(jì)出更高性能的合金.