機器學習輔助高熵合金設計的研究進展

2021-09-18 08:21:00趙鼎祺喬珺威吳玉程

中國材料進展 2021年7期

趙鼎祺，喬珺威，吳玉程

(太原理工大學材料科學與工程學院，山西太原 030024)

1 前言

機器學習的目的是挖掘大數(shù)據(jù)背后隱藏的價值，某種程度上可以看成是一種經(jīng)驗式地對實驗結果的抽象概括。還有的人認為機器學習是一種唯象理論(唯象理論是對實驗現(xiàn)象的總結與凝練，其先于理論架構，又被稱為前科學)。有關唯象理論的一個著名的例子便是牛頓的萬有引力定律：開普勒利用天文學家第古積累下的資料，通過仔細的分析研究，從龐大的數(shù)據(jù)中抽象出了模型并提出了著名的開普勒定律，被人稱為天空的立法者；而牛頓又在此基礎上更進一步提出了牛頓定律,建立了經(jīng)典力學體系。然而,在牛頓的萬有引力背后同樣有著更深層次的概念：相對論與量子力學。相對于更深層次的概念來說，現(xiàn)有的概念都可以看成是唯象理論。在信息時代，數(shù)據(jù)極度豐富，建立在大數(shù)據(jù)基礎上的機器學習，必將迎來爆發(fā)式的發(fā)展。

高熵合金又名多組分合金，自提出以來便備受關注。傳統(tǒng)的合金設計多以一種元素為主，而高熵合金最初的設計理念則是試圖將多種元素同時視為主要元素，用構型熵抑制金屬間化合物相的形成。隨著高熵合金的發(fā)展，設計理念逐漸從第一代高熵合金發(fā)展到第二代高熵合金，越來越多的探索從尋找單相固溶體轉移到對高熵合金微觀結構的調控。毋庸置疑的是，在多組分合金設計理念的指導下不僅誕生出了許多性能卓越的合金成分，更進一步激發(fā)了人們對合金設計的全新思考。這種設計理念在擴展合金成分設計空間的同時也給我們帶來了更大的挑戰(zhàn)。傳統(tǒng)的實驗試錯法在面對如此巨大的可探索空間時明顯缺乏效率。因此，合理的高熵合金探索策略便顯得尤為重要。常見的一些模擬計算方法，比如從頭算和基于熱力學數(shù)據(jù)庫的方法可以提高科研工作者的探索效率，但與傳統(tǒng)合金相比，高熵合金中元素的數(shù)量以及微觀結構的多樣性使計算的復雜性與密集程度大幅增加。近年來，材料科學相關的計算活動已經(jīng)由純粹地對材料的計算研究轉移到結合計算結果和大數(shù)據(jù)來指導新材料的設計上來。機器學習是以數(shù)據(jù)為中心的方法中最活躍的生產(chǎn)工具，正在與高熵合金的探索設計相結合，這種學科交叉展現(xiàn)出了巨大的潛力。

2 材料科學中的機器學習簡述

前兩次工業(yè)革命將人類從繁瑣的體力勞動中解放出來，進一步我們希望解放腦力，機器學習便源于對人工智能的追求。人工智能經(jīng)歷了多次繁榮與衰落，在20世紀80年代有三大學派：符號學派、連接學派、行為學派。最初人們認為人工智能源于數(shù)理邏輯，希望機器可以通過使用各種模式或符號來模擬人類的智能活動[1]，緊接著受大自然的啟發(fā)，人們進一步研究了基于連接原理的方法，例如神經(jīng)元網(wǎng)絡[2]和感知器[3]。幾種建立在嚴謹?shù)慕y(tǒng)計學理論上的方法也被發(fā)揚光大，例如支持向量機[4]和決策樹[5]。還有學者將目光聚焦到了低等動物的快速反應能力上，致力于有關控制論的研究。人工智能在經(jīng)歷了一系列的曲折發(fā)展后，沉寂多年的連接學派東山再起，大數(shù)據(jù)結合基于神經(jīng)元網(wǎng)絡的深度學習成為現(xiàn)在最熱門的人工智能解決方案，并引發(fā)了一場逐步向各個領域滲透的革命，這一革新同樣引起了材料學界的關注。打敗圍棋高手李世石的Alphago就是一個基于神經(jīng)元網(wǎng)絡的深度學習案例。機器學習橫跨計算機科學、工程技術、統(tǒng)計學等多個學科，作為一個強有力的工具應用于從生物學到社會學等多個學科。凡是產(chǎn)生數(shù)據(jù)的學科都可以應用機器學習。

同高熵合金概念一樣，蓬勃發(fā)展的學科會不斷擴展初始概念的含義，因此歷史上對機器學習定義的解釋都有片面性。在這里將采用湯姆米切爾的觀點來解釋機器學習：機器學習的本質是對于某類任務T和性能度量P，如果一個計算機程序在T上以P衡量的性能隨著經(jīng)驗E而自我完善，那么我們就稱這個計算機程序在從經(jīng)驗E中學習。機器學習可以看成是對數(shù)據(jù)的挖掘過程，通過分析數(shù)據(jù)彰顯數(shù)據(jù)背后的價值，在材料科學中常見的用途是分類、回歸、聚類、密度估計、降維等。

如圖1所示，構建機器學習系統(tǒng)分為3個步驟：樣本構建、模型構建和模型評估。樣本構建包括數(shù)據(jù)預處理和特征工程兩個部分，其中數(shù)據(jù)預處理是指將原始數(shù)據(jù)轉換為樣本以及進一步的數(shù)據(jù)清理。數(shù)據(jù)清理將識別不完整、不正確和不相關的數(shù)據(jù)，然后替換、修改或刪除這些數(shù)據(jù)。特征工程包括特征提取、特征選擇、特征構建和特征學習，是通過領域內(nèi)的專家知識來創(chuàng)建特征的過程。特征工程是機器學習中至關重要的一環(huán)，有種說法是,特征工程決定機器學習的上限，而算法則是不斷逼近這一上限。在樣本構建的過程中還可以采用探索性數(shù)據(jù)分析的方法，獲得對數(shù)據(jù)的初步了解，提前對數(shù)據(jù)進行透視、分組、過濾。數(shù)據(jù)質量將對最終模型產(chǎn)生非常重要的影響，通常來講，數(shù)據(jù)處理將花費整個建模過程的絕大部分時間。模型構建包括制定具體的機器學習算法和模型優(yōu)化算法等，需要根據(jù)實際情況來決定使用哪種算法，沒有免費午餐(no free lunch, NFL)理論告訴我們?nèi)魏嗡惴ǖ念A期都是相似的[6]，而且沒有任何算法可以通用于所有領域。對于材料科學的典型研究而言，條件因素與目標屬性之間通常存在復雜的關系，而傳統(tǒng)方法難以處理。我們不僅希望模型能在現(xiàn)有的數(shù)據(jù)集上取得很好的效果，還希望在未知的數(shù)據(jù)集上同樣能保留很好的泛化能力，因此我們需要對模型進行評估。過擬合與欠擬合都是訓練模型中經(jīng)常遇到的兩種問題，需要根據(jù)具體問題采取不同措施。誤差、時間與空間復雜度、穩(wěn)定性、遷移性等也是模型評估的重要因素。

圖1 機器學習步驟[7]Fig.1 Machine learning steps[7]

如圖2所示，機器學習在材料發(fā)現(xiàn)和設計中的應用可以分為3大類：材料屬性預測、新材料發(fā)現(xiàn)以及各種其他用途。在關于材料屬性預測的研究中，通常使用回歸分析的方法預測宏觀和微觀特性。在新材料發(fā)現(xiàn)時使用概率模型來篩選結構和成分的各種組合，還可以配合從頭算等方法對材料進行預測。此外，機器學習還可用于材料科學中的其他方面，例如制造過程中參數(shù)的優(yōu)化[8]。機器學習已經(jīng)廣泛應用于材料學領域的各個方面[9-19]，包括成分設計、材料制備工藝以及對機理研究等等。

圖2 材料科學中的機器學習[7]Fig.2 Machine learning in materials science[7]

機器學習屬于一種以數(shù)據(jù)為中心的方法，它可以從大量數(shù)據(jù)中挖掘價值。人們很早便注意到了這一方法的重要性，在材料相關學科中同樣建立了大量的數(shù)據(jù)庫。材料基因組計劃便是一個很好的例子，通過結合高通量實驗[10, 20, 21]，利用高通量計算開發(fā)大規(guī)模數(shù)據(jù)庫，然后從眾多的材料數(shù)據(jù)中提取價值，預測新材料的性質并指導下一步實驗。這種方法將助力于新材料的發(fā)現(xiàn)。

3 高熵合金簡述

傳統(tǒng)的合金大多以一種成分為主，比如鎂合金、鋁合金、鎳基合金等，通過添加少量的其他元素來獲得良好的性能。而高熵合金[22, 23]是21世紀初引入的一種新的合金設計理念，在這種理念中，元素以等原子比或近等原子比混合，試圖最大化構型熵。在高熵合金概念提出之前，人們往往認為這些由多主元元素組成的合金中會形成大量金屬間化合物相或其他復雜相[24]。與預期相反的是，研究發(fā)現(xiàn)很多高熵合金仍然是單相的固溶體結構，主要是面心立方(FCC)、體心立方(BCC)或兩者的混合物。這種結構使高熵合金具有優(yōu)良的性能，包括低溫韌性、高溫下的強度和熱穩(wěn)定性、良好的耐腐蝕和耐磨性以及在極端條件下良好的服役性能[25-28]。

圖3為傳統(tǒng)合金與高熵合金的晶胞結構對比圖[29]。多主元合金的設計理念使得科研人員對金屬材料的選擇從相圖的邊角區(qū)域轉移到了相圖的中心區(qū)域，同時這種理念提供了更龐大的成分選擇空間，五元高熵合金便將可選擇方案數(shù)量擴大到了原先的近百倍。在研究高熵合金的早期階段，有學者提出高熵合金中有四大效應：高熵效應、遲滯擴散效應、晶格畸變效應、雞尾酒效應。隨著后來的進一步實驗，認為這些效應的重要性可能并沒有當初所想的那么大。熵效應的效果被明顯夸大了[30-33]，很多對高熵合金中相穩(wěn)定性的研究結論并不支持高熵效應的觀點，很多高熵合金在中間溫度退火會分解成多個純金屬和金屬間化合物[34]，這種相分解一定程度上影響著高熵合金在高溫中的應用。同樣，也沒有足夠的證據(jù)能說明高熵合金與傳統(tǒng)的鋼鐵材料相比有很大的晶格畸變。在許多高熵合金中同樣能觀察到快速的相析出，因此遲滯效應也受到一定的挑戰(zhàn)。而雞尾酒效應并不屬于效應，只是一個描述的角度。因此，對高熵合金的命名也產(chǎn)生了新的爭論。然而對金屬研究領域來說，這是一個令人振奮的機會。合金組成成分的復雜性意味著存在發(fā)現(xiàn)更多不同尋常性能的機會。對復雜成分合金行為的理解有助于提高對金屬領域基礎科學的認識。因此，高熵合金是目前材料科學中最具啟發(fā)性和前景的研究領域之一。

圖3 傳統(tǒng)合金(a)與高熵合金(b)的晶胞結構[29]Fig.3 Lattice structures of conventional alloy (a) and high entropy alloy (b)[29]

高熵合金的命名來源于玻爾茲曼的公式，熵是系統(tǒng)內(nèi)無序性的一種度量。整個宇宙的一切事物都將從有序轉變?yōu)闊o序，這也叫做熵增定律。熵的概念經(jīng)過克勞修斯、玻爾茲曼、吉布斯、香農(nóng)等人的深入研究，應用領域從熱力學擴展到了信息學。如果將原子點陣看成是鋼球模型，并假設微觀狀態(tài)等概率分布，那么它們傾向于形成宏觀狀態(tài)的高斯分布。

當組成金屬的原子形成無序排列的時候，系統(tǒng)的構型熵最大，與之相對應的合金相稱為固溶體相。而金屬間化合物相屬于長程有序狀態(tài)，高熵效應會抑制這種有序狀態(tài)。最初人們對高熵合金的研究熱衷于對單相固溶體的尋找，隨著研究的進展，注意力轉移到了微觀結構設計?，F(xiàn)在對高熵合金的研究仍然屬于起步階段，很多研究都是將對鋼鐵材料和鎳基合金的設計思路延續(xù)到了高熵合金中，比如孿晶誘導塑性和相變誘導塑性等。對高熵合金中很多微觀機理的探究仍待深入，復雜的成分理論上可以提供更廣闊的微觀機制調節(jié)空間。比如，同鎳基合金相比，高熵合金中的固溶體要更為復雜。最開始的研究認為固溶體既可以提升強度又能保留很大塑性，后來發(fā)現(xiàn)，只要能對微觀組織進行很好的調控，即使是兩種金屬間化合物相也能具備很好的性能[35]，金屬間化合物相也并非總會使合金脆化。復雜的成分和更多的微觀結構可能性依舊是未來對高熵合金最具吸引力的研究動機。

4 高熵合金設計中的機器學習

隨著高熵合金的發(fā)展，越來越多的成分被開發(fā)出來。高通量濺射沉積實驗是目前常用的高通量的合金制備方案，如圖4[36]所示,這種方法可以將材料從作為源的“靶”噴射到基板上，控制工藝參數(shù)，可以在基板上形成所需的物質?？刂乒に噮?shù)可以對薄膜的生長結果和微觀組織進行精確調控。這種方法很適合高熵合金薄膜的制備，通過工藝參數(shù)的調控可以對薄膜選定區(qū)域的元素分布實現(xiàn)梯度變化。通過不同元素分布的梯度變化可以實現(xiàn)合金成分的連續(xù)變化，實現(xiàn)材料的高通量制備，研究成分變化對合金性能的影響。

圖4 高通量濺射沉積實驗示意圖[36]Fig.4 Schematic of high flux sputtering deposition experiment[36]

這些新興的方法可以很大程度上提高新合金成分的開發(fā)速度。隨著合金成分探索加快和合金數(shù)據(jù)庫的不斷增大[12, 13, 37, 38]，材料科研人員需要一種能夠幫助他們快速評估、分析這些大數(shù)據(jù)的方法。而機器學習無疑可以與高熵合金探索策略相輔相成[39, 40]。

4.1 機器學習同傳統(tǒng)方法相比較

高熵合金概念自提出以來便伴隨著對相形成規(guī)律的討論[41]，相在高熵合金設計中一直起著關鍵作用[42-45]。在高熵合金的設計策略中，對未知合金成分相的組成以及相穩(wěn)定程度的預測是一個很重要的設計角度。很多高通量的探索策略取得了不錯的效果，一種是基于從頭算[46, 47]的方法，比如Yoav等[48]利用從頭算的方法，通過判斷固溶體的形成能力來預測合金成分的有序無序轉變。Troparevsky等[49]利用從頭算計算二元合金子系統(tǒng)的形成焓，并通過這些焓來估計多組分系統(tǒng)的穩(wěn)定程度。另一種是基于相圖計算(CALculation of PHAse Diagram，CALPHAD)方法[50, 51]，比如Senkov等[33]利用高通量的CALPHD方法預測合金可能存在的相，快速評估了130 000余組合金成分。Abu-Odeh等[52]利用約束滿足算法縮小遍歷空間，再利用CALPHAD對所得的結果加以驗證。

上述兩種通過計算機對新材料進行評估和篩選的方法無疑可以將材料科研人員從繁瑣的實驗中解放出來，但這兩種方法有很大的局限性：準確性極度依賴于數(shù)據(jù)庫以及模擬的精確程度，并且無法與實驗結果建立直接關系。每次計算與模擬都是單獨的，無法從前面的計算中獲得經(jīng)驗。這與以數(shù)據(jù)為中心的方法不同，以數(shù)據(jù)為中心的方法并不是獨立的，它可以與面向材料的計算相結合。Curtarolo等[53]使用主成分分析與從頭算相結合，根據(jù)晶體結構的能量與化學系統(tǒng)之間的相關性預測材料的結構并取得了很好的效果。Kim等[54]結合原位中子衍射、第一性原理計算和機器學習研究了Al0.3CoCrFeNi高熵合金的彈性性質、彈性模量和各向異性，使用梯度提升樹在數(shù)據(jù)庫中6826個有序無機化合物上進行訓練，預測了體積模量和剪切模量的平均值。他們構建的梯度提升樹模型使用了結構特征和組合特征：每種化合物的性質，如密度和原子的結合能被表示為結構特征；對與元素有關但與化合物無關的屬性進行加權組合(如原子半徑和基團數(shù))生成組合特征；對每種化合物均生成67個特征。并使用多目標優(yōu)化遺傳算法生成優(yōu)化模型對特征進行篩選。與傳統(tǒng)的第一性原理計算相比，機器學習的速度要快很多。

4.2 統(tǒng)計學方法

高熵合金領域很早便開始從數(shù)據(jù)的角度出發(fā)解決問題，比如利用啟發(fā)式方法提出一些簡單的物化判據(jù)來預測高熵合金或非晶中的相形成規(guī)律[41, 44, 55-63]。奧卡姆剃刀原理并非放之四海皆準，傳統(tǒng)的簡單線性組合方法已經(jīng)無法滿足預測需求。早在2013年，Nong等[64]利用固溶體物理參數(shù)：原子尺寸差、混合焓、電負性差和價電子濃度，研究了鑄態(tài)高熵合金立方相的穩(wěn)定性并作出預測。但該研究中采用的數(shù)據(jù)集太小，缺乏統(tǒng)計學意義。以數(shù)據(jù)為中心的方法中，數(shù)據(jù)庫的大小與質量是相當重要的。Tancret等[65]采用統(tǒng)計學方法，提出了一個基于熱力學與高斯過程的統(tǒng)計模型，該模型使用9個參數(shù)識別單一固溶體相，文章還評價了不同的熱力學數(shù)據(jù)庫。然而高熵合金的熱力學數(shù)據(jù)庫很大程度上繼承于鎳基合金的數(shù)據(jù)庫，多組元的數(shù)據(jù)庫仍需進一步完善。

Domínguez等[66]首次對高熵合金數(shù)據(jù)集進行了主成分分析，并在此基礎上對一系列合金做出了預測。作者從原始數(shù)據(jù)中提取有用信息，再將信息用于預測。文章所用數(shù)據(jù)集比較小，只有79個。其中主成分分析屬于降維算法，目的是將高維度的數(shù)據(jù)降低維度，進而保留最重要的特征，去除噪聲和不重要的特征。這種方法可以使數(shù)據(jù)集更易使用，降低計算開銷，使結果易于理解。但需要強調的是，該方法會使初始維度的原始特征消失，重組后的特征會發(fā)生根本變化。類似的降維方法還有奇異值分解、因子分析和獨立成分分析。

4.3 人工神經(jīng)元神經(jīng)元網(wǎng)絡與其他方法

Islam等[67]使用機器學習對高熵合金數(shù)據(jù)集做出了相應的分類。該研究選取了5個特征，數(shù)據(jù)提高到了118個。對原始數(shù)據(jù)集進行了過擬合訓練，準確度達到99%。不經(jīng)評價的預測模型缺乏意義，算法會學習大量的噪聲，缺乏泛化能力。隨后的多折訓練中準確率只有86%。多折訓練是一種常用的方法，可以減少小數(shù)據(jù)集中訓練集的選取對最終結果造成的誤差。舉例來說，將一個數(shù)據(jù)集分為4份，其中一份為測試集，其它3份為訓練集；這樣重復4次，讓每個數(shù)據(jù)集都成為一次測試集，最后對4次的評價結果求均值。在選取特征時，文章計算了5個特征之間的皮爾森系數(shù)。皮爾森系數(shù)是用來描述兩個特征之間相關性的變量，當兩個特征的皮爾森系數(shù)的絕對值越接近1時，他們的線性相關程度也就越高。需要注意的是，皮爾森系數(shù)對高維中變量的描述效果比較差，不能描述3個特征之間的關系，只能用于特征的初步篩選。圖5為利用皮爾森系數(shù)分析5個不同特征的結果，右上角的數(shù)字為皮爾森系數(shù)的大小，皮爾森系數(shù)的絕對值作為線性相關系數(shù)描述了不同特征值的線性相關程度。皮爾森系數(shù)分析法可以作為數(shù)據(jù)預處理和數(shù)據(jù)探索性分析的一種方法。當不同特征值相關性過大時說明兩個特征蘊含的信息相似，在預處理中需要對這一特征做處理或者刪除這一特征。從圖中看出最高的皮爾森系數(shù)為0.73，說明晶格畸變與電負性差是特征值中最相似的兩個特征值。不必要的數(shù)據(jù)關聯(lián)會增加模型的復雜程度，引入噪音，造成過擬合，這時候減少相似的特征可以降低過擬合程度。當然，也可以在算法中采取不同方法降低過擬合，比如正則項、懲罰函數(shù)、神經(jīng)元網(wǎng)絡中的Dropout方法等。

圖5 采用皮爾森系數(shù)分析特征的結果[67]Fig.5 Characteristics analysis results by Pearson coefficient[67]

Huang[68]使用機器學習算法對一個包含401個合金成分的數(shù)據(jù)庫進行聚類和預測。文章中采用了3種不同的機器學習算法：K近鄰、支持向量機和人工神經(jīng)元網(wǎng)絡。他們采用的數(shù)據(jù)庫基于Miracle的一篇綜述[29]，數(shù)據(jù)庫的質和量提高了很多。該數(shù)據(jù)庫將合金分為3類：固溶體、金屬間化合物以及二者的混合。相較于對晶格結構的分類，這種關于高熵合金微觀結構的長程有序程度的分類難度更大。文章三分類的最高準確率只有74%。他們還評估了5個輸入特征在影響測試精度方面的相對重要性。采用人工神經(jīng)元網(wǎng)絡中的自聚類算法對特征進行評價，自聚類算法可以看成是非線性的主成分分析，對高維變量的描述效果更好，而且易于可視化。自聚類是無監(jiān)督機器學習的一種，聚類會將數(shù)據(jù)集劃分成幾個不同的子集，分類之前算法本身并不了解分類樣本的標記信息。這種算法能用于尋找數(shù)據(jù)內(nèi)在的分布結構。比較常見的自聚類算法還有K均值聚類、均值漂移聚類、基于密度的聚類、高斯模型的最大期望聚類、凝聚層次聚類等。文章對人工神經(jīng)元網(wǎng)絡的超參數(shù)做了詳細的調試，與支持向量機和K近鄰算法相比準確度更高。圖6為人工神經(jīng)元網(wǎng)絡中的自組織算法原理，可以通過分析輸入空間中的數(shù)據(jù)來生成一個低維、離散的映射網(wǎng)絡。應用競爭性學習(具有梯度下降的反向傳播)而非糾錯，并且通過創(chuàng)建類似于多維縮放的高維數(shù)據(jù)的低維視圖的方法，用鄰域函數(shù)來保留輸入空間原有的拓撲屬性。受啟發(fā)于生物神經(jīng)元特性，自組織學習通過使網(wǎng)絡不同部分對不同輸入模式做出相應的響應來模擬生物的大腦皮層，比如香味會引起大腦皮層特定區(qū)域的興奮。首先將訓練數(shù)據(jù)輸入到網(wǎng)絡，然后計算它們所有權重向量的歐幾里得距離。通過競爭得出最佳匹配單元，然后將所有權重進行迭代產(chǎn)生新的權重。在迭代過程中，相似的神經(jīng)元會沿相同的方向移動，并激活相鄰的神經(jīng)元。

圖6 人工神經(jīng)元網(wǎng)絡中的自組織算法原理[68]Fig.6 The principle of self-organizing algorithm in artificial neural network[68]

Li等[69]用同樣的數(shù)據(jù)庫，選出322個鑄態(tài)合金的成分，使用支持向量機將數(shù)據(jù)集分為3類：43個面心立方，18個體心立方，以及261個NSP相(包括多相、金屬間化合物、非晶)。這樣的數(shù)據(jù)分類很不平衡，文章也相應地采取了一些手段，比如利用算法擴增原始數(shù)據(jù)集，但仍然會導致預測區(qū)間嚴重縮小。最終交叉驗證的精確度可達90%，而且通過訓練好的算法預測了一些合金成分。預測的很多都是難熔高熵合金，常見的難熔高熵合金絕大多數(shù)為BCC結構。同時應當說明的是，文章利用密度泛函理論對預測結果做出了檢驗，但密度泛函預測的結果是熱力學平衡態(tài)的高熵合金，這種驗證缺乏說服力。Abhishek等[70]將人工智能的自適應神經(jīng)模糊接口系統(tǒng)應用于高熵合金的相預測。自適應神經(jīng)模糊接口是利用人工神經(jīng)元網(wǎng)絡和模糊邏輯構造的混合智能系統(tǒng)。圖7為他們設計的混合系統(tǒng)算法框架，改變模糊邏輯可以改變知識獲取的方式，通過神經(jīng)元網(wǎng)絡的學習能力來優(yōu)化模糊規(guī)則。圖7描述了一個具有2個輸入和1個輸出的系統(tǒng)：輸入為m和n，輸出為f。自適應神經(jīng)模糊推理系統(tǒng)模型由一組稱為模糊if-then規(guī)則的靈活規(guī)則控制，其中輸入根據(jù)其行為映射到一系列輸出(也稱為隸屬函數(shù))。隸屬函數(shù)是定義如何在輸出中為每個輸入?yún)?shù)指定隸屬度的曲線或函數(shù)。隸屬度的范圍從0到1，隸屬度0表示輸入不是模糊集的一個成員，0.5表示部分隸屬，1表示完全隸屬。對于一個有2個輸入的模型，每個輸入映射到2個隸屬函數(shù)。第1層被稱為模糊層或輸入層，因為輸入使用隸屬函數(shù)被映射到模糊范圍。第2層被稱為產(chǎn)品層，標記為P，它從模糊層計算各個參數(shù),這個層有時也被稱為輸入成員功能層。第3層被稱為模糊規(guī)則層或規(guī)范化層，標記為N，通過將第2層的輸出函數(shù)和第2層的所有輸出函數(shù)之和來執(zhí)行函數(shù)權重的規(guī)范化。第4層被稱為解模糊層或輸出隸屬函數(shù)層，它將值解模糊以給出清晰的輸出。第5層是總輸出層，標記為R，輸出從先前層獲得的所有單個參數(shù)之和。

圖7 模糊邏輯系統(tǒng)結合人工神經(jīng)元網(wǎng)絡Fig.7 Artificial neural network combined with fuzzy logic system

神經(jīng)元網(wǎng)絡是一種利用簡單的數(shù)學模型模擬生物大腦功能進行決策的非線性算法，而模糊邏輯是一種捕捉系統(tǒng)中隨機性和模糊性的數(shù)學方法，二者相互結合可以使系統(tǒng)本身朝著自適應、自組織、自學習的方向發(fā)展。

Pei等[71]基于包含1252個多組分合金的大數(shù)據(jù)集，利用算法識別固溶體及它們的晶格結構。數(shù)據(jù)庫不僅包含高熵合金，還包含二元、三元合金。文章中沒有給出對數(shù)據(jù)庫的進一步說明，將高熵合金與傳統(tǒng)合金放入同一個數(shù)據(jù)集會模糊復雜固溶體特有的機制。文章利用高斯徑向基函數(shù)對數(shù)據(jù)進行分析和預測，預測準確度可達93%。他們希望用機器學習找出新的關于相形成的統(tǒng)一判據(jù)，新的預測量有一定的統(tǒng)計學意義，但還需要在物理背景上進一步說明。Zhou等[72]利用人工神經(jīng)元網(wǎng)絡、卷積網(wǎng)絡、支持向量機對基于601個高熵合金成分的數(shù)據(jù)庫做出分類，將合金分為3類：固溶體、金屬間化合物和非晶相。與文中Huang等的工作[68]相比，分類難度小很多。文章加入了一些實驗來驗證預測結果，大數(shù)據(jù)結合高通量實驗將會是以后高熵合金開發(fā)的重要方向。Zhang等[73]利用遺傳算法對高熵合金進行了設計，落腳點同樣是相形成問題。文章中加入了主動學習方案，用機器學習指導實驗后，再利用新得到的實驗數(shù)據(jù)對算法進行迭代。相較于之前利用密度泛函或熱力學數(shù)據(jù)庫來檢驗算法的預測結果的方案更為合理。因為數(shù)據(jù)庫中的大部分高熵合金都屬于熱力學非平衡狀態(tài)，而且傳統(tǒng)方案預測的準確率也不能保證，實驗才是檢驗真理的唯一標準，實驗與算法的結合可以讓兩者相得益彰。

Cheng等[74]通過機器學習與實驗相結合，經(jīng)過兩輪迭代在Al-Co-Cr-Cu-Fe-Ni體系中尋找到了更高硬度的高熵合金成分。數(shù)據(jù)庫包含155個體系中的硬度數(shù)據(jù)，其中包括22個四元合金、95個五元合金和38個六元合金。由于實驗數(shù)據(jù)可能來自不同的實驗室，而且硬度數(shù)據(jù)很可能存在一定波動，同時數(shù)據(jù)庫的樣本量比較少，高硬度的數(shù)據(jù)會對算法的預測結果有錨定效應。文章中特征選取基于統(tǒng)計學意義，可以進一步對特征背后的物理機制進行討論。Qi等[75]提出了一種從二元相圖中提取特征并與機器學習相結合對高熵合金相進行預測的方法。數(shù)據(jù)庫來自679個鑄態(tài)或退火態(tài)的高熵合金的成分。作者利用相形成溫度定義與元素有關的相參數(shù)和相分離參數(shù)，將它們作為特征，并大規(guī)模提取二元相圖的信息建立數(shù)據(jù)庫。該算法在預測中取得了不錯的效果。作者在特征工程建立上別出心裁，將相圖轉變?yōu)橐幌盗械膮?shù)描述，類似于SISO[68]方法。其中特征構建很大程度上決定了最終的預測結果，但文章中特征建立過程基于一定的假設，相圖信息不可避免地有一定損失。同密度泛函中的交換關聯(lián)函數(shù)一樣，在機器學習中同樣存在妥協(xié)，比如欠擬合與過擬合，以及效率與精確性，還需要在可解釋性與統(tǒng)計學意義上做妥協(xié)。特征的建立同樣是一個妥協(xié)的過程，這是一個需要材料科研人員發(fā)揮智慧與創(chuàng)造力的領域。

5 結語

目前高熵合金中的機器學習主要集中在對相的預測方面，一方面是因為相可以很大程度上決定高熵合金的性能，另一方面是先前已經(jīng)有很多工作在物理判據(jù)或者說特征工程上做出了很大貢獻。機器學習不僅可以挖掘原有數(shù)據(jù)的價值，更能指導實驗，縮短實驗周期。高通量的實驗與計算將會是未來發(fā)展的重要方向。機器學習不同于傳統(tǒng)方法對方程求精確解，對設備與軟件的需求大大降低，可以將訓練好的模型搭建在網(wǎng)站上。此外，這種以數(shù)據(jù)為驅動的方法還可以從失敗的案例中挖掘價值。隨著數(shù)據(jù)量的增多，機器學習的精確性可以大幅提高。目前應用于高熵合金領域的算法仍很基礎，不應該為了追求噱頭，盲目引入不合適的算法；也不能只關注相關性而不去關注因果性，片面地追求高的預測準確率。就目前的高熵合金數(shù)據(jù)庫而言，大部分的數(shù)據(jù)都取自文獻，使數(shù)據(jù)被幸存者偏差影響。同時，高熵合金成分開發(fā)很多都圍繞著僅限幾種成分展開，同樣會對數(shù)據(jù)有錨定效應。建立聯(lián)合數(shù)據(jù)庫是一個很好的解決辦法。

隨著數(shù)據(jù)庫質量的提高，未來高熵合金中的機器學習會向深度學習發(fā)展。用領域內(nèi)的知識發(fā)現(xiàn)和創(chuàng)造特征將成為交叉領域中最重要、最有創(chuàng)造力的一環(huán)。同時，在利用機器學習挖掘大數(shù)據(jù)價值的同時，應該注重背后的物理背景，像艾薩克牛頓一樣，從唯象理論中再進一步。