馮 順
(西京學(xué)院 電子信息學(xué)院,陜西 西安 710123)
無機鈣鈦礦材料因其優(yōu)異的光電性質(zhì),如高光吸收系數(shù)和高載流子遷移率,目前在光伏領(lǐng)域受到廣泛關(guān)注,是具有極大產(chǎn)業(yè)化潛力的新型材料[1]。然而,常規(guī)實驗法篩選和設(shè)計新材料的效率較低,無法滿足產(chǎn)業(yè)化發(fā)展的需求。此外,新材料的發(fā)現(xiàn)和設(shè)計是一個多變量、多目標(biāo)的復(fù)雜問題,很難通過簡單的實驗手段解決[2]。
近年來,機器學(xué)習(xí)技術(shù)得到長足發(fā)展,在材料領(lǐng)域展現(xiàn)出重要應(yīng)用前景[3]。機器學(xué)習(xí)可以處理高維數(shù)據(jù),發(fā)現(xiàn)復(fù)雜的pattern,建立精確的預(yù)測模型,大幅提高材料發(fā)現(xiàn)和設(shè)計的效率[4]。特別是深度學(xué)習(xí)和Boosting學(xué)習(xí)算法具有強大的預(yù)測能力和高效性,在無機半導(dǎo)體材料中已應(yīng)用于材料屬性預(yù)測[5]。但是,無機鈣鈦礦材料的相關(guān)研究較少。
為了提高無機鈣鈦礦材料高通量篩選和設(shè)計的效率,本研究采用機器學(xué)習(xí)方法構(gòu)建無機鈣鈦礦材料形成能預(yù)測模型。通過比較XGBoost、隨機森林、支持向量回歸和LightGBM 4種算法,LightGBM算法展現(xiàn)出最高的預(yù)測精度和效果。這證明LightGBM算法在材料發(fā)現(xiàn)和設(shè)計中具有重要應(yīng)用潛力,值得進一步探索。
本研究構(gòu)建的預(yù)測模型為無機鈣鈦礦材料的高通量篩選和設(shè)計提供關(guān)鍵技術(shù)支持,將大幅提高材料設(shè)計的效率,推動產(chǎn)業(yè)發(fā)展,對實現(xiàn)新材料的高效篩選和發(fā)現(xiàn)產(chǎn)生深遠(yuǎn)影響。研究結(jié)果表明,機器學(xué)習(xí)及LightGBM算法在材料科學(xué)中具有廣闊的應(yīng)用前景。
支持向量機(SVM)是一種機器學(xué)習(xí)算法,通過構(gòu)建高維特征空間中的分離超平面,實現(xiàn)分類和回歸分析[6]。SVR是SVM的回歸器(Regressor),用于解決回歸問題,通過引入slack變量和損失函數(shù)來構(gòu)建回歸模型,實現(xiàn)連續(xù)響應(yīng)值的預(yù)測。
SVM通過非線性映射,將輸入空間x映射到高維特征空間F。在這個高維空間中,數(shù)據(jù)可以被線性分類,在高維空間構(gòu)造的最佳線性模型決策方程為:
y(x)=wTΦ(x)+b
(1)
其中,w是權(quán)重向量,b是偏置,超平面是由w和b唯一確定的。
SVM的核函數(shù)是實現(xiàn)核技巧的關(guān)鍵,通過某種非線性映射將輸入空間映射到高維特征空間,使原來線性不可分的問題在高維空間變得線性可分,高斯核和多項式核是最常用的兩種SVM核函數(shù)[7]。高斯核由于可以將輸入映射到無限維特征空間,分類效果較好,適用于各種類型的分類問題,而多項式核計算速度更快一些,也比較簡單。
隨機森林(Random Forest,RF)是由Breiman于2001年提出的由決策樹組合成的算法[8],RF是一種集成學(xué)習(xí)方法,通過構(gòu)建多個決策樹的組合來進行機器學(xué)習(xí)任務(wù),通常用于分類和回歸。隨機森林是由多個決策樹組成,每個決策樹的輸出是一個類預(yù)測或者一個值預(yù)測,通過投票或平均,所有決策樹的預(yù)測結(jié)合起來成為最終的預(yù)測結(jié)果。隨機森林的構(gòu)造流程主要分為兩個部分:
第一部分是決策樹的構(gòu)建。通過bootstrap抽樣和隨機特征選擇,構(gòu)建多棵決策樹,可以最大限度地減少單棵樹過擬合的風(fēng)險,并產(chǎn)生更好的泛化能力。
第二部分是多棵決策樹的集成。通過對各棵決策樹預(yù)測結(jié)果的投票或平均,來獲得更高精度和更加穩(wěn)定的最終預(yù)測,這實現(xiàn)了隨機森林的集成學(xué)習(xí)效果。
通過上述過程,隨機森林可以有效地控制決策樹之間的相關(guān)性,提高整體的預(yù)測效果。這是隨機森林理論上可以取得接近最佳泛化誤差的原因,同時也使其對噪聲數(shù)據(jù)具有很強的魯棒性。
極端梯度提升算法(XGBoost)是梯度提升算法的擴展和改進,通過算法和系統(tǒng)層面的優(yōu)化,提高了梯度提升算法的效率和性能,旨在正確利用資源并克服先前梯度提升的局限性[9]。XGBoost與其他梯度提升的區(qū)別主要在于它使用了一種新的正則化技術(shù)來控制過度擬合[10]。因此,在模型調(diào)整期間更快、更穩(wěn)健,可以在模型訓(xùn)練的過程中進行特征選擇和參數(shù)調(diào)整,提高泛化能力。
XGBoost算法是Boosting架構(gòu)的一種算法實現(xiàn),同樣符合模型函數(shù):
(2)
模型的輸出可以表示為K個弱學(xué)習(xí)器輸出的累加?;舅悸肪褪遣粩嗌尚碌臉?每棵樹都是基于上一顆樹和目標(biāo)值的差值來進行學(xué)習(xí),從而降低模型的偏差。最終模型結(jié)果的輸出如公式(2)所示,即所有樹的結(jié)果累加起來才是模型對一個樣本的預(yù)測值。
輕量級梯度提升算法(LightGBM)是由微軟團隊在決策樹的基礎(chǔ)上研發(fā)的,該算法包含兩種新技術(shù):基于梯度的單邊采樣和獨占特征捆綁,分別處理大量數(shù)據(jù)實例和大量特征[11]。LightGBM具有精度更高、訓(xùn)練速度更快、能夠處理大規(guī)模數(shù)據(jù)、支持GPU學(xué)習(xí)等多項優(yōu)勢。
LightGBM是一種高效的梯度提升算法。相比于XGBoost等算法,它提供了更高的計算效率和更低的內(nèi)存消耗,LightGBM在保證模型效果的同時,大大縮短了模型訓(xùn)練時間,這使其已經(jīng)在許多領(lǐng)域廣泛應(yīng)用于大規(guī)模數(shù)據(jù)的機器學(xué)習(xí)問題[12]。LightGBM和XGBoost成為機器學(xué)習(xí)領(lǐng)域中最流行和有影響力的梯度提升算法,他們在提高分類樹模型的計算效率和性能上做出了很大貢獻(xiàn),為數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師提供了很有價值的工具。
回歸模型的性能評估主要有以下幾個指標(biāo):均方誤差(MSE)、均方根誤差(RMSE)、擬合優(yōu)度(R2),公式如下:
(3)
(4)
(5)
式中,m為樣本數(shù)量;fi為真實值;yi為預(yù)測值。
本文中使用的數(shù)據(jù)來自無機晶體結(jié)構(gòu)數(shù)據(jù)庫(ICSD)中無機鈣鈦礦數(shù)據(jù),通過對數(shù)據(jù)的初步篩選,篩選出無機鈣鈦礦數(shù)據(jù)集16 324組。原始數(shù)據(jù)中共有66個原始特征,通過特征選擇,剔除了無用特征name、entry_id、icsd_id、sg、cs、cs1,由于是對無機鈣鈦礦材料的形成能進行預(yù)測,將目標(biāo)變量設(shè)為Ef,輸入Eg等其他特征對輸入特征矩陣進行降維,可以進一步提高模型預(yù)測的精確度。
由數(shù)據(jù)預(yù)處理之后和數(shù)據(jù)集和特征篩選后的輸入變量,機器學(xué)習(xí)預(yù)測模型構(gòu)建如下。
(1)數(shù)據(jù)準(zhǔn)備:將16 324條數(shù)據(jù)的30%分為測試集,70%分為訓(xùn)練集,同時設(shè)置隨機種子為9,保證每次分割結(jié)果都相同。
(2)模型訓(xùn)練:設(shè)置10折交叉驗證,分別建立SVR、XGBoost、LightGBM、RF算法的模型。使用這4種算法分別對訓(xùn)練集的形成能進行訓(xùn)練。
(3)模型評價指標(biāo):使用均方誤差(MSE)、均方根誤差(RMSE)、擬合優(yōu)度(R2)對模型效果進行評估。
(4)模型應(yīng)用:通過對4個算法訓(xùn)練建立的模型對測試集的目標(biāo)屬性進行預(yù)測,并對預(yù)測結(jié)果進行評估。
為了提高模型的預(yù)測精確度,模型訓(xùn)練前會對學(xué)習(xí)算法的超參數(shù)進行調(diào)優(yōu)。提高機器學(xué)習(xí)模型的預(yù)測能力,超參數(shù)優(yōu)化是必不可少的一步。選擇合適的超參數(shù)優(yōu)化方法,可以大大提高模型訓(xùn)練的效率,并獲得最優(yōu)的預(yù)測效果。對于SVR算法,正則化參數(shù)C=100.0,核參數(shù)設(shè)置為gamma='auto',指定核函數(shù)為高斯核。對于RF算法,決策樹參數(shù)設(shè)置為默認(rèn)參數(shù),設(shè)置固定隨機種子'random_state':6。對于XGBoost算法與LightGBM算法,均設(shè)置超參數(shù)n_estimators的值為1 000。通過基于經(jīng)驗在迭代過程尋找到對目標(biāo)屬性最佳的超參數(shù)。
基于形成能為目標(biāo)屬性,實驗結(jié)果分析。如表1所示,列出了4種樹形回歸算法模型的訓(xùn)練擬合結(jié)果,從表中數(shù)據(jù)可以分析出這4種機器學(xué)習(xí)算法建立的模型對無機鈣鈦礦材料的形成均能達(dá)到很好的擬合效果,其中效果最好的算法為LightGBM,此算法對形成能預(yù)測的R2為0.99、RMSE為0.087 9。結(jié)果證明,本文使用的模型可用于預(yù)測無機鈣鈦礦材料的形成能,從而建立高精度預(yù)測模型。
表1 訓(xùn)練集擬合效果比較
如圖1所示,直觀地反映了真實值與預(yù)測值的線性關(guān)系,其中橫坐標(biāo)是通過DFT計算的真實值,縱坐標(biāo)是預(yù)測值,可以看到基于機器學(xué)習(xí)的無機鈣鈦礦材料形成能預(yù)測值與DFT計算的真實值走勢是斜率接近1的直線。從圖中可以看到基于這4種算法的預(yù)測模型訓(xùn)練準(zhǔn)確性都是較為不錯的,模型訓(xùn)練效果都比較理想,其中LightGBM算法的效果在對比實驗中是最好的,訓(xùn)練模型的精度是最高的,通過各個評價指標(biāo)也可以得出相同的結(jié)論。同時在圖1中可以發(fā)現(xiàn)一些異常點,是因為數(shù)據(jù)集中混入一些非無機鈣鈦礦材料,為負(fù)樣本影響了機器學(xué)習(xí)算法的預(yù)測結(jié)果。
圖1 基于機器學(xué)習(xí)算法的回歸模型結(jié)果
以上結(jié)果表明,不同機器學(xué)習(xí)算法對于數(shù)據(jù)集的敏感性不同,導(dǎo)致了預(yù)測效果也有差異,這4種算法對于無機鈣鈦礦材料形成能預(yù)測效果比以往的準(zhǔn)確效率均有提高,均可以進行有效的預(yù)測。通過使用機器學(xué)習(xí)方法來協(xié)助預(yù)測鈣鈦礦材料性能,從而規(guī)避了傳統(tǒng)材料研發(fā)現(xiàn)存的一些問題,大幅提高了材料發(fā)現(xiàn)和設(shè)計的效率,給材料科學(xué)發(fā)展帶來深遠(yuǎn)影響。
本文采用機器學(xué)習(xí)方法,構(gòu)建無機鈣鈦礦材料形成能的預(yù)測模型。通過比較XGBoost、隨機森林、支持向量回歸和LightGBM 4種算法的預(yù)測效果,LightGBM算法展現(xiàn)出最高的預(yù)測精度和效果。其相關(guān)系數(shù)R2達(dá)到0.991 2,MAE為0.043 8 eV/atom。LightGBM算法具有以下優(yōu)點:
(1)自動選擇最優(yōu)葉子大小,避免過擬合問題。
(2)根據(jù)樣本損失率確定每個數(shù)據(jù)點的權(quán)重,模型能更加聚焦在目標(biāo)數(shù)據(jù)上。
(3)利用GPU并行計算,實現(xiàn)更高效的訓(xùn)練。
(4)在特征劃分時考慮特征值大小,減少不必要的計算量,訓(xùn)練和預(yù)測速度更快。
本研究證明,LightGBM是一種適用于無機材料形成能預(yù)測的高效算法。與傳統(tǒng)的機器學(xué)習(xí)算法相比,它不僅預(yù)測精度更高、速度更快,也具有更高的可解釋性和泛化能力。相比于其他3種算法,LightGBM在本研究的預(yù)測任務(wù)上顯示出更優(yōu)的性能。
本文為無機鈣鈦礦材料的形成能預(yù)測提供了一種基于LightGBM算法的預(yù)測模型,證明了機器學(xué)習(xí)技術(shù)特別是LightGBM算法在材料發(fā)現(xiàn)和設(shè)計中具有廣闊的應(yīng)用前景。它將大幅提高材料研發(fā)的效率,為新材料的設(shè)計和發(fā)現(xiàn)帶來深遠(yuǎn)影響,助力我國新材料產(chǎn)業(yè)的發(fā)展??傊?本研究采用LightGBM算法構(gòu)建無機鈣鈦礦材料形成能高精度預(yù)測模型,為無機鈣鈦礦材料的高效篩選和設(shè)計提供了關(guān)鍵技術(shù)支持,也證明了LightGBM在材料領(lǐng)域具有重要應(yīng)用潛力,值得未來進一步探索。