李偉峰 張曉燕 牛中明
(安徽大學(xué) 物理與光電工程學(xué)院 合肥 230601)
宇宙重元素起源是原子核物理與核天體物理共同關(guān)注的熱點(diǎn)課題[1-2]??熘凶臃@過程(r-過程)通過連續(xù)的中子俘獲和β衰變合成了約一半比鐵重的元素。β衰變是r-過程中的關(guān)鍵過程,其中β衰變壽命決定著r-過程的時(shí)間標(biāo)度,也是近年來r-過程研究的熱點(diǎn)[3-4]。雖然近年來對(duì)β衰變壽命的測量取得了很大進(jìn)展[5-6],但在r-過程路徑上的許多核的衰變壽命仍然無法測量,特別是對(duì)于N=126附近的原子核。因此,對(duì)β 衰變壽命的理論預(yù)測具有重要意義。研究原子核β 衰變壽命的理論模型主要包括唯像公式[7-8]、Gross 理論(GT)[9-12],準(zhǔn)粒子無規(guī)相位近似(Quasiparticle Random Phase Approximation,QRPA)方法[13-18]和殼模型[19-22]等。殼模型可以成功地應(yīng)用于描述輕核或幻數(shù)附近原子核的β衰變壽命,然而,由于組態(tài)空間過大,殼模型無法用于研究遠(yuǎn)離幻數(shù)的中重質(zhì)量原子核。唯像公式、Gross理論和QRPA方法可用于描述核素圖中大多數(shù)原子核的β衰變壽命,然而,其對(duì)β 衰變壽命的預(yù)測精度仍不能達(dá)到r-過程研究的需要。當(dāng)外推至未知核區(qū),各個(gè)理論的預(yù)言結(jié)果仍然存在較大偏差,尤其是N? 126的重核區(qū)[23]。然而,由于強(qiáng)相互作用與核多體計(jì)算的復(fù)雜性[24-25],使得原子核β衰變壽命的精確理論預(yù)測相當(dāng)困難。因此,對(duì)原子核β 衰變壽命的精確預(yù)測仍然是原子核物理中一個(gè)重要但尚待解決的問題。
近年來,機(jī)器學(xué)習(xí)在很多方面取得了令人矚目的成就,是當(dāng)前科學(xué)技術(shù)領(lǐng)域最為熱門、發(fā)展最快的方向之一[26]。機(jī)器學(xué)習(xí)與物理學(xué)的結(jié)合是近年來新興的交叉前沿領(lǐng)域,引起了廣泛關(guān)注,已被用于粒子物理[27-29]、凝聚態(tài)物理[30-31]和天體物理[32-33]等領(lǐng)域。它為物理研究提供了一個(gè)強(qiáng)大的工具,在提取復(fù)雜非線性系統(tǒng)的相關(guān)特征方面功能強(qiáng)大,可以用來解決一些傳統(tǒng)方法難以解決或暫時(shí)無法解決的復(fù)雜物理問題。在原子核物理中,機(jī)器學(xué)習(xí)方法也被廣泛用于研究各種原子核的性質(zhì),如原子核的質(zhì)量[34-35]、電荷半徑[36-37]、α衰變[38-39]、原子核低激發(fā)譜[40-41]以及原子核的β 衰變壽命[42-43]等。貝葉斯神經(jīng)網(wǎng)絡(luò)(Bayesian Neural Network,BNN)方法通過引入先驗(yàn)可以自動(dòng)地避免過擬合,并且可以量化模型預(yù)言的不確定性,因此也成為研究原子核性質(zhì)的重要工具之一。近年來,BNN已被成功用于研究原子核的質(zhì)量[44-48]、電荷半徑[49]和原子核的低激發(fā)譜[50]以及原子核的裂變產(chǎn)額[51]等。相比傳統(tǒng)的原子核理論模型,這些機(jī)器學(xué)習(xí)方法一般可以取得更高的預(yù)測精度。
基于BNN 方法,文獻(xiàn)[52]通過學(xué)習(xí)β 衰變實(shí)驗(yàn)壽命與理論模型壽命的對(duì)數(shù)差,獲得當(dāng)時(shí)壽命預(yù)測的最高精度,對(duì)于壽命小于1 s 的原子核,其精度約為0.2 個(gè)數(shù)量級(jí),即在約1.6 倍的范圍內(nèi)再現(xiàn)實(shí)驗(yàn)數(shù)據(jù)。與文獻(xiàn)[52]不同,本論文將使用貝葉斯神經(jīng)網(wǎng)絡(luò)方法直接學(xué)習(xí)原子核的β 衰變壽命,驗(yàn)證機(jī)器學(xué)習(xí)直接預(yù)測β 衰變壽命的精度,并通過與實(shí)驗(yàn)數(shù)據(jù)以及其他核模型的結(jié)果進(jìn)行對(duì)比,分析BNN方法的預(yù)言能力,為采用BNN方法直接學(xué)習(xí)原子核性質(zhì)提供參考。
在貝葉斯方法中,模型參數(shù)ω使用概率分布描述。首先,根據(jù)先前經(jīng)驗(yàn),引入先驗(yàn)分布p(ω)來描述ω的可能取值。假設(shè)已知實(shí)驗(yàn)數(shù)據(jù)集D={(x1,t1),(x2,t2),…,(xN,tN)},根據(jù)貝葉斯定理對(duì)先驗(yàn)分布p(ω)進(jìn)行更新,即:
式中:xn,tn(n=1,2,3,…,N)分別是輸入和輸出數(shù)據(jù),N為實(shí)驗(yàn)數(shù)據(jù)的數(shù)量;p(D|ω)是似然函數(shù),它包含了由觀測結(jié)果得到的參數(shù)ω的信息;p(ω|D)是已知數(shù)據(jù)D后參數(shù)ω的概率分布,稱為后驗(yàn)分布;p(D)是實(shí)驗(yàn)數(shù)據(jù)的分布,其作為歸一化的常量,保證了后驗(yàn)分布是一個(gè)全空間積分為1的有效概率密度。
似然函數(shù)p(D|ω)通常取高斯分布,即p(D|ω) =e-χ2/2,其中函數(shù)χ2表示為:
這里標(biāo)準(zhǔn)差參數(shù)Δtn是與第n個(gè)數(shù)據(jù)相關(guān)的噪音誤差,與文獻(xiàn)[44]類似,其平方的倒數(shù)被設(shè)置為伽馬分布。指定p(ω)和p(D|ω)后,本文使用馬爾科夫鏈蒙特卡羅方法對(duì)后驗(yàn)分布p(ω|D)進(jìn)行采樣。在BNN方法中,函數(shù)y(x,ω)用神經(jīng)網(wǎng)絡(luò)來描述,對(duì)于單隱藏層神經(jīng)網(wǎng)絡(luò),其表示形式為:
式中:x= {xi};ω= {a,bj,cj,dji};H是隱藏層神經(jīng)元的個(gè)數(shù);I是輸入量的個(gè)數(shù)。該神經(jīng)網(wǎng)絡(luò)的總參數(shù)量為(2+I)×H+1。由于模型參數(shù)被描述為概率分布,BNN 方法使用函數(shù)y(x,ω)的數(shù)學(xué)期望〈y 〉及其標(biāo)準(zhǔn)差作為其預(yù)測值和誤差。
由于本文涉及的原子核β衰變壽命橫跨約十個(gè)數(shù)量級(jí),因此,使用壽命對(duì)數(shù)lg(T1/2)的均方根(Root Mean Square,RMS)偏差來評(píng)估核模型的準(zhǔn)確性:
文獻(xiàn)[52]發(fā)現(xiàn),在神經(jīng)網(wǎng)絡(luò)的輸入層中引入衰變能和與對(duì)效應(yīng)相關(guān)的物理量,通過學(xué)習(xí)β 衰變壽命實(shí)驗(yàn)數(shù)據(jù)和理論預(yù)測的對(duì)數(shù)差,可以顯著提高神經(jīng)網(wǎng)絡(luò)預(yù)言β 衰變壽命的準(zhǔn)確度。因此,本文也將在神經(jīng)網(wǎng)絡(luò)中引入這兩項(xiàng),研究它們在直接學(xué)習(xí)原子核β 衰變壽命的神經(jīng)網(wǎng)絡(luò)中的作用。為此,本文采用以下三種網(wǎng)絡(luò)結(jié)構(gòu),它們的輸入變量、隱藏層神經(jīng)元個(gè)數(shù)、激活函數(shù)和輸出變量如表1所示。其中:Z和N是原子核的質(zhì)子數(shù)和中子數(shù);Qβ為β衰變的衰變能,取自Weizs?cker-Skyrme(WS4)模型[53];δ=((- 1)Z+(- 1)N)/2,用于區(qū)分偶偶核、奇奇核和奇A核。不同神經(jīng)網(wǎng)絡(luò)選取相應(yīng)的隱藏層神經(jīng)元個(gè)數(shù),以保證各神經(jīng)網(wǎng)絡(luò)的總參數(shù)量一致。三種網(wǎng)絡(luò)的輸出均選為lg(T1/2)。用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)數(shù)據(jù)取自NUBASE2020[5],本文只保留Z、N≥8、Qβ>0且T1/2<106s的實(shí)驗(yàn)數(shù)據(jù),共計(jì)1 051個(gè)。該數(shù)據(jù)集被隨機(jī)分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集占總數(shù)據(jù)集的80%,即840 個(gè),余下的211 個(gè)作為驗(yàn)證集。為了檢驗(yàn)結(jié)果的穩(wěn)定性,以BNN-I4 為例,通過多次隨機(jī)劃分訓(xùn)練集和驗(yàn)證集,發(fā)現(xiàn)BNN計(jì)算結(jié)果與訓(xùn)練集和驗(yàn)證集中實(shí)驗(yàn)數(shù)據(jù)的均方根偏差σRMS(lgT1/2)的變化均為10%左右。
表1 各神經(jīng)網(wǎng)絡(luò)輸入變量、隱藏層神經(jīng)元個(gè)數(shù)、激活函數(shù)和輸出變量Table 1 Input variables, number of hidden layer neurons, activation functions, and output variables of various neural networks
為了評(píng)估BNN 方法預(yù)測核β 衰變壽命的全局可靠性,三種神經(jīng)網(wǎng)絡(luò)方法的預(yù)測結(jié)果相對(duì)于實(shí)驗(yàn)數(shù)據(jù)的均方根偏差σRMS(lgT1/2)如圖1 所示。圖中分別給出了壽命T1/2<106s、T1/2<103s 和T1/2<1 s 的結(jié)果。相較于BNN-I2方法,BNN-I3和BNN-I4方法在神經(jīng)網(wǎng)絡(luò)的輸入層引入更多相關(guān)的物理量,可以顯著提升神經(jīng)網(wǎng)絡(luò)方法對(duì)衰變壽命的預(yù)言精度。盡管BNN-I3方法與BNN-I4方法對(duì)T1/2>103s以上訓(xùn)練集原子核預(yù)言精度幾乎一致,但在驗(yàn)證集中,BNN-I4與實(shí)驗(yàn)值的結(jié)果更為符合。由此可見,在神經(jīng)網(wǎng)絡(luò)輸入層中引入物理量δ,可以提高神經(jīng)網(wǎng)絡(luò)對(duì)β衰變壽命的預(yù)言能力。本文BNN-I4 方法得到訓(xùn)練集和驗(yàn)證集的精度分別為0.39 和0.58,該精度與文獻(xiàn)[52]中通過學(xué)習(xí)實(shí)驗(yàn)壽命與理論壽命的對(duì)數(shù)差的精度幾乎一致。因此,直接使用BNN對(duì)實(shí)驗(yàn)壽命進(jìn)行學(xué)習(xí)也能得到較好的結(jié)果。
圖1 訓(xùn)練集(a)和驗(yàn)證集(b)中三種神經(jīng)網(wǎng)絡(luò)BNN-I2、BNNI3和BNN-I4計(jì)算的β衰變壽命與實(shí)驗(yàn)值的均方根偏差σRMS(lgT1/2)Fig.1 RMS deviations from experimental data σRMS(lgT1/2)calculated by BNN-I3, BNN-I4, and BNN-I5 approaches for training set (a) and validation set (b)
為更細(xì)致地檢驗(yàn)神經(jīng)網(wǎng)絡(luò)方法的預(yù)言能力,圖2 給出了三種神經(jīng)網(wǎng)絡(luò)對(duì)Sn 同位素的預(yù)測結(jié)果,作為對(duì)比,圖中還相應(yīng)地給出了來自NUBASE2020的實(shí)驗(yàn)壽命(Experimental half-lives,Exp),用黑色方塊表示。由圖2可見,在已知核區(qū)域,BNN-I3和BNNI4 比BNN-I2 更好地再現(xiàn)了實(shí)驗(yàn)壽命。當(dāng)外推至未知核區(qū)域時(shí),BNN-I4 方法比BNN-I3 方法的誤差范圍要略小。此外,BNN-I3 方法在N=90~100 區(qū)域緩慢振蕩上升,通過在神經(jīng)網(wǎng)絡(luò)輸入層引入與對(duì)效應(yīng)相關(guān)的物理量δ,BNN-I4 對(duì)β 衰變壽命的預(yù)測值與其他理論模型的結(jié)果更為相近(圖3),這可能說明引入δ有助于神經(jīng)網(wǎng)絡(luò)更好地描述未知區(qū)域原子核的β衰變壽命。因此,下面將只展示基于BNN-I4方法的預(yù)測結(jié)果。
圖2 BNN-I2、BNN-I3、BNN-I4方法預(yù)測的Sn同位素的β衰變壽命與誤差[5]Fig.2 Nuclear β-decay half-lives and errors for Sn isotopes predicted by BNN-I2, BNN-I3, and BNN-I4 approaches[5]
圖3 BNN-I4預(yù)測的Ni、Sn、Pb同位素鏈的β衰變壽命與RHB+QRPA、FRDM+QRPA、SHFB+FAM、SHFB+QRPA和WS4+GT理論結(jié)果的比較Fig.3 Comparison of nuclear β-decay half-lives of Ni, Sn, and Pb isotopic chains predicted by BNN-I4 with the theoretical results of RHB+QRPA, FRDM+QRPA, SHFB+FAM, SHFB+QRPA, and WS4+GT
為了進(jìn)一步研究BNN-I4 方法的預(yù)言能力,圖3和圖4 分別以Ni、Sn、Pb 同位素鏈及N=50、82、126同中子素鏈為例,展示了BNN-I4方法與Relativistic Hartree-Bogoliubov(RHB)+QRPA[17]、Finite-Range Droplet Model(FRDM)+QRPA[54]、Hartree-Fock-Bogoliubov model with Skyrme force(SHFB)+Finite-Amplitude Method(FAM)[55]、SHFB+QRPA[56]、WS4+GT[57]模型結(jié)果的比較??梢钥闯觯谝阎藚^(qū),BNN-I4方法的預(yù)測結(jié)果與實(shí)驗(yàn)數(shù)據(jù)吻合較好,而其他理論模型的預(yù)言結(jié)果與實(shí)驗(yàn)數(shù)據(jù)偏差相對(duì)較大,對(duì)于質(zhì)量較輕的原子核,如Ni 同位素鏈和N=50 的同中子素鏈,理論模型一般高估了實(shí)驗(yàn)壽命。因此,對(duì)于質(zhì)量較輕的原子核,BNN-I4方法對(duì)遠(yuǎn)離穩(wěn)定線原子核的預(yù)測壽命顯著短于其他理論模型的結(jié)果。然而,隨著原子核質(zhì)量的增加,BNN-I4 對(duì)遠(yuǎn)離穩(wěn)定線原子核的預(yù)測壽命與其他微觀理論模型的結(jié)果非常接近。此外,BNN-I4方法預(yù)測的不確定度隨著離已知核區(qū)的距離逐步增加。研究還發(fā)現(xiàn),Ni同位素鏈的預(yù)測結(jié)果在N=56~58 區(qū)域突然上升,這與文獻(xiàn)[52]中的結(jié)果類似。然而,由于這些原子核BNN預(yù)言的壽命不確定性很大,未來對(duì)該核區(qū)附近原子核衰變壽命的測量有助于確認(rèn)這種現(xiàn)象是否真實(shí)存在。
圖4 BNN-I4預(yù)測的N=50、N=82和N=126同中子素鏈的β衰變壽命與RHB+QRPA、FRDM+QRPA、SHFB+FAM、SHFB+QRPA和WS4+GT理論結(jié)果的比較Fig.4 Comparison of nuclear β-decay half-lives of N=50, N=82, and N=126 isotonic chains predicted by BNN-I4 with the theoretical results of RHB+QRPA, FRDM+QRPA, SHFB+FAM, SHFB+QRPA, and WS4+GT
圖5給出了核素圖上原子核β 衰變壽命的實(shí)驗(yàn)數(shù)據(jù)與BNN-I4方法預(yù)測值的對(duì)數(shù)差。可以看出,與實(shí)驗(yàn)偏差大的原子核主要集中在穩(wěn)定線附近,即壽命較長的原子核。這些原子核衰變壽命的計(jì)算對(duì)模型參數(shù)和衰變能Qβ都非常敏感,因此,與其他核模型類似,BNN-I4方法對(duì)穩(wěn)定線附近原子核衰變壽命的描述也相對(duì)較差。幸運(yùn)的是,這些原子核的壽命可以直接從實(shí)驗(yàn)測得。對(duì)遠(yuǎn)離穩(wěn)定線的短壽命原子核,神經(jīng)網(wǎng)絡(luò)對(duì)β衰變壽命預(yù)測的偏差都在0.5個(gè)數(shù)量級(jí)之內(nèi)。此外,BNN-I4 方法對(duì)于Z?82 的原子核衰變壽命的預(yù)測值與實(shí)驗(yàn)值偏差較大,這可能由于該核區(qū)原子核β衰變壽命的實(shí)驗(yàn)數(shù)據(jù)過少所導(dǎo)致。
圖5 核素圖上實(shí)驗(yàn)值與神經(jīng)網(wǎng)絡(luò)BNN-I4對(duì)β衰變壽命預(yù)測值的對(duì)數(shù)差分布Fig.5 Logarithmic difference distribution on the nuclear chart between the predicted β-decay half-lives by BNN-I4 and experimental data
為了比較BNN-I4 方法預(yù)測的β 衰變壽命與理論模型預(yù)測值的差別,圖6以WS4+GT模型為例,展示了BNN-I4方法的預(yù)測值與該模型預(yù)測值的比較。可以看出,BNN-I4方法的預(yù)測值與WS4+GT的模型預(yù)測值的偏差一般在1 個(gè)數(shù)量級(jí)之內(nèi)。具體來說,在Z?50 的區(qū)域,BNN-I4 方法在未知核區(qū)域的預(yù)測結(jié)果與理論值的偏差較大,而在Z?50 的區(qū)域,尤其是遠(yuǎn)離穩(wěn)定線的范圍,BNN-I4 方法的預(yù)測值與WS4+GT的結(jié)果符合較好,從圖3和圖4也可得到一致的結(jié)論。雖然BNN-I4 方法從Z=20~50 之間遠(yuǎn)離穩(wěn)定線核區(qū)域的預(yù)測結(jié)果與模型預(yù)測值有較大的偏差,但其在已知核區(qū)域的壽命預(yù)測有很高的精度,因此,其在未知核區(qū)的預(yù)測值可能具有較高的可信度。此外,利用BNN方法可以大規(guī)模計(jì)算原子核的β衰變壽命,進(jìn)而為r-過程研究提供核物理輸入量,因此,對(duì)理解宇宙的重元素起源具有重要意義。
圖6 BNN-I4方法預(yù)測的β衰變壽命與WS4+GT模型預(yù)測值的對(duì)數(shù)差Fig.6 Logarithmic difference of β-decay half-lives between the BNN-I4 predictions and theoretical results of WS4+GT
綜上所述,本文采用了基于貝葉斯神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,通過直接學(xué)習(xí)原子核β 衰變壽命的實(shí)驗(yàn)值,精確地預(yù)言了原子核的β衰變壽命,并給出了合理的不確定性評(píng)估。研究發(fā)現(xiàn),在輸入層引入β衰變能Qβ和與原子核對(duì)效應(yīng)相關(guān)的物理量δ,輸出層采用β 衰變壽命的對(duì)數(shù),不僅可以顯著提高神經(jīng)網(wǎng)絡(luò)方法的學(xué)習(xí)精度,外推至未知核區(qū)域,其預(yù)測值與其他微觀理論模型的結(jié)果也更為接近,尤其是Z?50 的原子核。然而,對(duì)于輕質(zhì)量原子核,盡管其在未知核區(qū)預(yù)言的壽命短于核理論模型的結(jié)果,但是其在已知核區(qū)的壽命預(yù)測仍有很高的精度。未來將進(jìn)一步發(fā)展考慮更多物理效應(yīng)或物理約束的機(jī)器學(xué)習(xí)方法,提高機(jī)器學(xué)習(xí)對(duì)原子核β 衰變壽命的預(yù)言能力,著重關(guān)注其對(duì)輕質(zhì)量原子核β 衰變壽命的描述,為核合成研究提供更精確的核物理輸入量。
作者貢獻(xiàn)聲明所有作者都對(duì)研究構(gòu)想和設(shè)計(jì)作出了貢獻(xiàn);材料準(zhǔn)備、數(shù)據(jù)收集和數(shù)值計(jì)算由李偉峰、張曉燕和牛中明完成;初稿由李偉峰撰寫;張曉燕和牛中明對(duì)初稿進(jìn)行修改;所有作者閱讀并批準(zhǔn)最終稿。