李正澤,趙 剛
(1. 中國(guó)科學(xué)院光學(xué)天文重點(diǎn)實(shí)驗(yàn)室 (國(guó)家天文臺(tái)),北京 100101;2. 中國(guó)科學(xué)院大學(xué)天文與空間科學(xué)學(xué)院,北京 100049)
根據(jù)哈佛恒星光譜分類方法,恒星的光譜可分為O, B, A, F, G, K, M, R, S, N等光譜型,對(duì)應(yīng)恒星的溫度依次遞減,A型星的溫度區(qū)間位于7 500 K至11 000 K,呈白色,有強(qiáng)烈的氫吸收線,并且由于溫度很高,同時(shí)具有電離鈣和電離鎂線[1-2]。于1993年提出建設(shè)的郭守敬望遠(yuǎn)鏡[3],2009年通過(guò)驗(yàn)收觀測(cè)至今已經(jīng)十余年,數(shù)據(jù)集DR5包括4 154個(gè)觀測(cè)天區(qū),發(fā)布901萬(wàn)條光譜,其中包含大量A型星的譜線指數(shù)和恒星參數(shù)。
相對(duì)于簡(jiǎn)單傳統(tǒng)的回歸模型,通過(guò)神經(jīng)網(wǎng)絡(luò)建立的回歸模型可以更高效準(zhǔn)確地完成任務(wù),這要?dú)w功于神經(jīng)網(wǎng)絡(luò)模型可以捕捉非線性效應(yīng)和更高階的相互作用。對(duì)于較為復(fù)雜的數(shù)據(jù)和問(wèn)題,神經(jīng)網(wǎng)絡(luò)可以挖掘數(shù)據(jù)背后的相關(guān)性,并且給出比較令人滿意的結(jié)果,在數(shù)據(jù)處理領(lǐng)域,以神經(jīng)網(wǎng)絡(luò)為例的眾多機(jī)器學(xué)習(xí)算法已經(jīng)廣泛應(yīng)用于各個(gè)學(xué)科。
包括有效溫度在內(nèi)的恒星參數(shù)是決定恒星光譜的重要信息,對(duì)恒星演化的研究具有重要意義[4]。恒星參數(shù)的測(cè)量方法主要有兩類[5]:(1)通過(guò)將待測(cè)恒星光譜與已知參數(shù)的標(biāo)準(zhǔn)恒星光譜進(jìn)行匹配,將匹配最好的模板光譜參數(shù)作為待測(cè)恒星參數(shù);(2)類似非線性回歸的方法,比如神經(jīng)網(wǎng)絡(luò)模型,利用光譜數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練測(cè)試恒星大氣參數(shù)[5]。譜線指數(shù)是包含恒星自身物理特征信息的重要參數(shù),利用譜線指數(shù)可以進(jìn)行眾多的天文研究,例如:文[6]利用譜線指數(shù)對(duì)恒星光譜進(jìn)行聚類分析研究。文[7]利用譜線指數(shù)建立人工神經(jīng)網(wǎng)絡(luò)對(duì)包括有效溫度在內(nèi)的恒星參數(shù)進(jìn)行了測(cè)量,文中使用LAMOST數(shù)據(jù)訓(xùn)練得到的模型,預(yù)測(cè)得到有效溫度的誤差正態(tài)分布數(shù)學(xué)期望為-316.02,標(biāo)準(zhǔn)差為617.36。使用SDSS DR8數(shù)據(jù)訓(xùn)練的模型結(jié)果稍好,但誤差的正態(tài)分布數(shù)學(xué)期望為88.58,標(biāo)準(zhǔn)差為147.81。可見(jiàn)文中的方法還不能比較準(zhǔn)確地給出有效溫度,需要進(jìn)一步研究改進(jìn)。
本文使用主成分分析方法(Principal Components Analysis, PCA),運(yùn)用于DR5數(shù)據(jù)集中的A型星數(shù)據(jù),對(duì)19種譜線指數(shù)進(jìn)行相關(guān)性降維,再給出每種譜線指數(shù)占整個(gè)數(shù)據(jù)信息的百分比,以此為依據(jù),選擇與有效溫度關(guān)系最緊密的幾種譜線指數(shù)作為模型的輸入,經(jīng)過(guò)測(cè)試,選擇占比最大的前12種譜線指數(shù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入。同時(shí)選擇有效溫度誤差小于100 K的數(shù)據(jù)作為輸入數(shù)據(jù),訓(xùn)練得到了A型星的譜線指數(shù)與有效溫度的神經(jīng)網(wǎng)絡(luò)回歸模型。通過(guò)建立的神經(jīng)網(wǎng)絡(luò)模型,給出了8 644組有效溫度誤差大于100 K的A型星有效溫度,一定程度上對(duì)數(shù)據(jù)進(jìn)行了改進(jìn)與提升,并且通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)DR5數(shù)據(jù)集中光譜型為A5,缺少有效溫度的恒星光譜進(jìn)行了補(bǔ)充,給出了這些恒星的有效溫度。
如今科學(xué)研究面臨的問(wèn)題日漸深入復(fù)雜,要處理的數(shù)據(jù)量也隨之劇增,單純直接處理龐大的數(shù)據(jù)已經(jīng)不能滿足科學(xué)研究對(duì)高效性的追求。為了從復(fù)雜繁瑣的數(shù)據(jù)中提取主要信息,必須利用一些科學(xué)手段,尋找數(shù)據(jù)之間的相關(guān)性,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)化,有效減少數(shù)據(jù)的維度,但同時(shí)保證數(shù)據(jù)提供的信息極大程度地保留下來(lái),盡量減少在這個(gè)過(guò)程中數(shù)據(jù)所攜帶信息的損失。主成分分析法便是這樣一種算法,現(xiàn)在已經(jīng)成為使用最廣泛的降維方法之一。
主成分分析法是一種運(yùn)用十分廣泛的降維方法。對(duì)于大樣本多參量觀測(cè)數(shù)據(jù), 它可以簡(jiǎn)捷有效地尋求參量之間的相互關(guān)系,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)降維,可以去除數(shù)據(jù)噪聲,消除數(shù)據(jù)沉余,使得數(shù)據(jù)更易使用。主成分分析法的主要思想是找出數(shù)據(jù)最主要的信息、最主要的成分代替原始數(shù)據(jù),以此達(dá)到對(duì)原始數(shù)據(jù)降維的目的,即在減少需要分析的指標(biāo)的同時(shí),盡量降低原指標(biāo)所包含信息的損失。這種方法最早被應(yīng)用于社會(huì)科學(xué)研究領(lǐng)域。之后隨著20世紀(jì)60年代計(jì)算機(jī)的興起和發(fā)展,開始廣泛應(yīng)用于自然科學(xué)研究領(lǐng)域[8],與此同時(shí),主成分分析法也開始應(yīng)用于天體物理學(xué)領(lǐng)域,在近幾年的天文研究中,文[9]利用LAMOST巡天光譜DR2數(shù)據(jù),使用R語(yǔ)言的主成分分析工具提取各類型光譜數(shù)據(jù)的特征量,從含有大量冗余信息的光譜中提取代表恒星光譜特征的主要成分。除此之外在星系和恒星的光譜分類[2]、特征參量的挑選、活動(dòng)星系核光變的研究、大樣本天體紅移的測(cè)量等方面,主成分分析法都有不錯(cuò)的表現(xiàn)[8]。近年來(lái)隨著計(jì)算機(jī)與機(jī)器學(xué)習(xí)的飛速發(fā)展,為了克服主成分分析法的一些缺點(diǎn),開發(fā)了很多主成分分析法的一些變種,比如解決非線性降維的核主成分分析(Kernel PCA, KPCA),解決內(nèi)存限制的增量主成分分析(Incremental PCA),以及解決稀疏數(shù)據(jù)降維的稀疏主成分分析(Sparse PCA)等。
首先假設(shè)需要處理分析的數(shù)據(jù)樣本由n個(gè)天體組成,每個(gè)天體對(duì)應(yīng)m個(gè)觀測(cè)參量,即m個(gè)特征指標(biāo),因此,觀測(cè)量可以表示成矩陣X,如(1)式,矩陣X稱之為觀測(cè)矩陣,其行矢量對(duì)應(yīng)同一天體的不同特征量,列矢量對(duì)應(yīng)不同天體的同一特征量。
(1)
設(shè)待求的m維特征向量為e,則一個(gè)主成分pc可以表示為
pc=eX=e1xk1+…+eixki+…+emxkm.
(2)
同時(shí),為了保證在降維過(guò)程中數(shù)據(jù)攜帶的信息不丟失,降維后的主成分應(yīng)盡可能多地體現(xiàn)原始觀測(cè)數(shù)據(jù)的信息,并且保證主成分之間互相獨(dú)立。隨機(jī)變量的方差可以體現(xiàn)隨機(jī)變量所攜帶的信息,而不同的特征向量e,其方差的大小也不同,主成分分析法就是尋找使主成分pc的方差達(dá)到最大的一組特征向量e。為此,根據(jù)最小二乘法原理,此處的e為觀測(cè)矩陣X的協(xié)方差矩陣C=(cjk)m×m的正交特征矢量,其中cjk的表達(dá)式為
(3)
(4)
構(gòu)造行列式方程|C-lI|=0,其中l(wèi)為行列式的特征根,I為m×m的單位矩陣,通過(guò)求解這個(gè)方程,可以得到特征根l,再求解:
(C-lI)ei=0 ,
(5)
就能求得特征矢量ei。
(1)對(duì)樣本中每個(gè)特征指標(biāo)下的數(shù)據(jù),減去該特征的平均值,即對(duì)所有樣本進(jìn)行中心化;
(2)計(jì)算樣本矩陣的協(xié)方差矩陣;
(3)求協(xié)方差矩陣的特征根和特征根所對(duì)應(yīng)的特征矢量;
(4)根據(jù)特征根的大小,計(jì)算得到每個(gè)特征根對(duì)應(yīng)的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率;
(5)用每一個(gè)特征矢量乘以樣本矩陣計(jì)算得到每一個(gè)主成分,即降維后輸出的新樣本。
利用DR5數(shù)據(jù)集給出的譜線指數(shù)、有效溫度以及有效溫度誤差,給定溫度為7 500 K至11 000 K提取A型星的數(shù)據(jù),之后首先對(duì)數(shù)據(jù)篩選預(yù)處理,去除一些明顯異常的數(shù)據(jù),比如空值、顯示為-9 999的數(shù)據(jù),除此之外,正常情況下譜線指數(shù)都應(yīng)該是正值,但是由于郭守敬望遠(yuǎn)鏡流量定標(biāo)沒(méi)有定好,有些譜線指數(shù)的數(shù)據(jù)出現(xiàn)負(fù)值,因此,這里只選取譜線指數(shù)為正值的正常數(shù)據(jù),一共選取53 739組A型星的數(shù)據(jù)。
通過(guò)主成分分析方法對(duì)19種譜線指數(shù)數(shù)據(jù)(kp12, kp18, kp6, hdelta12, hdelta24, hdelta48, hdelta64, hgamma12, hgamma24, hgamma48, hgamma54, hbeta12, hbeta24, hbeta48, hbeta60, halpha12, halpha24, halpha48, halpha70)進(jìn)行相關(guān)性降維,設(shè)定累計(jì)貢獻(xiàn)率大于90%,得到了3個(gè)主成分,方差分別為15.479, 1.563, 1.507。因此,主成分一的貢獻(xiàn)率α=77.82%,主成分二的貢獻(xiàn)率β=7.86%,主成分三的貢獻(xiàn)率γ=7.58%。再結(jié)合主成分分析過(guò)程中得到的轉(zhuǎn)換矩陣w:
(6)
(7)
(8)
表1 每種譜線指數(shù)占整個(gè)數(shù)據(jù)信息的百分比大小Table 1 The percentage of the entire information for each spectral index
本文使用的機(jī)器學(xué)習(xí)模型是多層感知器(Multilayer Perceptron, MLP),即神經(jīng)網(wǎng)絡(luò)模型[10-11],在Python環(huán)境下提供了多種機(jī)器學(xué)習(xí)算法,其中sklearn.neural_network模塊提供多層感知器回歸算法,即MLPRegressor[12]。多層感知器顧名思義,由多個(gè)層構(gòu)成,包括一個(gè)輸入層和可以規(guī)定數(shù)量的多個(gè)隱藏層以及一個(gè)輸出層,隱藏層的加入增強(qiáng)了模型的表達(dá)能力,但同時(shí)也使模型變得更加復(fù)雜,對(duì)于輸出層的神經(jīng)元來(lái)說(shuō),可以有不止一個(gè)輸出。
神經(jīng)網(wǎng)絡(luò)模型設(shè)置了兩個(gè)隱藏層,每個(gè)隱藏層包含100個(gè)節(jié)點(diǎn),多層感知器回歸算法可選擇的激勵(lì)函數(shù)有4種,分別是identity,logistic,tanh,relu,分別測(cè)試這4種激勵(lì)函數(shù)下模型的表現(xiàn),如表2。由表2可以看出,選擇identity和relu時(shí)模型表現(xiàn)比較好。選擇relu時(shí)模型表現(xiàn)更好,并且選擇relu時(shí)模型訓(xùn)練速度較快,效率較高。因此,搭建神經(jīng)網(wǎng)絡(luò)模型的激勵(lì)函數(shù)設(shè)置為relu。但是選擇relu作為激勵(lì)函數(shù)時(shí)有一個(gè)缺點(diǎn),可能會(huì)造成神經(jīng)元壞死,為了避免這種情況,這里網(wǎng)絡(luò)的學(xué)習(xí)速率設(shè)置得較小,避免權(quán)重突然更新過(guò)多導(dǎo)致神經(jīng)元徹底關(guān)閉。
表2 不同激勵(lì)函數(shù)下多層感知器的表現(xiàn)Table 2 The performance of MLP by using different Activation function
經(jīng)過(guò)測(cè)試,梯度下降函數(shù)選擇在較大數(shù)據(jù)集上效果較好的adam,此時(shí)模型運(yùn)算效率較高并且結(jié)果較好。設(shè)置正則化系數(shù)alpha是為了避免過(guò)擬合,設(shè)置為0.001,同時(shí)保證模型的運(yùn)行結(jié)果較好。最大訓(xùn)練迭代次數(shù)max_iter經(jīng)過(guò)測(cè)試設(shè)置為4 000。除此之外其他參數(shù)為默認(rèn)值。
圖1是郭守敬望遠(yuǎn)鏡提供的有效溫度的絕對(duì)誤差分布,選取有效溫度誤差小于100 K,共計(jì)45 095組數(shù)據(jù)建立模型,其中隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),20%的數(shù)據(jù)作為訓(xùn)練之后的測(cè)試數(shù)據(jù)。通過(guò)主成分分析法給出了19種譜線指數(shù)占整個(gè)數(shù)據(jù)信息的百分比大小排序,據(jù)此,選擇與有效溫度關(guān)系最緊密的幾種譜線指數(shù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入,按照信息占比從大到小依次選擇1種到全部19種譜線指數(shù)作為神經(jīng)網(wǎng)絡(luò)模型輸入。測(cè)試不同指標(biāo)數(shù)量下模型的表現(xiàn),建立模型之后score命令可以給出模型的評(píng)分,即模型對(duì)全部數(shù)據(jù)的預(yù)測(cè)結(jié)果的決定系數(shù)R2:
圖1 有效溫度絕對(duì)誤差分布圖
(9)
表3與圖2是以模型的評(píng)分為標(biāo)準(zhǔn)給出的結(jié)果。可以看出,選取包含信息最多的前12種譜線指數(shù)時(shí),模型的評(píng)分最高,模型表現(xiàn)最好,因此,選取前12種譜線指數(shù),即hgamma54, hdelta64, hgamma48, hdelta48, halpha70, hbeta60, halpha48, hbeta48, kp18, hdelta24, hgamma24, kp12作為神經(jīng)網(wǎng)絡(luò)模型的輸入。
表3 不同指標(biāo)數(shù)量下模型的評(píng)分Table 3 The model score for different number of features
圖2 模型評(píng)分隨指標(biāo)數(shù)量的變化
2.2.1 模型在訓(xùn)練數(shù)據(jù)集上的表現(xiàn)
在80%的訓(xùn)練數(shù)據(jù)集上,用得到的神經(jīng)網(wǎng)絡(luò)模型對(duì)有效溫度進(jìn)行了預(yù)測(cè),如圖3(a),訓(xùn)練數(shù)據(jù)集36 076個(gè)數(shù)據(jù)點(diǎn)整體分布在相對(duì)集中的區(qū)域,個(gè)別數(shù)據(jù)偏離較大,除此之外,由圖3(b)可以看出,隨著有效溫度升高,誤差存在一個(gè)輕微的下降趨勢(shì),文[7]對(duì)這種現(xiàn)象的解釋是可能因?yàn)槿斯ど窠?jīng)網(wǎng)絡(luò)內(nèi)部的機(jī)制,考慮到數(shù)據(jù)本身對(duì)于早型星的恒星參數(shù)測(cè)量并不準(zhǔn)確,所以有可能是數(shù)據(jù)本身的影響造成的,有待進(jìn)行更加深入的討論。經(jīng)過(guò)計(jì)算絕對(duì)誤差的平均值為58.12 K,標(biāo)準(zhǔn)差為60.99 K,結(jié)合測(cè)試數(shù)據(jù)集的預(yù)測(cè)結(jié)果,兩者的平均絕對(duì)誤差和標(biāo)準(zhǔn)差的結(jié)果基本一致,由此可以表明,神經(jīng)網(wǎng)絡(luò)模型并沒(méi)有發(fā)生過(guò)擬合。
圖3 神經(jīng)網(wǎng)絡(luò)回歸模型在訓(xùn)練數(shù)據(jù)集上的預(yù)測(cè)結(jié)果Fig.3 The results of forecast by neural network on train data set
圖4給出了誤差分布及其擬合的正態(tài)分布曲線,正態(tài)分布的數(shù)學(xué)期望為-3.668,標(biāo)準(zhǔn)差為84.167。圖5是神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)曲線,從圖中可以看出,隨著訓(xùn)練樣本數(shù)量的增加,訓(xùn)練得分(圖中紅線部分)快速增加,達(dá)到飽和之后趨于水平。測(cè)試得分(圖中綠線部分)與訓(xùn)練得分變化趨勢(shì)一致,但是并沒(méi)有出現(xiàn)訓(xùn)練得分較高、測(cè)試得分較低或者測(cè)試得分達(dá)到某一值后迅速下降,即過(guò)擬合的情況。除此之外,訓(xùn)練得分與測(cè)試得分都處于較高的水平,因此,神經(jīng)網(wǎng)絡(luò)模型并沒(méi)有欠擬合。整體來(lái)看,模型的學(xué)習(xí)曲線收斂且誤差較小,是一條比較理想的學(xué)習(xí)曲線。
圖4 訓(xùn)練數(shù)據(jù)集有效溫度的誤差分布圖Fig.4 Error distribution diagram of effective temperature on train data set
圖5 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)曲線Fig.5 Learning curves
2.2.2 模型在測(cè)試數(shù)據(jù)集上的表現(xiàn)
對(duì)于神經(jīng)網(wǎng)絡(luò)回歸模型,程序給出的評(píng)分為0.904,圖6是在測(cè)試數(shù)據(jù)集上得到的有效溫度的預(yù)測(cè)結(jié)果,其中,由圖6(a)可以看出,預(yù)測(cè)有效溫度與實(shí)際有效溫度成正比,整體預(yù)測(cè)結(jié)果較好,絕對(duì)誤差的平均值為58.38 K,不足A型星有效溫度的1%,標(biāo)準(zhǔn)差為60.81 K,但是還是存在個(gè)別預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)偏離較大。圖6(b)給出了模型的誤差變化趨勢(shì),可以看出,誤差圍繞在縱坐標(biāo)軸y=0上下,個(gè)別數(shù)據(jù)出現(xiàn)了較大的偏離,除此之外,還能夠看出誤差有一個(gè)輕微的下降趨勢(shì)。圖6(c)給出了誤差的分布及其擬合的正態(tài)分布曲線,可以看出與訓(xùn)練數(shù)據(jù)集上的結(jié)果一致,誤差主要集中在100 K以內(nèi),正態(tài)分布擬合的數(shù)學(xué)期望為-3.366,標(biāo)準(zhǔn)差為84.229。可見(jiàn)模型的有效溫度預(yù)測(cè)準(zhǔn)確度相比文[7]建立的模型有了很大的改進(jìn)與提升。
圖6 神經(jīng)網(wǎng)絡(luò)回歸模型在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)結(jié)果
支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)模型都可以解決非線性的回歸問(wèn)題,通過(guò)sklearn.svm中的SVR模塊,建立了一個(gè)支持向量機(jī)回歸模型(Support Vector Regression, SVR)與前文的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了對(duì)比,見(jiàn)表4。此外還建立了一個(gè)決策樹回歸模型(Decision Tree Regression, DTR),選取80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),20%的數(shù)據(jù)作為測(cè)試數(shù)據(jù),為了防止嚴(yán)重過(guò)擬合,經(jīng)過(guò)測(cè)試,決策樹回歸模型的最大深度設(shè)置為6。查看決策樹回歸模型在兩個(gè)數(shù)據(jù)集上的結(jié)果,此時(shí)在訓(xùn)練數(shù)據(jù)集上絕對(duì)誤差的平均值為65.10 K,標(biāo)準(zhǔn)差為61.74 K,在測(cè)試數(shù)據(jù)集上絕對(duì)誤差的平均值為66.76 K,標(biāo)準(zhǔn)差為62.83 K,因此,模型沒(méi)有發(fā)生過(guò)擬合。表4給出了3種模型在測(cè)試數(shù)據(jù)集上的結(jié)果對(duì)比??梢钥闯?,神經(jīng)網(wǎng)絡(luò)模型在評(píng)分和誤差方面比支持向量機(jī)、決策樹回歸模型有更好的結(jié)果。圖7(a)和圖7(b)分別給出了支持向量機(jī)和決策樹回歸模型在測(cè)試數(shù)據(jù)集上的誤差變化,前文提到神經(jīng)網(wǎng)絡(luò)模型隨著有效溫度的變大,誤差存在一個(gè)輕微的下降趨勢(shì),從圖7(a)支持向量機(jī)模型整體來(lái)看,誤差也存在一個(gè)下降的趨勢(shì),尤其是8 200 K到8 500 K之間,誤差有明顯的下降趨勢(shì),因此,產(chǎn)生這個(gè)現(xiàn)象的原因可能不單單是神經(jīng)網(wǎng)絡(luò)內(nèi)部的原因,也可能與數(shù)據(jù)本身有關(guān)。
圖7 支持向量機(jī)和決策樹回歸模型在測(cè)試數(shù)據(jù)集上的預(yù)測(cè)結(jié)果Fig.7 The results of forecast by SVR and DTR
表4 模型的比較Table 4 The comparison of different models
選取了DR5數(shù)據(jù)集中包含有效溫度、有效溫度絕對(duì)誤差以及19種譜線指數(shù)的A型星數(shù)據(jù),共計(jì)53 739組,使用其中有效溫度誤差小于100 K共45 095組數(shù)據(jù)建立了神經(jīng)網(wǎng)絡(luò)模型。通過(guò)建立的神經(jīng)網(wǎng)絡(luò)模型對(duì)有效溫度誤差大于100 K的8 644組數(shù)據(jù),使用其譜線指數(shù)進(jìn)行了計(jì)算預(yù)測(cè),給出了有效溫度值,對(duì)數(shù)據(jù)進(jìn)行了改進(jìn)與提升,具有一定的參考價(jià)值。對(duì)于DR5數(shù)據(jù)集中有效溫度絕對(duì)誤差大于100 K的數(shù)據(jù),圖 8(a)是有效溫度絕對(duì)誤差的分布圖,圖8(b)是通過(guò)模型的預(yù)測(cè)得到的有效溫度的絕對(duì)誤差分布圖。對(duì)于郭守敬望遠(yuǎn)鏡給出的有效溫度絕對(duì)誤差平均值為185.10 K,標(biāo)準(zhǔn)差為78.79 K;神經(jīng)網(wǎng)絡(luò)模型給出的有效溫度絕對(duì)誤差平均值為115.24 K,標(biāo)準(zhǔn)差為104.88 K??梢钥闯觯行囟冉^對(duì)誤差平均值有明顯下降,對(duì)于有效溫度在一定程度上有所改進(jìn)。
圖8 有效溫度絕對(duì)誤差與模型預(yù)測(cè)得到的有效溫度絕對(duì)誤差分布圖Fig.8 Absolute error distribution diagram of effective temperature for LAMOST and prediction
DR5數(shù)據(jù)集一共給出了40多萬(wàn)條A型星光譜,但明確給出有效溫度的A型星只有8萬(wàn)多顆,這其中還包括很多誤差非常大的數(shù)據(jù)。對(duì)于有效溫度的測(cè)量,通過(guò)神經(jīng)網(wǎng)絡(luò)模型可以使用譜線指數(shù)更加自動(dòng)高效地進(jìn)行測(cè)量,一定程度上彌補(bǔ)這部分?jǐn)?shù)據(jù)的缺失。依據(jù)哈佛天文臺(tái)的恒星光譜分類系統(tǒng),除了分為O, B, A, F, G, K, M, R, S, N幾個(gè)光譜型之外,對(duì)于每種光譜型還可以分為10個(gè)次型,用數(shù)字0到9表示,并且對(duì)應(yīng)恒星的溫度依次下降[2]??紤]到模型使用有效溫度7 500 K到8 500 K的數(shù)據(jù)訓(xùn)練建立的,這里選取溫度區(qū)間相近的光譜型恒星,以A5型恒星數(shù)據(jù)為例[2],郭守敬望遠(yuǎn)鏡提供的譜線指數(shù)分類為A5型的恒星一共有470組,大多沒(méi)有給出有效溫度??紤]到流量定標(biāo)沒(méi)有定好,導(dǎo)致譜線指數(shù)出現(xiàn)負(fù)值的情況,選取其中每種譜線指數(shù)都大于0的數(shù)據(jù),通過(guò)神經(jīng)網(wǎng)絡(luò)模型給出了這些恒星的有效溫度,表5展示了其中一小部分結(jié)果,包括觀測(cè)號(hào)(obsid)、赤緯(Dec)、赤經(jīng)(Ra)和預(yù)測(cè)得到的有效溫度(teff)。根據(jù)MK分類系統(tǒng)的光譜型與有效溫度之間的關(guān)系[2],對(duì)于A5型恒星來(lái)說(shuō),光度級(jí)為I(超巨星),即A5 I型恒星的有效溫度為8 610 K;光度級(jí)為V(主序星),即A5 V型恒星的有效溫度為8 180 K,光度級(jí)VI(亞矮星)型恒星的有效溫度更低。考慮到觀測(cè)數(shù)據(jù)的分類以及譜線指數(shù)都可能不準(zhǔn)確,預(yù)測(cè)得到的A5型恒星的有效溫度基本符合上述范圍。
表5 預(yù)測(cè)得到DR5數(shù)據(jù)集中A5型恒星的有效溫度Table 5 Predicted effective temperature of A5 type star in LAMOST DR5 data set
通過(guò)DR5數(shù)據(jù)集提供的A型星19種譜線指數(shù)與有效溫度,通過(guò)主成分分析法進(jìn)行相關(guān)性降維,根據(jù)每種譜線指數(shù)占整個(gè)數(shù)據(jù)信息的百分比,經(jīng)過(guò)測(cè)試選擇與有效溫度關(guān)系最緊密的12種譜線指數(shù)作為輸入數(shù)據(jù)。篩選有效溫度誤差小于100 K的數(shù)據(jù)建立了神經(jīng)網(wǎng)絡(luò)回歸模型,模型在測(cè)試數(shù)據(jù)集上表現(xiàn)良好,評(píng)分為0.904,平均絕對(duì)誤差為58.38 K,標(biāo)準(zhǔn)差為60.81 K。對(duì)比相關(guān)研究的模型,準(zhǔn)確度有了很大的提升。通過(guò)有效溫度神經(jīng)網(wǎng)絡(luò)回歸模型對(duì)有效溫度誤差大于100 K的數(shù)據(jù)進(jìn)行了預(yù)測(cè),經(jīng)過(guò)模型預(yù)測(cè)得到的有效溫度的絕對(duì)誤差平均值有明顯的下降,一定程度上對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行了改進(jìn)與提升,此外,DR5數(shù)據(jù)集提供了大量的A型星數(shù)據(jù),但絕大部分缺少有效溫度,通過(guò)神經(jīng)網(wǎng)絡(luò)模型可以實(shí)現(xiàn)高效自動(dòng)較為準(zhǔn)確地給出這部分?jǐn)?shù)據(jù),以光譜型為A5的恒星數(shù)據(jù)為例,對(duì)缺少有效溫度的A型星數(shù)據(jù)進(jìn)行了補(bǔ)充。
包括A型星在內(nèi)的早型星的恒星參數(shù)不容易測(cè)量得到,郭守敬望遠(yuǎn)鏡巡天項(xiàng)目提供了海量的光譜觀測(cè)數(shù)據(jù),其中包括大量的A型星數(shù)據(jù),但包括有效溫度在內(nèi)的恒星參數(shù)卻非常缺乏。通過(guò)本文方法驗(yàn)證了建立神經(jīng)網(wǎng)絡(luò)模型利用譜線指數(shù)預(yù)測(cè)有效溫度的方法是有效可行的,同時(shí)該方法能夠自動(dòng)高效地測(cè)量有效溫度,并且測(cè)量的準(zhǔn)確度相比于前人建立的模型有了很大的提升。