許婷婷,張靜敏,杜利婷,周衛(wèi)紅,2
(1.云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明650500;2.中國(guó)科學(xué)院 天體結(jié)構(gòu)與演化重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650011)
大天區(qū)面積多目標(biāo)光纖光譜天文望遠(yuǎn)鏡LAMOST (large sky area multi-object fiber spectroscopic telescope)是一架視場(chǎng)為5°橫臥于南北方向的中星儀式反射施密特望遠(yuǎn)鏡,也稱為郭守敬望遠(yuǎn)鏡,是當(dāng)今世界上光譜獲取率最高的天文望遠(yuǎn)鏡,最多可同時(shí)獲得4 000個(gè)天體光譜.截止2017年12月31日,包含先導(dǎo)巡天及正式巡天5年的LAMOST DR5數(shù)據(jù)集正式發(fā)布,其中包括4 154個(gè)觀測(cè)天區(qū),共發(fā)布了901萬(wàn)條光譜,高質(zhì)量光譜數(shù)(S/N>10)達(dá)到了777萬(wàn)條,恒星參數(shù)534萬(wàn)組,是世界上最大的、有傳承價(jià)值的天體光譜數(shù)據(jù)庫(kù),為研究銀河系的形成和演化提供了基礎(chǔ)性數(shù)據(jù).在這些已獲得的光譜數(shù)據(jù)中,有很多是光譜型未知或者是現(xiàn)有分類可信度低的光譜數(shù)據(jù),因此對(duì)這些光譜數(shù)據(jù)進(jìn)行分析研究,從中獲得有價(jià)值的信息,提高LAMOST望遠(yuǎn)鏡的科學(xué)產(chǎn)出,這是非常有必要的一項(xiàng)工作.
鑒于LAMOST海量的光譜數(shù)據(jù),引入計(jì)算機(jī)程序進(jìn)行自動(dòng)或者半自動(dòng)的分析處理顯得尤為重要.隨著光譜觀測(cè)在天文上的廣泛開(kāi)展,學(xué)者們對(duì)光譜分類的方法及在天文上的應(yīng)用進(jìn)行了大量研究.較早的有吳永東[1]應(yīng)用空間選擇性濾波、多尺度形態(tài)濾波等技術(shù)對(duì)類星體光譜進(jìn)行識(shí)別.邱波[2]圍繞著求紅移和自動(dòng)分類這2個(gè)中心問(wèn)題進(jìn)行,并基于粗集方法的光譜分類規(guī)則挖掘.覃冬梅、胡占義、趙永恒等[3-4]提出了2種快速的恒星光譜型分類方法,一種是基于主成分分析方法利用最近鄰分類器構(gòu)建分類樹(shù)進(jìn)行光譜分類;另一種方法是結(jié)合主成分分析方法提出一種新的基于支撐矢量機(jī)的非活動(dòng)天體與活動(dòng)天體的自動(dòng)分類方法.羅阿理[5]采用支持向量機(jī)(SVM)方法對(duì)星系的分類問(wèn)題進(jìn)行了研究.趙瑞珍等[6]采用基于稀疏表示的方法進(jìn)行譜線自動(dòng)提取的研究.
與美國(guó)的SDSS巡天項(xiàng)目相比較,LAMOST沒(méi)有配套的測(cè)光觀測(cè),只有光譜數(shù)據(jù),在進(jìn)行自動(dòng)分類時(shí)不能借助色指數(shù),對(duì)分類識(shí)別增加了難度,雖然LAMOST的pipeline對(duì)光譜進(jìn)行了初步的分類[7],但由于多種原因一些恒星的分類識(shí)別結(jié)果還不是十分理想.此后,劉超等[8]對(duì)LAMOST光譜的進(jìn)一步分類研究,發(fā)現(xiàn)由于巨星中B型以及早期的K型光譜與A型以及晚型的G型光譜非常相似導(dǎo)致分類困難,尚未解決的主要問(wèn)題包括巨星中的OB,K, 亞巨星支的A,G的分類精度非常低,分類識(shí)別方法和結(jié)果仍然有待完善.由以上分析可知,LAMOST光譜中還存在一些不能確定的類型或者分類可信度低的光譜數(shù)據(jù),針對(duì)這一問(wèn)題,計(jì)劃將人工智能的最新成果用于光譜數(shù)據(jù)的分類識(shí)別中,即采用深度學(xué)習(xí)的方法對(duì)天體光譜數(shù)據(jù)進(jìn)行分類研究并結(jié)合天體物理理論進(jìn)行描述.
深度學(xué)習(xí)概念起源于人工神經(jīng)網(wǎng)絡(luò),作為機(jī)器學(xué)習(xí)中的一個(gè)新領(lǐng)域由Hinton等[9]于2006 年提出,通過(guò)對(duì)人腦機(jī)制的模仿來(lái)解釋圖像、文本和語(yǔ)音等數(shù)據(jù),訓(xùn)練和學(xué)習(xí)類似于人腦的神經(jīng)網(wǎng)絡(luò).由于深度學(xué)習(xí)的優(yōu)勢(shì)在于樣本越大,分類精度越高,得益于LAMOST光譜數(shù)據(jù)的大樣本優(yōu)勢(shì),有理由相信將深度學(xué)習(xí)方法應(yīng)用于LAMOST光譜數(shù)據(jù)的分類會(huì)取得較好結(jié)果.
從LAMOST 巡天項(xiàng)目發(fā)布的DR5數(shù)據(jù)庫(kù)中隨機(jī)選取30 000條恒星光譜,所選取的數(shù)據(jù)已被LAMOST Pipeline分為F、G、K 3種型星,每種型星樣本均為10 000條光譜.首先,需要對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)于給定的光譜集合:
其中,Xi=(x1,x2,…,xd)∈Rd表示第i條光譜向量,xi是給定波長(zhǎng)下的流量值;οi=(ο1,ο2,…,οm)∈Rm是每條光譜對(duì)應(yīng)的標(biāo)簽向量.值得注意的是,在不同波長(zhǎng)下,流量頻譜變化很大,即原始數(shù)據(jù)不同維度的值差異很大.
為了降低其計(jì)算復(fù)雜度且不影響光譜分類精確率,需要對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,本文采用的歸一化方法是:min-max標(biāo)準(zhǔn)化,也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0,1]之間.轉(zhuǎn)換函數(shù)如下:
其中,xmax為每條光譜樣本數(shù)據(jù)的最大值,xmin為每條光譜樣本數(shù)據(jù)的最小值.
深度信念網(wǎng)絡(luò)(deep belief networks, DBN)是由受限玻爾茲曼機(jī)(restricted boltzmann machine, RBM)結(jié)構(gòu)堆疊而成的深度學(xué)習(xí)模型.由于受限玻爾茲曼機(jī)只具有2層結(jié)構(gòu),所以從嚴(yán)格意義上說(shuō)并不是一種真正的深度學(xué)習(xí)模型,然而它可用來(lái)作為基本模塊構(gòu)造自編碼器、深層信念網(wǎng)絡(luò)、深層玻爾茲曼機(jī)等許多其他深層模型[10].深度信念網(wǎng)絡(luò)是一種深度學(xué)習(xí)的生成模型,又譯為深層信念網(wǎng)絡(luò),由Geoffrey Hinton 及其合作者在 2006 年提出,其結(jié)構(gòu)示意圖如圖1所示.DBN的神經(jīng)元可以分為顯性神經(jīng)元和隱性神經(jīng)元,顯性神經(jīng)元用于數(shù)據(jù)的輸入,隱性神經(jīng)元用于數(shù)據(jù)特征的提取.
在用傳統(tǒng)方法構(gòu)造光譜分類器時(shí),光譜特征的提取和選擇是非常重要的一項(xiàng)工作.可通過(guò)測(cè)量特征譜線的參量,例如譜線的線心深度、等值寬度、特征譜線最大相對(duì)強(qiáng)度、特征譜線的特征波長(zhǎng)、特征譜線的輻射強(qiáng)度度量等作為特征,以降低光譜數(shù)據(jù)的維度.深度信念網(wǎng)絡(luò)(DBN)因其本身構(gòu)造的特殊性,能夠?qū)?shù)據(jù)的特征進(jìn)行分層學(xué)習(xí),也就是結(jié)構(gòu)本身就具有良好的降維功能,使得大數(shù)據(jù)中的有效特征能夠直接通過(guò)模型本身進(jìn)行提取.而本文所采用的是維度較高的光譜數(shù)據(jù),只需要設(shè)計(jì)深度信念網(wǎng)絡(luò)中各層網(wǎng)絡(luò)的選取與構(gòu)造,從而獲取更好的特征學(xué)習(xí)能力.
1) DBN的預(yù)訓(xùn)練過(guò)程:分別對(duì)每一層受限玻爾茲曼機(jī)(RBM)網(wǎng)絡(luò)進(jìn)行單獨(dú)無(wú)監(jiān)督地訓(xùn)練,使其數(shù)據(jù)的特征在不同空間的映射過(guò)程中,都盡量保留光譜數(shù)據(jù)的特征信息.
2) DBN的反向微調(diào)過(guò)程:在DBN的結(jié)構(gòu)中,前面的每一層RBM網(wǎng)絡(luò)都只能使得自身層內(nèi)的權(quán)值對(duì)該層特征向量映射達(dá)到最優(yōu),并不是對(duì)整個(gè)DBN的特征向量映射達(dá)到最優(yōu).因此需要設(shè)置最后一層BP網(wǎng)絡(luò)層,將錯(cuò)誤的信息自頂向下傳播至每一層RBM層,再全局微調(diào)整個(gè)DBN網(wǎng)絡(luò).這樣的訓(xùn)練過(guò)程使DBN克服了BP網(wǎng)絡(luò)因隨機(jī)初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)和時(shí)間復(fù)雜度高的問(wèn)題.
深度信念網(wǎng)絡(luò)中RBM的層數(shù)越多對(duì)應(yīng)的學(xué)習(xí)次數(shù)也越多,得到的光譜數(shù)據(jù)特征也更具有代表意義.在本實(shí)驗(yàn)中,經(jīng)過(guò)反復(fù)嘗試,當(dāng)RBM層數(shù)為3層時(shí),光譜數(shù)據(jù)的有效特征已經(jīng)能夠被有效提取,因此DBN中的受限玻爾茲曼機(jī)層數(shù)為3層.DBN模型節(jié)點(diǎn)數(shù)分別為3 909-500-500-2 000-3.其中,3 909個(gè)輸入單元表示輸入的光譜數(shù)據(jù)維度,受限玻爾茲曼機(jī)層的神經(jīng)元個(gè)數(shù)分別為500,500,2 000,3個(gè)輸出節(jié)點(diǎn)表示光譜輸出光譜類別數(shù)目.訓(xùn)練中為了避免過(guò)擬合和欠擬合的情況經(jīng)實(shí)驗(yàn)調(diào)參將迭代次數(shù)設(shè)為200次,學(xué)習(xí)率為默認(rèn)值0.1,其分類模型結(jié)構(gòu)如圖2所示:
1) 實(shí)驗(yàn)環(huán)境在Intel i5處理器下進(jìn)行,實(shí)驗(yàn)平臺(tái)為Matlab 2014b.
2) 實(shí)驗(yàn)樣本數(shù)據(jù)樣本來(lái)源于劉超、崔文元[8]等采用27種線指數(shù)特征基于支持向量機(jī)方法對(duì)LAMOST光譜數(shù)據(jù)進(jìn)行自動(dòng)分類研究的文章,本文從參考文獻(xiàn)[8]中選取F、G、K樣本共計(jì)1 667條光譜數(shù)據(jù)(光譜信噪比大于20),其中F型光譜309條,G型光譜1 121條,K型光譜237條,分別標(biāo)記為1、2、3.在本實(shí)驗(yàn)中將該樣本分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集1 200條光譜,測(cè)試集467條光譜.
3) 方法分析與比較文獻(xiàn)[8]中,選取27種Lick線指數(shù)來(lái)描述光譜特征,在對(duì)高維數(shù)據(jù)進(jìn)行降維時(shí)能夠較完整地保留光譜信息,并基于支持向量機(jī)進(jìn)行分類研究,結(jié)果顯示對(duì)G型光譜能夠很好的分類,但對(duì)于F和K光譜分類效果并不十分理想.而深度信念網(wǎng)絡(luò)模型最大的優(yōu)勢(shì)在于對(duì)光譜數(shù)據(jù)特征的分層學(xué)習(xí),本身就具備降維功能,能夠很好的提取光譜數(shù)據(jù)的顯示特征,從而更好地進(jìn)行特征學(xué)習(xí)和分類實(shí)驗(yàn).基于以上樣本和本文分類模型進(jìn)行分類實(shí)驗(yàn),并將分類結(jié)果與劉超、崔文元等的文章結(jié)果進(jìn)行對(duì)比分析,結(jié)果見(jiàn)表1.
表1 分類結(jié)果比較 %
1)實(shí)驗(yàn)環(huán)境在Intel i5處理器下進(jìn)行,實(shí)驗(yàn)平臺(tái)為Matlab 2014b.
2)樣本數(shù)據(jù)考慮到實(shí)驗(yàn)1中樣本數(shù)據(jù)較少,為了體現(xiàn)深度神經(jīng)網(wǎng)絡(luò)大樣本的優(yōu)勢(shì),本實(shí)驗(yàn)選取的樣本總數(shù)為30 000條光譜,維度為3 909,分別為F、G、K型.僅對(duì)數(shù)據(jù)進(jìn)行了歸一化處理,未限制光譜的信噪比值,樣本標(biāo)簽分別為1、2、3,且在實(shí)驗(yàn)中將樣本分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集27 000條光譜,測(cè)試集3 000條光譜.
3)方法分析與比較 王可等[11]采用深度神經(jīng)網(wǎng)絡(luò)對(duì)F、G、K 3種型星的分類結(jié)果進(jìn)行比較,樣本為50 000條.文章采用深度神經(jīng)網(wǎng)絡(luò)分類模型,節(jié)點(diǎn)設(shè)計(jì)為721-400-800-1 200-2 000-3,即有4個(gè)隱含層的分類器模型.本實(shí)驗(yàn)同樣采用深度學(xué)習(xí)模型,但與其不同的是深度信念網(wǎng)絡(luò)結(jié)構(gòu)由受限玻爾茲曼機(jī)堆疊而成,不需要對(duì)光譜進(jìn)行降維,應(yīng)用該模型對(duì)高維光譜數(shù)據(jù)的特征分層學(xué)習(xí)能力,盡可能保留有效特征以提升分類精確度.
基于以上模型和數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn),需要說(shuō)明的是:雖然參考文獻(xiàn)的數(shù)據(jù)集與本實(shí)驗(yàn)的數(shù)據(jù)集不完全一樣,但均來(lái)自于LAMOST DR5,且樣本都是在不限制信噪比的前提下隨機(jī)選取.將結(jié)果與參考文獻(xiàn)[11]進(jìn)行比較,結(jié)果見(jiàn)表2(注:PILDNN是指基于偽逆學(xué)習(xí)算法的深度神經(jīng)網(wǎng)絡(luò)).
表2 分類結(jié)果比較
本文基于LAMOST巡天項(xiàng)目發(fā)布的海量數(shù)據(jù)的優(yōu)勢(shì),將深度學(xué)習(xí)中的模型用于恒星F、G、K光譜數(shù)據(jù)中,由以上2個(gè)對(duì)比實(shí)驗(yàn)可以看出.
1)深度信念網(wǎng)絡(luò)模型充分體現(xiàn)了大樣本的優(yōu)勢(shì).實(shí)驗(yàn)1的樣本數(shù)據(jù)量少,尤其F和K型光譜,因此分類效果明顯低于實(shí)驗(yàn)2的大樣本數(shù)據(jù)的分類結(jié)果.
2)深度信念網(wǎng)絡(luò)分類模型與其他算法相比較,該模型通過(guò)受限玻爾茲曼機(jī)層學(xué)習(xí)、訓(xùn)練各個(gè)參數(shù)的權(quán)值,并根據(jù)目標(biāo)函數(shù)值經(jīng)誤差反饋對(duì)參數(shù)數(shù)值進(jìn)行微調(diào),使得對(duì)于天體光譜的總體分類精確率有明顯提升;
3)深度信念網(wǎng)絡(luò)模型具有較強(qiáng)的學(xué)習(xí)能力,可以從高維的原始數(shù)據(jù)中提取差別較大的低維特征,不需要對(duì)數(shù)據(jù)進(jìn)行降維就可直接開(kāi)始訓(xùn)練分類模型,不僅能夠更全面的考慮到光譜信息量,而且能夠較為準(zhǔn)確的對(duì)光譜數(shù)據(jù)進(jìn)行分類識(shí)別.
針對(duì)分類可信度較低的F、G和K3種型星,采用深度信念網(wǎng)絡(luò)進(jìn)行大樣本分類實(shí)驗(yàn),結(jié)果表明該方法通過(guò)分層提取光譜數(shù)據(jù)特征的方法,具有很好的魯棒性,且分類效果優(yōu)于其他分類模型.深度學(xué)習(xí)方法雖然在大樣本數(shù)據(jù)分類識(shí)別時(shí)具有較大優(yōu)勢(shì),但是該方法計(jì)算量巨大,對(duì)計(jì)算資源具有較高要求,因此,還需要優(yōu)化算法以解決計(jì)算復(fù)雜度高的問(wèn)題.在接下來(lái)的工作中,我們會(huì)繼續(xù)選取分類精度低或光譜型未知的光譜作為分類搜尋的候選體,進(jìn)行自動(dòng)分類和數(shù)據(jù)挖掘研究,進(jìn)一步完備各型巨星樣本,研究成果可以為銀河系結(jié)構(gòu)和動(dòng)力學(xué)研究提供更好的支持.