姜 斌, 李紫宣, 曲美霞, 王文玉*, 羅阿理
1. 山東大學(威海)機電與信息工程學院, 山東 威海 264209
2. 中國科學院國家天文臺,北京 100012
LAMOST-DR1中激變變星光譜的數據挖掘研究
姜 斌1, 李紫宣1, 曲美霞1, 王文玉1*, 羅阿理2
1. 山東大學(威海)機電與信息工程學院, 山東 威海 264209
2. 中國科學院國家天文臺,北京 100012
LAMOST-DR1是郭守敬望遠鏡正式巡天發(fā)布的首批數據,其數量超過目前世界上所有已知恒星巡天項目的光譜總數。這為進一步擴大特殊和稀少天體如激變變星的數量提供了樣本,同時也對天文數據處理方法和技術提出了更高的要求。針對LAMOST的數據特點,提出一種能夠在海量天體光譜中自動、快速發(fā)現激變變星的方法。該方法使用拉普拉斯特征映射對天體光譜進行降維和重構。結果表明不同類別的天體光譜在拉普拉斯空間中能夠得到較明顯的區(qū)分。在使用粒子群算法對神經網絡的參數進行優(yōu)化后,對LAMOST-DR1的全部數據進行了自動識別。實驗共發(fā)現了7個激變變星,經過證認,其中2個是矮新星,2個是類新星,1個是高度極化的武仙座AM型。這些光譜,補充了現有的激變變星光譜庫。本文驗證了拉普拉斯特征映射對天體光譜進行特征提取的有效性,為高維光譜進行降維提供了另一途徑。在郭守敬望遠鏡正式發(fā)布的數據中尋找激變變星的首次嘗試,實驗結果表明該自動化的方法魯棒性好,速度快,準確率高。該方法也可用于其他大型巡天望遠鏡的海量光譜處理。
數據挖掘; 拉普拉斯特征映射; 激變變星
郭守敬望遠鏡即大天區(qū)面積多目標光纖光譜天文望遠鏡(large sky area multi object fibre spectroscopic telescope, LAMOST)是世界上光譜獲取率最高的望遠鏡[1]。首批發(fā)布的光譜數據包含220萬條光譜,其中信噪比大于10的恒星光譜172萬條,超過目前世界上所有已知恒星巡天項目的光譜總數。發(fā)布的數據中包括一個108萬顆恒星光譜參數星表,是目前世界上最大的恒星光譜參數星表。這批光譜為增加包括激變變星在內的特殊和稀少天體的樣本數量提供了數據。
激變變星(cataclysmic variable stars,CVs)是一類稀少的時變天體。根據現有的數據進行統計,激變變星密度大約為每十立方秒差距內有一顆,如果將銀河系簡化為一個以15 000 s差距為半徑且300 s差距為高的圓柱體,那么整個銀河系將有一千萬顆激變變星。但目前的激變變星星表[2-3]只收錄了1 829顆激變變星,其中證認的只有1 600顆。這些都說明了激變變星數量的稀少和發(fā)現的難度, 同時也說明了搜索激變變星的意義。
數據挖掘在天體數據處理中的應用,滿足了當前天文大數據的處理需求。由于天體光譜屬于高維數據,如何從這些高維數據中發(fā)現其結構特征, 并進一步使用合適的降維算法進行數據約減,是機器學習算法的首要問題。Connolly[4]使用主成分分析法(principle component analysis,PCA)對紅移值已知的星系光譜進行了特征提取,發(fā)現星系光譜的前若干主分量具有很強的線性關系; Madgwick等[5]利用PCA進行了發(fā)射線和吸收線光譜的分類。針對郭守敬望遠鏡光譜的特點,本文使用了拉普拉斯特征映射(laplacian eigenmap, LE)對光譜數據進行了特征提取,然后采用神經網絡進行分類實驗,結果表明,LE的降維效果好于PCA。在分類過程中,由于BP神經網絡容易陷入局部極小值,而粒子群優(yōu)化算法(particle swarm optimization, PSO)在無約束非線性函數優(yōu)化方面性能優(yōu)越,本文采用粒子群算法和BP算法共同訓練神經網絡,達到了較好的效果。
本文的實驗數據是郭守敬望遠鏡最新發(fā)布的DR1的全部光譜,包含808個天區(qū)的1 638 216條光譜。光譜分類情況見表1。
表1 DR1的分布
模板光譜使用Szkody[6-10]在SDSS光譜數據中所發(fā)現的CVs光譜。SDSS的光譜和LAMOST的光譜同構,但后者光譜沒有定標。為了統一,數據預處理中需要做歸一化處理。
1.1 拉普拉斯特征映射
Mikhail Bekkin和Partha Niyogi[11]提出了拉普拉斯特征映射算法,該算法采用圖論的思想去構造數據之間的關系,具體步驟如下: (1)給定樣本空間Rl中的n個樣本點{x1,x2,…,xn},將每個樣本點看成有權無向圖中的一個頂點,計算每個樣本點之間的相似度,這里用歐氏距離來衡量相似度大小,離樣本點xi最近的k個樣本點與xi連通,得到樣本的鄰接圖。
(2)計算鄰接圖中相鄰頂點之間的權重,這里采用Heat kernel,公式如下
(1)
(3)假設低維映射數據集Y={y1,y2,…,yn},為了在d維映射空間中能夠保證原來高維空間中的相似度較大的樣本點,即步驟2中得到的鄰接矩陣中相鄰的點盡量接近,構建如下目標函數。其中,D為對角矩陣,L=D-W為拉普拉斯矩陣。
min2YTLY
(2)
s.t.YDYT=1
1.2 粒子群優(yōu)化算法
粒子群優(yōu)化算法通過不斷迭代更新粒子在解空間中的位置和對應的適應度值,使得粒子向適應度最優(yōu)的位置移動。對于一般的優(yōu)化問題,20個粒子的種群規(guī)模足以求出最優(yōu)解。對于BP神經網絡這一具體問題,每一個粒子的屬性為BP網絡中神經結點的初始權值和閥值,用BP神經網絡的預測誤差作為粒子的適應度值,算法步驟如下:
(1)將種群粒子的位置用向量x(i)=(w,b)表示,i=1, 2,…,n,隨機產生30個粒子(n=30)作為初始分布,其中參數的取值范圍均為[-5, 5],精確到小數點后4位。
(3)將每個粒子的位置向量作為BP神經網絡的控制參數,使用217個SDSS的CVs光譜和其他5 000個隨機光譜混合作為輸入數據集,使用BP神經網絡進行K交叉檢驗(K=5),將得到的預測誤差作為粒子的適應值。
(3)
(4)
(5)如果迭代次數超過最大迭代次數,則結束算法。否則,返回執(zhí)行第4步。
把經過LE和PCA降維后的數據分別在三維空間進行投影(圖1和圖2),圖1中LE在低維空間的正負樣本重疊率明顯低于PCA(圖2)。同時,PSO能夠很大程度上降低初始權值和閥值對BP神經網絡分類效果的影響(圖3),將LE與PCA的降維效果通過BP神經網絡分類準確率進行比較(圖4),發(fā)現針對LAMOST的數據,樣本點在被投影到20維子空間時,分類準確率達到最高; 而且LE在每一個維度的降維效果都優(yōu)于PCA。在分類準確率最高的第20維投影空間中,LE-PSO-BP分類準確率達到88.97%,PCA-PSO-BP分類準確率達84.25%(表2),LE的降維效果優(yōu)于PCA,粒子群算法(PSO)表現的效果也優(yōu)于網格搜索算法(gridsearch,GS)。
實驗中,共產生了647個結果,經過人工檢驗,其中7個結果是CVs光譜。這些天體的信息見表3。
圖1 LE的三維投影圖
圖2 PCA的三維投影圖
圖3 PSO適應度曲線
實驗表明BP神經網絡的初始參數會直接影響分類器的性能,通過粒子群優(yōu)化算法能夠確定最佳輸入參數,最大化分類器性能,降低時間損耗。LE這一流形學習算法能夠最大程度保留數據樣本點間的距離, 對于天體光譜這一類高維非線性數據有較好的降維效果。LE-PSO-BP神經網絡作為分類器進行天體數據挖掘,是天體數據挖掘中又一種較為理想的方法。
圖4 LE-BPNN和PCA-BPNN的準確率
表2 準確率比較
Table 2 Accuracy rate comparison
ALGORITHMACCURACY/%PSO?BPLEPCA88 9784 25GS?BPLEPCA86 2385 03
表3 實驗結果
激變變星作為一類稀少天體,光譜樣本數量的提高依賴于像郭守敬望遠鏡這樣的大型巡天望遠鏡,同時也需要可靠的光譜自動化處理方法。利用SDSS的模板光譜,本文基于數據挖掘方法,在郭守敬望遠鏡正式發(fā)布的首批數據中,尋找激變變星光譜,取得了理想的結果。郭守敬望遠鏡即將發(fā)布的DR2數據量到達了4 136 482條,光譜自動化處理方法的應用必將極大提高激變變星等稀少和特殊天體的數量,產生一些較有影響力的科研成果。
[1] Zhao Gang, Zhao Yongheng, Chu Yaoquan, et al. Research in Astronomy and Astrophysics, 2012, 12: 723.
[2] Downes R A, Shara M M. Publications of the Astronomical Society of the Pacific, 1993, 105: 127.
[3] Downes R A, Webbink R F, Shara M M,et al. Publications of the Astronomical Society of the Pacific, 2001, 113: 764.
[4] Connolly A J, Szalay A S, Bershady M A, et al. Astron. J., 1995, 110(3): 1071.
[5] Madgwick D S, Coil A L, et al. The Astrophysical Journal, 2003, 599: 997.
[6] Szkody P, et al. The Astrophysical Journal, 2005, 129: 2386.
[7] Szkody P, et al. The Astrophysical Journal, 2006, 131: 973.
[8] Szkody P, et al. The Astrophysical Journal, 2007, 134: 185.
[9] Szkody P,et al. The Astrophysical Journal, 2009, 137: 4011.
[10] Szkody P,et al. The Astrophysical Journal, 2011, 142: 181.
[11] Belkin M, Niyogi P. Neural Computation, 2003, 15: 1373.
(Received Jun. 5, 2015; accepted Oct. 12, 2015)
*Corresponding author
Data Mining for CVs Spectra in LAMOST-DR1
JIANG Bin1, LI Zi-xuan1, QU Mei-xia1, WANG Wen-yu1*, LUO A-li2
1. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai, Weihai 264209, China
2. National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China
LAMOST-DR1 is the first data released by Guoshoujing telescop, which has the largest number of stellar spectra in the world at present. The data set provides the data source for searching for special and rare celestial objects like cataclysmic variable stars.Meanwhile, it requires more advanced astronomical data processing methods and techniques. A data mining method for cataclysmic variable spectra in massive spectra data is proposed in this paper. Different types of celestial spectra show obvious difference in the feature space constructed with Laplacian Eigenmap method. The parameters of artificial neural network are optimized with particle swarm optimization method and the total LAMOST-DR1 data is processed. 7 cataclysmic variable star spectra are found in the experiment including 2 dwarf nova, 2 nova like variables and a highly polarized AM Her type. The newly found spectra enrich the current cataclysmic variable spectra library. The experiment is the first attempt of searching for cataclysmic variable star spectra with Guoshoujing telescope data and the results show that our approach is feasible in LAMOST data. This method is also applicable for mining other special celestial objects in sky survey telescope data.
Data mining; Laplacian eigenmap; Cataclysmic variables
2015-06-05,
2015-10-12
國家自然科學基金項目(11473019,U1431102),山東省自然科學基金項目(ZR2014AM015),山東大學基本科研業(yè)務費項目(2015ZZXM002)資助
姜 斌,1977年生,山東大學(威海)機電與信息工程學院副教授 e-mail: jiangbin@sdu.edu.cn *通訊聯系人 e-mail: sdwangwenyu@163.com
TP29
A
10.3964/j.issn.1000-0593(2016)07-2275-04