王光沛, 潘景昌*, 衣振萍, 韋 鵬, 姜 斌
1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
2. 中國科學(xué)院光學(xué)天文重點實驗室, 國家天文臺, 北京 100012
基于線指數(shù)特征的海量恒星光譜聚類分析研究
王光沛1, 潘景昌1*, 衣振萍1, 韋 鵬2, 姜 斌1
1. 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
2. 中國科學(xué)院光學(xué)天文重點實驗室, 國家天文臺, 北京 100012
聚類分析是數(shù)據(jù)挖掘中用以發(fā)現(xiàn)數(shù)據(jù)分布和隱含模式的一種重要算法, 能簡單有效地研究大樣本、 多參量和類別未知的光譜數(shù)據(jù)。 以線指數(shù)作為光譜數(shù)據(jù)的特征值能夠在盡可能多的保留光譜物理特征的同時, 有效解決高維光譜數(shù)據(jù)聚類分析中運算復(fù)雜度較高的問題。 本文提出了基于線指數(shù)特征的海量恒星光譜數(shù)據(jù)聚類分析的方法, 提取恒星光譜中的Lick線指數(shù)作為海量巡天光譜數(shù)據(jù)的特征, 使用k均值聚類算法完成對光譜數(shù)據(jù)的聚類, 然后對聚類結(jié)果進(jìn)行有效的分析。 實驗結(jié)果證明該方法能夠快速有效地將具有相似物理特征的恒星光譜數(shù)據(jù)聚集到一起, 該方法可以應(yīng)用到巡天數(shù)據(jù)的研究中。
Lick線指數(shù); 聚類分析; 恒星光譜
隨著LAMOST[1-3]開始正式巡天, 每天將會觀測到上萬條光譜數(shù)據(jù), 如此龐大的數(shù)目對光譜的快速有效處理提出了更高的要求[4-5]。
聚類分析[6]是一種無監(jiān)督分類方法, 其目的是是把數(shù)據(jù)對象聚集到不同的子集的過程, 每個子集是一個簇, 簇內(nèi)的對象彼此非常相似, 而簇間的對象不相似, 一個數(shù)據(jù)一般只屬于一個簇, 簇與簇之間基本上沒有交叉。 聚類分析在發(fā)現(xiàn)未知群組方面有非常大的作用[7]。
本文提出一種基于Lick線指數(shù)特征, 利用k均值算法對海量恒星光譜數(shù)據(jù)進(jìn)行聚類分析的方法
1.1 Lick線指數(shù)
Lick/IDS線指數(shù)(簡稱Lick線指數(shù))是一個相對來說較寬的光譜特征。 Lick線指數(shù)定義了25條光學(xué)波段的吸收線指數(shù), 包括19條原子吸收線指數(shù)以及6條分子吸收線指數(shù)。
Lick線指數(shù)的計算方式有兩種[8], 其中19條原子吸收線指數(shù)是以等值寬度的方式計算
(1)
另外6條分子吸收線指數(shù)以星等的形式計算
(2)
其中,λ1和λ2分別為中心波段起止波長,F(xiàn)Iλ和Fcλ分別表示在中心波段的單位波長的光譜流量與偽連續(xù)譜的流量。
文獻(xiàn)[8-10]給出了Lick線指數(shù)的完整定義及描述。
1.2k均值聚類算法
常用的聚類分析算法[11]包括劃分聚類算法、 層次聚類算法、 基于密度的聚類算法、 基于網(wǎng)格的聚類算法,k均值算法(k-means algorithm)是劃分聚類算法中的一種。
k均值算法[12]的思想是把n個對象根據(jù)他們的屬性特征劃分到k個(k k均值算法首先隨機(jī)選擇k個點作為k個簇的簇心, 剩余的數(shù)據(jù)按照其與簇心的距離將它們分發(fā)到最相似的集合中, 計算每個簇更新后的均值。 這個過程不 斷重復(fù), 直到目標(biāo)函數(shù)值達(dá)到收斂, 算法描述如下: 輸入:k: 簇的數(shù)目; D: 包含n個獨享的數(shù)據(jù)集; 輸出:k個簇的集合 方法: 1)從D中任意選擇k個對象作為初始簇的簇心; 2)repeat; 3)根據(jù)簇中對象的均值, 將每個對象(再)指派到最相似的簇; 4)更新簇均值, 即計算每個簇中對象的均值; 5)until 不再發(fā)生變化。 本文以Lick線指數(shù)作為巡天光譜數(shù)據(jù)的特征值, 使用k均值聚類算法完成恒星巡天光譜數(shù)據(jù)的聚類并對實驗結(jié)果進(jìn)行了分析。 實驗結(jié)果證明該方法的聚集結(jié)果符合恒星光譜數(shù)據(jù)的分布規(guī)律, 能夠?qū)⑾嗨频臄?shù)據(jù)聚集到同一個簇中。 表1 實驗數(shù)據(jù)類型分布 2.1 數(shù)據(jù) 實驗選取了10萬條LAMOST DR2數(shù)據(jù)中g(shù)波段和r 波段的信噪比大于5的恒星光譜數(shù)據(jù)。 數(shù)據(jù)集中包含F(xiàn)型、 G型、 K型以及M型恒星, 具體數(shù)量如表1所示。 2.2 步驟 1)讀取fits文件中的光譜數(shù)據(jù), 并依據(jù)上節(jié)計算方法計算每條光譜的Lick線指數(shù); 2)對線指數(shù)特征進(jìn)行標(biāo)準(zhǔn)正態(tài)分布?xì)w一化, 消除不同線指數(shù)之間的差異; 3)將恒星光譜類型進(jìn)行數(shù)值化, F0-F9分別取值為0-9, G0-G9取值10-19, K0-K9取值20-29, M0-M9取值30-39; 4)聚類時采用歐式距離, 利用k均值算法對數(shù)據(jù)進(jìn)行聚類, 將10萬條數(shù)據(jù)聚為k=100個簇。 3.1 數(shù)據(jù)分布分析 實驗數(shù)據(jù)集分為F型、 G型、 K型、 M型四種類型, 細(xì)分為39個子類。 樣本個數(shù)大于1 000的子類共有23個, 該23個子類包含全部10萬條光譜的95%的數(shù)據(jù)。 數(shù)據(jù)的光譜型主要分布大子類中, 剩下較少的數(shù)據(jù)分布在小子類中。 聚類實驗將10萬條數(shù)據(jù)分為了100個簇, 其中樣本個數(shù)大于500的簇共有53個, 樣本個數(shù)小于500的簇共計47個。 53個大簇中包括了95%的樣本數(shù)據(jù)點, 剩下5%的數(shù)據(jù)分布在47個小簇中。 圖1列出了數(shù)據(jù)集的類型分布和聚類結(jié)果的分布, 實驗結(jié)果的分布規(guī)律和數(shù)據(jù)類型的分布規(guī)律是一致的, 即數(shù)據(jù)集中在較大的簇中, 較大的簇和較小的簇數(shù)量相差不多。 該方法的聚類效果在數(shù)據(jù)分布上是符合預(yù)期的。 圖1 恒星子類分布與聚簇后數(shù)據(jù)分布對比 3.2 簇內(nèi)數(shù)據(jù)相關(guān)性分析 計算所有簇中的每個波長采樣點的流量平均值, 記為均值譜。 均值譜可輔助分析簇中光譜的物理特征是否明顯、 是否一致。 為消除不同光譜尺度上的差異, 在計算均值譜之前, 對所有光譜進(jìn)行二范數(shù)歸一化處理。 實驗結(jié)果中各個簇的均值譜光譜型比較明顯、 與模板有較高的擬合度(圖2展示了部分簇的均值譜以及對應(yīng)相似度較高的模板)。 分析可知實驗結(jié)果中簇內(nèi)數(shù)據(jù)具有較為一致的物理特征, 數(shù)據(jù)之間具有較強(qiáng)的相關(guān)性。 圖2 部分簇的均值譜圖 3.3 光譜型與線指數(shù)相關(guān)性分析 不同于其他的特征選取方法(PCA, MDS等), 用線指數(shù)作為光譜數(shù)據(jù)的特征值是對光譜在物理意義上的降維。 分析簇中線指數(shù)的分布以及簇內(nèi)數(shù)據(jù)的物理特征有助于理解線指數(shù)與光譜型的相關(guān)性。 圖3繪制了第69簇和第70簇的均值譜以及線指數(shù)的正態(tài)參數(shù)。 這兩個簇的均值譜具有很強(qiáng)的差異性, 線指數(shù)的分布是對稱的。 統(tǒng)計兩個簇數(shù)據(jù)的子類可以發(fā)現(xiàn)69簇主要是K型恒星, 70簇主要為G型恒星。 如圖4所示, 第4簇與第9簇也有很大的差異性, 第4簇主要是K型恒星, 第9簇主要為G型恒星。 G4300這根線的線指數(shù)能夠很好的區(qū)分開K型恒星以及G型恒星。 以線指數(shù)作為光譜特征值應(yīng)用到聚類中, 可以充分的保留數(shù)據(jù)的物理特性, 對聚類結(jié)果有很好的幫助。 提出了基于線指數(shù)特征的海量恒星光譜數(shù)據(jù)聚類分析的方法。 該方法提取恒星光譜中的Lick線指數(shù)作為海量巡天光譜數(shù)據(jù)的特征, 使用k均值聚類算法完成對光譜數(shù)據(jù)的聚類, 然后對聚類結(jié)果進(jìn)行有效的分析。 實驗結(jié)果證明該方法能夠快速有效地將具有相似物理特征的恒星光譜數(shù)據(jù)聚集到一起, 數(shù)據(jù)分布符合光譜分布規(guī)律, 該方法可以應(yīng)用到巡天數(shù)據(jù)的研究中。 圖3 第69簇以及第70簇的對比 圖4 第4簇以及第9簇的對比 [1] Cui X, Zhao Y, Chu Y, et al. Research in Astron. Astrophys, 2012, 12(9): 1197. [2] Luo A, et al. Research in Astron. Astrophys, 2012, 12(9): 1243. [3] Zhao G, et al. Research in Astron. Astrophys, 2012, 12(7): 723. [4] Wei P, Luo A, Li Y, et al. Monthly Notices of the Royal Astronomical Society, 2013, 431(2): 1800. [5] Wei P, Luo A, Li Y, et al. Astronomical Journal, 2014, 147(5). [6] Jain A K, Dubes R C. Algorithms for Clustering Data. Englewood Cliffs: Prentice Hall, 1988. [7] Jain A K, Murty M N, Flynn P J. Data Clustering: A review. ACM Computing Surveys (CSUR), 1999, 31(3): 264. [8] TAN Xin, PAN Jing-chang, WANG Jie, et al(譚 鑫, 潘景昌, 王 杰, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2013, 33(6): 1701. [9] Guy Worthey, Faber S M, et al. The Astrophysical Journal Supplement Series, 1994, 94: 687. [10] Trager S C, Guy Worthey, et al. Astrophysical Journal Supplement Series, 1998, 116(1): 1. [11] YAN Tai-sheng, ZHANG Yan-xia, ZHAO Yong-heng, et al(嚴(yán)太生, 張彥霞, 趙永恒, 等). Progress in Astronomy(天文學(xué)進(jìn)展), 2010, 28(2): 112. [12] Hartigan J A, Wong M A. Algorithm AS 136: Ak-Means Clustering Algorithm. Applied Statistics, 1979. 100. *Corresponding author Research on the Clustering of Massive Stellar Spectra Based on Line Index WANG Guang-pei1, PAN Jing-chang1*, YI Zhen-ping1, WEI Peng2, JIANG Bin1 1. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai, Weihai 264209, China 2. Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China Clustering algorithm is an important algorithm used to find the data distribution and implicit scheme in data mining. It can study spectra of large amount, multi-parameter and categories unknown simply and effectively. Using lick index as the eigenvalues of spectra can effectively improve the speed to calculate the high-dimensional spectra which can also retain more astrophysical characteristics of spectra. This paper finishes clustering of the survey data withk-means algorithm, using lick index as the eigenvalues of data with finished analysis results. The results show that the new method can gather data with similar physical characteristics together quicker and efficiently, with very good results in discovering rare stars. This method can be applied to the study of Survey data. Lick line index; Clustering; Stellar spectra May 18, 2015; accepted Nov. 23, 2015) 2015-05-18, 2015-11-23 國家自然科學(xué)基金項目(U1431102,11473019)資助 王光沛, 1990年生, 山東大學(xué)(威海)機(jī)電與信息工程學(xué)院碩士研究生 e-mail: wangguangpei@live.com *通訊聯(lián)系人 e-mail: pjc@sdu.edu.cn P145.4 A 10.3964/j.issn.1000-0593(2016)08-2646-052 實驗部分
3 結(jié)果與討論
3 結(jié) 論