• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于Map/Reduce分布式計算的恒星光譜分類方法

      2016-06-15 16:40:27潘景昌羅阿理
      光譜學(xué)與光譜分析 2016年8期
      關(guān)鍵詞:海量恒星貝葉斯

      潘景昌, 王 杰, 姜 斌, 羅阿理, , 韋 鵬, 鄭 強

      1. 山東大學(xué)(威海)機電與信息工程學(xué)院, 山東 威海 264209

      2. 中國科學(xué)院光學(xué)天文重點實驗室, 國家天文臺, 北京 100012

      3. 煙臺大學(xué)計算機與控制工程學(xué)院, 山東 煙臺 264005

      一種基于Map/Reduce分布式計算的恒星光譜分類方法

      潘景昌1, 王 杰1, 姜 斌1, 羅阿理1, 2, 韋 鵬2, 鄭 強3

      1. 山東大學(xué)(威海)機電與信息工程學(xué)院, 山東 威海 264209

      2. 中國科學(xué)院光學(xué)天文重點實驗室, 國家天文臺, 北京 100012

      3. 煙臺大學(xué)計算機與控制工程學(xué)院, 山東 煙臺 264005

      天體光譜中蘊含著非常豐富的天體物理信息, 通過對光譜的分析, 可以得到天體的物理信息、 化學(xué)成分以及天體的大氣參數(shù)等。 隨著LAMOST和SDSS等大規(guī)模巡天望遠(yuǎn)鏡的實施, 將會產(chǎn)生海量的光譜數(shù)據(jù), 尤其是LAMOST正式運行后, 每個觀測夜產(chǎn)生大約2~4萬條光譜數(shù)據(jù)。 如此海量的光譜數(shù)據(jù)對光譜的快速有效的處理提出了更高的要求。 恒星光譜的自動分類是光譜處理的一項基本內(nèi)容, 該研究主要工作就是研究海量恒星光譜的自動分類技術(shù)。 Lick線指數(shù)是在天體光譜上定義的一組用以描述光譜中譜線強度的標(biāo)準(zhǔn)指數(shù), 代表光譜的物理特性, 以每個線指數(shù)最突出的吸收線命名, 是一個相對較寬的光譜特征。 研究了基于Lick線指數(shù)的貝葉斯光譜分類方法, 對F, G, K三類恒星進行分類。 首先, 計算各類光譜的Lick線指數(shù)作為特征向量, 然后利用貝葉斯分類算法對三類恒星進行分類。 針對海量光譜的情況, 基于Hadoop平臺實現(xiàn)了Lick線指數(shù)的計算, 以及利用貝葉斯決策進行光譜分類的方法。 利用Hadoop HDFS高吞吐率和高容錯性的特點, 結(jié)合Hadoop MapReduce編程模型的并行優(yōu)勢, 提高了對大規(guī)模光譜數(shù)據(jù)的分析和處理效率。 該研究的創(chuàng)新點為: (1) 以Lick線指數(shù)作為特征, 基于貝葉斯算法實現(xiàn)恒星光譜分類; (2) 基于Hadoop MapReduce分布式計算框架實現(xiàn)Lick線指數(shù)的并行計算以及貝葉斯分類過程的并行化。

      Lick線指數(shù); 恒星光譜分類; Hadoop

      引 言

      當(dāng)代天文學(xué)的研究極大程度上依賴對天體目標(biāo)的觀測, 如今, 隨著科學(xué)技術(shù)的快速發(fā)展, 對天體的觀測能力也大大提高, 產(chǎn)生了一系列大規(guī)模光譜巡天項目, 如斯隆數(shù)字巡天(SDSS)[1-2], LAMOST[3-4]等。 這些巡天項目產(chǎn)生的海量光譜數(shù)據(jù)對光譜的自動化處理提出了更高的要求, 其中, 恒星光譜的自動化分類是光譜分析的一項重要內(nèi)容。 利用恒星光譜的流量信息對光譜進行分類的方法比較多, 包括基于SVM的光譜分類[5], 基于人工神經(jīng)網(wǎng)絡(luò)ANN的光譜分類[6]等。

      在綜合分析研究已有方法的基礎(chǔ)上, 本文提出一種利用線指數(shù)特征進行恒星光譜分類的方法; 同時考慮到海量光譜的情況, 基于Hadoop Map/Reduce分布式計算框架實現(xiàn)了線指數(shù)的計算以及基于貝葉斯決策的恒星光譜分類方法。 利用Hadoop HDFS高吞吐率和高容錯性的特點, 結(jié)合Hadoop Map/Reduce編程模型的并行優(yōu)勢, 極大地提高了大規(guī)模恒星光譜數(shù)據(jù)的分析和處理效率, 同時也表明了先進的計算架構(gòu)和技術(shù), 對于提高科學(xué)研究的效率具有很重要的意義。

      1 線指數(shù)

      線指數(shù)是指在天體光譜上定義的一組用以描述光譜中譜線強度的標(biāo)準(zhǔn)指數(shù)。 本文中采用了目前較為流行和廣泛使用的Lick線指數(shù)。 該套線指數(shù)在恒星光譜的4 000~6 500 ?波段范圍內(nèi)定義了25個突出的吸收特征, 包括19條原子吸收線指數(shù)和6條分子吸收線指數(shù), 是相對較寬的光譜特征。 該系統(tǒng)定義中包括光譜吸收譜線的中心波長以及兩側(cè)的藍(lán)、 紅兩端連續(xù)譜波段的起止波長。 每條線指數(shù)包含了大量的不同元素的吸收特征, 并以該線指數(shù)所在波段內(nèi)最突出的吸收線來命名[7-9]。 有關(guān)Lick線指數(shù)的完整定義參見Worthey的網(wǎng)站http://astro.wsu.edu/worthey/html/system.html。

      Lick線指數(shù)的計算方式有兩種, 其中19條原子吸收線指數(shù)是以等值寬度的方式計算

      (1)

      另外6條分子吸收線指數(shù)以星等的形式計算

      (2)

      其中,λ1和λ2分別為中心波段起止波長,F(xiàn)Iλ和FCλ分別表示在中心波段的單位波長的光譜流量與偽連續(xù)譜的流量。

      2 基于Hadoop的Lick線指數(shù)計算

      Hadoop是一個專門針對海量數(shù)據(jù)設(shè)計的分布式軟件框架, 利用其兩大核心組件HDFS分布式文件系統(tǒng)和MapReduce計算模型可以高效地處理和分析海量數(shù)據(jù), 其中, HDFS提供對文件的分布式存儲和訪問等操作, 在此基礎(chǔ)上, MapReduce實現(xiàn)計算任務(wù)的分割、 執(zhí)行、 結(jié)果合并等。

      Hadoop集群的結(jié)構(gòu)是由一個管理節(jié)點和若干工作節(jié)點組成的主從結(jié)構(gòu), HDFS和MapReduce也是典型的主從結(jié)構(gòu)。 HDFS是由一個NameNode(名稱節(jié)點)和若干DataNode(數(shù)據(jù)節(jié)點)組成, NameNode負(fù)責(zé)記錄和管理DataNode上存儲的數(shù)據(jù)。 類似于HDFS的主從結(jié)構(gòu), MapReduce中也有對應(yīng)的JobTracker(作業(yè)跟蹤器)和TaskTracker(任務(wù)跟蹤器), 其中, JobTracker負(fù)責(zé)將用戶需要執(zhí)行的作業(yè)拆分后分散到各個工作節(jié)點上, TaskTracker則負(fù)責(zé)接收分配過來的任務(wù), 并實時地向JobTracker匯報該節(jié)點上任務(wù)的運行情況。

      本文提出的方法基于HDFS和MapReduce的原理實現(xiàn)了對于Lick線指數(shù)計算的并行化, 極大提高了對大規(guī)模光譜的處理效率。

      實驗使用的數(shù)據(jù)是SDSS發(fā)布的DR8光譜數(shù)據(jù), 從中選取信噪比(signal to noise ratio, SNR)大于20的F, G, K型星, 去掉流量為NULL的數(shù)據(jù)后共284875條光譜數(shù)據(jù)。

      Hadoop適用于處理單個的大數(shù)據(jù)文件, 對于大量小文件的情況, 會嚴(yán)重影響Hadoop的擴展性和性能。 所謂小文件是指文件的大小遠(yuǎn)遠(yuǎn)小于HDFS上block(默認(rèn)塊大小為64 MB)大小的文件。 首先, 在HDFS中, 所有的block, 文件以及索引目錄都以對象的形式存放在NameNode(名稱節(jié)點)的內(nèi)存中, 每個對象約占150字節(jié)。 對于海量的小文件, 每個文件都要占用一個block, 則需要占用NameNode大量的內(nèi)存空間。 其次, 訪問大量小文件的效率遠(yuǎn)遠(yuǎn)小于訪問大文件, 因為需要不斷的從一個DataNode(數(shù)據(jù)節(jié)點)到另一個DataNode來讀取文件, 會大大降低訪問的效率。 另外, MapReduce處理大量小文件的效率也要比處理相同大小的大文件的效率低很多, 因為針對每一個小文件就要啟動一個task, 而啟動task會耗費很多時間, 這樣就造成啟動和釋放task耗費的時間遠(yuǎn)大于處理文件本身所需要的時間。

      實驗中用到的FITS文件有將近20萬個, 每個只有170 kB左右。 在Hadoop平臺上直接對這些小文件處理會嚴(yán)重影響性能, 因此需要對這些FITS文件進行預(yù)處理。 預(yù)處理的過程是從每個FITS文件中讀取出波長和流量信息, 存放在同一個文本文件中。

      對每條光譜計算Lick線指數(shù)的過程是獨立的, 因此可以通過將大樣本數(shù)據(jù)分割后分布到多個節(jié)點上計算實現(xiàn)Lick線指數(shù)計算過程的并行化。 具體步驟如下:

      (1) 將輸入數(shù)據(jù)上傳到HDFS上。

      輸入數(shù)據(jù)是經(jīng)過預(yù)處理后存放在文本文件中的光譜數(shù)據(jù), 每一行代表一條光譜的信息, 包括PLATE-MJD-FIBERID, 波長, 流量。 輸入數(shù)據(jù)存放在HDFS上時會被分割成固定大小的數(shù)據(jù)塊。

      (2) Map階段。

      Hadoop將HDFS上的一個數(shù)據(jù)塊作為一個輸入分片, 并為每個輸入分片創(chuàng)建一個Map Task, 對于輸入分片中的每條記錄依次調(diào)用Map函數(shù)進行處理。 本實驗中Map函數(shù)的任務(wù)是根據(jù)每條光譜的波長和流量計算其對應(yīng)的Lick線指數(shù), 輸出為每條光譜對應(yīng)的Lick線指數(shù)。

      (3) 將計算結(jié)果匯總后寫入HDFS。

      Map階段結(jié)束后, Hadoop會調(diào)用默認(rèn)的Reduce函數(shù), 將Map函數(shù)的輸出匯總后寫入HDFS中。

      本文以284 875條光譜數(shù)據(jù)作為輸入數(shù)據(jù), 分別在單機上和由一個主節(jié)點和8個從節(jié)點構(gòu)成的集群上運行, 運行時間的對比結(jié)果如表1所示。 可以看出, 在集群上計算Lick線指數(shù)效率比在單機上有明顯提高。

      表1 單機模式與Hadoop集群模式運行時間比較

      3 Hadoop平臺下基于貝葉斯算法的光譜分類

      在分類問題中, 利用貝葉斯公式, 以分類錯誤最小為目標(biāo)的決策方法稱為基于最小錯誤率的貝葉斯決策。 假設(shè)分類樣本有d種特征值x1,x2, …,xd, 則稱x=[x1,x2, …,xd]T為d維特征向量。 分類樣本的類別個數(shù)為c, 以w1,w2, …,wc表示各個類別, 每個類別wi對應(yīng)的先驗概率為P(wi), 類條件概率密度為p(x|wi),P(x)為訓(xùn)練數(shù)據(jù)x的先驗概率。 利用貝葉斯公式可以得到每個類別對應(yīng)的后驗概率P(wi|x)

      (3)

      基于最小錯誤率的貝葉斯決策的規(guī)則是: 如果P(wi|x)=maxP(wj|x),j=1, …,c, 則把x歸為wi類。 由于樣本的先驗概率P(x)是獨立于wi的常量, 在很多實際應(yīng)用中, 計算類別的后驗概率P(wi|x)時常常忽略P(x)。 因此基于最小錯誤率的貝葉斯決策的規(guī)則又可以描述為: 如果p(x|wi)P(wi)=max{p(x|wj)P(wj)},j=1, …,c, 則x屬于類別wi。 在實際分類工作中, 總體的先驗概率P(wi)和類條件概率密度p(x|wi)往往是未知的, 因此需要從收集的有限數(shù)量的樣本中估計P(wi)和p(x|wi)。

      本文首先計算恒星光譜的Lick線指數(shù)作為特征向量x, 然后利用基于最小錯誤率的貝葉斯決策進行分類, 將恒星光譜分為F, G, K三類, 分別以w1,w2,w3表示。 各個類別對應(yīng)的先驗概率P(wi)通過計算訓(xùn)練樣本中每個類的比例來估計, 類條件概率密度p(x|wi)則通過Parzen窗法來估計

      (4)

      其中,x是待分類的樣本, 即測試樣本,xi是屬于類別wi的訓(xùn)練樣本,n是訓(xùn)練樣本中屬于wi類的樣本個數(shù),h為窗寬,K為核函數(shù)。

      使用Parzen窗法對類條件概率密度進行估計時, 窗寬和核函數(shù)的選擇會對估計效果有影響。 由于高斯核函數(shù)(又稱為正態(tài)分布函數(shù))具有連續(xù)性, 利用Parzen窗法計算概率密度函數(shù)時是通過對高斯核函數(shù)的加和得到的, 因此計算出來的概率密度函數(shù)也具有連續(xù)性, 相應(yīng)的概率密度曲線也更光滑, 因此本文選擇高斯核函數(shù)作為核函數(shù)

      (5)

      本節(jié)使用的實驗數(shù)據(jù)是由SDSS發(fā)布的DR8恒星光譜數(shù)據(jù), 選取F, G, K三種星型的光譜數(shù)據(jù)。 其中, 取信噪比為100的4660條光譜數(shù)據(jù)作為訓(xùn)練樣本, 信噪比大于20的284 875條光譜數(shù)據(jù)作為測試樣本。 根據(jù)第2節(jié)介紹的方法分別計算出訓(xùn)練樣本和測試樣本的Lick線指數(shù)作為本次實驗的輸入數(shù)據(jù)。

      實驗的目標(biāo)是基于MapReduce計算模型實現(xiàn)貝葉斯分類, 由于對每個測試樣本進行貝葉斯分類的過程是獨立的計算過程, 與其他測試樣本不存在計算順序上的相關(guān)性, 根據(jù)HDFS和MapReduce計算模型的分布式原理, 可以將測試樣本分割后分布在多個節(jié)點上進行貝葉斯決策的計算過程。 測試樣本數(shù)據(jù)存放在HDFS上時會被分割成固定大小的數(shù)據(jù)塊, 默認(rèn)為64MB。 默認(rèn)情況下, MapReduce將一個數(shù)據(jù)塊作為一個輸入分片, 并為每一個輸入分片創(chuàng)建一個Map Task實現(xiàn)分布式計算。 本次實驗所用的數(shù)據(jù)所占的存儲空間較小, 只有135.5 MB, 但實際的樣本個數(shù)很大, 使用默認(rèn)的輸入分片并行效果并不明顯, 因此, 為了達(dá)到更好的并行效果, 實驗將輸入分片設(shè)置為5 MB。 實驗的具體步驟如下:

      (1) 將輸入數(shù)據(jù)上傳到HDFS上。

      輸入數(shù)據(jù)是存放在文本文件中的Lick線指數(shù), 每一行代表一條光譜的信息, 包括PLATE-MJD-FIBERID, Lick線指數(shù), 光譜類別。

      (2) Map階段。

      該階段會對輸入分片中的每一條測試數(shù)據(jù)依次調(diào)用Map函數(shù)進行處理, Map函數(shù)的任務(wù)是讀取訓(xùn)練數(shù)據(jù)集, 然后對每個測試樣本數(shù)據(jù)計算其對應(yīng)的各個類別的后驗概率, 并將后驗概率最大值所對應(yīng)的類別作為該測試樣本數(shù)據(jù)所屬的類別。 Map階段的輸出是每一條光譜的唯一標(biāo)識PLATE-MJD-FIBERID以及通過貝葉斯決策得到的光譜類別。

      (3) 將計算結(jié)果匯總后寫入HDFS。

      調(diào)用Hadoop默認(rèn)的Reduce函數(shù), 將Map函數(shù)的輸出匯總后直接寫入HDFS中。

      實驗對284 875條光譜數(shù)據(jù)進行貝葉斯分類, 分別在單機上和由一個主節(jié)點和8個從節(jié)點構(gòu)成的集群上運行, 得到的分類結(jié)果相同, 分類正確率約為84.4%(240 381/284 875), 運行時間的對比結(jié)果如表2所示。 可以看出, 在集群上進行貝葉斯分類效率比在單機上有明顯提高。

      表2 單機模式與Hadoop集群模式運行時間比較

      使用Parzen窗法對類條件概率密度進行估計時, 窗寬不同會對估計效果有影響。 本文在[0.1, 2.0]范圍內(nèi), 以0.1為步長, 對不同的窗寬進行了分類實驗, 得到的分類正確率如圖1所示。

      圖1 三種類型光譜在不同核窗寬度下的

      Fig.1 Bayesian classification accuracy of three type spectra with different kernel width

      從圖中可以看出, K類恒星的分類正確率受窗寬的影響不大, 而F和G類恒星對窗寬的變化比較敏感。 隨著窗寬的增加, G類恒星的分類正確率逐漸提高。 窗寬從0.1增加到0.7時, F類恒星的分類正確率逐漸提高, 但在0.7~2.0區(qū)間內(nèi), F類恒星的分類正確率隨之降低。

      4 結(jié) 論

      對于海量光譜的情況, 利用分布式平臺實現(xiàn)光譜的自動化分類是非常重要的一項工作。 本文研究了基于Lick線指數(shù), 利用貝葉斯算法對光譜進行分類的方法, 并在Hadoop平臺下實現(xiàn)了Lick線指數(shù)的計算以及貝葉斯分類算法。 實驗取得的分類正確率為84.4%, 8節(jié)點集群運行時間約為單機模式下的6%。 這說明在Hadoop平臺下可以明顯提高對海量光譜數(shù)據(jù)的分析和處理效率。 另外, 在利用貝葉斯進行分類時, 需要利用Parzen窗方法計算類條件概率密度, 而Parzen窗方法中不同的窗寬取值會影響最終分類效果, 通過實驗研究了不同窗寬對各類恒星分類效果的影響, 實驗證明, K類恒星的分類正確率受窗寬的影響不大, 而F和G類恒星對窗寬的變化比較敏感。

      在Hadoop環(huán)境下實現(xiàn)了貝葉斯決策方法的并行化并應(yīng)用于光譜的自動分類, 取得了較好的效果, 后續(xù)工作中還可以實現(xiàn)其他算法的并行化, 應(yīng)用于光譜數(shù)據(jù)的自動分類及參數(shù)測量, 進一步提高海量光譜數(shù)據(jù)的分析和處理效率。

      [1] Sloan Digital Sky Survey: http://www.sdss.org/.

      [2] Jianmin Si, et al. Science China-Physics Mechanics & Astronomy, 2014, 57(1): 176.

      [3] LAMOST Experiment for Galactic Understanding and Exploration(LEGUE)—The Survey’s Science Plan. Research in Astronomy and Astrophysics, 2012, 12(7): 735.

      [4] Cui X, et al. Research in Astronomy and Astrophysics, 2012, 12(9): 1197.

      [5] Bu Yude, Chen Fuqiang, Pan Jingchang. New Astronomy, 2014, 28: 35.

      [6] Navarro S G, Corradi R L M, Mampaso A. Astronomy & Astrophysics, 2012, 538.

      [7] Daniel Thomas, Claudia Maraston, Jonas Johansson. Monthly Notices of the Royal Astronomical Society, 2011, 412(4): 2183.

      [8] Jonas Johansson, Daniel Thomas, Claudia Maraston. Monthly Notices of the Royal Astronomical Society, 2010, 406(1): 165.

      [9] Franchini M, et al. Astrophysical Journal, 2011, 730(2): 117.

      A Method of Stellar Spectral Classification Based on Map/Reduce Distributed Computing

      PAN Jing-chang1, WANG Jie1, JIANG Bin1, LUO A-li1, 2, WEI Peng2, ZHENG Qiang3

      1. School of Mechanical, Electrical & Information Engineering, Shandong University, Weihai, Weihai 264209, China

      2. Key Laboratory of Optical Astronomy, National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China

      3. College of Computer and Control Engineering, Yantai University, Yantai 264005, China

      Celestial spectrum contains a great deal of astrophysical information. Through the analysis of spectra, people can get the physical information of celestial bodies, as well as their chemical composition and atmospheric parameters. With the implementation of LAMOST, SDSS telescopes and other large-scale surveys, massive spectral data will be produced, especially along with the formal operation of LAMOST, 2 000 to 4 000 spectral data will be generated each observation night. It requires more efficient processing technology to cope with such massive spectra. Automatic classification of stellar spectra is a basic content of spectral processing. The main purpose of this paper is to research the automatic classification of massive stellar spectra. The Lick index is a set of standard indices defined in astronomical spectra to describe the spectral intensity of spectral lines, which represent the physical characteristics of spectra. Lick index is a relatively wide spectral characteristics, each line index is named after the most prominent absorption line. In this paper, the Bayesian method is used to classify stellar spectra based on Lick line index, which divides stellar spectra to three subtypes: F, G, K. First of all, Lick line index of spectra is calculated as the characteristic vector of spectra, and then Bayesian method is used to classify these spectra. For massive spectra, the computation of Lick indices and the spectral classification using Bayesian decision method are implemented on Hadoop. With use of the high throughput and good fault tolerance of HDFS, combined with the advantages of MapReduce parallel programming model, the efficiency of analysis and processing for massive spectral data have been improved significantly. The main innovative contributions of this thesis are as follows. (1) Using Lick indices as the characteristic to classify stellar spectra based on Bayesian decision method. (2) Implementing parallel computation of Lick indices and parallel classification of stellar spectra using Bayesian based on Hadoop MapReduce distributed computing framework.

      Lick line index; Stellar spectral classification; Hadoop

      Mar. 2, 2015; accepted Aug. 15, 2015)

      2015-03-02,

      2015-08-15

      國家自然科學(xué)基金項目(U1431102, 11473019)資助

      潘景昌, 1963年生, 山東大學(xué)(威海)機電與信息工程學(xué)院教授 e-mail: pjc@sdu.edu.cn

      P145.4

      A

      10.3964/j.issn.1000-0593(2016)08-2651-04

      猜你喜歡
      海量恒星貝葉斯
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      (18)刺殺恒星
      海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
      恒星的演化
      恒星不恒
      奧秘(2018年10期)2018-10-25 05:38:56
      貝葉斯公式及其應(yīng)用
      一個圖形所蘊含的“海量”巧題
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      IIRCT下負(fù)二項分布參數(shù)多變點的貝葉斯估計
      柘城县| 正镶白旗| 潞西市| 安阳县| 黔西县| 航空| 通道| 安龙县| 孟村| 富川| 石林| 和静县| 虞城县| 湖南省| 嘉义市| 扎鲁特旗| 彩票| 昂仁县| 周至县| 黄陵县| 沾益县| 澄城县| 南宫市| 友谊县| 志丹县| 自贡市| 安福县| 定州市| 肇庆市| 张家港市| 宁蒗| 阳山县| 嵊州市| 娱乐| 蕲春县| 房产| 孙吴县| 广汉市| 临猗县| 云安县| 尼勒克县|