徐龍,于學鑫,顏毅華
中國科學院國家天文臺太陽活動重點實驗室,北京 100012
近年來,隨著高性能觀測設備的逐步投入使用,例如明安圖射電頻譜日像儀(Muser)[1][2],國際紫外-極紫外光譜成像空間望遠鏡 SDO/AIA[3],平方公里陣列(SKA)[4],以及觀測數(shù)據(jù)不斷地累計,例如明安圖射電頻譜日像儀每天采集約 3-4TB 數(shù)據(jù)量,天文數(shù)據(jù)已經(jīng)進入了大數(shù)據(jù)時代。傳統(tǒng)的數(shù)據(jù)處理方法難以對目前的天文大數(shù)據(jù)進行快速、高效的處理與分析。因此天文大數(shù)據(jù)處理是一個迫切需要解決的問題,其主要表現(xiàn)在以下兩個方面,第一如何對每天采集的數(shù)據(jù)進行高效、準確的分類,實現(xiàn)數(shù)據(jù)的快速歸檔;第二如何充分利用海量的歷史數(shù)據(jù),解決天文領域中關鍵的科學問題甚至為新的發(fā)現(xiàn)提供可能。
最近幾年,深度學習在計算機領域中的圖像分類[5–9]與檢測[10–11]和自然語言處理[12]以及視頻分析[13]等方面取得突破性進展。深度學習主要依賴于大規(guī)模的訓練數(shù)據(jù)、計算資源和學習算法?;ヂ?lián)網(wǎng)的發(fā)展產(chǎn)生了海量的數(shù)據(jù),為深度學習提供了數(shù)據(jù)基礎;圖形處理器 GPU 或高性能處理器 TPU等硬件的發(fā)展和成本的不斷降低為深度學習提供了計算資源;以全連接神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡等為基本模塊構成的AlexNet[5]、GoogleNet[6]、VGGNet[7]、ResNet[8]、DenseNet[9]等著名的深度模型和深度學習框架(例如 Tensorflow,Pytorch,Keras,MXnet等)為快速實現(xiàn)深度學習算法提供了便利。與傳統(tǒng)方法相比,深度學習算法具有以下特點:(1)它是一種數(shù)據(jù)驅動方式的算法,即需要大量的數(shù)據(jù)為基礎;(2)能夠根據(jù)任務目標從訓練數(shù)據(jù)中自動提取特征,無需人工干預,并且不要科研人員具備充足的專業(yè)知識,只需要了解相關基礎知識;(3)具有很好的學習遷移的性質,即用一個訓練好的模型解決不同問題時,只需要用相關數(shù)據(jù)對該模型進行微調即可。
綜上所述,深度學習具有解決天文大數(shù)據(jù)所面臨的問題的潛能。最近幾年,一些研究者已經(jīng)嘗試將深度學習應用到天文大數(shù)據(jù)中。本文主要結合中國科學院國家天文臺太陽重點實驗室的相關工作,討論深度學習在天文大數(shù)據(jù)中太陽射電頻譜圖分類任務和太陽耀斑預報以及電離層總電子含量預報任務中的應用。
高性能太陽觀測設備每天采集到大量的觀測數(shù)據(jù),對于這些數(shù)據(jù)的校準、分類、成像等初步分析通常需要人工干預。在天文大數(shù)據(jù)時代,這種方式不僅消耗了大量的人力,而且數(shù)據(jù)處理的效率低,嚴重阻礙了數(shù)據(jù)的快速歸檔和后期的深入分析。如何實現(xiàn)觀測數(shù)據(jù)快速、高效的自動分類和歸檔是太陽觀測大數(shù)據(jù)急需解決的首要問題。本節(jié)以太陽射電頻譜圖分類為例,討論深度學習在大數(shù)據(jù)分類、歸檔任務中的應用。
傳統(tǒng)的分類方法通常采用有監(jiān)督學習的方式,利用已標記太陽頻譜圖數(shù)據(jù)訓練分類器,例如支持向量機(Support Vector Machine,SVM)。在 SVM 分類中,輸入到分類器的圖像特征需要憑借先驗知識從圖像中進行人工提取,分類效果也會因圖像特性的效率而受到抑制;然而,深度學習能夠根據(jù)具體任務目標從訓練數(shù)據(jù)中自動提取特征,無需人工干預,是一種端到端的模型,從模型優(yōu)化角度講可以獲得最優(yōu)的效果。目前,深度學習在計算機領域中圖像處理、自然語言處理和視頻分析等方面都取得了成功。在本節(jié)將討論幾種深度學習模型在太陽頻譜分類中應用,具體包括深度置信網(wǎng)絡(Deep Belief Network,DBN)[14]、多模態(tài)網(wǎng)絡(Multimodal Network)[15]和深度多模態(tài)網(wǎng)絡(Deep Multimodal Network,DMN)[16]、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[17]和長短時記憶網(wǎng)絡(Long-Short Time Memory,LSTM)[18]。
太陽射電頻譜圖分類任務用到的數(shù)據(jù)是由太陽射電寬帶動態(tài)頻譜儀(Solar Broadband Radio Spectrometer,SBRS)采集的頻譜圖數(shù)據(jù)。SBRS 由5個光譜儀構成,工作頻率分別在 0.7-1.5GHz,1.0-2.0GHz,2.6-3.8GHz,4.5-7.5GHz和5.2-7.6GHz,能夠監(jiān)測太陽爆發(fā)的頻率范圍 0.7-7.6GHz,時間分辨率1-10ms。
實驗中的太陽射電頻譜圖數(shù)據(jù)如圖1所示,其橫軸代表采集的持續(xù)時間 8ms,縱軸代表120個不同的頻率通道,其像素的強度值表示太陽射電在某一個頻率上和某個時間點的輻射強度。整幅圖像表示太陽射電在 8ms 時間內(nèi),120個頻率上的輻射強度的變化。整個頻譜圖包含了左旋和右旋獨立的兩部分,每部分大小為 120×2520 像素。為了使用深度學習對太陽射電頻譜圖進行分類研究,需要首先建立一個數(shù)據(jù)庫,數(shù)據(jù)庫包含太陽射電頻譜圖和其相應的分類標簽,表1列舉了本文所使用的數(shù)據(jù)庫。
根據(jù)對任務目標和數(shù)據(jù)含義的理解,不同的研究者選取不同的深度學習模型,同時對于數(shù)據(jù)預處理也會采用不同的處理方式。文獻 [14–16] 對太陽于頻譜圖的預處理方式相同,最終形成的頻譜圖數(shù)據(jù)庫如表2所示。文獻 [17–18] 對于太陽頻譜圖采用了相同的預處理方式,其形成的頻譜圖數(shù)據(jù)庫如表3所示。
圖1 太陽射電頻譜圖Fig.1 The solar radio spectrum
深度置信網(wǎng)絡(Deep Belief Network,DBN)是一種由多層受限玻爾茲曼機(restricted Boltzmann machines,RBMs)構成的隨機生成模型,既可以用于非監(jiān)督學習,也可以用于監(jiān)督學習。RBM是一種典型的圖形模型,由可見層和隱含層構成,可見層與隱含層間是一種雙向的全連接,而其層內(nèi)是不連接的。當 DBN 用于分類監(jiān)督模型時,只需要在頂層增加一個分類層即可。
文獻 [14] 使用 DBN 對太陽頻譜進行分類,網(wǎng)絡由一個隱含層以及一個分類層構成,其網(wǎng)絡結構如圖2所示。實驗中進行了DBN 與傳統(tǒng)方法 PCA+SVM(Principal Components Analysis,PCA)對比,DBN 分類性能優(yōu)于 PCA+SVM。為了進一步提高網(wǎng)絡的分類性能和避免網(wǎng)絡過擬合或者陷入局部最優(yōu),文獻 [14]首先對 DBN 使用無標簽的頻譜圖數(shù)據(jù)進行預訓練,然后使用訓練數(shù)據(jù)進行微調方式的訓練網(wǎng)絡。同時對隱含層神經(jīng)元數(shù)據(jù)量對分類性能的影響進行了實驗研究,部分相關的實驗結果如表6所示。
表1 太陽射電頻譜圖數(shù)據(jù)庫詳細信息Table1 The details of the solar radio spectrum database
表2 訓練和測試數(shù)據(jù)的詳細信息Table2 The details of the training and test data
表3 訓練和測試數(shù)據(jù)的詳細信息Table3 The details of the training and test data
圖2 深度置信網(wǎng)絡的結構Fig.2 The architecture of deep belief network
文獻 [15] 對于太陽頻譜的分類設計了多模態(tài)網(wǎng)絡(Multimodal Network,MN),它是由自編碼器和正則化以及分類層構成,其網(wǎng)絡結構如圖3所示。自編碼器一種自監(jiān)督網(wǎng)絡,即網(wǎng)絡的標簽就是網(wǎng)絡的輸入。具體來說,網(wǎng)絡的編碼器首先將輸入數(shù)據(jù)進行壓縮,解碼器再將其進行重構,網(wǎng)絡的目標是使得輸入和輸出之間誤差盡可能的小。
文獻 [15–16] 認為太陽頻譜圖的每個頻率能夠獨立表示太陽活動,但頻率之間應該存在關聯(lián)性。所以,將每個頻率視為一個模態(tài),同時在網(wǎng)絡設計中采用稀疏連接和正則化的方式,學習模態(tài)內(nèi)與模態(tài)間的特征,從而提高分類性能,部分相關的實驗結果如表6所示。與文獻 [15] 相比,文獻 [16] 在 MN 的基礎上通過增添全連接層加深網(wǎng)絡的深度構成深度多模態(tài)網(wǎng)絡(Deep Multimodal Network,DMN),其網(wǎng)絡結構如圖4所示。同時,文獻 [16] 對于不同深度的多模態(tài)網(wǎng)絡的分類性能進行了實驗研究,以及隱含層數(shù)相同時其神經(jīng)元數(shù)量的不同對于分類性能的影響,部分相關的實驗結果如表6所示。
圖3 多模態(tài)網(wǎng)絡的結構Fig.3 The architecture of multimodal network
文獻 [17] 受到卷積神經(jīng)網(wǎng)絡 Convolutional Neural Network,CNN)在計算機領域中圖像處理方面取得成功的啟發(fā),將太陽頻譜圖視為一般的自然圖像,最終將 CNN 應用到太陽頻譜圖分類上,期待能夠獲得較好效果。
CNN是受到生物視覺啟發(fā)而設計出的網(wǎng)絡。它通常由卷積層(Convolutional layer)和線性整流層(Rectified Linear Units layer,ReLU)以及池化層(Pooling layer)構成。一般根據(jù)任務的復雜度,適當?shù)卦黾泳W(wǎng)絡深度。在分類任務中,一般在其頂端增加全連接層和分類層構成分類網(wǎng)絡。
文獻 [17] 設計的CNN 分類網(wǎng)絡的有四個卷積層和一個全連接層以及一個分類層,具體網(wǎng)絡結構如圖5所示。文獻 [17] 將頻譜圖視為自然圖像,同時分析了在自然圖像中卷積核大小的設計并根據(jù)頻譜圖表示一段時間內(nèi)在多個頻率上的太陽輻射強度變化的特點,將一般正方形的卷積核改為矩形卷積核,例如3×3 改變?yōu)?1×3,具體網(wǎng)絡參數(shù)如表4所示。同時,文獻 [17] 進行了不同網(wǎng)絡深度對于分類效果影響的實驗研究,其相關結果如表6所示。
圖4 深度多模態(tài)網(wǎng)絡的結構Fig.4 The architecture of deep multimodal network
圖5 卷積網(wǎng)絡的結構Fig.5 The architecture of convolutional neural network
文獻 [18] 根據(jù)頻譜圖是一段時間內(nèi)在多個頻率上的采集的數(shù)據(jù)的特點,認為每個頻率本質上是一個序列數(shù)據(jù),同時每個頻率都能獨立代表太陽活動(是否爆發(fā)),所以同一頻率內(nèi)的時序關系是分類的有效特征。受長短時記憶網(wǎng)絡(Long-Short Time Memory,LSTM)善于處理序列數(shù)據(jù)并在自然語言處理方面取得顯著進展的啟發(fā),選用 LSTM 提取頻譜圖同一頻率內(nèi)的特征,進行分類。
LSTM是一種記憶網(wǎng)絡主要由輸入門、輸出門、遺忘門和記憶單元構成,具體的結構如圖6所示。
LSTM 分類網(wǎng)絡由輸入層、一個 LSTM 層和一個全連接層以及一個分類層構成,具體的網(wǎng)絡結構如圖7所示。太陽射電頻譜圖經(jīng)過預處理后,將每一列按不同時間點依次輸入 LSTM 網(wǎng)絡,待整個頻譜圖最后一列輸入結束后,將其對應的輸出經(jīng)過全連接層后輸入到分類層,實現(xiàn)最終分類,其部分相關的驗結果如表6所示。
表4 卷積網(wǎng)絡的網(wǎng)絡參數(shù)Table4 The parameters of convolutional neural network
根據(jù)深度模型的選擇和太陽頻譜數(shù)據(jù)的理解不同,對于數(shù)據(jù)的預處理方式會存在差異。文獻 [14][15][16] 采用相同的頻譜圖預處理方式,其數(shù)據(jù)庫的詳細信息如表2所示;文獻 [17][18] 對于頻譜圖的預處理方式相同,其數(shù)據(jù)庫的詳細信息如表3所示。各個深度模型經(jīng)過訓練,最終測試的實驗結果表6所示,從中可得出深度模型優(yōu)于傳統(tǒng) PCA+SVM;與MN 行比較,DMN 的性能有所提高,通過適當增加網(wǎng)絡深度能夠提升分類性能;LSTM 與 CNN 的性能相當并都優(yōu)于 DMN,尤其是爆發(fā)類型的FPR。對于CNN 而言,能夠獲得這種結果主要原因是利用 CNN能夠提取頻譜圖的空間特征以及根據(jù)頻譜圖數(shù)據(jù)特點更改了卷積核;對于 LSTM 而言,獲得這樣的分類效果主要是將 LSTM 善于提取序列數(shù)據(jù)特征的優(yōu)勢與頻譜圖自身的時序特點相結合的結果。
圖6 LSTM 的基本結構Fig.6 The basic structure of an LSTM
圖7 長短時記憶網(wǎng)絡的結構Fig.7 The architecture of long-short time memory network
圖8 太陽耀斑預報的網(wǎng)絡結構Fig.8 The network architecture for solar flare forecast
持續(xù)的天文觀測可以獲得海量的時序數(shù)據(jù),時序數(shù)據(jù)可以表示某種物理活動的過程,利用時序數(shù)據(jù)來可以獲得關于某個物理現(xiàn)象的發(fā)展過程的認識,特別是基于這些時序數(shù)據(jù)和認識對各種物理現(xiàn)象的未來發(fā)展方向進行預測。本節(jié)主要討論深度學習在天文領域中預報任務中的應用。
文獻 [19] 使用 CNN 網(wǎng)絡結構進行太陽耀預報,即通過 CNN 對當輸入磁圖進行處理,最終預判是否發(fā)生耀斑。所以將太陽耀斑的預測問題轉化成了一個二分類問題。具體的CNN 網(wǎng)絡由兩個卷積層和兩個全連接層以及一個分類層構成,其網(wǎng)絡結構如圖8所示。
文獻 [19] 在實驗中對于耀斑進行未來 6h,12h,24h,48h 的預測,并與目前相關的預測模型比較表現(xiàn)出很好的預測性能。同時,將卷積層濾波器提取的特征圖進行可視化分析,如圖9所示。圖9是網(wǎng)絡輸入的磁圖,紅色區(qū)域是某一個特征圖經(jīng)過變換在原圖上的投影,這個區(qū)域與天文領域研究者手動提取相關的物理參數(shù)的區(qū)域是吻合的,這說明 CNN 網(wǎng)絡提取的特征具有一定的物理含義,同時部分證明了卷積網(wǎng)絡用于耀斑預報的有效性。
圖9 特征圖的可視化分析Fig.9 The visualized analysis of feature map
電離層總電子含量(Total Electron Content,TEC)的預報在空間天氣非常重要,文獻 [20][21] 利用過去5 天的TEC 數(shù)據(jù)及其相關參數(shù)預測未來 24 小時內(nèi)的TEC 的含量。由于數(shù)據(jù)自身存在時序關系,同時受LSTM 在序列數(shù)據(jù)處理方面取得優(yōu)勢的啟發(fā),最終選擇 LSTM 網(wǎng)絡預測 TEC 含量。
(1)長短時記憶網(wǎng)絡
文獻 [20] 使用的LSTM 預測網(wǎng)絡由一個 LSTM層和一個全連接層構成,具體的網(wǎng)絡結構如圖10 所示。將連續(xù)五天的歷史數(shù)據(jù)按照時序關系依次輸入LSTM 網(wǎng)絡。待輸入完成時,將第五天的輸入對應的輸出輸入全連接層,全連接層輸出的向量即為預測的TEC 值。
圖10 TEC 預報的 LSTM 網(wǎng)絡結構Fig.10 The LSTM network architecture for TEC forecast
圖11 TEC 預報的Bi-LSTM網(wǎng)絡結構Fig.11 The Bi-LSTM network architecture for TEC forecast
(2)雙向長短時記憶網(wǎng)絡
為了進一步提高 TEC 值的預報性能,文獻 [21]選用雙向長短時記憶網(wǎng)絡(Bidirectional Long Short-Term memory,Bi-LSTM)。與 LSTM 相比,Bi-LSMT通過向前層和向后層結構,不但能夠利用歷史信息,而且還能利用未來信息,這非常有益于預測。Bi-LSTM 預測網(wǎng)絡由一個 LSTM 向前層、一個 LSTM 向后層以及一個全連接層構成,其具體的網(wǎng)絡結構如圖11 所示。將連續(xù) 5 天的歷史數(shù)據(jù)按時間正序依次輸入Bi-LSTM 前向層,再將上述 5 天的數(shù)據(jù)按時間逆序輸入 Bi-LSTM 后向層,待兩次輸入完成后,將兩層的最后一時刻輸入對應的輸出經(jīng)過全連接層,輸出的向量即為 TEC 預測值。
文獻 [20][21] 對 TEC 預報分別采用 LSTM和Bi-LSTM 進行 TEC 值的預報,將預測的TEC 值與真實TEC 值之間的均方根誤差(Root Mean Square Error,RMSE)作為性能指標進行衡量,在實驗過程中還對比了MLP 網(wǎng)絡和雙層 LSTM(Multi-LSTM)網(wǎng)絡,實驗結果如表5所示,表明模型的預測性能為 Bi-LSTM > LSTM >Multi-LSTM >MLP;與 MLP 相比,三種 LSTM 的模型對于序列數(shù)據(jù)的預測表現(xiàn)出較為理想的結果;Multi-LSTM 性能低于 LSTM 可能原因是 Multi-LSTM 網(wǎng)絡相對于 TEC 預報任務網(wǎng)絡參數(shù)太多,發(fā)生了過擬合;Bi-LSTM 相對于 LSTM 的性能提升可能是對于未來信息利用的結果。
表5 TEC 預報的實驗結果Table5 The experimental results of TEC forecast
隨著天文領域進入大數(shù)據(jù)時代,深度學習已經(jīng)在天文領域廣泛地應用,尤其是數(shù)據(jù)的歸檔中的分類應用和充分利用海量的天文觀測數(shù)據(jù)解決相關的科學問題,例如太陽耀斑和 TEC 預報等任務。就目前的研究成果而言,深度學習在天文大數(shù)據(jù)處理應用中表現(xiàn)出較為理想的效果。在未來,深度學習在天文大數(shù)據(jù)處理中的應用將會受到更多的關注并能夠解決更多的科學問題。