康志偉 劉拓 劉勁 馬辛 陳曉
1) (湖南大學(xué)信息科學(xué)與工程學(xué)院, 長(zhǎng)沙410082)
2) (武漢科技大學(xué)信息科學(xué)與工程學(xué)院, 武漢430081)
3) (北京航空航天大學(xué)儀器科學(xué)與光電工程學(xué)院, 北京100191)
4) (上海衛(wèi)星工程研究所, 上海200240)
(2019 年 10 月 17日收到; 2019 年 12 月 19日收到修改稿)
脈沖星候選體選擇是脈沖星搜尋任務(wù)中的重要步驟. 為了提高脈沖星候選體選擇的準(zhǔn)確率, 提出了一種基于自歸一化神經(jīng)網(wǎng)絡(luò)的候選體選擇方法. 該方法采用自歸一化神經(jīng)網(wǎng)絡(luò)、遺傳算法、合成少數(shù)類過采樣這三種技術(shù)提升對(duì)脈沖星候選體的篩選能力. 利用自歸一化神經(jīng)網(wǎng)絡(luò)的自歸一化性質(zhì)克服了深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中梯度消失和爆炸的問題, 大大加快了訓(xùn)練速度. 為了消除樣本數(shù)據(jù)的冗余性, 利用遺傳算法對(duì)脈沖星候選體的樣本特征進(jìn)行選擇, 得到了最優(yōu)特征子集. 針對(duì)數(shù)據(jù)中真實(shí)脈沖星樣本數(shù)極少帶來的嚴(yán)重類不平衡性,采用合成少數(shù)類過采樣技術(shù)生成脈沖星候選體樣本, 降低了類不平衡率. 以分類精度為評(píng)價(jià)指標(biāo), 在3個(gè)脈沖星候選體數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 本文提出的方法能有效提升脈沖星候選體選擇的性能.
脈沖星是一種高速自轉(zhuǎn)的中子星[1], 對(duì)其進(jìn)行觀測(cè)研究, 將極大推動(dòng)星際介質(zhì)研究[2]、引力波探測(cè)[3]、脈沖星導(dǎo)航[4?6]等眾多領(lǐng)域的發(fā)展. 自第一顆脈沖星被發(fā)現(xiàn)以來[7], 在銀河系、麥哲倫星云、球狀星團(tuán)中先后發(fā)現(xiàn)了2700多顆脈沖星[8], 其中大部分是通過現(xiàn)代射電望遠(yuǎn)鏡探測(cè)發(fā)現(xiàn)的, 例如綠岸北半球脈沖星巡天[9](green bank north celestial cap survey, GBNCC)、Parkes多波束脈沖星巡天[10](parkes multi-beam pulsar survey, PMPS)、高時(shí)間分辨率的宇宙脈沖星巡天[11](high time resolution universe survey, HTRU)、低頻射電 (low frequency array, LOFAR)陣列巡天[12](LOFAR tied-array all-sky survey, LOTAAS), 這些都為脈沖星搜索奠定了基礎(chǔ).
脈沖星搜索首先需要檢測(cè)出射電望遠(yuǎn)鏡觀測(cè)數(shù)據(jù)中的周期信號(hào), 為便于分析, 一般要對(duì)這些具有周期性的觀測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述, 以形成具有一定統(tǒng)計(jì)特征的脈沖星候選體[13]. 由于受射頻或噪聲等因素的干擾, 這些候選體中包含著大量的非脈沖星信號(hào), 而脈沖星信號(hào)數(shù)量卻非常少[14,15]. 為此,需要對(duì)脈沖星候選體進(jìn)行選擇, 精選數(shù)據(jù), 最后再利用射電望遠(yuǎn)鏡對(duì)這些篩選后的數(shù)據(jù)進(jìn)行人工分析以確定其是否為真實(shí)脈沖星[16]. 提高候選體選擇的準(zhǔn)確率能大幅減少候選體數(shù)量, 從而極大地減輕后期的人工驗(yàn)證工作. 因此, 提升候選體選擇性能是搜索新脈沖星的一個(gè)關(guān)鍵步驟.
早期的脈沖星候選體選擇主要依賴人工識(shí)別,但這是一個(gè)主觀耗時(shí)且易出錯(cuò)的過程. 一個(gè)現(xiàn)代脈沖星巡天項(xiàng)目可以產(chǎn)生數(shù)百萬候選體, 僅依靠人工篩選效率極低且不切實(shí)際. 因此, 近幾年來, 人們的研究主要集中在機(jī)器學(xué)習(xí)方法上. Eatough等[17]提出了第一種用于解決脈沖星候選體選擇問題的機(jī)器學(xué)習(xí)方法, 該方法將每個(gè)候選體簡(jiǎn)化為一個(gè)由12個(gè)數(shù)值特征組成的集合, 然后利用一個(gè)單隱 層 人 工 神 經(jīng) 網(wǎng) 絡(luò)(artificial neural networks,ANN)從候選體中選擇脈沖星. Bates等[18]將特征增加到22個(gè)作為ANN的輸入. Zhu等[19]提出了深度神經(jīng)網(wǎng)絡(luò)圖像模式識(shí)別方法—PICS (pulsar image-based classification system). PICS 將支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、邏輯回歸等集成結(jié)合, 采用圖像模式識(shí)別的方法驗(yàn)證候選體的真實(shí)性. Lyon等[20]設(shè)計(jì)了8個(gè)特征應(yīng)用到高斯-黑林格快速?zèng)Q策樹算法. Mohamed[16]將Lyon等[20]設(shè)計(jì)的8個(gè)特征應(yīng)用到模糊k近鄰分類器上.Wang等[21]在Zhu等[19]的基礎(chǔ)上改進(jìn)了PICS算法. 這些基于機(jī)器學(xué)習(xí)的脈沖星候選體選擇方法,有效節(jié)省了大量的人工勞動(dòng), 幫助研究人員發(fā)現(xiàn)了一些新的脈沖星.
如何進(jìn)一步提升脈沖星候選體選擇的準(zhǔn)確率,是機(jī)器學(xué)習(xí)方法有意義的研究點(diǎn). 考慮到自歸一化神經(jīng)網(wǎng)絡(luò) (self-normalizing neural networks, SNN)[22]可以實(shí)現(xiàn)深層神經(jīng)網(wǎng)絡(luò), 且通過激活函數(shù)“縮放指數(shù)線 性 單元(scaled exponential linear units,SELU)”引入了自歸一化屬性, 從而避免了深層網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)的梯度消失和爆炸問題, 保持網(wǎng)絡(luò)的穩(wěn)定性與收斂性. 本文利用SNN構(gòu)建深層網(wǎng)絡(luò)模型以提高候選體選擇的精確性. 此外, 運(yùn)用遺傳算法(genetic algorithm, GA)優(yōu)化候選體的特征子集, 采用合成少數(shù)類過采樣技術(shù)(synthetic minority over-sampling technique, SMOTE)降低不平衡率, 這些對(duì)實(shí)現(xiàn)高精確性的候選體選擇方法具有促進(jìn)作用.
SNN也是由輸入層、若干隱藏層及輸出層組成, 每層又由多個(gè)單一神經(jīng)元構(gòu)成, 其中每個(gè)神經(jīng)元代表一種特定的激活函數(shù). SNN的關(guān)鍵就是通過激活函數(shù)SELU引進(jìn)自歸一化屬性, 即對(duì)具有零均值與單位方差的輸入變量, 通過SELU激活函數(shù)后其輸出仍將收斂于零均值和單位方差. 為確保每層激活函數(shù)的輸入為零均值與單位方差, 還需進(jìn)行權(quán)重初始化. SELU激活函數(shù)與權(quán)重初始化是實(shí)現(xiàn)SNN自歸一化特性的重點(diǎn).
SELU激活函數(shù)表達(dá)式為
圖1 SELU 激活函數(shù)Fig. 1. SELU activation function.
為確保每層激活函數(shù)的輸入為零均值與單位方差, 還需進(jìn)行權(quán)重初始化, 對(duì)此, 可證明如下:
考慮由一個(gè)權(quán)重矩陣W連接的兩個(gè)連續(xù)的網(wǎng)絡(luò)層, 下層網(wǎng)絡(luò)的輸出是上層網(wǎng)絡(luò)的輸入. 假定下層有n個(gè)神經(jīng)元且其輸出變量為用zlow代表其向量形式, 則上層神經(jīng)元的輸入xup可以表示為
其中w是W的一列向量. SELU確保下層神經(jīng)元輸出具有零均值和單位方差, 即μ=E(zi,low)≈0,v=Var(zi,low)≈1. 令權(quán)重初始化為
其中
所以結(jié)合(4)式可得
由此可知, 權(quán)重初始化確保了激活函數(shù)輸入的歸一化, 是SELU實(shí)現(xiàn)自歸一化屬性的一個(gè)必要條件.
脈沖星候選體選擇的目標(biāo)就是盡可能地挑選出真實(shí)脈沖星候選體, 本文采用基于SNN的方法來提高候選體選擇的精確性. SNN可克服梯度消失與爆炸問題以提高訓(xùn)練速度, 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可有效提高識(shí)別精度. GA因其自適應(yīng)性特別適合特征選擇這一多目標(biāo)優(yōu)化任務(wù)[23], 可用于優(yōu)化特征子集. 而SMOTE[24]是一種不同于僅通過直接復(fù)制少數(shù)類樣本的過采樣技術(shù), 因其簡(jiǎn)單有效適用于處理非平衡數(shù)據(jù)集. 因此本文提出了運(yùn)用GA與SMOTE改進(jìn)后的SNN模型(GMO_SNN), 圖2為GMO_SNN候選體選擇算法流程圖.
GMO_SNN模型利用GA進(jìn)行特征選擇, 在原始特征空間中搜索最優(yōu)特征子集. 用于特征選擇的GA可以概括為三部分: 初始化種群、評(píng)估適應(yīng)度、產(chǎn)生新種群.
初始化種群, 設(shè)定初始種群大小, 采用二進(jìn)制進(jìn)行基因編碼, 長(zhǎng)度為L(zhǎng)的遺傳個(gè)體編碼后對(duì)應(yīng)于一個(gè)L維的二進(jìn)制基因串, 其中為1表示第i個(gè)特征包含于所選特征子集中, 否則為 0. 例如: 有6個(gè)特征的特征集表示為, 則表示第1個(gè)與第4個(gè)特征被選中作為特征子集.
圖2 GMO_SNN 候選體選擇算法流程圖Fig. 2. GMO_SNN candidate selection algorithm.
適應(yīng)度函數(shù)的選擇是GA中最關(guān)鍵的部分. 在特征選擇問題中, 將LightGBM模型輸出值作為遺傳個(gè)體的適應(yīng)值, 能直接反映不同特征組合對(duì)目標(biāo)值的相關(guān)度, 適應(yīng)值越高說明對(duì)應(yīng)的特征組合越優(yōu)良, 被選中的概率也越大.
產(chǎn)生新種群包括選擇、交叉、變異, 具體采用輪盤賭算法作為選擇算子, 定長(zhǎng)基因段交叉算子,基本位變異操作. 新的種群產(chǎn)生后, 通過適應(yīng)度函數(shù)進(jìn)行評(píng)估, 然后再選擇、交叉、變異, 一直重復(fù)此步驟, 當(dāng)遺傳操作到達(dá)設(shè)定的最大迭代次數(shù), 算法結(jié)束. 對(duì)末代種群中適應(yīng)度值最大的個(gè)體進(jìn)行解碼, 就獲得脈沖星候選體特征的最優(yōu)子集.
GMO_SNN模型采用SMOTE算法解決脈沖星候選體的類不平衡問題. SMOTE是一種過采樣技術(shù), 其利用K近鄰與線性插值, 在距離較近的兩個(gè)真實(shí)脈沖星候選體之間按照一定規(guī)則插入新的樣本. 算法具體流程如下:
1)對(duì)于真實(shí)脈沖星候選體中的每一個(gè)樣本r,以歐氏距離為標(biāo)準(zhǔn)分別計(jì)算它到其他每個(gè)真實(shí)脈沖星樣本的距離, 得到其K近鄰, 一般K取值為5.
2)在每一個(gè)真實(shí)脈沖星樣本r的5個(gè)近鄰中隨機(jī)選取一個(gè)樣本, 假設(shè)選擇近鄰樣本為.
首先采用GA進(jìn)行特征選擇, 找出可以分離脈沖星與非脈沖星的最優(yōu)特征子集; 然后使用SMOTE合成新的脈沖星樣本加入到數(shù)據(jù)集中; 最后將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集, 利用訓(xùn)練集對(duì)SNN進(jìn)行訓(xùn)練, 訓(xùn)練完成后將測(cè)試集輸入到神經(jīng)網(wǎng)絡(luò)中, 得到基于GMO_SNN模型的脈沖星候選體選擇結(jié)果. 具體過程如圖2所示.
在3個(gè)獨(dú)立的脈沖星候選體數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn), 根據(jù)6個(gè)典型的機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)評(píng)估GMO_SNN模型性能. 在搭建自歸一化神經(jīng)網(wǎng)絡(luò)時(shí), 多次實(shí)驗(yàn)比較不同參數(shù)下的結(jié)果, 選擇最優(yōu)參數(shù)以使神經(jīng)網(wǎng)絡(luò)分類效果最佳, 并在相同網(wǎng)絡(luò)結(jié)構(gòu)下與傳統(tǒng)ANN進(jìn)行對(duì)比. 另外, 還分別將GMO_SNN與SNN, GA-SNN (GA特征選擇后的SNN模型),MO-SNN (SMOTE解決類不平衡問題后的SNN模型)的候選體選擇結(jié)果進(jìn)行對(duì)比, 進(jìn)一步證明本文方法的有效性.
實(shí)驗(yàn)環(huán)境為Python3.6.4, 使用Numpy1.14.0,Pandas0.22.0, Sklearn0.20.1等機(jī)器學(xué)習(xí)庫處理數(shù)據(jù), 開發(fā)編譯器 Spyder調(diào)試算法; 利用 Keras框架, 后端為 Tensorflow-GPU (NVIDIA GeForce GTX 1050)搭建神經(jīng)網(wǎng)絡(luò).
3個(gè)脈沖星候選體數(shù)據(jù)集分別為HTRU 1[25],HTRU 2[20], LOTAAS 1[20]. 表1列出了 3個(gè)數(shù)據(jù)集的非脈沖星數(shù)、脈沖星數(shù)以及總樣本數(shù). 在數(shù)據(jù)集中, 將脈沖星視為正樣本, 將非脈沖星視為負(fù)樣本. 3個(gè)數(shù)據(jù)集中的候選體均采用Bates等[18]提出的22個(gè)特征, 這些特征通過Pulsar Feature Lab[20]提供的工具獲取. 表2列出了22個(gè)特征的具體描述, 這些特征由脈沖周期P、脈沖寬度W、脈沖輪廓信噪比 (signal-to-noise rate, S/N)、色散量 (dispersion measure, DM)、觀測(cè)頻率、觀測(cè)時(shí)間等處理得到[18].
表1 脈沖星候選體數(shù)據(jù)集Table 1. Pulsar candidate datasets.
表2 特征描述Table 2. Feature description.
在脈沖星候選體選擇任務(wù)中, 使用準(zhǔn)確率(Accuracy)、查全率 (Recall)、查準(zhǔn)率 (Precision)、假陽率 (false positive rate, FPR)、F1-分?jǐn)?shù) (F1-score)、G-均值(G-mean)[26]這6個(gè)評(píng)價(jià)指標(biāo)對(duì)算法性能進(jìn)行評(píng)估.
Accuracy表示整體正確分類的比例, 但當(dāng)測(cè)試集中非脈沖星占絕大多數(shù)時(shí), 分類器可以通過將所有樣本分類為負(fù)樣本來獲得高準(zhǔn)確率, 因此對(duì)于非平衡數(shù)據(jù)集僅靠準(zhǔn)確率來評(píng)價(jià)不夠科學(xué)全面, 還需要其他評(píng)價(jià)指標(biāo). Recall表示數(shù)據(jù)集中真實(shí)脈沖星候選體被正確分類的比例, 是評(píng)估脈沖星候選體選擇模型一個(gè)非常重要的指標(biāo). 如果將一個(gè)真實(shí)脈沖星錯(cuò)誤地歸類為非脈沖星, 可能會(huì)漏掉脈沖星的新發(fā)現(xiàn), 因此Recall越高, 分類器遺漏脈沖星的機(jī)率就越小. Precision表示被歸類為正樣本中實(shí)際為正樣本的比例, Precision和Recall有時(shí)候會(huì)出現(xiàn)矛盾的情況, F1-score則同時(shí)兼顧了這兩者, 定義為Precision和Recall的調(diào)和平均, 是評(píng)價(jià)分類器分類少數(shù)類的綜合指標(biāo). FPR是非脈沖星被歸類為真實(shí)脈沖星的比例, 當(dāng)候選體選擇完成之后, 會(huì)對(duì)被分類為真實(shí)脈沖星的候選體進(jìn)行最終驗(yàn)證, 如果FPR太高, 會(huì)帶來許多不必要的工作量. G-mean是正負(fù)樣本準(zhǔn)確率的比值, 衡量在非平衡數(shù)據(jù)集下模型的綜合性能.
GA中種群規(guī)模為20, 種群最大遺傳次數(shù)為10次, 適應(yīng)度函數(shù)中使用的LightGBM模型使用默認(rèn)參數(shù); 自歸一化網(wǎng)絡(luò)結(jié)構(gòu)采用“conic layers”設(shè)定隱藏單元數(shù): 即從第一層中給定的隱藏單元數(shù)開始, 根據(jù)幾何級(jí)數(shù)將隱藏單元的數(shù)目減小到輸出層的大小[22]; 每個(gè)數(shù)據(jù)集使用75%的樣本作為訓(xùn)練集, 余下作為測(cè)試集; 優(yōu)化算法為“Adam”, 損失函數(shù)采用“交叉熵?fù)p失函數(shù)”. 通過實(shí)驗(yàn)分析, 神經(jīng)網(wǎng)絡(luò)相關(guān)參數(shù)設(shè)置如下.
1)網(wǎng)絡(luò)層數(shù): 選擇最佳結(jié)果8層.
2)批次大小: 取32最佳.
3)學(xué)習(xí)速率: 取0.001最佳.
4.3.1 網(wǎng)絡(luò)參數(shù)的最優(yōu)選擇
脈沖星候選體選擇更加關(guān)注真實(shí)脈沖星候選體(即少數(shù)類樣本)的分類準(zhǔn)確率, 由于F1-score是評(píng)價(jià)分類器分類少數(shù)類的綜合指標(biāo), 因此根據(jù)3個(gè)數(shù)據(jù)集上的平均F1-score值來確定參數(shù), F1-score值越高, 神經(jīng)網(wǎng)絡(luò)分類效果越好.
1) 網(wǎng)絡(luò)層數(shù)的最優(yōu)選擇
深層次的網(wǎng)絡(luò)結(jié)構(gòu)通常會(huì)獲得更好的分類效果, 但隨著網(wǎng)絡(luò)層數(shù)的增大, 網(wǎng)絡(luò)結(jié)構(gòu)也越復(fù)雜.本文分別對(duì)隱藏層數(shù)為 2, 4, 8, 9的網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),表3列出了不同隱藏層數(shù)下的平均F1-score值.由表3可知, 當(dāng)隱藏層數(shù)為8層時(shí)效果最佳.
表3 不同隱藏層數(shù)下的分類效果Table 3. Classification results with the different hidden layers.
2) 批次大小的最優(yōu)選擇
為了提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率, 將訓(xùn)練樣本分批次輸入. 批次大小會(huì)對(duì)模型優(yōu)化程度和訓(xùn)練速度產(chǎn)生影響. 若批訓(xùn)練量過小, 會(huì)增加網(wǎng)絡(luò)訓(xùn)練時(shí)間;如果批訓(xùn)練過大, 其分類效果會(huì)變差. 本文分別對(duì)批次大小為 16, 32, 64, 128的模型進(jìn)行訓(xùn)練, 表4列出了不同批次大小下的平均F1-score值及運(yùn)行時(shí)間. 由表4可知, 隨著批次減小, F1-score 值在逐步上升, 但運(yùn)行時(shí)間也有明顯的增加. 當(dāng)批次大小為16時(shí), 其F1-score值對(duì)比批次為32時(shí)只上升了0.0031, 但其運(yùn)行時(shí)間卻增加了一倍. 因此綜合考慮分類效果與算法運(yùn)行時(shí)間, 本文神經(jīng)網(wǎng)絡(luò)的批次大小取32.
表4 不同批次大小下的分類效果Table 4. Classification results with the different batch size.
3) 學(xué)習(xí)速率的最優(yōu)選擇
學(xué)習(xí)速率是影響網(wǎng)絡(luò)性能的一個(gè)重要參數(shù). 過大導(dǎo)致?lián)p失函數(shù)振蕩, 神經(jīng)網(wǎng)絡(luò)無法收斂; 過小會(huì)導(dǎo)致收斂速度過慢, 可能會(huì)陷入局部最優(yōu). 本文分別對(duì)學(xué)習(xí)速率為 0.1, 0.01, 0.001, 0.0001時(shí)的模型進(jìn)行訓(xùn)練, 表5列出了迭代10次后不同學(xué)習(xí)速率下的平均F1-score值. 由表5可知, 在相同的迭代次數(shù)下, 當(dāng)學(xué)習(xí)速率減小時(shí), F1-score值會(huì)降低,模型分類效果變差. 當(dāng)學(xué)習(xí)速率增大到0.1, 此時(shí)算法無法優(yōu)化, 因此學(xué)習(xí)速率取值0.001最佳.
表5 不同學(xué)習(xí)速率的分類效果Table 5. Classification results with the different learning rates.
4.3.2 不同方法的比較
為證明SNN的有效性, 本文對(duì)SNN與傳統(tǒng)ANN在HTRU 2數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn), 圖3給出了8層神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的損失函數(shù)曲線對(duì)比圖, 迭代次數(shù)為100次. 損失函數(shù)是用來衡量模型預(yù)測(cè)值與真實(shí)值的不一致程度, 損失函數(shù)越小,模型魯棒性就越好. 由圖3可知SNN模型比傳統(tǒng)ANN具有更低的誤差, 且其收斂速度明顯大于ANN, 證明了SNN在深層網(wǎng)絡(luò)中的有效性.
表6分別列出了3個(gè)數(shù)據(jù)集上SNN, GA_SNN,MO_SNN, GMO_SNN的脈沖星候選體選擇結(jié)果, 最優(yōu)結(jié)果加粗表示.
利用GA進(jìn)行特征選擇, 從候選體樣本的22個(gè)特征中篩選出8個(gè)作為最優(yōu)特征子集, 數(shù)據(jù)集縮減率達(dá)到 63%. 以 HTRU 1數(shù)據(jù)集為例, 對(duì)比表6中GA_SNN與SNN的選擇結(jié)果可知, 利用最優(yōu)特征子集訓(xùn)練分類模型, 其結(jié)果均表現(xiàn)出不同程度的優(yōu)化, 其余兩個(gè)數(shù)據(jù)集除少數(shù)幾個(gè)評(píng)價(jià)指標(biāo)外, 也達(dá)到了類似的效果. 表明該特征選擇算法可以在壓縮特征空間的同時(shí)又不丟失原有信息, 提升模型性能.
圖3 SNN 與 ANN 損失函數(shù)的對(duì)比Fig. 3. Comparison of the loss function between SNN and ANN.
由表6中SNN與MO_SNN的評(píng)價(jià)指標(biāo)可知, 利用 SMOTE 處理類不平衡問題后, Recall值在 HTRU 1與 HTRU 2數(shù)據(jù)集上分別提高了1.79和 4.44個(gè)百分點(diǎn), 其中 LOTAAS 1數(shù)據(jù)集上Recall值達(dá)到100%, 說明該方法使分類器對(duì)非平衡學(xué)習(xí)問題具有較強(qiáng)的魯棒性, 防止了分類器在訓(xùn)練時(shí)向豐富的非脈沖星類傾斜.
由表6可知, 在3個(gè)數(shù)據(jù)集上, 本文提出的GMO_SNN 模型在 Recall, Precision, F1_score,FPR以及G_mean上均優(yōu)于其他模型. 例如HTRU 1數(shù)據(jù)集, 其 Recall值為 95.53, FPR 僅有0.03, 說明該方法既能有效避免脈沖星的遺漏, 又能減少需要人工再次驗(yàn)證的非脈沖星候選體, 進(jìn)一步證明了本文方法的有效性.
表6 不同方法在3個(gè)數(shù)據(jù)集上的分類效果Table 6. Classification results with different methods on three datasets.
位于中國貴州省的500米口徑球面射電望遠(yuǎn)鏡(five-hundred-meter aperture spherical radio telescope, FAST)是目前世界上最大、最靈敏的射電天文望遠(yuǎn)鏡, 其主要科學(xué)目標(biāo)之一就是開展脈沖星的搜尋[27]. FAST采用19波束接收機(jī)進(jìn)行巡天,可產(chǎn)生上億量級(jí)的脈沖星候選體[13]. 本文的候選體選擇模型運(yùn)用機(jī)器學(xué)習(xí)方法提高了篩選速度, 使用單個(gè)GPU每秒可以識(shí)別約2萬個(gè)候選體, 同時(shí)得到高精度的選擇結(jié)果. 這種速度和效率的提高能促進(jìn)對(duì)FAST巡天產(chǎn)生的脈沖星候選體數(shù)據(jù)的實(shí)時(shí)處理, 可減小大數(shù)據(jù)量帶來的篩選難度.
基于自歸一化神經(jīng)網(wǎng)絡(luò)的脈沖星候選體選擇是一種能高準(zhǔn)確率識(shí)別真實(shí)脈沖星的有效方法. 利用GA進(jìn)行特征選擇, 能在壓縮特征空間的同時(shí)又不丟失原有信息, 提升模型性能; 使用SMOTE處理非平衡數(shù)據(jù)集, 可降低數(shù)據(jù)集的不平衡率, 提高了分類器對(duì)少數(shù)類樣本的識(shí)別能力; 采用自歸一化神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)在深層結(jié)構(gòu)中具有更高的準(zhǔn)確率以及更快的收斂速度. 在3個(gè)脈沖星候選體數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 該方法既能有效避免真實(shí)脈沖星的遺漏, 又能減少非脈沖星的保留, 從而提高脈沖星搜尋的工作效率.