李良 蔡少鋒 謝耀榮 蘇建華 薛媛 謝耀斌
摘? 要: 序列數(shù)據(jù)處理在天體光譜分類領(lǐng)域是一項(xiàng)非常重要的任務(wù),但是傳統(tǒng)的處理方式成本高、效率低。通過構(gòu)造一種以focal loss作為損失函數(shù)的多分支一維卷積神經(jīng)網(wǎng)絡(luò)對LAMOST部分序列數(shù)據(jù)進(jìn)行了分類,并采用MarcoF1分?jǐn)?shù)作為評價(jià)指標(biāo)。結(jié)果表明該模型取得了理想的實(shí)驗(yàn)效果,并且focal loss損失函數(shù)(其在不平衡數(shù)據(jù)分類任務(wù)中對困難樣本增加權(quán)重)相比傳統(tǒng)的交叉熵?fù)p失函數(shù)也有更好的預(yù)測精度。
關(guān)鍵詞: 序列數(shù)據(jù); 神經(jīng)網(wǎng)絡(luò); 多分支結(jié)構(gòu); 一維卷積; 損失函數(shù)
中圖分類號:TP389.1? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)04-44-04
Abstract: Sequence data processing is a very important task in the field of celestial spectral classification, but the traditional processing method is costly and inefficient. A multi branch one-dimensional convolutional neural network with focal loss as the loss function is constructed to classify partial sequence data of LAMOST, and MarcoF1 score is used as the evaluation index. The results show that the model achieves ideal experimental results, and the focal loss function, which adds weight to difficult samples in unbalanced data classification tasks, has better prediction accuracy than the traditional cross entropy loss function.
Key words: sequence data; neural network; multi-branch structure; one-dimensional convolution; loss function
0 引言
在天體光譜等工程領(lǐng)域[1-2]會產(chǎn)生海量的數(shù)據(jù)。這些數(shù)據(jù)具有相似的特征,或者說存在某一維度的序列關(guān)系,因此被統(tǒng)稱為序列數(shù)據(jù)。傳統(tǒng)的序列數(shù)據(jù)處理算法采用人工或半人工的模板匹配的方式[3-4],難以取得理想的效果。近年來很多學(xué)者開始將機(jī)器學(xué)習(xí)方法應(yīng)用于序列數(shù)據(jù)處理。以天體光譜分類為例,覃冬梅等[5]提出使用主成分分析的方法對天體光譜的有效特征進(jìn)行提取、降維,然后使用KNN分類器對降維后的數(shù)據(jù)分類;Almeida等[6]利用k-means方法對SDSS數(shù)據(jù)的所有恒星光譜和星系光譜進(jìn)行無監(jiān)督分類;蔡江輝等[7]在頻繁模式樹的基礎(chǔ)上提出分類模式樹的概念,研究加權(quán)頻繁模式樹來搜尋天體光譜的特征和參數(shù)之間的關(guān)系模式進(jìn)行光譜分類。
基于神經(jīng)網(wǎng)絡(luò)方法的深度學(xué)習(xí)技術(shù)已在物體分類、分割和檢測等領(lǐng)域顯示出了其強(qiáng)大的性能。本文從基礎(chǔ)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)出發(fā),提出了面向序列數(shù)據(jù)分類的多分支一維卷積神經(jīng)網(wǎng)絡(luò)模型,并采用了focal loss緩解了類別不平衡問題,最終實(shí)現(xiàn)了極佳的分類效果。
1 網(wǎng)絡(luò)模型
1.1 一維卷積
神經(jīng)網(wǎng)絡(luò)技術(shù)歷經(jīng)多年演變,已由最開始的單個(gè)感知機(jī)發(fā)展到現(xiàn)在的深度前饋神經(jīng)網(wǎng)絡(luò),在語音識別和圖像分類等任務(wù)中取得了巨大成功[8-9]。
現(xiàn)在常用的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)適用于圖像識別領(lǐng)域,并且可以根據(jù)其卷積核的維度可以分為一維卷積、二維卷積和三維卷積。其中三維卷積適用于立體圖像識別,二維卷積適用于平面圖像的識別。對于序列數(shù)據(jù)分類的任務(wù),可以將其視為一維圖像特征序列。因此適用于一維卷積,其原理如圖1所示。
1.2 多分支結(jié)構(gòu)
GoogLeNet是Google團(tuán)隊(duì)提出的一種神經(jīng)網(wǎng)絡(luò)模型,在ImageNet挑戰(zhàn)賽中取得了優(yōu)異的成績。其核心的神經(jīng)網(wǎng)絡(luò)模型Inception模塊采用了多分支卷積的結(jié)構(gòu),隨后逐步發(fā)展完善了多個(gè)版本[10-12],其結(jié)構(gòu)如圖2所示。
受到Inception模塊的啟發(fā),本文在處理序列數(shù)據(jù)分類任務(wù)時(shí)也構(gòu)建了一種多分支結(jié)構(gòu)。通過三個(gè)不同大小一維卷積核的處理,該結(jié)構(gòu)能夠從多種不同跨度的區(qū)間提取有效特征,具有更強(qiáng)的特征解析能力。
1.3 Focal loss
Focal loss由何愷明等[13]提出,最初用于解決圖像檢測算法中數(shù)據(jù)不平衡造成的模型性能下降。用于多分類問題的原始交叉熵?fù)p失函數(shù)如下:
為了處理多分類問題中數(shù)據(jù)極端不平衡問題,focal loss引入了一個(gè)權(quán)值項(xiàng),以實(shí)現(xiàn)對少數(shù)樣本類和個(gè)別困難樣本的重視,focal loss損失函數(shù)的形式如下:
其中,[γ]為調(diào)整權(quán)值偏重程度的超參,[p]為模型輸出的概率值。本文采用了focal loss損失函數(shù)替代了原有的交叉熵?fù)p失函數(shù),大大改善了因樣本類別不平衡而造成的模型性能損失。
1.4 網(wǎng)絡(luò)結(jié)構(gòu)
本文基于神經(jīng)網(wǎng)絡(luò)方法并結(jié)合上述幾種模塊提出了面向序列數(shù)據(jù)分類任務(wù)的多分支一維卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。該網(wǎng)絡(luò)包括三個(gè)一維卷積分支進(jìn)行特征提取,然后三個(gè)分支的特征被組合在一起輸出分類結(jié)果,最后由focal loss損失函數(shù)指導(dǎo)整個(gè)網(wǎng)絡(luò)完成訓(xùn)練。
2 數(shù)據(jù)與實(shí)驗(yàn)
2.1 數(shù)據(jù)集
為了證明本文提出的網(wǎng)絡(luò)模型的有效性,來自于中國科學(xué)院國家天文臺的LAMOST數(shù)據(jù)集被用于實(shí)驗(yàn)驗(yàn)證。LAMOST數(shù)據(jù)集[14-15]是一個(gè)公開數(shù)據(jù)集,目前已被廣泛用于序列數(shù)據(jù)分類實(shí)驗(yàn)。該數(shù)據(jù)集中的每一條光譜提供了3690-9100埃的波長范圍內(nèi)的一系列輻射強(qiáng)度值,旨在對恒星、星系、類星體和未知天體四種天體結(jié)構(gòu)進(jìn)行分類。
圖4給出了數(shù)據(jù)集中的部分?jǐn)?shù)據(jù),前2600列代表某個(gè)波段的輻射強(qiáng)度,type表示天體的類別,其中star、galaxy、qso和unknown分別代表恒星、星系、類星體和未知天體。
圖5所示的是對每種不同的星體類別隨機(jī)選取四個(gè)不同樣本所做的輻射波段-強(qiáng)度圖,從圖5中可以看出,雖然數(shù)據(jù)的分布特征不盡相同,但同種類別的數(shù)據(jù)的分布范圍和趨勢有相似特點(diǎn),說明數(shù)據(jù)具有可分性。
2.2 評價(jià)指標(biāo)
表1給出了四種不同類別星體的數(shù)量,從表1中可以看出star約占整個(gè)數(shù)據(jù)的92%,是qso的314倍,因此,LAMOST數(shù)據(jù)集屬于極端不平衡的數(shù)據(jù)集。所以準(zhǔn)確率不適用于LAMOST數(shù)據(jù)分類,本文采取Van Rijsbergen提出的F1得分作為評價(jià)指標(biāo)[16]。F1得分是精確率和召回率的調(diào)和平均數(shù),能夠綜合評價(jià)精確率和召回率對分類結(jié)果的影響。某一類別的F1分?jǐn)?shù)計(jì)算方式如下:
在單個(gè)類別的[F1]分?jǐn)?shù)的基礎(chǔ)上,可以進(jìn)一步引入[MarcoF1]分?jǐn)?shù)。該指標(biāo)由每個(gè)類別的[F1]分?jǐn)?shù)的算術(shù)平均值計(jì)算得出,可以綜合衡量所有類別的結(jié)果質(zhì)量,其形式如下:
2.3 實(shí)驗(yàn)設(shè)置
為了判斷模型在對數(shù)據(jù)集預(yù)測效果的好壞,本文從40000條數(shù)據(jù)中隨機(jī)選取30%作為測試集,其余部分作為訓(xùn)練集參與模型訓(xùn)練。
除此之外,為了證明所提出的模型相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型對天文數(shù)據(jù)分類等任務(wù)具有更優(yōu)的效果,本文還設(shè)計(jì)了全連接神經(jīng)網(wǎng)絡(luò)和單分支的一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對比實(shí)驗(yàn)。
其中全連接網(wǎng)絡(luò)包含兩個(gè)隱藏層,每個(gè)隱藏層都有512個(gè)神經(jīng)元。單分支一維卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)隱藏層,第一層由64個(gè)卷積核構(gòu)成的卷積層,第二層是最大池化層,第三層是包含64個(gè)神經(jīng)元的全連接層。
2.4 結(jié)果討論
表2給出了三種模型分別在log loss和focal loss下在測試集上的[MarcoF1]得分。
從模型上看,采用一維卷積無論是以log loss還是以focal loss作為損失函數(shù),預(yù)測效果都明顯優(yōu)于作為基線模型的全連接神經(jīng)網(wǎng)絡(luò),說明一維卷積方法更加適用于天體光譜這種序列數(shù)據(jù)。而本文提出的網(wǎng)絡(luò)模型在此基礎(chǔ)上有了進(jìn)一步提升,這表明多分支一維卷積網(wǎng)絡(luò)能夠從多種不同跨度的區(qū)間提取有效特征,進(jìn)而更好地預(yù)測天體類別。
從損失函數(shù)上來看,在使用同一模型的基礎(chǔ)上,focal loss作為損失函數(shù)相比于以log loss作為損失函數(shù)均有一定程度的提升。該結(jié)果表明在不平衡數(shù)據(jù)分類任務(wù)中通過在損失函數(shù)中對困難樣本增加額外權(quán)重,能使損失函數(shù)傾向于優(yōu)化難分樣本從而提高預(yù)測的精度。
3 結(jié)束語
為了對海量的序列數(shù)據(jù)進(jìn)行精準(zhǔn)自動分類,本文提出了一種多分支一維卷積神經(jīng)網(wǎng)絡(luò),并在一個(gè)公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。首先,通過三個(gè)不同尺度的一維卷積核從不同跨度對數(shù)據(jù)提取特征,然后通過三個(gè)全連接層對四種目標(biāo)類型進(jìn)行分類。除此之外本文還使用了focal loss解決了log loss在不平衡數(shù)據(jù)集難以訓(xùn)練少數(shù)類別數(shù)據(jù)的問題。實(shí)驗(yàn)結(jié)果表明該網(wǎng)絡(luò)能夠有效提取LAMOST數(shù)據(jù)集的特征,顯著提高了天梯分類等序列數(shù)據(jù)分類任務(wù)的準(zhǔn)確率,具有優(yōu)秀的應(yīng)用價(jià)值。
參考文獻(xiàn)(References):
[1] 谷建偉,周梅,李志濤,等.基于數(shù)據(jù)挖掘的長短期記憶網(wǎng)絡(luò)模型油井產(chǎn)量預(yù)測方法[J].特種油氣藏,2019,26(2):77
[2] 艾麗雅.天體光譜的分類算法研究[D].鞍山:遼寧科技大學(xué)碩士學(xué)位論文,2016
[3] Liu C, Cui W Y, Zhang B, et al. Spectral classification of stars based on LAMOST spectra[J].Research in Astronomy and Astrophysics,2015,15(8):1137
[4] Gray R O, Corbally C J, De Cat P, et al. LAMOST observations in the Kepler field: spectral classification with the MKCLASS code[J]. The Astronomical Journal,2015,151(1):13
[5] 覃冬梅,胡占義,趙永恒.一種基于主分量分析的恒星光譜快速分類法[J].光譜學(xué)與光譜分析,2003(1)
[6] Almeida J S, Aguerri J A L, Munoz-Tunón C, et al.Automatic unsupervised classification of all sloan digital sky survey data release 7 galaxy spectra[J]. The Astrophysical Journal,2010,714(1):487
[7] 趙旭俊,蔡江輝,張繼福,等.基于分類模式樹的恒星光譜自動分類方法[J].光譜學(xué)與光譜分析,2013,33(10):2875-2878
[8] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. nature,1986,323(6088):533-536
[9] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324
[10] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2015:1-9
[11] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR,2015:448-456
[12] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C] // Proceedings of the IEEE conference on computer vision and pattern recognition,2016:2818-2826
[13] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense? object detection[C]//Proceedings of the IEEE international conference on computer vision,2017:2980-2988
[14] Zhao G, Zhao Y H, Chu Y Q, et al. LAMOST spectral survey—An overview[J]. Research in Astronomy and Astrophysics,2012,12(7):723
[15] Cui X Q, Zhao Y H, Chu Y Q, et al. The large sky area multi-object fiber spectroscopic telescope (LAMOST)[J]. Research in Astronomy and Astrophysics,2012,12(9):1197
[16] Van Rijsbergen C. Information Retrieval. Dept. of Computer Science, University of Glasgow[J]. Google Scholar Google Scholar Digital Library Digital Library,1979
作者簡介:李良(1970-),男,四川成都人,西南石油大學(xué)學(xué)士,高級工程師,主要研究方向:大數(shù)據(jù)應(yīng)用研究與開發(fā)。
通訊作者:謝耀榮(1962-),男,甘肅甘谷人,西南石油大學(xué)學(xué)士,高級工程師,主要研究方向:數(shù)字化與大數(shù)據(jù)應(yīng)用。