宋海聲,馬通達(dá),,麻林召,呂柏陽,,劉鵬浩,馬佳寧,3,秦秀波,*
(1.西北師范大學(xué) 物理與電子工程學(xué)院,甘肅 蘭州 730000;2.中國(guó)科學(xué)院 高能物理研究所 北京市射線成像技術(shù)與裝備工程技術(shù)研究中心,北京 100049;3.中國(guó)科學(xué)院大學(xué) 核科學(xué)與技術(shù)學(xué)院,北京 100049)
當(dāng)今,中子探測(cè)技術(shù)不僅應(yīng)用在核物理領(lǐng)域,同時(shí)還廣泛地應(yīng)用在違禁品檢測(cè)、環(huán)境輻射檢測(cè)、醫(yī)學(xué)和深空探測(cè)等相關(guān)領(lǐng)域,起到不可忽視的重要作用。然而,由于中子與周圍環(huán)境的非彈性散射、慢化中子的輻射俘獲等原因,存在中子的場(chǎng)合幾乎都伴隨著一定強(qiáng)度的γ射線本底[1],而中子探測(cè)器對(duì)γ射線也有一定的靈敏性,所以n/γ的甄別工作具有重要意義。
早期的n/γ甄別傳統(tǒng)方法,如上升時(shí)間法[2]、過零時(shí)間法[3]、電荷比較法[4]和脈沖梯度法[5]等時(shí)域方法,可根據(jù)不同粒子發(fā)光過程中引起的脈沖差異來區(qū)分中子和γ射線,但需要借助專用的電子學(xué)設(shè)備,成本過高;還有一些基于小波變換[6]、頻域梯度[7]等頻域分析方法,這些方法均可提取特征值完成甄別。近些年,伴隨數(shù)字信號(hào)處理器(DSP)處理速度的大幅度提高、高速模數(shù)轉(zhuǎn)換器(ADC)的出現(xiàn)及現(xiàn)場(chǎng)可編程門陣列(FPGA)的高速發(fā)展,實(shí)時(shí)大數(shù)據(jù)量的信號(hào)處理技術(shù)飛速發(fā)展,國(guó)內(nèi)外研究人員開始基于數(shù)字化探測(cè)技術(shù)展開大量的工作。李奎念等[8]用上升時(shí)間法、電荷比較法、脈沖梯度分析法和頻域梯度分析法4種傳統(tǒng)數(shù)字化甄別方法成功對(duì)液閃探測(cè)器中的n/γ完成甄別,并對(duì)比各自的優(yōu)勢(shì)。黃廣偉等[9]結(jié)合CLYC探測(cè)器,運(yùn)用系統(tǒng)聚類法和K-means聚類法完成n/γ的脈沖波形甄別,驗(yàn)證其算法的可行性。王一鳴等[10]運(yùn)用支持向量機(jī)(SVM)對(duì)脈沖堆積條件下的n/γ進(jìn)行甄別,但由于模型參數(shù)選擇和混合噪聲干擾,甄別效果未達(dá)到預(yù)期。有些國(guó)內(nèi)外學(xué)者已提出一些基于機(jī)器學(xué)習(xí)的數(shù)字n/γ甄別方法,包括神經(jīng)網(wǎng)絡(luò)法[11]和模糊C均值算法[12],但是這些方法中沒有參數(shù)可用來描述單個(gè)事件的準(zhǔn)確性。本文提出基于SVM[13]的甄別方法,并用遺傳算法(GA)[14]對(duì)關(guān)鍵參數(shù)進(jìn)行尋優(yōu),且利用主成分分析法(PCA)[15]對(duì)模型進(jìn)行降維。
本工作采用的是具有快速響應(yīng)時(shí)間特性和高探測(cè)效率的芪晶體探測(cè)器[16]。實(shí)驗(yàn)平臺(tái)示意圖如圖1所示,小型中子源252Cf產(chǎn)生的粒子在芪晶體(直徑1英寸,高1英寸的圓柱體)中產(chǎn)生閃爍光子,經(jīng)電源(CAEN公司,型號(hào)為V6533M)電壓為-1 500 V的光電倍增管(型號(hào)為XP2020)轉(zhuǎn)換產(chǎn)生負(fù)脈沖信號(hào)直接接入放大器(CAEN公司,型號(hào)為V974)中對(duì)信號(hào)進(jìn)行2倍放大,然后將信號(hào)傳輸?shù)?6通道14位、轉(zhuǎn)換速率可達(dá)500 MS/s的數(shù)字轉(zhuǎn)換器(CAEN公司,型號(hào)為V1730)中,經(jīng)ADC轉(zhuǎn)換為數(shù)字信號(hào),最后將數(shù)字信號(hào)通過持續(xù)數(shù)據(jù)傳輸速率高達(dá)80 MByte/s的光路橋(CAEN公司,型號(hào)為V2718)經(jīng)光纖全部傳入計(jì)算機(jī)記錄存儲(chǔ)。
圖1 實(shí)驗(yàn)平臺(tái)示意圖Fig.1 Schematic diagram of experimental platform
根據(jù)圖1所搭建的中子探測(cè)平臺(tái),采集n/γ混合脈沖信號(hào)。本實(shí)驗(yàn)采樣率為500 MS/s,共采集10 000組n/γ混合信號(hào),每組數(shù)據(jù)采樣點(diǎn)為1 024個(gè)(數(shù)據(jù)長(zhǎng)度),為減少運(yùn)算量方便后續(xù)算法處理,選取每組數(shù)據(jù)中能完整表達(dá)信號(hào)信息的100個(gè)采樣點(diǎn)作為待處理數(shù)據(jù)。
在信號(hào)采集過程中,由于設(shè)備溫度影響到電阻元件的工作性能,導(dǎo)致采集的模擬信號(hào)在經(jīng)過ADC轉(zhuǎn)換時(shí)會(huì)引入一定的高頻噪聲,且一定頻率下的脈沖幅度也存在差異,將這樣的數(shù)據(jù)直接送入計(jì)算機(jī)處理,在算法分類中會(huì)產(chǎn)生較多特異點(diǎn),對(duì)最后的n/γ甄別結(jié)果的精確度造成影響,因此首先需對(duì)原始數(shù)據(jù)進(jìn)行算法分類前的預(yù)處理。數(shù)據(jù)預(yù)處理分為3個(gè)步驟:1) 幅度歸一化,將信號(hào)幅度轉(zhuǎn)化至[0,1]之間,這樣可有效地克服噪聲的干擾,準(zhǔn)確識(shí)別待判曲線,將幅度差異帶來的影響消除;2) 平滑濾波[17],利用滑動(dòng)平均濾波消除原始信號(hào)中的高頻雜波,保證ADC轉(zhuǎn)換過程中不會(huì)出現(xiàn)高頻失真現(xiàn)象;3) 基線調(diào)零,核信號(hào)處理中可能存在基線干擾信號(hào)(低頻噪聲),利用基線調(diào)零操作消除對(duì)甄別過程中的不利影響。圖2為預(yù)處理后中子和γ射線的對(duì)比。
a——原始信號(hào);b——?dú)w一化信號(hào);c——平滑信號(hào);d——基線調(diào)零信號(hào)圖2 預(yù)處理后中子和γ射線的對(duì)比Fig.2 Comparison of n/γ signals after pretreatment
SVM算法通過核函數(shù)將低維空間非線性不可分的訓(xùn)練集映射到高維特征空間G中,然后尋求構(gòu)造最優(yōu)超平面實(shí)現(xiàn)數(shù)據(jù)線性分類。SVM算法能在很廣泛的函數(shù)集中構(gòu)造函數(shù),具有很強(qiáng)的通用性。假設(shè)訓(xùn)練樣本集T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈Rn,yi∈{-1,+1},i=1,2,…,N,SVM在特征空間中構(gòu)造的超平面可表示為:
wTx+b=0
(1)
式中:w為法向量,決定超平面的方向;b為位移量,決定超平面與原點(diǎn)之間的距離;T為維度系數(shù)。
若式(1)中超平面滿足約束條件,式(2)則構(gòu)成最優(yōu)超平面。
yi(wTxi+b)≥1i=1,2,…,N
(2)
假設(shè)訓(xùn)練數(shù)據(jù)集不是線性可分的,通常情況是訓(xùn)練數(shù)據(jù)集中有些特異點(diǎn),將這些特異點(diǎn)除去后,剩下大部分的樣本點(diǎn)組成的集合是線性可分的。對(duì)每個(gè)樣本點(diǎn)引入松弛變量ξi≥0,使函數(shù)間隔加上松弛變量大于等于1,式(2)可轉(zhuǎn)化為式(3)用于求解凸二次規(guī)劃問題,目標(biāo)值的最小函數(shù)f(w,b,ξ)為:
s.t.yi(wTxi+b)≥1-ξiξi≥0
i=1,2,…,N
(3)
式中,C為懲罰因子,C>0,可控制對(duì)錯(cuò)分樣本的懲罰程度,一般是由實(shí)際的應(yīng)用問題來決定。C增大對(duì)誤分類的懲罰增大,反之C減小則對(duì)于誤分類的懲罰減小。
按照最優(yōu)化理論中凸二次規(guī)劃的解法,加入拉格朗日乘法算子構(gòu)造式(4)求解上述問題,同時(shí)尋找建立最優(yōu)超平面函數(shù),則:
(4)
式中,αi和μi為拉格朗日乘子,αi≥0,μi≥0。引入適當(dāng)?shù)膬?nèi)積函數(shù)K實(shí)現(xiàn)非線性變換,目的是將最優(yōu)平面問題轉(zhuǎn)化為對(duì)偶問題,則式(4)可變?yōu)椋?/p>
0≤ai,aj≤Ci,j=1,…,N(i≠j)
(5)
假設(shè)最優(yōu)解為a*,則最優(yōu)分類函數(shù)f(x)為:
(6)
式(6)等價(jià)于將原來的輸入空間的xi和xj的內(nèi)積變換到新的特征空間用核函數(shù)K來代替。核函數(shù)將數(shù)據(jù)映射到一個(gè)高維線性空間中,使其在線性空間中線性可分,從而構(gòu)造出最優(yōu)超平面,完成數(shù)據(jù)分類。圖3為SVM在高維空間構(gòu)造超平面區(qū)分的兩種樣本。采用不同的核函數(shù)可得到不同的分類效果,本工作選擇的是RBF核函數(shù):
K(x,xi)=exp(-g‖x-xi‖2)
(7)
式中:‖x-xi‖2為2范數(shù)距離;g為核函數(shù)參數(shù)。
圖3 SVM在高維空間構(gòu)造超平面區(qū)分的兩種樣本Fig.3 Two samples distinguished by SVM constructed hyperplane in high-dimensional space
由于SVM是在高維空間構(gòu)造超平面實(shí)現(xiàn)2分類,特征維數(shù)過高會(huì)造成訓(xùn)練網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象使得分類準(zhǔn)確性下降,同時(shí)建模時(shí)間太長(zhǎng)浪費(fèi)大量時(shí)間,故本工作利用PCA對(duì)特征值進(jìn)行降維處理,選擇貢獻(xiàn)率大的主元成分作為SVM的輸入向量。
PCA是一種運(yùn)用線性代數(shù)對(duì)原始數(shù)據(jù)進(jìn)行降維處理的常用方法之一,它可將多個(gè)變量轉(zhuǎn)換為少數(shù)幾個(gè)不相關(guān)的綜合變量,來比較全面地反映整個(gè)數(shù)據(jù)集。通過KL變換對(duì)原數(shù)據(jù)集進(jìn)行線性分解組合求解得出協(xié)方差矩陣的最大k個(gè)特征值對(duì)應(yīng)的特征向量,原數(shù)據(jù)集有n個(gè)特征值,在盡量減少對(duì)原始數(shù)據(jù)信息丟失的情況下對(duì)數(shù)據(jù)進(jìn)行降維處理。在k個(gè)特征值中選擇方差最大的p1為第1主成分,若p2的貢獻(xiàn)率較小,不足以代表原來n個(gè)特征值代表的信息,則選取p2即第2主成分,若p1和p2兩個(gè)主成分的累積貢獻(xiàn)率不能滿足實(shí)際需要,繼續(xù)選取p3、p4等直到滿足實(shí)際需要為止,且p1,p2, …,pn各不相關(guān)。因此可構(gòu)造T個(gè)主成分,構(gòu)造公式為:
(8)
式中:pi為1個(gè)行向量,表示第i個(gè)基;aj為1個(gè)列向量,表示第j個(gè)原始數(shù)據(jù)。從n個(gè)原始變量中提取出T個(gè)新變量來代替原始數(shù)據(jù),其余的n-T個(gè)變量對(duì)于原始信息的貢獻(xiàn)率較小可被代替,所以選取T個(gè)變量作為GA-SVM模型的輸入。
本文所用到的RBF核函數(shù)在SVM分類算法中具有良好特性,但該核函數(shù)中涉及到未知懲罰因子C和RBF核函數(shù)參數(shù)g,這兩個(gè)參數(shù)的取值會(huì)直接影響SVM的分類準(zhǔn)確率。在向量機(jī)實(shí)際解決過程中需對(duì)這兩個(gè)參數(shù)值進(jìn)行預(yù)設(shè),傳統(tǒng)SVM往往通過人工經(jīng)驗(yàn)取值或交叉驗(yàn)證的方式來選取參數(shù)值,這使得求解過程中不僅效率低還易導(dǎo)致進(jìn)入局部最優(yōu)解。GA是一種具有很強(qiáng)通用性的全局優(yōu)化性能算法,避免尋求最優(yōu)解過程中陷入局部最小陷阱,可利用這個(gè)特點(diǎn)對(duì)SVM的懲罰因子C和核函數(shù)參數(shù)g進(jìn)行優(yōu)化,提高SVM的分類精度。
1) 種群初始化、染色的編碼和解碼
因?yàn)镾VM中懲罰因子C和核函數(shù)參數(shù)g通常是經(jīng)驗(yàn)取值,因此可初始化種群P(t),對(duì)SVM算法中的懲罰因子C和核函數(shù)參數(shù)g分別設(shè)定較寬搜索范圍(本工作C、g搜索范圍均為[0.1,100]),將在搜索范圍內(nèi)可行的懲罰因子C和核函數(shù)參數(shù)g通過二進(jìn)制編碼的方式放進(jìn)初始種群個(gè)體染色體中,構(gòu)成隨機(jī)初代種群。
2) 評(píng)估種群中個(gè)體適應(yīng)度
對(duì)種群中的各染色體進(jìn)行解碼,得到懲罰因子C和核函數(shù)參數(shù)g,用部分訓(xùn)練樣本集訓(xùn)練SVM模型,用已訓(xùn)練好的SVM模型計(jì)算出訓(xùn)練樣本集的識(shí)別率(RR)。RR在一定程度上體現(xiàn)了SVM訓(xùn)練模型的分類能力,因此來檢驗(yàn)每個(gè)個(gè)體是否達(dá)到最優(yōu)標(biāo)準(zhǔn),構(gòu)造出各基因串的適應(yīng)度、個(gè)體適應(yīng)度來進(jìn)行表征。
3) 選擇操作
每個(gè)個(gè)體的適應(yīng)度計(jì)算完成后,依據(jù)個(gè)體適應(yīng)度的大小對(duì)種群中的所有個(gè)體進(jìn)行排序,然后根據(jù)適應(yīng)度排序來分配每個(gè)個(gè)體被選中的概率Pm,此方法為比例選擇法:
(9)
4) 交叉操作
交叉算子是自然界基因信息交換的重要手段,通過交叉手段將原代種群的優(yōu)質(zhì)基因傳給下一代,組成結(jié)構(gòu)更加完善且優(yōu)質(zhì)的新個(gè)體。在此交叉過程中,隨機(jī)選擇一對(duì)染色體(父代)中的幾個(gè)基因的起止位置(兩個(gè)染色體被選位置相同),然后基因位置進(jìn)行交換。圖4為父代及原始子代基因序列。
圖4 父代及原始子代基因序列Fig.4 Gene sequence of parent and proto-child
做沖突檢測(cè),對(duì)交換的兩組基因建立映射關(guān)系,對(duì)于4組交叉基因構(gòu)造1-6-3、2-5、9-4的映射關(guān)系,原始子代1中存在兩個(gè)基因1,通過映射關(guān)系轉(zhuǎn)變?yōu)?,以此類推直到?jīng)]有沖突為止,所有沖突的基因最后都經(jīng)過映射形成新一代無沖突自帶基因,如圖5所示。
圖5 經(jīng)過交叉操作的后代基因序列Fig.5 Offspring gene sequence after crossover operation
5) 變異操作
變異操作的目的是為了保持群體多樣性,變異概率表示為Pm,若Pm太小可能會(huì)導(dǎo)致某些重要信息過早消失,若Pm過大則會(huì)將GA的尋優(yōu)操作變成隨機(jī)搜索,本工作Pm取值為0.005~0.05。
6) 迭代
迭代直至得到末代種群中最優(yōu)個(gè)體,通過解碼得到SVM的重要參數(shù)懲罰因子C和核函數(shù)參數(shù)g。
PCA-GA-SVM分類模型對(duì)混合場(chǎng)n/γ的甄別步驟為:1) 首先對(duì)混合場(chǎng)采集到的n/γ信號(hào)進(jìn)行預(yù)處理(平滑濾波、基線調(diào)零、歸一化);2) 用電荷比較法與頻域梯度分析法對(duì)預(yù)處理后的n/γ信號(hào)進(jìn)行特征值提取,從而進(jìn)行甄別,選取出經(jīng)過這兩種甄別算法處理后分類相同的數(shù)據(jù),并標(biāo)識(shí)標(biāo)簽,作為訓(xùn)練PCA-GA-SVM模型的標(biāo)準(zhǔn)數(shù)據(jù)集。然后利用PCA對(duì)數(shù)據(jù)集特征矩陣進(jìn)行數(shù)據(jù)降維,選擇出累計(jì)方差貢獻(xiàn)率高的前n個(gè)主成分?jǐn)?shù)組矩陣代替原始矩陣,達(dá)到降維的目的,此次操作可避免SVM模型出現(xiàn)過擬合現(xiàn)象且減少建模時(shí)間;3) 將降維后的標(biāo)準(zhǔn)數(shù)據(jù)集分為訓(xùn)練樣本和測(cè)試樣本,用帶有標(biāo)簽的訓(xùn)練樣本訓(xùn)練PCA-GA-SVM模型并利用GA優(yōu)化SVM懲罰因子C和核函數(shù)參數(shù)g;4) 選取最佳參數(shù)Cbest、gbest作為SVM模型的訓(xùn)練參數(shù),構(gòu)建最優(yōu)SVM模型;5) 使用訓(xùn)練好的PCA-GA-SVM模型對(duì)無標(biāo)簽測(cè)試樣本中的n/γ進(jìn)行甄別,統(tǒng)計(jì)甄別準(zhǔn)確率和總運(yùn)行時(shí)間。PCA-GA-SVM模型對(duì)混合場(chǎng)中n/γ的甄別流程如圖6所示。
圖6 PCA-GA-SVM模型對(duì)混合場(chǎng)中n/γ的甄別流程Fig.6 Flow chart of PCA-GA-SVM model for discrimination of n/γ
使用電荷比較法和頻域梯度分析法對(duì)經(jīng)過預(yù)處理的10 000組信號(hào)進(jìn)行甄別,兩種甄別算法同時(shí)甄別為γ射線的有7 724組,同時(shí)甄別為中子的有1 449組,淘汰掉兩種算法甄別后存在誤差的827組數(shù)據(jù),將此9 173組數(shù)據(jù)選取出進(jìn)行下一步操作。由于SVM算法是將低維空間不可分的數(shù)據(jù)集上升到高維空間來進(jìn)行分類,這種升維算法若維數(shù)太高則易出現(xiàn)過擬合現(xiàn)象,同時(shí)還會(huì)浪費(fèi)大量的時(shí)間。每組數(shù)據(jù)的100個(gè)特征采樣點(diǎn)可完整表達(dá)信號(hào)信息,但直接通過GA-SVM模型進(jìn)行甄別,維數(shù)太高會(huì)導(dǎo)致分類不準(zhǔn)確,由于這100個(gè)特征采樣點(diǎn)存在一定的相關(guān)性,所以可通過PCA進(jìn)行降維處理,將原來的特征向量進(jìn)行線性組合,重新生成相互獨(dú)立且可完整包含原始數(shù)據(jù)全部信息的新特征向量。對(duì)9 173組數(shù)據(jù)進(jìn)行主成分分析,抽取1組數(shù)據(jù)為例,前27個(gè)主成分的貢獻(xiàn)率依次為:X={39.56,6.40,4.18,3.20,2.84,2.68,2.19,2.18,2.17,2.13,2.10,2.08,2.07,2.02,1.97,1.91,1.66,1.40,1.13,1.03,0.97,0.84,0.81,0.74,0.67,0.65,0.59}
該組數(shù)據(jù)前27個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)到90.16%,后73個(gè)主成分僅占9.84%,所以前27個(gè)主成分包含了1組數(shù)據(jù)的大部分信息,后73個(gè)成分隨著數(shù)量的增加,累積貢獻(xiàn)率增加緩慢,可忽略。因此可利用前27個(gè)主成分新特征代替原有的100個(gè)特征采樣點(diǎn),進(jìn)而達(dá)到降維的目的。圖7為PCA得分圖二維、三維分布情況,可看出,n/γ信號(hào)仍混合,所以下一步需將通過PCA降維的數(shù)據(jù)輸入到GA-SVM模型內(nèi),完成對(duì)兩種信號(hào)的甄別。
a——二維;b——三維圖7 PCA得分圖Fig.7 PCA score chart
GA-SVM網(wǎng)絡(luò)可通過對(duì)已知樣本的訓(xùn)練來對(duì)未知樣本進(jìn)行分類。經(jīng)過PCA降維處理的n/γ混合場(chǎng)射線共9 173組,選取其中6 000組(5 000組γ射線、1 000組中子)標(biāo)定標(biāo)簽作為訓(xùn)練樣本,3 173組(2 725組γ射線、448組中子)不賦予標(biāo)簽作為測(cè)試樣本來驗(yàn)證GA-SVM模型的甄別能力。將經(jīng)過PCA降維處理具有27個(gè)主元成分的6 000組訓(xùn)練集和3 173組測(cè)試集作為系統(tǒng)輸入,對(duì)應(yīng)兩個(gè)事件的網(wǎng)絡(luò)輸出值設(shè)置為1和2。然后通過GA迭代尋求最優(yōu)的懲罰因子C和核函數(shù)參數(shù)g,將線性不可分?jǐn)?shù)據(jù)上升到高維空間構(gòu)造超平面來分類兩種射線。
本實(shí)驗(yàn)設(shè)置最大進(jìn)化代數(shù)為50,種群最大數(shù)量為20,懲罰因子C和核函數(shù)參數(shù)g取值范圍均為[0.1,100],代溝為0.9,編碼長(zhǎng)度為20,交叉概率為5,變異概率為0.9。通過遺傳迭代尋優(yōu),最后確定最優(yōu)參數(shù)C為74.36,g為92.784,圖8為GA適應(yīng)度曲線。
圖8 GA適應(yīng)度曲線Fig.8 GA fittness curve
本實(shí)驗(yàn)甄別芪晶體中混合場(chǎng)的n/γ,因此將γ射線的網(wǎng)絡(luò)輸出設(shè)置為標(biāo)簽1,中子的網(wǎng)絡(luò)輸出設(shè)置為標(biāo)簽2。實(shí)驗(yàn)中用PCA-GA-SVM對(duì)3 173組測(cè)試樣本進(jìn)行甄別,最終甄別結(jié)果如圖9所示,其中期望輸出為PCA-GA-SVM模型輸入的標(biāo)準(zhǔn)測(cè)試集(2 725組γ射線、448組中子),預(yù)測(cè)輸出為模型對(duì)測(cè)試集實(shí)際輸出的識(shí)別結(jié)果,當(dāng)期望輸出與預(yù)測(cè)輸出重合時(shí)表示模型預(yù)測(cè)結(jié)果正確。實(shí)驗(yàn)結(jié)果表明,在2 725組γ射線中有8組被錯(cuò)誤識(shí)別為中子,448組中子中有12組被錯(cuò)誤識(shí)別為γ射線,其他均被正確識(shí)別,算數(shù)識(shí)別精度為99.37%。
圖9 PCA-GA-SVM對(duì)n/γ信號(hào)甄別結(jié)果Fig.9 PCA-GA-SVM discrimination result of n/γ signal
為了評(píng)估PCA-GA-SVM模型的甄別能力,用辨別誤差率(DER)定義為由PCA-GA-SVM模型錯(cuò)誤區(qū)分的事件數(shù)與測(cè)試數(shù)據(jù)集的事件總數(shù)之比。γ射線和中子的DER通過式(10)來計(jì)算。
(10)
式中:Nγ和Nn分別為測(cè)試樣本中γ射線和中子的數(shù)量;Nγ-SVM和Nn-SVM分別為PCA-GA-SVM分類的γ射線和中子事件的數(shù)量。通過計(jì)算DER來評(píng)估PCA-GA-SVM的甄別能力,結(jié)果列于表1。由于選取的測(cè)試樣本中中子計(jì)數(shù)較γ計(jì)數(shù)少,所以計(jì)算的中子事件的DER較γ事件大些。由表1可知,PCA-GA-SVM可很好地甄別混合場(chǎng)中的n/γ。
表1 測(cè)試樣本的甄別結(jié)果Table 1 Discrimination result of test sample
將電荷比較法、頻域梯度分析法、PCA-GA-SVM網(wǎng)絡(luò)3種n/γ甄別算法進(jìn)行對(duì)比,將前面尋找到的最優(yōu)懲罰因子C和核函數(shù)參數(shù)g(C為74.36,g為92.784)直接賦予PCA-GA-SVM網(wǎng)絡(luò)以省略建模時(shí)間,對(duì)比結(jié)果列于表2。3種甄別方法對(duì)同樣的3 173組數(shù)據(jù)(2 725組γ射線、448組中子)進(jìn)行甄別,結(jié)果表明,3種方法均能較好地分開混合場(chǎng)中的n/γ,PCA-GA-SVM辨別誤差率遠(yuǎn)小于其他兩種算法,甄別精度優(yōu)勢(shì)明顯。PCA-GA-SVM網(wǎng)絡(luò)直接調(diào)用Cbest和gbest后甄別用時(shí)僅為4.76 s,隨著樣本數(shù)的增加,PCA-GA-SVM網(wǎng)絡(luò)會(huì)在處理時(shí)間上逐漸體現(xiàn)出優(yōu)勢(shì)。
表2 3種n/γ甄別方法結(jié)果對(duì)比Table 2 Result comparison of three n/γ discrimination methods
為更好地驗(yàn)證PCA和GA對(duì)SVM網(wǎng)絡(luò)模型的優(yōu)化效果,分別建立SVM、PCA-SVM、GA-SVM 3種模型,與PCA-GA-SVM比較其甄別時(shí)間與算數(shù)識(shí)別精度,對(duì)比模型中傳統(tǒng)SVM的懲罰因子C、核函數(shù)參數(shù)g采用傳統(tǒng)的交叉驗(yàn)證法得到。重復(fù)實(shí)驗(yàn)10次后,記錄4種模型的甄別時(shí)間(含建模時(shí)間)和算數(shù)識(shí)別精度,取平均值作為模型的性能指標(biāo),分析比較結(jié)果列于表3。由表3可知,PCA-SVM模型經(jīng)過降維處理后甄別時(shí)間比SVM模型縮短了82.59%,甄別準(zhǔn)確率提高了3.50%,這說明SVM模型適合處理樣本數(shù)量小、維數(shù)低的數(shù)據(jù)集,當(dāng)需要被分類的數(shù)據(jù)集是具有多特征大數(shù)量的高維數(shù)據(jù)集時(shí),PCA是一種行之有效的數(shù)據(jù)降維手段,可大幅縮減模型的建模時(shí)間,同時(shí)還可小幅度提升分類精度。GA-SVM模型對(duì)比傳統(tǒng)SVM模型,甄別準(zhǔn)確率提高了8.88%,甄別時(shí)間縮短了9.68%,這說明經(jīng)過GA迭代尋優(yōu)后的懲罰因子C和核函數(shù)參數(shù)g比傳統(tǒng)交叉尋優(yōu)得到的兩個(gè)參數(shù)對(duì)模型的貢獻(xiàn)率更大,指標(biāo)提升效果明顯。利用PCA降維后的PCA-GA-SVM模型對(duì)比傳統(tǒng)SVM模型,甄別準(zhǔn)確率提高了12.99%,甄別時(shí)間縮短了88.13%,這說明PCA-GA-SVM模型在n/γ甄別工作中具有甄別準(zhǔn)確率高、甄別時(shí)間短的特點(diǎn)。
表3 4種模型性能指標(biāo)對(duì)比Table 3 Comparison of performance index of four models
本文利用PCA、GA、SVM構(gòu)建了n/γ的甄別模型,為混合場(chǎng)中n/γ甄別工作提供了一種新的方法。結(jié)果表明,PCA-GA-SVM通過電荷比較法和頻域梯度分析法選取的訓(xùn)練樣本訓(xùn)練后可同時(shí)兼顧時(shí)域和頻域的特征。PCA-GA-SVM模型對(duì)混合場(chǎng)兩種射線甄別,運(yùn)行10次后平均算數(shù)準(zhǔn)確率達(dá)到99.43%,甄別時(shí)間(含建模時(shí)間)為269.16 s,與SVM、PCA-SVM、GA-SVM 3種模型相比,PCA和GA對(duì)SVM優(yōu)化效果顯著。另外,在混合脈沖甄別中PCA-GA-SVM的辨別誤差率遠(yuǎn)小于電荷比較法和頻域梯度分析法,具有更高的甄別精度。在甄別時(shí)間上與其他兩種方法相比相差不大,隨著樣本數(shù)量的增多,該模型在處理時(shí)間上會(huì)逐漸體現(xiàn)出優(yōu)勢(shì)。