朱武峰,王廷銀,林明貴,蘇偉達,李汪彪,吳允平,3,4
1(福建師范大學 光電與信息工程學院,福州 350007)
2(福建省輻射環(huán)境監(jiān)督站,福州 350013)
3(數(shù)字福建環(huán)境監(jiān)測物聯(lián)網(wǎng)實驗室,福州 350117)
4(福建省光電傳感應(yīng)用工程技術(shù)研究中心,福州 350000)
核能發(fā)電不僅經(jīng)濟高效、排放無污染,而且原料來源廣泛,是當今社會重要的電力能源之一[1],通常,核電站會圍繞自身建立輻射監(jiān)測系統(tǒng)(Radiation Monitoring System,RMS),以保障運行安全[2];其中,環(huán)境輻射監(jiān)測系統(tǒng)(ERMS)是RMS 的一個重要組成部分;所謂ERMS,是為了保證核電站外圍環(huán)境安全,在核電站四周若干公里范圍內(nèi)設(shè)置若干個監(jiān)測站點,每個監(jiān)測站點都會配備監(jiān)測儀器和通信裝置,以便通過網(wǎng)絡(luò)把數(shù)據(jù)傳到計算機.其系統(tǒng)數(shù)據(jù)采集框架如圖1所示,監(jiān)測站采集設(shè)備主要分為輻射數(shù)據(jù)采集設(shè)備(如NaI 能譜探測儀和高壓電離室)和氣象數(shù)據(jù)采集設(shè)備(如雨量計、溫度傳感器、風速傳感器等),采集的數(shù)據(jù)種類主要有HPIC劑量率、雨量、氣溫、濕度及風速風向等;其中,HPIC劑量率是指示輻射監(jiān)測站點實時γ輻射空氣吸收劑量率的重要指標.
圖1 ERMS 系統(tǒng)數(shù)據(jù)采集系統(tǒng)框架圖
這些數(shù)據(jù)蘊含著核電站運行安全性的重要價值指示信息,一直以來都是各國保障核電安全的研究熱點,具有重大的研究意義.
國外,2015年,Chen 等人[3]針對γ輻射劑量率的仿真模擬問題,以蒙特卡羅方法為基礎(chǔ)提出一種可用于進行曝光劑量估計的光譜測定G(E)函數(shù)方法,用于進行γ劑量率的仿真模擬,獲得的仿真值與電離室測量的γ劑量率實際值之間最大偏差僅6.31%,對確保γ劑量率的可靠性具有很大應(yīng)用價值.2017年,印尼國家核安全局的Susila 等人[4]則對塞彭核設(shè)施周圍5年的序列輻射數(shù)據(jù)應(yīng)用關(guān)聯(lián)分析方法進行分析,發(fā)現(xiàn)γ輻射劑量率的數(shù)值與空氣中碘和氬的放射性同位素含量具有較強的正相關(guān)關(guān)系;同年,Bossew 等人[5]指出空氣中的天然放射性元素氡與γ輻射劑量率也有較強關(guān)系,采用統(tǒng)計關(guān)聯(lián)方法對歐洲地區(qū)兩者之間進行相關(guān)性研究,得出大部分地區(qū)氡對γ輻射劑量率的監(jiān)測結(jié)果的貢獻值低于5 nSv/h,部分地區(qū)則達到30 nSv/h,這對加強核輻射環(huán)境監(jiān)測的預警能力具有很好的參考意義.
國內(nèi),2015年,朱耀明、林明貴等人[6]提出要加強ERMS 數(shù)據(jù)應(yīng)用能力和人員配置管理問題,指出對ERMS 管理維護上要安排專業(yè)工作人員,以便可以立時應(yīng)對不同緊急情況,如當出現(xiàn)輻射數(shù)據(jù)異?;蚨鄠€站點γ輻射劑量率數(shù)值超高,觸發(fā)閾值報警時,確保工作人員可以及時收到預警信息并迅速進行處理,查找問題根源以尋求解決.2017年,高澤泉等人[7]則應(yīng)用線性統(tǒng)計方法對序列輻射數(shù)據(jù)中降雨與γ輻射劑量率的相關(guān)性進行分析發(fā)現(xiàn),降雨天氣時,降雨會導致γ輻射劑量率的升高,造成γ輻射劑量率的實時數(shù)值的不準確性,這對我們在日常監(jiān)測中進行γ輻射劑量率數(shù)值的判斷是一個很好的參考指標.2018年,羅敦燁等人[8]也基于線性統(tǒng)計方法、關(guān)聯(lián)分析及可視化技術(shù)對日常監(jiān)測中γ輻射劑量率的特征影響因子進行了更全面的挖掘分析,總結(jié)了眾多與γ輻射劑量率數(shù)據(jù)相關(guān)的特征影響因子,如宇宙射線、自然放射性物質(zhì)、溫濕度、風向及氣壓等氣象因素,這對建立和完善γ輻射劑量率數(shù)值可靠性評價指標具有很大意義.
總的來說,在ERMS日常監(jiān)測過程中,γ輻射監(jiān)測數(shù)值的影響因素較多,如上述的源相關(guān)的放射性物質(zhì)、降雨、溫濕度、風向及氣壓等自然因素,還有設(shè)備老化故障等都會導致γ輻射監(jiān)測數(shù)據(jù)的不準確性.近年,我國物聯(lián)網(wǎng)技術(shù)愈發(fā)成熟,數(shù)據(jù)資源獲取能力逐步增強,圍繞ERMS 的設(shè)備可靠性、數(shù)據(jù)可信度以及源相關(guān)性等方面取了一些進展,但ERMS 輻射數(shù)據(jù)分析卻仍以實時數(shù)據(jù)判定、事后報警為主;圍繞γ劑量率監(jiān)測也進行相關(guān)影響因子的定性分析,提供了對實時γ劑量率監(jiān)測準確性的輔助判斷依據(jù),但是在一定程度上對各影響因子融合進行數(shù)據(jù)價值挖掘未作出過多研究,如在自然因子影響下,如何有效識別和降低自然因素干擾,提高對HPIC 劑量率的可靠性評估能力.而當今數(shù)據(jù)挖掘在醫(yī)療衛(wèi)生[9]、網(wǎng)絡(luò)安全[10]、企業(yè)管理[11]、城市交通[12]及工業(yè)生產(chǎn)[13]等諸多領(lǐng)域都取得了顯著的應(yīng)用成果,為我們提升智能化監(jiān)管效率和實現(xiàn)新的監(jiān)管技術(shù)創(chuàng)新指出了新思路.其中以GB 回歸為代表的人工智能算法,在解決回歸問題上發(fā)揮了巨大的優(yōu)勢.2013年,山東大學陳爽爽等[14]人應(yīng)用GB 算法對癲癇及復發(fā)概率數(shù)據(jù)進行建模,取得很好的檢測效果,達到了初步臨床實驗的標準;2015年,瑞典艾滋病研究團隊為預測戒煙成功率和艾滋病復發(fā)率,采用GB 算法模型進行回歸分析,取得很好的效果,具有很強的實用性[15];而縱觀我們的輻射監(jiān)測數(shù)據(jù)、太陽活動數(shù)據(jù)及氣象數(shù)據(jù),整體為時間序列的離散值,以HPIC 劑量率值作為γ劑量率監(jiān)測的重要指標,特征數(shù)據(jù)有類別特征(如風向)、離散值(如雨量、各監(jiān)測站點HPIC 劑量率歷史數(shù)據(jù)、溫濕度及天頂方向電子量VETC 等),其總體數(shù)據(jù)特征完全符合GB 算法模型,而且對模型誤差,我們不排除其他因素干擾,充分考慮作為回歸模型輸入特征,可以一定程度排除未知因素干擾.GB 算法對幫助我們解決ERMS 中HPIC 劑量率在線預測的問題是一個較佳選擇.
GB 算法[16]是一種機器學習方法,其算法的核心思想在于:將損失函數(shù)看作模型的“靠譜程度”,當損失函數(shù)數(shù)值較大時,說明模型的可信度較低,預測結(jié)果的準確率較差.因此,我們通常會根據(jù)起始的損失函數(shù),進行損失函數(shù)的優(yōu)化工作,通常做法是根據(jù)梯度下降法來實現(xiàn)損失函數(shù)在梯度方向上的不斷迭代減小直至收斂,此時模型最優(yōu),殘差也達到最小值,殘差通常認為就是目標實際值與模型預測值的誤差.基于GB 算法進行回歸預測大致流程如圖2所示,首先基于訓練集建立一個基模型,然后將這個模型的殘差作為下一個模型的優(yōu)化學習目標輸入,得到新的基模型,不斷重復此迭代過程,直到模型的殘差達到理想數(shù)值范圍內(nèi).
圖2 Gradient Boosting 回歸模型預測流程圖
算法基本形式可表示如下:
算法的輸入數(shù)據(jù)集是一組屬性值x={x1,x2,···,xm)及 實際值y={y1,y2,···,ym},設(shè)定與之間具有某種回歸關(guān)系:
設(shè)定損失函數(shù)為L(y,f(x)),基函數(shù)是{a(x;γ)}.首先,設(shè)定初始化預測函數(shù)為:
其次,設(shè)置算法最大迭代次數(shù)N,在設(shè)定的迭代次數(shù)基礎(chǔ)上:
(1) 極小化算法的損失函數(shù),使用如下方式求得使損失函數(shù)最小化的最佳參數(shù)bn,γn:
(2) 迭代更新預測函數(shù),在舊的弱學習器基礎(chǔ)上不斷學習新的弱學習器(決策樹) 模型fn(x)來優(yōu)化模型損失函數(shù),如下式:
(3) 累加預測函數(shù),求得最終強學習器預測函數(shù)公式如下:
GB 算法是一種集成學習算法.該算法基于多個弱學習器組成強學習器的思想,可以很好地克服算法建模中存在的諸如過擬合問題等,在解決分類回歸問題上具有很好的適用性.
如圖3所示為福建省某S 核電站ERMS 輻射監(jiān)測站點空間分布圖,以此核電站為中心,在周圍設(shè)置了11 個監(jiān)測子站;從圖3中可以看出,S1-S11號自動站圍繞核電站整體呈現(xiàn)放射狀分布,保證充分檢測四周環(huán)境放射性核素劑量,同時實施多點連續(xù)監(jiān)測,在一定程度上可以更好地防止突發(fā)情況發(fā)生,提高安全效率,這樣就形成了區(qū)域核輻射外圍網(wǎng)絡(luò)分布.
圖3 某核電站ERMS 輻射監(jiān)測站空間分布圖
數(shù)據(jù)資料主要分3 部分:(1)輻射監(jiān)測子站環(huán)境日常監(jiān)測數(shù)據(jù)可以從某核電站輻射監(jiān)測中心平臺數(shù)據(jù)庫直接導出2015-2017年文本格式歷史輻射監(jiān)測數(shù)據(jù);(2)所需太陽日常活動歷史數(shù)據(jù)從空間環(huán)境預報中心直接獲取,以對方提供的2015-2017年文本格式天頂方向電子量VTEC 數(shù)據(jù)為主;(3)氣象數(shù)據(jù)指標可從氣象局網(wǎng)站通過網(wǎng)頁記錄獲取,相關(guān)數(shù)據(jù)指標如表1.
表1 數(shù)據(jù)來源
2.3.1 實驗環(huán)境
硬件方面,本實驗運用8 核、16 GB 內(nèi)存PC 機進行.
軟件方面,在Windows10 系統(tǒng)環(huán)境下配置JDK1.8、Anaconda3.4 及MySql 等,以Mysql 作為文件存儲數(shù)據(jù)庫進行數(shù)據(jù)存儲,以Anaconda3.4 自帶軟件Spyder作為實驗編程平臺,以Python 作為程序編程語言,借助Python 第三方科學計算相關(guān)類庫(如numpy、pandas、matplotlib 及sklearn 等)進行整體數(shù)據(jù)挖掘分析工作;具體實驗環(huán)境配置如表2所示.
2.3.2 模型設(shè)計方案
如圖4所示為本實驗?zāi)P蜆?gòu)建整體實驗過程方案,主要包括數(shù)據(jù)存儲、數(shù)據(jù)預處理、數(shù)據(jù)抽取、數(shù)據(jù)建模及模型應(yīng)用五部分.首先,實驗數(shù)據(jù)主要為3.2 中闡述的歷史離線數(shù)據(jù)集,數(shù)據(jù)特征為時間序列的離散型數(shù)據(jù),所以采用MySQL 數(shù)據(jù)庫進行數(shù)據(jù)持久存儲;其次,數(shù)據(jù)存在來源不一,有如風向等類別特征,各屬性特征之間量綱也存在不統(tǒng)一,數(shù)據(jù)缺失等問題,因此為獲得較好質(zhì)量的建模數(shù)據(jù),必須進行一定的數(shù)據(jù)集成、清洗、規(guī)整及變換等預處理等工作;然后,對處理后的建模數(shù)據(jù)按一定比例進行拆分以獲得訓練集和測試集兩部分;接著,使用訓練數(shù)據(jù)對GB 模型進行訓練工作,同時結(jié)合交叉驗證法和網(wǎng)格搜索法進行模型的評估優(yōu)化工作,以獲得最優(yōu)的模型;最后,將構(gòu)建好的HPIC 劑量率預測模型在測試集上進行測試,測試模型的預測效果.
圖4 HPIC 劑量率在線預測流程方案
我們以S1輻射監(jiān)測站為目標研究對象.如圖5所示是采用可視化技術(shù)展現(xiàn)出的某降雨時段前后,其HPIC 劑量率監(jiān)測數(shù)據(jù)數(shù)值隨時間的變化信息圖;從圖中可以看出HPIC 劑量率在降雨時段會有明顯的上升,隨著降雨停后,其數(shù)值又緩慢降低回至正常水平.
圖5 降雨時段HPIC 波動圖
根據(jù)該核電站區(qū)域核輻射各站點2015-2017年三年輻射序列數(shù)據(jù)進行異常值處理及數(shù)據(jù)標準化后,對其溫濕度、氣壓與HPIC 劑量率進行皮爾遜相關(guān)系數(shù)分析,分析結(jié)果如表3所示:溫度整體與HPIC 劑量率數(shù)值之間的相關(guān)性較弱,但是在S7站點相關(guān)性較強;各輻射監(jiān)測站點濕度與HPIC 劑量率之間存在很強的正相關(guān);對氣壓相關(guān)性來說,除了S2、S10與S113 個站點與HPIC 劑量率相關(guān)性較弱,整體上與HPIC 劑量率數(shù)值之間存在著很強的負相關(guān)關(guān)系.
表3 溫度、濕度及氣壓與HPIC 劑量率皮爾遜相關(guān)系數(shù)表
進一步具體分析S1站點溫度與HPIC 劑量率之間存在的相關(guān)關(guān)系,將溫度等寬分為3 個區(qū)間:偏低溫、偏中溫及偏高溫,如圖6所示,對每個區(qū)間HPIC 劑量率標準化后數(shù)據(jù)采用箱線圖統(tǒng)計分析可以得知,HPIC 劑量率在偏高溫時集中偏大,低溫時偏小,兩者整體特點表現(xiàn)為溫度越高,HPIC 劑量率越高;因此我們可以認為溫度也是HPIC 劑量率的特征影響因子之一,兩者之間存在著正相關(guān)關(guān)系.
圖6 2015年度S1 點HPIC 劑量率在溫度區(qū)間數(shù)據(jù)分布箱線圖
如圖7所示,先通過標準化方法消除量綱問題,采用線性分析方法對VTEC 與HPIC 劑量率數(shù)值進行相關(guān)性分析得出,在VTEC 電子含量與HPIC 劑量率呈現(xiàn)明顯的同升同降變化規(guī)律,采用皮爾遜算法計算得出兩者相關(guān)系數(shù)值r高達0.669,具有顯著的相關(guān)性.
如圖8所示,以箱線圖方法統(tǒng)計出8 個不同風向時HPIC 劑量率數(shù)據(jù)信息,可以看出,HPIC 劑量率數(shù)據(jù)在不同風向上,其數(shù)據(jù)集中程度有稍許差異,從中位數(shù)可以看出,在風向偏南風及西南風時,其HPIC 劑量率數(shù)值中位數(shù)明顯較大,且數(shù)據(jù)整體數(shù)值較偏北風及東北風時明顯偏大;在風向為東風和東北風時,其HPIC劑量率數(shù)值中位數(shù)是最低,整體數(shù)值也是集中偏低,不同風向上HPIC 劑量率數(shù)值差值約在(0~4) nGy/h 之間.考慮風向為類別特征屬性,所以實驗中采用one-hot對屬性值進行了編碼轉(zhuǎn)換為八維的0 或1 的數(shù)值型.
再如表4,通過計算S1目標監(jiān)測站點與其它站點之間HPIC 劑量率皮爾遜系數(shù)得知,除了S5、S10站點,S1站點與其余站點具有較強的相關(guān)性;所以亦可以將其他監(jiān)測站點監(jiān)測數(shù)據(jù)作為當前監(jiān)測數(shù)據(jù)的特征因子進行定性的預測;我們考慮相關(guān)性較強的幾個站點,將與目標站點之間皮爾遜系數(shù)在0.35 以上的6 個站點作為模型特征參數(shù)輸入,進行模型構(gòu)建.
同時,考慮目標屬性HPIC 劑量率的時間序列離散特征,其自身在時間前后也是有著較強的關(guān)聯(lián)性;所以為實現(xiàn)模型對當前時HPIC 劑量率目標屬性值預測能力,本實驗也考慮加入上一時刻的HPIC 劑量率目標屬性值作為特征輸入,以此作為基準.
圖7 VTEC 與劑量率同一時段波動對比圖
圖8 風向與HPIC 劑量率關(guān)系箱線圖
綜合看來,上述降雨、溫濕度、氣壓、太陽輻射的VTEC 及風向都與HPIC 劑量率之間有著緊密的強關(guān)聯(lián)性.這些自然因素對HPIC 劑量率的日常監(jiān)測會產(chǎn)生較強的干擾作用,不利于異常情況發(fā)生時,對異常成因的即時分析及準確定位,如當監(jiān)測過程中發(fā)現(xiàn)某些站點HPIC 劑量率驟然上升時,而此時區(qū)域內(nèi)同時伴隨上述不利于異常判斷的自然因素發(fā)生,這時要及時得出異常成因就比較困難,可能需要提前進行預警,實行人工檢測,比較費時耗力.因而,我們在此基礎(chǔ)上設(shè)計如下在線預測模型,在一定程度上降低自然因素的綜合干擾,幫助進行異常情況的快速檢出工作.
2.5.1 模型構(gòu)建
如圖9所示為我們所提出的基于GB 算法的HPIC劑量率在線預測模型,輸入采用第二章節(jié)中提出的各種相關(guān)特征屬性參數(shù),如溫度、濕度及風向等氣象參數(shù),天頂方向電子總量VTEC,與目標站點具有時空關(guān)聯(lián)性的其它各站點HPIC 劑量率數(shù)值,最后加上自身在時間前后存在時間關(guān)聯(lián)性的目標站點上一時刻HPIC劑量率數(shù)值,輸出采用當前時刻目標HPIC 劑量率數(shù)值,這樣就形成20 個維度的特征輸入,1 個HPIC 劑量率數(shù)值的輸出.經(jīng)過類別特征one-hot 編碼、零-均值標準化、缺失值填補、數(shù)據(jù)去重及異常值處理等數(shù)據(jù)預處理工作后,獲得了質(zhì)量較好的數(shù)據(jù)樣本,然后將數(shù)據(jù)按照2:8 的比例進行測試集和訓練集的劃分,再采用交叉驗證方法將訓練集等量劃分為10 等份,進行10 折交叉驗證,同時結(jié)合GridSearch 網(wǎng)格尋優(yōu)算法進行超參空間的構(gòu)建,進行模型參數(shù)優(yōu)化和選擇,以此得出最優(yōu)的GB 預測模型.
表4 目標監(jiān)測站點與其他監(jiān)測子站HPIC 監(jiān)測值顯著相關(guān)系數(shù)表
實驗過程中,對于GB 算法模型的性能參數(shù)最主要有兩個:模型中弱學習器的數(shù)量以及尋找最佳分割點要考慮的特征數(shù)量;這兩個性能參數(shù)都是需要我們自己去設(shè)定,弱學器數(shù)量從10 到140 每隔20 個進行數(shù)量的選取設(shè)定,最佳分割點的特征數(shù)量從16 到最大特征數(shù)量20 個每隔1 個進行選取設(shè)定,總共取得5 個特征數(shù)量取值;其模型在每種情況下的決定系數(shù)R-square和平均絕對誤差MAE 結(jié)果如圖10和圖11所示.
圖10 GB 模型參數(shù)的選取對評價指標R-square決定系數(shù)的影響
從圖10和圖11中可以看出,GB 模型的R-square決定系數(shù)值隨弱學習器數(shù)量的增加及特征數(shù)量的增加而增大;平均絕對誤差MAE 則隨弱學習器數(shù)量的增加及特征數(shù)量的增加而減小;但是當弱學習器的數(shù)量達到120 以上,其性能就開始趨于平緩;然而弱學器數(shù)量和特征數(shù)量越多,整體模型構(gòu)建時間效率偏低;綜合圖中顯示情況來說,設(shè)定弱學器數(shù)量為120,特征數(shù)量為19 時,模型效果最好.
圖11 GB 模型參數(shù)的選取對評價指標平均絕對誤差MAE 的影響
2.5.2 模型測試
將訓練好的模型對測試集進行預測,預測結(jié)果可以用線性擬合圖和散點圖直觀展示,如圖12和圖13所示;從圖12中可以看出預測曲線與實際值曲線擬合性較好,計算得出決定系數(shù)R-Square 約0.91,MAE 約0.635,但是在一些這些極值點處的預測效果會有所偏差.監(jiān)測站HPIC 劑量率監(jiān)測儀器高壓電離室測量閾值誤差一般在±5 nGy 左右,所以這個預測差額幅度在可接受范圍內(nèi);圖13中HPIC 劑量率預測值與實際值基本分布在圖形45°斜對角附近,所以認為模型預測精度還是較好的.
圖12 目標站點HPIC 劑量率預測值與實際值擬合對比
圖13 HPIC 預測結(jié)果和實際結(jié)果散點圖
綜上,此模型較好地融合了各種自然特征影響因子,并考慮目標站點與自身、各站點在HPIC 劑量率值之間關(guān)聯(lián)性構(gòu)建起來的HPIC 實時預測模型,模型實驗結(jié)果較好,若能有效結(jié)合預測值與實際值誤差閾值方法,在一定程度上是可以幫助降低自然因素干擾輻射數(shù)據(jù)異常分析判斷的影響,實現(xiàn)對設(shè)備故障、放射性狀況導致的輻射數(shù)據(jù)異常的更準確的定位;比如,設(shè)置誤差閾值為5 nGy,可以假定當預測值與實際值的絕對誤差低于5 nGy,輻射監(jiān)測數(shù)據(jù)無異常情況發(fā)生;當預測值與實際值的絕對誤差高于5 nGy,輻射監(jiān)測數(shù)據(jù)可能就出現(xiàn)了異常,并即時向工作人員發(fā)出預警,立時進行處理.這對提高ERMS 的異常發(fā)現(xiàn)能力和維保效率具有很大應(yīng)用價值.
首先,感謝省級輻射中心、國家空間環(huán)境預報中心提供的數(shù)據(jù)支撐.我們以機器學習算法進行數(shù)據(jù)的挖掘工作,基于核電站積累的海量歷史數(shù)據(jù),并引入氣象數(shù)據(jù)及太陽活動數(shù)據(jù),充分考慮影響輻射監(jiān)測中HPIC 劑量率數(shù)值的重要特征因子,并結(jié)合與目標監(jiān)測站HPIC 劑量率數(shù)值相關(guān)的上一時刻HPIC 劑量率及其它相關(guān)站點的HPIC 劑量率數(shù)值作特征輸入,進行大量的數(shù)據(jù)規(guī)整工作,以GB 回歸模型建立起HPIC 劑量率數(shù)值在線預測模型,實現(xiàn)對當前時刻HPIC 劑量率值的精準預測.這對提高核電站對偏遠外圍監(jiān)測站的環(huán)境輻射監(jiān)測異常檢測效率、管理水平及ERMS 維保工作效率具有很大的現(xiàn)實意義和理論價值.
HPIC 劑量率數(shù)值除了受文中分析的多個自然因素的影響外,還與空氣中微量元素含量、維保日志、雷電、潮汐等有關(guān),但是囿于資源有限,還未獲取到這些數(shù)據(jù),如果增加這些數(shù)據(jù)進行挖掘分析,可能得到更多有用的信息用于HPIC 劑量率的預測和異常發(fā)現(xiàn),也是我們下一步將要進行的研究工作所在.