陳思羽, 張雁, 王志強
(國網陜西省電力公司信息通信公司,陜西 西安 710048)
隨著通信技術水平的不斷提高,以國家電網通信信息管理系統(tǒng)(TMS)為基礎的通信信息化平臺的功能也在不斷增加,但是在電源管理方面依舊是空白,只能進行基本的臺賬信息錄入,無法實現(xiàn)電源數(shù)據的動態(tài)管理和數(shù)據交互,為此提出一種電源數(shù)據的分類方法,為實現(xiàn)電源數(shù)據的信息化管理提供支持。
在現(xiàn)有的研究中,文獻[1]提出了一種不均衡數(shù)據分類算法,雖然能夠提高對少數(shù)類樣本的分類準確率,但是并不適用于電源數(shù)據處理。文獻[2]提出了一種基于自適應隨機森林的數(shù)據流分類算法,雖然能夠提高平衡數(shù)據流分類的效率,但是無法推廣到非平衡數(shù)據流中。
本文基于以上內容,根據電網通信系統(tǒng)中電源數(shù)據的特性和通信管理系統(tǒng),對電網電源信息數(shù)據管理系統(tǒng)進行設計,提出一種改進樸素貝葉斯分類算法,對電源信息數(shù)據處理提供支持。
在電網通信管理系統(tǒng)中,通信電源的數(shù)據信息管理處于探索期,還沒有一個規(guī)范的標準,通信電源的信息也只有靜態(tài)臺賬數(shù)據,無法對現(xiàn)有的業(yè)務提供支持[3]。為此結合計算機技術對通信電源數(shù)據管理系統(tǒng)進行設計,如圖1所示。
圖1 通信電源管理系統(tǒng)
為了更好地表現(xiàn)系統(tǒng)結構,將系統(tǒng)分為3個層次,分別是應用層、平臺層和采集層[4]。
采集層主要負責數(shù)據的采集,數(shù)據的采集主要依靠數(shù)據采集單元來實現(xiàn),數(shù)據采集完成后,通過數(shù)據接口向上層傳遞[5]。除此之外,還有動力環(huán)境為數(shù)據采集提供動力支持。采集層處理數(shù)據采集設備單元之外,還有各種網元和設備網管,管理數(shù)據傳輸?shù)脑O備。實現(xiàn)數(shù)據傳輸?shù)闹悄芑芾怼P枰赋龅氖?,由于使用的采集設備來自不同的廠家,導致向上層傳輸?shù)慕涌诜N類過多,同時數(shù)據傳輸?shù)姆N類也會很多[6]。
平臺層主要負責數(shù)據的存儲,將采集到的各種類型的數(shù)據進行處理以及存儲,云存儲隨著不斷發(fā)展已經被廣泛地應用到各個領域[7]。云存儲最大的優(yōu)勢在于可以使用少數(shù)的硬件存儲設備來獲得幾十倍甚至幾百倍的云存儲空間。本文的數(shù)據存儲方式也使用云存儲,既保證了數(shù)據的安全性,又減少了系統(tǒng)成本[8]。
數(shù)據應用層主要是對數(shù)據的應用,主要包括數(shù)據的實時監(jiān)控,通信資源分配以及通信系統(tǒng)的運行管理,數(shù)據最終會傳輸?shù)綉媒K端上,根據數(shù)據的信息來判斷系統(tǒng)的運行情況。
系統(tǒng)的數(shù)據采集單元部署在電網通信網絡中的通信電源附近,設定采集頻率進行固定采集,同時為了防止采集數(shù)據缺失和缺少,還需要進行不固定補采。
系統(tǒng)的對外接口主要負責與外部系統(tǒng)之間的信息交互,外部系統(tǒng)主要包括本級電網公司的SG-OSS系統(tǒng)和GIS系統(tǒng)等。
系統(tǒng)的接口決定著數(shù)據信息的交互方式和傳輸方式,系統(tǒng)可以通過對接口協(xié)議的統(tǒng)一化管理來實現(xiàn)數(shù)據交互的標準化。
C4.5決策樹分類算法過程如下。
(1) 假設通信管理系統(tǒng)中數(shù)據集S內有Si個分類模塊,i={1,2,…,n},設置m個屬性標簽,定義Ti為每個屬性標簽集合,i={1,2,…,n}。假設Si是Ti類中的數(shù)據樣本,對于一個固定樣本分類所需要的期望值為:
(1)
(2) 屬性A對數(shù)據進行劃分的子集信息量為:
(2)
(3) 求信息增益,計算方法為原來的信息需求減去現(xiàn)在的信息需求:
Gain(A)=Info(S)-E(A)
(3)
(4) 屬性A的信息增益率:
(4)
(5)
C4.5算法的主要過程是對生成的決策樹進行剪枝操作,不斷地完善決策樹模型,對后續(xù)的數(shù)據分類提供支持。
樸素貝葉斯分類算法的核心思想是計算樣本數(shù)據中屬于每個類別的概率,然后根據概率的大小來確定樣本數(shù)據的最終分類,即概率最大的類別為最終分類,主要過程如下。
(1) 提取數(shù)據樣本的特征向量,用集合x表示,x={x1,x2,…,xn},其中每一個xi都代表一個數(shù)據特征。
(2) 經過C4.5決策樹的特征分類后有類別y={y1,y2,…,yn}。
(3) 計算樣本數(shù)據屬于每種類別的概率:P(y1|x),P(y2|x),…,P(yn|x)。
(4) 根據概率大小判斷數(shù)據的最終類別:P(yk|x)=max{P(y1|x),…,P(yn|x)},就確認為數(shù)據類別。
基于以上描述,本研究提出的新型分類算法步驟為:
(1) 提取樣本數(shù)據的特征向量。
(2) 采用C4.5決策樹算法進行分類。
(3) 根據決策樹模型計算權重。
(4) 根據權重采用貝葉斯分類器分類。
(5) 得到分類結果。
樸素貝葉斯分類算法認為數(shù)據屬性之間沒有任何關聯(lián),是相互獨立的,但是數(shù)據的屬性或多或少都會有關聯(lián),通過C4.5決策樹的訓練模型來計算屬性權重能夠讓分類結果更準確,最終的樸素貝葉斯分類的計算公式為:
P(yk|x)=max{P(y1|x)·w1,…,P(yn|x)·wn}
(6)
w1+w2+…+wn=1
(7)
權重的具體數(shù)值則需要根據數(shù)據的具體屬性分類個數(shù)決策樹模型來確定,可以通過反推來確定權重數(shù)值,即用已知屬性的數(shù)據代入模型來確定權重。
上述系統(tǒng)中數(shù)據通過縱向橫向接口來進行數(shù)據的傳遞,但是由于下層設備的廠家過多,導致接口種類也過多,這樣的后果就是傳輸?shù)臄?shù)據的類型過多,不利于后續(xù)的信息處理。因此需要對上述的數(shù)據采集方案進行改造。
本文采用的數(shù)據采集方案用到的硬件配置為Xilinx XC7A200T型號的邏輯處理芯片、FPGA驅動和ADC HMCAD1520芯片。
工作原理為:輸入采集到信息的模擬信號,Xilinx XC7A200T芯片可以將模擬信號轉化成數(shù)字信號并傳送到FPGA驅動上,F(xiàn)PGA會對數(shù)據進行進一步的處理,這樣采集到的數(shù)據信息就會有一個統(tǒng)一的標準,選用Xilinx XC7A200T芯片的原因在于其內部有寄存器,可以用于配置功能參數(shù),同時為了保證接口的統(tǒng)一性。本文在FPGA的設計過程中添加了SPI接口的自動配置模塊,主要是實現(xiàn)HMCAD1520芯片的初始化參數(shù)自動配置,配置根據采集需求來定。
為了提高數(shù)據傳輸?shù)娜萘恳约八俣?,在FPGA中設計一個高速接口模塊,并利用數(shù)據時鐘來實現(xiàn)同步校準,方案的實施框架如圖2所示。
該模塊是以Xilinx內部自帶的DDR和信號延時調節(jié)IP原語為基礎設計的,同步模塊的作用是校準時鐘和數(shù)據的建立時間以及保持時間,這樣可以保證數(shù)據采集的準確有效,完成數(shù)據的高質量、高速度和高穩(wěn)定性采集,為后續(xù)的數(shù)據處理提供幫助。
圖2 方案實施框架
采用MATLAB仿真軟件對上述的改進樸素貝葉斯分類算法進行驗證和性能分析,其中計算機配置的硬件為Windows10操作系統(tǒng),CPU為Inter Core i5-7500H@3.40 GHz四核,運行內存16G。為了驗證上述算法的有效性,將系統(tǒng)在某電網公司試運行一年,選取系統(tǒng)運行一年中四個月的數(shù)據作為數(shù)據集樣本,數(shù)據集的基本特征如表1所示。
表1 數(shù)據集特征
采用上述數(shù)據,對本文提出的算法、樸素貝葉斯算法(算法1)和C4.5決策樹算法(算法2)進行對比驗證,驗證的指標基于混淆矩陣原理的精準率和召回率,將上述四個數(shù)據集樣本按4 ∶1劃分為訓練集和測試集,并訓練模型。
精準率的計算公式為:
precision=TP/(TP+FP)
(8)
召回率的計算公式為:
recall=TP/(TP+FN)
(9)
對數(shù)據樣本進行特征提取,然后采用訓練集對三種算法進行訓練,分別采用三種算法對測試集數(shù)據進行分類,通過式(8)、式(9)計算得到三種算法的精準率和召回率,如表2所示。
表2 三種算法的精準率和召回率對比
從表2可以看出,本文算法的精準率和召回率都高于算法1和算法2。為了更直觀地表現(xiàn)三種算法的性能,將上述數(shù)據中的精準率和樣本數(shù)量的關系用曲線圖3表示。
圖3 三種算法的精準率對比
從圖3可以看出,本文提出的算法的精準率在數(shù)據樣本較小時,精準率存在波動現(xiàn)象,波動幅度不明顯,但是隨著樣本數(shù)據的增加,最終穩(wěn)定在90%以上,而另外兩種算法的精準率不僅波動較大,并且低于本文提出的算法5%左右。由此可見,本文算法的性能優(yōu)于其他兩種算法。
在某電網公司的通信網絡中將上述數(shù)據采集方案的性能進行驗證,與傳統(tǒng)的數(shù)據采集方案的采集速度和數(shù)據質量進行對比,采集頻率為3次/min,記錄每次采集數(shù)據,調出一天內兩種方案的采集數(shù)據進行對比,可以得到表3數(shù)據。
表3 采集信息數(shù)據
圖4 采集效率對比
本文提出的數(shù)據采集方案的時間為35 s/次,傳統(tǒng)數(shù)據采集方案的采集時間為60 s/次;本文的數(shù)據采集方案采集的數(shù)據完整度為98.5%,傳統(tǒng)數(shù)據采集方案的數(shù)據采集完整度為92.3%。只依靠一天的采集數(shù)據并不能表現(xiàn)一種方案的好壞,記錄一年的采集數(shù)據,計算數(shù)據采集的效率,穩(wěn)定性是一個綜合的指標。本文數(shù)據采集效率計算方式為數(shù)據的完整度除以采集時間,通過計算可以得到數(shù)據采集效率對比圖,如圖4所示。
通過圖4可以看出,本文的數(shù)據采集方案的數(shù)據采集效率為30%左右,相比傳統(tǒng)數(shù)據采集方案提高了15個百分點。基于以上描述,本文提出的數(shù)據采集方案性能優(yōu)于傳統(tǒng)數(shù)據采集方案,不僅提高了數(shù)據采集的效率,還提高了采集數(shù)據的質量。
本文針對電網通信系統(tǒng)中的通信電源數(shù)據的管理空白,引入大數(shù)據算法對電源數(shù)據實現(xiàn)信息化管理,優(yōu)化了傳統(tǒng)的數(shù)據采集方案,提高了數(shù)據采集的質量和效率,為后續(xù)的數(shù)據處理提供支持。最后通過試驗證明了算法和數(shù)據采集方案的有效性,具有良好的應用前景。但是由于試驗數(shù)據的不充分,難免會有一些問題沒有發(fā)現(xiàn),在后續(xù)的研究中可以進一步的優(yōu)化。