高 軍, 侯廣松, 孟會增,吳翠娟(.國網(wǎng)菏澤供電公司,山東菏澤,74000;.山東安信源信息技術(shù)有限公司,山東濟(jì)南,5000)
?
基于主成分分析的多變量決策樹在接線方式識別建模工程化實用化應(yīng)用探討
高 軍1, 侯廣松1, 孟會增1,吳翠娟2
(1.國網(wǎng)菏澤供電公司,山東菏澤,274000;2.山東安信源信息技術(shù)有限公司,山東濟(jì)南,250100)
摘要:本文提出一種用于電網(wǎng)接線方式識別的工程化實用化技術(shù),該技術(shù)基于主成分分析的多變量決策樹,利用機(jī)器監(jiān)管學(xué)習(xí)的決策樹原理,建立電力系統(tǒng)接線方式智能識別軟件結(jié)構(gòu)。采用決策樹的思想訓(xùn)練接線方式特征模型樣本,生成分類器,實現(xiàn)了未知情況下的接線方式識別,且能夠不斷進(jìn)行接線方式特征模型學(xué)習(xí),對新出現(xiàn)接線方式進(jìn)行精準(zhǔn)的分類識別。
關(guān)鍵詞:主成分;多變量;決策樹
接線方式識別在電力系統(tǒng)主要的基礎(chǔ)軟件都有體現(xiàn),例如EMS,PAS等。主要通過人工識別和程序判據(jù)條件兩種方式實現(xiàn),但效率十分低下,識別判據(jù)十分不靈活,沒有很好的歸類和反饋,魯棒性不好,容易出現(xiàn)無法識別,甚至是誤判和漏判,維護(hù)的成本很高,且工作量巨大。
本文利用機(jī)器學(xué)習(xí)中的監(jiān)管學(xué)習(xí)的決策樹原理基于主成分分析的多變量建立了接線方式智能識別軟件結(jié)構(gòu),并采用決策樹的思想訓(xùn)練接線方式特征模型樣本,生成分類器,能夠進(jìn)行未知情況下的接線方式識別,具有較好的魯棒性,且能夠不斷進(jìn)行接線方式特征模型學(xué)習(xí),對新出現(xiàn)接線方式進(jìn)行精準(zhǔn)的分類,維護(hù)成本低。
數(shù)據(jù)準(zhǔn)備模塊根據(jù)電網(wǎng)模型數(shù)據(jù)構(gòu)建接線方式特征模型,對模型特征數(shù)據(jù)進(jìn)行處理,優(yōu)化模型特征,為構(gòu)建決策樹提供模型數(shù)據(jù),提高決策樹的分析精度。
1.1 電網(wǎng)模型與接線方式基礎(chǔ)特征
本文根據(jù)CIME電網(wǎng)模型文件構(gòu)建電網(wǎng)模型,建立結(jié)構(gòu)化設(shè)備樹形臺賬,然后在電網(wǎng)模型中查找連接關(guān)系設(shè)備集合API,實現(xiàn)電力系統(tǒng)中重要設(shè)備的統(tǒng)計,最后通過搜索統(tǒng)計電網(wǎng)特征的接口,構(gòu)建接線方式基礎(chǔ)特征模型。
1.2 模型樣本數(shù)據(jù)標(biāo)準(zhǔn)處理
此環(huán)節(jié)在上一步建立的模型基礎(chǔ)上,訓(xùn)練樣本的抽樣,對抽樣之后的電網(wǎng)模型導(dǎo)出相應(yīng)的接線方式及其特征模型。為了滿足決策樹學(xué)習(xí)的要求,本環(huán)節(jié)將考察樣本模型能否覆蓋所有可能出現(xiàn)的情況。
1.3 接線方式屬性特征轉(zhuǎn)換
本文通過獲取原始接線方式屬性特征,并考察已有原始數(shù)據(jù)集屬性特征中必要的信息,自動地進(jìn)行接線方式屬性特征構(gòu)造,利用設(shè)置特征條件、設(shè)置設(shè)備特征配比、設(shè)置設(shè)備連接特征條件的方法構(gòu)造接線方式屬性特征,完成新舊屬性特征轉(zhuǎn)換。
1.4 特征模型優(yōu)化
本步驟主要是訓(xùn)練模型優(yōu)化,是業(yè)務(wù)分析的難點,建立的模型維度和訓(xùn)練的可靠性直接影響著識別器識別結(jié)果的準(zhǔn)確性。
接線方式特征模型的屬性間往往存在關(guān)聯(lián)關(guān)系,如果不加選擇模型特征,直接使用,大量混雜的特征,會使分類決策條件冗余,因此在決策樹無法計算時信息增益差異不明顯,導(dǎo)致決策樹過于簡單或過擬合。在模型維度選取的時候,本文采用特征向量,正交矩陣等分析方法,選取最優(yōu)特征。具體實現(xiàn)方案采用主成分分析(PCA)的思想將n維特征映射到k維上(k 維度選取分析過程通過利用主成分分析找到最大方差理論、最小錯誤理論和坐標(biāo)軸相關(guān)度理論,尋找各維度因素線性無關(guān)的標(biāo)準(zhǔn)正交特征向量,這樣獲得的模型特征選取減少了噪音、冗余、過度擬合的可能性。 1.5 重新歸一化 在篩選模型特征時候,主成分分析會形成數(shù)據(jù)模型標(biāo)準(zhǔn)化與歸一化,形成連續(xù)數(shù)據(jù)區(qū)間(0,1)和無量綱的數(shù)據(jù)。類似二分法的辦法有自己的特點,但在現(xiàn)實中假定分類與屬性取值存在幾何分布概率的情況并不通用,會大大降低分類精度。為了便于理解結(jié)果,更好的反映數(shù)據(jù)分類與屬性值的關(guān)系,有必要對數(shù)據(jù)反歸一化,本方案選用基于屬性變換的多區(qū)間離散化方法將連續(xù)數(shù)值屬性轉(zhuǎn)換為類別的概率屬性,這樣在決策樹環(huán)節(jié)按照信息增益率劃分的指標(biāo)就轉(zhuǎn)換成了尋找最大概率指標(biāo),而尋找最大概率的指標(biāo)存在一個變化的區(qū)間之內(nèi),這樣的情景更加符合現(xiàn)實情況。通過以上步驟接線方式特征模型建立完畢,下面進(jìn)行決策分析。 2.1 構(gòu)建決策樹 選用算法 C4.5 構(gòu)建決策樹(Decision Tree),決策樹由算法劃分樣本直接產(chǎn)生,每個葉子節(jié)點表示一個特定的訓(xùn)練數(shù)據(jù)子集,訓(xùn)練數(shù)據(jù)集中的每個樣本只屬于一個葉子節(jié)點,也就是說,任何一個給定的樣本通過決策樹只能得到一個預(yù)測結(jié)果。C4.5模型對大量的輸入數(shù)據(jù)非常有效,訓(xùn)練時間短并且較其它模型更容易理解。 2.2 決策樹修剪 決策樹構(gòu)建過程中,隨著遞歸深度的增加,剩余屬性的減少和算法支持的樣本數(shù)量不斷減少終止,降低了算法的時間復(fù)雜度,保證了收斂性,但是也使得算法在較深層次的樣本劃分中,過于使用于樣本集合中某個子集的統(tǒng)計特征,而忽略了各類樣本的整體分布情況,造成了對噪音數(shù)據(jù)的敏感。因此,一個完整的決策樹構(gòu)造過程還應(yīng)包含對決策樹的剪枝處理,其目的就是為了消除由噪音數(shù)據(jù)生成的分支所引起的過度擬合現(xiàn)象。 構(gòu)造過程中,需要對決策樹進(jìn)行修剪,這樣做是為了將一個過于特殊的或合身的樹一個更一般的形式,以提高未知樣本數(shù)據(jù)集其預(yù)測能力,主要采用兩種方法,預(yù)先修剪和事后修剪。 用ID3算法對接線方式流失問題進(jìn)行分析時,可以區(qū)分不同流失接線方式的群組及每一群組的潛在流失因素。 決策樹正確識別率統(tǒng)計表 本文通過模型學(xué)習(xí)獲取相關(guān)信息構(gòu)建決策模式,通過決策樹模型學(xué)習(xí)相關(guān)信息,輸入預(yù)測模型,根據(jù)模型中樣本數(shù)據(jù)進(jìn)行預(yù)測,并將其記錄,反復(fù)學(xué)習(xí),完成決策模式構(gòu)建?;A(chǔ)的決策預(yù)測中樣本數(shù)據(jù)與數(shù)據(jù)準(zhǔn)備步驟相同,具有完全相同的數(shù)量,順序,類型和角色屬性,唯一不同的就是不需要對于預(yù)測列進(jìn)行設(shè)置,所有所需的參數(shù)都存儲在模型對象中。 決策預(yù)測可以使用以IF—Then形式形成分類規(guī)則,組成規(guī)則集。沿著給定路徑上的每個“屬性——值”對形成IF部分的一個合取項,葉節(jié)點包含的類預(yù)測,形成Then后的部分,將規(guī)則存入規(guī)則庫,生成分類器,實現(xiàn)未知接線方式識別。 本方案采用K一折交叉確認(rèn)方法對決策樹進(jìn)行評估,K-折交叉驗證就是把數(shù)據(jù)分成K份,然后用K-1份(訓(xùn)練集)去訓(xùn)練模型,剩下的一份(測試集)去測試模型的效果。因為有K份,所以測試集可以有K份。 由訓(xùn)練數(shù)據(jù)集生成決策樹模型后,再使用測試數(shù)據(jù)集進(jìn)行驗證得下表: 從表中可看出,采用閾值系數(shù)為0.3的時候,系統(tǒng)自動識別效果較好。 本文的分類器在已知接線主要特征判定各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,這樣就避免了傳統(tǒng)軟件的中的固定判據(jù)的思路,而且針對數(shù)值類型的屬性,自動斷定判斷判定系數(shù)閾值。針對重復(fù)出現(xiàn)的問題圖形和特殊圖形,有較好自動適應(yīng)能力,識別率非常高,針對是誤判和漏判通過數(shù)學(xué)概率的方式,無須修改判據(jù)和程序擴(kuò)充升級等,解決了識別接線的時候的魯棒性,提高了識別的效率和準(zhǔn)確性。并且用圖形的方式展示確定的決策判定條件,可動態(tài)調(diào)整判定系數(shù),滿足工程化使用要求。 參考文獻(xiàn) [1]王玉珍.基于數(shù)據(jù)挖掘的決策樹方法分析[J].電腦開發(fā)與應(yīng)用. 2007(5). [2]趙翔,劉同明.基于主成分分析的多變量決策樹構(gòu)造方法[J].計算機(jī)應(yīng)用研究,2005,(9): 37-38. [3]魏曉云.決策樹分類方法研究[J].計算機(jī)系統(tǒng)應(yīng)用,2007(9). Based on principal component analysis of multivariate decision tree in the connection mode identification modeling engineering practical application Gao Jun1,Hou Guangsong1,Meng Huizeng1,Wu Cuijuan2 Abstract:This paper presents an engineering practical for grid connection mode recognition technology,the technology is based on principal component analysis of multivariate decision tree,using supervised learning machine principle of decision tree based power system connection mode structure of intelligent recognition software. Connection mode characteristic model by adopting the idea of decision tree training samples,the generated classifier,realized the connection mode identification of unknown circumstances,and able to ongoing connection mode feature model to study,to identify the precise classification of emerging connection mode. Keywords:principal component;multivariate;decision trees2 決策分析
3 決策預(yù)測
4 模型解釋和校驗
5 結(jié)論
(1.State Grid Heze Electric Power Company, Heze of shandong province,250012,2.Shandong AnXinYuan Information Technology co., LTD., jinan of shandong province,250100)