王增平,趙兵,李澤坤,孫毅,李彬
(1.華北電力大學(xué),北京102206;2.中國電力科學(xué)研究院,北京100192)
隨著電力事業(yè)的發(fā)展,我國正在建設(shè)覆蓋全部用戶、采集全部用電信息、支持全部電費(fèi)控制的“全覆蓋、全采集”系統(tǒng),而電能表是電力信息采集系統(tǒng)中的基礎(chǔ)組成部分,需具備實(shí)時采樣、精確計(jì)量、可靠運(yùn)作等技術(shù)要求。電能表的質(zhì)量好壞直接影響用戶側(cè)的供電可靠性和安全性,進(jìn)而影響整個系統(tǒng)的安全、穩(wěn)定和經(jīng)濟(jì)運(yùn)行。
目前對電能表質(zhì)量的研究以基于層次分析法建立的評估體系居多,文獻(xiàn)[1]利用了層次分析和應(yīng)用選型決策方法建立了對數(shù)學(xué)決策模型,討論了電能表質(zhì)量因素和相互作用機(jī)理,提出了全面判斷、分析電能表質(zhì)量的方法;文獻(xiàn)[2]結(jié)合層次分析法對各功能分類的測試項(xiàng)目進(jìn)行分析,建立了電能表軟件質(zhì)量評估體系。也有利用FEMCA失效模式分析對電能表故障進(jìn)行統(tǒng)計(jì)分析的研究,文獻(xiàn)[3]通過對單相電能表故障模式及影響分析,總結(jié)了各類故障類型并提出了增加可靠性、降低故障率的措施。這些針對電能表質(zhì)量的研究為本文提供了一部分參考,但是這些方法對電能表運(yùn)行及故障信息的描述要求較高,在處理海量、描述單一的信息時適用性較差。而本文數(shù)據(jù)量較大,所以采用了大數(shù)據(jù)分析的思路,從海量數(shù)據(jù)中挖掘一部分實(shí)用信息進(jìn)行分析。
而關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一種重要方法,能從客觀的數(shù)據(jù)中發(fā)掘隱藏的內(nèi)部聯(lián)系,提供具有實(shí)用價(jià)值的信息。該方法在商業(yè)營銷[4-5]、醫(yī)學(xué)[6]、金融[7]、甚至教學(xué)管理[8-9]等領(lǐng)域獲得較多應(yīng)用,但是用于研究電氣設(shè)備質(zhì)量影響因素方面較少。文獻(xiàn)[10]指出關(guān)聯(lián)規(guī)則挖掘在電力系統(tǒng)中的應(yīng)用前景巨大;文獻(xiàn)[11]把關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)用于電網(wǎng)故障診斷中;文獻(xiàn)[12]為電網(wǎng)系統(tǒng)火電機(jī)組運(yùn)行找出了優(yōu)化目標(biāo);文獻(xiàn)[13]把關(guān)聯(lián)規(guī)則分析用于斷路器故障診斷中,找出了斷路器故障現(xiàn)象與故障類別之間的關(guān)系,為建立診斷系統(tǒng)提供依據(jù)。
基于此,本文將嘗試著把關(guān)聯(lián)規(guī)則挖掘方法應(yīng)用在電能表檢定質(zhì)量影響因素的分析中,并借助Clementine數(shù)據(jù)挖掘[14]軟件處理海量數(shù)據(jù),輸出關(guān)聯(lián)因素網(wǎng)絡(luò)圖。
本文數(shù)據(jù)取自“寧夏地區(qū)的電能表全檢綜合結(jié)論信息”,數(shù)據(jù)共有63 698條記錄,其中有63 450條合格電表數(shù)據(jù)和248條不合格電表數(shù)據(jù)。原始數(shù)據(jù)存在很多問題,諸如:空值、無效值、奇異值等。除此以外,數(shù)據(jù)中存在眾多無關(guān)項(xiàng),譬如:檢定臺體編號、檢定人姓名等,這些對挖掘電能表質(zhì)量影響因素的關(guān)聯(lián)性沒有直接聯(lián)系,采用信息過濾的方式濾去這些無關(guān)項(xiàng)。在很多檢定項(xiàng)中,檢定結(jié)果為空值或者無效值nulls,對于這樣缺失比較嚴(yán)重的數(shù)據(jù)記錄,采取直接略去的方式,缺失相對較少的數(shù)據(jù)記錄暫時保留,再結(jié)合檢定結(jié)論加以判斷。數(shù)據(jù)中各個檢定項(xiàng)的記錄方式為:1—合格,2—不合格,但是存在很多3或03等奇異值,暫時無法判斷檢定項(xiàng)的檢定結(jié)果,這樣的數(shù)據(jù)暫時不考慮,無法對其準(zhǔn)確地統(tǒng)計(jì)分析。
根據(jù)JJG 596-2012《電子式交流電能表》檢定規(guī)程,目前具有計(jì)時功能的電能表的檢定項(xiàng)目有:外觀標(biāo)志及通電檢查、基本誤差試驗(yàn)、常數(shù)試驗(yàn)、起動試驗(yàn)、潛動試驗(yàn)、日計(jì)時誤差試驗(yàn)、交流耐壓試驗(yàn),其中,外觀標(biāo)志及通電檢查和交流耐壓試驗(yàn)需滿足電能表的通用技術(shù)要求,而其他5項(xiàng)檢定試驗(yàn)需滿足電能表計(jì)量性能要求。
經(jīng)審核,原始數(shù)據(jù)中對這7個檢定項(xiàng)目的記錄完整,且只存在較少的nulls值和空值,基于完整度的前提下,將這7項(xiàng)檢定試驗(yàn)的結(jié)果作為評價(jià)電能表檢定環(huán)節(jié)的質(zhì)量的指標(biāo)。因需挖掘的對象為質(zhì)量影響因素,所以抽取的電能表數(shù)據(jù)記錄為不合格電表的數(shù)據(jù)。其他信息作為噪聲干擾信息被過濾掉,不參與建模統(tǒng)計(jì),而把抽取的信息形成關(guān)聯(lián)信息表,對此進(jìn)行關(guān)聯(lián)因素分析。
本文采用的Apriori算法屬于布爾型關(guān)聯(lián)規(guī)則算法,只能處理分類型變量,不能處理數(shù)值型變量,因此需要對清洗除噪后的數(shù)據(jù)再進(jìn)行處理,數(shù)據(jù)類型改為離散型,離散化后的數(shù)據(jù)參考樣式如表1所示。
表1 離散化后的內(nèi)容示意Tab.1 Schematic content after discretization
表1中約定:1代表“合格”,2代表“不合格”,所有檢定項(xiàng)目合格與否都可以用此類布爾型方式描述。因研究對象為不合格因素,所以2為真值。
關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的是Apriori算法,它是由R.Agrawal和R.Srikant提出的一種挖掘關(guān)聯(lián)規(guī)則頻集的算法。該算法采用的是逐層搜索迭代的方式,先產(chǎn)生候選集Ck,然后計(jì)算所有k項(xiàng)集的支持度,若支持度滿足大于最小支持度閾值要求,則成為頻繁k項(xiàng)集Lk,接著在Lk基礎(chǔ)上產(chǎn)生候選集Ck+1,然后通過判斷最小支持度來確定頻繁(k+1)項(xiàng)集Lk+1,以此類推,直到找不到下一個頻繁項(xiàng)集為止。由每個頻集中的項(xiàng)組成關(guān)聯(lián)規(guī)則,分別計(jì)算出規(guī)則的置信度,若置信度大于最小置信度度閾值,則生成關(guān)聯(lián)規(guī)則[15],同時滿足最小支持度和最小置信度要求的規(guī)則成為有效規(guī)則。因此,Apriori算法分為兩步,第一步產(chǎn)生頻集,第二步產(chǎn)生關(guān)聯(lián)規(guī)則,算法的原理概括如圖1所示。
圖1 Apriori算法原理簡圖Fig.1 Schematic diagram of the Apriori theory
根據(jù)以上流程,本文抽取了10條數(shù)據(jù)記錄來示意Apriori算法的應(yīng)用過程,數(shù)據(jù)如表2所示。
表2 隨機(jī)抽取的部分?jǐn)?shù)據(jù)Tab.2 Part of a random sample of data
表2中10條記錄即為10個事務(wù),記為T1-T10,對7個檢定項(xiàng)目因素進(jìn)行編號,如表3所示。
表3 檢定項(xiàng)目編號一覽表Tab.3 Number list of verification items
根據(jù)表2中的數(shù)據(jù),I={a、b、c…}是能導(dǎo)致電能表檢定不合格的因素集合,即項(xiàng)的集合,T={T1、T2、T3…}是不合格電表的集合,即事務(wù)集。每個事務(wù)Ti都是項(xiàng)的集合,即Ti?I。要生成頻集,需設(shè)定最小支持度閾值,項(xiàng)支持度的定義為包含某一項(xiàng)集A的所有項(xiàng)目在事務(wù)集T中所占的比例,即:
設(shè)定最小支持度為40%,頻集生成過程如下:
(1)掃描T,對每個候選計(jì)數(shù),生成1-項(xiàng)候選集C1,如表4所示。
表4 1-項(xiàng)候選集C1Tab.4 1-item candidate set C1
(2)滿足閾值條件的項(xiàng)集組成頻繁1-項(xiàng)集L1,如表5所示。
表5 頻繁1-項(xiàng)集L1Tab.5 1-item frequency set L1
(3)根據(jù)L1產(chǎn)生2-項(xiàng)候選集C2,如表6所示。
表6 2-項(xiàng)候選集C2Tab.6 2-item candidate set C2
(4)滿足閾值條件的項(xiàng)集組成頻繁2-項(xiàng)集L2,如表7所示。
表7 頻繁2-項(xiàng)集L2Tab.7 2-item frequency set L2
(5)根據(jù)L2產(chǎn)生3-項(xiàng)候選集C3,如表8所示。
表8 3-項(xiàng)候選集C3Fig.8 3-item candidate set C3
(6)滿足閾值條件的項(xiàng)集組成頻繁3-項(xiàng)集L3,如表9所示。
表9 頻繁3-項(xiàng)集L3Tab.9 3-item frequency set L3
由于L3不能繼續(xù)構(gòu)成候選集C4,迭代結(jié)束。最終得到的頻繁項(xiàng)集為L1、L2、L3。
有效規(guī)則需同時滿足規(guī)則最小支持度和最小置信度閾值要求,規(guī)則A?B的支持度為事務(wù)T中包含A∪B的比例,而A?B的置信度為事務(wù)T中包含A也同時包含B的比例,即:
式中A、B均為包含于T的項(xiàng)集,且A∩B=?。本文中的支持度指的是7項(xiàng)檢定試驗(yàn)中若干項(xiàng)不通過導(dǎo)致電能表不合格的概率,而置信度表現(xiàn)為若干項(xiàng)試驗(yàn)未通過導(dǎo)致電表不合格結(jié)論的可能性大小。
傳統(tǒng)的Apriori算法從頻集中生成關(guān)聯(lián)規(guī)則,可以找出7個檢定項(xiàng)目之間的關(guān)系。而本文還可以利用數(shù)據(jù)中“檢定結(jié)論=2”這一項(xiàng)的特殊性,找出檢定結(jié)論與單個檢定項(xiàng)目之間的關(guān)聯(lián)程度。因此,將“檢定結(jié)論=2”編號為m,規(guī)定最小置信度為80%,生成的規(guī)則如表10和表11所示。
表10 關(guān)聯(lián)規(guī)則挖掘結(jié)果1Tab.10 The first mining results of association rules
以上規(guī)則全符合最小置信度閾值要求,全部輸出為有效關(guān)聯(lián)規(guī)則。
表11 關(guān)聯(lián)規(guī)則挖掘結(jié)果2Tab.11 The second mining results of association rules
表11中除了ID6、ID19不滿足最小置信度閾值要求,其他都滿足,可以輸出為有效關(guān)聯(lián)規(guī)則。
因數(shù)據(jù)量較大,借助Clementine數(shù)據(jù)挖掘[14]軟件輔助處理。綜合對比不同閾值下多次處理結(jié)果的差異,最終設(shè)定最小支持度為15%,最小置信度為80%,為了防止關(guān)聯(lián)規(guī)則過于復(fù)雜,設(shè)定前項(xiàng)最大項(xiàng)目數(shù)為3。將結(jié)果按照支持度大小排序呈現(xiàn),見表12。
表12 電能表關(guān)聯(lián)規(guī)則挖掘結(jié)果Tab.12 Mining results of association rules of electric energy meters
為了保證規(guī)則的有效性及實(shí)用性,需要對以上Clementine生成的規(guī)則加以判斷、整合、優(yōu)化。表中出現(xiàn)了很多實(shí)例數(shù)與支持度相同的規(guī)則,判斷原因是事務(wù)“檢定結(jié)論=2”包含的項(xiàng)目數(shù)超過了設(shè)定的最大項(xiàng)目數(shù),從而生成了多種冗余規(guī)則,因此對表12中內(nèi)容進(jìn)行整合、優(yōu)化,結(jié)果如表13所示。
表13 電能表檢定數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘整合結(jié)果Tab.13 Optimization to the mining results of association rules of electric energy meters
結(jié)果分析:(1)規(guī)則 ID16、ID17顯示,基本誤差試驗(yàn)不通過導(dǎo)致電表不合格的支持度最高(48.58%),其次是起動試驗(yàn)不通過(31.58%),電能表檢定不合格由這兩項(xiàng)引起的案例最多,說明基本誤差試驗(yàn)和起動試驗(yàn)的結(jié)果很大程度上影響著電能表檢定結(jié)論;相比之下日計(jì)時誤差試驗(yàn)(21.05%)、常數(shù)試驗(yàn)(20.65%)、潛動試驗(yàn)(17.41%)不合格影響較小,如規(guī)則 ID7、ID12、ID15所示;(2)在最小支持度15%的條件下,以上規(guī)則的置信度都是100%,這符合常理,只要檢定環(huán)節(jié)中其中一項(xiàng)出現(xiàn)不合格,那電能表的檢定結(jié)論就是不合格;(3)在不合格電表中,通常會出現(xiàn)幾項(xiàng)檢定試驗(yàn)均未通過的情況,如規(guī)則 ID85、ID87、ID79所示。
為了進(jìn)一步研究單一檢定試驗(yàn)項(xiàng)對檢定結(jié)論的影響程度,我們適當(dāng)調(diào)整最小支持度閾值,并從Apriori關(guān)聯(lián)規(guī)則表中篩選出了一部分典型規(guī)則,如表14所示。
表14 檢定結(jié)論與檢定項(xiàng)目的關(guān)聯(lián)規(guī)則表Tab.14 Association rules between verification conclusion and items
從表14中的關(guān)聯(lián)規(guī)則可以得到以下幾點(diǎn):(1)各影響因素關(guān)聯(lián)度排序:基本誤差試驗(yàn)、起動試驗(yàn)、日計(jì)時誤差試驗(yàn)、常數(shù)試驗(yàn)、潛動試驗(yàn)、交流電壓試驗(yàn)、外觀標(biāo)志及通電檢查;(2)基本誤差試驗(yàn)和起動試驗(yàn)的檢定結(jié)果對電能表檢定結(jié)論影響最大,因基本誤差試驗(yàn)和起動試驗(yàn)不合格導(dǎo)致電能表不合格的情況發(fā)生最頻繁;(3)外觀標(biāo)志及通電檢查與檢定不合格支持度很低(4.05%),表明由外觀標(biāo)志通電檢查不通過而導(dǎo)致電表不合格的情況很少。
為了直觀地對比各影響因素的關(guān)聯(lián)度,通過Clementine輔助生成了檢定結(jié)論與檢定試驗(yàn)影響因素關(guān)聯(lián)圖,如圖2所示。網(wǎng)狀圖線條粗細(xì)反應(yīng)鏈接的強(qiáng)弱,強(qiáng)弱鏈接區(qū)間劃分如表15所示。
表15 網(wǎng)狀圖鏈接強(qiáng)弱區(qū)間表Tab.15 Interval divisions of link strength on the network diagram
圖2 檢定試驗(yàn)影響關(guān)聯(lián)圖Fig.2 Associated factors diagram of verification test
在圖2中,粗實(shí)線代表強(qiáng)鏈接,細(xì)實(shí)線代表中等鏈接,虛線代表弱連接,左下角突出部分表示的是檢定結(jié)論與影響因素之間的強(qiáng)弱關(guān)系。影響檢定結(jié)論的強(qiáng)鏈接因素有4個:日計(jì)時誤差試驗(yàn)、常數(shù)試驗(yàn)、起動試驗(yàn)、基本誤差試驗(yàn);中等鏈接因素有兩個:交流電壓試驗(yàn)、潛動試驗(yàn);外觀標(biāo)志及通電檢查試驗(yàn)屬于弱鏈接影響因素。該分析結(jié)果與表13中關(guān)聯(lián)規(guī)則基本一致。
由3.1節(jié)的關(guān)聯(lián)規(guī)則 ID79、ID85、ID87可知,當(dāng)一個電表檢定不合格時,可能表現(xiàn)為多種試驗(yàn)均不通過,為了找到檢定項(xiàng)目之間的隱含關(guān)系,將圖2的檢定結(jié)論這一項(xiàng)濾去,得到了檢定試驗(yàn)之間的關(guān)聯(lián)圖,如圖3所示。
圖3 檢定項(xiàng)目內(nèi)部關(guān)聯(lián)圖Fig.3 Inner association diagram between verification items
在圖3所示的關(guān)聯(lián)網(wǎng)狀圖中,常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)這3個因素之間呈現(xiàn)強(qiáng)鏈接,外觀標(biāo)志及通電檢查試驗(yàn)、交流電壓試驗(yàn)、以及其余5項(xiàng)因素之間呈現(xiàn)弱鏈接,其他的鏈接呈現(xiàn)為中等鏈接。這說明,常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)、起動試驗(yàn)、潛動試驗(yàn)這5項(xiàng)中,有若干項(xiàng)不合格同時出現(xiàn)的情況經(jīng)常發(fā)生,尤其是常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)這3項(xiàng)不合格連帶出現(xiàn)的概率較高。
根據(jù)對圖3的定性分析,從Apriori算法關(guān)聯(lián)規(guī)則挖掘結(jié)果中篩選了部分關(guān)聯(lián)規(guī)則做驗(yàn)證,見表16。
表16中置信度都為100%意為:前項(xiàng)一定會導(dǎo)致后項(xiàng)發(fā)生,則在此可以理解為前項(xiàng)后項(xiàng)同時發(fā)生。那么,在ID122的規(guī)則中,基本誤差試驗(yàn)、常數(shù)試驗(yàn)、日計(jì)時誤差試驗(yàn)同時不合格的電表有50例,占總樣本的20.24%,與圖5中強(qiáng)鏈接吻合;在ID227的規(guī)則中,基本誤差試驗(yàn)、常數(shù)試驗(yàn)、日計(jì)時誤差試驗(yàn)、起動試驗(yàn)同時不合格的電表有43例,占總樣本的17.41%,對應(yīng)于“起動試驗(yàn)”與“常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)”三者之間的中等鏈接。同理,規(guī)則ID134對應(yīng)“潛動試驗(yàn)”與“常數(shù)試驗(yàn)、起動試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)”四者之間的中等鏈接。以此類推,Apriori規(guī)則挖掘結(jié)果與關(guān)聯(lián)網(wǎng)絡(luò)圖具有一致性。
表16 部分關(guān)聯(lián)規(guī)則挖掘結(jié)果Tab.16 Part of mining results of association rules
通過對不合格電表的檢定項(xiàng)目關(guān)聯(lián)分析,可知:(1)基本誤差試驗(yàn)的結(jié)果對電能表檢定質(zhì)量影響最大,其次是起動試驗(yàn);(2)日計(jì)時誤差試驗(yàn)、常數(shù)試驗(yàn)、潛動試驗(yàn)和交流耐壓試驗(yàn)的結(jié)果對電能表檢定質(zhì)量影響程度一般,但不可忽視;(3)外觀標(biāo)志及通電檢查試驗(yàn)影響最小。在諸多檢定項(xiàng)中,基本誤差試驗(yàn)、常數(shù)試驗(yàn)、日計(jì)時誤差試驗(yàn)這三種同時不通過的概率很高,究其原因是這三項(xiàng)試驗(yàn)都屬于檢測計(jì)量誤差類試驗(yàn),說明計(jì)量性能是電表的薄弱環(huán)節(jié)。廠家應(yīng)重點(diǎn)提高電表的計(jì)量模塊質(zhì)量,提高這三者檢定通過率。