基于Apriori關(guān)聯(lián)規(guī)則的電能表檢定質(zhì)量影響因素分析*

2017-12-21 02:04:26王增平趙兵李澤坤孫毅李彬

電測與儀表 2017年13期

王增平，趙兵，李澤坤，孫毅，李彬

（1.華北電力大學(xué)，北京102206；2.中國電力科學(xué)研究院，北京100192）

0 引言

隨著電力事業(yè)的發(fā)展，我國正在建設(shè)覆蓋全部用戶、采集全部用電信息、支持全部電費(fèi)控制的“全覆蓋、全采集”系統(tǒng)，而電能表是電力信息采集系統(tǒng)中的基礎(chǔ)組成部分，需具備實(shí)時采樣、精確計(jì)量、可靠運(yùn)作等技術(shù)要求。電能表的質(zhì)量好壞直接影響用戶側(cè)的供電可靠性和安全性，進(jìn)而影響整個系統(tǒng)的安全、穩(wěn)定和經(jīng)濟(jì)運(yùn)行。

目前對電能表質(zhì)量的研究以基于層次分析法建立的評估體系居多，文獻(xiàn)［1］利用了層次分析和應(yīng)用選型決策方法建立了對數(shù)學(xué)決策模型，討論了電能表質(zhì)量因素和相互作用機(jī)理，提出了全面判斷、分析電能表質(zhì)量的方法；文獻(xiàn)［2］結(jié)合層次分析法對各功能分類的測試項(xiàng)目進(jìn)行分析，建立了電能表軟件質(zhì)量評估體系。也有利用FEMCA失效模式分析對電能表故障進(jìn)行統(tǒng)計(jì)分析的研究，文獻(xiàn)［3］通過對單相電能表故障模式及影響分析，總結(jié)了各類故障類型并提出了增加可靠性、降低故障率的措施。這些針對電能表質(zhì)量的研究為本文提供了一部分參考，但是這些方法對電能表運(yùn)行及故障信息的描述要求較高，在處理海量、描述單一的信息時適用性較差。而本文數(shù)據(jù)量較大，所以采用了大數(shù)據(jù)分析的思路，從海量數(shù)據(jù)中挖掘一部分實(shí)用信息進(jìn)行分析。

而關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一種重要方法，能從客觀的數(shù)據(jù)中發(fā)掘隱藏的內(nèi)部聯(lián)系，提供具有實(shí)用價(jià)值的信息。該方法在商業(yè)營銷［4-5］、醫(yī)學(xué)［6］、金融［7］、甚至教學(xué)管理［8-9］等領(lǐng)域獲得較多應(yīng)用，但是用于研究電氣設(shè)備質(zhì)量影響因素方面較少。文獻(xiàn)［10］指出關(guān)聯(lián)規(guī)則挖掘在電力系統(tǒng)中的應(yīng)用前景巨大；文獻(xiàn)［11］把關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)用于電網(wǎng)故障診斷中；文獻(xiàn)［12］為電網(wǎng)系統(tǒng)火電機(jī)組運(yùn)行找出了優(yōu)化目標(biāo)；文獻(xiàn)［13］把關(guān)聯(lián)規(guī)則分析用于斷路器故障診斷中，找出了斷路器故障現(xiàn)象與故障類別之間的關(guān)系，為建立診斷系統(tǒng)提供依據(jù)。

基于此，本文將嘗試著把關(guān)聯(lián)規(guī)則挖掘方法應(yīng)用在電能表檢定質(zhì)量影響因素的分析中，并借助Clementine數(shù)據(jù)挖掘［14］軟件處理海量數(shù)據(jù)，輸出關(guān)聯(lián)因素網(wǎng)絡(luò)圖。

1 電能表數(shù)據(jù)的準(zhǔn)備

1.1 數(shù)據(jù)的清洗與整理

本文數(shù)據(jù)取自“寧夏地區(qū)的電能表全檢綜合結(jié)論信息”，數(shù)據(jù)共有63 698條記錄，其中有63 450條合格電表數(shù)據(jù)和248條不合格電表數(shù)據(jù)。原始數(shù)據(jù)存在很多問題，諸如：空值、無效值、奇異值等。除此以外，數(shù)據(jù)中存在眾多無關(guān)項(xiàng)，譬如：檢定臺體編號、檢定人姓名等，這些對挖掘電能表質(zhì)量影響因素的關(guān)聯(lián)性沒有直接聯(lián)系，采用信息過濾的方式濾去這些無關(guān)項(xiàng)。在很多檢定項(xiàng)中，檢定結(jié)果為空值或者無效值nulls，對于這樣缺失比較嚴(yán)重的數(shù)據(jù)記錄，采取直接略去的方式，缺失相對較少的數(shù)據(jù)記錄暫時保留，再結(jié)合檢定結(jié)論加以判斷。數(shù)據(jù)中各個檢定項(xiàng)的記錄方式為：1—合格，2—不合格，但是存在很多3或03等奇異值，暫時無法判斷檢定項(xiàng)的檢定結(jié)果，這樣的數(shù)據(jù)暫時不考慮，無法對其準(zhǔn)確地統(tǒng)計(jì)分析。

1.2 數(shù)據(jù)及指標(biāo)的篩選

根據(jù)JJG 596-2012《電子式交流電能表》檢定規(guī)程，目前具有計(jì)時功能的電能表的檢定項(xiàng)目有：外觀標(biāo)志及通電檢查、基本誤差試驗(yàn)、常數(shù)試驗(yàn)、起動試驗(yàn)、潛動試驗(yàn)、日計(jì)時誤差試驗(yàn)、交流耐壓試驗(yàn)，其中，外觀標(biāo)志及通電檢查和交流耐壓試驗(yàn)需滿足電能表的通用技術(shù)要求，而其他5項(xiàng)檢定試驗(yàn)需滿足電能表計(jì)量性能要求。

經(jīng)審核，原始數(shù)據(jù)中對這7個檢定項(xiàng)目的記錄完整，且只存在較少的nulls值和空值，基于完整度的前提下，將這7項(xiàng)檢定試驗(yàn)的結(jié)果作為評價(jià)電能表檢定環(huán)節(jié)的質(zhì)量的指標(biāo)。因需挖掘的對象為質(zhì)量影響因素，所以抽取的電能表數(shù)據(jù)記錄為不合格電表的數(shù)據(jù)。其他信息作為噪聲干擾信息被過濾掉，不參與建模統(tǒng)計(jì)，而把抽取的信息形成關(guān)聯(lián)信息表，對此進(jìn)行關(guān)聯(lián)因素分析。

1.3 數(shù)據(jù)離散化

本文采用的Apriori算法屬于布爾型關(guān)聯(lián)規(guī)則算法，只能處理分類型變量，不能處理數(shù)值型變量，因此需要對清洗除噪后的數(shù)據(jù)再進(jìn)行處理，數(shù)據(jù)類型改為離散型，離散化后的數(shù)據(jù)參考樣式如表1所示。

表1 離散化后的內(nèi)容示意Tab.1 Schematic content after discretization

表1中約定：1代表“合格”，2代表“不合格”，所有檢定項(xiàng)目合格與否都可以用此類布爾型方式描述。因研究對象為不合格因素，所以2為真值。

2 Apriori算法在電表檢定項(xiàng)中的應(yīng)用

2.1 算法原理簡介

關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的是Apriori算法，它是由R.Agrawal和R.Srikant提出的一種挖掘關(guān)聯(lián)規(guī)則頻集的算法。該算法采用的是逐層搜索迭代的方式，先產(chǎn)生候選集Ck，然后計(jì)算所有k項(xiàng)集的支持度，若支持度滿足大于最小支持度閾值要求，則成為頻繁k項(xiàng)集Lk，接著在Lk基礎(chǔ)上產(chǎn)生候選集Ck+1，然后通過判斷最小支持度來確定頻繁（k+1）項(xiàng)集Lk+1，以此類推，直到找不到下一個頻繁項(xiàng)集為止。由每個頻集中的項(xiàng)組成關(guān)聯(lián)規(guī)則，分別計(jì)算出規(guī)則的置信度，若置信度大于最小置信度度閾值，則生成關(guān)聯(lián)規(guī)則［15］，同時滿足最小支持度和最小置信度要求的規(guī)則成為有效規(guī)則。因此，Apriori算法分為兩步，第一步產(chǎn)生頻集，第二步產(chǎn)生關(guān)聯(lián)規(guī)則，算法的原理概括如圖1所示。

圖1 Apriori算法原理簡圖Fig.1 Schematic diagram of the Apriori theory

2.2 頻集的生成

根據(jù)以上流程，本文抽取了10條數(shù)據(jù)記錄來示意Apriori算法的應(yīng)用過程，數(shù)據(jù)如表2所示。

表2 隨機(jī)抽取的部分?jǐn)?shù)據(jù)Tab.2 Part of a random sample of data

表2中10條記錄即為10個事務(wù)，記為T1-T10，對7個檢定項(xiàng)目因素進(jìn)行編號，如表3所示。

表3 檢定項(xiàng)目編號一覽表Tab.3 Number list of verification items

根據(jù)表2中的數(shù)據(jù)，I＝｛a、b、c…｝是能導(dǎo)致電能表檢定不合格的因素集合，即項(xiàng)的集合，T＝｛T1、T2、T3…｝是不合格電表的集合，即事務(wù)集。每個事務(wù)Ti都是項(xiàng)的集合，即Ti?I。要生成頻集，需設(shè)定最小支持度閾值，項(xiàng)支持度的定義為包含某一項(xiàng)集A的所有項(xiàng)目在事務(wù)集T中所占的比例，即：

設(shè)定最小支持度為40%，頻集生成過程如下：

（1）掃描T，對每個候選計(jì)數(shù)，生成1-項(xiàng)候選集C1，如表4所示。

表4 1-項(xiàng)候選集C1Tab.4 1-item candidate set C1

（2）滿足閾值條件的項(xiàng)集組成頻繁1-項(xiàng)集L1，如表5所示。

表5 頻繁1-項(xiàng)集L1Tab.5 1-item frequency set L1

（3）根據(jù)L1產(chǎn)生2-項(xiàng)候選集C2，如表6所示。

表6 2-項(xiàng)候選集C2Tab.6 2-item candidate set C2

（4）滿足閾值條件的項(xiàng)集組成頻繁2-項(xiàng)集L2，如表7所示。

表7 頻繁2-項(xiàng)集L2Tab.7 2-item frequency set L2

（5）根據(jù)L2產(chǎn)生3-項(xiàng)候選集C3，如表8所示。

表8 3-項(xiàng)候選集C3Fig.8 3-item candidate set C3

（6）滿足閾值條件的項(xiàng)集組成頻繁3-項(xiàng)集L3，如表9所示。

表9 頻繁3-項(xiàng)集L3Tab.9 3-item frequency set L3

由于L3不能繼續(xù)構(gòu)成候選集C4，迭代結(jié)束。最終得到的頻繁項(xiàng)集為L1、L2、L3。

2.3 關(guān)聯(lián)規(guī)則生成

有效規(guī)則需同時滿足規(guī)則最小支持度和最小置信度閾值要求，規(guī)則A?B的支持度為事務(wù)T中包含A∪B的比例，而A?B的置信度為事務(wù)T中包含A也同時包含B的比例，即：

式中A、B均為包含于T的項(xiàng)集，且A∩B＝?。本文中的支持度指的是7項(xiàng)檢定試驗(yàn)中若干項(xiàng)不通過導(dǎo)致電能表不合格的概率，而置信度表現(xiàn)為若干項(xiàng)試驗(yàn)未通過導(dǎo)致電表不合格結(jié)論的可能性大小。

傳統(tǒng)的Apriori算法從頻集中生成關(guān)聯(lián)規(guī)則，可以找出7個檢定項(xiàng)目之間的關(guān)系。而本文還可以利用數(shù)據(jù)中“檢定結(jié)論＝2”這一項(xiàng)的特殊性，找出檢定結(jié)論與單個檢定項(xiàng)目之間的關(guān)聯(lián)程度。因此，將“檢定結(jié)論＝2”編號為m，規(guī)定最小置信度為80%，生成的規(guī)則如表10和表11所示。

表10 關(guān)聯(lián)規(guī)則挖掘結(jié)果1Tab.10 The first mining results of association rules

以上規(guī)則全符合最小置信度閾值要求，全部輸出為有效關(guān)聯(lián)規(guī)則。

表11 關(guān)聯(lián)規(guī)則挖掘結(jié)果2Tab.11 The second mining results of association rules

表11中除了ID6、ID19不滿足最小置信度閾值要求，其他都滿足，可以輸出為有效關(guān)聯(lián)規(guī)則。

3 結(jié)果與分析

3.1 結(jié)果生成及優(yōu)化處理

因數(shù)據(jù)量較大，借助Clementine數(shù)據(jù)挖掘［14］軟件輔助處理。綜合對比不同閾值下多次處理結(jié)果的差異，最終設(shè)定最小支持度為15%，最小置信度為80%，為了防止關(guān)聯(lián)規(guī)則過于復(fù)雜，設(shè)定前項(xiàng)最大項(xiàng)目數(shù)為3。將結(jié)果按照支持度大小排序呈現(xiàn)，見表12。

表12 電能表關(guān)聯(lián)規(guī)則挖掘結(jié)果Tab.12 Mining results of association rules of electric energy meters

為了保證規(guī)則的有效性及實(shí)用性，需要對以上Clementine生成的規(guī)則加以判斷、整合、優(yōu)化。表中出現(xiàn)了很多實(shí)例數(shù)與支持度相同的規(guī)則，判斷原因是事務(wù)“檢定結(jié)論＝2”包含的項(xiàng)目數(shù)超過了設(shè)定的最大項(xiàng)目數(shù)，從而生成了多種冗余規(guī)則，因此對表12中內(nèi)容進(jìn)行整合、優(yōu)化，結(jié)果如表13所示。

表13 電能表檢定數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘整合結(jié)果Tab.13 Optimization to the mining results of association rules of electric energy meters

結(jié)果分析：（1）規(guī)則 ID16、ID17顯示，基本誤差試驗(yàn)不通過導(dǎo)致電表不合格的支持度最高（48.58%），其次是起動試驗(yàn)不通過（31.58%），電能表檢定不合格由這兩項(xiàng)引起的案例最多，說明基本誤差試驗(yàn)和起動試驗(yàn)的結(jié)果很大程度上影響著電能表檢定結(jié)論；相比之下日計(jì)時誤差試驗(yàn)（21.05%）、常數(shù)試驗(yàn)（20.65%）、潛動試驗(yàn)（17.41%）不合格影響較小，如規(guī)則 ID7、ID12、ID15所示；（2）在最小支持度15%的條件下，以上規(guī)則的置信度都是100%，這符合常理，只要檢定環(huán)節(jié)中其中一項(xiàng)出現(xiàn)不合格，那電能表的檢定結(jié)論就是不合格；（3）在不合格電表中，通常會出現(xiàn)幾項(xiàng)檢定試驗(yàn)均未通過的情況，如規(guī)則 ID85、ID87、ID79所示。

3.2 檢定質(zhì)量關(guān)聯(lián)因素分析

為了進(jìn)一步研究單一檢定試驗(yàn)項(xiàng)對檢定結(jié)論的影響程度，我們適當(dāng)調(diào)整最小支持度閾值，并從Apriori關(guān)聯(lián)規(guī)則表中篩選出了一部分典型規(guī)則，如表14所示。

表14 檢定結(jié)論與檢定項(xiàng)目的關(guān)聯(lián)規(guī)則表Tab.14 Association rules between verification conclusion and items

從表14中的關(guān)聯(lián)規(guī)則可以得到以下幾點(diǎn)：（1）各影響因素關(guān)聯(lián)度排序：基本誤差試驗(yàn)、起動試驗(yàn)、日計(jì)時誤差試驗(yàn)、常數(shù)試驗(yàn)、潛動試驗(yàn)、交流電壓試驗(yàn)、外觀標(biāo)志及通電檢查；（2）基本誤差試驗(yàn)和起動試驗(yàn)的檢定結(jié)果對電能表檢定結(jié)論影響最大，因基本誤差試驗(yàn)和起動試驗(yàn)不合格導(dǎo)致電能表不合格的情況發(fā)生最頻繁；（3）外觀標(biāo)志及通電檢查與檢定不合格支持度很低（4.05%），表明由外觀標(biāo)志通電檢查不通過而導(dǎo)致電表不合格的情況很少。

為了直觀地對比各影響因素的關(guān)聯(lián)度，通過Clementine輔助生成了檢定結(jié)論與檢定試驗(yàn)影響因素關(guān)聯(lián)圖，如圖2所示。網(wǎng)狀圖線條粗細(xì)反應(yīng)鏈接的強(qiáng)弱，強(qiáng)弱鏈接區(qū)間劃分如表15所示。

表15 網(wǎng)狀圖鏈接強(qiáng)弱區(qū)間表Tab.15 Interval divisions of link strength on the network diagram

圖2 檢定試驗(yàn)影響關(guān)聯(lián)圖Fig.2 Associated factors diagram of verification test

在圖2中，粗實(shí)線代表強(qiáng)鏈接，細(xì)實(shí)線代表中等鏈接，虛線代表弱連接，左下角突出部分表示的是檢定結(jié)論與影響因素之間的強(qiáng)弱關(guān)系。影響檢定結(jié)論的強(qiáng)鏈接因素有4個：日計(jì)時誤差試驗(yàn)、常數(shù)試驗(yàn)、起動試驗(yàn)、基本誤差試驗(yàn)；中等鏈接因素有兩個：交流電壓試驗(yàn)、潛動試驗(yàn)；外觀標(biāo)志及通電檢查試驗(yàn)屬于弱鏈接影響因素。該分析結(jié)果與表13中關(guān)聯(lián)規(guī)則基本一致。

3.3 檢定項(xiàng)目連帶關(guān)聯(lián)分析

由3.1節(jié)的關(guān)聯(lián)規(guī)則 ID79、ID85、ID87可知，當(dāng)一個電表檢定不合格時，可能表現(xiàn)為多種試驗(yàn)均不通過，為了找到檢定項(xiàng)目之間的隱含關(guān)系，將圖2的檢定結(jié)論這一項(xiàng)濾去，得到了檢定試驗(yàn)之間的關(guān)聯(lián)圖，如圖3所示。

圖3 檢定項(xiàng)目內(nèi)部關(guān)聯(lián)圖Fig.3 Inner association diagram between verification items

在圖3所示的關(guān)聯(lián)網(wǎng)狀圖中，常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)這3個因素之間呈現(xiàn)強(qiáng)鏈接，外觀標(biāo)志及通電檢查試驗(yàn)、交流電壓試驗(yàn)、以及其余5項(xiàng)因素之間呈現(xiàn)弱鏈接，其他的鏈接呈現(xiàn)為中等鏈接。這說明，常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)、起動試驗(yàn)、潛動試驗(yàn)這5項(xiàng)中，有若干項(xiàng)不合格同時出現(xiàn)的情況經(jīng)常發(fā)生，尤其是常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)這3項(xiàng)不合格連帶出現(xiàn)的概率較高。

根據(jù)對圖3的定性分析，從Apriori算法關(guān)聯(lián)規(guī)則挖掘結(jié)果中篩選了部分關(guān)聯(lián)規(guī)則做驗(yàn)證，見表16。

表16中置信度都為100%意為：前項(xiàng)一定會導(dǎo)致后項(xiàng)發(fā)生，則在此可以理解為前項(xiàng)后項(xiàng)同時發(fā)生。那么，在ID122的規(guī)則中，基本誤差試驗(yàn)、常數(shù)試驗(yàn)、日計(jì)時誤差試驗(yàn)同時不合格的電表有50例，占總樣本的20.24%，與圖5中強(qiáng)鏈接吻合；在ID227的規(guī)則中，基本誤差試驗(yàn)、常數(shù)試驗(yàn)、日計(jì)時誤差試驗(yàn)、起動試驗(yàn)同時不合格的電表有43例，占總樣本的17.41%，對應(yīng)于“起動試驗(yàn)”與“常數(shù)試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)”三者之間的中等鏈接。同理，規(guī)則ID134對應(yīng)“潛動試驗(yàn)”與“常數(shù)試驗(yàn)、起動試驗(yàn)、基本誤差試驗(yàn)、日計(jì)時誤差試驗(yàn)”四者之間的中等鏈接。以此類推，Apriori規(guī)則挖掘結(jié)果與關(guān)聯(lián)網(wǎng)絡(luò)圖具有一致性。

表16 部分關(guān)聯(lián)規(guī)則挖掘結(jié)果Tab.16 Part of mining results of association rules

4 結(jié)束語

通過對不合格電表的檢定項(xiàng)目關(guān)聯(lián)分析，可知：（1）基本誤差試驗(yàn)的結(jié)果對電能表檢定質(zhì)量影響最大，其次是起動試驗(yàn)；（2）日計(jì)時誤差試驗(yàn)、常數(shù)試驗(yàn)、潛動試驗(yàn)和交流耐壓試驗(yàn)的結(jié)果對電能表檢定質(zhì)量影響程度一般，但不可忽視；（3）外觀標(biāo)志及通電檢查試驗(yàn)影響最小。在諸多檢定項(xiàng)中，基本誤差試驗(yàn)、常數(shù)試驗(yàn)、日計(jì)時誤差試驗(yàn)這三種同時不通過的概率很高，究其原因是這三項(xiàng)試驗(yàn)都屬于檢測計(jì)量誤差類試驗(yàn)，說明計(jì)量性能是電表的薄弱環(huán)節(jié)。廠家應(yīng)重點(diǎn)提高電表的計(jì)量模塊質(zhì)量，提高這三者檢定通過率。