王奕萱,李翼銘,徐二強(qiáng),李會(huì)君,李明亮
(1.國(guó)網(wǎng)河南省電力公司營(yíng)銷(xiāo)服務(wù)中心(計(jì)量中心),河南鄭州 450052;2.國(guó)網(wǎng)河南省電力公司,河南鄭州 450052;3.河南九域騰龍信息工程有限公司,河南鄭州 450052)
電力系統(tǒng)所存儲(chǔ)的數(shù)據(jù)量巨大,而對(duì)于大量數(shù)據(jù)分析處理的常用方式便是數(shù)據(jù)挖掘,其應(yīng)用領(lǐng)域非常廣泛,如火電廠優(yōu)化、配電網(wǎng)故障識(shí)別、水電廠運(yùn)轉(zhuǎn)等,因此數(shù)據(jù)挖掘在電力計(jì)量領(lǐng)域的應(yīng)用頻率逐漸提升。尤其隨著電力公司存儲(chǔ)數(shù)據(jù)量的不斷增加,對(duì)于數(shù)據(jù)挖掘的要求也越來(lái)越高,因此對(duì)于電力計(jì)量數(shù)據(jù)挖掘的研究受到相關(guān)領(lǐng)域研究人員的廣泛關(guān)注。
文獻(xiàn)[1]提出了基于蟻群算法的非結(jié)構(gòu)化大數(shù)據(jù)深度挖掘方法,利用蟻群參數(shù)實(shí)現(xiàn)信息挖掘,但此方式運(yùn)用到電力計(jì)量中適用性差。文獻(xiàn)[2]提出了基于EPR 的智慧電廠大數(shù)據(jù)深度挖掘方法,通過(guò)機(jī)理算法和EPR,結(jié)合專家數(shù)據(jù)庫(kù)以及可視化等手段對(duì)燃煤火電廠的大數(shù)據(jù)進(jìn)行深度挖掘,但此方式只在燃煤火電廠中適用,應(yīng)用范圍受限。
結(jié)合上述分析,該文提出了基于特征標(biāo)簽的電力計(jì)量大數(shù)據(jù)深度挖掘方法。
為了實(shí)現(xiàn)電力計(jì)量大數(shù)據(jù)深度挖掘,該文對(duì)電力計(jì)量大數(shù)據(jù)進(jìn)行處理,生成特征標(biāo)簽,特征標(biāo)簽的生成位置處于大數(shù)據(jù)平臺(tái)和上層業(yè)務(wù)應(yīng)用之間,作為中間層的關(guān)鍵組件[3-4]。
利用模糊C-均值聚類(lèi)算法生成特征標(biāo)簽,假設(shè)設(shè)定聚類(lèi)個(gè)數(shù)為K,隸屬度因子為m,隨機(jī)初始化矩陣為U,代入通過(guò)模糊C-均值聚類(lèi)算法,則存在:
其中,通過(guò)計(jì)算模糊C 均值求得C的迭代函數(shù):
求得迭代函數(shù)后,根據(jù)迭代函數(shù)獲取特征標(biāo)簽的聚類(lèi)中心以及隸屬度因子,并進(jìn)行收斂度判斷,若目標(biāo)函數(shù)的變化值小于預(yù)設(shè)閾值,則輸出聚類(lèi)結(jié)果,并根據(jù)聚類(lèi)結(jié)果求出聚類(lèi)迭代值,計(jì)算公式如下:
隨后,利用電力計(jì)量數(shù)據(jù)的數(shù)據(jù)源計(jì)算平臺(tái)生成特征標(biāo)簽,該計(jì)算平臺(tái)支持對(duì)大量數(shù)據(jù)進(jìn)行分布式計(jì)算,并提供數(shù)據(jù)庫(kù)查詢的功能[5-6]。隨后建立大數(shù)據(jù)治理組件,該組件含有三層結(jié)構(gòu),分別為數(shù)據(jù)層、分析層、標(biāo)簽層。通過(guò)大數(shù)據(jù)治理組件完成對(duì)特征標(biāo)簽的初步生成。電力計(jì)量大數(shù)據(jù)特征標(biāo)簽生成過(guò)程如圖1 所示。
近些年,反貪調(diào)查和公安、國(guó)安機(jī)關(guān)的偵查工作相比,在技術(shù)層面的差距非常之大,制約了反貪工作的效率和權(quán)威。由此,強(qiáng)化調(diào)查領(lǐng)域的技術(shù)支持成為重點(diǎn)工作??梢灶A(yù)見(jiàn)的是,在不久的將來(lái),職務(wù)犯罪調(diào)查將會(huì)圍繞高新技術(shù)進(jìn)行調(diào)查模式的重構(gòu)。在這個(gè)意義上,技術(shù)發(fā)展的必然性與社會(huì)發(fā)展的必然性出現(xiàn)了重合,逐步形成了技術(shù)的社會(huì)化機(jī)制。作為調(diào)查主體的調(diào)查人員卻未能與科學(xué)技術(shù)一樣被列為重點(diǎn)建設(shè)的目標(biāo),也就意味著人文技術(shù)調(diào)查地位的衰弱。實(shí)際上,暗藏在調(diào)查中的技術(shù)路徑選擇之爭(zhēng)已經(jīng)初露端倪,并已存在于感官的社會(huì)構(gòu)建之中。但這樣的路徑之爭(zhēng)并非現(xiàn)實(shí)的社會(huì)構(gòu)建,作為兩種重心不同的調(diào)查技術(shù)路徑選擇,至少在理論上值得分析。
圖1 電力計(jì)量大數(shù)據(jù)特征標(biāo)簽生成過(guò)程
觀察圖1 可知,對(duì)于電力計(jì)算的大數(shù)據(jù)深度挖掘過(guò)程中,需要建立多個(gè)特征標(biāo)簽,因此將規(guī)則引擎作為特征標(biāo)簽的生產(chǎn)機(jī)器,從而產(chǎn)生大量特征標(biāo)簽,并通過(guò)標(biāo)簽識(shí)別中心完成對(duì)特征標(biāo)簽的管理與規(guī)劃[7-8]。其具體過(guò)程如下:
特征標(biāo)簽業(yè)務(wù)化,主要是通過(guò)用戶來(lái)設(shè)置特征標(biāo)簽的生成條件,并賦予修改、檢閱特征標(biāo)簽的功能。同時(shí)進(jìn)行特征標(biāo)簽的邏輯檢查,其生成條件主要根據(jù)電力計(jì)量大數(shù)據(jù)中所需要挖掘的數(shù)據(jù)制定,工作人員只需管理特征標(biāo)簽的生成以及大數(shù)據(jù)的維護(hù)。
規(guī)則引擎作為特征標(biāo)簽的生產(chǎn)機(jī)器,是由特征標(biāo)簽業(yè)務(wù)化后產(chǎn)生的數(shù)據(jù)實(shí)體生成的,在特征標(biāo)簽的開(kāi)發(fā)中進(jìn)行規(guī)則的制定、圖形化控制等,規(guī)則引擎作為生產(chǎn)特征標(biāo)簽的裝置,可對(duì)特征標(biāo)簽的生成規(guī)則進(jìn)行設(shè)定,針對(duì)于不同用途的特征標(biāo)簽,其生成規(guī)則也不同,根據(jù)生成規(guī)則觸發(fā)生成條件,完成對(duì)多種特征標(biāo)簽的制作[9-10]。
標(biāo)簽識(shí)別中心可進(jìn)行特征標(biāo)簽衍生組合的邏輯運(yùn)算,在工作人員進(jìn)行設(shè)定操作后,將已有的簡(jiǎn)單特征標(biāo)簽升級(jí)成更高級(jí)、復(fù)雜、有價(jià)值的特征標(biāo)簽[11-12]。利用智能化計(jì)算進(jìn)行自動(dòng)分析對(duì)電力計(jì)量大數(shù)據(jù)特征標(biāo)簽進(jìn)行需求排序。以數(shù)值形式表示特征標(biāo)簽的屬性。在特征標(biāo)簽制作完成后,需要對(duì)其進(jìn)行價(jià)值判斷,價(jià)值較低的特征標(biāo)簽不能用于對(duì)電力計(jì)量大數(shù)據(jù)的挖掘,因此需要建立價(jià)值函數(shù)來(lái)判斷特征標(biāo)簽的價(jià)值[13-14]。由以下公式計(jì)算:
其中,Zi表示第i個(gè)標(biāo)簽的價(jià)值,當(dāng)J值大于1時(shí),則認(rèn)為該特征標(biāo)簽價(jià)值較高,可利用其對(duì)電力計(jì)量大數(shù)據(jù)進(jìn)行深度挖掘。生成的特征標(biāo)簽主要有以下幾方面作用:
數(shù)據(jù)抽取,對(duì)電力計(jì)量中的大數(shù)據(jù)進(jìn)行抽取,并根據(jù)特征標(biāo)簽進(jìn)行分類(lèi),通過(guò)判斷工作人員設(shè)定的挖掘需求來(lái)抽取不同的大數(shù)據(jù)[15]。
數(shù)據(jù)轉(zhuǎn)換,用于對(duì)電力計(jì)量系統(tǒng)中的所有數(shù)據(jù)進(jìn)行轉(zhuǎn)換操作,以此及時(shí)發(fā)現(xiàn)數(shù)據(jù)源存在的問(wèn)題,過(guò)濾無(wú)效信息,利用錯(cuò)誤信息建立錯(cuò)誤標(biāo)簽。
數(shù)據(jù)辨識(shí),利用智能化計(jì)算對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分析,辨識(shí)特征標(biāo)簽。
圖2 數(shù)據(jù)挖掘架構(gòu)
根據(jù)圖2 可知,USB 異步收發(fā)傳輸器和電平轉(zhuǎn)換實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,利用微控制單元實(shí)現(xiàn)數(shù)據(jù)分類(lèi),內(nèi)部配置可編程只讀存儲(chǔ)器,更好地存儲(chǔ)數(shù)據(jù)。
數(shù)據(jù)預(yù)處理主要是通過(guò)特征標(biāo)簽的數(shù)據(jù)轉(zhuǎn)換功能對(duì)電力計(jì)量大數(shù)據(jù)進(jìn)行預(yù)處理操作。在預(yù)處理中,利用CK 算法對(duì)無(wú)效、錯(cuò)誤數(shù)據(jù)進(jìn)行篩查,根據(jù)CK 算法的最小原則對(duì)電力計(jì)量大數(shù)據(jù)進(jìn)行歸類(lèi)處理,確定中心點(diǎn),在中心點(diǎn)以下排列的數(shù)據(jù)變?yōu)闊o(wú)效數(shù)據(jù),無(wú)效數(shù)據(jù)篩選閾值如下:
其中,m為中心點(diǎn)數(shù)值;u為判斷目標(biāo)數(shù)據(jù)[16]。
云聚類(lèi)編輯主要是指將預(yù)處理后的數(shù)據(jù)進(jìn)行聚類(lèi)編輯,根據(jù)數(shù)據(jù)價(jià)值從高到低排列數(shù)據(jù),結(jié)合電力計(jì)量大數(shù)據(jù)深度挖掘的要求進(jìn)行聚類(lèi)數(shù)據(jù)分類(lèi),并將分類(lèi)后的數(shù)據(jù)傳輸至數(shù)據(jù)挖掘架構(gòu)。
云分類(lèi)建模結(jié)合預(yù)處理后的數(shù)據(jù),將分類(lèi)結(jié)果傳輸至數(shù)據(jù)挖掘架構(gòu),數(shù)據(jù)挖掘架構(gòu)通過(guò)數(shù)據(jù)融合將分類(lèi)模塊與聚類(lèi)數(shù)據(jù)結(jié)合,生成挖掘模塊,將所生成的挖掘模塊傳輸至挖掘點(diǎn),進(jìn)行深度挖掘。
數(shù)據(jù)挖掘架構(gòu)結(jié)合了云儲(chǔ)存性能以及云數(shù)據(jù)挖掘作業(yè)流引擎,對(duì)云數(shù)據(jù)挖掘流程的全部操作應(yīng)用至數(shù)據(jù)挖掘架構(gòu)過(guò)程,達(dá)到對(duì)電力計(jì)量大數(shù)據(jù)的深度挖掘標(biāo)準(zhǔn),并在挖掘模塊中運(yùn)用圖表形式進(jìn)行可視化表述。
利用特征標(biāo)簽完成對(duì)電力計(jì)量大數(shù)據(jù)的深度挖掘,具體過(guò)程如下:
首先確定挖掘?qū)ο?,通過(guò)數(shù)據(jù)抽取得到需要深度挖掘的大數(shù)據(jù),明確挖掘后數(shù)據(jù)的用途。進(jìn)而進(jìn)行數(shù)據(jù)準(zhǔn)備,對(duì)從電力計(jì)量底層中提取到的數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)CK 算法對(duì)無(wú)效數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)進(jìn)行篩查,并選擇特征標(biāo)簽的數(shù)據(jù)轉(zhuǎn)換功能對(duì)錯(cuò)誤數(shù)據(jù)建立錯(cuò)誤標(biāo)簽,防止挖掘錯(cuò)誤,確保數(shù)據(jù)的準(zhǔn)確性。隨后進(jìn)行云分類(lèi)建模,選擇合適的建模方式對(duì)大數(shù)據(jù)模型進(jìn)行調(diào)整改善,以此提升挖掘精確度與效率。最后將挖掘結(jié)果制作成圖表呈現(xiàn)給工作人員。
為了驗(yàn)證該文提出的基于特征標(biāo)簽的電力計(jì)量大數(shù)據(jù)深度挖掘方法的實(shí)際應(yīng)用效果,將其與傳統(tǒng)的基于蟻群算法的非結(jié)構(gòu)化大數(shù)據(jù)深度挖掘方法和基于ERP 的智慧電廠大數(shù)據(jù)深度挖掘方法進(jìn)行實(shí)驗(yàn)對(duì)比。
選用的主機(jī)操作系統(tǒng)為L(zhǎng)inux 系統(tǒng),對(duì)信息進(jìn)行配置,系統(tǒng)內(nèi)存為16 GB,硬盤(pán)為2 TB,采用的編程語(yǔ)言為C++語(yǔ)言,開(kāi)發(fā)環(huán)境為Hadoop 環(huán)境。實(shí)驗(yàn)環(huán)境如圖3 所示。
圖3 實(shí)驗(yàn)環(huán)境
三種方法挖掘的數(shù)據(jù)量實(shí)驗(yàn)結(jié)果如表1 所示。
表1 挖掘數(shù)據(jù)量實(shí)驗(yàn)結(jié)果
根據(jù)表1 可知,隨著挖掘時(shí)間的增加,三種挖掘方法的挖掘量在不斷增加,該文提出的挖掘方法的挖掘數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)高于傳統(tǒng)方法。原因是利用該文通過(guò)特征標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行挖掘,在挖掘過(guò)程中能夠很好地對(duì)信息進(jìn)行分類(lèi),通過(guò)信息編輯完成數(shù)據(jù)處理,從而實(shí)現(xiàn)低成本、高信息吞吐的挖掘目的。傳統(tǒng)的挖掘方法在挖掘過(guò)程中難以考慮電力程序邏輯關(guān)系,受到輸送方式限制,無(wú)法挖掘大量數(shù)據(jù)。
電力計(jì)量大數(shù)據(jù)在挖掘過(guò)程中容易受到外界干擾,導(dǎo)致挖掘信息不穩(wěn)定,降低魯棒性,為進(jìn)一步探究挖掘方法的可行性,針對(duì)挖掘過(guò)程的穩(wěn)定性進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如圖4 所示。
圖4 挖掘穩(wěn)定性實(shí)驗(yàn)結(jié)果
根據(jù)圖4 可知,該文提出的挖掘方法在挖掘過(guò)程中具有很好的穩(wěn)定性,信息處理結(jié)果更加準(zhǔn)確。原因在于該文提出的挖掘方法通過(guò)數(shù)據(jù)分析消除數(shù)據(jù),解決信息孤島問(wèn)題,通過(guò)對(duì)設(shè)備和電網(wǎng)運(yùn)行的狀態(tài)分析,感知信息的運(yùn)行動(dòng)態(tài),從而確保挖掘穩(wěn)定性。挖掘準(zhǔn)確率實(shí)驗(yàn)結(jié)果如表2 所示。
表2 挖掘準(zhǔn)確率實(shí)驗(yàn)結(jié)果
根據(jù)表2 可知,該文提出的挖掘方法挖掘準(zhǔn)確率更高,挖掘能力更強(qiáng)。
電力系統(tǒng)的高速發(fā)展使得電力計(jì)量數(shù)據(jù)增多,對(duì)電力計(jì)量大數(shù)據(jù)的深度挖掘成為了電力領(lǐng)域的研究方向之一,傳統(tǒng)方式對(duì)于電力計(jì)量大數(shù)據(jù)的挖掘仍有缺陷,為了有效解決該問(wèn)題,該文提出了基于特征標(biāo)簽的電力計(jì)量大數(shù)據(jù)深度挖掘方法,通過(guò)引入特征標(biāo)簽更好地實(shí)現(xiàn)信息分類(lèi),以此實(shí)現(xiàn)電力計(jì)量大數(shù)據(jù)的深度挖掘,此方法有效彌補(bǔ)了傳統(tǒng)方式的不足,并可為此方面的研究提供參考。