王衛(wèi)斌,陸嘉銘,周韡燁,屈志堅(jiān),姚嶸,瞿海妮
(1.國(guó)網(wǎng)上海公司電力公司,上海 200120;2.上海欣能信息科技發(fā)展有限公司,上海 200025)
“十三五”期間,電網(wǎng)企業(yè)信息化建設(shè)取得了長(zhǎng)足發(fā)展,隨著企業(yè)級(jí)數(shù)據(jù)中臺(tái)的建成上線,電力檔案、量測(cè)、拓?fù)?、業(yè)務(wù)等各類型數(shù)據(jù)在同一個(gè)信息系統(tǒng)內(nèi)實(shí)現(xiàn)了匯聚,為應(yīng)用大數(shù)據(jù)技術(shù)開展面向設(shè)備質(zhì)量提升的電力設(shè)備缺陷大數(shù)據(jù)分析提供了有利條件。依靠傳統(tǒng)的數(shù)據(jù)庫(kù)查詢檢索機(jī)制提取數(shù)據(jù)信息,運(yùn)算效率低、專業(yè)性要求高、呈現(xiàn)形式單調(diào),無法滿足交互查詢、下鉆分析、趨勢(shì)預(yù)測(cè)、重點(diǎn)呈現(xiàn)等生產(chǎn)管理的實(shí)際需求。目前,迫切地需要研究一種有效、可行的方法,實(shí)現(xiàn)自動(dòng)、智能、高效、準(zhǔn)確地將海量的電力大數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息[1-9]。
近年來,大數(shù)據(jù)技術(shù)在國(guó)內(nèi)外電力研究領(lǐng)域也得到了許多關(guān)注與成果。文獻(xiàn)[10]通過密度峰值聚類算法研究了電力大數(shù)據(jù)異常值檢,分析了密度峰值聚類算法聚類過程。文獻(xiàn)[11]基于改進(jìn)增廣節(jié)點(diǎn)方程,提出了柔性互聯(lián)配電網(wǎng)統(tǒng)一潮流的計(jì)算方法。文獻(xiàn)[12]對(duì)現(xiàn)有流數(shù)據(jù)聚類算法CluStream提出改進(jìn),提出流式K-means聚類算法,并將改進(jìn)的算法應(yīng)用于用戶用電異常檢測(cè)。文獻(xiàn)[13]基于鄰域關(guān)系矩陣,實(shí)現(xiàn)電力大數(shù)據(jù)增量式屬性約簡(jiǎn)模式分析。文獻(xiàn)[14]提出了一種考慮本位元胞接受能力和相鄰元胞負(fù)荷影響的空間負(fù)荷預(yù)測(cè)方法。文獻(xiàn)[15]基于穩(wěn)態(tài)波形分解與神經(jīng)網(wǎng)絡(luò),提出了負(fù)荷識(shí)別方法。
本文在綜合調(diào)研了生產(chǎn)管理需求與數(shù)據(jù)中臺(tái)軟硬件支撐條件后,創(chuàng)新地提出了綜合應(yīng)用多維數(shù)據(jù)透視、時(shí)間序列模型、自然語言識(shí)別等方法開展面向設(shè)備質(zhì)量提升的電力設(shè)備缺陷大數(shù)據(jù)分析,并結(jié)合實(shí)際項(xiàng)目從數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、場(chǎng)景可視化、信息解讀等多個(gè)方面驗(yàn)證了該方法的可行性與有效性。
設(shè)備缺陷數(shù)據(jù)融合,涉及不同信息系統(tǒng)的不能功能模塊,不但數(shù)據(jù)源頭眾多、數(shù)據(jù)類型眾多,更需要業(yè)務(wù)專家參與梳理并制定融合規(guī)則,高質(zhì)量的數(shù)據(jù)是確保分析準(zhǔn)確性的關(guān)鍵和前提。具體步驟:業(yè)務(wù)模型構(gòu)建,應(yīng)用設(shè)備主數(shù)據(jù)和業(yè)務(wù)流程數(shù)據(jù)反應(yīng)設(shè)備狀態(tài)和業(yè)務(wù)流程;數(shù)據(jù)溯源,深入分析業(yè)務(wù)模型所需數(shù)據(jù)的源系統(tǒng)、源表和相關(guān)字段等;數(shù)據(jù)采集,根據(jù)業(yè)務(wù)需求按一定頻度,自動(dòng)抽取或查詢相關(guān)數(shù)據(jù);數(shù)據(jù)匹配,將分散在不同系統(tǒng)不同功能模塊中的設(shè)備主數(shù)據(jù)和業(yè)務(wù)流程數(shù)據(jù)貫通;統(tǒng)一數(shù)據(jù)格式,將不同系統(tǒng)內(nèi)的同類數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的格式;業(yè)務(wù)判據(jù)制定,對(duì)設(shè)備主數(shù)據(jù)和業(yè)務(wù)流程數(shù)據(jù)設(shè)定合理性判斷標(biāo)準(zhǔn),以校驗(yàn)數(shù)據(jù)融合的準(zhǔn)確性。
設(shè)備缺陷數(shù)據(jù)清洗,在實(shí)際生產(chǎn)過程中,采集到的設(shè)備主數(shù)據(jù)和業(yè)務(wù)流程數(shù)據(jù)往往是不完整、有噪聲和不一致的。因此,首先查找主數(shù)據(jù)中設(shè)備檔案參數(shù)為空、為異常的值,業(yè)務(wù)流程數(shù)據(jù)中缺陷性質(zhì)為空、為異常的值、時(shí)間字段不在查詢范圍內(nèi)等各類問題的數(shù)據(jù)項(xiàng),進(jìn)一步對(duì)缺失、異常數(shù)據(jù)項(xiàng)進(jìn)行插值補(bǔ)充替代、擬合替代等清洗轉(zhuǎn)換,為后續(xù)工作夯實(shí)基礎(chǔ)。
設(shè)備缺陷數(shù)據(jù)預(yù)處理,設(shè)備缺陷數(shù)據(jù)經(jīng)過清洗轉(zhuǎn)換后,在數(shù)據(jù)中臺(tái)分析域內(nèi)進(jìn)一步生成各類數(shù)據(jù)中間表,用以描述或分析設(shè)備主數(shù)據(jù)和業(yè)務(wù)流程數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理可以滿足業(yè)務(wù)監(jiān)測(cè)、狀態(tài)評(píng)估、預(yù)測(cè)分析和場(chǎng)景可視化展示等應(yīng)用的需要。
本文選取某地市公司100臺(tái)35kV及以上主變壓器、1000臺(tái)10kV及以上斷路器在2016年-2020年的設(shè)備主數(shù)據(jù)和缺陷管理業(yè)務(wù)流程數(shù)據(jù)。樣本數(shù)據(jù)主要來源于市公司數(shù)據(jù)中臺(tái)中集成的ERP系統(tǒng)、PMS系統(tǒng)、OMS系統(tǒng)、EMS系統(tǒng)、GIS系統(tǒng)和用電采集系統(tǒng)中的共享數(shù)據(jù)。首先,通過規(guī)定統(tǒng)一的數(shù)據(jù)格式和業(yè)務(wù)判據(jù),實(shí)現(xiàn)多源異構(gòu)數(shù)的初步融合。其次,通過缺失數(shù)據(jù)插值補(bǔ)充替代、異常數(shù)據(jù)擬合替代等操作后,基本消除數(shù)據(jù)的不完整和噪聲毛刺。最后,根據(jù)設(shè)備質(zhì)量提升應(yīng)用場(chǎng)景的需求,生成設(shè)備基礎(chǔ)檔案、設(shè)備運(yùn)行數(shù)據(jù)、設(shè)備空間拓?fù)?、設(shè)備缺陷記錄、檢修運(yùn)維成本等數(shù)據(jù)中間表。為下一步的數(shù)據(jù)分析挖掘做好充分的準(zhǔn)備工作。
在企業(yè)級(jí)數(shù)據(jù)中臺(tái),應(yīng)用開源可視化組件庫(kù)和數(shù)據(jù)透視設(shè)計(jì)器METABASE,將篩選、排序和分類匯總等操作依次完成,實(shí)現(xiàn)可自定義地搭建多維數(shù)據(jù)透視業(yè)務(wù)場(chǎng)景。多維數(shù)據(jù)透視功能既能對(duì)數(shù)值數(shù)據(jù)進(jìn)行分類匯總、按分類和子分類對(duì)數(shù)據(jù)進(jìn)行匯總,又可以快速、交互式地匯總大量數(shù)據(jù)。
本文對(duì)某地市公司的主變壓器和斷路器開展了多維數(shù)據(jù)透視分析,實(shí)現(xiàn)了橫向分析、縱向分析、成分分析、穿透查詢等功能,可以滿足不同層級(jí)、不同崗位人員在進(jìn)行決策、管理、生產(chǎn)、支撐保障等工作時(shí)的需要。多維數(shù)據(jù)透視還可以深入關(guān)聯(lián)分析數(shù)值數(shù)據(jù),收獲一些預(yù)先未曾設(shè)想到的成果。
時(shí)間序列分析的特點(diǎn)在于:可以逐次地觀測(cè)不獨(dú)立的觀測(cè)對(duì)象,并且分析觀測(cè)對(duì)象發(fā)生的時(shí)間順序,通過曲線擬合和參數(shù)估計(jì)來建立數(shù)學(xué)模型[16-17]。當(dāng)被觀測(cè)對(duì)象相關(guān)時(shí),未來的數(shù)值可以由過去觀測(cè)資料來實(shí)現(xiàn)預(yù)測(cè),同時(shí),也可利用觀測(cè)數(shù)據(jù)之間的自相關(guān)性建立相應(yīng)的數(shù)學(xué)模型來描述客觀現(xiàn)象的動(dòng)態(tài)特征[18-20]。正因?yàn)闀r(shí)間序列分析的特點(diǎn)比較符合設(shè)備缺陷具有趨勢(shì)性發(fā)生、季節(jié)性波動(dòng)、受隨機(jī)事件波動(dòng)的規(guī)律,所以利用時(shí)間序列模型來分析設(shè)備缺陷具有較好的分析和預(yù)測(cè)效果。
本文根據(jù)設(shè)備缺陷記錄信息帶有時(shí)間戳的特點(diǎn),生成設(shè)備缺陷時(shí)間序列表,并采用時(shí)間序列算法進(jìn)行模型訓(xùn)練,以獲取設(shè)備缺陷在近幾年的發(fā)生趨勢(shì),各個(gè)季節(jié)的季節(jié)性趨勢(shì)以及受隨機(jī)事件影響的波動(dòng)性趨勢(shì),并對(duì)未來幾個(gè)月的發(fā)生趨勢(shì)進(jìn)行擬合預(yù)測(cè)分析。
自然語言識(shí)別處理(NLP)中有一塊很重要的部分就是文本挖掘,是文本自然語言的一種展現(xiàn)形式,也是目前海量數(shù)據(jù)的主流展現(xiàn)方式?,F(xiàn)在Google和百度也會(huì)采用主流的分詞算法TF-IDF進(jìn)行文本關(guān)鍵信息提取[21-23]。
TF-IDF算法的表達(dá)式為:
其中,wdt為特征項(xiàng)t在文本d中所占的權(quán)重,tfdt為特征項(xiàng)t在文本d中出現(xiàn)的頻率,lg是以10為底的對(duì)數(shù),N為全量文本信息中的總數(shù),nt為文本語料庫(kù)中包含特征項(xiàng)t的文本數(shù)[24-25]。
本文對(duì)于設(shè)備缺陷文本類信息的提取,主要步驟包括對(duì)原始填寫記錄的文字切分、關(guān)鍵信息提取和詞云展示。首先,應(yīng)用Python軟件Jieba分詞包進(jìn)行文本分詞,將缺陷描述的文本信息按詞性切割成名詞、介詞、形容詞、動(dòng)詞等常見詞組,根據(jù)導(dǎo)入的電力專業(yè)常用詞庫(kù)進(jìn)行關(guān)鍵詞切分。然后,再使用TF-IDF算法對(duì)主變壓器,斷路器的缺陷文本關(guān)鍵詞進(jìn)行權(quán)重計(jì)算,并提取出設(shè)備類型、故障原因、故障部位、設(shè)備型號(hào)、介質(zhì)材質(zhì)、所屬電站、生產(chǎn)廠家等關(guān)鍵字。最后,應(yīng)用Python軟件詞云功能包wordcloud對(duì)TF-IDF算法提取出的關(guān)鍵字進(jìn)行自適應(yīng)的可視化處理,實(shí)現(xiàn)設(shè)備缺陷文本關(guān)鍵信息的快捷可視化展示[26-28]。
3.1.1 主變壓器缺陷多維分析
以某市公司2016年-2020年35kV以上主變壓器缺陷數(shù)據(jù)分析為例,通過對(duì)設(shè)備缺陷數(shù)據(jù)按設(shè)備生產(chǎn)廠家進(jìn)行分類匯總,可以發(fā)現(xiàn)缺陷數(shù)量排前5的生產(chǎn)廠家分別是A公司(17.82%),B公司(14.60%),C公司(11.79%),D公司(11.67%),E公司(9.63%),五者合計(jì)占比達(dá)65.51%,如圖1所示。
圖1 主變壓器缺陷廠家分布Fig.1 Distribution of main transformer defect manufacturers
再以A、B兩家生產(chǎn)廠家為研究對(duì)象,對(duì)缺陷原因子類進(jìn)行分類匯總,進(jìn)一步下鉆分析缺陷現(xiàn)象及相關(guān)原因,如圖2所示。通過充分挖掘電力數(shù)據(jù)中蘊(yùn)含的信息,可以針對(duì)性地指導(dǎo)生產(chǎn)廠家做好工藝質(zhì)量、設(shè)計(jì)選材等方面的提升。
圖2 A公司主變壓器缺陷情況Fig.2 Defects of main transformer of Company A
關(guān)聯(lián)分析兩家廠家的主變?nèi)毕輸?shù)據(jù),發(fā)現(xiàn)在2016年-2020年,A公司主變?nèi)毕菖c設(shè)備比為1.46∶1,其中漏油和銹蝕相關(guān)缺陷達(dá)到60%,B公司主變?nèi)毕菖c設(shè)備比為1.008∶1,主要缺陷為漏油滲油、銹蝕、污穢等缺陷,比例達(dá)66%,總體上看B公司設(shè)備表現(xiàn)優(yōu)于A公司。
3.1.2 斷路器缺陷多維分析
以某市公司2016年-2020年10kV及以上斷路器為例,通過對(duì)設(shè)備缺陷數(shù)據(jù)按設(shè)備生產(chǎn)廠家進(jìn)行分類匯總,可以發(fā)現(xiàn)缺陷數(shù)量排前5的分別為A公司(17.58%),B公司(15.1%),C公司(9.68%),D公司(7.41%),E公司(4.11%),五者合計(jì)(53.88%),如圖3所示。
圖3 斷路器廠家缺陷情況Fig.3 Defects of circuit breaker manufacturers
再以A、B兩家生產(chǎn)廠家為研究對(duì)象,對(duì)缺陷原因子類進(jìn)行分類匯總,進(jìn)一步下鉆分析缺陷現(xiàn)象及相關(guān)原因,如圖4所示,應(yīng)用大數(shù)據(jù)技術(shù)有效發(fā)現(xiàn)設(shè)備零件短板,促進(jìn)設(shè)備質(zhì)量提升。
圖4 A公司斷路器缺陷情況Fig.4 Defects of circuit breaker in company A
關(guān)聯(lián)分析2016年-2020年兩家廠家的斷路器缺陷數(shù)據(jù),可以發(fā)現(xiàn):A公司發(fā)生斷路器危急嚴(yán)重缺陷66次,主要缺陷為各種原因?qū)е麻_關(guān)無法合閘(開關(guān)變形、傾斜、卡死、拒分拒合等,占比28%)、指示器計(jì)數(shù)器異常(失靈、不正確、偏位或不清等,占比22%);B公司發(fā)生斷路器危急嚴(yán)重缺陷52次,其中指示器計(jì)數(shù)器異常占比超過30%,無法合閘與機(jī)構(gòu)箱老化進(jìn)水問題分別占比為15%與10%,老化進(jìn)水問題占比相較其他公司占比較高。以上問題均已反饋廠家,要求其做好產(chǎn)品質(zhì)量的提升整改。
本文對(duì)2016年-2020年某市公司主變、斷路器缺陷數(shù)據(jù)應(yīng)用時(shí)間序列模型開展了分析挖,及時(shí)掌握設(shè)備缺陷數(shù)據(jù)的變化規(guī)律,并對(duì)設(shè)備缺陷發(fā)生開展預(yù)測(cè)分析,為有針對(duì)性地制定設(shè)備檢修計(jì)劃、提供設(shè)備質(zhì)量提供參考依據(jù)。主要處理步驟包括:平穩(wěn)性檢驗(yàn)、自相關(guān)-偏相關(guān)系檢查、歷史數(shù)據(jù)分解分析、模型參數(shù)調(diào)整和模型預(yù)測(cè)。
(1)平穩(wěn)性檢驗(yàn)
應(yīng)用Python軟件statsmodels分析包,對(duì)主變、斷路器缺陷數(shù)量按時(shí)間序列開展平穩(wěn)性檢驗(yàn),關(guān)系如圖5所示,從樣本數(shù)據(jù)時(shí)序圖可以明顯地看出,它具有長(zhǎng)期趨勢(shì)成分和年周期變化成分,所以可認(rèn)為是非平穩(wěn)的序列。
圖5 缺陷時(shí)序數(shù)據(jù)示意圖Fig.5 Schematic diagram of defect timing data
(2)自相關(guān)-偏相關(guān)系檢查
基于statsmodels分析包,對(duì)樣本數(shù)據(jù)建立自相關(guān)-偏相關(guān)系數(shù)圖,通過觀察圖6可以發(fā)現(xiàn),樣本數(shù)據(jù)缺陷數(shù)量的自相關(guān)-偏相關(guān)系序列具有快速衰減的特性,顯示該序列為非純隨機(jī)序列,即是該序列包含著相關(guān)信息,序列的歷史信息對(duì)未來趨勢(shì)有影響,因此具有非常高的研究?jī)r(jià)值。
圖6 自相關(guān)-偏相關(guān)系數(shù)示意圖Fig.6 Schematic diagram of autocorrelation-partial correlation coefficient
(3)歷史數(shù)據(jù)分解分析
所謂歷史數(shù)據(jù)分解分析就是將時(shí)序數(shù)據(jù)分離成不同的成分。使用python軟件,調(diào)用statsmodels分析包,應(yīng)用seasonal_decompose模型算法,將一組連續(xù)的時(shí)間序列數(shù)據(jù)分解成長(zhǎng)期趨勢(shì)、季節(jié)趨勢(shì)和隨機(jī)成分,三者關(guān)系為:時(shí)序數(shù)據(jù)=長(zhǎng)期趨勢(shì)+季節(jié)趨勢(shì)+隨機(jī)成分,圖7為樣本數(shù)據(jù)的周期性分解情況。
圖7 周期性分解示意圖Fig.7 Schematic diagram of periodic decomposition
(4)模型參數(shù)調(diào)整
為進(jìn)一步提高時(shí)間序列模型對(duì)歷史數(shù)據(jù)的擬合準(zhǔn)確度、對(duì)未來預(yù)測(cè)的準(zhǔn)確,依據(jù)BIC準(zhǔn)則,校驗(yàn)該模型的p,q值,通常認(rèn)為BIC值越小的模型相對(duì)更優(yōu)。BIC準(zhǔn)則,它綜合考慮了殘差大小和自變量的個(gè)數(shù),殘差越小BIC值越小,自變量個(gè)數(shù)越多BIC值越大。本課題在實(shí)踐過程中,經(jīng)比較選擇p=0,q=1為最理想階數(shù)。
(5)模型預(yù)測(cè)
對(duì)分解出來的趨勢(shì)部分單獨(dú)調(diào)用statsmodels分析包內(nèi)的Arima模型做訓(xùn)練,預(yù)測(cè)出趨勢(shì)數(shù)據(jù)后,加上周期數(shù)據(jù)即作為最終的預(yù)測(cè)結(jié)果,誤差高低區(qū)間的設(shè)定來自剛剛分解出來的殘差residual數(shù)據(jù),然后對(duì)2020年后續(xù)數(shù)據(jù)進(jìn)行預(yù)測(cè),圖8所示。經(jīng)實(shí)際驗(yàn)證,2021年1月某市公司的設(shè)備缺陷預(yù)測(cè)值為57,實(shí)際值為59,偏差率3.39%,在合理范圍內(nèi)。
圖8 時(shí)序數(shù)據(jù)預(yù)測(cè)示意圖Fig.8 Schematic diagram of time series data prediction
在實(shí)際生產(chǎn)活動(dòng)過程中,輸變電設(shè)備缺陷描述信息通常是由現(xiàn)場(chǎng)人員根據(jù)實(shí)地觀察、經(jīng)驗(yàn)判斷后用通俗易懂的文字對(duì)各種現(xiàn)象進(jìn)行描述記錄的,由于用詞習(xí)慣、句子組織結(jié)構(gòu)的差異,傳統(tǒng)數(shù)據(jù)計(jì)算方式無法快速提取重點(diǎn)信息。同時(shí),在文本信息數(shù)量持續(xù)不斷增長(zhǎng)的情況下,人工閱讀文字獲取信息的效率低,還會(huì)發(fā)生信息提取不夠精準(zhǔn)、信息遺漏等問題。
本文應(yīng)用了NLP自然語言識(shí)別技術(shù),對(duì)2016年-2020年某地市公司主變、斷路器缺陷記錄內(nèi)的文本描述信息開展挖掘分析,結(jié)合文本信息提取與可視化技術(shù)將大量文本中的復(fù)雜文字內(nèi)容和規(guī)律用視覺符號(hào)表達(dá)出來,使人們能夠快速獲取到文本中蘊(yùn)含的關(guān)鍵信息。
自然語言識(shí)別主要步驟包括:構(gòu)建設(shè)備缺陷信息字典、創(chuàng)建中文停詞詞典、創(chuàng)建詞模型矩陣、提取關(guān)鍵詞信息、詞云可視化展示,如圖9所示。
圖9 設(shè)備缺陷文本分析示意圖Fig.9 Schematic diagram of text analysis of device defects
(1)構(gòu)建設(shè)備缺陷信息字典
根據(jù)設(shè)備主數(shù)據(jù)信息,構(gòu)建設(shè)備缺陷信息詞典,包括電站名稱、設(shè)備回路名稱、缺陷分類、零部件、廠家名稱、型號(hào)等專業(yè)詞匯,使軟件可以自動(dòng)識(shí)別并提取。
(2)創(chuàng)建中文停詞詞典
根據(jù)實(shí)踐情況,在Jieba分詞包中,補(bǔ)充創(chuàng)建設(shè)備缺陷描述中文停用詞詞典,去除各地區(qū)的常用停用詞(虛擬詞,語氣助詞,副詞,符號(hào),一個(gè)字的詞……)。
(3)創(chuàng)建詞模型矩陣
使用Python軟件,調(diào)用sklearn中tf-idf算法將文本中的詞語轉(zhuǎn)換為詞頻矩陣,計(jì)算詞頻大于2的詞語相似度,相似度高的詞語可以在上下文中替換并合并統(tǒng)計(jì)結(jié)果,替換原始矩陣后文本預(yù)處理完成。
(4)提取關(guān)鍵詞信息
通過TfidfTransformer類中fit_transform()方法統(tǒng)計(jì)每個(gè)詞語的tf-idf權(quán)值,進(jìn)行關(guān)鍵詞提取。
(5)詞云可視化展示
對(duì)設(shè)備缺陷關(guān)鍵詞按頻度統(tǒng)計(jì)分析,并通過詞云可視化技術(shù)進(jìn)行展示。
圖10是通過對(duì)主變故障文本記錄進(jìn)行分詞處理、詞頻統(tǒng)計(jì)、布局設(shè)計(jì)和實(shí)現(xiàn)后得到的關(guān)鍵詞云,反映主變故障主要圍繞“儲(chǔ)油柜”,“冷卻器”,“呼吸器”這些關(guān)鍵詞,應(yīng)對(duì)相關(guān)的設(shè)備零件加強(qiáng)監(jiān)測(cè)。采用這種手段在信息獲取效率和準(zhǔn)確度方面具有明顯優(yōu)勢(shì),是一種十分簡(jiǎn)潔、直觀又有效的非結(jié)構(gòu)性文本數(shù)據(jù)的挖掘方法。
圖10 設(shè)備缺陷信息詞云展示圖Fig.10 Display diagram of word cloud of device defect information
通過對(duì)電力設(shè)備缺陷進(jìn)行大數(shù)據(jù)分析研究,本文研究的數(shù)據(jù)分析方法在實(shí)際應(yīng)用中具有以下實(shí)際意義:
(1)電網(wǎng)公司基于設(shè)備缺陷數(shù)據(jù)融合與挖掘技術(shù),對(duì)各類設(shè)備檔案數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合并提取有價(jià)值的信息,助力設(shè)備缺陷的精準(zhǔn)高效管理,促進(jìn)設(shè)備質(zhì)量提升,夯實(shí)電網(wǎng)本質(zhì)安全基礎(chǔ)。
(2)應(yīng)用METABASE數(shù)據(jù)開源透視圖工具,從多個(gè)維度綜合分析電網(wǎng)內(nèi)主變、斷路器等主設(shè)備的運(yùn)行狀況,對(duì)開關(guān)拒動(dòng)、主變漏油等危急嚴(yán)重缺陷的有效跟蹤監(jiān)測(cè),客觀提示主要設(shè)備的問題短板,反饋給設(shè)備廠家,精準(zhǔn)指導(dǎo)設(shè)備質(zhì)量持續(xù)改進(jìn),有效消除各類電網(wǎng)安全隱患。
(3)創(chuàng)新應(yīng)用時(shí)間序列算法,從長(zhǎng)趨勢(shì)、周期趨勢(shì)、隨機(jī)因素三個(gè)維度分析了設(shè)備缺陷發(fā)生的規(guī)律,初步實(shí)現(xiàn)了對(duì)設(shè)備缺陷情況的預(yù)測(cè),有針對(duì)性地加強(qiáng)了設(shè)備質(zhì)量管理。
(4)基于自然語言識(shí)別技術(shù),從海量非結(jié)構(gòu)化數(shù)據(jù)中提取出與設(shè)備缺陷高度相關(guān)的文本信息,大幅度提升了文本數(shù)據(jù)的利用效率。
本文詳細(xì)介紹了基于多維數(shù)據(jù)透視、時(shí)間序列模型、自然語言識(shí)別分析等3種大數(shù)據(jù)分析方法,并結(jié)合工作實(shí)踐開展了面向設(shè)備質(zhì)量提升的電力設(shè)備缺陷大數(shù)據(jù)分析研究,為廣大讀者在實(shí)際生產(chǎn)中處理相關(guān)問題提供了參考。