潘 宇,張林林,潘光麗
(中國(guó)長(zhǎng)江電力股份有限公司,宜昌 443000)
當(dāng)前,信息通信技術(shù)對(duì)中國(guó)電力工業(yè)的價(jià)值貢獻(xiàn)正處于量變到質(zhì)變的關(guān)鍵節(jié)點(diǎn),電力數(shù)據(jù)正爆發(fā)性增長(zhǎng)[1],電力大數(shù)據(jù)技術(shù)在電力系統(tǒng)的各領(lǐng)域內(nèi)都開展了相關(guān)研究和探索應(yīng)用。
電力光纜利用置于包覆護(hù)套中多根光纖作為傳輸介質(zhì),以光纖通信技術(shù)為基礎(chǔ),傳輸距離遠(yuǎn),單位衰耗低,光特性決定了其不能彎折且接續(xù)困難的特點(diǎn)。以電力生產(chǎn)常用的OPGW(光纖復(fù)合架空地線)為例,光纖被放置在架空高壓輸電線的地線中,一般不會(huì)受到人為損壞,但發(fā)生故障時(shí)亦不易修復(fù)。本次研究的電力光纜數(shù)據(jù)可分為:光纜監(jiān)測(cè)數(shù)據(jù),光纜出廠信息,運(yùn)維記錄,環(huán)境信息等。
光纜監(jiān)測(cè)數(shù)據(jù)是本次研究的主要數(shù)據(jù)來(lái)源,其數(shù)據(jù)取自光纜在線監(jiān)測(cè)系統(tǒng)。系統(tǒng)利用光時(shí)域反射儀、光開關(guān)等設(shè)備對(duì)重要光纜的空余纖芯中各選一芯進(jìn)行打光監(jiān)測(cè)。光纜監(jiān)測(cè)數(shù)據(jù)被保存到數(shù)據(jù)庫(kù)中,數(shù)據(jù)類型有文本、數(shù)值、大字段數(shù)據(jù)等。
(1)距離信息數(shù)據(jù)。系統(tǒng)記錄了測(cè)試點(diǎn)與到達(dá)站點(diǎn)的距離信息,由于光纜在實(shí)際布放時(shí)多次轉(zhuǎn)接,故每條數(shù)據(jù)會(huì)包含多段距離信息。
(2)衰耗數(shù)據(jù)。衰耗數(shù)據(jù)記錄了監(jiān)測(cè)光纖在傳輸過(guò)程中光衰減情況,既包含了總衰耗信息,也包含了某段距離的衰耗值。該數(shù)據(jù)信息量大,作為非結(jié)構(gòu)化數(shù)據(jù)保存在二進(jìn)制大對(duì)象BLOB 字段中。
(3)時(shí)間數(shù)據(jù)。光纜在線監(jiān)測(cè)系統(tǒng)一般采用輪回打光的方式運(yùn)行,也就是定期監(jiān)測(cè)每一條光纜,這種測(cè)試方式會(huì)記錄時(shí)間信息。
(4)參考數(shù)據(jù)。參考數(shù)據(jù)是系統(tǒng)建成時(shí)根據(jù)初期測(cè)試形成的經(jīng)驗(yàn)數(shù)據(jù),是系統(tǒng)判斷光纜運(yùn)行情況的依據(jù)。
光纜出廠信息一般由制造光纜廠商提供,包含了光纜的品牌,應(yīng)用場(chǎng)景分類、纜芯和內(nèi)部填充結(jié)構(gòu)、護(hù)套類型、規(guī)格型號(hào)等。各廠商制作光纜的技術(shù)水平不等,且不同類型的光纜單位距離的衰耗不盡相同,因此光纜出廠信息可作為光纜數(shù)據(jù)分析的一項(xiàng)指標(biāo)。
Hadoop 是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),可以在大量中低端的硬件設(shè)備搭建的集群上運(yùn)行應(yīng)用程序,構(gòu)建一個(gè)具有高可靠性和良好擴(kuò)展性的并行分布式系統(tǒng)。作為一個(gè)開源的平臺(tái),其開發(fā)成本低,擴(kuò)展性高,效率高且具有高容錯(cuò)能力。
本次分析研究的數(shù)據(jù)多源化明顯,數(shù)據(jù)量較大且數(shù)據(jù)結(jié)構(gòu)復(fù)雜,既有大字段非結(jié)構(gòu)化數(shù)據(jù)、excel,word 類半結(jié)構(gòu)化數(shù)據(jù),還有氣溫信息類互聯(lián)網(wǎng)數(shù)據(jù)。要研究電力大數(shù)據(jù),錄入分析數(shù)據(jù)前,需要充分了解研究對(duì)象,從而獲取“有用”的數(shù)據(jù)。
光纜監(jiān)測(cè)系統(tǒng)數(shù)據(jù)庫(kù)中包含了大量的庫(kù)表。通過(guò)分析光纜監(jiān)測(cè)系統(tǒng)工作模式,收集整理出待分析的數(shù)據(jù)庫(kù)表名、字段等內(nèi)容,并將相關(guān)的數(shù)據(jù)庫(kù)表導(dǎo)出收集的數(shù)據(jù)庫(kù)表包括光纜事件表、光纜曲線表、光纜站點(diǎn)結(jié)構(gòu)表等。有些數(shù)據(jù)還存在重復(fù)和遺漏信息的情況,需要對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn),糾正存在的錯(cuò)誤。
算法的設(shè)計(jì)與用戶需求緊密聯(lián)系,其計(jì)算結(jié)果能給予用戶分析結(jié)論。下文介紹本次大數(shù)據(jù)分析中有代表性的算法研究。
2.3.1 溫度-衰耗相關(guān)性研究
在這項(xiàng)研究中,試圖找到光纜所在地的溫度與衰耗間的關(guān)聯(lián),設(shè)計(jì)了相關(guān)性判斷算法,即Pearson 相關(guān)系數(shù)算法:
(1)通過(guò)數(shù)據(jù)匯聚實(shí)現(xiàn)每一個(gè)衰耗值對(duì)應(yīng)一個(gè)氣溫值。
(2)獲取等長(zhǎng)度的氣溫?cái)?shù)據(jù)temperature、衰耗值loss。
(3)計(jì)算temperature 和loss 的相關(guān)系數(shù):
根據(jù)分析結(jié)果得到結(jié)論,各條光纜的總衰耗值并不受溫度影響,一定程度上印證了本單位電力光纜的可靠性。
2.3.2 光纜的熔接情況研究
光纜經(jīng)過(guò)熔接點(diǎn)時(shí)會(huì)有單位距離衰耗突然增大的情況,本研究針對(duì)這個(gè)特點(diǎn),設(shè)計(jì)了熔點(diǎn)范圍預(yù)測(cè)算法。該計(jì)算方法分為三個(gè)步驟:(1)除噪聲點(diǎn);(2)平滑數(shù)據(jù);(3)利用平滑后的差分值計(jì)算熔點(diǎn)區(qū)間。通過(guò)這個(gè)算法,項(xiàng)目組成功預(yù)測(cè)了部分熔接點(diǎn)的位置及影響范圍。
2.3.3 光纜的運(yùn)維情況研究
本研究根據(jù)讀取多張excel 表格,獲取了光纜故障信息。通過(guò)計(jì)數(shù)算法,獲取關(guān)鍵字的出現(xiàn)次數(shù),給與一個(gè)初步的分析。該研究能輔助運(yùn)維人員了解故障高發(fā)地點(diǎn)、光纜段等信息。
本文基于大數(shù)據(jù)技術(shù),提出了一套低成本、易復(fù)制、可推廣的大數(shù)據(jù)分析方法,為電力光纜的運(yùn)維保障提供了有力支撐,為研究其他電力生產(chǎn)數(shù)據(jù)提供了研究的新思路,具體表現(xiàn)如下:一是在硬件設(shè)備“低投入,零投入”的前提下,可利用現(xiàn)有設(shè)備自主搭建Hadoop 大數(shù)據(jù)平臺(tái);二是大數(shù)據(jù)平臺(tái)可實(shí)現(xiàn)電力通信生產(chǎn)數(shù)據(jù)的分析并得到有價(jià)值的結(jié)論;三是多元化的數(shù)據(jù)來(lái)源和靈活的算法設(shè)計(jì)使其可拓展為其他電力生產(chǎn)數(shù)據(jù)分析,具備在電力企業(yè)內(nèi)推廣的潛力。