徐敏,洪德華,王鵬,孫佳麗
(國(guó)網(wǎng)安徽省電力有限公司信息通信分公司,合肥230041)
全球進(jìn)入互聯(lián)網(wǎng)和數(shù)字經(jīng)濟(jì)時(shí)代,新的生產(chǎn)關(guān)系和經(jīng)濟(jì)形態(tài)正在形成[1-2]。以“大云物移智”為代表的新一代信息通信技術(shù)發(fā)展日新月異,已成為傳統(tǒng)產(chǎn)業(yè)升級(jí)和新型業(yè)務(wù)發(fā)展的關(guān)鍵驅(qū)動(dòng)力[3-4]?;ヂ?lián)網(wǎng)作為一種新的生產(chǎn)消費(fèi)模式,其應(yīng)用領(lǐng)域正在從消費(fèi)互聯(lián)網(wǎng)向產(chǎn)業(yè)互聯(lián)網(wǎng)快速拓展[5-6]。數(shù)據(jù)作為一種新的生產(chǎn)資料,其應(yīng)用價(jià)值不斷孕育新的業(yè)務(wù)模式和商業(yè)模式?;ヂ?lián)網(wǎng)和數(shù)據(jù)日益成為價(jià)值再造的核心要素與經(jīng)濟(jì)發(fā)展的新動(dòng)能[7-8]。
數(shù)據(jù)中臺(tái)是公司重要基礎(chǔ)支撐性平臺(tái),近年來(lái)電力企業(yè)建成數(shù)據(jù)中臺(tái),初步構(gòu)建了數(shù)據(jù)全鏈路監(jiān)測(cè)分析體系,但是在數(shù)據(jù)監(jiān)測(cè)的效率、監(jiān)測(cè)的覆蓋度等方面有待進(jìn)一步提升[9-10]。本文重點(diǎn)研究數(shù)據(jù)中臺(tái)的全鏈路監(jiān)控體系,突破片面的數(shù)據(jù)監(jiān)測(cè)技術(shù),構(gòu)建全鏈路覆蓋的監(jiān)測(cè)能力,推動(dòng)形成覆蓋數(shù)據(jù)全生命周期的全鏈路監(jiān)測(cè)解決方案,全面提升經(jīng)營(yíng)決策、運(yùn)營(yíng)管理、業(yè)務(wù)拓展和客戶(hù)服務(wù)等方面的支撐能力。
數(shù)據(jù)服務(wù)的運(yùn)行狀態(tài)數(shù)據(jù)的測(cè)量獲取方法可分為主動(dòng)和被動(dòng)兩種形式。被動(dòng)監(jiān)測(cè)主要方式是由網(wǎng)絡(luò)設(shè)備記錄通過(guò)該設(shè)備的如數(shù)據(jù)包、錯(cuò)誤、流量等數(shù)據(jù),周期性地發(fā)送給管理站,存儲(chǔ)到數(shù)據(jù)庫(kù)或直接分析。主動(dòng)監(jiān)測(cè)主要方法是由管理員或管理控制設(shè)備主動(dòng)向網(wǎng)絡(luò)設(shè)備請(qǐng)求監(jiān)測(cè)數(shù)據(jù)或向網(wǎng)絡(luò)中發(fā)送探針來(lái)主動(dòng)獲取數(shù)據(jù)。
數(shù)據(jù)中臺(tái)與邊緣計(jì)算協(xié)同的大數(shù)據(jù)監(jiān)測(cè)分析要將數(shù)據(jù)中臺(tái)與邊緣計(jì)算結(jié)合起來(lái),協(xié)同處理來(lái)自智能感知終端不斷產(chǎn)生的新數(shù)據(jù),協(xié)同部署和支撐數(shù)據(jù)監(jiān)測(cè)分析應(yīng)用,將數(shù)據(jù)中臺(tái)的數(shù)據(jù)處理和監(jiān)測(cè)分析應(yīng)用承擔(dān)的計(jì)算壓力分配給各邊緣側(cè),減輕數(shù)據(jù)中臺(tái)的計(jì)算壓力,提高數(shù)據(jù)監(jiān)測(cè)分析的能力。
數(shù)據(jù)全鏈路額是指對(duì)系統(tǒng)數(shù)據(jù)從計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類(lèi)數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
根據(jù)電力企業(yè)兩級(jí)貫通要求,主要是實(shí)現(xiàn)兩級(jí)同構(gòu)、異構(gòu)數(shù)據(jù)中臺(tái)之間數(shù)據(jù)的監(jiān)控,通過(guò)統(tǒng)一交換平臺(tái)實(shí)現(xiàn)批量數(shù)據(jù)傳輸和實(shí)時(shí)數(shù)據(jù)橫縱向的貫通。橫向完成本級(jí)業(yè)務(wù)系統(tǒng)數(shù)據(jù)傳輸,縱向?qū)崿F(xiàn)總部和二級(jí)平臺(tái)之間數(shù)據(jù)交換。數(shù)據(jù)監(jiān)測(cè)的總體架構(gòu)如圖1 所示。
圖1 數(shù)據(jù)監(jiān)測(cè)架構(gòu)
數(shù)據(jù)傳輸過(guò)程中,當(dāng)現(xiàn)有網(wǎng)絡(luò)系統(tǒng)出現(xiàn)故障時(shí),網(wǎng)絡(luò)可能出現(xiàn)阻塞、丟包問(wèn)題,前端傳感器采集的數(shù)據(jù)將無(wú)法完整準(zhǔn)確地傳輸至服務(wù)器端。這種情況下會(huì)嚴(yán)重影響數(shù)據(jù)鏈路監(jiān)控的準(zhǔn)確性。為了應(yīng)對(duì)這一問(wèn)題,提出一種數(shù)據(jù)旁路捕獲和同步方法。在該方法中,首先基于網(wǎng)卡混雜工作模式實(shí)現(xiàn)數(shù)據(jù)的旁路捕獲,其次基于校驗(yàn)值對(duì)比法實(shí)現(xiàn)旁路數(shù)據(jù)庫(kù)和主數(shù)據(jù)庫(kù)的數(shù)據(jù)同步。數(shù)據(jù)旁路捕獲過(guò)程無(wú)需停機(jī),也不影響現(xiàn)有的網(wǎng)絡(luò)拓?fù)浜凸ぷ鳡顟B(tài),有利于數(shù)據(jù)鏈路的安全穩(wěn)定運(yùn)行。旁路數(shù)據(jù)庫(kù)和主數(shù)據(jù)庫(kù)的數(shù)據(jù)同步基于校驗(yàn)值的對(duì)比,無(wú)需直接傳輸原始數(shù)據(jù),顯著降低了旁路數(shù)據(jù)庫(kù)和主數(shù)據(jù)庫(kù)之間的通信量,監(jiān)測(cè)流程如圖2 所示。
圖2 數(shù)據(jù)旁路捕獲及同步流程
旁路數(shù)據(jù)實(shí)時(shí)采集狀態(tài)數(shù)據(jù),網(wǎng)關(guān)在將量測(cè)數(shù)據(jù)轉(zhuǎn)發(fā)至主服務(wù)器時(shí),旁路服務(wù)器也能夠通過(guò)數(shù)據(jù)旁路捕獲到這些數(shù)據(jù)。與出現(xiàn)故障的通信網(wǎng)絡(luò)不同,新增設(shè)的數(shù)據(jù)旁路通道是無(wú)故障的,能夠保障網(wǎng)關(guān)轉(zhuǎn)發(fā)的數(shù)據(jù)及時(shí)準(zhǔn)確地傳輸?shù)脚月贩?wù)器上。此后,將旁路服務(wù)器和主服務(wù)器上的數(shù)據(jù)進(jìn)行分塊,并逐塊比較其校驗(yàn)碼。當(dāng)旁路服務(wù)器和主服務(wù)器上同一數(shù)據(jù)塊的校驗(yàn)碼不同時(shí),表明主服務(wù)器上接收到的數(shù)據(jù)是有誤的。此時(shí),將旁路服務(wù)器上的數(shù)據(jù)塊發(fā)送至主服務(wù)器上,并覆蓋主服務(wù)器上對(duì)應(yīng)數(shù)據(jù)塊,從而實(shí)現(xiàn)數(shù)據(jù)同步。
在數(shù)據(jù)旁路捕獲及同步過(guò)程中,旁路服務(wù)器對(duì)得到的數(shù)據(jù)包進(jìn)行解析、過(guò)濾和重組。首先旁路服務(wù)器對(duì)得到的數(shù)據(jù)包進(jìn)行解析,得到數(shù)據(jù)包的目的地址及對(duì)應(yīng)數(shù)據(jù);其次,旁路服務(wù)器對(duì)數(shù)據(jù)包進(jìn)行過(guò)濾,得到與主服務(wù)器有相同目的地址的數(shù)據(jù);旁路服務(wù)器分析與主服務(wù)器有相同目的地址的數(shù)據(jù),獲取其應(yīng)用層協(xié)議類(lèi)型、分片和偏移信息,以及應(yīng)用數(shù)據(jù);旁路服務(wù)器根據(jù)分片和偏移信息對(duì)應(yīng)用數(shù)據(jù)進(jìn)行重組,得到重組后的數(shù)據(jù)。旁路捕獲流程如圖3 所示。
圖3 數(shù)據(jù)旁路捕獲流程
由于通常狀況下,主服務(wù)器上大部分?jǐn)?shù)據(jù)塊是完整準(zhǔn)確的,為了降低旁路服務(wù)器和主服務(wù)器之間的數(shù)據(jù)通信量,并提升數(shù)據(jù)塊比對(duì)的效率,在本方法中將基于校驗(yàn)碼而不是原始數(shù)據(jù)塊進(jìn)行比較。在所述主服務(wù)器上,根據(jù)應(yīng)用數(shù)據(jù)特征量和偏移量搜索到第一數(shù)據(jù)塊對(duì)應(yīng)的第二數(shù)據(jù)塊,并生成第二校驗(yàn)碼;將第二校驗(yàn)碼與第一校驗(yàn)碼進(jìn)行比較,如果相同,則輪詢(xún)下一數(shù)據(jù)塊,直至遍歷旁路服務(wù)器上的全部數(shù)據(jù)塊;如果不同,則通知旁路服務(wù)器將第一數(shù)據(jù)塊發(fā)送至主服務(wù)器替換第二數(shù)據(jù)塊,輪詢(xún)下一數(shù)據(jù)塊,直至遍歷旁路服務(wù)器上的全部數(shù)據(jù)塊。數(shù)據(jù)同步過(guò)程如圖4 所示。
圖4 數(shù)據(jù)同步流程
由于量測(cè)數(shù)據(jù)的采集速度可視為恒定,數(shù)據(jù)塊越小,校驗(yàn)碼生成、傳輸和對(duì)比的次數(shù)越多,但數(shù)據(jù)同步的時(shí)延越小,需要傳輸和同步的原始數(shù)據(jù)量越??;數(shù)據(jù)塊越大,校驗(yàn)碼生成、傳輸和對(duì)比的次數(shù)越少,但數(shù)據(jù)同步的時(shí)延越大,需要傳輸和同步的原始數(shù)據(jù)量越多,在本項(xiàng)目中設(shè)置的數(shù)據(jù)塊大小為1M。數(shù)據(jù)同步流程步驟如下:
步驟1:在旁路服務(wù)器上,對(duì)數(shù)據(jù)塊A 計(jì)算md5 校驗(yàn)碼Amd5;
步驟2:旁路服務(wù)器將數(shù)據(jù)塊A 的md5 校驗(yàn)碼,以及用于確定數(shù)據(jù)塊位置的應(yīng)用數(shù)據(jù)特征量和偏移量發(fā)至主服務(wù)器;
步驟3:主服務(wù)器依據(jù)數(shù)據(jù)特征量和偏移量搜索對(duì)應(yīng)的數(shù)據(jù)塊B
步驟4:計(jì)算數(shù)據(jù)塊B 的md5 校驗(yàn)碼Bmd5;
步驟5:如果數(shù)據(jù)塊B 的md5 校驗(yàn)碼Bmd5 與數(shù)據(jù)塊A 的md5 校驗(yàn)碼Amd5 相同,則跳轉(zhuǎn)至步驟8;
步驟6:如果數(shù)據(jù)塊B 的md5 校驗(yàn)碼Bmd5 與數(shù)據(jù)塊A 的md5 校驗(yàn)碼Amd5 不同,則通知旁路服務(wù)器將數(shù)據(jù)塊A 發(fā)送至主服務(wù)器;
步驟7:用數(shù)據(jù)塊A 覆蓋數(shù)據(jù)塊B;
步驟8:通知旁路服務(wù)器處理下一數(shù)據(jù)塊。
本文依托國(guó)網(wǎng)安徽電力公司數(shù)據(jù)中臺(tái)進(jìn)行測(cè)試驗(yàn)證,模擬驗(yàn)證數(shù)據(jù)全鏈路監(jiān)測(cè)的流程,通過(guò)與傳統(tǒng)的基于日志的全鏈路監(jiān)測(cè)方法進(jìn)行比對(duì)測(cè)試,測(cè)試24 小時(shí)內(nèi)兩種監(jiān)測(cè)捕獲的鏈路異常情況,測(cè)試結(jié)果如圖5所示。
圖5 實(shí)驗(yàn)驗(yàn)證
圖中柱狀體代表傳統(tǒng)基于日志的全鏈路監(jiān)測(cè)方法監(jiān)測(cè)的鏈路異常數(shù)量,折線代表本文設(shè)計(jì)的基于旁路的數(shù)據(jù)鏈路異常監(jiān)測(cè)方法監(jiān)測(cè)的鏈路異常數(shù)量,通過(guò)實(shí)驗(yàn)數(shù)據(jù)結(jié)論可以分析得出本文設(shè)計(jì)的全鏈路監(jiān)測(cè)方法的可行性和有效性。
針對(duì)當(dāng)前電力企業(yè)數(shù)字化轉(zhuǎn)型的需要,本文提出了基于數(shù)據(jù)中臺(tái)的數(shù)據(jù)全鏈路監(jiān)控方案,給出了數(shù)據(jù)監(jiān)控的總體架構(gòu),闡述數(shù)據(jù)鏈路監(jiān)測(cè)流程,設(shè)計(jì)了鏈路異常捕獲以及數(shù)據(jù)同步方法,通過(guò)實(shí)驗(yàn)驗(yàn)證了基于數(shù)據(jù)中臺(tái)的數(shù)據(jù)全鏈路監(jiān)控的可行性和有效性。