• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)網(wǎng)格的電信IT系統(tǒng)智能運(yùn)維體系

      2018-07-03 08:38:58郭云峰蔡珩戈磊
      電信科學(xué) 2018年6期
      關(guān)鍵詞:日志運(yùn)維網(wǎng)格

      郭云峰,蔡珩,戈磊

      ?

      基于大數(shù)據(jù)網(wǎng)格的電信IT系統(tǒng)智能運(yùn)維體系

      郭云峰,蔡珩,戈磊

      (中國(guó)電信股份有限公司上海分公司,上海 200041)

      提出利用電信大數(shù)據(jù)平臺(tái)的優(yōu)勢(shì),創(chuàng)新地利用人工智能的自學(xué)習(xí)運(yùn)維模式,通過(guò)采集并分析IT系統(tǒng)的海量日志數(shù)據(jù)主動(dòng)感知各個(gè)IT系統(tǒng)節(jié)點(diǎn)的運(yùn)行狀態(tài),通過(guò)智能圖計(jì)算和網(wǎng)格星云圖直觀展示各個(gè)IT系統(tǒng)節(jié)點(diǎn)的影響力、健康度以及依賴關(guān)系,利用Keras深度學(xué)習(xí)框架實(shí)現(xiàn)節(jié)點(diǎn)故障智能預(yù)測(cè),構(gòu)建電信IT系統(tǒng)大數(shù)據(jù)網(wǎng)格智能運(yùn)維體系。

      大數(shù)據(jù);網(wǎng)格;智能運(yùn)維;智能圖計(jì)算;網(wǎng)格星云圖;故障預(yù)測(cè)

      1 引言

      目前電信傳統(tǒng)運(yùn)維體系在運(yùn)維過(guò)程中存在“系統(tǒng)變化感知滯后”“未來(lái)故障無(wú)法預(yù)測(cè)”“故障響應(yīng)慢成本高”三大痛點(diǎn)。針對(duì)上述痛點(diǎn),中國(guó)電信股份有限公司上海分公司(以下簡(jiǎn)稱上海電信)對(duì)現(xiàn)有的運(yùn)維體系進(jìn)行量子化劃分,同時(shí)利用國(guó)際先進(jìn)的大數(shù)據(jù)智能圖計(jì)算分析技術(shù)和Keras深度學(xué)習(xí)算法,創(chuàng)新性地推出了大數(shù)據(jù)網(wǎng)格智能運(yùn)維方案,可以大大提升電信IT系統(tǒng)的運(yùn)維能力,主要表現(xiàn)在以下方面。

      ? 電信傳統(tǒng)運(yùn)維需要預(yù)先定義各個(gè)節(jié)點(diǎn)的功能范圍以及系統(tǒng)之間的連接,系統(tǒng)變化感知滯后。大數(shù)據(jù)網(wǎng)格智能運(yùn)維利用電信大數(shù)據(jù)平臺(tái)的優(yōu)勢(shì),通過(guò)電信IT系統(tǒng)海量日志的自動(dòng)采集及分析,主動(dòng)感知IT系統(tǒng)節(jié)點(diǎn)運(yùn)行狀態(tài)的變化。

      ? 電信傳統(tǒng)運(yùn)維不提供電信IT系統(tǒng)各節(jié)點(diǎn)的點(diǎn)、線、面關(guān)系的分析及展示功能。大數(shù)據(jù)網(wǎng)格智能運(yùn)維通過(guò)構(gòu)建大數(shù)據(jù)運(yùn)維網(wǎng)格模型,采用網(wǎng)格星云圖直觀展示各個(gè)系統(tǒng)節(jié)點(diǎn)的影響力、健康度以及依賴關(guān)系,實(shí)現(xiàn)IT系統(tǒng)節(jié)點(diǎn)的立體感知。

      ? 電信傳統(tǒng)運(yùn)維的告警處理屬于事后人工修復(fù),故障響應(yīng)時(shí)間長(zhǎng)。大數(shù)據(jù)網(wǎng)格智能運(yùn)維采用人工智能的深度學(xué)習(xí)運(yùn)維模式,預(yù)測(cè)各個(gè)系統(tǒng)節(jié)點(diǎn)未來(lái)可能發(fā)生的潛在故障,真正實(shí)現(xiàn)“防患于未然”。

      綜上所述,大數(shù)據(jù)網(wǎng)格智能運(yùn)維實(shí)現(xiàn)了主動(dòng)化、智能化的電信IT系統(tǒng)運(yùn)維變革,大大提升了電信IT系統(tǒng)的維護(hù)效率,同時(shí)節(jié)約了電信IT系統(tǒng)維護(hù)成本,滿足電信智慧運(yùn)維的需求。

      2 運(yùn)維智能化變革機(jī)遇

      2.1 傳統(tǒng)運(yùn)維的痛點(diǎn)

      電信傳統(tǒng)運(yùn)維體系在運(yùn)維過(guò)程中存在以下痛點(diǎn)。

      ? 傳統(tǒng)運(yùn)維需要預(yù)先定義各個(gè)節(jié)點(diǎn)的功能范圍以及系統(tǒng)之間的連接,但是實(shí)際生產(chǎn)過(guò)程中,各個(gè)節(jié)點(diǎn)的功能經(jīng)常升級(jí)擴(kuò)容而且節(jié)點(diǎn)連接也經(jīng)常發(fā)生變化,傳統(tǒng)運(yùn)維無(wú)法自動(dòng)感知上述變化,將出現(xiàn)嚴(yán)重系統(tǒng)變化更新滯后的問(wèn)題。

      ? 傳統(tǒng)運(yùn)維通常是根據(jù)系統(tǒng)輸出的日志,分析系統(tǒng)歷史狀態(tài)的信息和告警,無(wú)法提供預(yù)測(cè)未來(lái)故障的關(guān)鍵智能分析功能,不能及時(shí)發(fā)現(xiàn)系統(tǒng)可能發(fā)生的潛在故障,無(wú)法實(shí)現(xiàn)“防患于未然”。

      ? 傳統(tǒng)運(yùn)維產(chǎn)生告警通知維護(hù)人員進(jìn)行維修,屬于事后的人工修復(fù),故障的響應(yīng)時(shí)間為小時(shí)級(jí)別甚至天級(jí)別,不能滿足實(shí)時(shí)性高的業(yè)務(wù)需求;系統(tǒng)運(yùn)維人員需要花費(fèi)大部分時(shí)間和精力處理一些簡(jiǎn)單重復(fù)的問(wèn)題,體力勞動(dòng)量偏大,工作效率低,需要投入大量的維護(hù)資源。

      綜上所述,電信傳統(tǒng)運(yùn)維體系已不能滿足現(xiàn)有業(yè)務(wù)發(fā)展的需要,需要引入智能化運(yùn)維體系,實(shí)現(xiàn)系統(tǒng)變化自動(dòng)感知、主動(dòng)預(yù)測(cè)未來(lái)故障、故障自動(dòng)派單修復(fù),以提升電信IT系統(tǒng)的運(yùn)維水平,增強(qiáng)企業(yè)競(jìng)爭(zhēng)力。

      2.2 大數(shù)據(jù)時(shí)代的機(jī)遇

      電信傳統(tǒng)運(yùn)維體系通常采用C/S以及B/S架構(gòu)的第二代數(shù)據(jù)處理技術(shù),面對(duì)海量數(shù)據(jù),系統(tǒng)利用關(guān)系型數(shù)據(jù)庫(kù)和復(fù)雜SQL語(yǔ)言的傳統(tǒng)數(shù)據(jù)處理方法將占用大量處理與存儲(chǔ)資源,造成承載的服務(wù)器負(fù)載過(guò)高,執(zhí)行效率低下,無(wú)法勝任大數(shù)據(jù)時(shí)代的要求。

      為了應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn),上海電信構(gòu)建了大規(guī)模的Hadoop大數(shù)據(jù)平臺(tái),通過(guò)分散存儲(chǔ)滿足海量IT系統(tǒng)日志的存儲(chǔ)需求,利用并行計(jì)算實(shí)現(xiàn)節(jié)點(diǎn)主動(dòng)感知和大數(shù)據(jù)網(wǎng)格構(gòu)建,同時(shí)利用深度學(xué)習(xí)實(shí)現(xiàn)故障智能預(yù)測(cè),從而為上海電信實(shí)施大數(shù)據(jù)網(wǎng)格和智能化運(yùn)維提供了必備的條件。

      2.3 人工智能運(yùn)維應(yīng)用

      電信傳統(tǒng)運(yùn)維體系采用預(yù)定義運(yùn)維模式,通過(guò)人工預(yù)先定義各個(gè)IT系統(tǒng)的節(jié)點(diǎn)配置。同時(shí)由于系統(tǒng)不具備大數(shù)據(jù)分析挖掘能力,所以不能實(shí)時(shí)感知IT系統(tǒng)的節(jié)點(diǎn)運(yùn)行狀態(tài),節(jié)點(diǎn)的影響力、健康度以及依賴關(guān)系,也不能提供故障預(yù)測(cè)等智能分析功能。

      日益興盛的人工智能技術(shù),讓人們意識(shí)到賦予電信IT系統(tǒng)“智能化”是大趨勢(shì)。AIOps(artificial intelligence for IT operations)是將AI人工智能用于IT運(yùn)維領(lǐng)域的人工智能平臺(tái),結(jié)合大數(shù)據(jù)、機(jī)器學(xué)習(xí)和其他技術(shù)來(lái)支持所有主要的IT運(yùn)營(yíng)功能。

      上海電信創(chuàng)新地利用人工智能的全文檢索算法,通過(guò)建立自我感知模式,可以主動(dòng)發(fā)現(xiàn)系統(tǒng)節(jié)點(diǎn),感知節(jié)點(diǎn)間的真實(shí)拓?fù)潢P(guān)聯(lián),自動(dòng)生成點(diǎn)線面立體運(yùn)維網(wǎng)格;同時(shí)通過(guò)海量日志不斷訓(xùn)練深度學(xué)習(xí)模型,可以實(shí)現(xiàn)運(yùn)維故障智能預(yù)測(cè)。

      正是通過(guò)引入全文檢索和深度學(xué)習(xí)等人工智能算法,才能顛覆傳統(tǒng)網(wǎng)管的預(yù)定義模式,為上海電信實(shí)施大數(shù)據(jù)網(wǎng)格和智能化運(yùn)維提供了核心技術(shù)支持,符合產(chǎn)業(yè)界最新AIOps運(yùn)維體系的要求。

      3 運(yùn)維智能化主動(dòng)創(chuàng)新

      3.1 運(yùn)維體系創(chuàng)新思路

      由于電信傳統(tǒng)運(yùn)維體系無(wú)法勝任大數(shù)據(jù)時(shí)代的要求,需要顛覆傳統(tǒng)運(yùn)維的預(yù)定義運(yùn)維模式,創(chuàng)新地利用人工智能的自學(xué)習(xí)運(yùn)維模式,創(chuàng)新思路如圖1所示。

      圖1 電信運(yùn)維體系創(chuàng)新思路

      第一階段:利用電信大數(shù)據(jù)平臺(tái)的優(yōu)勢(shì),通過(guò)電信IT系統(tǒng)海量日志的自動(dòng)采集及分析,主動(dòng)感知IT系統(tǒng)節(jié)點(diǎn)運(yùn)行狀態(tài)的變化。

      第二階段:采用圖計(jì)算技術(shù)自動(dòng)構(gòu)建運(yùn)維網(wǎng)格,并通過(guò)網(wǎng)格星云圖直觀展示電信各個(gè)節(jié)點(diǎn)的影響力、健康度以及依賴關(guān)系,實(shí)現(xiàn)IT系統(tǒng)節(jié)點(diǎn)的立體感知。

      第三階段:利用Keras深度學(xué)習(xí)算法,構(gòu)建電信IT系統(tǒng)日志的深度學(xué)習(xí)應(yīng)用模型,實(shí)現(xiàn)IT系統(tǒng)節(jié)點(diǎn)故障的智能預(yù)測(cè)。

      3.2 節(jié)點(diǎn)主動(dòng)感知——實(shí)時(shí)發(fā)現(xiàn)IT系統(tǒng)節(jié)點(diǎn)的運(yùn)行狀態(tài)變化

      本文利用電信大數(shù)據(jù)平臺(tái)的優(yōu)勢(shì),通過(guò)業(yè)務(wù)日志實(shí)時(shí)采集技術(shù)和probe(探針)進(jìn)程日志自動(dòng)采集技術(shù),主動(dòng)感知電信IT系統(tǒng)節(jié)點(diǎn)運(yùn)行狀態(tài)的變化,包括資源使用變化、網(wǎng)絡(luò)拓?fù)渥兓?、軟件進(jìn)程變化、服務(wù)調(diào)用變化、業(yè)務(wù)響應(yīng)時(shí)間變化等。

      (1)節(jié)點(diǎn)主動(dòng)感知流程

      節(jié)點(diǎn)主動(dòng)感知業(yè)務(wù)流程如圖2所示。

      圖2 節(jié)點(diǎn)主動(dòng)感知流程

      第一階段:實(shí)時(shí)采集上海電信多個(gè)IT系統(tǒng)的節(jié)點(diǎn)日志數(shù)據(jù)。

      第二階段:將采集到的節(jié)點(diǎn)日志自動(dòng)存儲(chǔ)到上海電信大數(shù)據(jù)平臺(tái),生成大數(shù)據(jù)基礎(chǔ)信息表。

      第三階段:實(shí)時(shí)分析大數(shù)據(jù)基礎(chǔ)信息表,獲取節(jié)點(diǎn)運(yùn)行狀態(tài)。

      (2)節(jié)點(diǎn)日志實(shí)時(shí)采集

      本文采用Kafka+Storm流式數(shù)據(jù)實(shí)時(shí)采集技術(shù)架構(gòu),對(duì)上海電信多個(gè)IT系統(tǒng)的業(yè)務(wù)日志數(shù)據(jù)進(jìn)行實(shí)時(shí)采集,從而實(shí)時(shí)感知IT系統(tǒng)節(jié)點(diǎn)的運(yùn)行情況、業(yè)務(wù)調(diào)用等信息,其中,CSB(channel service bus)等系統(tǒng)的業(yè)務(wù)日志為實(shí)時(shí)采集,響應(yīng)時(shí)間最快可以達(dá)到秒級(jí)。

      同時(shí)通過(guò)在上海電信多個(gè)IT系統(tǒng)節(jié)點(diǎn)部署probe進(jìn)程日志采集程序,獲取節(jié)點(diǎn)進(jìn)程的運(yùn)行情況,從而實(shí)時(shí)感知IT系統(tǒng)節(jié)點(diǎn)服務(wù)進(jìn)程之間的相互連接情況以及進(jìn)程自身的資源占用情況。為避免probe采集程序消耗過(guò)多的系統(tǒng)資源,probe進(jìn)程日志自動(dòng)采集頻率為分鐘級(jí)別,通常為3~5 min。

      (3)節(jié)點(diǎn)日志實(shí)時(shí)匯聚

      節(jié)點(diǎn)日志自動(dòng)存儲(chǔ)到上海電信大數(shù)據(jù)平臺(tái)后,根據(jù)業(yè)務(wù)需求生成大數(shù)據(jù)基礎(chǔ)信息表。大數(shù)據(jù)基礎(chǔ)信息表示例如下。

      ? 流量數(shù)據(jù)表:數(shù)據(jù)字段包括設(shè)備號(hào)、端口號(hào)、入口流量、出口流量。

      ? Syslog數(shù)據(jù)表:數(shù)據(jù)字段包括設(shè)備號(hào)、端口號(hào)、時(shí)間戳、告警內(nèi)容。

      ? 用戶數(shù)據(jù)表:數(shù)據(jù)字段包括端口名、端口ID、設(shè)備名、客戶ID。

      ? CPU和內(nèi)存數(shù)據(jù)表:數(shù)據(jù)字段包括設(shè)備名、時(shí)間戳、使用占比。

      ? 修障事件單數(shù)據(jù)表:數(shù)據(jù)字段包括設(shè)備名、狀態(tài)ID、時(shí)間戳、客戶ID、主題、事件描述。

      ? 設(shè)備關(guān)聯(lián)信息表:數(shù)據(jù)字段包括本端設(shè)備號(hào)、遠(yuǎn)端設(shè)備號(hào)。

      (4)節(jié)點(diǎn)狀態(tài)主動(dòng)感知

      基于大數(shù)據(jù)基礎(chǔ)信息表實(shí)時(shí)分析電信IT系統(tǒng)海量日志,主動(dòng)感知各個(gè)IT系統(tǒng)節(jié)點(diǎn)的運(yùn)行情況,包括節(jié)點(diǎn)運(yùn)行狀態(tài)(on/down)、節(jié)點(diǎn)內(nèi)存使用情況、節(jié)點(diǎn)CPU使用情況、節(jié)點(diǎn)流量情況、節(jié)點(diǎn)告警情況等節(jié)點(diǎn)運(yùn)行信息。

      (5)節(jié)點(diǎn)主動(dòng)感知覆蓋范圍

      截止到2017年6月,上海電信統(tǒng)一規(guī)劃并建設(shè)了包含CRM系統(tǒng)、IBP系統(tǒng)、綜合資源系統(tǒng)、CSB系統(tǒng)、計(jì)費(fèi)系統(tǒng)、大數(shù)據(jù)平臺(tái)、信息網(wǎng)絡(luò)部IDC數(shù)據(jù)中心的大數(shù)據(jù)智能網(wǎng)格運(yùn)維應(yīng)用。

      ? 業(yè)務(wù)日志每天數(shù)據(jù)量為2.9 TB左右,記錄數(shù)為11.3億條左右。

      ? 已部署probe進(jìn)程日志采集的設(shè)備971臺(tái),記錄數(shù)為4 900萬(wàn)條/天。

      以CSB系統(tǒng)為例,通過(guò)節(jié)點(diǎn)主動(dòng)感知,可以獲得CSB系統(tǒng)節(jié)點(diǎn)實(shí)時(shí)動(dòng)態(tài)網(wǎng)絡(luò)拓?fù)淙鐖D3所示。

      3.3 運(yùn)維網(wǎng)格構(gòu)建——直觀展示IT系統(tǒng)節(jié)點(diǎn)的點(diǎn)線面關(guān)系

      本文利用Graphx的圖計(jì)算框架,構(gòu)建電信網(wǎng)格運(yùn)維模型,并通過(guò)星云圖直觀展示運(yùn)維網(wǎng)格中設(shè)備的依賴關(guān)系和運(yùn)行狀態(tài),從而形成運(yùn)維網(wǎng)格的點(diǎn)、線、面的矢量關(guān)系圖。

      圖3 CSB系統(tǒng)節(jié)點(diǎn)實(shí)時(shí)動(dòng)態(tài)網(wǎng)絡(luò)拓?fù)?/p>

      (1)IT系統(tǒng)網(wǎng)格化運(yùn)維模型

      IT系統(tǒng)網(wǎng)格化運(yùn)維模型按照人、事、物、態(tài)標(biāo)準(zhǔn)劃分網(wǎng)格單元,實(shí)行全方位、扁平化、聯(lián)動(dòng)式的動(dòng)態(tài)管理。首先要將運(yùn)維的對(duì)象、內(nèi)容、主體、狀態(tài)進(jìn)行網(wǎng)格化,即所謂的點(diǎn);找出點(diǎn)之間內(nèi)在的邏輯關(guān)系,即所謂的線;找出線之間的邏輯關(guān)系,即所謂的面。

      IT系統(tǒng)網(wǎng)格化運(yùn)維模型如圖4所示。

      (2)構(gòu)建圖形數(shù)據(jù)庫(kù)

      Graphx的圖形數(shù)據(jù)庫(kù)是一種非關(guān)系型數(shù)據(jù)庫(kù),它應(yīng)用圖形理論存儲(chǔ)實(shí)體之間的關(guān)系信息。數(shù)據(jù)模型主要是以節(jié)點(diǎn)和關(guān)系(邊)來(lái)體現(xiàn),也可處理鍵值對(duì)。利用圖形數(shù)據(jù)庫(kù)可以直觀地描述電信業(yè)務(wù)系統(tǒng)之間點(diǎn)線面的關(guān)系。

      運(yùn)維網(wǎng)格系統(tǒng)中的圖數(shù)據(jù)結(jié)構(gòu)抽象如下。

      圖4 電信網(wǎng)格化運(yùn)維模型

      ? 節(jié)點(diǎn):主要是服務(wù)器主機(jī)或者一組功能相同的機(jī)器。

      ? 關(guān)系:不同系統(tǒng)的軟件的相互通信,比如進(jìn)程連接、業(yè)務(wù)調(diào)用以及依賴關(guān)系等。

      (3)網(wǎng)格星云圖展示

      利用圖計(jì)算的智能日志分析方法,計(jì)算出網(wǎng)格中每個(gè)節(jié)點(diǎn)的狀態(tài)信息,通過(guò)星云圖將網(wǎng)格中的節(jié)點(diǎn)狀態(tài)信息最直觀地反映出來(lái)。通過(guò)星云圖的展示,可以直觀地看到節(jié)點(diǎn)的影響力、健康度、連接、影響范圍等節(jié)點(diǎn)的狀態(tài)信息。

      ? 影響力量化:將每個(gè)進(jìn)程的影響力量化通過(guò)每個(gè)節(jié)點(diǎn)面積表示。

      ? 連接可視化:將每個(gè)進(jìn)程之間的鏈接通過(guò)連線描述。

      ? 健康度量化:將設(shè)備當(dāng)前的運(yùn)行狀況通過(guò)不同的顏色表示。

      (4)網(wǎng)格星云圖應(yīng)用示例

      截止到2017年6月,上海電信統(tǒng)一規(guī)劃并建設(shè)了包含CRM系統(tǒng)、IBP系統(tǒng)、綜合資源系統(tǒng)、CSB系統(tǒng)、計(jì)費(fèi)系統(tǒng)、大數(shù)據(jù)平臺(tái)的大數(shù)據(jù)智能網(wǎng)格運(yùn)維應(yīng)用,其中,大數(shù)據(jù)智能網(wǎng)格運(yùn)維星云圖示例如圖5所示。

      圖5 上海電信大數(shù)據(jù)智能網(wǎng)格運(yùn)維星云圖應(yīng)用示例

      3.4 故障智能預(yù)測(cè)——深度學(xué)習(xí)事先發(fā)現(xiàn)IT系統(tǒng)故障

      本文利用深度學(xué)習(xí)算法構(gòu)建日志數(shù)據(jù)的深度學(xué)習(xí)應(yīng)用模型,并且可以輸出智能預(yù)測(cè)的應(yīng)用結(jié)果,用于實(shí)現(xiàn)故障的智能預(yù)測(cè),并且實(shí)現(xiàn)事先告警有助于提前實(shí)施預(yù)防措施,真正實(shí)現(xiàn)“防患于未然”。

      (1)深度學(xué)習(xí)數(shù)據(jù)處理流程

      電信IT系統(tǒng)深度學(xué)習(xí)數(shù)據(jù)處理流程如圖6所示。

      圖6 IT系統(tǒng)運(yùn)維節(jié)點(diǎn)故障自動(dòng)預(yù)測(cè)業(yè)務(wù)流程

      通過(guò)上述深度學(xué)習(xí)數(shù)據(jù)處理流程,可以深度學(xué)習(xí)運(yùn)維網(wǎng)格各個(gè)系統(tǒng)的歷史日志,從而獲得深度學(xué)習(xí)模型并且輸出最有效的預(yù)測(cè)模型。

      (2)Keras深度學(xué)習(xí)應(yīng)用模型

      由于故障預(yù)測(cè)是在事先未知情況下,利用歷史數(shù)據(jù)通過(guò)無(wú)監(jiān)督學(xué)習(xí)的方法,輸出未來(lái)故障的預(yù)警。因此本文采用Keras算法構(gòu)建深度學(xué)習(xí)應(yīng)用模型。Keras算法是一個(gè)高層神經(jīng)網(wǎng)絡(luò)庫(kù),具有良好的模塊化和快速原型迭代等優(yōu)點(diǎn),可以滿足海量日志的無(wú)監(jiān)督學(xué)習(xí)以及故障預(yù)測(cè)響應(yīng)時(shí)間的要求。

      Keras深度學(xué)習(xí)應(yīng)用模型如圖7所示。

      圖7 Keras深度學(xué)習(xí)應(yīng)用模型

      目前采用的Keras算法主要采用Sequential(序貫?zāi)P?,也稱為單輸入單輸出模式),未來(lái)深度學(xué)習(xí)算法準(zhǔn)備升級(jí)到Keras2,可以支持基于Model(一般模型)的多輸入多輸出,從而提高迭代效率和自學(xué)習(xí)速度。

      (3)故障智能預(yù)測(cè)模型

      本文基于深度學(xué)習(xí)的方法,對(duì)IT系統(tǒng)的進(jìn)程和端口網(wǎng)絡(luò)進(jìn)行分析,并對(duì)該IT系統(tǒng)的節(jié)點(diǎn)即某個(gè)進(jìn)程或端口的狀態(tài)進(jìn)行預(yù)測(cè)。

      系統(tǒng)對(duì)該進(jìn)程網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行如下分析:

      ? 將某個(gè)進(jìn)程的占用CPU、內(nèi)存情況看作進(jìn)程節(jié)點(diǎn)的“固有屬性”;

      ? 將進(jìn)程之間的通信看作進(jìn)程網(wǎng)絡(luò)中的邊;那么,節(jié)點(diǎn)在網(wǎng)絡(luò)中的中心度可以衡量節(jié)點(diǎn)的活躍程度以及與外界聯(lián)系的緊密程度;

      ? 把進(jìn)程崩潰視作一個(gè)進(jìn)程的行為,那么進(jìn)程崩潰這一現(xiàn)象可以類比為社交網(wǎng)絡(luò)中信息的擴(kuò)散。

      因此,端口網(wǎng)絡(luò)中的某個(gè)節(jié)點(diǎn)可以表示為{(in1,out1,1),(in2,out2,2)…},其中(in,out,t)表示在t時(shí)刻,具有入流量in,出流量out

      基于以上分析,本文把一個(gè)進(jìn)程或端口發(fā)生崩潰、阻塞等異常的現(xiàn)象定義為網(wǎng)絡(luò)中一個(gè)節(jié)點(diǎn)的狀態(tài);在給定的時(shí)間戳下,網(wǎng)絡(luò)中的節(jié)點(diǎn)可以被分為兩類:處于異常狀態(tài)的節(jié)點(diǎn)和處于正常狀態(tài)的節(jié)點(diǎn);因此,預(yù)測(cè)網(wǎng)絡(luò)中節(jié)點(diǎn)的異??梢赞D(zhuǎn)化為針對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的二分類問(wèn)題。

      本文仔細(xì)地選取節(jié)點(diǎn)的相關(guān)屬性作為節(jié)點(diǎn)分類的特征,用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)該模型進(jìn)行分類,并得到了較為可信的結(jié)果。

      CNN是一類特別設(shè)計(jì)用來(lái)處理二維數(shù)據(jù)的多層神經(jīng)網(wǎng)絡(luò),也是一種深度監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,具有極強(qiáng)的適應(yīng)性,善于挖掘數(shù)據(jù)局部特征,提取全局訓(xùn)練特征和分類,它的權(quán)值共享結(jié)構(gòu)網(wǎng)絡(luò)使之更類似于生物神經(jīng)網(wǎng)絡(luò),在模式分類的各個(gè)領(lǐng)域都取得了很好的成果。

      (4)故障智能預(yù)測(cè)準(zhǔn)確性驗(yàn)證示例

      為了驗(yàn)證故障智能預(yù)測(cè)的準(zhǔn)確性,上海電信利用大數(shù)據(jù)網(wǎng)格智能運(yùn)維系統(tǒng)對(duì)信息網(wǎng)絡(luò)部IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)進(jìn)行端口故障預(yù)測(cè)的驗(yàn)證工作。其中采集的數(shù)據(jù)范圍是2017年8月13—20日,預(yù)測(cè)的設(shè)備數(shù)量為617個(gè),端口數(shù)量為5 930個(gè),具體驗(yàn)證結(jié)果見表1。

      通過(guò)此驗(yàn)證示例可知,本運(yùn)維網(wǎng)格模型在信息網(wǎng)絡(luò)部IDC端口故障預(yù)測(cè)中的準(zhǔn)確率均超過(guò)90%,滿足了維護(hù)人員對(duì)于故障預(yù)測(cè)的準(zhǔn)確性要求,可以用于支撐今后的智能運(yùn)維工作。

      4 運(yùn)維智能化未來(lái)展望

      大數(shù)據(jù)網(wǎng)格智能運(yùn)維系統(tǒng)顛覆了傳統(tǒng)網(wǎng)管的預(yù)定義運(yùn)維模式,創(chuàng)新地利用人工智能的自學(xué)習(xí)運(yùn)維模式,實(shí)現(xiàn)了節(jié)點(diǎn)主動(dòng)感知、運(yùn)維網(wǎng)格構(gòu)建和故障智能預(yù)測(cè),填補(bǔ)了人工智能在電信運(yùn)維應(yīng)用領(lǐng)域的空白。

      系統(tǒng)下一階段的目標(biāo)是將智能預(yù)測(cè)的故障,實(shí)時(shí)提交給自動(dòng)排障系統(tǒng),逐步積累修障知識(shí)庫(kù),陸續(xù)將可以通過(guò)自動(dòng)腳本或者軟件工具修復(fù)而無(wú)需人工干預(yù)的故障剝離出來(lái),提交給智能機(jī)器人自動(dòng)修復(fù)故障,從而大大縮短故障修復(fù)時(shí)間并降低IT系統(tǒng)運(yùn)維成本。

      表1 上海電信IDC故障智能預(yù)測(cè)準(zhǔn)確率驗(yàn)證結(jié)果

      圖8 未來(lái)智能運(yùn)維機(jī)器人應(yīng)用示例

      下一階段,智能運(yùn)維機(jī)器人可以通過(guò)深度學(xué)習(xí)系統(tǒng)日志、告警信息以及故障處理單等數(shù)據(jù),同時(shí)結(jié)合RCA(root cause analysis)根因分析等智能運(yùn)維流程,實(shí)現(xiàn)設(shè)備故障的提前預(yù)測(cè)和自動(dòng)處理,從而實(shí)現(xiàn)智能化運(yùn)維的目標(biāo)。

      智能運(yùn)維機(jī)器人應(yīng)用如圖8所示。

      圖8中,當(dāng)智能運(yùn)維機(jī)器人上線后,系統(tǒng)發(fā)生141個(gè)故障時(shí),智能運(yùn)維機(jī)器人可以自動(dòng)修復(fù)129個(gè)故障,運(yùn)維人員只需要處理12個(gè)故障,大大減少了運(yùn)維人員的工作量,提高了IT系統(tǒng)的運(yùn)維效率。

      5 結(jié)束語(yǔ)

      本文利用大數(shù)據(jù)平臺(tái)的優(yōu)勢(shì),創(chuàng)新地利用人工智能的自學(xué)習(xí)運(yùn)維模式,實(shí)現(xiàn)電信IT系統(tǒng)節(jié)點(diǎn)運(yùn)行狀態(tài)主動(dòng)感知、節(jié)點(diǎn)運(yùn)維網(wǎng)格構(gòu)建和節(jié)點(diǎn)故障的智能預(yù)測(cè),未來(lái)還可以實(shí)現(xiàn)人工智能機(jī)器人自動(dòng)運(yùn)維,從而實(shí)現(xiàn)電信IT系統(tǒng)智能化運(yùn)維的目標(biāo)。

      [1] 馬世龍, 烏尼日其其格, 李小平. 大數(shù)據(jù)與深度學(xué)習(xí)綜述[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(6): 728-742.

      MA S L, WUNIRI Q Q G, LI X P. Deep learning with big data: state of the art and development[J]. CAAI Transactions on Intelligent Systems, 2016, 11(6): 728-742.

      [2] 任浩, 屈劍鋒, 柴毅, 等. 深度學(xué)習(xí)在故障診斷領(lǐng)域中的研究現(xiàn)狀與挑戰(zhàn)[J]. 控制與決策, 2017(8): 1345-1358.

      REN H, QU J F, CHAI Y, et al. Research status and challenges of deep learning in fault diagnosis[J]. Control and Decision, 2017(8): 1345-1358.

      [3] 張清辰. 面向大數(shù)據(jù)特征學(xué)習(xí)的深度計(jì)算模型研究[D].大連: 大連理工大學(xué), 2015.

      ZHANG Q C. Research on deep computing model for big data feature learning[D]. Dalian: Dalian University of Technology, 2015.

      [4] 郭麗麗, 丁世飛. 深度學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué), 2015(5).

      GUO L L, DING S F. Deep learning research progress[J]. Computer Science, 2015(5).

      [5] GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge: MIT Press, 2016.

      [6] MOOLENBROEK D C V, APPUSWAMY R, TANENBAUM A S. Integrated system and process crash recovery in the loris storage stack[C]//2012 IEEE 7th International Conference on Networking, Architecture and Storage(NAS), June 28-30, 2012, Xiamen, China. Piscataway: IEEE Press, 2012: 1-10.

      [7] MOHAMED E E, ABDEL-WAHAB H, SALAMA I. Multicast address management in the internet: a study of the port blocking problem[R]. 1999.

      [8] NEWMAN M, BARABáSI A L, WATTS D J. The structure and dynamics of networks[M]. Princeton: Princeton University Press, 2006.

      Telecom intelligent operation system based on big data grid

      GUO Yunfeng, CAI Heng, GE Lei

      Shanghai Branch ofTelecom Co., Ltd., Shanghai 200041, China

      Based on the advantages of telecom big data platform, the self-learning operation mode of artificial intelligence was utilized innovatively. The operational status of each IT system nodes were actively perceived by collecting and analyzing the massive log data of IT system. The influence, health and dependence of each IT system nodes were visualized by intelligent graph calculation and grid nebulae graph. The intelligent prediction of node failure was realized by Keras deep learning framework, and the big data grid intelligent operation system of telecom IT system was built.

      big data, grid, intelligent operation, intelligent graph calculation, grid nebulae graph, failure prediction

      TP391.1

      A

      10.11959/j.issn.1000?0801.2018167

      郭云峰(1973?),男,中國(guó)電信股份有限公司上海分公司企業(yè)信息化部副總經(jīng)理、工程師,主要研究方向?yàn)榇髷?shù)據(jù)技術(shù)以及應(yīng)用等。

      蔡珩(1973?),女,中國(guó)電信股份有限公司上海分公司工程師、IT運(yùn)維主管,主要研究方向?yàn)?IT智慧運(yùn)營(yíng)、利用大數(shù)據(jù)技術(shù)提升系統(tǒng)運(yùn)維的智能化。

      戈磊(1973?),男,中國(guó)電信股份有限公司上海分公司企業(yè)信息化部高級(jí)項(xiàng)目經(jīng)理,主要研究方向?yàn)樵朴?jì)算、開源架構(gòu)、大數(shù)據(jù)分析、Devops運(yùn)營(yíng)、流程生命周期管控等。

      2017?11?28;

      2018?04?26

      猜你喜歡
      日志運(yùn)維網(wǎng)格
      用全等三角形破解網(wǎng)格題
      一名老黨員的工作日志
      扶貧日志
      心聲歌刊(2020年4期)2020-09-07 06:37:14
      反射的橢圓隨機(jī)偏微分方程的網(wǎng)格逼近
      運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
      風(fēng)電運(yùn)維困局
      能源(2018年8期)2018-09-21 07:57:24
      雜亂無(wú)章的光伏運(yùn)維 百億市場(chǎng)如何成長(zhǎng)
      能源(2017年11期)2017-12-13 08:12:25
      重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
      游學(xué)日志
      基于曲面展開的自由曲面網(wǎng)格劃分
      探索| 五原县| 溧水县| 东乌| 松溪县| 丹巴县| 乌恰县| 临沭县| 霍山县| 布拖县| 新巴尔虎右旗| 霍城县| 赤城县| 邵阳市| 佛冈县| 句容市| 弥渡县| 孟村| 陈巴尔虎旗| 西昌市| 民和| 苍南县| 武定县| 汾阳市| 临澧县| 四子王旗| 桓台县| 亚东县| 财经| 四平市| 南昌市| 江油市| 牟定县| 普宁市| 宁明县| 平昌县| 离岛区| 大庆市| 新兴县| 锡林浩特市| 镇雄县|