屠燕春
(上海浦東發(fā)展銀行總行信息科技部,上海 200233)
銀行后臺支撐系統(tǒng)使用的IT基礎(chǔ)設(shè)施覆蓋小型機、X86服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、中間件、存儲和備份等,各項基礎(chǔ)設(shè)施涵蓋范圍廣,品牌和型號多,隨著銀行業(yè)務(wù)和規(guī)模不斷擴大,各類信息系統(tǒng)的數(shù)量迅速增長,而如何實現(xiàn)覆蓋全行生產(chǎn)系統(tǒng)基礎(chǔ)設(shè)施的監(jiān)控,快速有效地滿足各業(yè)務(wù)系統(tǒng)隨需而變的個性化監(jiān)控需求,提高告警消息的總體質(zhì)量,以及提供快速定位問題的能力,是科技運行的一項重要課題。
本文將通過研究異構(gòu)環(huán)境下IT基礎(chǔ)設(shè)置的集中監(jiān)控,開發(fā)支持銀行異構(gòu)環(huán)境下多種類、多版本操作系統(tǒng)與監(jiān)控服務(wù)器之間的接口模塊,形成全行集中的系統(tǒng)及基礎(chǔ)設(shè)施監(jiān)控平臺,覆蓋主流的軟硬件產(chǎn)品、操作系統(tǒng)、數(shù)據(jù)庫、中間件、虛擬化平臺,具有集成其他專門領(lǐng)域監(jiān)控產(chǎn)品對信息和數(shù)據(jù)的監(jiān)控能力,提供統(tǒng)一的展現(xiàn)視圖。
經(jīng)過業(yè)內(nèi)幾款主流監(jiān)控產(chǎn)品的調(diào)研和POC測試,最終選用了HP Openview和Omi產(chǎn)品作為IT基礎(chǔ)設(shè)施集中監(jiān)控平臺的基礎(chǔ)軟件,其物理架構(gòu)如圖1所示。
圖1 平臺物理架構(gòu)圖
平臺中監(jiān)控服務(wù)器采用HP Openview(簡稱“OMU”)產(chǎn)品,通過代理程序和配套插件實現(xiàn)對總分行小型機、X86服務(wù)器群、數(shù)據(jù)庫、中間件等產(chǎn)品的監(jiān)控,通過SNMP Trap或Web Service等方式與各存儲、備份系統(tǒng)(包括光纖交換機、備份帶庫、NCR數(shù)據(jù)倉庫等)的管理服務(wù)器,以及交易質(zhì)量分析等第三方監(jiān)控專用工具集成,實現(xiàn)統(tǒng)一的告警分析和處理。統(tǒng)一展現(xiàn)門戶采用HP Omi產(chǎn)品,將生產(chǎn)環(huán)境兩套OMU監(jiān)控平臺、災(zāi)備中心一套OMU監(jiān)控平臺進行集成,形成統(tǒng)一的告警展示界面,并通過統(tǒng)一的接口與IT服務(wù)臺集成,實現(xiàn)各平臺間事件和流程的聯(lián)動。
圖2 系統(tǒng)邏輯架構(gòu)圖
平臺的系統(tǒng)邏輯架構(gòu)圖如圖2所示。從下往上依次為管理對象層、組件管理層、管理平臺層、管理展現(xiàn)層。通過分層架構(gòu)模式,細化并明確了各層次的專有功能,極大地降低了各層次間的耦合程度。各層次的組成和作用說明如下。
管理對象層覆蓋全行生產(chǎn)系統(tǒng)的各類基礎(chǔ)設(shè)施,包括各類小型機、X86服務(wù)器、虛擬平臺、存儲設(shè)備、備份平臺、光纖交換機、數(shù)據(jù)倉庫、數(shù)據(jù)庫、中間件、加密平臺等。
組件管理層通過主機代理實現(xiàn)對小型機和X86服務(wù)器的管理;通過數(shù)據(jù)庫中間件智能管理插件實現(xiàn)對各種數(shù)據(jù)庫和中間件的管理;通過集成監(jiān)控實現(xiàn)對存儲設(shè)備、備份系統(tǒng)、數(shù)據(jù)倉庫等的管理;通過安全管理插件實現(xiàn)對加密平臺的管理;通過第三方接口實現(xiàn)對個性化應(yīng)用的管理。
管理平臺層匯聚組件管理層的報警信息,并通過二次開發(fā)實現(xiàn)報警消息的集中管理和性能數(shù)據(jù)的集中展現(xiàn):對報警消息進行過濾、豐富、關(guān)聯(lián)、歸并、分配;對歷史信息的進行歸檔、維護。
管理展現(xiàn)層提供操作與管理的統(tǒng)一展現(xiàn)界面與智能化工具,實現(xiàn)報警消息、監(jiān)控策略集合、性能數(shù)據(jù)等按角色權(quán)限在工具界面中的統(tǒng)一展現(xiàn)。
監(jiān)控服務(wù)器使用的HP Openview產(chǎn)品提供了可以捕獲事件的引擎和模板化的監(jiān)控指標集合,在此基礎(chǔ)上結(jié)合銀行系統(tǒng)實際運行環(huán)境,通過統(tǒng)一設(shè)計和自主研發(fā),以標準化接口的方式實現(xiàn)異構(gòu)環(huán)境下的監(jiān)控需求,以及個性化監(jiān)控需求的可配置等功能,其主要技術(shù)特點如下:
⑴ 根據(jù)總分兩級運維模式,確定“數(shù)據(jù)集中、全行監(jiān)測、兩級架構(gòu)、視圖和操作獨立”的監(jiān)控設(shè)計策略,通過一體化技術(shù)平臺規(guī)劃、統(tǒng)一監(jiān)控流程設(shè)計、完善角色定義和職能分工三方面體系化建設(shè),實現(xiàn)總分架構(gòu)一致的兩級監(jiān)控體系,監(jiān)控范圍覆蓋總行和全部分行,且具備靈活擴展的能力。
⑵ 通過自主研制開發(fā)支持異構(gòu)環(huán)境下多種類、多版本操作系統(tǒng)與監(jiān)控服務(wù)器之間的接口模塊,實現(xiàn)以分布式配置方式監(jiān)控進程、端口、文件、隊列等的功能,提供并發(fā)處理個性化監(jiān)控需求的能力,提高監(jiān)控需求實現(xiàn)效率;
⑶ 通過開發(fā)應(yīng)用告警集成接口和配置規(guī)范,管理員可通過封裝后的標準化接口快速實現(xiàn)各業(yè)務(wù)系統(tǒng)上與應(yīng)用邏輯相關(guān)的個性化監(jiān)控需求。
⑷ 通過事件關(guān)聯(lián)服務(wù)編程,實現(xiàn)了系統(tǒng)層面的報警消息與管理層面的人員信息之間的聯(lián)通,提高告警處理的時效性,減少人為延誤因素。
⑸ 設(shè)計開發(fā)告警消息靈活處理的功能,提供監(jiān)控平臺識別無效告警的能力,以分布式配置方式實現(xiàn)維護期間產(chǎn)生的無效告警的屏蔽、降級,非服務(wù)時段告警消息延遲等功能,提高告警質(zhì)量。
⑹ 采用與管理員職責(zé)范圍相符的用戶授權(quán)管理,滿足了應(yīng)用安全性要求。
⑺ 自定義開發(fā)監(jiān)控平臺的自監(jiān)控功能,采用定期輪詢調(diào)用代理、插件的監(jiān)控接口命令,通過分析命令返回值,確定監(jiān)控功能的有效性。對于無法正確采樣的監(jiān)控接口,通過報警提醒監(jiān)控平臺管理員及時處理。
⑻ 通過二次開發(fā)實現(xiàn)監(jiān)控代理的安裝、插件配置、權(quán)限設(shè)置、告警展示的全自動化實現(xiàn),減少人員的重復(fù)操作。
⑼ 通過二次開發(fā),對指定系統(tǒng)的告警事件、性能異動做過濾分析和預(yù)判,并實時供數(shù)給生產(chǎn)運維信息展現(xiàn)平臺,通過儀表盤形式在生產(chǎn)運行狀態(tài)展示大屏上。
⑽ 開發(fā)監(jiān)控告警的報表功能,提供告警分析、統(tǒng)計、計數(shù)、歸并,為系統(tǒng)運維管理提供依據(jù)。
目前監(jiān)控平臺已支持和覆蓋了總行和全部分行范圍內(nèi)的1500多個被監(jiān)控節(jié)點,實現(xiàn)了總分架構(gòu)一致的兩級生產(chǎn)系統(tǒng)基礎(chǔ)設(shè)施的監(jiān)控管理,提高了監(jiān)控的有效性和準確性,滿足了日益增長和復(fù)雜的監(jiān)控需求,為全行生產(chǎn)系統(tǒng)的安全穩(wěn)定運行提供了有效保障。其應(yīng)用效果簡述如下:
⑴ 滿足監(jiān)控需求的快速實現(xiàn),提高告警信息總體質(zhì)量
該平臺通過提供分布式配置接口、應(yīng)用告警集成接口和配置規(guī)范,滿足監(jiān)控需求的并發(fā)處理,解決了以往所有監(jiān)控需求均由監(jiān)控平臺管理員串行處理導(dǎo)致的效率瓶頸,實現(xiàn)了各業(yè)務(wù)系統(tǒng)個性化監(jiān)控需求的快速配置部署;通過對告警消息的靈活處理,實現(xiàn)對維護期間產(chǎn)生的無效告警的降級和壓制等,提高了告警信息的準確性。
⑵ 提高系統(tǒng)運行管理效率,降低人力成本
隨著業(yè)務(wù)種類和規(guī)模的日趨增長,信息系統(tǒng)數(shù)量迅速增加,需要的運行管理人員不斷增加,同時系統(tǒng)平臺的不同對于技術(shù)人員的專業(yè)要求也各不相同。平臺在現(xiàn)有人力資源下實現(xiàn)了對新投產(chǎn)上線系統(tǒng)的有效管理,同時能夠統(tǒng)一技術(shù)人員的技術(shù)基準,消除管理員的技術(shù)壁壘,提升專業(yè)技能,降低系統(tǒng)運行管理的人力成本。
⑶ 保障業(yè)務(wù)系統(tǒng)對外服務(wù)的連續(xù)性
平臺能及時發(fā)現(xiàn)生產(chǎn)系統(tǒng)異常和運行瓶頸,降低系統(tǒng)異常導(dǎo)致的停機次數(shù)和時間,確保了服務(wù)質(zhì)量和客戶滿意度,有效支撐業(yè)務(wù)種類的飛速發(fā)展。
異構(gòu)環(huán)境下的系統(tǒng)集中監(jiān)控平臺建設(shè),有效屏蔽了銀行系統(tǒng)內(nèi)IT基礎(chǔ)設(shè)施產(chǎn)品范圍廣,品牌和型號多的問題,通過提供分布式可配置的接口,滿足了從硬件到應(yīng)用程序的不同層面的個性化需求的靈活實現(xiàn),規(guī)避了專業(yè)技能人員的人力瓶頸,通過監(jiān)控有效性模塊建設(shè),確保了各監(jiān)控采樣信息的準確有效,該平臺現(xiàn)已成為銀行控制信息系統(tǒng)運行風(fēng)險的一道有力防線,提供及時、有效、準確的第一線風(fēng)險提示,減短了生產(chǎn)系統(tǒng)異常處理的時間,最大程度地揭示了潛在問題和隱患,并將系統(tǒng)運行管理人員從簡單、枯燥的系統(tǒng)檢查中解放出來,大大提供了工作效率。下一步,可以通過嫁接自動化工具,實現(xiàn)告警信息的聯(lián)動、自動、閉環(huán)處置,可以通過嫁接大數(shù)據(jù)分析工具實現(xiàn)生產(chǎn)系統(tǒng)性能的趨勢分析和異動預(yù)判,目前該平臺已融入銀行生產(chǎn)系統(tǒng)運行管理的各個方面,為信息系統(tǒng)流程化、標準化、規(guī)范化管理提供技術(shù)支撐,也為銀行IT基礎(chǔ)設(shè)施的精細化管理做好了鋪墊。
參考文獻(References):
[1]李治強,苗放.多源異構(gòu)數(shù)據(jù)整合在信用系統(tǒng)中的應(yīng)用研究[J].計算機技術(shù)與發(fā)展,2007.17(2):172
[2]林心愉,高校IT運維服務(wù)管理體系的構(gòu)建及其發(fā)展模式的探索,https://wenku.baidu.com/view/0505a070f46527d-3240ce0ea.html.