葛 泓,朱 斌,趙建三
(中國人民大學(xué) 網(wǎng)絡(luò)與教育技術(shù)中心,北京 100872)
IT服務(wù)管理體系實踐之事件管理
葛 泓,朱 斌,趙建三
(中國人民大學(xué) 網(wǎng)絡(luò)與教育技術(shù)中心,北京 100872)
事件管理是體系中的一個關(guān)鍵流程,提供了檢測事件,定位合適的支持資源以便盡快解決事件的能力。同時還提供了解決事件過程中各個環(huán)節(jié)的數(shù)據(jù)記錄,檢驗達(dá)成服務(wù)目標(biāo)的資源配置、管理流程以及運行質(zhì)量,為生成服務(wù)報告、制定服務(wù)計劃、核算服務(wù)成本、考核服務(wù)工作量提供了數(shù)據(jù)依據(jù)。可以說,事件管理涉及服務(wù)的整個生命周期。
IT服務(wù)管理;服務(wù)請求;重大事件;事件管理;優(yōu)先級
ISO20000體系包含5個過程13個管理流程。事件管理是其中的一個關(guān)鍵流程,提供了檢測事件,定位合適的支持資源以便盡快解決事件的能力。同時還提供了解決事件過程中各個環(huán)節(jié)的數(shù)據(jù)記錄,檢驗達(dá)成服務(wù)目標(biāo)的資源配置、管理流程以及運行質(zhì)量,為生成服務(wù)報告、制定服務(wù)計劃、核算服務(wù)成本、考核服務(wù)工作量提供了數(shù)據(jù)依據(jù)。可以說,事件管理涉及服務(wù)的整個生命周期。
事件管理是中國人民大學(xué)體系實踐中的第一個落地實施流程,也是最活躍、最直觀、涉及使用范圍最大的管理流程。它是我們向用戶提供服務(wù)的統(tǒng)一平臺,是我們展示服務(wù)流程規(guī)范管理的窗口,是我們考核服務(wù)質(zhì)量的輔助工具,同時也是用戶投訴服務(wù)的渠道以及用戶對服務(wù)評價的收集器。
事件即為在服務(wù)中導(dǎo)致或可能導(dǎo)致服務(wù)中斷或質(zhì)量下降的不符合IT服務(wù)標(biāo)準(zhǔn)操作的任何活動。它不僅包括軟硬件故障,還包含了服務(wù)請求。
當(dāng)多個事件需要同時處理時,必須根據(jù)事件所造成的影響、事件的緊急程度、解決事件的難易程度等因素確定事件處理的優(yōu)先級。事件管理目標(biāo)就是盡快恢復(fù)正常的業(yè)務(wù)運行并將事件對業(yè)務(wù)運行的負(fù)面影響減少到最小,從而確保維持服務(wù)質(zhì)量和可用性的最高水平。事件管理包含六個主要活動:事件接收和記錄、分類和初步支持、調(diào)查和分析、解決和恢復(fù)服務(wù)、事件終止以及進(jìn)展控制與跟蹤。這六個主要活動構(gòu)成了事件的生命周期。
中國人民大學(xué)在事件管理的設(shè)計實踐中,特別強調(diào)了以下幾個方面:
第一,事件往往表現(xiàn)出數(shù)量多、處理繁瑣的特點,特別強調(diào)合理清晰的分類、分級、分權(quán)、分角色。
第二,事件管理作為一切流程的基礎(chǔ),是服務(wù)受理、處理、反饋、跟蹤的一條龍過程,一頭連著用戶,一頭連著服務(wù)人員,一頭連著技術(shù)支持人員,特別強調(diào)過程的控制以及界面的實現(xiàn)。既要保證過程控制的權(quán)限粒度,又要避免繁雜,特別是技術(shù)支持人員之間的傳遞和溝通要靈活。界面強調(diào)清晰和簡約,保證效率。
第三,事件管理是服務(wù)級別管理、業(yè)務(wù)關(guān)系管理、問題管理、容量管理、可用性管理、配置管理的集中展現(xiàn),又是各流程績效考核的參考,事件管理中表單的內(nèi)容設(shè)計要綜合方方面面。
基于以上考慮,我們主要完成了六個方面的設(shè)計:事件的分級分類定義、流程設(shè)計、角色和權(quán)限設(shè)計、流程執(zhí)行準(zhǔn)則設(shè)計、流程關(guān)聯(lián)準(zhǔn)則、事件管理統(tǒng)計報表和績效指標(biāo)。
1.事件的分級和分類
為了使繁雜的事件易于分辨,需要對事件進(jìn)行分類。同時,為了保證服務(wù)級別和事件處理效率,需要將有限的資源合理配置到每個事件中,因此,必須對事件進(jìn)行分級。
中國人民大學(xué)在事件管理的實踐中,根據(jù)自身業(yè)務(wù)職能和機構(gòu)組織的特點,將事件分為三類:故障、服務(wù)請求、重大信息事件。其中,故障分為13個二級子類,服務(wù)請求分為6個二級子類21個三級子類,重大信息事件定義了17類。特別是服務(wù)請求的范圍,涵蓋了所有業(yè)務(wù)職能,使得事件管理成為所有服務(wù)受理和處理的統(tǒng)一平臺。圖1為用戶根據(jù)事件的分類建立新事件。
優(yōu)先級即處理事件的先后順序。通過優(yōu)先級,支持人員可以判斷、協(xié)調(diào)資源分配,用戶可以明確解決時間,從而保證服務(wù)響應(yīng)節(jié)奏和服務(wù)成本。
影響度:衡量時間對業(yè)務(wù)的影響程度,主要參照影響范圍、數(shù)量和重要程度。
緊急度:主要根據(jù)業(yè)務(wù)對IT需求和依賴程度以及可以忍受的時限。
中國人民大學(xué)綜合考慮了事件的影響度和緊急度,為事件設(shè)定了三級優(yōu)先級,并分別定義了響應(yīng)時間、解決時限和升級準(zhǔn)則。
2.事件管理設(shè)計
(1)流程設(shè)計
事件管理涉及的人員角色多,處理過程分支多。我們共設(shè)計實現(xiàn)了7流程,包括:1個主流程和 6子流程,包含記錄分類、一線解決、二線解決、申請事件經(jīng)理協(xié)調(diào)解決、關(guān)閉事件子流程以及重大信息事件處理子流程。圖2為事件管理的綜合流程。
(2)角色和權(quán)限設(shè)計
流程的執(zhí)行涉及多個部門、多項職能,采用基于角色的靈活方法才能合理清晰地設(shè)計出流程中的角色和權(quán)?限,才能保證流程成功運行。在事件管理流程中,我們設(shè)計了6個角色并賦予每個角色不同的權(quán)限。其中包括:事件管理流程負(fù)責(zé)人、事件管理經(jīng)理、二線工程師、一線工程師、服務(wù)臺和用戶。
事件管理流程負(fù)責(zé)人只在重大信息事件處理中負(fù)責(zé)總體協(xié)調(diào)、向上級報告或者申請事件的管理升級。
事件管理經(jīng)理:事件經(jīng)理對于流程富有主要責(zé)任,其目標(biāo)是為事件的技術(shù)升級做好預(yù)備工作,以避免事件的管理升級。監(jiān)控流程的效果和效率、改進(jìn)流程建議、協(xié)調(diào)內(nèi)外資源。
一線、二線工程師主要是處理事件并記錄處理結(jié)果、申請技術(shù)升級、關(guān)聯(lián)其他流程等。二線工程師角色實際上還包含兩類角色:工程師和科室主任,科室主任也承擔(dān)工程師的角色來處理事件,同時,負(fù)責(zé)事件的調(diào)查分析、技術(shù)升級等。
服務(wù)臺主要是接收、記錄、分派、追蹤、關(guān)閉。
設(shè)計的核心是針對狀態(tài)改變實施控制的。所有表單的可寫字段的“讀”和“寫”權(quán)限賦予該流程中的所有角色。每個狀態(tài)的“改變狀態(tài)權(quán)限”只賦予該狀態(tài)的負(fù)責(zé)人。這樣的設(shè)計主要是依據(jù)我們的機構(gòu)職能劃分、人員崗位職責(zé)劃分以及人力資源配置的現(xiàn)實狀況,在有限的資源配置和成本中實現(xiàn)最合理的響應(yīng)和處理。
(3)事件管理執(zhí)行準(zhǔn)則
事件管理中涉及受理、分派、處理、遞交處理、升級、審批、報告、反饋、關(guān)閉等多個執(zhí)行環(huán)節(jié),環(huán)環(huán)相扣地推動事件管理的開展。其中一個環(huán)節(jié)的延誤或停滯或錯誤都直接影響事件管理效率,甚至服務(wù)級別的不符合。因此,我們在幾個關(guān)鍵環(huán)節(jié)中特別制定了執(zhí)行準(zhǔn)則,保證各個角色在每個執(zhí)行環(huán)節(jié)中“有法可依”。
事件管理流程的執(zhí)行準(zhǔn)則設(shè)計包括:責(zé)任制準(zhǔn)則、事件升級準(zhǔn)則、事件分派準(zhǔn)則、事件關(guān)閉準(zhǔn)則、重大信息事件報告制度。在此重點闡述責(zé)任制準(zhǔn)則、分派準(zhǔn)則和升級準(zhǔn)則。
1)責(zé)任制準(zhǔn)則
核心是事件統(tǒng)一受理和首問負(fù)責(zé)制。即:所有服務(wù)須經(jīng)服務(wù)臺統(tǒng)一受理,采用首問負(fù)責(zé)制,負(fù)責(zé)跟蹤事件處理的全過程直至解決、關(guān)閉。
2)事件分派準(zhǔn)則
核心是將事件分派到合適的支持團(tuán)隊來解決,支持團(tuán)隊不可拒絕接受分派。如果被派事件不屬于本團(tuán)隊支持的專業(yè)范圍或者自身能力無法處理,可以遞交給其他相關(guān)支持團(tuán)隊進(jìn)行解決,但必須注明原因。
3)事件處理升級準(zhǔn)則
事件的處理不能在規(guī)定的時間內(nèi)解決,就要進(jìn)行事件升級,它可以發(fā)生在處理過程的任何時間和任何支持級別。
簡單地講,事件升級分為技術(shù)升級和管理升級。技術(shù)升級:需要更多專業(yè)技能、處理權(quán)限、更多時間和人力投入來參與事件的處理。管理升級:需要更高級別的管理機構(gòu)參與解決。
我們將事件技術(shù)升級設(shè)計為兩部分:一是優(yōu)先級、二是處理資源。優(yōu)先級主要是針對重點用戶、重要類別的事件,處理資源主要是針對事件的復(fù)雜程度。
服務(wù)臺、一線、二線工程師和事件管理經(jīng)理都有事件升級權(quán)利。
要進(jìn)行管理升級的事件被設(shè)計為需要學(xué)校領(lǐng)導(dǎo)參與協(xié)調(diào)處理的事件,例如:重大信息安全事件。只有事件管理流程負(fù)責(zé)人有權(quán)進(jìn)行事件的管理升級。一般先考慮技術(shù)升級,盡量避免管理升級。
前面提到事件管理是一切流程的基礎(chǔ),是其他多個流程的集中體現(xiàn)。圖3簡明勾畫了事件管理流程與其他流程的關(guān)聯(lián)關(guān)系。在此,重點闡述與問題管理、變更管理和配置管理的關(guān)系。
1.與問題管理的關(guān)聯(lián)
特殊的、重復(fù)發(fā)生的事件,引發(fā)了問題的建立,觸發(fā)問題管理流程。事件管理和問題管理一并作為解決流程,有著一致的目的——降低故障發(fā)生率,減少由于系統(tǒng)故障所帶來的業(yè)務(wù)損失。但是沒有一致的目標(biāo)。兩者的本質(zhì)差異在處理的手段上。問題管理以找到并解決故障根源為手段,更關(guān)注故障發(fā)生的深層次原因以及能否根除故障的隱患,而不太關(guān)注解決恢復(fù)時間。
為盡快恢復(fù)服務(wù),事件管理鼓勵采用臨時方案、變通方案,但會掩蓋問題。問題管理會依據(jù)事件管理中收集的信息,查處潛在錯誤,提供與特定問題相關(guān)的信息、已知錯誤、應(yīng)急措施以及補救辦法為事件管理提供幫助。
2.變更管理和配置管理
事件處理過程中,常常會通過實施變更來解決,如更換設(shè)備。為事件管理提供預(yù)定變更及其狀態(tài)信息有助于解決事件,但是錯誤的或包含錯誤的變更也可能引發(fā)事件。
在配置管理流程的實踐中,我們有很多困惑和爭論。其一是系統(tǒng)和設(shè)備的配置管理與運維監(jiān)控存在矛盾,接口不清晰,無法實現(xiàn);其二是配置管理能給我們帶來哪些效率、效益和幫助。
筆者很長時間不能理解圖3中通過CI如何將事件管理與配置管理關(guān)聯(lián)。其原因是筆者對配置或者CMDB理解的膚淺。此處的配置遠(yuǎn)大于系統(tǒng)管理中的配置概念。CMDB可以為事件做定位,例如:事件發(fā)生在什么系統(tǒng)中、什么型號規(guī)格的設(shè)備、軟硬件指標(biāo)、運行參數(shù)、設(shè)備的物理位置、邏輯結(jié)構(gòu)等。設(shè)備的配置信息與事件建立鏈接以提供相關(guān)錯誤信息。CMDB還可以幫助評估事件的影響度和緊急程度。因此,無論是事件管理還是配置管理,在關(guān)聯(lián)關(guān)系的實踐中還有不少有待我們思考和改進(jìn)之處。
事件管理是中國人民大學(xué)體系實踐的第一步,通過實施事件管理流程和服務(wù)臺,我們的IT服務(wù)管理改變了原先混亂松散狀態(tài),進(jìn)入有流程、有管理、有規(guī)范狀態(tài)。
(1)故障和服務(wù)請求的全面受理,事件處理流程規(guī)范,處理全過程有記錄,處理狀態(tài)和結(jié)果可追蹤。
(2)通過事件處理記錄,驗證和考核服務(wù)指標(biāo),特別是響應(yīng)時間、恢復(fù)時間可測量判斷是否符合服務(wù)級別要求。
(3)IT工程師的工作量考核一直是難題,事件處理記錄可以輔助考核工作量。
(4)設(shè)計統(tǒng)計指標(biāo)項,例如:事件總數(shù)、各科室事件數(shù)、重大事件數(shù)、各類事件數(shù)、按優(yōu)先級計算的解決時間、事件解決數(shù)占比、在SLA目標(biāo)內(nèi)解決的事件占比、員工平均解決事件數(shù)、非現(xiàn)場解決事件數(shù)、一次分派正確率等,輔助分析,改進(jìn)流程、方案和服務(wù)、修正服務(wù)級別。
理論上將事件管理流程實現(xiàn)的關(guān)鍵成功因素歸為以下四個方面:及時更新的配置管理數(shù)據(jù)庫,知識庫,適當(dāng)?shù)闹喂ぞ?,與服務(wù)級別管理相關(guān)聯(lián)的合適的優(yōu)先級和解決時限。導(dǎo)致失敗的因素包括:用戶或支持人員故意避開流程,事件處理超載和堆積,事件升級、定義和協(xié)議不清晰,缺少管理層承諾,升級的增加,執(zhí)行成本增加等。由此看出,合理的設(shè)計和規(guī)范的執(zhí)行是成功實踐保證。
隨著體系的運行,各流程中數(shù)據(jù)的積累,如何通過變更管理對事件處理中的過程進(jìn)行控制,通過配置管理提供的信息定位,通過問題管理提供的知識庫和問題預(yù)測,使事件管理的效率、效果得到提升,使其進(jìn)入一個良性推動的閉合循環(huán)狀態(tài),能夠形成主動預(yù)防事件的模式,是我們下一步思考和實踐的目標(biāo)。
[1]ISO/IEC20000-2:2005 Information technology-Service management[M].
[2]Jan van Bon主編,章斌譯.基于ITIL的IT服務(wù)管理(基礎(chǔ)篇)[M].北京:清華大學(xué)出版社.2007.
[3]Gad JSelig著,中治研(北京)國際信息技術(shù)研究院譯.實施IT治理[M].2011.
[4]左天祖.ITIL白皮書[M].
G647
B
1673-8454(2011)17-0033-04
(編輯:隗爽)