王斌斌,唐 雨,孟壇魁
(中國人民大學(xué) 網(wǎng)絡(luò)與教育技術(shù)中心,北京 100872)
IT服務(wù)管理體系實踐之問題管理
王斌斌,唐 雨,孟壇魁
(中國人民大學(xué) 網(wǎng)絡(luò)與教育技術(shù)中心,北京 100872)
問題管理作為ISO 20000體系中五大主要管理流程之一,對增強我網(wǎng)絡(luò)中心對問題的預(yù)防和解決能力,提高中心的管理和服務(wù)水平,具有重要的現(xiàn)實意義。本文主要對問題管理流程、流程設(shè)計思路和通過其達成的目標(biāo)加以論述。
發(fā)現(xiàn)問題;解決問題;問題預(yù)防;問題管理流程
問題管理是以解決問題為導(dǎo)向,以挖掘未知問題,表達、歸結(jié)和處理已知問題為線索和切入點的一套管理理論和管理方法。問題是客觀存在的,出現(xiàn)問題在所難免。關(guān)鍵是如何及時發(fā)現(xiàn)這些問題,并找出問題的原因及解決方法,對可能產(chǎn)生的新問題做到預(yù)測和防范,對已暴露的問題確立可行的解決方案。
問題管理作為ISO20000體系五大主管理流程之一,其研究和應(yīng)用的途徑是沿著IT服務(wù)中“事件管理”路線推廣發(fā)展而來,與事件管理和變更管理等流程聯(lián)系緊密。問題管理是為了對發(fā)生在用戶使用IT中發(fā)生的問題進行管理,找出產(chǎn)生這些事件或故障的根本原因并解決或預(yù)防。從而為用戶提供一個穩(wěn)定的IT服務(wù)使用和運行環(huán)境,保障并提高服務(wù)的可用性。
1.問題管理流程
問題管理的特點為:一是防患于未然,防止可能產(chǎn)生的問題演化為事故;二是發(fā)現(xiàn)和解決關(guān)鍵問題,過濾假問題,解決真問題;三是跨專業(yè)、跨科室地分析和解決問題,打通各專業(yè)或科室之間的鴻溝。根據(jù)ISO20000標(biāo)準(zhǔn)和網(wǎng)絡(luò)中心的實際情況,總結(jié)和制定出問題管理流程如下:
(1)問題管理流程的發(fā)起,是由網(wǎng)絡(luò)中心的一線、二線工程師在IT服務(wù)管理平臺上提出問題申請單。問題申請單可以是工程師在日常工作中主動發(fā)現(xiàn)的問題,也可以是由事件上升到問題等的被動發(fā)現(xiàn)問題。
(2)問題管理負(fù)責(zé)人作為問題處理的主導(dǎo)者,對提出的問題進行受理和分析。確認(rèn)需要受理后,對問題進行初步分類和優(yōu)先級判斷。
(3)問題管理負(fù)責(zé)人對該問題進行審批和分派。根據(jù)問題的類型和復(fù)雜程度等,如需要則上升提交到問題經(jīng)理;再有必要時,上升到專業(yè)技術(shù)委員會進行審批和分派。
(4)問題在經(jīng)過審批和分派被確認(rèn)后,問題管理負(fù)責(zé)人進行任務(wù)分配。根據(jù)審批和分派給出的反饋信息,安排并遞交給一位工程師獨立或牽頭來解決此問題,可有多人參與。
在具體解決問題的過程中,對于已經(jīng)找到根本原因的問題,需要確定解決方案,以便永久解決問題。要注意的是,在問題管理流程的處理階段,要注意是否需要通過其他流程(如變更流程等),如需要則提交到相應(yīng)的流程,并和該流程人員保持溝通,了解問題的解決狀況,如不需要變更,計劃并組織實施解決方案。
(5)問題由工程師進行處理在將問題處理實施結(jié)果反饋給問題管理負(fù)責(zé)人后,由問題管理負(fù)責(zé)人對解決的問題進行評價、點評。
(6)把需要積累的新知識存入知識庫。
(7)問題管理負(fù)責(zé)人或問題處理工程師關(guān)閉問題。
問題管理流程如圖1所示。
2.問題管理流程主要角色及職能
問題管理流程中,包含的角色為:問題流程負(fù)責(zé)人、問題管理負(fù)責(zé)人、問題管理經(jīng)理、專業(yè)技術(shù)委員會和一線、二線工程師。其主要職能分別如下:
(1)問題流程負(fù)責(zé)人:從總體上對問題管理流程的設(shè)計、實施、執(zhí)行及優(yōu)化負(fù)責(zé),確保問題管理流程被正確執(zhí)行。當(dāng)流程不能夠適應(yīng)實際的運維情況時,流程負(fù)責(zé)人必須及時對此進行分析,找出缺陷,進行改進,從而實現(xiàn)可持續(xù)提高。
(2)問題管理負(fù)責(zé)人:接受問題單,對問題進行審核確認(rèn),確保所有相關(guān)問題信息都被正確記錄。對問題進行分級和分類,進行最初的審批與分派。根據(jù)問題解決詳細記錄,審核問題,合理分派IT資源,落實執(zhí)行解決方案,必要時發(fā)起變更流程并監(jiān)控變更的實施。根據(jù)常見或者典型的問題整理知識庫記錄。
(3)問題管理經(jīng)理:對問題進行審批與分派,必要時申請召開專業(yè)技術(shù)委員會(擴大)會議,確定問題的根本原因,提供問題的臨時解決方法(未根本解決問題)或最終的解決方案。監(jiān)控問題解決全過程,確保問題分派正確,查看問題處理結(jié)果。
(4)專業(yè)技術(shù)委員會:定期分析委員會所管理范圍內(nèi)的事件記錄數(shù)據(jù)及信息,發(fā)現(xiàn)和識別問題,進行主動預(yù)防。接受問題管理經(jīng)理分派的問題,將技術(shù)委員會不能受理的問題單及時退還給問題管理經(jīng)理,并說明原因。分析和診斷問題的根本原因,提出解決方案,必要時協(xié)調(diào)配合第三方供應(yīng)商診斷和解決問題。
(5)一線、二線工程師:發(fā)現(xiàn)和識別問題,并進行主動預(yù)防,必要時配合問題管理負(fù)責(zé)人診斷和解決問題。根據(jù)問題管理負(fù)責(zé)人的任務(wù)分配執(zhí)行問題解決方案。
1.問題管理流程的確定和應(yīng)用
我們根據(jù)ISO20000體系標(biāo)準(zhǔn)和在實踐中的不斷摸索和嘗試,經(jīng)過多次的修改和完善,最終制定出了適用于網(wǎng)絡(luò)中心實情的問題管理流程。
網(wǎng)絡(luò)中心的問題管理流程是依托于已經(jīng)建立起來的IT服務(wù)管理平臺實現(xiàn)的,所有在工作中主動發(fā)現(xiàn)或被動發(fā)現(xiàn)的未知問題,都要通過IT服務(wù)管理平臺上的問題管理流程來解決。根據(jù)網(wǎng)絡(luò)中心的實際工作情況,我們將所有對網(wǎng)絡(luò)中心IT基礎(chǔ)架構(gòu)有影響的問題都定義為問題管理的問題來源,處理過程將通過流程中定義的標(biāo)準(zhǔn)、政策和指導(dǎo)進行管理。
事件產(chǎn)生原因的確認(rèn)是解決問題的前提,也是最關(guān)鍵的一步。因此要明確問題信息的來源,問題可能來源于某些事件的進一步調(diào)查,即通過事件管理關(guān)聯(lián)到問題管理,也可能來源于主動巡檢和事件報表分析。為了確定問題產(chǎn)生的根本原因,網(wǎng)絡(luò)中心建立了3層審批體制。第一層為問題管理負(fù)責(zé)人,這里是接收到問題單的科室主任;若這一層解決不了問題,則向第二層遞交,遞交給問題管理經(jīng)理,這里是網(wǎng)絡(luò)中心的中心領(lǐng)導(dǎo);如需要問題管理經(jīng)理將問題遞交給最高一層,即網(wǎng)絡(luò)中心專業(yè)技術(shù)委員會,由委員會召開會議研究和探討問題產(chǎn)生原因和解決方法。只有問題產(chǎn)生的原因得到了確認(rèn),才能制定出相應(yīng)的解決辦法,產(chǎn)生的問題才會得到根本的解決。
問題管理在實際處理問題的過程中,由于技術(shù)水平、資源等因素所限,可能短期內(nèi)不能根本解決問題。而整個問題處理的流程是個過程控制,能否按照流程一步步的進行,對問題處理有記錄、有控制,是問題處理的規(guī)范化管理。在網(wǎng)絡(luò)中心的IT服務(wù)管理平臺上,根據(jù)各個角色所應(yīng)擔(dān)負(fù)的責(zé)任進行了相應(yīng)的權(quán)限規(guī)定,用來確保每個問題在任何時段都有適當(dāng)?shù)娜藛T負(fù)責(zé),從而全面落實責(zé)任制需要實行問題的有效管理方案,從而保證問題處理的及時性及有效性。
2.知識庫
知識庫在問題管理流程中扮演著重要的角色。在問題管理流程的最后階段,若是一個新的問題最后得到了根本解決,可將這個問題的解決方法提交至知識庫,這樣以后若遇到相同或相似的問題,可以參考知識庫中的信息,快速有效地解決問題,大大地提高了工作效率,也節(jié)約了人力資源。
根據(jù)我中心科室劃分和業(yè)務(wù)內(nèi)容等實際情況,我們定義了以下知識庫結(jié)構(gòu):
(1)安全:病毒、防火墻、其他;
(2)辦公:財務(wù)、工會、公文、其他;
(3)基礎(chǔ)環(huán)境:UPS電源、機房空調(diào);
(4)教學(xué)設(shè)施:電子屏、教師用機、投影系統(tǒng)、其他;
(5)卡系統(tǒng):卡專網(wǎng)、門禁、系統(tǒng)、自服務(wù)終端、其他;
(6)媒體:編輯、磁帶管理、攝像、其他;
(7)網(wǎng)絡(luò):主干設(shè)備、接入設(shè)備、網(wǎng)絡(luò)基礎(chǔ)服務(wù)、鏈路、設(shè)備配置手冊、無線網(wǎng)絡(luò)、用戶主機;
(8)系統(tǒng):IT 服務(wù)平臺、VPN、Web、存儲、刀片服務(wù)器、數(shù)字人大、虛擬服務(wù)器、其他;
(9)應(yīng)用:數(shù)字人大應(yīng)用系統(tǒng)、郵件、其他。
IT服務(wù)管理平臺的知識項可以鏈接文件,為管理配置手冊這樣的知識提供了方便。因此可看出,知識庫是提供相關(guān)技術(shù)的資源、信息、知識的集中體現(xiàn),是知識積累的重要場所。我們通過對知識庫的運用,可以充分利用知識成果,提高工作效率,減少重復(fù)勞動。
問題管理作為ISO20000體系五大主流程之一,與其他主流程和管理流程都有著密不可分的關(guān)聯(lián)。
(1)與事件管理關(guān)聯(lián)
問題管理中,待處理問題的主要來源之一是通過事件管理。事件和問題,就像本質(zhì)和現(xiàn)象,原因和結(jié)果。一個或一系列事件產(chǎn)生后,若是通過臨時解決方法解決的,則在恢復(fù)用戶IT服務(wù)后,都應(yīng)該創(chuàng)建問題單,即新建一個問題。此問題解決后,需將解決方案等信息反饋給事件管理,以提升類似事件的解決效率。事件管理作為問題管理的主動性活動的輸入,可用于進行事件趨勢分析發(fā)現(xiàn)潛在問題。
(2)與變更管理關(guān)聯(lián)
問題處理過程中,如果涉及到需要對基礎(chǔ)架構(gòu)、應(yīng)用系統(tǒng)及操作系統(tǒng)等進行變更的,則觸發(fā)變更管理流程。必須按照變更管理定義,提交變更請求,變更管理負(fù)責(zé)控制執(zhí)行變更。變更完成后,向問題管理反饋變更執(zhí)行結(jié)果。
(3)與配置管理關(guān)聯(lián)
配置管理中,配置信息可用于判斷問題產(chǎn)生的原因。在問題處理過程中,可以通過配置管理查詢相關(guān)的配置項信息。如果可以將問題產(chǎn)生的根本原因定位到某個配置項,則必須將問題與該配置項關(guān)聯(lián),觸發(fā)配置管理流程。
(4)與容量及可用性管理關(guān)聯(lián)
容量及可用性管理為問題管理提供用于定義問題的重要信息。在日常容量及可用性計劃執(zhí)行與監(jiān)控過程中,如果發(fā)現(xiàn)問題發(fā)生,需提交問題申請單,依照問題管理流程執(zhí)行。與容量及可用性相關(guān)的問題報告信息應(yīng)輸入到容量及可用性管理流程中,作為分析容量及可用性需求的重要依據(jù)。容量及可用性報告作為問題管理主動性活動的輸入,用于進行容量及可用性趨勢分析發(fā)現(xiàn)潛在問題。問題管理找出與容量及可用性有關(guān)的問題,查明原因并進行糾正,以此來支持容量及可用性管理流程的工作。
(5)與服務(wù)級別管理關(guān)聯(lián)
服務(wù)級別管理為問題管理提供用于定義問題的信息,問題管理流程應(yīng)當(dāng)遵守和支持規(guī)定的服務(wù)級別。在確定通過服務(wù)級別管理程序制定SLA的過程中,問題經(jīng)理可針對SLA的指標(biāo)提出相應(yīng)的專業(yè)意見,服務(wù)級別經(jīng)理應(yīng)綜合考慮各流程經(jīng)理的意見,以確保制定的SLA合理和可行。SLA應(yīng)得到問題管理流程的支撐,分解有關(guān)的SLA指標(biāo)作為問題管理流程的指標(biāo)。問題管理中,所有新定義的已知錯誤和解決方案均應(yīng)添加進知識庫中,供其他管理流程或相關(guān)人參考。
問題管理主要目的是為了規(guī)范對發(fā)生在用戶使用IT中發(fā)現(xiàn)的未知問題、找到問題所在和管理解決問題的過程,找出產(chǎn)生這一系列事件的根本原因,然后根據(jù)需要通過提交變更請求,或采取臨時解決方法(未根本解決問題)和預(yù)防性措施來消除引起這些問題的深層次根源,以防止此類問題的再次發(fā)生,從而為用戶提供一個穩(wěn)定的生產(chǎn)和運行環(huán)境,保障并提高服務(wù)的可用性。
通過問題管理過程規(guī)范化,使之有記錄,有控制,以提高解決率。通過規(guī)范問題管理流程,可拓展網(wǎng)絡(luò)中心全體人員的思維深度和廣度,不是只看到并滿足于眼前的現(xiàn)狀,而是將對未知問題的發(fā)現(xiàn)變成一種經(jīng)常性的活動。按照ISO20000標(biāo)準(zhǔn),結(jié)合持續(xù)性、可用性、容量管理的監(jiān)測活動,可以實現(xiàn)主動問題管理,在中斷服務(wù)的事件發(fā)生之前,發(fā)現(xiàn)并解決可能導(dǎo)致事件產(chǎn)生的問題。通過解決這些問題,不斷的提高和升華,使我中心人員有更強的發(fā)現(xiàn)問題和解決問題的意識,對體系和流程的認(rèn)識更深入,提供更高效穩(wěn)定的IT服務(wù)。
中國人民大學(xué)網(wǎng)絡(luò)與教育技術(shù)中心根據(jù)ISO20000標(biāo)準(zhǔn),已建立起比較成熟的問題管理流程。不僅有較完善的理論框架體系,而且在IT服務(wù)管理平臺上得到充分實踐,應(yīng)用效果已經(jīng)顯現(xiàn)出來。在日后對問題管理的不斷應(yīng)用和探索中,會不斷改善和提高問題管理流程,使之更好地實現(xiàn)其價值。
[1]孫繼偉.問題管理的理論與實踐[J].管理學(xué)報,2010(11).
[2]左天祖主編.ITIL白皮書[M].
[3]百科名片http://baike.baidu.com/view/1137807.htm[OL].
[4]慕明宜.淺談問題管理[J].印刷質(zhì)量與標(biāo)準(zhǔn)化,2006(6):46-49.
[5]Gad J Selig著,中治研國際信息技術(shù)研究院譯.實施IT治理:方法論、模型、全球最佳實踐[M].北京:中國經(jīng)濟出版社.
G647
B
1673-8454(2011)17-0037-03
(編輯:隗爽)