羅長春
(國網(wǎng)湖南省電力有限公司郴州供電分公司,湖南 郴州 423000)
隨著計算機信息技術不斷地發(fā)展,信息機房無論是規(guī)模、質量以及數(shù)量等都發(fā)生了巨大的變化,不斷由以往的小型化、單一化、具象化朝著大型應用、復雜多樣和立體應用方向發(fā)展,特別是云計算技術不斷地深化應用,對機房服務器的運維管理提升具有很高的要求。需要信息機房運維管理人員不僅要懂網(wǎng)絡技術和計算機技術,還須具備綜合科學化運維能力,否則會直接影響到設備的使用效能和使用周期,因此必須高度重視信息機房的運行和維護。
管理是重復完成預定目標而不得不進行了相關溝通協(xié)調工作。為有效保障信息機房有效高效安全運轉,確保相關服務器、設備儀器運轉正常,機房必須要有科學有效的執(zhí)行機制作保障。從一定意義上來講,信息機房運維管理就是對制定的規(guī)章充分運行、過程督查和指導改進的活動。構建完善有效的機關管理機制以及相關流程制度是做好機房工作的重中之重。在具體日程性工作中必須根據(jù)具體環(huán)境、具體要求等,修訂一系列完備的機房運維管理辦法,以確保機房運維的有效運行。有效機制和制度用來促進機關運維管理標準化規(guī)范化,是機房運維的根基。而相關的制度體系需要在具體運維中完善和更新,以便更加適用具體工作的需要。執(zhí)行制度就是按照制定的規(guī)章制度去實施;檢查就是將執(zhí)行的具體環(huán)節(jié)和具體效果與體制機制最初制定預期目標進行有效性比對,從而發(fā)現(xiàn)問題、挖掘經(jīng)驗;具體工作改進提升就是通過檢查挖掘出來的有效做法,并將具體做法轉化為有效的運管機制或者完善以往制度體系,建立執(zhí)行制度、發(fā)現(xiàn)問題、總結經(jīng)驗、完善制度的閉環(huán)運行管理體系。機房運行衛(wèi)華管理制度主要包含:主要領導崗位責任制、崗位體系責任、運行機房管理規(guī)范、平穩(wěn)運行制度體系、安全風險評估制度、日常進出機房登記制度、運行機房風險制度等。制度體系建立后,機房運維就有章可依,各項管理規(guī)定也能較好的落到實處。
為確保信息機房內(nèi)電腦等設備長時間運行,雖然從環(huán)境、管理、應急等方面做了很多細致有效的工作,但還是難免出現(xiàn)一些問題,按照問題類別主要有以下幾類。
(1) 方案類故障。一是備用開關數(shù)量不夠,造成后期擴容困難。二是地板高度不夠,后期下走線線纜多了堵塞風道造成送風量不夠。三是中線經(jīng)過開關觸點導致的故障,發(fā)電機用手動四極開關轉換時切斷零線時間過長,零點漂移過高。四是配電空開或電纜容量不足引起供電跳閘。五是空調下水管過細、過長、彎道太多,極易造成泥沙淤塞。六是機房通風地板、吊頂格柵板設置位置不正確,形成機房熱點。
(2) 安裝類故障。一是需要后維護的機柜卻做成了靠墻安裝,給后期維護帶來困難。二是電池樁未緊固,連接松動打火,大電流導致起火又導致電池漏液。三是裝錯互感器 (應500:5,裝到了50:5) 導致互感器冒煙。四是機房溫度計安裝位置不正確,不能夠獲取準確的機房溫度。五是空調外機安裝位置不當,互相對吹,互相干擾,空調經(jīng)常高壓報警。
(3) 操作性事故。一是個別運行維護人員認為電源比較簡單,可以不看有關說明憑經(jīng)驗也能完成操作,這樣很有可能造成事故,造成損失,如所接負載雖未超標稱值但已超過了整定值引起跳閘。二是關斷分路開關前未先行測量一下電流,仍由其供電的設備斷電停止工作。三是電氣操作沒有按規(guī)定雙人臨崗,電池極性錯接引發(fā)事故。 四是地下插座接線不牢電源加不上。五是清掃配電柜頂部時,沒注意把初期施工留下的鐵屑掃落引起打火跳閘。六是服務器送電時因本機柜插座不夠,違規(guī)借用相鄰機柜的,當機房單路供電時引起相鄰機柜超載跳電。
(4) 處理不及時故障。一是機房漏水已有告警,由于值班員的疏忽而未及時處理,從而造成機房地板下大面積積水,形成巨大隱患。二是UPS放電時,當電池將近放完時電話通知樓下配電間快送電,但一直占線,等到接通時蓄電池已放完,造成停電。三是機房空調模塊已壞,但因模塊有冗余對機房溫度并無影響,過幾天氣溫飆升,另一模塊也因壓縮機高壓報警而損壞,使機房溫度失控。四是交換機后部風機出風口因被眾多線纜阻擋影響送風,安裝開機后發(fā)現(xiàn)這一情況,但未及時移除,后來發(fā)生了交換機內(nèi)部溫度過高而停機,造成多臺設備停機。
(1) 進出運行機房所必須明確的內(nèi)容。一是必須禁止無關人員進入運維機房,緊急情況須經(jīng)相關領導批準,并嚴格填寫人員進出機房申請表后,方可以進入。二是必須對進入人員進行嚴格檢查,不得將任何違禁物質帶入機房,包括一些易燃爆、易腐蝕、強電流輻射、強流質物體等,對機房設備設施造成危害的物質。 三是如果有關人員調離,要經(jīng)單位主管領導嚴格審核批復,做調離前的工作交接,將相關密鑰、密碼以及重要的設備文件方案等交給指定人員,并負責好相關培訓,確保機房正常運轉。
(2) 運維機房防火須知。運維機房防火工作是重中之重,必須嚴格做好相關防火工作。相關管理人員須帶頭學好相關防火知識,具備必要防火能力,在具體作業(yè)中遵守相關規(guī)定規(guī)程。拆卸相關設施設備必須在斷電的前提下進行,絕對不能帶電操作;維護實施設備時候也需要斷電,再進行維護保養(yǎng);嚴禁用溶劑油等液體清洗設備;嚴禁在機房內(nèi)吸煙和使用加熱器具。
(3) 運維機房安全用電管理須知。首先機房從業(yè)人員必須掌握相關用電安全常識和技能,深入了解相關設備用電的操作流程和要求,注重安全用電,確保沒有觸電隱患。二是須定期對相關設備的用電安全進行檢查,并填好檢查記錄。三是不允許私自亂接電源,選用相關設備時,須保證安全品質。四是在接通電源之前,須再次確認接頭、連接線等是否安全,人員是否準備到位等。
(4) 運維機房相關設備實施安全管理須知。運維機房內(nèi)容相關設備要按時清理,要建立定期巡查制度,對相關設備,特別是重要設備,詳細進行巡查,及時發(fā)現(xiàn)相關設備實施隱患,并做好詳細登記。一是相關工作人員必須掌握相關設備實施的操作規(guī)范和流程。二是要及時了解和檢查相關設備實施的連線,及時掌握設備運行的工作狀態(tài)。三是未經(jīng)允許,不能任意轉移設備設施,或者任意更改相關設備設施物理連接。四是對任何相關的變動,必須事前做好預案,經(jīng)充分研究后,安排符合條件的人員進行變更,并做好詳細的變更記錄。對相關內(nèi)容的變更,還須做好變更后相關問題出現(xiàn)處理的預案,做好充分的準備工作。
(5) 運維機房病毒防控須知。一是嚴格防止病毒侵入。對相關新增的設備設施,在接入主干網(wǎng)前,要做好殺毒防毒工作,確保安全后,才能接入;在使用相關硬盤、U盤前,必須進行嚴格檢查,對陌生的硬盤和U盤等,禁止接入。二是要按時對現(xiàn)有骨干設備進行病毒巡查,安裝正版的殺入軟件,及時更新病毒庫。對關鍵病毒庫及時更新完善,防止特種病毒侵入。三是及時檢查病毒防控日志記錄,對相關入侵記錄,要高度重視,及時報告,并做好處理;如發(fā)現(xiàn)大規(guī)模病毒入侵情況,要采取緊急措施,斷網(wǎng)和隔離病毒感染設備。
(6) 運維機房相關軟件管理須知。一是要及時了解相關軟件的使用情況,及時做好相關數(shù)據(jù)以及數(shù)據(jù)庫、日志的備份。二是嚴禁在重要服務器上進行軟件測試,未經(jīng)允許安全其他軟件,在安裝有關軟件前,須嚴格審核,確保軟件來源正規(guī),正版合法。在安裝后,要進行運行狀況定期檢查,了解是否對其他正常運行軟件有影響。三是要做好相關軟件變更的及時記錄,對存在的安全風險,提前預估,做好應急預案準備。
任何機房的運行維護管理都需要由合格的人,信息機房運維管理需要人來支撐。一般來講,機房信息安全管理員是機房管理的重要人員,負有主要責任,為了確保機房相關設備實施安穩(wěn)長滿優(yōu)連續(xù)運行,必須保障機房具備優(yōu)質的運行管理環(huán)境。要切實提高機房的運行管理水平,需要做好以下幾項事情。
(1) 嚴格落實體制機制。信息機房的運維是一項很具體的日常工作,為應對各種風險,信息化管理員必須提高認識,日常工作中做到嚴細實恒。機房日常管理必須嚴格日常,抓在經(jīng)常。要建立完善的制度體系,要定期進行更新提升,要加強相關制度的宣貫執(zhí)行,保障相關工作在制度監(jiān)管下運行,在制度下操作,確保機房安全。
(2) 要加強相關知識的更新完善。機房的運維既涉及管理知識,有牽涉具體的設備實施,事情很多,要掌握的內(nèi)容也很多。隨著技術水平不斷地提升和更新,機房管理員必須時刻保持空杯心態(tài),及時跟進學習相關知識內(nèi)容。通過參加各類培訓班、相關工作研討會等,不斷向外單位學習、向先進做法學習,提升自身知識的積累量和能力素養(yǎng)。要時刻保持強烈的進取心,在提高機房運維管理上動腦筋、想辦法,勤思考,勤實踐,鞏固先進做法,彌補工作漏洞,提升管理水平。
(3) 要抓緊抓實日常具體工作。要做好相關設備的日常保養(yǎng),按要求定期進行檢查,及時發(fā)現(xiàn)隱患,并做好相關處理工作。要做好日常工作的記錄和積累,定期回顧分析工作中好的做法、存在的問題,分析問題產(chǎn)生的原因,制定相關的措施,確保問題得以解決。要建立設備更換日常清單,對需要更換的設備設施,提前做好采購,及時安排人員進行更換。對日常更換的廢棄設備設施,要做好安全識別,對相關數(shù)據(jù)進行備份保存,并做好處理,以免流失后,造成不良影響。
信息機房運維管理責任重大、意義重大,管理人員必須高度重視,大力加強學習,提升管理水平和運維技能水平,確保機房運行穩(wěn)定、高效,推動工作順利開展。