宋國柱,景超,王堃,武海文
(山西農(nóng)業(yè)大學(xué)軟件學(xué)院,太谷 030801)
數(shù)據(jù)中心是智慧校園的核心,是學(xué)校信息化建設(shè)提供可靠服務(wù)的基礎(chǔ)保障。數(shù)據(jù)中心機(jī)房設(shè)備的運(yùn)維,高校管理員一般采用運(yùn)維管理系統(tǒng),如著名的Zabbix開源運(yùn)維管理系統(tǒng),它能實(shí)現(xiàn)設(shè)備告警、軟件告警、資產(chǎn)管理等功能,可解決數(shù)據(jù)中心機(jī)房在運(yùn)維過程中的一些問題,但系統(tǒng)沒有自主學(xué)習(xí)功能,不能對設(shè)備進(jìn)行預(yù)警,也不能對環(huán)境中的噪聲、粉塵等因素進(jìn)行監(jiān)測,更不能完成無人值守和無人操作等功能。
隨著學(xué)校業(yè)務(wù)應(yīng)用的不斷擴(kuò)展,數(shù)據(jù)中心的資產(chǎn)設(shè)備越來越多,專業(yè)化程度要求越來越高,數(shù)據(jù)的安全性越來越重要,如何保證數(shù)據(jù)中心安全穩(wěn)定、持續(xù)高效地運(yùn)行是智慧校園運(yùn)維中面臨的突出問題,主要表現(xiàn)在以下幾個(gè)方面:
(1)運(yùn)維人員缺乏,專業(yè)化程度高。高等農(nóng)業(yè)院校信息化建設(shè)與管理部門數(shù)據(jù)中心專業(yè)運(yùn)維人員普遍缺乏,一般均是身兼多職,沒有專門的機(jī)房設(shè)備巡檢人員,造成機(jī)房巡檢只是在特殊時(shí)間簡單查看。
(2)巡檢不及時(shí),運(yùn)維效率低。機(jī)房設(shè)備發(fā)生故障時(shí),往往不是第一時(shí)間知道(有可能已故障好幾天,尤其是在假期),當(dāng)運(yùn)維人員出差在外時(shí),故障得不到及時(shí)處理,影響業(yè)務(wù)的正常運(yùn)行。
(3)存在巡視盲區(qū),安全隱患多。7×24小時(shí)運(yùn)轉(zhuǎn),機(jī)房用電負(fù)荷大,網(wǎng)絡(luò)設(shè)備多,電池漏液,線路老化,空調(diào)故障,發(fā)電機(jī)運(yùn)轉(zhuǎn)等,人工巡視無法全面覆蓋,都是消防安全隱患的突發(fā)點(diǎn)。
(4)機(jī)房值班,輻射強(qiáng)危害大。機(jī)房噪音大,輻射強(qiáng),對人體危害大,專業(yè)要求程度高,發(fā)生故障時(shí)要及時(shí)排除,但并不是任何值班人員都有權(quán)進(jìn)入機(jī)房并進(jìn)行操作,即使值班也不會(huì)定時(shí)巡檢機(jī)房的所有設(shè)備,因此達(dá)不到值班應(yīng)有的要求和效果。
(5)各監(jiān)控系統(tǒng)相互孤立,故障溯源困難。動(dòng)環(huán)監(jiān)控系統(tǒng)、消防監(jiān)控系統(tǒng)、門禁系統(tǒng)、視頻監(jiān)控系統(tǒng)、設(shè)備運(yùn)行監(jiān)測系統(tǒng)、軟件運(yùn)行監(jiān)測系統(tǒng)等往往是相互孤立的,無法進(jìn)行數(shù)據(jù)共享,數(shù)據(jù)中心的監(jiān)控(包括軟件、硬件及數(shù)據(jù))是被分散在幾個(gè)系統(tǒng)中,每個(gè)系統(tǒng)由不同的管理員負(fù)責(zé),無法集中在一個(gè)平臺(tái)上進(jìn)行查看、匯總并分析,當(dāng)發(fā)生故障時(shí)無法綜合各方面的告警信息進(jìn)行故障的分析處理,無法有效提升故障排除效率。
基于數(shù)據(jù)中心機(jī)房運(yùn)維的現(xiàn)狀及面臨的突出問題,采用機(jī)器人技術(shù)與人工智能技術(shù),提出了基于智巡機(jī)器人的智能數(shù)據(jù)中心機(jī)房管理設(shè)想,智巡機(jī)器人不僅可以對網(wǎng)絡(luò)設(shè)備進(jìn)行全天候巡檢和排障,及時(shí)發(fā)現(xiàn)并解決諸多問題以提高檢查效率,還可以針對涉密區(qū)域、高風(fēng)險(xiǎn)區(qū)域等人工巡檢難以開展的區(qū)域進(jìn)行監(jiān)控和診斷,實(shí)現(xiàn)數(shù)據(jù)中心機(jī)房智能化運(yùn)營,真正實(shí)現(xiàn)數(shù)據(jù)中心的無人值守,打造人工智能時(shí)代的新型數(shù)據(jù)中心。
智巡機(jī)器人以機(jī)器人技術(shù)為硬件主體,以AI圖像識別技術(shù)為算法核心,通過路徑規(guī)劃完成自動(dòng)行走,通過視覺系統(tǒng)完成機(jī)房的檢測巡視、故障燈識別、儀表盤識別等,通過紅外傳感器實(shí)現(xiàn)機(jī)房設(shè)備溫度監(jiān)控,通過聲光、氣體傳感器實(shí)現(xiàn)火災(zāi)等隱患的排查等,系統(tǒng)架構(gòu)設(shè)計(jì)如圖1所示。
圖1 智巡機(jī)器人系統(tǒng)架構(gòu)
智巡機(jī)器人由移動(dòng)APP、管理平臺(tái)、識別感應(yīng)裝置、行走裝置和機(jī)械平臺(tái)五部分組成,各部分的功能如下。
(1)移動(dòng)APP。實(shí)現(xiàn)移動(dòng)端隨時(shí)遠(yuǎn)程查看機(jī)房現(xiàn)場、遠(yuǎn)程控制機(jī)器人、查看告警信息等。登錄APP并進(jìn)行身份識別,識別成功后根據(jù)用戶的權(quán)限可查看告警信息、遠(yuǎn)程實(shí)時(shí)圖像、語音交互(根據(jù)不同的權(quán)限,執(zhí)行的動(dòng)作會(huì)有所不同)、遠(yuǎn)程控制機(jī)器人(需最高權(quán)限)和在線升級等。
(2)管理平臺(tái)。實(shí)現(xiàn)智巡機(jī)器人識別感應(yīng)裝置、行走裝置及移動(dòng)APP接口。
(3)識別感應(yīng)裝置。包括自主導(dǎo)航(如路徑規(guī)劃、掃描建圖、SLAM算法、點(diǎn)/路徑/區(qū)域設(shè)置和OTA等)、導(dǎo)航傳感器(如3D攝像頭、激光雷達(dá)和機(jī)械防撞傳感器等)、工業(yè)傳感器(如監(jiān)測有害氣體、溫濕度、PM2.5、噪聲、煙感等)和運(yùn)算平臺(tái)(如深度學(xué)習(xí)、圖像識別、YOLOV5算法、設(shè)備管理及驅(qū)動(dòng)管理等)。實(shí)現(xiàn)一:根據(jù)規(guī)劃的路徑,利用3D攝像頭、激光雷達(dá)及機(jī)械防撞(使機(jī)器人具有避障功能),控制智巡機(jī)器人按設(shè)定的路徑行走,同時(shí)使用3D攝像頭不僅可以遠(yuǎn)程查看機(jī)房,還可以識別行走過程中的儀表盤、故障燈等;實(shí)現(xiàn)二:在線監(jiān)測(包括行走和靜止?fàn)顟B(tài))機(jī)房中有害氣體、溫濕度、PM2.5、噪聲、煙、電力、UPS、漏水等,如當(dāng)機(jī)房中有害氣體量達(dá)到設(shè)定的閾值時(shí),機(jī)器人可自動(dòng)開啟排風(fēng)裝置,并且此時(shí)若有工作人員刷門禁進(jìn)入時(shí),提示工作人員,當(dāng)降到設(shè)定的閾值時(shí),關(guān)閉排風(fēng)裝置。
(4)行走裝置。根據(jù)識別感應(yīng)裝置中的條件控制機(jī)器人行走及操作,行走裝置包括有線/無線網(wǎng)絡(luò)設(shè)置、電源管理(監(jiān)測電量并進(jìn)行智能充電)、在線升級硬件固件程序等。
(5)機(jī)械平臺(tái)。主要包括機(jī)器人行走所需硬件,如滾輪、步進(jìn)電機(jī)、電池等。
智巡機(jī)器人可以對本地服務(wù)器、存儲(chǔ)、空調(diào)、配電柜、消防設(shè)備等的指示燈、數(shù)字儀表、指針儀表、開關(guān)等元件工作狀態(tài)進(jìn)行7×24小時(shí)實(shí)時(shí)監(jiān)測,結(jié)合研發(fā)的圖像識別算法,對設(shè)備狀態(tài)進(jìn)行識別告警,實(shí)現(xiàn)7×24小時(shí)無人值守;通過加載各類采集單元,如有害氣體、PM2.5、噪聲等,可獲取運(yùn)維管理人員無法發(fā)現(xiàn)的異常情況;通過與現(xiàn)有平臺(tái)對接,如動(dòng)環(huán)監(jiān)測、門禁系統(tǒng)、運(yùn)維管理平臺(tái)等,在進(jìn)行數(shù)據(jù)共享的同時(shí),實(shí)現(xiàn)大數(shù)據(jù)的分析統(tǒng)計(jì)。
管理員可根據(jù)日常巡檢需求,通過智巡機(jī)器人管理平臺(tái)中的常規(guī)巡檢策略功能,靈活設(shè)定每日不同任務(wù)的巡檢次數(shù)、每次巡檢時(shí)間及巡檢中遇到特殊情況被打斷等情況的應(yīng)對方式,也可將單日的巡檢計(jì)劃延伸為更長時(shí)間周期內(nèi)的自動(dòng)執(zhí)行計(jì)劃,讓機(jī)器人根據(jù)計(jì)劃自動(dòng)執(zhí)行機(jī)房日常巡檢任務(wù),提高機(jī)房巡檢頻次和維度。
智巡機(jī)器人可自動(dòng)采集、監(jiān)測數(shù)據(jù)中心機(jī)房各項(xiàng)環(huán)境數(shù)據(jù)指標(biāo),如:
(1)溫濕度監(jiān)測。主要監(jiān)測機(jī)房內(nèi)溫濕度,保障網(wǎng)絡(luò)設(shè)備在符合標(biāo)準(zhǔn)的環(huán)境下運(yùn)行,溫濕度測量范圍:±0.8% RH,10~30℃;測量極限:0~100%RH,-50~100℃。
(2)噪聲監(jiān)測。主要監(jiān)測來自機(jī)房內(nèi)服務(wù)器和高速運(yùn)轉(zhuǎn)設(shè)備的噪聲,即時(shí)監(jiān)測硬件設(shè)備的運(yùn)行情況,測量范圍30~120 db,最大誤差0.5 db。
(3)空氣質(zhì)量監(jiān)測。主要監(jiān)測機(jī)房內(nèi)空氣中的粉塵濃度,防止粉塵濃度過高降低電路與元器件絕緣性能,腐蝕電路板縮短設(shè)備壽命,防止堵塞防塵網(wǎng),影響IT設(shè)備散熱效率;監(jiān)測并量化每立方米空氣中PM1.0、PM2.5、PM10的數(shù)量。
(4)有害氣體監(jiān)測。主要監(jiān)測電纜電線燃燒前揮發(fā)的毒性氣體,提前預(yù)防對硬件設(shè)備造成的腐蝕,特別是機(jī)房內(nèi)服務(wù)器、UPS配電柜等,如可監(jiān)測硫化物等有害氣體的濃度。
(5)煙霧濃度監(jiān)測。與數(shù)據(jù)中心煙霧報(bào)警系統(tǒng)對接,可同步監(jiān)測煙霧濃度發(fā)出預(yù)警及告警信息。
隨工錄像即機(jī)器人根據(jù)管理員下發(fā)的任務(wù)確定設(shè)備位置信息,引導(dǎo)運(yùn)維管理人員(包括設(shè)備維修廠商技術(shù)人員、技術(shù)外包人員等)至指定位置并進(jìn)行錄像。在一定程度上解決單位人員隨工陪同耗時(shí)問題,釋放無謂的人力投入,讓本單位人員投入更多的精力去關(guān)注機(jī)房建設(shè)規(guī)劃等更有意義的事情,提升數(shù)據(jù)中心整體運(yùn)行效率。
當(dāng)機(jī)房設(shè)備出現(xiàn)故障并發(fā)出告警信息而運(yùn)維管理人員不在現(xiàn)場時(shí),運(yùn)維管理人員可遠(yuǎn)程控制機(jī)器人到故障位置點(diǎn),通過控制機(jī)器人的速度、轉(zhuǎn)向及攝像頭旋轉(zhuǎn)與變焦操作查看故障具體信息,分析原因。若是軟件系統(tǒng)問題,運(yùn)維管理人員可通過堡壘機(jī)登錄系統(tǒng)解決;若是硬件問題,可與現(xiàn)場人員通過視頻或語音進(jìn)行實(shí)時(shí)交互加以解決。
通過設(shè)置導(dǎo)覽劇本,控制機(jī)器人根據(jù)預(yù)設(shè)的既定路線,引導(dǎo)參觀考察人員進(jìn)入指定地點(diǎn)進(jìn)行自動(dòng)語音講解并執(zhí)行相應(yīng)的動(dòng)作,也可與參觀考察人員進(jìn)行簡單的語音交互。
智巡機(jī)器人具有7×24小時(shí)設(shè)備巡檢、移動(dòng)環(huán)境監(jiān)測(如溫濕度、噪聲、空氣質(zhì)量、有害氣體及煙霧等)、隨工錄像、遠(yuǎn)程協(xié)助及參觀迎檢等功能。
智巡機(jī)器人根據(jù)巡檢內(nèi)容進(jìn)行定時(shí)、不定時(shí)的巡檢,巡檢內(nèi)容如表1所示。
表1 機(jī)器人巡檢內(nèi)容
對數(shù)據(jù)中心機(jī)房主要設(shè)備指示燈、數(shù)字儀表、指針儀表、電源開關(guān)等進(jìn)行圖像識別算法研究,數(shù)字儀表、指針儀表、電源開關(guān)狀態(tài)的識別準(zhǔn)確率為99.9%,設(shè)備指示燈的識別準(zhǔn)確率在90.0%~98.3%之間,主要是由于在黑暗環(huán)境下網(wǎng)絡(luò)設(shè)備業(yè)務(wù)燈頻繁閃爍、亮度強(qiáng)、設(shè)備種類多導(dǎo)致,需進(jìn)一步優(yōu)化識別算法,以提升設(shè)備指示燈識別準(zhǔn)確率。
智巡機(jī)器人可實(shí)現(xiàn)數(shù)據(jù)中心機(jī)房無人化、智能化巡檢運(yùn)維,解決機(jī)房人工巡檢耗時(shí)費(fèi)力、存在巡檢盲區(qū)、無法實(shí)時(shí)監(jiān)測等問題,可大幅提升機(jī)房巡檢運(yùn)維效率及智能化水平,為學(xué)校信息化建設(shè)提供可靠、安全、及時(shí)的服務(wù)保障,滿足廣大師生教學(xué)、科研、管理等服務(wù)質(zhì)量要求。