許薇 陳元琴 彭家紅
(中國(guó)聯(lián)通南昌市分公司,江西南昌 330096)
移動(dòng)智能網(wǎng)平臺(tái)故障淺析
許薇 陳元琴 彭家紅
(中國(guó)聯(lián)通南昌市分公司,江西南昌 330096)
設(shè)備單磁陣硬盤故障導(dǎo)致整個(gè)磁陣存儲(chǔ)失效,導(dǎo)致SCP與數(shù)據(jù)庫(kù)庫(kù)連接失敗,智能業(yè)務(wù)觸發(fā)業(yè)務(wù)阻塞,故障處理過程及故障原因進(jìn)行分析。
智能網(wǎng) 簽約 SCP 數(shù)據(jù)庫(kù) 連接
08:00智能網(wǎng)平臺(tái)SCP設(shè)備CP過負(fù)荷,告警屬二級(jí)告警,智能網(wǎng)平臺(tái)的SCP1與數(shù)據(jù)庫(kù)連接狀態(tài)正常,無(wú)異常告警,現(xiàn)場(chǎng)設(shè)備狀態(tài)檢查及設(shè)備運(yùn)行指示燈正常,無(wú)告警指示,經(jīng)測(cè)試影響部分用戶做被叫接續(xù),后續(xù)處理過程中影響5萬(wàn)用戶業(yè)務(wù)使用。
(1)經(jīng)測(cè)試發(fā)現(xiàn)到一號(hào)通及彩鈴的呼損越來(lái)越多,考慮到嚴(yán)重影響業(yè)務(wù),基本處于業(yè)務(wù)全阻狀態(tài),在SCP設(shè)備上用ROOT用戶執(zhí)行su-zxin10命令,系統(tǒng)無(wú)響應(yīng)。
(2)查看系統(tǒng)發(fā)現(xiàn)有異常多歸屬zxin10用戶的進(jìn)程,正常運(yùn)行時(shí)系統(tǒng)只有20個(gè)左右,但當(dāng)時(shí)觀察到有數(shù)百個(gè)。使用root用戶執(zhí)行強(qiáng)制停止并重啟雙機(jī)的命令,停止后雙機(jī)無(wú)法啟動(dòng)。重啟SCP1后雙機(jī)仍無(wú)法正常啟動(dòng),操作過程中觀察到SCP2設(shè)備自行重啟。
(3)查看設(shè)備運(yùn)行狀態(tài),與其連接磁陣設(shè)備無(wú)任何指示燈告警。多次嘗試SCP設(shè)備和數(shù)據(jù)庫(kù)進(jìn)行重新掛接均失敗,重新啟動(dòng)SCP后與數(shù)據(jù)庫(kù)掛接仍舊失敗,智能網(wǎng)平臺(tái)所帶業(yè)務(wù)全部中斷,影響同振、一號(hào)通、彩鈴業(yè)務(wù)正常使用,用戶不能做被叫或彩鈴不能正常播放,大約影響5萬(wàn)用戶業(yè)務(wù)使用。
(4)多次嘗試SCP設(shè)備和數(shù)據(jù)庫(kù)進(jìn)行重新連接均出現(xiàn)失敗,中興公司據(jù)此判斷可能HP磁盤陣列原因?qū)е逻B接失敗,同時(shí)發(fā)現(xiàn)sybase數(shù)據(jù)庫(kù)無(wú)法正常啟動(dòng),建議檢查磁陣。
(5)檢查與SCP連接的HP-DS240設(shè)備,分析設(shè)備運(yùn)行l(wèi)og日志,發(fā)現(xiàn)DS2405的1塊硬盤有報(bào)錯(cuò),vgsybase無(wú)法激活,與SCP無(wú)法掛接判斷原因一致。
1)/var/opt/resmon/log/event.log中DS2405 slot3槽位的硬盤c4t2d0每天在23:00-24:00左右報(bào)一次錯(cuò),無(wú)影響業(yè)務(wù)。
2)/var/cmcluster/zxin10/zxin10.cntl.log 有業(yè)務(wù)進(jìn)程IO報(bào)警進(jìn)入sleeping狀態(tài),錯(cuò)誤信息逐步累積,嚴(yán)重影響CP過負(fù)荷以致影響部分業(yè)務(wù),直到6月4日早上,導(dǎo)致過多的進(jìn)程占用了CPU和內(nèi)存資源,系統(tǒng)臨近崩潰。
(6)判斷出故障后決定更換設(shè)備硬件,停業(yè)務(wù)更換了故障硬盤,存儲(chǔ)恢復(fù)。業(yè)務(wù)可以在備機(jī)SCP2上正常啟動(dòng),SCP2與HP-DS2405存儲(chǔ)恢復(fù)訪問,業(yè)務(wù)恢復(fù)。
(7)SCP1掛接數(shù)據(jù)庫(kù)仍然失敗,中興及惠普工程師對(duì)SCP1與數(shù)據(jù)庫(kù)連接失敗原因分析,最終確定系統(tǒng)文件cron.allow文件丟失導(dǎo)致失敗,重新裝載數(shù)據(jù)后恢復(fù)正常,SCP2與HP磁陣正常連接。
HP-DS2405的一塊硬盤導(dǎo)致存儲(chǔ)訪問異常進(jìn)行了簡(jiǎn)單的分析,DS2405是低端存儲(chǔ),使用Arbitrated loop或Private Loop仲裁環(huán)。這種拓?fù)涞奶攸c(diǎn)是“串行”的,即所有的設(shè)備都串在這個(gè)環(huán)上,同時(shí)只有2個(gè)port可以通信,而且只有搶到“仲裁權(quán)”的port可以通信。這是一種低級(jí)別的拓樸,缺點(diǎn)是如果同一個(gè)loop上的一個(gè)設(shè)備損壞,其他設(shè)備就受到影響。
DS2405設(shè)備每1塊硬盤盤實(shí)際上都是這個(gè)Loop上的1個(gè)設(shè)備。此次硬盤故障懷疑是硬盤故障點(diǎn)影響了仲裁功能,但還沒有徹底損壞,并沒有被DS2405標(biāo)記為壞盤,導(dǎo)致與SCP設(shè)備連接狀態(tài)正常,但是設(shè)備負(fù)荷過大導(dǎo)致業(yè)務(wù)處理能力下降。
1塊硬盤故障時(shí)其他盤的訪問并沒有受到影響,業(yè)務(wù)受到影響是因?yàn)檫^多的進(jìn)程因?yàn)榇斯收媳PIO異常進(jìn)入sleeping狀態(tài),占用了過多的CPU和內(nèi)存,導(dǎo)致業(yè)務(wù)異常。
SCP1上啟動(dòng)異常是cron.allow文件丟失導(dǎo)致,cron.allow文件文件是crontab即hpux下的“計(jì)劃任務(wù)”使用的文件,其中規(guī)定了可以執(zhí)行crontab的用戶列表,只有在這個(gè)列表里的用戶才有權(quán)限執(zhí)行crontab。HPUX操作系統(tǒng)本身用不到crontab,默認(rèn)這個(gè)文件是空的。啟動(dòng)腳本會(huì)切換用戶并調(diào)用crontab,但在查看cronallow時(shí)文件丟失,所以業(yè)務(wù)用戶無(wú)法執(zhí)行crontab啟動(dòng)失敗。
cron.allow只會(huì)在啟動(dòng)時(shí)被查看,crontab計(jì)劃任務(wù)運(yùn)行后就不再查詢cron.allow,作用類似汽車上的“啟動(dòng)機(jī)”,所以如果在運(yùn)行中刪除不影響業(yè)務(wù)。
(1)HP-DS2405已經(jīng)在網(wǎng)運(yùn)行10年,穩(wěn)定性和冗余性已經(jīng)無(wú)法滿足重要業(yè)務(wù)的需要,建議對(duì)硬件進(jìn)行更新升級(jí), 搭建容災(zāi)存儲(chǔ),實(shí)現(xiàn)容災(zāi)存儲(chǔ)同步,故障時(shí)倒換到容設(shè)備。
(2)完善HP-DS2405備份策略,縮短用戶數(shù)據(jù)備份周期,把智能網(wǎng)和HLR用戶數(shù)據(jù)全備份,1周1次備份,做好數(shù)據(jù)分類以便應(yīng)急使用。
(3)加強(qiáng)設(shè)備告警巡視及設(shè)備log日志的分析,故障隱患及時(shí)處理。