周 博
(中國電信遼寧省分公司 網(wǎng)管中心,遼寧 沈陽 110168)
彩鈴平臺屬于傳統(tǒng)的增值業(yè)務(wù)平臺,在2G、3G、4G時代屬于雙呼業(yè)務(wù),不參與話路接續(xù)。但是隨著Volte時代的到來,Volte彩鈴采用的是兩個業(yè)務(wù)嵌套的方式實現(xiàn)的。Parlay48業(yè)務(wù)負責(zé)接續(xù)被叫及呼叫雙呼彩鈴業(yè)務(wù),parlay42是雙呼彩鈴業(yè)務(wù)負責(zé)彩鈴業(yè)務(wù)邏輯處理及媒體交互,Volte彩鈴業(yè)務(wù)流程大體如圖1所示。這使得整個彩鈴平臺的重要性增強了,彩鈴平臺的穩(wěn)定運行以及某些功能模塊異常時,實現(xiàn)自動應(yīng)急十分必要。
從運維角度看,應(yīng)急的目標(biāo)是短時間內(nèi)恢復(fù)業(yè)務(wù)功能,減少呼損時間,保障用戶的基本通話功能不受影響。本文就彩鈴各網(wǎng)元設(shè)備故障時的應(yīng)急方法做簡要分析,同時對數(shù)據(jù)庫異常情況下的自動應(yīng)急進行分析改進,實現(xiàn)自動應(yīng)急,進行說明。
Volte彩鈴的組網(wǎng),外部信令接口為sipproxy設(shè)備和核心網(wǎng)s-cscf設(shè)備對接,進行sip信令交互,彩鈴媒體設(shè)備通過核心路由器與各個核心網(wǎng)的媒體設(shè)備進行互通,路由可達放音正常。
Volte彩鈴平臺收到用戶的呼叫請求后,會先建立話路接續(xù),同時觸發(fā)放音流程,放音過程中彩鈴平臺內(nèi)部首先進行數(shù)據(jù)庫查詢被叫的鈴音設(shè)置數(shù)據(jù),查詢完成后SCP通知媒體服務(wù)器播放用戶設(shè)置的鈴音,媒體服務(wù)器調(diào)取鈴音文件,播放給核心網(wǎng)媒體設(shè)備,用戶聽到彩鈴音。正常情況下,流程可以順利完成,但是當(dāng)個別網(wǎng)元出現(xiàn)異常,會對業(yè)務(wù)造成影響,下面我們針對不同網(wǎng)元異常及應(yīng)急方法做以分析說明。
單臺SCP設(shè)備宕機屬于較為常見的應(yīng)急場景,一般現(xiàn)網(wǎng)都是N+1的組網(wǎng)方式。當(dāng)故障發(fā)生時,SIPPROXY會將呼叫分發(fā)至其它工作正常的SCP,因此僅會影響SIPPROXY已分發(fā)至故障設(shè)備上的少量呼叫。
SIPPROXY會自動檢測與所有SCP的鏈路,當(dāng)SIPPROXY檢測不到某一個SCP的響應(yīng)時,不會再把新的呼叫分發(fā)給這個設(shè)備。所以當(dāng)單個SCP發(fā)生異常時,不需要人工干預(yù),可以自動進入應(yīng)急流程,這種情況下,用戶的彩鈴鈴音是可以正常播放的,用戶基本無感知。
一個彩鈴平臺所有SCP設(shè)備宕機不是常見的設(shè)備問題,當(dāng)這種故障發(fā)生時,會影響核心網(wǎng)已分發(fā)至彩鈴設(shè)備的所有呼叫,新的呼叫不受影響。
SIPPROXY會自動檢測與所有SCP的鏈路,當(dāng)SIPPROXY發(fā)現(xiàn)所有SCP宕機時,停止響應(yīng)核心網(wǎng)發(fā)送的鏈路檢測消息。當(dāng)核心網(wǎng)檢測不到彩鈴網(wǎng)元時,停止向彩鈴發(fā)送新的呼叫,后續(xù)呼叫由核心網(wǎng)直接接續(xù),不經(jīng)過彩鈴平臺。這種情況下,主叫用戶聽不到被叫彩鈴,但是可以聽到核心網(wǎng)提供正常的普通回鈴音,對用戶正常通話沒有影響。
同樣,對于彩鈴平臺SIPPROXY全部故障發(fā)生時,Sipproxy不在和SCSCF進行信令交互,這種情況下會影響核心網(wǎng)已分發(fā)至彩鈴平臺的呼叫。當(dāng)核心網(wǎng)檢測不到彩鈴網(wǎng)元,停止向彩鈴發(fā)送新的呼叫,后續(xù)呼叫由核心網(wǎng)直接接續(xù),不經(jīng)過彩鈴網(wǎng)元,對用戶正常通話沒有影響。對于以上兩種應(yīng)急情況,經(jīng)過現(xiàn)網(wǎng)驗證測試,可以實現(xiàn)自動應(yīng)急,滿足用戶正常通話使用。
圖1
圖2
圖3
圖4
數(shù)據(jù)庫異常是較為常見的應(yīng)急場景,當(dāng)故障發(fā)生時,會影響所有該設(shè)備上的用戶的使用,導(dǎo)致SCP無法查詢到用戶鈴音設(shè)置情況。由于數(shù)據(jù)庫無法及時響應(yīng)SCP發(fā)起的SDF查詢請求,SCP無法通知媒體服務(wù)器播放具體的鈴音,因此也就出現(xiàn)用戶打電話給彩鈴用戶,聽不到被叫彩鈴音而且也聽不到普通的嘟嘟回鈴音,對用戶的感知非常不好。出現(xiàn)這種故障情況,平臺最開始實現(xiàn)的應(yīng)急方法是需要人為操作-手動啟動應(yīng)急流程。
由Volte彩鈴信令流程圖分析,采用parlay48引導(dǎo)業(yè)務(wù)提供緊急流程,緊急流程情況下不發(fā)送invite消息觸發(fā)雙呼彩鈴,只作簡單的呼叫信令透傳功能。這個時候不攜帶p-early-media頭部或者攜帶p-early-media:inactive。出現(xiàn)異常情況為了保障呼叫正常,需要臨時跳過彩鈴放音流程時。
具體操作方法,需要手工登錄現(xiàn)網(wǎng)的所有SCP通過執(zhí)行命令啟用緊急流程(注:此處執(zhí)行命令僅做示范說明,現(xiàn)網(wǎng)應(yīng)急執(zhí)行命令需結(jié)合現(xiàn)網(wǎng)設(shè)備確定):
ostool send 1 12345 servicekey啟用應(yīng)急
ostool send 2 12346 servicekey取消應(yīng)急
綜上,從我們整理了幾種Volte彩鈴常見網(wǎng)元故障應(yīng)急流程可知,對于單個SCP故障、全部SCP故障,或者SIPPROXY雙機故障等情況,系統(tǒng)都能實現(xiàn)自動應(yīng)急,對用戶正常通話基本沒有影響。但是對于DB數(shù)據(jù)庫故障的時候,按照應(yīng)急方案,從網(wǎng)管系統(tǒng)檢測到數(shù)據(jù)庫異常,網(wǎng)管系統(tǒng)發(fā)送告警信息,維護人員接收告警信息,到維護人員登錄系統(tǒng),通過手工干預(yù),人為操作實現(xiàn)應(yīng)急,是需要一定時間的,如果是業(yè)務(wù)忙時出現(xiàn)數(shù)據(jù)庫異常,對用戶的影響都會比較大,有需要改進的空間。
由上述手工應(yīng)急方法分析可知,如果SCP查詢DB正常,系統(tǒng)可以正常放音,但是如果SCP查詢DB異常,則無法返回用戶的鈴音設(shè)置情況,這時SCP無法通知媒體服務(wù)器播放具體的鈴音,導(dǎo)致的現(xiàn)象就是主叫撥打被叫后,被叫振鈴,但是主叫聽不到任何鈴音(靜音狀態(tài)),如果被叫選擇接聽,話路可以正常建立。出現(xiàn)這種情況,給主叫的感知非常不好,可能以為電話沒有撥通。
對于數(shù)據(jù)庫異常時的手動應(yīng)急方案,從應(yīng)急及操作流程分析對業(yè)務(wù)是有一定影響的,為了解決這個問題,我們先從縮短故障恢復(fù)時間上,考慮引入第三方網(wǎng)管廠家進行數(shù)據(jù)庫雙機狀態(tài)監(jiān)控,如果數(shù)據(jù)庫雙機異常(通過主備切換無法恢復(fù)數(shù)據(jù)庫業(yè)務(wù)),通過第三方網(wǎng)管設(shè)備進行監(jiān)控發(fā)現(xiàn)異常后,通過授權(quán)網(wǎng)管賬號登錄SCP業(yè)務(wù)處理機,自動執(zhí)行腳本,來實現(xiàn)自動“一鍵應(yīng)急”。
圖5
現(xiàn)網(wǎng)的組網(wǎng)及具體實施方法:
◆一套SUSE 11 SP3雙機+新支點雙機+SYBASE15.03作為數(shù)據(jù)庫主機
◆4臺SUSE11 SP3單機作為SCP業(yè)務(wù)處理機
應(yīng)急描述(數(shù)據(jù)庫異常)
◆ 設(shè)備信息:數(shù)據(jù)庫虛擬機雙機(雙機集群在一臺設(shè)備上執(zhí)行命令即可)
◆ 系統(tǒng)信息:SUSE 11 SP3
◆ 狀態(tài)監(jiān)控命令:cli命令行界面
◆ 輸出結(jié)果:正常狀態(tài)如圖5所示
◆ 判斷條件:
如果圖5中所示的smp133-1和smp133-2節(jié)點的狀態(tài),其中有一個必須是running狀態(tài)為正常。當(dāng)數(shù)據(jù)庫雙機異常時,主備節(jié)點的狀態(tài)都是stop或者都是unknown,沒有running狀態(tài),可以啟動一鍵應(yīng)急。
◆ 啟用應(yīng)急業(yè)務(wù):
(1)網(wǎng)管程序登錄SCP1-SCP4共4臺主機;
(2)使用業(yè)務(wù)賬戶登錄并啟動VOLTE彩鈴業(yè)務(wù)應(yīng)急:ostool send 1 12345 servicekey啟用應(yīng)急
(3)用戶聽到正常嘟嘟回鈴音,話路接續(xù)正常,應(yīng)急完畢。
方案總結(jié),通過第三方網(wǎng)管程序監(jiān)控、實施快速應(yīng)急,在數(shù)據(jù)庫雙機異常情況下可以提綱應(yīng)急響應(yīng)速度,減少對現(xiàn)網(wǎng)業(yè)務(wù)的影響。不過這種應(yīng)急方案也存在一定的弊端,比如需要依賴第三方網(wǎng)管廠家配合,需要通過檢測數(shù)據(jù)庫雙機運行狀態(tài)作為數(shù)據(jù)庫運行狀態(tài)的判斷依據(jù)也不是很準(zhǔn)確,雙機正常倒換過程中,也會存在1-2分鐘無running正常狀態(tài)的標(biāo)識,可能誤觸發(fā)應(yīng)急流程,這時還需要人為手工取消應(yīng)急。因此該種應(yīng)急方案不是最佳方案,還需要繼續(xù)優(yōu)化。
我們繼續(xù)深入分析Volte彩鈴信令流程,當(dāng)彩鈴數(shù)據(jù)庫異常的時候,SCP發(fā)起的SDF查詢無法查詢到結(jié)果,SCP一直處于等待狀態(tài),無法通知媒體服務(wù)器正常播放鈴音,這時候用戶聽不到鈴音,感知不好。那么我們是否可以考慮在SCP處理放音查詢的時候增加一個查詢定時器,如果SCP查詢數(shù)據(jù)庫超時達到設(shè)定時間,比如1-2秒鐘,SCP放棄等待,直接進入放音流程,可以播放一首默認(rèn)的彩鈴鈴音,這樣不會對主叫通話感知造成很大影響,也最大限度地保障通話的正常進行。這樣通過SCP的放音業(yè)務(wù)邏輯來檢測DB是否正常實現(xiàn)了自動應(yīng)急,無論是數(shù)據(jù)庫雙機異常,還是數(shù)據(jù)庫查詢異常,都可以實現(xiàn)自動應(yīng)急,這種方案大大優(yōu)于3.1節(jié)的第三方網(wǎng)元的應(yīng)急方案。
經(jīng)過協(xié)調(diào)廠家,最終的實施方案如下:
彩鈴Volte局點當(dāng)數(shù)據(jù)庫出席異常時,可以在無需人工干預(yù)的情況下實現(xiàn)播放保護音的應(yīng)急流程,不影響放音和通話接續(xù)。
在SCP的放音業(yè)務(wù)流程parlay42中增加SDF數(shù)據(jù)庫查詢超時判定條件,設(shè)定超時定時器延時時長2s。
在SCP的放音業(yè)務(wù)流程parlay42中增加播放應(yīng)急鈴音功能,比如準(zhǔn)備yingji.wav。
通過修改Volte的parlay42放音業(yè)務(wù)的配置參數(shù)來實現(xiàn)數(shù)據(jù)庫異常時自動應(yīng)急。
上述配置修改完成后,點擊加載,使配置生效。生效后當(dāng)數(shù)據(jù)庫異常時候,會自動播放設(shè)置的保護鈴音,不會產(chǎn)生其他影響。
現(xiàn)網(wǎng)經(jīng)過配置后,進行數(shù)據(jù)庫異常應(yīng)急業(yè)務(wù)測試。手工停掉數(shù)據(jù)庫雙機,撥打測試,SCP查詢數(shù)據(jù)庫超時,定時器生效,自動播放預(yù)先配置好的yingji.wav的鈴音內(nèi)容,主叫聽到彩鈴音,被叫接通,整個流程都是在沒有數(shù)據(jù)庫參與下實現(xiàn)的。當(dāng)數(shù)據(jù)庫恢復(fù)正常之后,SCP查詢數(shù)據(jù)庫返回正常結(jié)果后,可以播放用戶設(shè)定的鈴音,無需對SCP的配置進行調(diào)整修改。經(jīng)過這樣實際測試驗證1-2秒鐘的延時放音,用戶基本無感知,達到了自動應(yīng)急的預(yù)期效果。
通過上面各個網(wǎng)元自動應(yīng)急流程分析及業(yè)務(wù)實際測試后,Volte彩鈴的穩(wěn)定性得到了很大提升,除了正常的雙機保護、N+1保護,同時是也實現(xiàn)了雙機異常時的業(yè)務(wù)自動保護,而且這些自動應(yīng)急功能的實現(xiàn),對后續(xù)的網(wǎng)絡(luò)維護提供了很大便利,比如要實現(xiàn)某些新功能需要停掉SCP和數(shù)據(jù)庫連接,手工升級數(shù)據(jù)庫的時候,由于SCP自動應(yīng)急功能的實現(xiàn),就不會出現(xiàn)數(shù)據(jù)庫升級期間無法放音的情況,提高了彩鈴不間斷工作運行能力。
通過對Volte彩鈴業(yè)務(wù)流程的深入分析,采取合理的應(yīng)急方案,可以提升系統(tǒng)應(yīng)急能力。隨著5G時代的到來,運維工作也需要不斷向精細化發(fā)展,提高系統(tǒng)運行穩(wěn)定性,提高系統(tǒng)不間斷運行能力,是我們每個運維人需要去思考,去努力的。