胡 佳 張竣圖
(中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司廣東省分公司,廣東 廣州 510320)
當(dāng)前,中國(guó)聯(lián)通的集中業(yè)務(wù)支撐系統(tǒng)(central Business Support System,簡(jiǎn)稱CBSS)的開(kāi)機(jī)流程由信控發(fā)起、經(jīng)過(guò)營(yíng)業(yè)、BO、全業(yè)務(wù)平臺(tái)、省分竣工等幾個(gè)環(huán)節(jié)組成。開(kāi)機(jī)流程長(zhǎng)且繁瑣,容易出現(xiàn)開(kāi)機(jī)指令擁堵,不能及時(shí)執(zhí)行,導(dǎo)致用戶開(kāi)機(jī)緩慢。
CBSS系統(tǒng)缺乏緊急開(kāi)機(jī)流程,一旦出現(xiàn)錯(cuò)誤批量停機(jī)異常或正常流程開(kāi)機(jī)異常,需要在短時(shí)間內(nèi)盡快恢復(fù)開(kāi)機(jī)。然而,當(dāng)前系統(tǒng)不支持快速批量開(kāi)機(jī),導(dǎo)致開(kāi)機(jī)業(yè)務(wù)延遲執(zhí)行,嚴(yán)重影響用戶感知。因此,有必要開(kāi)發(fā)出一款高效的緊急開(kāi)機(jī)體系。
通過(guò)總部能力開(kāi)放平臺(tái)輸出各省的分側(cè)開(kāi)機(jī)能力,實(shí)現(xiàn)全國(guó)各省份緊急開(kāi)機(jī)功能。
實(shí)現(xiàn)不經(jīng)過(guò)CBSS系統(tǒng),直通省分側(cè),快速在網(wǎng)元側(cè)恢復(fù)用戶正常業(yè)務(wù)的功能。同時(shí)也能對(duì)外提供服務(wù)能力,增強(qiáng)生產(chǎn)運(yùn)營(yíng)過(guò)程中的應(yīng)急手段,保障系統(tǒng)安全。本期建設(shè)目標(biāo)如圖1所示。
圖1 系統(tǒng)建設(shè)目標(biāo)
部署總部天宮環(huán)境,基于天宮Pass平臺(tái)開(kāi)發(fā)一套緊急開(kāi)機(jī)工具,該工具主要包括應(yīng)用層、平臺(tái)層和基礎(chǔ)設(shè)施層三部分,其中應(yīng)用層主要解決批量高并發(fā)的緊急開(kāi)機(jī)問(wèn)題,實(shí)現(xiàn)了平均萬(wàn)筆每秒的響應(yīng)能力;平臺(tái)層可以進(jìn)行AI預(yù)警監(jiān)控,實(shí)施監(jiān)控異動(dòng)情況,并作出快速處置;基礎(chǔ)設(shè)施層主要解決二次開(kāi)機(jī)問(wèn)題,并具備過(guò)濾反欺詐等功能(圖2)。
圖2 系統(tǒng)架構(gòu)
總體分為系統(tǒng)管理、緊急開(kāi)機(jī)管理、緊急開(kāi)機(jī)數(shù)據(jù)處理、緊急開(kāi)機(jī)稽核、短信功能、定時(shí)任務(wù)模塊。系統(tǒng)管理模塊中,主要涵蓋系統(tǒng)管理所需的基本功能,包括用戶注冊(cè)、忘記密碼、修改密碼等;緊急開(kāi)機(jī)管理,包括停機(jī)用戶確定及導(dǎo)出、申請(qǐng)單生成、申請(qǐng)單審核等;緊急開(kāi)機(jī)數(shù)據(jù)處理,主要是讀取號(hào)碼信息,并拼接指令,調(diào)用能力開(kāi)放平臺(tái)接口緊急開(kāi)機(jī);緊急開(kāi)機(jī)稽核,包括申請(qǐng)單進(jìn)度、開(kāi)機(jī)用戶執(zhí)行明細(xì)導(dǎo)出等;短信功能主要是將緊急開(kāi)機(jī)的結(jié)果以短信的形式告知客戶;除此之外還包括定時(shí)任務(wù)、大數(shù)據(jù)監(jiān)控等功能(圖3)。
圖3 緊急開(kāi)機(jī)系統(tǒng)功能架構(gòu)
系統(tǒng)架構(gòu)采用開(kāi)源的Spring Cloud微服務(wù)架構(gòu),支持快速啟動(dòng),服務(wù)調(diào)用迅速。采用redis高速緩存組件,用于維護(hù)關(guān)鍵用戶信息,實(shí)現(xiàn)系統(tǒng)高并發(fā)和秒級(jí)響應(yīng)。系統(tǒng)之間數(shù)據(jù)交互采用kafka消息隊(duì)列,采用異步消息機(jī)制,保證系統(tǒng)高可用、高吞吐量。項(xiàng)目總體技術(shù)架構(gòu)分為三個(gè)部分,即SaaS、PaaS、LaaS,從圖4可以看出SaaS主要包括異常停機(jī)發(fā)現(xiàn)、緊急開(kāi)機(jī)管理和用戶狀態(tài)稽核三部分;PaaS主要使用了分布式服務(wù)框架、Spring Cloud等平臺(tái)工具和技術(shù);LaaS包括計(jì)算資源池、網(wǎng)絡(luò)資源池、存儲(chǔ)資源池、安全設(shè)備四部分。
圖4 天宮技術(shù)架構(gòu)
緊急開(kāi)機(jī)工具部署在天宮平臺(tái)上,支持從CBSS鏡像庫(kù)圈定停機(jī)用戶,進(jìn)行緊急開(kāi)機(jī);天擎平臺(tái)事先和各省分側(cè)聯(lián)調(diào)上線開(kāi)機(jī)能力發(fā)送到能力開(kāi)放平臺(tái),緊急開(kāi)機(jī)工具調(diào)用能力開(kāi)放平臺(tái)的開(kāi)機(jī)能力實(shí)現(xiàn)緊急開(kāi)機(jī)(圖5)。
圖5 天宮平臺(tái)與其他平臺(tái)之間的關(guān)系
(1)停機(jī)業(yè)務(wù)量監(jiān)控
通過(guò)AI平臺(tái),采集歷史停機(jī)數(shù)據(jù),進(jìn)行模型訓(xùn)練,并最終輸出動(dòng)態(tài)閾值,獲得停機(jī)業(yè)務(wù)在各個(gè)時(shí)點(diǎn)下的業(yè)務(wù)預(yù)測(cè)峰值,從而對(duì)實(shí)時(shí)停機(jī)業(yè)務(wù)數(shù)據(jù)的監(jiān)控。
(2)用戶停機(jī)級(jí)別模型
通過(guò)AI算法構(gòu)建停機(jī)級(jí)別模型,基于高收益用戶停機(jī)的占比、忠誠(chéng)用戶停機(jī)的占比、星級(jí)用戶停機(jī)的占比、異常消費(fèi)停機(jī)的占比等信息進(jìn)行模型訓(xùn)練,輸出用戶停機(jī)級(jí)別模型。
(3)停機(jī)分布
繪制停機(jī)地圖,按地市分塊,每5分鐘刷新數(shù)據(jù),根據(jù)地市停機(jī)數(shù)據(jù)量大小,采用深淺不同顏色進(jìn)行標(biāo)識(shí)(圖6)。
圖6 停機(jī)分布示意圖
開(kāi)機(jī)流程由開(kāi)機(jī)申請(qǐng)、審核員審核、確認(rèn)開(kāi)機(jī)、數(shù)據(jù)歸檔四個(gè)部分組成。具體內(nèi)容如圖7所示。
圖7 緊急開(kāi)機(jī)的基本流程
依托天眼平臺(tái),搭建展示及告警平臺(tái)主要采用了信號(hào)定位及天眼顯示基礎(chǔ),可以較為直觀地看出緊急停機(jī)的數(shù)量、區(qū)域,系統(tǒng)會(huì)根據(jù)設(shè)定的標(biāo)準(zhǔn),向不同的管理單元作出警示,提醒通訊企業(yè)注意緊急停機(jī)的潛在風(fēng)險(xiǎn),為后續(xù)的管理處置奠定良好的基礎(chǔ)(圖8、9)。
圖8 停機(jī)展示平臺(tái)
圖9 停機(jī)告示平臺(tái)
(1)緊急開(kāi)機(jī)用戶比對(duì):由于緊急開(kāi)機(jī)操作繞過(guò)CBSS業(yè)務(wù)模塊,會(huì)導(dǎo)致用戶在網(wǎng)元狀態(tài)和CBSS狀態(tài)不一致,需要通過(guò)稽核比對(duì)發(fā)現(xiàn)狀態(tài)差異用戶。
(2)常規(guī)增量稽核:對(duì)網(wǎng)元中的用戶狀態(tài)和CBSS中的用戶狀態(tài)進(jìn)行全網(wǎng)增量比對(duì)。
(3)差異狀態(tài)修復(fù):對(duì)網(wǎng)元和CBSS用戶服務(wù)狀態(tài)不一致的情況,以CBSS用戶服務(wù)狀態(tài)為準(zhǔn),對(duì)網(wǎng)元服務(wù)狀態(tài)進(jìn)行修復(fù)。
在功能模塊的建設(shè)上,主要涵蓋CBSS、緊急開(kāi)機(jī)系統(tǒng)和網(wǎng)元三部分,其中緊急開(kāi)機(jī)系統(tǒng)中,為了及時(shí)識(shí)別用戶是否存在緊急開(kāi)機(jī),需要對(duì)用戶的狀態(tài)進(jìn)行比較分析,分析的結(jié)果是確認(rèn)緊急開(kāi)機(jī)客戶,也包括狀態(tài)差異用戶和常規(guī)稽核差異,在此基礎(chǔ)上構(gòu)造緊急開(kāi)機(jī)指令。
圖10 功能模塊建設(shè)內(nèi)容
數(shù)據(jù)類型:(1)營(yíng)賬類:信控停機(jī)數(shù)據(jù)、營(yíng)業(yè)停機(jī)數(shù)據(jù);(2)指令類:用戶交換側(cè)數(shù)據(jù)、指令執(zhí)行數(shù)據(jù);(3)規(guī)則類:黑白名單數(shù)據(jù),執(zhí)行結(jié)果類數(shù)據(jù)。
硬件資源:硬件資源使用天宮平臺(tái),無(wú)需額外投資。
圖11 數(shù)據(jù)模型建設(shè)
組件部署:緊急開(kāi)機(jī)工具部署在天宮平臺(tái),使用容器服務(wù)CKE、CCS管理應(yīng)用服務(wù),云硬盤CBS存儲(chǔ)數(shù)據(jù)、鏡像存儲(chǔ)CCR存放鏡像、虛擬私有云VPC設(shè)定隔離網(wǎng)絡(luò)、STARSHIP管理微服務(wù)、KAFKA、REDIS、DRDS、RDS等組件作為應(yīng)用組件,后期考慮使用服務(wù)網(wǎng)格CSM替代已有組件。
圖12 硬件資源及組件部署示意圖
緊急開(kāi)機(jī)系統(tǒng),對(duì)停開(kāi)機(jī)動(dòng)作有一個(gè)全流程的管控:事故發(fā)生前通過(guò)大數(shù)據(jù)進(jìn)行實(shí)時(shí)的停機(jī)監(jiān)控,在事故處理中,達(dá)到每分鐘1W以上的真實(shí)開(kāi)機(jī)能力,在事故處理完成后可以對(duì)停機(jī)原因進(jìn)行分析,對(duì)處理數(shù)據(jù)進(jìn)行稽核,保證CBSS側(cè)與網(wǎng)元側(cè)數(shù)據(jù)的一致性。在信息安全方面,結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)能力,實(shí)現(xiàn)反詐騙等高風(fēng)險(xiǎn)攔截。全套云原生的架構(gòu)體系設(shè)計(jì),實(shí)現(xiàn)了all in CKE的架構(gòu)模式,全流程自動(dòng)化,完善的監(jiān)控體系,所有微服務(wù)都達(dá)到了高可用、高并發(fā)、彈性伸縮,具備完善的自我修復(fù)的能力。