許鑫
人社行業(yè)的業(yè)務(wù)包括醫(yī)療、社保、工傷、生育、就業(yè)等,與民生密切相關(guān),其中醫(yī)療結(jié)算業(yè)務(wù)更是關(guān)系到老百姓的身體健康和生活質(zhì)量。人社信息中心擔(dān)負(fù)著全市醫(yī)療結(jié)算業(yè)務(wù)的核心保障職責(zé)。長(zhǎng)期以來(lái),醫(yī)療結(jié)算業(yè)務(wù)的運(yùn)維工作,經(jīng)歷了幾個(gè)階段:
一、初級(jí)階段:這個(gè)階段,醫(yī)療相關(guān)的系統(tǒng)還不龐大,運(yùn)維工作以人工+經(jīng)驗(yàn)為主。出現(xiàn)故障時(shí),醫(yī)院會(huì)打電話過(guò)來(lái),根據(jù)醫(yī)院描述的故障現(xiàn)象,運(yùn)維人員憑經(jīng)驗(yàn)對(duì)故障進(jìn)行判斷,查找和定位故障點(diǎn)。這種方式對(duì)人的要求和經(jīng)驗(yàn)依賴程度太高,并且故障的定位和解決時(shí)間過(guò)長(zhǎng);
二、發(fā)展階段:在這個(gè)階段,運(yùn)維人員已經(jīng)開始結(jié)合監(jiān)控軟件,7x24小時(shí)對(duì)設(shè)備的運(yùn)行狀況進(jìn)行監(jiān)控,并提供設(shè)備故障告警,解決了運(yùn)維人員總是被動(dòng)感知的問(wèn)題。但隨著業(yè)務(wù)系統(tǒng)越來(lái)越復(fù)雜,系統(tǒng)越來(lái)越龐大,需要監(jiān)控的指標(biāo)越來(lái)越多,運(yùn)維人員不斷增加監(jiān)控項(xiàng),如監(jiān)控中間件、數(shù)據(jù)庫(kù)等等。這又帶來(lái)了新的問(wèn)題:告警信息太多,誤報(bào)激增,運(yùn)維人員已經(jīng)被這些誤報(bào)淹沒(méi),不勝其煩,往往會(huì)在收到告警信息后直接關(guān)掉。而當(dāng)醫(yī)院真的不能刷卡時(shí),有用的告警信息不是被忽略了,就是根本沒(méi)有告警。
是繼續(xù)增加監(jiān)控指標(biāo),還是設(shè)置更精確的閾值降低誤報(bào)率呢?這個(gè)問(wèn)題擺在了運(yùn)維人的面前。在解答這個(gè)問(wèn)題之前,首先我們要想清楚一個(gè)問(wèn)題:運(yùn)維的本質(zhì)是什么?
運(yùn)維,本質(zhì)上是一種服務(wù),它包括三個(gè)屬性:服務(wù)的對(duì)象、目標(biāo)和方法。
運(yùn)維服務(wù)的對(duì)象,是業(yè)務(wù),比如人社行業(yè)的醫(yī)保結(jié)算業(yè)務(wù)。
運(yùn)維服務(wù)的目標(biāo),是實(shí)現(xiàn)業(yè)務(wù)的可控,即把業(yè)務(wù)的運(yùn)行狀況控制在我們能接收的范圍內(nèi)。再細(xì)分可以分為穩(wěn)定性可控,性能可控,安全可控。比如業(yè)務(wù)中斷不超過(guò)1分鐘,單筆刷卡交易時(shí)長(zhǎng)不超過(guò)5秒等等。
運(yùn)維服務(wù)的方法,就是為了達(dá)到上述目標(biāo)所采取的措施,監(jiān)控軟件就是其中之一,但目前的監(jiān)控軟件在設(shè)計(jì)和部署上存在一個(gè)誤區(qū):只關(guān)注基礎(chǔ)硬件和基礎(chǔ)軟件的運(yùn)行狀況,不能感知業(yè)務(wù)的運(yùn)行狀況。舉個(gè)例子,傳統(tǒng)的監(jiān)控軟件可以獲取系統(tǒng)硬件的CPU負(fù)荷、內(nèi)存使用率,數(shù)據(jù)庫(kù)并發(fā)數(shù),中間件的隊(duì)列等,但這些指標(biāo)都不能反映業(yè)務(wù)運(yùn)行狀況的好壞,而運(yùn)維人員比較關(guān)心的實(shí)時(shí)刷卡交易量,交易耗時(shí),交易成功率等信息,卻完全不掌握。因此,傳統(tǒng)的監(jiān)控方法,設(shè)置再多的監(jiān)控指標(biāo)項(xiàng),告警閾值設(shè)置的再精確,也無(wú)法解決根本問(wèn)題,監(jiān)控的目標(biāo)要回歸本質(zhì)。
首先,我們采取分析醫(yī)保結(jié)算交易日志的方式,實(shí)現(xiàn)了監(jiān)控醫(yī)保結(jié)算交易的功能。分析日志的方式帶來(lái)了2個(gè)好處:非侵入式和完全旁路監(jiān)控,對(duì)業(yè)務(wù)的影響非常小。
通過(guò)分析日志獲取的交易信息,我們發(fā)現(xiàn)這和傳統(tǒng)的基礎(chǔ)硬件監(jiān)控相比,有很大的難度。下圖是某天的醫(yī)保結(jié)算業(yè)務(wù)的交易量統(tǒng)計(jì)圖,可以看到有以下幾個(gè)特點(diǎn):
1.在每日的非工作時(shí)間,交易量非常少;
2.在工作時(shí)間,會(huì)有2個(gè)比較大的交易高峰,且波動(dòng)較大;
3.在早8點(diǎn)左右,交易量會(huì)出現(xiàn)一個(gè)極大的增幅;
針對(duì)交易量的監(jiān)控告警,就存在幾個(gè)難點(diǎn):
1、不同時(shí)段交易量的告警閾值如何設(shè)置?是否要針對(duì)每個(gè)時(shí)段設(shè)置不同的閾值?
2、設(shè)置告警閾值的依據(jù)是什么?傳統(tǒng)的憑經(jīng)驗(yàn)進(jìn)行設(shè)置的方法已經(jīng)完全不適用了;
經(jīng)過(guò)分析研究,我們制訂了醫(yī)保結(jié)算交易監(jiān)控的幾個(gè)原則:
數(shù)據(jù)化原則:以歷史數(shù)據(jù)為依據(jù),以統(tǒng)計(jì)結(jié)果為準(zhǔn)則,主觀和經(jīng)驗(yàn)為輔;
自動(dòng)化原則:告警基線可自動(dòng)更新,要求根據(jù)新一天的交易信息去噪點(diǎn)后自動(dòng)更新;
可擴(kuò)展原則:告警基線的計(jì)算方式,不僅能滿足全市刷卡交易的監(jiān)控告警需要,也要能滿足某一醫(yī)院、或某一區(qū)域的監(jiān)控告警需要;
實(shí)用性原則:告警基線和策略的設(shè)計(jì),要能滿足幾個(gè)特殊時(shí)段交易的特點(diǎn):
22:00到07:00這段時(shí)間,交易量非常低,波動(dòng)也??;
高峰時(shí)段,交易量大,波動(dòng)也很大;
08:00前后這段時(shí)間,交易量有爆發(fā)性增長(zhǎng);
具體的實(shí)現(xiàn)辦法是:
1、首先我們對(duì)歷史交易數(shù)據(jù)中,同一時(shí)段的交易量、交易延時(shí)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。根據(jù)統(tǒng)計(jì)結(jié)果,繪制散點(diǎn)圖,得出平均值;由于根據(jù)統(tǒng)計(jì)學(xué)原理,同一時(shí)段的歷史交易量呈正態(tài)曲線分布,且超過(guò)3個(gè)標(biāo)準(zhǔn)差的數(shù)據(jù),出現(xiàn)比例低于0.3%,可以認(rèn)為是噪點(diǎn)數(shù)據(jù);
2、接下來(lái),我們以平均值為基準(zhǔn),計(jì)算歷史數(shù)據(jù)的標(biāo)準(zhǔn)差,將超過(guò)3個(gè)標(biāo)準(zhǔn)差的數(shù)據(jù)標(biāo)記為噪點(diǎn)數(shù)據(jù)。重新計(jì)算去除噪點(diǎn)數(shù)據(jù)后的平均線,作為基礎(chǔ)基線;故障時(shí)段的數(shù)據(jù),由人工指定為噪點(diǎn)數(shù)據(jù),不進(jìn)入基線計(jì)算;
3、第三步,采用移動(dòng)平均法對(duì)基礎(chǔ)基線進(jìn)行平滑處理,使其可以反映交易量的未來(lái)趨勢(shì),通過(guò)增加或減少n值對(duì)改變基礎(chǔ)基線對(duì)交易變動(dòng)的敏感度,如針對(duì)繁忙時(shí)段,時(shí)期n取小些,如2min,增加監(jiān)測(cè)的敏感度??臻e時(shí)段,時(shí)期n取大些,如lOmin,減少監(jiān)測(cè)的敏感度。
4、最后,根據(jù)前幾步生成的平均線,計(jì)算預(yù)警和告警的上下限。計(jì)算原則是:超過(guò)1.5個(gè)標(biāo)準(zhǔn)差為預(yù)警線;超過(guò)2個(gè)標(biāo)準(zhǔn)差為告警線;
5、今后,通過(guò)大量的歷史數(shù)據(jù)積累,這個(gè)基線計(jì)算方法可以延展出多種基線,女口.
周一~周五和周六周日采用不同的基線;
五一、十一、春節(jié)等國(guó)定假日的基線;
針對(duì)春、夏、秋、冬四季對(duì)基線進(jìn)行加權(quán)修正;
6、對(duì)非工作時(shí)間的交易量監(jiān)控,因?yàn)榻灰琢刻伲斐砷撝挡缓迷O(shè)置。我們通過(guò)統(tǒng)計(jì)學(xué)的方法,分析這一時(shí)段的交易量主要在哪個(gè)區(qū)間,作為正常區(qū)間考慮,非正常區(qū)間的數(shù)據(jù)所占的百分比作為告警的依據(jù)。
舉例說(shuō)明:02:00到02:15這個(gè)時(shí)段,統(tǒng)計(jì)結(jié)果是:交易量的95%集中在5~10筆這個(gè)區(qū)間;有3%的數(shù)據(jù)低于5筆,則報(bào)警的閾值定為3%和5筆;
這一時(shí)段的告警策略就是:當(dāng)出現(xiàn)小于5筆的次數(shù)低于3次時(shí),只做預(yù)警,超過(guò)3次,則進(jìn)行故障報(bào)警;
通過(guò)以上方式,我們很好的解決的醫(yī)保結(jié)算業(yè)務(wù)的監(jiān)控告警問(wèn)題,運(yùn)維人員在接收到告警時(shí),可以第一時(shí)間知道業(yè)務(wù)受影響的范圍,從而有針對(duì)性的采取分級(jí)響應(yīng)的措施,真正做到運(yùn)維服務(wù)回歸本質(zhì)。
環(huán)球市場(chǎng)信息導(dǎo)報(bào)2018年5期