續(xù)婧 范杰
(1.中國(guó)中鋼集團(tuán)有限公司審計(jì)部 北京 100080;2.首都醫(yī)科大學(xué)附屬北京中醫(yī)醫(yī)院 北京 100010)
隨著綜合國(guó)力的不斷強(qiáng)大,我國(guó)的各行業(yè)發(fā)展不斷擴(kuò)大[1-2]。例如:為了便于國(guó)民使用醫(yī)療保險(xiǎn),定點(diǎn)零售藥店和定點(diǎn)醫(yī)療服務(wù)機(jī)構(gòu)的數(shù)量持續(xù)增加[3-5]。這給國(guó)民帶來(lái)方便的同時(shí),也導(dǎo)致審計(jì)變得越來(lái)越困難。違規(guī)使用保險(xiǎn)的現(xiàn)象層出不窮,違反審計(jì)的手段多樣且隱蔽,僅利用傳統(tǒng)的審核方式來(lái)加強(qiáng)資金的監(jiān)控難以滿足當(dāng)今各行業(yè)對(duì)審計(jì)的需求[6-7]。
針對(duì)上述問(wèn)題,如何快速有效地對(duì)特定行業(yè)的審計(jì)數(shù)據(jù)進(jìn)行分析,從而發(fā)現(xiàn)違反審計(jì)的行為是非常重要的。關(guān)聯(lián)規(guī)則可以快速分析變量之間的依賴或關(guān)聯(lián)關(guān)系,因此常被用于分析審計(jì)數(shù)據(jù)中的異常行為數(shù)據(jù)[8-9]。例如:可以發(fā)現(xiàn)異常參保人通常同時(shí)購(gòu)買那種中藥品,進(jìn)一步結(jié)合購(gòu)藥金額、數(shù)量等信息分析是否存在醫(yī)保欺詐行為[10]。該文對(duì)關(guān)聯(lián)規(guī)則在特定行業(yè)審計(jì)數(shù)據(jù)分析中的應(yīng)用進(jìn)行研究,并以分析醫(yī)保欺詐審計(jì)數(shù)據(jù)為例進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法通過(guò)數(shù)據(jù)分析數(shù)據(jù)中的關(guān)聯(lián)規(guī)則能夠快速識(shí)別醫(yī)保欺詐行為。
該文篩選在定點(diǎn)零售藥店和定點(diǎn)醫(yī)療機(jī)構(gòu)都有過(guò)醫(yī)保刷卡記錄的參保人作為研究群體,總?cè)藬?shù)共計(jì)47 028 人,其中異常購(gòu)藥參保人數(shù)為1 037 人,正常購(gòu)藥參保人數(shù)為45 991人。購(gòu)藥異常參保人判斷依據(jù)具體如表1 所示。數(shù)據(jù)包含參保人1 年以內(nèi)分別在定點(diǎn)零售藥店和定點(diǎn)醫(yī)療機(jī)構(gòu)的購(gòu)藥交易記錄數(shù)據(jù)和交易明細(xì)數(shù)據(jù)。實(shí)驗(yàn)中訓(xùn)練數(shù)據(jù)集占總樣本數(shù)據(jù)的75%,測(cè)試數(shù)據(jù)集占總樣本數(shù)據(jù)的25%。該文主要分析異常參保人的購(gòu)藥序列中的藥品關(guān)聯(lián)情況,判斷異常情況下通常同時(shí)購(gòu)買什么藥品。因此,只保留參保人的購(gòu)藥記錄序列,其中時(shí)間以月為分界點(diǎn),分界點(diǎn)內(nèi)藥品按照金額大小排序。
表1 異常數(shù)據(jù)篩選標(biāo)準(zhǔn)
項(xiàng)是數(shù)據(jù)庫(kù)中的最小單位,通常用符號(hào)i表示。設(shè)I={i1,i2,…,in}是項(xiàng)的集合,其中ij(j∈[1,n])表示第j種藥品。設(shè)購(gòu)藥記錄數(shù)據(jù)庫(kù)為D,其中每個(gè)元素有若干項(xiàng)組成,通常表示為E。E是I的子集,表示為E?I。給定一個(gè)項(xiàng)集A,如果A?E,則元素E包含A。對(duì)于任意兩個(gè)項(xiàng)集A?I和B?I,關(guān)聯(lián)規(guī)則表示為A?B,其中A∩B=?。ms表示最小支持度,mc表示最小置信度。
定義1 項(xiàng)集的支持度sup(A)。在數(shù)據(jù)集D中,對(duì)于任意項(xiàng)集A,它的支持度為A在D中出現(xiàn)的概率,即sup(A)=P(A)。
定義2 關(guān)聯(lián)規(guī)則的支持度sup(A?B)。對(duì)于任意兩個(gè)項(xiàng)集A?I和B?I,關(guān)聯(lián)規(guī)則A?B的支持度sup(A?B)表示為A∪B在D中的出現(xiàn)概率,即
定義3 關(guān)聯(lián)規(guī)則的置信度conf(A?B)。對(duì)于任意兩個(gè)項(xiàng)集A?I和B?I,關(guān)聯(lián)規(guī)則A?B的置信度conf(A?B)表示為在包含A的元素中包含B的概率P(B|A),即
定義4 最小支持度閾值ms。最小支持度由用戶設(shè)定,取值范圍為[0,1],它表示關(guān)聯(lián)規(guī)則或項(xiàng)集的最低重要性/有用性。
定義5 最小置信度閾值mc。最小支持度由用戶設(shè)定,取值范圍為[0,1],它表示關(guān)聯(lián)規(guī)則的最低可靠性/確定性。
定義6 頻繁項(xiàng)集。給定一個(gè)項(xiàng)集A,如果sup(A)=P(A)≥ms,則A為頻繁項(xiàng)集。
定義7 強(qiáng)關(guān)聯(lián)規(guī)則。對(duì)于關(guān)聯(lián)規(guī)則A?B,如果A∪B是頻繁項(xiàng)集(P(A∪B)≥ms),且cconf(A?B)≥mc,則A?B是強(qiáng)關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘的基本步驟主要分為兩個(gè)部分:第一,從數(shù)據(jù)集中挖掘所有的頻繁項(xiàng)集,該文通過(guò)FPgrowth 算法[11]挖掘參保人購(gòu)藥記錄中的頻繁項(xiàng)集;第二,從第一步中得到的頻繁項(xiàng)集中挖掘強(qiáng)關(guān)聯(lián)規(guī)則。相較于挖掘關(guān)聯(lián)規(guī)則,挖掘頻繁項(xiàng)集的工作較為繁瑣,且工作量大,因此該文重點(diǎn)介紹如何挖掘頻繁項(xiàng)集。
該文采用關(guān)聯(lián)規(guī)則挖掘技術(shù)對(duì)參保人的購(gòu)藥記錄中的關(guān)聯(lián)藥品進(jìn)行分析,發(fā)現(xiàn)異常參保人通常同時(shí)購(gòu)買什么藥品,通過(guò)藥品購(gòu)買頻率和購(gòu)買數(shù)量判定是否存在代刷醫(yī)??ǎ尜?gòu)買藥物等醫(yī)保欺詐行為。圖1是基于關(guān)聯(lián)規(guī)則挖掘技術(shù)的醫(yī)保審計(jì)數(shù)據(jù)分析建模示意圖。
圖1 審計(jì)建模流程圖
FP-growth 算法的核心思想是構(gòu)建FP-tree 樹節(jié)點(diǎn),以減少所需項(xiàng)集的數(shù)量。假設(shè)I={i1,i2,…,in}是數(shù)據(jù)庫(kù)D中所有項(xiàng)的集合,Eset={E1,E2,…,Ed}是數(shù)據(jù)庫(kù)D中所有元素的集合。每個(gè)元素包含I中的若干項(xiàng)。
假設(shè)參保人的購(gòu)藥序列為i5、i2、i1、i3、i5、i2、i4、i2、i3、i5、i4、i2、i5、i3、i6、i1、i2、i4、i6、i5、i3、i5、i4、i2、…。將序列以月為分界點(diǎn)劃分為元素,得到元素集合列表,如表2 所示。通過(guò)掃描數(shù)據(jù)庫(kù)D,計(jì)算每個(gè)項(xiàng)的支持度,即包含項(xiàng)的元素個(gè)數(shù)與總元素個(gè)數(shù)之比。
表2中的內(nèi)容表示一個(gè)參保人的購(gòu)藥序列的元素劃分,假設(shè)D中有m個(gè)參保人,則經(jīng)過(guò)元素劃分完成后得到12×m個(gè)元素。設(shè)最小支持度閾值為0.2,支持度小于0.2 的項(xiàng)視為可忽略項(xiàng),將其從元素中刪除,剩余項(xiàng)按照支持度大小降序排列,假設(shè)對(duì)表2 重新排序后的結(jié)果如表3 所示,從表3 可以看出,元素E7中的項(xiàng)i7由于支持度小于最小支持度閾值而被去除,而sup(i2)>sup(i5)>sup(i3)>sup(i1)>sup(i4)>sup(i6)。
表2 元素劃分表
假設(shè)表3 是小型數(shù)據(jù)庫(kù),計(jì)算每個(gè)項(xiàng)的支持度如圖2 中左邊表格所示,依據(jù)表3 中項(xiàng)的排列順序?qū)?2個(gè)元素中的項(xiàng)依次加入FP-tree 中,得到如圖2所示的FP-tree樹狀圖。
表3 元素包含有序項(xiàng)劃分表
圖2 構(gòu)建FP-tree
圖3展示了在異常參保人購(gòu)藥記錄中常購(gòu)買的前15種藥品。其中,前4種藥物購(gòu)買率高達(dá)60%以上,除第三種藥物是糖尿病人為控制血糖可能需要長(zhǎng)期服用以外,剩余3種藥物均為非長(zhǎng)期服用類藥物,因此正常情況下的購(gòu)買頻率較低。顯然這是一種異?,F(xiàn)象。圖4是圖3中頻繁項(xiàng)中存在的強(qiáng)關(guān)聯(lián)規(guī)則,其中g(shù)roup1表示“頭孢可肟分散片”和“鹽酸二甲雙胍片”組合,group2 表示“布洛芬緩釋膠囊”和“格列齊特片(II)”組合,group3 表示“布洛芬緩釋膠囊”和“蓮花清瘟顆?!苯M合,group4 表示“頭孢可肟分散片”和“牛黃解毒片”組合。這4組規(guī)則是有效的,并且是強(qiáng)規(guī)則,說(shuō)明具有異常購(gòu)藥行為的參保人所購(gòu)的藥品是存在一定關(guān)聯(lián)的。
圖3 藥品購(gòu)買頻率
圖4 藥品中的強(qiáng)關(guān)聯(lián)規(guī)則
該文基于關(guān)聯(lián)規(guī)則挖掘技術(shù)對(duì)對(duì)醫(yī)保審計(jì)數(shù)據(jù)進(jìn)行分析。首先,對(duì)參保人的購(gòu)藥記錄數(shù)據(jù)進(jìn)行預(yù)處理,得到以月為單位的參保人的購(gòu)藥項(xiàng)集;其次,通過(guò)關(guān)聯(lián)規(guī)則挖掘建立醫(yī)保審計(jì)數(shù)據(jù)集分析模型,通過(guò)模型可以得到具有異常行為的參保人購(gòu)藥記錄中的不合理現(xiàn)象和組合。