中國疾病預(yù)防控制中心農(nóng)村改水技術(shù)指導(dǎo)中心(102200) 李洪興 董國慶 王 麗 張 榮 陶 勇
SAS軟件在公共衛(wèi)生監(jiān)測數(shù)據(jù)核查中的應(yīng)用
中國疾病預(yù)防控制中心農(nóng)村改水技術(shù)指導(dǎo)中心(102200) 李洪興 董國慶 王 麗 張 榮 陶 勇△
△通訊作者:陶勇,E-mail:TaoYong@crwstc.org
公共衛(wèi)生監(jiān)測是指長期、連續(xù)、系統(tǒng)地收集、分析和解釋與健康狀態(tài)、疾病、傷害、公共衛(wèi)生事件及其影響因素相關(guān)的資料,將分析結(jié)果和信息及時分發(fā)或反饋到有關(guān)機(jī)構(gòu)和人員,并且利用監(jiān)測信息的過程〔1〕。從監(jiān)測數(shù)據(jù)管理的角度來看,公共衛(wèi)生監(jiān)測是“數(shù)據(jù)形成”和“數(shù)據(jù)流動”的過程?!皵?shù)據(jù)的形成”即數(shù)據(jù)采集,“數(shù)據(jù)的流動”則包括數(shù)據(jù)上報、錄入、審核、評價、分析和利用等多個環(huán)節(jié)。從這一角度看,監(jiān)測數(shù)據(jù)核查在整個監(jiān)測活動中起“承上啟下”的重要作用。同時,監(jiān)測數(shù)據(jù)的一個重要特點是,數(shù)據(jù)量大,質(zhì)量參差不齊,通過手工核查數(shù)據(jù)不僅效率低,而且容易出錯。本文就SAS在監(jiān)測數(shù)據(jù)核查中的應(yīng)用做分析研究。
數(shù)據(jù)核查是對數(shù)據(jù)的完整性、準(zhǔn)確性和邏輯性進(jìn)行檢查。完整性核查包含兩個方面,一是檢查記錄中關(guān)鍵變量有無缺失、遺漏,二是檢查數(shù)據(jù)是否達(dá)到調(diào)查或?qū)嶒炘O(shè)計的預(yù)期目標(biāo)。準(zhǔn)確性是指測量結(jié)果與真實情況的符合程度,這個可以通過抽樣復(fù)核或類似數(shù)據(jù)比對來進(jìn)行篩查。數(shù)據(jù)的邏輯性檢查,是對數(shù)據(jù)是否符合常識或?qū)I(yè)情況要求的一種檢查。
數(shù)據(jù)核查的基本流程包括數(shù)據(jù)備份,定制數(shù)據(jù)核查規(guī)則,編寫數(shù)據(jù)核查程序,計算機(jī)數(shù)據(jù)核查,手工復(fù)核等階段。對核查出來的異常數(shù)據(jù)的處理一般是:(1)電話或傳真核實;(2)關(guān)鍵問題的再培訓(xùn);(3)現(xiàn)場核實等。數(shù)據(jù)核查的一個重要原則是保證數(shù)據(jù)的可溯源性,對數(shù)據(jù)的原始狀態(tài)、修訂狀況都要有完整記錄。
(1)程序流程設(shè)計
首先要梳理業(yè)務(wù)邏輯規(guī)則,建立數(shù)據(jù)核查的標(biāo)準(zhǔn),并設(shè)計邏輯結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)腟AS程序。SAS數(shù)據(jù)核查程序一般有以下幾個步驟:數(shù)據(jù)讀入;建立異常數(shù)據(jù)規(guī)則碼表和顏色碼表;通過數(shù)據(jù)步或PROC SQL語句篩選異常數(shù)據(jù);調(diào)用異常數(shù)據(jù)規(guī)則碼表給異常數(shù)據(jù)增加標(biāo)示變量;根據(jù)標(biāo)示碼表調(diào)用顏色碼表給不符合要求的數(shù)據(jù)增加顏色標(biāo)示并輸出為Excel表。此操作的目的是給不同的邏輯異常類型標(biāo)示不同顏色,使核查結(jié)果數(shù)據(jù)清晰準(zhǔn)確。
(2)利用SAS篩選異常數(shù)據(jù)
在異常數(shù)據(jù)篩選中比較常用的有DATA步和PROC SQL。如舒張壓大于收縮壓的數(shù)據(jù)可以用下面的過程:
對于數(shù)據(jù)缺失的篩選可以使用Where P1 is null;對變量的值閾校驗可以使用Between and;另外,可以使用like關(guān)鍵詞配合%等通配符進(jìn)行更復(fù)雜的數(shù)據(jù)篩選〔2〕。另外常用于監(jiān)測數(shù)據(jù)核查的DATA步語句還有IF、CASE等。而使用SQL語句可以實現(xiàn)一些更為復(fù)雜的查詢,如查找ID重復(fù)的數(shù)據(jù)可以使用下面的命令:
在實際應(yīng)用中,兩種方法應(yīng)結(jié)合起來,一般來說對于大型的數(shù)據(jù)集,使用DATA的效率要遠(yuǎn)高于SQL,而使用SQL語句又能實現(xiàn)一些DATA無法完成的查詢,如復(fù)雜的表間關(guān)系核查。
(3)異常數(shù)據(jù)的顏色標(biāo)示
對識別的異常數(shù)據(jù)可以通過DATA語句或SQL語句賦予一個標(biāo)準(zhǔn)碼值。下面介紹如何使用這個碼值,來給數(shù)據(jù)標(biāo)示顏色。假設(shè)有一條記錄的舒張壓大于收縮壓,即P1變量大于P2變量,我們要做的工作是讓P1和P2變量輸出時標(biāo)示為紅色。另外,假設(shè)這種異常類型在碼表里標(biāo)示為“19”(變量名為AboID)。
利用ODS技術(shù),當(dāng)某條記錄的舒張壓大于收縮壓時,在運行數(shù)據(jù)核查程序時,這條記錄便被篩選出來,并在輸出的Excel核查文件的相應(yīng)變量上標(biāo)示紅色。當(dāng)數(shù)據(jù)核查員看到紅色標(biāo)示時,就可以發(fā)現(xiàn)數(shù)據(jù)邏輯問題并解決。因此,利用SAS軟件可以實現(xiàn)數(shù)據(jù)的批量核查,可以實現(xiàn)從數(shù)據(jù)讀取,異常記錄篩選,異常變量標(biāo)示,異常記錄數(shù)據(jù)輸出等的全程自動化。
本文探討了利用SAS軟件進(jìn)行監(jiān)測數(shù)據(jù)復(fù)核的方法,由于SAS軟件在處理大型數(shù)據(jù)集上有相當(dāng)?shù)膬?yōu)勢,所以這一方法有著很大的現(xiàn)實意義。另外,隨著數(shù)據(jù)的積累,公共衛(wèi)生監(jiān)測數(shù)據(jù)挖掘的概念也逐步得到關(guān)注。利用先進(jìn)的數(shù)據(jù)挖掘技術(shù)加強(qiáng)突發(fā)公共衛(wèi)生事件預(yù)警、控制與管理工作,以便準(zhǔn)確及時地獲取所需要的管理信息〔3〕。數(shù)據(jù)挖掘的前提和關(guān)鍵是原始數(shù)據(jù)的質(zhì)量,如何從海量的龐雜的數(shù)據(jù)中,提取有用的信息,用于公共衛(wèi)生決策支持,是一個重要的問題。本文介紹的使用SAS進(jìn)行異常數(shù)據(jù)篩選、標(biāo)示的方法也同樣適用于醫(yī)學(xué)數(shù)據(jù)挖掘領(lǐng)域。
1.曾光.現(xiàn)代流行病學(xué)方法與應(yīng)用.北京:北京醫(yī)科大學(xué)中國協(xié)和醫(yī)科大學(xué)聯(lián)合出版社,1996:39.
2.姚志勇.SAS編程與數(shù)據(jù)挖掘商業(yè)實踐.北京:機(jī)械工業(yè)出版社,2010:93.
3.徐遠(yuǎn)平,汪尤利.數(shù)據(jù)挖掘在高校突發(fā)公共衛(wèi)生事件預(yù)警和控制中的應(yīng)用.現(xiàn)代預(yù)防醫(yī)學(xué),2007,34(17):3326-3327.