, , ,
(安徽機(jī)電職業(yè)技術(shù)學(xué)院信息工程系,安徽 蕪湖 241000)
近幾年,隨著國家對(duì)教育的大力投入,教師待遇有了顯著提高,學(xué)校也增加了對(duì)教職工的健康投入,基本做到了定期體檢[1][2]。為了建立教師健康檔案,更好地對(duì)教職工進(jìn)行健康評(píng)價(jià)和干預(yù)管理,很多學(xué)校引入了移動(dòng)教職工健康管理平臺(tái)。對(duì)于健康管理平臺(tái)在使用中產(chǎn)生的大數(shù)據(jù)集,需要使用數(shù)據(jù)挖掘算法對(duì)其進(jìn)行價(jià)值提煉[3],探討教職工健康問題之間的潛在關(guān)聯(lián),為教職工提供更多的健康指導(dǎo)數(shù)據(jù)。
健康管理平臺(tái)選用經(jīng)典關(guān)聯(lián)規(guī)則Apriori算法對(duì)健康數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,重點(diǎn)關(guān)注特殊教職工人群,并通過云計(jì)算技術(shù)與網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行對(duì)比,給出合理的健康評(píng)價(jià)和干預(yù)措施,平臺(tái)具有自動(dòng)擴(kuò)展收縮、負(fù)載勻衡、安全性高、擴(kuò)展服務(wù)方便等優(yōu)勢(shì)。
健康管理平臺(tái)系統(tǒng)分為終端應(yīng)用層、服務(wù)端系統(tǒng)、健康數(shù)據(jù)關(guān)聯(lián)分析模塊和云計(jì)算平臺(tái)四個(gè)部分,如圖1。
1.1.1 終端應(yīng)用層
健康管理平臺(tái)終端分為移動(dòng)端和PC端兩部分,實(shí)現(xiàn)健康數(shù)據(jù)的采集和輸出。移動(dòng)端主要包括智能手機(jī)、平板等,可通過自帶傳感器采集用戶健康數(shù)據(jù),并將數(shù)據(jù)通過無線網(wǎng)絡(luò)傳輸?shù)椒?wù)端系統(tǒng),同時(shí),還可以向服務(wù)端請(qǐng)求數(shù)據(jù),實(shí)現(xiàn)用戶交互功能;PC端的使用者主要包括體檢醫(yī)院、校醫(yī)院、系統(tǒng)管理者和用戶,通過與服務(wù)端的數(shù)據(jù)交互,可實(shí)現(xiàn)體檢數(shù)據(jù)的錄入、健康數(shù)據(jù)的檢索、用戶權(quán)限的設(shè)置等。
圖1 健康管理平臺(tái)系統(tǒng)模型
1.1.2 服務(wù)端系統(tǒng)
服務(wù)端系統(tǒng)用于處理來自終端的數(shù)據(jù)請(qǐng)求,通過訪問數(shù)據(jù)庫和健康數(shù)據(jù)關(guān)聯(lián)分析模塊,將用戶數(shù)據(jù)以HTML頁面的形式返回終端數(shù)據(jù)。服務(wù)端系統(tǒng)可實(shí)現(xiàn)應(yīng)用功能與業(yè)務(wù)邏輯相分離,保證數(shù)據(jù)的準(zhǔn)確性和安全性。
1.1.3 健康數(shù)據(jù)關(guān)聯(lián)分析模塊
為了實(shí)現(xiàn)體檢數(shù)據(jù)的利用率,需要深度挖掘數(shù)據(jù)價(jià)值,發(fā)現(xiàn)數(shù)據(jù)之間的潛在關(guān)系,為教職工提供健康評(píng)價(jià)和干預(yù)措施。經(jīng)典的關(guān)聯(lián)規(guī)則算法Apriori是一種頻繁項(xiàng)集算法,用于挖掘布爾關(guān)聯(lián)規(guī)則,將其應(yīng)用于健康數(shù)據(jù)關(guān)聯(lián)分析模塊,可分析每位教職工的周期性體檢數(shù)據(jù),關(guān)注他們的生活習(xí)慣對(duì)健康變化的影響,還可以分析教職工疾病,如患高血壓、高血脂、肩周炎、頸椎病等之間的關(guān)聯(lián)規(guī)則,幫助進(jìn)行健康干預(yù)和疾病提醒。
1.1.4 云計(jì)算平臺(tái)
云計(jì)算平臺(tái)的應(yīng)用,更好的集成了計(jì)算需要,不對(duì)客戶終端特別是移動(dòng)終端的計(jì)算能力做過多要求,客戶終端只需要進(jìn)行簡單的數(shù)據(jù)采集和傳遞就可以了,提高了健康管理平臺(tái)的兼容性和用戶體驗(yàn)度。并且云平臺(tái)具有自動(dòng)收縮、負(fù)載均衡、安全性高、擴(kuò)展方便的優(yōu)勢(shì),方便后期平臺(tái)的維護(hù)和擴(kuò)展。
通過調(diào)研,移動(dòng)教職工健康管理平臺(tái)的系統(tǒng)功能設(shè)計(jì)如圖2所示。
圖2 健康管理平臺(tái)系統(tǒng)功能
主要功能包括:數(shù)據(jù)采集、健康管理和數(shù)據(jù)管理。數(shù)據(jù)采集包括體檢數(shù)據(jù)和傳感器數(shù)據(jù)的采集。體檢數(shù)據(jù)由體檢醫(yī)院提供,用戶移動(dòng)終端自帶的氣壓傳感器、心率傳感器、血氧傳感器、加速度傳感器、溫度傳感器等可向服務(wù)端提供用戶地理位置、用戶心率、用戶運(yùn)動(dòng)情況、用戶體溫、用戶血氧分壓等一系列基礎(chǔ)數(shù)據(jù);健康管理功能可以為用戶提供健康提醒、疾病預(yù)防和數(shù)據(jù)對(duì)比服務(wù),當(dāng)用戶有不利于健康的生活習(xí)慣,或者身體某指標(biāo)異常時(shí),可實(shí)時(shí)對(duì)用戶進(jìn)行健康提醒;當(dāng)用戶處于傳染病高發(fā)區(qū)域或季節(jié),或者是某疾病的高發(fā)對(duì)象時(shí),可實(shí)時(shí)對(duì)用戶提供疾病防治信息;為不同的用戶角色設(shè)置不同的數(shù)據(jù)管理權(quán)限,普通用戶僅能進(jìn)行數(shù)據(jù)查詢,管理員可以進(jìn)行數(shù)據(jù)修改和刪除,最大程度地保障了數(shù)據(jù)安全。
在進(jìn)行關(guān)聯(lián)分析之前,服務(wù)端系統(tǒng)需要對(duì)采集數(shù)據(jù)進(jìn)行預(yù)處理,使之符合Apriori算法處理的需求。具體包括(1)同類屬性識(shí)別。由于數(shù)據(jù)來源的不同,提交的同一類數(shù)據(jù)屬性名稱可能不同,服務(wù)端系統(tǒng)需要把它們轉(zhuǎn)換為同一屬性名稱。(2)數(shù)值單位轉(zhuǎn)換。對(duì)于不同的數(shù)據(jù)源,數(shù)值單位可能不同,比如,身高數(shù)據(jù)提交的時(shí)候,以米和厘米為單位,數(shù)值分別為1.65和165,服務(wù)端系統(tǒng)要能準(zhǔn)確地識(shí)別它們并轉(zhuǎn)換為標(biāo)準(zhǔn)單位下的數(shù)值。(3)去除無用數(shù)據(jù)。如果數(shù)據(jù)間具有推導(dǎo)關(guān)系,服務(wù)端系統(tǒng)就要去除可推導(dǎo)數(shù)據(jù),比如出生年月由年齡可以推導(dǎo)出,就可以去除掉。(4)數(shù)據(jù)去連續(xù)化。通過用戶終端傳感器和醫(yī)院體檢采集來的數(shù)據(jù)可以劃分為離散型和連續(xù)型兩大類,對(duì)于連續(xù)型數(shù)據(jù),必須對(duì)其進(jìn)行離散化,將其映射為保留原有次序的整數(shù)區(qū)域,使之符合布爾關(guān)聯(lián)規(guī)則Apriori算法的要求,比如,將連續(xù)型數(shù)據(jù)“年齡”劃分為[0,6] [7,17] [18, 40] [41, 65] [66,max]。
Apriori是一種經(jīng)典的布爾型數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法,由Agrawal&Srikant于1994年提出,用于尋找出大數(shù)據(jù)集中數(shù)據(jù)間的關(guān)聯(lián)或聯(lián)系。Apriori算法先設(shè)定最小支持度和最小置信度,將關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)分為兩步:第一步是找出所有支持度不小于用戶指定的最小支持度的頻繁項(xiàng)集[4][5],支持度Support(A->B)見公式(1);第二步從頻繁項(xiàng)集中構(gòu)造其置信度不低于用戶給定置信度的強(qiáng)關(guān)聯(lián)規(guī)則,置信度Confidence(A->B)見公式(2)。即同時(shí)滿足最小支持度和最小置信度。算法易實(shí)現(xiàn),基本步驟可分為連接和剪枝。Apriori算法偽代碼如圖3所示。
Support(A→B)=P(A∪B)=
(1)
Confidence(A→B)=P(B|A)=
(2)
圖3 Apriori算法偽代碼
Apriori算法可對(duì)大數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析,挖掘發(fā)現(xiàn)數(shù)據(jù)間潛在的關(guān)聯(lián)規(guī)則。在移動(dòng)教職工健康管理平臺(tái)中,有多處應(yīng)用。比如,可以挖掘用戶的行為數(shù)據(jù)與疾病之間的潛在關(guān)聯(lián);可以挖掘特定人群與特定疾病之間的潛在關(guān)聯(lián);可以挖掘特定季節(jié)和區(qū)域與疾病之間的潛在關(guān)聯(lián);可以挖掘疾病與疾病之間的潛在關(guān)聯(lián)。篇幅關(guān)系,僅介紹Apriori算法對(duì)疾病與疾病之間的關(guān)聯(lián)挖掘。
對(duì)某高校2013-2016年的6700條體檢數(shù)據(jù)進(jìn)行預(yù)處理,具體包括同類屬性識(shí)別、數(shù)值單位轉(zhuǎn)換、去除無用數(shù)據(jù)、數(shù)據(jù)去連續(xù)化,并用C++對(duì)Apriori進(jìn)行編程實(shí)現(xiàn),設(shè)置最小支持度為22%,最小置信度為34%,得到關(guān)聯(lián)規(guī)則六條,置信度保留兩位小數(shù),由高到低排序。
心功能不全→冠心病,可信度: 0.57
(1)
冠心病、腦梗塞→高血壓病,可信度: 0.53
(2)
心率失?!谛牟?可信度: 0.46
(3)
高血壓病,腦梗塞→冠心病,可信度: 0.45
(4)
冠心病→高血壓病,可信度: 0.37
(5)
頸椎病,高血脂病→腰椎間盤突出,可信度: 0.31
(6)
(1)當(dāng)用戶患有心功能不全,健康管理平臺(tái)應(yīng)該定期提醒用戶做冠心病篩查并給出生活注意事項(xiàng)。
(2)當(dāng)用戶患有冠心病和腦梗塞,健康管理平臺(tái)定期提醒用戶測(cè)量血壓,并給出預(yù)防建議。
(3)當(dāng)用戶患有心率失常,健康管理平臺(tái)定期向用戶普及冠心病知識(shí),并提醒用戶定期篩查。
(4)當(dāng)用戶患有高血壓和腦梗塞,健康管理平臺(tái)定期提醒用戶篩查冠心病,并普及疾病知識(shí)。
(5)當(dāng)用戶患有冠心病,健康管理平臺(tái)定期提醒用戶測(cè)量血壓,關(guān)注用戶飲食習(xí)慣,普及疾病知識(shí)。
(6)當(dāng)用戶患有頸椎病和高血脂病,健康管理平臺(tái)定期提醒用戶關(guān)注腰椎健康,給出腰椎間盤突出的防治知識(shí)。
移動(dòng)教職工健康管理平臺(tái)分為終端應(yīng)用層、服務(wù)端系統(tǒng)、健康數(shù)據(jù)關(guān)聯(lián)分析模塊和云計(jì)算平臺(tái)四個(gè)部分,主要功能包括數(shù)據(jù)采集、健康管理和數(shù)據(jù)管理。介紹了數(shù)據(jù)預(yù)處理方法和Apriori關(guān)聯(lián)規(guī)則算法,并以教職工疾病之間的潛在規(guī)則關(guān)聯(lián)挖掘?yàn)槔?,闡述了Apriori算法在移動(dòng)教職工健康管理平臺(tái)中的應(yīng)用。平臺(tái)具有兼容性高、用戶體驗(yàn)好、負(fù)載勻衡、安全性高、擴(kuò)展方便等優(yōu)勢(shì)。