彭喬立 李漢民 幺冬愛 肖 輝
(武漢大學(xué)中南醫(yī)院信息中心 武漢 430071)
抑郁癥是一種嚴(yán)重危害公眾健康的慢性非傳染性精神類疾病,其發(fā)病原因復(fù)雜,臨床表現(xiàn)差異較大,治療成本較高,具有難預(yù)防、難診斷、難治愈的特點(diǎn)。抑郁癥患者不僅將面臨健康損失,同時(shí)社會(huì)性歧視可能導(dǎo)致抑郁癥患者身心健康與個(gè)人權(quán)益遭受嚴(yán)重傷害[1]。如今隨著生活節(jié)奏加快與壓力增長,抑郁癥發(fā)病率逐年攀升[2]。
據(jù)WHO統(tǒng)計(jì)全球每年因?yàn)獒t(yī)療資源浪費(fèi)而造成損失達(dá)千億美元。醫(yī)療資源浪費(fèi)往往是由病情評估不合理導(dǎo)致,由于慢性非傳染性疾病治療成本過高,病情分級成為慢病診療中的重要一環(huán),根據(jù)定量數(shù)據(jù)劃分病情等級為常用方法,可作為重要診療依據(jù),指導(dǎo)醫(yī)療資源配置以提高診療效率。抑郁癥屬于精神類疾病,由于缺乏器質(zhì)性病變的臨床證據(jù),無法通過實(shí)驗(yàn)室數(shù)據(jù)或其他檢查數(shù)據(jù)來進(jìn)行量化病情分級,目前該疾病主要通過抑郁癥自評量表(Self-rating Depression Scale,SDS)進(jìn)行量化[3],該表由大量主觀問答組成,使用時(shí)可能產(chǎn)生較高主觀偏倚風(fēng)險(xiǎn)。相較于定量化病情分級方法,基于主觀問答的抑郁癥病情分級方法精確性與靈敏度較低。
2.2.1 定義 無監(jiān)督學(xué)習(xí)是指在缺乏先驗(yàn)知識(shí)的場景下,對難以區(qū)分類別、定義性質(zhì)的數(shù)據(jù)進(jìn)行標(biāo)注、分組與特征化等處理。在數(shù)據(jù)挖掘過程中,數(shù)據(jù)集缺乏標(biāo)注、分組信息的情況時(shí)有發(fā)生,可能導(dǎo)致人工智能、深度學(xué)習(xí)等許多智能算法無法實(shí)施。因此數(shù)據(jù)標(biāo)注、分組工作是許多數(shù)據(jù)挖掘算法的前提。對于缺乏先驗(yàn)知識(shí)的數(shù)據(jù)而言,人工標(biāo)注是最可靠的方法,但需要耗費(fèi)大量人力與時(shí)間成本,甚至經(jīng)常超過訓(xùn)練模型所需要時(shí)間[4]。無監(jiān)督學(xué)習(xí)算法可以挖掘數(shù)據(jù)內(nèi)在特征并根據(jù)特征值進(jìn)行相關(guān)運(yùn)算,實(shí)現(xiàn)數(shù)據(jù)維度轉(zhuǎn)換的功能。
2.2.2 分類 根據(jù)應(yīng)用方式不同主要分為聚類(Cluster)、降維(Reduction)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)等技術(shù)。聚類分析可以挖掘并分析數(shù)據(jù)特征,計(jì)算聚類中心,根據(jù)特征值不同聚類分析可分為以下幾類:均值聚類(Means)、層次聚類(Hierarchy)、概率聚類(Probability)等[5];數(shù)據(jù)降維通過分析數(shù)據(jù)維度共同特征,將其合并成更少、更精簡的新維度空間,根據(jù)合并依據(jù)的不同降維分析可以分為:主成分分析(Principal Component Analysis,PCA),因子分析(Factor Analysis,F(xiàn)A)以及線性判別(Linear Discriminant Analysis,LDA)等;人工神經(jīng)網(wǎng)絡(luò)是當(dāng)前最熱門的數(shù)據(jù)分類算法,該算法通過構(gòu)建輸入層-隱藏層-激活函數(shù)-輸出層的類生物神經(jīng)系統(tǒng)結(jié)構(gòu),實(shí)現(xiàn)數(shù)據(jù)分類功能[6]。本研究使用聚類分析中的K均值(K-Means)算法,以抑郁癥患者實(shí)驗(yàn)室數(shù)據(jù)為對象,對其進(jìn)行定量分析以獲取分級模型,再用該分級模型對測試數(shù)據(jù)集進(jìn)行分組,最后使用統(tǒng)計(jì)學(xué)方法進(jìn)行評價(jià),驗(yàn)證分級模型有效性,見圖1。
圖1 分組結(jié)果散點(diǎn)(應(yīng)用于部分維度)
使用健康信息系統(tǒng)(Health Information System,HIS)查詢符合要求的患者數(shù)據(jù),以主診斷編碼類目為“F32”“F33”(抑郁癥對應(yīng)主診斷編碼)為選入標(biāo)準(zhǔn)獲取患者索引號,以該索引關(guān)聯(lián)檢驗(yàn)信息系統(tǒng)(Laboratory Information System,LIS)以獲取具體檢驗(yàn)項(xiàng)目數(shù)據(jù),對所得數(shù)據(jù)進(jìn)行脫敏處理,去除姓名、身份證號、住址等患者隱私信息,以患者主索引作為主鍵與單個(gè)樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián),對數(shù)據(jù)集中的NA值采用平均化處理方案,包含0值或NA值多于半數(shù)的列視為無效并對其進(jìn)行剔除。完成數(shù)據(jù)脫敏與完整性處理后,數(shù)據(jù)集最終包含193個(gè)樣本行,其中105行樣本作為訓(xùn)練集,另外88行作為測試集。
3.2.1 概述 本研究將探討抑郁癥量化分級方案,采用距離聚類中的K-Means算法,使用該算法訓(xùn)練數(shù)據(jù),將其分為3組并獲取聚類中心,嘗試使用聚類中心為測試數(shù)據(jù)集進(jìn)行分組,最后使用統(tǒng)計(jì)學(xué)方法驗(yàn)證分組結(jié)果效能。
3.2.2 去除異常值 數(shù)據(jù)集中零散分布的異常值會(huì)影響數(shù)據(jù)分布特征并使聚類結(jié)果產(chǎn)生偏倚,因此在計(jì)算聚類中心前需要去除異常值。利用百分位數(shù)(Percentile)過濾異常值,只保留第1(Q1)和第3(Q3)分位數(shù)之間的數(shù)據(jù),此范圍外的數(shù)據(jù)將被視為異常值而不納入計(jì)算。
3.2.3 計(jì)算聚類中心 運(yùn)用K-Means聚類算法獲取聚類中心,具體算法如下:根據(jù)數(shù)據(jù)分布情況隨機(jī)選取3個(gè)初始中心點(diǎn);分別計(jì)算每個(gè)樣本到初始中心點(diǎn)的歐式距離;計(jì)算誤差值,根據(jù)誤差重新計(jì)算聚類中心;重復(fù)上兩個(gè)步驟,直到達(dá)到迭代數(shù)上限或者誤差小到滿足條件時(shí)停止,得到分級模型。K-Means算法公式如下:
將分級模型應(yīng)用在測試數(shù)據(jù)集上并分為3組,分別計(jì)算各組統(tǒng)計(jì)數(shù)據(jù),針對數(shù)據(jù)集分布特性使用不同統(tǒng)計(jì)學(xué)算法驗(yàn)證分組結(jié)果,使用Shapiro方法驗(yàn)證正態(tài)性,采用Barlett方法驗(yàn)證方差齊性,對于滿足正態(tài)性與方差齊性的數(shù)據(jù)列,使用ANOVA方法分析組內(nèi)與組外差異,對于組內(nèi)差異使用LSD-T方法進(jìn)行兩兩比較,對不滿足正態(tài)性或方差齊性的數(shù)據(jù)列使用Kruskal方法兩兩比較,然后通過Wilcoxon-Mann-Whitney方法分析其組內(nèi)差異,見表1。
表1 訓(xùn)練數(shù)據(jù)分組模型
根據(jù)分組結(jié)果散點(diǎn)可以看出3個(gè)分組之間分界清晰、形態(tài)穩(wěn)定,聚類中心互相獨(dú)立。由訓(xùn)練數(shù)據(jù)分組模型結(jié)果可以發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)所計(jì)算得到的分組模型梯度明顯,呈一定遞增關(guān)系,用該模型對測試數(shù)據(jù)進(jìn)行分組并用統(tǒng)計(jì)學(xué)方法校驗(yàn)分組。結(jié)果顯示大部分檢驗(yàn)項(xiàng)目的組內(nèi)差異具有統(tǒng)計(jì)學(xué)意義(P< 0.05,P= 0.001為值過小故用該值替代),隨后兩兩比較組間差異,結(jié)果表明有部分檢驗(yàn)項(xiàng)目3組之間差異都有顯著性(P1、P2、P3分別為兩兩比較的P值),部分檢驗(yàn)項(xiàng)目的組間差異不全具有統(tǒng)計(jì)學(xué)差異,存在少部分項(xiàng)目的組間差異沒有統(tǒng)計(jì)學(xué)意義,見表2。
表2 測試集分組結(jié)果統(tǒng)計(jì)校驗(yàn)
續(xù)表2
本研究使用無監(jiān)督學(xué)習(xí)算法對無先驗(yàn)知識(shí)的抑郁癥患者實(shí)驗(yàn)室數(shù)據(jù)進(jìn)行分級,通過統(tǒng)計(jì)學(xué)算法對分級進(jìn)行驗(yàn)證,結(jié)果表明大部分指標(biāo)的組間差異具有統(tǒng)計(jì)學(xué)意義,說明精神類疾病會(huì)對實(shí)驗(yàn)室檢驗(yàn)項(xiàng)目產(chǎn)生一定影響。但本研究尚未解決分組數(shù)量如何確定的問題,未來將會(huì)結(jié)合已有研究結(jié)果繼續(xù)探索分組數(shù)量與分組模型質(zhì)量之間的關(guān)系。