詹潤華,郭鴻儒,王溢郴,王秀鳳
(廣東藥科大學(xué) 1.藥學(xué)院; 2.中藥學(xué)院; 3.醫(yī)藥信息工程學(xué)院,廣東 廣州 510006)
腫瘤、代謝性疾病等復(fù)雜疾病嚴(yán)重危害人類的健康,因復(fù)雜疾病的致病機(jī)理復(fù)雜,其早期診斷和治療都十分困難。惡性腫瘤早期多無明顯癥狀,待晚期發(fā)現(xiàn)時(shí)極難治愈,而代謝性疾病往往都是不可逆的,因此及時(shí)防治與診斷此類復(fù)雜疾病意義重大。
生物標(biāo)志物可以作為反映生物體結(jié)構(gòu)和功能發(fā)生改變的信號(hào)指標(biāo)[1],用于檢測(cè)復(fù)雜疾病的發(fā)生和進(jìn)展。近年來“組學(xué)”領(lǐng)域的生物標(biāo)志物作為輔助手段用于預(yù)先、準(zhǔn)確、靈敏地判斷出疾病發(fā)生情況,取得了較好的效果。多個(gè)層次的生物標(biāo)志物聯(lián)合診斷可以區(qū)分疾病的類型以及疾病所處的階段,輔助臨床治療。將多個(gè)生物標(biāo)志物用于復(fù)雜疾病診斷,需要應(yīng)用先進(jìn)的數(shù)學(xué)方法建立復(fù)雜疾病非侵入性的診斷模型,可減少交叉感染的危險(xiǎn),提高診斷效率?;谏飿?biāo)志物和組學(xué)數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘方法建立復(fù)雜疾病的早期診斷模型,可以為復(fù)雜疾病的診斷提供幫助。
不同層次或類型的生物標(biāo)志物具有不同的特征,按功能分可分為風(fēng)險(xiǎn)類生物標(biāo)志物、診斷性生物標(biāo)志物、預(yù)后生物標(biāo)志物[2]。生物標(biāo)志物可以是生物體本身的體溫、體重、血糖、血脂等,也可以是基因、蛋白質(zhì)、代謝物小分子等。下面對(duì)基于不同層次的生物標(biāo)志物的診斷模型進(jìn)行綜述。
目前,臨床常用的腫瘤診斷生化指標(biāo)有癌胚抗原(CEA)、 甲胎蛋白(AFP)、血清鐵蛋白(SF)、β2-微球蛋白(β2-MG)和癌抗原50(CA50)。此外,糖類抗原199(CA199)是一種粘蛋白型的糖類蛋白腫瘤標(biāo)志物,主要是篩查腸癌的生化指標(biāo);糖類抗原153(CA153)是篩查乳腺癌的重要生化指標(biāo);糖類抗原724(CA724)是胃癌的最佳腫瘤標(biāo)志物之一。代謝性疾病如糖尿病常用生化指標(biāo)是血糖和糖化血紅蛋白等;糖尿病腎病常用生化指標(biāo)為血胱抑素C(CYsC)、尿微量白蛋白/尿肌酐(UALB/UC)、C反應(yīng)蛋白(CRP)、β2-微球蛋白(β2-MG)和血尿素氮(BUN)等。
卵巢癌是最致命的婦科惡性腫瘤之一,被診斷的患者一般為疾病晚期,且具有廣泛的腹膜轉(zhuǎn)移,存活率較低。糖類抗原125(CA125)、糖類抗原199(CA199)和癌胚抗原(CEA)聯(lián)合檢測(cè)在診斷卵巢癌中比傳統(tǒng)的CA125單項(xiàng)檢測(cè)更理想[3]。常見乳腺癌患者的紅細(xì)胞體積分布寬度(RDW)、中性粒細(xì)胞計(jì)數(shù)和淋巴細(xì)胞計(jì)數(shù)比值(NLR)、低密度脂蛋白膽固醇(LDL-C)等指標(biāo)水平均會(huì)顯著高于健康女性,以此為生化指標(biāo)進(jìn)行檢測(cè)[4]。目前,常用糖化血紅蛋白(HbA1c)鑒別2型糖尿病。Jelinek等[5]發(fā)現(xiàn)單獨(dú)使用HbA1c使得某些糖尿病患者未被診斷出糖尿病而錯(cuò)過治療時(shí)機(jī)。而加入氧化應(yīng)激標(biāo)記物8-羥基-2-脫氧鳥苷(8-OHdG)與HbA1c聯(lián)合診斷2型糖尿病,能提高準(zhǔn)確性,使2型糖尿病分類準(zhǔn)確度提高。早期糖尿病腎病的臨床診斷一般使用生化指標(biāo)檢測(cè),其中最主要的是血清學(xué)指標(biāo)和尿液指標(biāo)。研究表明,血清胱抑素C(Cysc)對(duì)腎功能損傷的檢測(cè)最靈敏,也可以用來簡單區(qū)分糖尿病腎病組和糖尿病組。CRP、CysC、UALB/UC、β2-MG、RBP聯(lián)合檢測(cè),可以提高早期糖尿病腎病診斷的準(zhǔn)確性[6]。Stepien 等[7]發(fā)現(xiàn)肝臟酶(GGT/ALT/AST/ALP)和總膽紅素均與肝細(xì)胞癌(HCC)風(fēng)險(xiǎn)正相關(guān),所有單獨(dú)升高的肝臟酶和總膽紅素均是位于肝臟(HCC、IHBC)中的癌癥的良好預(yù)診斷標(biāo)志物。孫偉等[8]發(fā)現(xiàn)將谷丙轉(zhuǎn)氨酶(ALT)、谷酰轉(zhuǎn)肽酶(γ-GT)、鐵蛋白(FER)3項(xiàng)生化指標(biāo)聯(lián)合增強(qiáng)CT,提高了原發(fā)性肝癌患者的診斷正確率和靈敏度。
每一種生化指標(biāo)都可以反映人體相關(guān)的功能,如肝功能、腎功能等等。目前部分生化指標(biāo)的疾病診斷,具有較高的準(zhǔn)確性和高效性,使其運(yùn)用廣泛。在復(fù)雜疾病的診斷中,采用多項(xiàng)生化指標(biāo)聯(lián)合診斷可以避免單一生化指標(biāo)的局限性,提高診斷的準(zhǔn)確性和正確率。生化指標(biāo)結(jié)合其他生物標(biāo)志物尤其是組學(xué)數(shù)據(jù),能更敏感地預(yù)測(cè)和診斷復(fù)雜疾病。
1.2.1 基于基因組學(xué)的診斷模型 基因組是描述生物的全部基因和染色體組成的概念。Shukla等[9]研究了在社區(qū)獲得性肺炎中表達(dá)的綜合miRNA譜,除了在腫瘤組織中表達(dá)的miRNA之外,循環(huán)的miRNA已被發(fā)現(xiàn)高度穩(wěn)定,并且在可接近的生物流體范圍內(nèi)是可檢測(cè)、可量化的。因此miRNA是潛在的、有用的診斷、預(yù)后和預(yù)測(cè)生物標(biāo)志物。急性粒細(xì)胞白血病(acute myeloblastic leukemia,AML)是一種涉及多種分子機(jī)制的復(fù)雜疾病,目前關(guān)于AML的診斷和治療主要依據(jù)細(xì)胞遺傳學(xué)的結(jié)果,以及FLT3/NPM1/CEBPA/KIT基因的突變。這些分子生物標(biāo)志物的組合已被證明有利于患者的診斷和預(yù)后。同時(shí)AML患者的表觀遺傳學(xué)特征可以作為生物標(biāo)志物,為疾病的分類提供信息,并將臨床結(jié)果和DNA甲基化狀態(tài)關(guān)聯(lián)[10]。循環(huán)腫瘤DNA(ctDNA)的檢測(cè)是癌癥精密醫(yī)學(xué)的重要組成部分,不同腫瘤類型和階段的ctDNA含量不同[11],個(gè)體腫瘤的突變特征可能因患者而異。Friedberg等[12]發(fā)現(xiàn)檢測(cè)母體血液中的胎兒cfDNA與胎兒21,18和13三體等核型使得非侵入性產(chǎn)前診斷成為可能,其中全基因組微陣列可以檢測(cè)到許多與先天性心臟病有關(guān)的亞顯微拷貝數(shù)變異(CNV),而21個(gè)CNV被認(rèn)為具有臨床意義。
基因組分析可以對(duì)遺傳性疾病有效預(yù)測(cè),但是無法清楚解釋如何引發(fā)機(jī)體疾病癥狀,以及評(píng)估后期出現(xiàn)臨床疾病的可能性。研究表明,基因的表達(dá)水平和疾病發(fā)生的風(fēng)險(xiǎn)在某些組織中有顯著關(guān)聯(lián),但在其他組織又無關(guān)聯(lián)??梢酝ㄟ^大量的不同個(gè)體的基因組測(cè)序數(shù)據(jù)進(jìn)行綜合分析,對(duì)患病個(gè)體和未患病個(gè)體基因進(jìn)行比對(duì),以縮小并發(fā)現(xiàn)預(yù)測(cè)診斷此疾病的特殊生物標(biāo)志物。目前,只根據(jù)基因組學(xué)單層次標(biāo)志物診斷復(fù)雜疾病仍十分困難。
1.2.2 基于蛋白質(zhì)組學(xué)的診斷模型 蛋白質(zhì)組學(xué)(Proteinomics)是對(duì)人體蛋白表達(dá)水平進(jìn)行高通量篩選和分析的一門學(xué)科。用于心力衰竭(heart failure,HF)的診斷性生物標(biāo)志物如利尿鈉肽(natriuretic peptide,NP)被廣泛使用但具有局限性。Berry等[13]通過毛細(xì)管電泳-質(zhì)譜(CE-MS)蛋白質(zhì)組學(xué)分析研究了HF特異性多肽,確定了胰島素樣生長因子結(jié)合蛋白2(IGFBP2)作為診斷HF的新生物標(biāo)志物,具有高靈敏度和特異性(AUC=0.93,95%CI=0.89-0.96,P<0.000 1),可用于向NP提供額外的信息。帕金森綜合征的神經(jīng)系統(tǒng)變性具有重要的臨床和病理學(xué)重疊,早期診斷困難。腦脊液(cerebrospinal fluid,CSF)生物標(biāo)志物可能有助于這些疾病的分化,Magdalinou等[14]運(yùn)用蛋白質(zhì)組學(xué)來研究疾病機(jī)制并識(shí)別可能的CSF診斷生物標(biāo)志物,發(fā)現(xiàn)可能反映神經(jīng)元功能和/或可塑性的標(biāo)記物,如淀粉樣蛋白前體蛋白質(zhì)和炎癥標(biāo)記物,將來有望成為帕金森綜合征的候選生物標(biāo)志物。Husain等[15]發(fā)現(xiàn)5種蛋白質(zhì)隨著肝纖維化的增加而發(fā)生最大變化,分別是脂質(zhì)轉(zhuǎn)移抑制蛋白、補(bǔ)充C3d、皮質(zhì)類固醇結(jié)合球蛋白、載脂蛋白J、載脂蛋白L1,這些蛋白質(zhì)可以用于早期診斷預(yù)測(cè)肝纖維化。Marx等[16]發(fā)現(xiàn)在急性腎損傷(AKI)的診斷中,血清胱抑素水平升高的機(jī)會(huì)可能比血清肌酐水平的變化更早發(fā)現(xiàn)AKI,白細(xì)胞介素-18(IL-18)在預(yù)測(cè)早期AKI和兒童患者的AKI方面較理想。谷胱甘肽S-轉(zhuǎn)移酶(α和πGSTs)可預(yù)測(cè)晚期AKI。血漿和尤其是經(jīng)腎皮質(zhì)濾過作用所釋放的尿液中,乳酸脫氫酶(LDH)水平與腎損傷的嚴(yán)重程度相關(guān)。
目前,蛋白質(zhì)大多數(shù)用作癌癥檢測(cè)的生物標(biāo)志物,且是大多數(shù)靶向治療的目標(biāo)。在定量蛋白質(zhì)組學(xué)中,標(biāo)記蛋白分析技術(shù)存在局限性,當(dāng)細(xì)胞數(shù)很少時(shí),樣品分析非常困難。而使用無標(biāo)記定量蛋白質(zhì)組分析技術(shù),可以檢測(cè)一種蛋白質(zhì)相匹配的所有肽鏈,確定其在總蛋白中所占的比例。但是蛋白質(zhì)有十分復(fù)雜的翻譯及修飾機(jī)制,這給其分離分析帶來很大的困難,且蛋白質(zhì)組學(xué)的數(shù)據(jù)輸出存在一定的難度。雖然目前蛋白質(zhì)組學(xué)在癌癥、老年癡呆等疾病的臨床治療中已經(jīng)取得了一定的成就,但是疾病發(fā)展不可能只是一個(gè)組學(xué)層面上的,依據(jù)單組學(xué)數(shù)據(jù)分析復(fù)雜疾病具有很大的局限性。
1.2.3 基于代謝組學(xué)的診斷模型 代謝組學(xué)(meta-bonomics/metabolomics)是對(duì)生物體內(nèi)所有代謝物進(jìn)行定量分析,并尋找代謝物與生理病理變化的相對(duì)關(guān)系的研究方式,是系統(tǒng)生物學(xué)的組成部分。其研究對(duì)象一般是相對(duì)分子質(zhì)量1 000以內(nèi)的小分子物質(zhì)。先進(jìn)分析檢測(cè)技術(shù)結(jié)合模式識(shí)別和專家系統(tǒng)等計(jì)算分析方法是代謝組學(xué)研究的基本方法。
Suwen等[17]使用高效液相色譜-質(zhì)譜(HPLC-MS)分析血清樣品的代謝特征,發(fā)現(xiàn)總共56種代謝物能夠基于OPLS-DA模型(orthogonal partial least squares discrimination analysis)區(qū)分非酒精性脂肪性肝炎(non-alcoholic steatohepatitis,NASH)和單純性脂肪變性。同時(shí)還發(fā)現(xiàn)焦谷氨酸是區(qū)分NASH與單純性脂肪變性組最有希望的因素,所以焦谷氨酸可能是診斷NASH的新的生物標(biāo)志物。Shao等[18]使用超高效液相色譜四極桿飛行時(shí)間質(zhì)譜(UPLC-Q-TOF / MS)平臺(tái)分析了25名健康個(gè)體、25例子宮內(nèi)膜癌(carcinoma of endometrium,EOC)患者和10例子宮內(nèi)膜增生患者的早晨尿液,根據(jù)代謝組學(xué)方法發(fā)現(xiàn)了EOC診斷生物標(biāo)志物組。在EOC患者中,膽紅素原、乙酰半胱氨酸、N-乙酰絲氨酸,尿嘧啶和異丁酰甘氨酸5種診斷性生物標(biāo)志物,均有顯著變化。其中,膽紅素原和乙酰半胱氨酸顯著下調(diào),N-乙酰絲氨酸、尿嘧啶和異丁酰甘氨酸顯著上調(diào)。
脂質(zhì)組學(xué)是通過比較不同生理狀態(tài)下脂代謝網(wǎng)絡(luò)的變化,來識(shí)別代謝調(diào)控中關(guān)鍵的脂生物標(biāo)志物,揭示脂質(zhì)在各種生命活動(dòng)中的作用機(jī)制的一門新興學(xué)科,是代謝組學(xué)的一部分。在病理學(xué)中,功能障礙磷脂(phospholipid,PL)代謝對(duì)阿爾茨海默病(alzheimer disease,AD)起關(guān)鍵作用,其特征在于幾種磷脂酶的酶活性增加,脂質(zhì)體內(nèi)平衡的普遍破壞,膜動(dòng)力學(xué)和脂質(zhì)信號(hào)傳導(dǎo)。因此,血液PLs的分析是發(fā)現(xiàn)新的基于血液的輕度認(rèn)知障礙(mild cognitive impairment,MCI)和早期AD的生物標(biāo)志物。Abdullah等[19]發(fā)現(xiàn)了辨別MCI和早期AD的PL輪廓。與對(duì)照相比,AD受試者中含有鞘磷脂的非常長鏈脂肪酸降低,但在MCI受試者中未受影響。與對(duì)照相比,AD和MCI中含醚的磷脂酰膽堿和磷脂酰乙醇胺水平均升高;而與其他診斷類別的受試者相比,MCI受試者的上述脂質(zhì)體水平最高。與對(duì)照相比,MCI和AD中含醚和多不飽和脂肪酸的溶血磷脂水平顯著升高。上述結(jié)果顯示了用基于脂質(zhì)體的系統(tǒng)生物學(xué)方法來開發(fā)可檢測(cè)、區(qū)分MCI與早期AD的血液PL生物標(biāo)志物的重要性。
對(duì)代謝組學(xué)的生物標(biāo)志物進(jìn)行定性、定量分析最常用的方法是質(zhì)譜分析和核磁共振法,脂肪、糖類、氨基酸等各種代謝過程中生成的小分子化合物可以提供機(jī)體的健康信息。代謝組學(xué)能方便、快捷地提供生物信息,對(duì)疾病診斷的靈敏度更高,適合與臨床治療相結(jié)合。但是代謝組學(xué)的生物標(biāo)志物也存在一定的局限性,在許多代謝過程中代謝產(chǎn)物的動(dòng)態(tài)變化與個(gè)體差異、個(gè)體行為有很大的關(guān)聯(lián),環(huán)境因素、個(gè)人習(xí)慣都影響著代謝組學(xué)生物標(biāo)志物的檢測(cè)。
基于單層次的組學(xué)數(shù)據(jù)的診斷模型在診斷的準(zhǔn)確性等方面有時(shí)尚達(dá)不到要求,所以需要收集多層次的組學(xué)數(shù)據(jù)構(gòu)建復(fù)雜疾病的整合生物標(biāo)志物系統(tǒng)。對(duì)于多組學(xué)數(shù)據(jù)的整合分析,首要的是將不同的組學(xué)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,分析組學(xué)數(shù)據(jù)之間的相關(guān)性,基于多組學(xué)數(shù)據(jù)建立基本的定性和定量模型。但是,相關(guān)實(shí)驗(yàn)的實(shí)驗(yàn)設(shè)計(jì)的不完善和數(shù)據(jù)處理方法的差異,使得組學(xué)數(shù)據(jù)整合的進(jìn)展緩慢。
鑒于復(fù)雜疾病生物學(xué)數(shù)據(jù)尤其是組學(xué)的復(fù)雜性和高通量,建立診斷模型需要先進(jìn)的數(shù)學(xué)方法,下面就無監(jiān)督和有監(jiān)督兩類診斷模型分別進(jìn)行綜述。
2.1.1 聚類分析法 聚類分析法是理想的多變量統(tǒng)計(jì)方法,根據(jù)樣品之間存在的不同程度的相似性進(jìn)行分類,比傳統(tǒng)的分類方法更細(xì)致、全面,分類結(jié)果也直觀清楚。一般可以根據(jù)分類對(duì)象的不同分為Q型聚類分析和R型聚類分析兩大類。Q型聚類分析是對(duì)樣本進(jìn)行分類處理,R型聚類分析是對(duì)變量進(jìn)行分類處理。使用Q型聚類得到的分類結(jié)果是直觀的,且比傳統(tǒng)的分類方法更加細(xì)致、全面。而用R型聚類分析可清楚地得到變量之間及變量組合間的親疏關(guān)系。
Tomassen等[20]運(yùn)用聚類分析IL-5、IFN-γ、IL-17A、TNF-α、IL-22、IL-1β、IL-6、IL-8、嗜酸性陽離子蛋白、髓過氧化物酶、TGF-β1、IgE、金黃色葡萄球菌腸毒素特異性IgE和白蛋白,結(jié)果173個(gè)病例分成10個(gè)簇。其中4個(gè)簇具有低或不可檢測(cè)的IL-5、嗜酸性陽離子蛋白、IgE和白蛋白濃度, 6個(gè)簇具有高濃度的上述標(biāo)志物。
目前聚類分析在疾病診斷中主要用于疾病的分型,例如用聚類分析法將早期的帕金森綜合征分亞型。或用于慢性病的監(jiān)測(cè),如2型糖尿病患者的代謝情況的監(jiān)測(cè)。聚類分析根據(jù)不同的相似性或以樣本間距離建立的聚類分析結(jié)果顯示樣本間存在的緊密聯(lián)系,但有時(shí)實(shí)際上樣本之間并無關(guān)系??梢娋垲惙治鰧?duì)復(fù)雜疾病分類的準(zhǔn)確性和特異性難以保證。
2.1.2 主成分分析法 主成分分析(principal component analysis,PCA)首先是由K.皮爾森(Karl Pearson)對(duì)非隨機(jī)變量引入的,之后H.霍特林將此方法推廣到隨機(jī)向量的情形,通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。信息的大小通常用離差平方和或方差來衡量。
Namas等[21]從472名創(chuàng)傷幸存者中選擇2名獨(dú)立的中/重度受傷患者進(jìn)行研究,在傷后24 h內(nèi),通過血液評(píng)估多種炎癥介質(zhì),再用PCA導(dǎo)出患者特異的“炎癥條形碼”,隨后進(jìn)行層次聚類,其后續(xù)的馬歇爾多器官功能障礙評(píng)分顯著不同,且獨(dú)立于分析的特異性炎癥介質(zhì)。Feng等[22]使用高通量的糖型分析樣品制備技術(shù)和多毛細(xì)管DNA分析儀來分析在人血漿中發(fā)現(xiàn)的主要N-連接的聚糖(N-聚糖)。結(jié)果觀察到37個(gè)N-糖苷峰,大多數(shù)聚糖具有確認(rèn)的結(jié)構(gòu)。主成分分析(PCA)和正交偏最小二乘判別分析(OPLS-DA)用于構(gòu)建模型以區(qū)分患者組。鑒于血糖蛋白譜已被證明可以反映某些疾病狀態(tài),這種高通量平臺(tái)可能用于同時(shí)篩選多個(gè)聚糖生物標(biāo)志物。
使用主成分分析法將所有的變量重整,刪去重復(fù)的關(guān)系緊密的變量,建立新的獨(dú)立的變量,同時(shí)新的變量也保留原有信息的90%以上,減小了分析問題的復(fù)雜性和難度,利用降維的思想抓住了問題的實(shí)質(zhì),簡化了系統(tǒng)結(jié)構(gòu)。但是主成分分析法的局限性也是比較明顯的,當(dāng)原始變量被重整后所能解釋的含義具有清晰度低等缺點(diǎn),這也是降維過程中無法避免的。同時(shí)在將原始變量重整成新變量時(shí),必須要保證新變量能夠有較高的貢獻(xiàn)率和合理的意義,否則即使新的變量有足夠的信息也缺乏實(shí)際意義。
2.1.3 粗糙集 粗糙集理論,是繼概率論、模糊集、證據(jù)理論之后的又一個(gè)處理不確定性的數(shù)學(xué)工具。粗糙集方法簡單實(shí)用,能處理各種數(shù)據(jù),包括不完整的數(shù)據(jù)以及擁有眾多變量的數(shù)據(jù);能處理數(shù)據(jù)的不精確性和模糊性,包括確定性和非確定性的數(shù)據(jù);能產(chǎn)生精確而又易于檢查和證實(shí)的規(guī)則,特別適用于智能控制中規(guī)則的自動(dòng)生成。
急診室患者的心力衰竭的準(zhǔn)確診斷是非常重要的,但由于對(duì)心力衰竭特征的理解不足,也可能相當(dāng)困難。Son等[23]通過使用粗糙集和決策樹的方法,提供了與充血性心力衰竭(congestive heart failure,CHF)相關(guān)的關(guān)鍵因素和知識(shí)。在72個(gè)實(shí)驗(yàn)室的檢查結(jié)果中,確定了基于粗糙集模型中的2個(gè)亞型和1個(gè)邏輯回歸中的1個(gè)子集模型是區(qū)分CHF患者與呼吸困難患者不可或缺的因素。此方法對(duì)于臨床區(qū)分心力衰竭患者和呼吸困難患者至關(guān)重要。
粗糙集可以提供一種模糊-粗糙控制的控制策略,可以處理各種數(shù)據(jù),包括不完整、多變量、不精確的數(shù)據(jù),并從中產(chǎn)生規(guī)則,具有很強(qiáng)的實(shí)用性。粗糙集理論在描述和處理模糊信息時(shí)具有優(yōu)勢(shì),但是由于對(duì)模糊的概念定義太過于簡單,需要用其他的方法加以補(bǔ)充。
2.2.1 決策樹 決策樹(decision tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,以評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn)、判斷其可行性的決策分析方法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱為決策樹。
何建中等[24]使用親和純化和質(zhì)譜法鑒定PDIA3、CNPY2和STMN1作為潛在的ezrin相互作用蛋白?;貧w分析結(jié)果顯示,PDCC3、CNPY2和STMN1在食管鱗狀細(xì)胞癌(esophageal squamous cell carcinoma,ESCC)中具有預(yù)后價(jià)值。決策樹分析結(jié)果顯示,所得到的ezrin及其相互作用蛋白質(zhì)分類器可用于更好地預(yù)測(cè)ESCC患者的總生存期(overall survival,OS)和無病生存期(disease-free survival,DFS)。
決策樹易于理解和解釋,且對(duì)于數(shù)據(jù)準(zhǔn)備的要求簡單。對(duì)于較大的樣本,決策樹能在較短的時(shí)間內(nèi)得到較好結(jié)果,且決策樹的模型不需要重復(fù)構(gòu)建,可提高效率。所以在面對(duì)大樣本和獨(dú)立不連續(xù)的數(shù)據(jù)時(shí)使用決策樹是一種好方法。
2.2.2 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系來達(dá)到處理信息的目的。目前,人工神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于醫(yī)學(xué)模式分類與判斷中。
楊飛等[25]選擇了353例急性胰腺炎(acute pancreatitis,AP)患者,分別基于與AP相關(guān)的11個(gè)因素,構(gòu)建了基因功能的徑向基網(wǎng)絡(luò)(radical basis function,RBF)人工神經(jīng)網(wǎng)絡(luò)(ANN)模型和Logistic回歸模型。RBF ANN模型比Logistic回歸模型更可能預(yù)測(cè)AP引起的陣發(fā)性室性心動(dòng)過速的發(fā)生率。O'Shea等[26]使用流量輸注電噴霧離子質(zhì)譜法分析了肺癌患者和年齡匹配志愿者吸煙對(duì)照的痰液中的代謝物,并使用人工神經(jīng)網(wǎng)絡(luò)和一次性交叉驗(yàn)證來評(píng)估所識(shí)別的生物標(biāo)志物的預(yù)測(cè)能力。神經(jīng)網(wǎng)絡(luò)模型在肺癌組和對(duì)照組之間的分類表現(xiàn)出受試者工作特征曲線下的面積為0.99,檢測(cè)癌癥的敏感性和特異性分別為96%和94%,確定了能夠區(qū)分小細(xì)胞肺癌患者和非小細(xì)胞肺癌患者的痰樣品的6種推定代謝物。結(jié)果表明痰代謝分析可能具有篩查肺癌和肺癌復(fù)發(fā)的潛力,并可能大大提高臨床干預(yù)的有效性。
人工神經(jīng)網(wǎng)絡(luò)較多應(yīng)用于生物信號(hào)的檢測(cè)分析與疾病診斷系統(tǒng),由于人工神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自學(xué)習(xí)、非線性、自適應(yīng)等特點(diǎn),因此只要能夠給人工神經(jīng)網(wǎng)絡(luò)提供足夠多的疾病實(shí)例樣本,經(jīng)過學(xué)習(xí)訓(xùn)練就可以對(duì)此類的數(shù)據(jù)進(jìn)行判別分析。人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用使疾病診斷模型更加智能化和具有更高的可信度,但是此應(yīng)用還受到諸多的限制。如果提供的疾病實(shí)例樣本數(shù)量較少、學(xué)習(xí)時(shí)間不充分,都將會(huì)影響人工神經(jīng)網(wǎng)絡(luò)對(duì)疾病的識(shí)別能力、降低結(jié)果的可信度。同時(shí)各類臨床診斷模型所需要的拓?fù)浣Y(jié)構(gòu)、神經(jīng)元特征、學(xué)習(xí)規(guī)則的設(shè)定都會(huì)影響到判別結(jié)果。
2.2.3 支持向量機(jī) 支持向量機(jī)(support vector machine,SVM)是1995年由Vapnik首先提出的,是一種建立在統(tǒng)計(jì)學(xué)理論上的機(jī)器學(xué)習(xí)方法,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì)。SVM可以自動(dòng)尋找那些對(duì)分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類之間的間隔,因此有較好的推廣性能和較高的分類準(zhǔn)確度,是求解模式識(shí)別和函數(shù)估計(jì)問題的有效工具。
Liu等[27]研究了48例藥物初次治療青少年精神分裂癥患者(adolescent onset schizophrenia,AOS)門診病人和31例健康對(duì)照者接受靜息狀態(tài)功能磁共振掃描的情況,綜合腦相干局部一致性(coherence-based regional homogeneity,Cohe-ReHo)和支持向量機(jī)的分析方法分析數(shù)據(jù)。與健康對(duì)照組相比,AOS組腦區(qū)分布的Cohe -ReHo值顯著降低;在AOS組中沒有觀察到Cohe-ReHo值增加的區(qū)域。結(jié)果表明,AOS患者在默認(rèn)網(wǎng)絡(luò)和感覺運(yùn)動(dòng)網(wǎng)絡(luò)中的一些區(qū)域表現(xiàn)出減少的Cohe-ReHo值。特定腦區(qū)域(雙側(cè)腦脊液和右側(cè)潛伏期)的異??勺鳛锳OS的潛在生物標(biāo)志物。原發(fā)性進(jìn)行性失語癥(primary progressive aphasia,PPA)包括3種亞型:非流式/血型變異型PPA、語義變異型PPA、Logopenic變異型PPA。其特征在于語言障礙和區(qū)域性腦萎縮的不同模式。Bisenius等[28]為了驗(yàn)證早期個(gè)體診斷結(jié)構(gòu)磁共振成像數(shù)據(jù)的潛力,將全腦支持向量機(jī)分類與基于薈萃分析的疾病特異性感興趣區(qū)域方法進(jìn)行比較,以支持向量機(jī)分類來區(qū)分3個(gè)PPA子類型。結(jié)果全腦支持向量機(jī)分類用于識(shí)別特定的PPA亞型與健康對(duì)照,準(zhǔn)確度高達(dá)91%~97%;用于歧義語義變體與非流體/語言或語言PPA變體之間的識(shí)別的準(zhǔn)確度為78%/95%。只有對(duì)非洗滌性/文字型PPA變體識(shí)別的準(zhǔn)確度較低,僅有55%。這表明支持向量機(jī)分類多中心結(jié)構(gòu)磁共振成像數(shù)據(jù)可以預(yù)測(cè)PPA亞型,具有非常高的準(zhǔn)確度,為其在臨床環(huán)境中的應(yīng)用奠定基礎(chǔ)。
支持向量機(jī)較多被用于二分類問題中,它可以使用核技巧,將其輸入隱式映射到高維特征空間中,可有效地進(jìn)行非線性分類,適合分析小樣本數(shù)據(jù)和解決高維問題。但是對(duì)非線性問題沒有通用解決方案,必須謹(jǐn)慎選擇核函數(shù)來處理。
2.2.4 深度學(xué)習(xí) 深度學(xué)習(xí)的概念由Hinton等人于2006年提出。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)分布式特征表示。深度學(xué)習(xí)可以建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的機(jī)制來解釋數(shù)據(jù)。它的好處是用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和分層特征提取高效算法來替代手工獲取特征。
Shi等[29]收集了99例乳腺導(dǎo)管內(nèi)原位癌(ductal carcinoma in situ,DCIS)活檢患者的數(shù)字化乳房放大圖,其中25例隨訪至浸潤性癌,并使用預(yù)先訓(xùn)練的深卷積神經(jīng)網(wǎng)絡(luò)診斷哪些腫瘤含有隱匿性侵入性疾病。深部特征能夠?qū)CIS與來自純DCIS的隱匿性侵入?yún)^(qū)分開來,其中接受者操作特征AUC=0.70,95%CI=0.68-0.73)。這種性能與手工制作的CV特征(AUC=0.68,95%CI0.66-0.71)相當(dāng)。Choi等[30]開發(fā)了一種基于深度學(xué)習(xí)的FP-CIT SPECT解讀系統(tǒng),來改善帕金森病(parkinson disease,PD)的影像學(xué)診斷。在此解讀系統(tǒng)內(nèi)利用PD網(wǎng)絡(luò)區(qū)分PD與非帕金森氏震顫,PD網(wǎng)絡(luò)鑒別PD的敏感性、特異性和準(zhǔn)確性分別為98.6%、100%和98.8%。Gao等[31]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)通過計(jì)算機(jī)斷層掃描(computed tomography,CT)進(jìn)行阿爾茲海默病(AD)的臨床診斷。將3類CT圖像(n=285)分為3組,即AD、病變(例如腫瘤)和正常衰老組,并建立了集成二維和三維CNN網(wǎng)絡(luò)的先進(jìn)的CNN架構(gòu),CNN架構(gòu)所提供的分類準(zhǔn)確率分別為85.2%、80%和95.3%。與只有2D的CNN網(wǎng)絡(luò)和其他方法相比,這種改進(jìn)的CNN網(wǎng)絡(luò)表現(xiàn)似乎更出色。Schlegl等[32]開發(fā)了一種深度學(xué)習(xí)的全自動(dòng)診斷方法,實(shí)現(xiàn)了3種黃斑病變的IRC檢測(cè)和定量的最佳準(zhǔn)確度,平均準(zhǔn)確率為94%,平均精確度為91%。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域,可適用于大多數(shù)問題,有很高的普適性。再去解決另外問題時(shí),深度學(xué)習(xí)只需要調(diào)整相關(guān)參數(shù)就能改變模型,但是高效率的深度學(xué)習(xí)算法需要大量的訓(xùn)練才能達(dá)到令人滿意的程度。
復(fù)雜疾病常有多個(gè)亞型或多個(gè)階段,這給疾病的診斷和分類帶來一定的困難,使患者不能得到準(zhǔn)確及時(shí)的治療。當(dāng)前組學(xué)技術(shù)高速發(fā)展,各層次的生物標(biāo)志物眾多,單一的生物標(biāo)志物在面對(duì)復(fù)雜疾病時(shí)無法準(zhǔn)確反映疾病的亞型和所處階段,所以利用整合生物標(biāo)志物診斷復(fù)雜疾病是目前研究的熱點(diǎn)。利用整合生物標(biāo)志物建立復(fù)雜疾病非侵入性診斷模型評(píng)價(jià)疾病的類型與發(fā)展階段,可為判斷疾病的發(fā)展和治療提供依據(jù),且非侵入性可以減少交叉感染的危險(xiǎn),對(duì)患者之后的生活影響較小。如果建立診斷模型的因素太多,預(yù)測(cè)的可靠性和準(zhǔn)確性都難以達(dá)到要求,所以需要先篩選關(guān)鍵生物標(biāo)志物。診斷模型只是診斷疾病的一種輔助手段,仍需要臨床上對(duì)疾病診斷、監(jiān)測(cè)多種方法的聯(lián)合應(yīng)用,才能對(duì)疾病作出更加準(zhǔn)確的判斷。