譚善娟,余春華,王 威,吳擁軍#,吳逸明
1)鄭州大學公共衛(wèi)生學院衛(wèi)生毒理學教研室鄭州 450001 2)鄭州大學第五附屬醫(yī)院呼吸內(nèi)科鄭州 450052
#通訊作者,男,1968年1月生,博士,教授,研究方向:肺癌的病因?qū)W、預防、早期診斷和綜合治療,E-mail:wuyongjun@zzu.edu.cn
基于人工神經(jīng)網(wǎng)絡的腫瘤標志蛋白芯片在肺癌輔助診斷中的應用*
譚善娟1),余春華2),王 威1),吳擁軍1)#,吳逸明1)
1)鄭州大學公共衛(wèi)生學院衛(wèi)生毒理學教研室鄭州 450001 2)鄭州大學第五附屬醫(yī)院呼吸內(nèi)科鄭州 450052
#通訊作者,男,1968年1月生,博士,教授,研究方向:肺癌的病因?qū)W、預防、早期診斷和綜合治療,E-mail:wuyongjun@zzu.edu.cn
肺癌;人工神經(jīng)網(wǎng)絡;腫瘤標志;蛋白芯片;診斷
目的:應用人工神經(jīng)網(wǎng)絡技術(shù),聯(lián)合腫瘤標志蛋白芯片對肺癌及肺良性疾病進行診斷,建立腫瘤標志蛋白芯片聯(lián)合人工智能的輔助診斷模型。方法:收集有腫瘤標志蛋白芯片檢測記錄的肺癌和肺良性疾病患者共102例,其中肺癌50例,肺良性疾病52例。利用人工神經(jīng)網(wǎng)絡技術(shù),對9項指標進行聯(lián)合檢測,建立基于人工神經(jīng)網(wǎng)絡的腫瘤標志蛋白芯片智能診斷模型。結(jié)果:人工神經(jīng)網(wǎng)絡模型、判別分析和蛋白芯片檢測系統(tǒng)對肺良性疾病和肺癌識別的準確度分別為88.0%、64.0%和60.0%,人工神經(jīng)網(wǎng)絡模型的ROC曲線下面積0.878,準確度較好,而判別分析模型的ROC曲線下面積(0.635)和腫瘤標志聯(lián)合檢測的ROC曲線下面積(0.596)均<0.7,準確度較差。結(jié)論:人工神經(jīng)網(wǎng)絡聯(lián)合多腫瘤標志蛋白芯片檢測系統(tǒng)建立的模型可以很好地區(qū)分肺癌和肺良性疾病,對肺癌的診斷和鑒別診斷效果優(yōu)于判別分析和蛋白芯片檢測系統(tǒng)。
肺癌的起病比較隱匿,當出現(xiàn)典型癥狀時往往已到中晚期,預后極差。早期診斷和及時治療是提高肺癌患者生存率的關(guān)鍵。多腫瘤標志蛋白芯片檢測系統(tǒng)以高通量、高靈敏度、高特異性、低花費等優(yōu)點被廣泛用于臨床輔助診斷[1]。但腫瘤標志的聯(lián)合檢測在提高診斷陽性率的同時也會帶來大量的研究參數(shù),一般的統(tǒng)計學方法很難對復雜的參數(shù)問題作出正確判斷。人工神經(jīng)網(wǎng)絡(artificial neural net-work,ANN)是一種新型智能化信息處理系統(tǒng),非常適用于醫(yī)學中模式識別與分類。該研究通過收集有腫瘤標志蛋白芯片檢測結(jié)果的肺癌和肺良性疾病患者的資料,聯(lián)合建立ANN模型和判別分析模型,探討這2種檢測技術(shù)對肺癌的輔助診斷意義。
1.1 研究對象 收集鄭州大學第五附屬醫(yī)院2010年5月至12月有腫瘤標志蛋白芯片檢測記錄的肺癌和肺良性疾病住院患者102例,腫瘤標志檢測均經(jīng)患者同意。其中肺癌患者50例,均經(jīng)病理學或細胞學證實為原發(fā)性肺癌,小細胞肺癌(small cell lung cancer,SCLC)10例,腺癌17例,鱗狀細胞癌17例,大細胞癌6例;Ⅰ期7例,Ⅱ期11例,Ⅲ期13例,Ⅳ期19例;年齡(65.9±12.6)歲;男38例,女12例。肺良性疾病患者52例,均未合并肺或其他器官腫瘤,年齡(63.9±16.1)歲;男35例,女17例;其中肺炎30例,慢性阻塞性肺疾病7例,支氣管擴張4例,肺間質(zhì)纖維化4例,結(jié)核3例,其他4例。
1.2 腫瘤標志蛋白芯片檢測方法 空腹抽取2 mL肘靜脈血,離心后分離血清,置凍存管內(nèi)密封,-80℃保存?zhèn)溆?,并? d內(nèi)完成檢測。所有研究對象的血清腫瘤標志檢測操作由專職人員嚴格按照湖州數(shù)康生物科技有限公司的多腫瘤標志蛋白芯片檢測試劑盒說明書進行操作。
1.3 檢測項目的陽性判斷標準 陽性臨界值如下: CEA>5 μg/L,CA19-9>35 kU/L,NSE>13 μg/L,CA242>35 kU/L,CA153>35 kU/L,CA125>35 kU/ L,AFP>20 μg/L,鐵蛋白(SF)>322 μg/L(男)及>219 μg/L(女),HGH>7.5 μg/L;1項或1項以上腫瘤標志的檢測值高于正常值視為陽性。
1.4 訓練和測試集選擇 隨機選擇樣本中75%病例作為訓練集(肺癌38例,肺良性疾病39例),其余25%作為測試集(肺癌12例,肺良性疾病13例)用來測試已建立的模型的預測準確度。
1.5 ANN結(jié)構(gòu)的設計 利用Matlab 7.1軟件中的神經(jīng)網(wǎng)絡工具箱實現(xiàn)ANN算法。該研究采用三層神經(jīng)網(wǎng)絡的BP網(wǎng)絡算法訓練模型,輸入層和輸出層神經(jīng)元個數(shù)分別為9(9項腫瘤標志)和1,隱含層神經(jīng)元個數(shù)根據(jù)經(jīng)驗和嘗試后確定為7。目標誤差選0.04;動量因子mc為0.90;采用自適應學習速率法自動地對學習速率進行調(diào)整,避免不變的學習速率在訓練后期對收斂速度可能的影響,學習速率為0.05,學習速率的遞增乘因子為1.08,遞減乘因子為0.6;最大迭代次數(shù)為5 000。肺良性疾病組的期望輸出值為0.2;肺癌組的期望輸出值為0.8,以0.5為界限,<0.5為肺良性疾病患者,≥0.5為肺癌患者。
1.6 統(tǒng)計學處理 采用SPSS 12.0進行統(tǒng)計學處理。CEA、CA19-9、NSE、CA242、CA153、CA125、AFP、SF和HGH作為定量資料分析時組間比較采用秩和檢驗,作為定性資料分析時CEA、CA125組間比較采用χ2檢驗,CA19-9、NSE、CA242、CA153、AFP和SF組間比較采用Fisher確切概率法;ROC曲線下面積(AUC)<0.5時無診斷意義,0.5~準確度較低,0.7~準確度較好,0.9~準確度最好。檢驗水準α=0.05。
2.1 血清腫瘤標志的測定結(jié)果 9種血清腫瘤標志的陽性率比較見表1,測定結(jié)果見表2。
表19 種血清腫瘤標志的陽性率比較 %
表2 肺癌組和肺良性疾病組血清腫瘤標志的測定結(jié)果
2.2 肺癌-肺良性疾病的ANN模型構(gòu)建 經(jīng)過4 542次迭代后達到預期誤差,結(jié)束訓練。輸出結(jié)果顯示,訓練集中肺癌患者中34例被正確分類,占89.5%,肺良性疾病患者中36例被正確分類,占92.3%,該模型對所有訓練集的正確識別率為90.9%,模型可靠,可以用于肺癌的預測。
2.3 ANN、判別分析模型及多腫瘤標志蛋白芯片對預測集預測效果的比較 結(jié)果見表3。判別分析模型和多腫瘤標志蛋白芯片的AUC分別為0.635和0.596,準確度較低;ANN的AUC為0.878,準確度較好。
表3 ANN、判別分析模型及多腫瘤標志蛋白芯片對肺癌預測效果的比較
腫瘤標志蛋白芯片檢測系統(tǒng)可全面、動態(tài)、定量地分析比較肺癌和肺良性疾病或正常對照者血清中的蛋白質(zhì)種類和數(shù)量的變化[2]。該研究結(jié)果顯示,腫瘤標志蛋白芯片檢測系統(tǒng)檢測的肺癌組血清AFP、CA125、CEA、NSE和SF水平高于肺良性疾病組,肺癌組CA125、CEA和SF陽性率高于肺良性疾病組,可用于肺癌的輔助診斷。其他腫瘤標志可用于和這些腫瘤標志聯(lián)合檢測,以提高診斷的準確率。
ANN作為一種模式識別工具,可識別與訓練集不全相同的輸入數(shù)據(jù),并把它們判為與其最相似的訓練輸入類別。一般含有輸入層、隱含層和輸出層的三層BP網(wǎng)絡就可以實現(xiàn)任意的n到m維映射。BP網(wǎng)絡的輸入和輸出神經(jīng)元數(shù)目與數(shù)據(jù)和希望把輸入數(shù)據(jù)分類的種數(shù)有關(guān)。隱含層節(jié)點數(shù)的確定還沒有一種有效的方法,大多時候都是憑經(jīng)驗而定。BP網(wǎng)絡模型的訓練效果與輸入數(shù)據(jù)密切相關(guān)[3]。判別分析是多元統(tǒng)計分析中判別所研究的現(xiàn)象或事物歸屬類型的一種重要方法,其與ANN在解決問題的思路上是一致的。但ANN對變量沒有任何的假設要求,可以通過模擬生物神經(jīng)網(wǎng)絡處理一些不確定的、非線性的、復雜的問題,對非線性問題的處理能力優(yōu)于傳統(tǒng)的統(tǒng)計學方法,也可以對多參數(shù)問題做出正確判斷[4-6]。該研究結(jié)果表明,在ANN的輔助下,腫瘤標志蛋白芯片檢測系統(tǒng)對肺癌輔助診斷的準確度明顯增加,且優(yōu)于判別分析模型。而該課題組前期選擇腫瘤標志聯(lián)合BP網(wǎng)絡建立的肺癌輔助診斷模型的評價指標均達90%以上,這主要是因為ANN模型的診斷能力與所選取的診斷指標有關(guān),該研究選取的腫瘤標志是臨床廣泛應用的腫瘤蛋白芯片所能檢測的指標,而前期所選的指標大都是針對肺癌特異性較好的腫瘤標志進行聯(lián)合檢測[6-8]。
綜上所述,ANN和多腫瘤標志蛋白芯片檢測系統(tǒng)相結(jié)合可以優(yōu)勢互補[9-10],為肺癌的輔助診斷及鑒別診斷提供簡便快捷而又可靠的依據(jù),從而減少誤診、漏診。
[1]Liang Z,Wang HF,Wu AZ,et al.Clinical value of multitumor markers protein biochip in the diagnosis of pulmonary carcinoma[J].Nan Fang Yi Ke Da Xue Xue Bao,2010,30(11):2516
[2]周建光,楊梅.多腫瘤標志物蛋白芯片檢測在腫瘤診斷中的臨床應用及研究進展[J].中國醫(yī)學檢驗雜志,2010,11(3):165
[3]張矗,吳逸明,吳擁軍,等.人工神經(jīng)網(wǎng)絡技術(shù)在纖維支氣管鏡診斷肺癌中的應用[J].鄭州大學學報:醫(yī)學版,2010,45(1):113
[4]Zhang Z,Yu YH,Xu FJ,et al.Combining multiple serum tumor markers improves detection of stageⅠepithelial ovarian cancer[J].Gynecol Oncol,2007,107(3):526
[5]Anderson B,Hardin JM,Alexander DD,et al.Comparison of the predictive qualities of three prognostic models of colorectal cancer[J].Front Biosci(Elite Ed),2010,2:849
[6]吳擁軍,吳逸明,張振中,等.基于人工神經(jīng)網(wǎng)絡的“最優(yōu)標志物群”在肺癌診斷中的應用研究[J].實用腫瘤雜志,2002,17(5):317
[7]周曉蕾,馮斐斐,張昭,等.人工神經(jīng)網(wǎng)絡模型在肺癌與胃癌或腸癌中的鑒別分析[J].實用醫(yī)學雜志,2011,27 (18):3312
[8]馮斐斐,吳擁軍,聶廣金,等.基于“優(yōu)化腫瘤標志群”建立的人工神經(jīng)網(wǎng)絡模型對肺癌輔助診斷的作用[J].腫瘤防治研究,2011,38(6):709
[9]劉春艷,賈鵬,劉文君.應用表面增強激光解吸電離飛行時間質(zhì)譜篩選急性特發(fā)性血小板減少性紫癜患兒血清生物標志物[J].實用兒科臨床雜志,2011,26(15): 1172
[10]張謙,單巖,王家祥,等.基于人工神經(jīng)網(wǎng)絡的血清蛋白質(zhì)指紋圖譜模型在先天性巨結(jié)腸患兒診斷中的應用[J].實用兒科臨床雜志,2008,23(17):1382
Application of tumor marker protein biochip combined with artificial neural network in diagnosis of lung cancer
TAN Shanjuan1),YU Chunhua2),WANG Wei1),WU Yongjun1),WU Yiming1)1)Department of Health Toxicology,College of Public Health,Zhengzhou University,Zhengzhou 4500012)Department of Respiratory Medicine,the Fifth Affiliated Hospital,Zhengzhou University,Zhengzhou 450052
lung cancer;artificial neural network;tumor marker;protein biochip;diagnosis
Aim:To establish two classification models of artificial neural networks(ANN)and Fisher discrimination analysis,and to compare the differences among two models and the multiple tumor marker protein biochip detective system in the diagnosis of lung cancer.Methods:The clinical data and multiple tumor marker protein biochip detective system records of 102 lung disease patients(50 cases of lung cancer and 52 cases of benign pulmonary diseases)were retrospectively reviewed,and then the models of ANN and Fisher discrimination analysis were developed.Results:The accuracy of ANN,F(xiàn)isher discrimination analysis and multiple tumor marker protein biochip detective system was 88.0%,64.0% and 60.0%.The area under ROC curve of ANN(0.878)was higher than that of Fisher discrimination analysis(0.635)and multiple tumor marker protein biochip detective system(0.596).Conclusion:The effects of ANN model established by multiple tumor marker protein biochip detective system are better than those of Fisher discrimination analysis and multiple tumor marker protein biochip detective system in discrimination of lung cancer.
R734
10.3969/j.issn.1671-6825.2012.06.005*國家自然科學基金資助項目 30972457;河南省醫(yī)學科技攻關(guān)計劃基金資助項目 2011020082
(2011-12-09收稿 責任編輯姜春霞)