(哈爾濱理工大學(xué) 理學(xué)院,黑龍江 哈爾濱 150080)
很多學(xué)者及醫(yī)學(xué)工作者曾對(duì)各地區(qū)消化道腫瘤疾病進(jìn)行過相關(guān)的研究,結(jié)合多篇文獻(xiàn)研究發(fā)現(xiàn),對(duì)消化道腫瘤疾病的發(fā)生影響較大的因素有地理環(huán)境、體質(zhì)量指數(shù)、年均收入、文化程度、生活習(xí)慣(如吸煙頻率、飲酒頻率、飲茶頻率)、疾病史(如消化系統(tǒng)疾病史、腫瘤家族史、十二指腸潰瘍疾病史、食管炎病史等)、抑郁情況、戶外活動(dòng)時(shí)間、飲食習(xí)慣(如新鮮水果、新鮮蔬菜、肉蛋奶類、豆類、腌制食物、燙熱食物等食用頻率)等.
為使數(shù)據(jù)更具普遍性,選取文獻(xiàn)[1-7]中有關(guān)患消化道腫瘤與未患消化道腫瘤的數(shù)據(jù),將數(shù)據(jù)結(jié)果統(tǒng)一換算為百分?jǐn)?shù),并進(jìn)行簡單算術(shù)平均,整理得到各因素與患消化道腫瘤與否的統(tǒng)計(jì)數(shù)據(jù).在已有的研究成果基礎(chǔ)上,針對(duì)所得數(shù)據(jù)進(jìn)行更加深入的分析,研究其相關(guān)程度,篩選出患消化道腫瘤的主要危險(xiǎn)因素.
與地理環(huán)境有關(guān)的數(shù)據(jù)整理見表1.采用獨(dú)立性檢驗(yàn),即卡方檢驗(yàn)對(duì)表1中數(shù)據(jù)進(jìn)行分析.其基本思想為:假設(shè)觀察頻數(shù)與期望頻數(shù)一致,并以此為前提計(jì)算出卡方值及其更極端情況的概率P.χ2值表示觀察值與理論期望值之間的偏差程度,當(dāng)觀察頻數(shù)與期望頻數(shù)完全一致時(shí),χ2值為0;觀察頻數(shù)與期望頻數(shù)越近似,差異越小,χ2值也就越??;反之,觀察頻數(shù)與期望頻數(shù)差別越大,χ2值也就越大.此外,P值越小,說明觀察值與理論值偏離程度越大,應(yīng)當(dāng)拒絕原假設(shè),即說明二者之間有顯著差異;反之,應(yīng)接受原假設(shè),可認(rèn)為樣本所代表的實(shí)際情況和理論假設(shè)無差別.
表1 與地理環(huán)境有關(guān)的數(shù)據(jù)統(tǒng)計(jì)(%)
由于數(shù)據(jù)為四格表,故可采用Yates 校正的卡方檢驗(yàn),即,其中:a為城區(qū)患消化道腫瘤的百分比算術(shù)平均值;b為城區(qū)未患消化道腫瘤的百分比算術(shù)平均值;c為農(nóng)村患消化道腫瘤的百分比算術(shù)平均值;d為農(nóng)村未患消化道腫瘤的百分比算術(shù)平均值;N=a+b+c+d.
設(shè)原假設(shè)為H0:是否患消化道腫瘤與地理環(huán)境無關(guān);備擇假設(shè)為H1:是否患消化道腫瘤與地理環(huán)境有關(guān).代入表1 中數(shù)據(jù)可得χ2≈0.3348.取顯著性水平α為0.05,自由度為df=(2-1)×(2 -1)=1.由分位數(shù)表可查得,故應(yīng)接受原假設(shè)H0,可初步認(rèn)為患消化道腫瘤與地理環(huán)境差異基本無關(guān).但僅通過公式計(jì)算卡方值去判斷可能存在誤差,因此可進(jìn)一步通過連續(xù)校正得到的更極端情況的概率P值及Fisher 精確檢驗(yàn)去驗(yàn)證結(jié)論,具體結(jié)果見表2.由表2可以看出,連續(xù)校正的卡方值為0.335,與Yates 校正的卡方檢驗(yàn)公式的計(jì)算結(jié)果一致.連續(xù)校正卡方檢驗(yàn)的假設(shè)卡方值為0 成立的概率P值為0.563,明顯大于α,因此可知患消化道腫瘤與地理環(huán)境差異無關(guān).此外,F(xiàn)isher 精確檢驗(yàn)的P值為0.563,仍明顯大于α,故應(yīng)接受原假設(shè),認(rèn)為患消化道腫瘤與地理環(huán)境差異無關(guān).
表2 地理環(huán)境差異卡方檢驗(yàn)
對(duì)于體質(zhì)量指數(shù)IBM(kg/m2),具體數(shù)據(jù)整理見表3.表3為非四格表,針對(duì)這類表格,采用列聯(lián)表卡方檢驗(yàn)進(jìn)行分析.其基本思想及其P值檢驗(yàn)標(biāo)準(zhǔn)與四格表數(shù)據(jù)的卡方檢驗(yàn)方法基本一致,但前提需要滿足3項(xiàng)假設(shè):
假設(shè)1存在2個(gè)無序多分類變量;
假設(shè)2具有相互獨(dú)立的觀測(cè)值;
假設(shè)3樣本量足夠大且最小的樣本量要求為分析中的任一期望頻數(shù)大于5.
表3數(shù)據(jù)明顯符合假設(shè)1~2,體質(zhì)量指數(shù)與患消化道腫瘤與否均為無序分類變量且不會(huì)相互干擾.但假設(shè)3 有待驗(yàn)證,在此可利用統(tǒng)計(jì)軟件SPSS 進(jìn)行檢驗(yàn).對(duì)于卡方值的計(jì)算與四格表數(shù)據(jù)也略有區(qū)別,其計(jì)算公式為,其中:Arc為列聯(lián)表中第r行第c列對(duì)應(yīng)數(shù)據(jù);nr為第r行觀測(cè)頻數(shù)總和;nc為第c列觀測(cè)頻數(shù)總和;N為觀測(cè)頻數(shù)總和.
表3 與體質(zhì)量有關(guān)的數(shù)據(jù)統(tǒng)計(jì)(%)
以體質(zhì)量指數(shù)數(shù)據(jù)為基礎(chǔ),整理為SPSS 應(yīng)用形式并對(duì)其進(jìn)行加權(quán)和卡方檢驗(yàn)操作,結(jié)果見表4.
表4 體質(zhì)量指數(shù)卡方檢驗(yàn)
由表4 可以看出,0 單元格的期望計(jì)數(shù)小于5,最小期望計(jì)數(shù)為22.5,明顯大于5,滿足假設(shè)3,因此可以進(jìn)行卡方檢驗(yàn).設(shè)原假設(shè)為H0:是否患消化道腫瘤與體質(zhì)量是否超標(biāo)無關(guān).表4 結(jié)果顯示,χ2=24.804,自由度df=2,P=0.00.因此,仍取顯著性水平α為0.05,查表可知且P<α,因此應(yīng)拒絕原假設(shè)H0,可認(rèn)為患消化道腫瘤與體制量是否超標(biāo)有關(guān).
增加Phi 系數(shù)φ或Cramer′s V 系數(shù)這一衡量標(biāo)準(zhǔn)來說明體質(zhì)量是否超標(biāo)與是否患消化道腫瘤的關(guān)聯(lián)程度.其計(jì)算公式分別為,其中:N為樣本大小;K為行數(shù)或列數(shù)中較小的數(shù)值.也可借助SPSS 的相關(guān)功能直接計(jì)算出結(jié)果(見表5).
表5 體質(zhì)量指數(shù)的對(duì)稱度量
Phi(φ)和Cramer′s V 系數(shù)均是提供分類變量相關(guān)強(qiáng)度的指數(shù).但是Phi(φ)僅適用于2×2 的數(shù)據(jù)格式,而Cramer′s V系數(shù)的適用范圍較廣.針對(duì)體質(zhì)量指數(shù)這一數(shù)據(jù)情況,應(yīng)選取Cramer′s V系數(shù),且Cramer′s V 系數(shù)的取值范圍在0 到1 之間,數(shù)值越大相關(guān)性越強(qiáng).
由表5 可以看出,體質(zhì)量指數(shù)的Cramer′s V 值為0.352,P=0.00.因此可認(rèn)為是否患消化道腫瘤與體質(zhì)量是否超標(biāo)有較強(qiáng)相關(guān)性.
由于篇幅限制,關(guān)于其它因素檢驗(yàn)過程不再贅述.具體檢驗(yàn)結(jié)果整理見表6.
表6 各因素與消化道腫瘤的相關(guān)性分析
由表6 可以看出,地理環(huán)境、文化程度與是否患消化道腫瘤無關(guān),其余體質(zhì)量指數(shù)、年均收入、生活習(xí)慣、家族疾病史、心理情況、戶外活動(dòng)時(shí)間、飲食習(xí)慣均都是導(dǎo)致患病的危險(xiǎn)因素,但是其中年均收入、腫瘤家族史、抑郁情況、戶外活動(dòng)時(shí)間、肉蛋奶類食物食用頻率與是否患消化道腫瘤之間的關(guān)聯(lián)程度低于0.3,其相關(guān)程度較低.
通過觀察腫瘤患者與未患癌人群的外在因素差異,可以得到結(jié)論:首先,消化系統(tǒng)主要由咽喉、食管、胃、腸這幾部分組成,這也是最容易發(fā)生癌變的部位,人們應(yīng)當(dāng)更加關(guān)注對(duì)這些身體器官的保護(hù).其次,現(xiàn)代社會(huì)快速發(fā)展,生活節(jié)奏逐漸加快,人們生活水平提高的同時(shí)生活壓力也更大,越來越多的人對(duì)金錢、事業(yè)付出過多,不再注重自己身體的保護(hù),逐漸養(yǎng)成更多不良生活習(xí)慣,出現(xiàn)飲食不規(guī)律現(xiàn)象,從而必將導(dǎo)致戶外活動(dòng)時(shí)間的減少,體質(zhì)量超標(biāo)或營養(yǎng)不良等情況,進(jìn)而導(dǎo)致一定年齡后身體發(fā)生癌變.
以上述數(shù)據(jù)比例和近幾年消化系統(tǒng)消化道腫瘤累計(jì)發(fā)病率19.24%為基礎(chǔ),將數(shù)據(jù)整理為定性變量形式進(jìn)行進(jìn)一步研究.因飲食習(xí)慣劃分較細(xì),此處將規(guī)定經(jīng)常食用新鮮水果、蔬菜、豆類、少食燙熱食物和腌制食品的人群分為飲食習(xí)慣較好組,反之為較差組.由于因變量是否患消化道腫瘤為0-1 型定性變量,選擇進(jìn)行二分類Logistics 回歸.將數(shù)據(jù)導(dǎo)入SPSS 進(jìn)行Logistics 回歸,選擇最優(yōu)模型,輸出結(jié)果見表7.
表7 最優(yōu)模型輸出結(jié)果
由表7可以看出,最終選取模型的Wald 值均較大,而P值較小,顯著性較高.體質(zhì)量指數(shù)的Exp(B)為0.008,小于1,說明體質(zhì)量指數(shù)發(fā)生變化時(shí),患消化道腫瘤與否發(fā)生變化的可能性比原來減少了0.8%,但是否飲酒這一指標(biāo)的Exp(B)則為4 545.496,說明大量酗酒后,消化道腫瘤發(fā)生的幾率是原來的4 545.496倍,危害極大.
具體的回歸方程為
其中:x1為患者的體質(zhì)量指數(shù)IBM(kg/m2);x2為患者是否飲酒;x3為患者的十二指腸潰瘍疾病史,截距項(xiàng)(常量0.47)為偏瘦體質(zhì)量下酗酒且有十二指腸潰瘍疾病史的人患消化道腫瘤的對(duì)數(shù)發(fā)生比,exp(0.47)=1.59,因此偏瘦體質(zhì)量下酗酒且有十二指腸潰瘍疾病史的人患消化道腫瘤的概率是未患病概率的1.59倍.且經(jīng)SPSS 檢驗(yàn),該模型預(yù)測(cè)概率達(dá)到了93%,預(yù)測(cè)概率較高,具有統(tǒng)計(jì)意義.因此,當(dāng)獲得某個(gè)人的相關(guān)信息時(shí),可帶入該回歸模型,對(duì)其患消化道腫瘤的概率進(jìn)行預(yù)測(cè),當(dāng)診斷結(jié)果偏高時(shí)應(yīng)及時(shí)采取措施,進(jìn)行更全面的醫(yī)學(xué)檢測(cè),及時(shí)進(jìn)行治療[8-10].
本文將已有文獻(xiàn)中的數(shù)據(jù)收集并通過平均法進(jìn)行整理,對(duì)19 種消化道腫瘤的影響因素分別進(jìn)行獨(dú)立性檢驗(yàn),去掉無關(guān)與相似度較低的因素,并將主要的危險(xiǎn)因素進(jìn)行二分類Logistics 回歸,得到消化道腫瘤癥的回歸預(yù)測(cè)模型,將疑似腫瘤患者的數(shù)據(jù)代入所建回歸模型中可得到患病的預(yù)測(cè)概率.