邱瑞瑩,楊 芬,擺俊博,王路路,陶 寧,3
(新疆醫(yī)科大學(xué)1公共衛(wèi)生學(xué)院;2第一附屬醫(yī)院泌尿外科;3臨床博士后流動(dòng)站,烏魯木齊 830011)
前列腺癌是一種在世界范圍內(nèi)流行的,中老年男性易患的惡性腫瘤,近年來我國(guó)前列腺癌的發(fā)病率與死亡率均呈現(xiàn)快速上升的趨勢(shì)[1],早期診斷對(duì)提高前列腺癌生存率、改善預(yù)后具有重要意義,前列腺穿刺是前列腺癌診斷的金標(biāo)準(zhǔn)[2],2009-2017 年新疆新診斷前列腺癌患者不斷增多[3],若能預(yù)測(cè)前列腺穿刺人數(shù)以及穿刺陽性率,則能夠根據(jù)預(yù)測(cè)結(jié)果提前部署安排相關(guān)醫(yī)療資源。自回歸積分滑動(dòng)平均模型(autoregressive integrated moving average,ARIMA)是時(shí)間序列分析的基本模型之一,對(duì)短期預(yù)測(cè)有較好的效果[4]。目前ARIMA 模型常用于預(yù)測(cè)疾病發(fā)病率與流行趨勢(shì)、就診人數(shù)及醫(yī)療資源消耗量等等[5-7],曾被證實(shí)可較好地預(yù)測(cè)惡性腫瘤的發(fā)病率以及住院率[8-9],但目前較少研究將ARIMA 模型應(yīng)用于前列腺穿刺情況的預(yù)測(cè)。本研究依據(jù)2007-2017 年新疆醫(yī)科大學(xué)某附屬醫(yī)院前列腺穿刺人數(shù)以及穿刺陽性率,建立ARIMA 預(yù)測(cè)模型,并通過對(duì)2018 年穿刺人數(shù)以及陽性率進(jìn)行預(yù)測(cè),將模型預(yù)測(cè)值與真實(shí)值進(jìn)行比較,評(píng)估模型的預(yù)測(cè)效果。
1.1 資料來源收集新疆醫(yī)科大學(xué)某附屬醫(yī)院泌尿外科2007-2018年所有行前列腺穿刺術(shù)患者的信息,按季度對(duì)數(shù)據(jù)進(jìn)行分析。1-3 月:第一季度Q1;4-6月:第二季度Q2;7-9月:第三季度Q3;10-12月:第四季度Q4。
1.2 ARIMA 模型的建立[10-11](1)分析時(shí)間序列情況,并進(jìn)行平穩(wěn)化處理:根據(jù)原始序列圖判斷序列是否平穩(wěn),不平穩(wěn),則對(duì)序列的趨勢(shì)或季節(jié)性趨勢(shì)進(jìn)行差分或季節(jié)差分處理使其平穩(wěn)。(2)模型識(shí)別:繪制經(jīng)平穩(wěn)化處理后序列的ACF 和PACF 圖,根據(jù)拖尾或截尾情況為目標(biāo)模型進(jìn)行定階。(3)模型參數(shù)估計(jì)與檢驗(yàn):對(duì)可能的模型進(jìn)行純隨機(jī)性測(cè)試,若測(cè)試結(jié)果P<0.05,則此模型信息提取不完整,排除該模型,對(duì)P<0.05 的模型繼續(xù)做參數(shù)顯著性檢驗(yàn),保證各參數(shù)均顯著非零。對(duì)備選模型進(jìn)行參數(shù)估計(jì)與假設(shè)檢驗(yàn),并采用標(biāo)準(zhǔn)化的貝葉斯信息準(zhǔn)則(Bayesian Informa?tion Criterion, BIC)以及R2確定最佳模型,BIC越小,R2越大時(shí)模型擬合度越好。然后,根據(jù)Ljung-Box 統(tǒng)計(jì)量有無統(tǒng)計(jì)學(xué)意義對(duì)模型的殘差序列進(jìn)行白噪聲診斷判定。(4)模型預(yù)測(cè):運(yùn)用選定模型進(jìn)行預(yù)測(cè),并計(jì)算95%CI以及相對(duì)誤差。
1.3 統(tǒng)計(jì)學(xué)處理應(yīng)用Epidata 3.1建立數(shù)據(jù)庫(kù),用百分率表示穿刺陽性率,利用SPSS25.0 建立穿刺人數(shù)以及穿刺陽性率的ARIMA 模型,采用標(biāo)準(zhǔn)化BIC 以及R2確定最佳模型,使用篩選出的最優(yōu)模型對(duì)穿刺人數(shù)及陽性率進(jìn)行預(yù)測(cè),根據(jù)實(shí)際值是否落在預(yù)測(cè)值的95%CI內(nèi)和平均相對(duì)誤差對(duì)模型的擬合能力進(jìn)行評(píng)價(jià)。
2.1 前列腺穿刺人數(shù)ARIMA模型預(yù)測(cè)
2.1.1 ARIMA 模型的選擇 本次研究收集2007-2017 年行前列腺穿刺術(shù)患者的信息,按季度進(jìn)行分析,原始序列圖顯示該序列具有明顯的趨勢(shì)性和季節(jié)性(圖1 左),故選用ARIMA 乘積季節(jié)模型,即ARI?MA(p,d,q)(P,D,Q)S。序列季節(jié)周期為4 個(gè)季度,即S=4,因進(jìn)行了1階差分和1階季節(jié)差分,得出d=1,D=1,再繪制2007-2017年差分處理后的序列圖,可見經(jīng)差分處理后為平穩(wěn)序列(圖1 右)。根據(jù)ACF、PACF 圖(圖2),可分析出p 可能取0、1 或2,q 可能為1 或0,P和Q 可能為0 或1,共有24 種可能的模型,對(duì)其進(jìn)行純隨機(jī)性測(cè)試,排除測(cè)試結(jié)果P<0.05 的模型,對(duì)剩余的可能模型做參數(shù)顯著性檢驗(yàn),剔除所有參數(shù)可能同時(shí)為0 的模型,最后余11 種備選模型,根據(jù)BIC 準(zhǔn)則,以及R2值選取最適合的模型(表1)。本研究中篩選出的最優(yōu)模型為ARIMA(0,1,1)(1,1,0)4,BIC=5.961,R2=0.604,該模型Ljung-Box 的Q統(tǒng)計(jì)量為14.568,無統(tǒng)計(jì)學(xué)意義(P=0.556>0.05) ,說明殘差是隨機(jī)分布的,模型充分提取了原序列中的數(shù)據(jù)信息,適用于前列腺穿刺人數(shù)的預(yù)測(cè)。
表1 穿刺人數(shù)ARIMA模型定階
圖1 穿刺人數(shù)的原始序列圖(左),差分處理后序列圖(右)
圖2 一階差分和一階季節(jié)差分后的ACF(左)和PACF(右)圖
2.1.2 模型擬合及預(yù)測(cè) 應(yīng)用ARIMA(0,1,1)(1,1,0)4模型對(duì)2018 年前列腺穿刺人數(shù)進(jìn)行預(yù)測(cè),結(jié)果見表2、圖3,所有實(shí)際值均落在預(yù)測(cè)值的95%CI內(nèi),平均相對(duì)誤差為14.46%,預(yù)測(cè)模型擬合效果較好。
圖3 前列腺穿刺人數(shù)ARIMA(0,1,1) (1,1,0)4模型擬合效果圖
表2 2018年各季度穿刺人數(shù)預(yù)測(cè)/例
2.2 前列腺穿刺陽性率ARIMA模型預(yù)測(cè)
2.2.1 ARIMA 模型的選擇 原始序列圖顯示該序列具有明顯的趨勢(shì)性,但是并不具有季節(jié)性(圖4 左),故選用ARIMA 非季節(jié)性乘積模型,即ARIMA(p,1,q)。根據(jù)2007-2017年差分處理后的序列圖,可見在進(jìn)行了差分處理后,為平穩(wěn)序列(圖4 右)。根據(jù)繪制的ACF、PACF 圖(圖5),分析p 值可能為1 或0,q 值可能為1或0,共有4種可能的模型組合,排除測(cè)試結(jié)果P<0.05 的模型,對(duì)剩余的3 種模型做參數(shù)顯著性檢驗(yàn),剔除所有參數(shù)可能同時(shí)為0 的模型后剩余3 個(gè)備選模型,再根據(jù)BIC 準(zhǔn)則以及R2選取最適合的模型,本研究中篩選出的最優(yōu)模型為ARIMA(1,1,1),BIC=4.988(表3),R2=0.558,該模型Ljung-Box 的Q統(tǒng)計(jì)量為6.891,無統(tǒng)計(jì)學(xué)意義(P=0.975>0.05) ,說明殘差是隨機(jī)分布的,模型充分提取了原序列中的數(shù)據(jù)信息,適用于前列腺穿刺陽性率的預(yù)測(cè)。
表3 穿刺陽性率ARIMA模型定階
圖4 穿刺陽性率原始序列圖(左),差分處理后序列圖(右)
圖5 一階差分和一階季節(jié)差分后的ACF(左)和PACF(右)圖
2.2.2 模型擬合及預(yù)測(cè) 應(yīng)用ARIMA(1,1,1)模型對(duì)2018 年前列腺穿刺陽性率進(jìn)行預(yù)測(cè),結(jié)果見表4、圖6,所有實(shí)際值均落在預(yù)測(cè)值的95%CI內(nèi),其平均相對(duì)誤差為31%,根據(jù)圖6 可看出預(yù)測(cè)值和真實(shí)值的動(dòng)態(tài)趨勢(shì)基本一致,說明預(yù)測(cè)模型擬合程度較好。
表4 2018年各季度穿刺陽性率預(yù)測(cè)/%
圖6 前列腺穿刺陽性率ARIMA(1,1,1)模型擬合效果圖
時(shí)間序列分析是探索在某一時(shí)間序列中包含的所有信息,尋找其在長(zhǎng)期變動(dòng)過程中所存在的統(tǒng)計(jì)規(guī)律,并通過建立統(tǒng)計(jì)模型實(shí)現(xiàn)預(yù)測(cè)并調(diào)控將來事件的目的[12],ARIMA 是由美國(guó)學(xué)者Box和英國(guó)統(tǒng)計(jì)學(xué)者Jenkin提出的重要時(shí)間序列分析預(yù)測(cè)模型,稱為自回歸滑動(dòng)平均混合模型,它主要對(duì)兩個(gè)問題進(jìn)行解答:(1)分析時(shí)間序列的隨機(jī)性、平穩(wěn)性和季節(jié)性;(2)在時(shí)間序列分析的基礎(chǔ)上,選擇適當(dāng)?shù)哪P瓦M(jìn)行預(yù)測(cè)。但是ARIMA 模型是通過基于歷史數(shù)據(jù)上的數(shù)學(xué)模型來進(jìn)行預(yù)測(cè),無法考慮其他外部因素的影響,比如國(guó)家政策的改變與調(diào)整、突發(fā)事件等[13]。前列腺癌是中老年男性高發(fā)的惡性腫瘤,在惡性腫瘤中具有很高的死亡率,流行病學(xué)數(shù)據(jù)顯示前列腺癌的發(fā)病率將會(huì)持續(xù)呈現(xiàn)上升的趨勢(shì)[14]。
本研究中觀察到2007-2017 年前列腺穿刺人數(shù)與陽性率均呈現(xiàn)上升趨勢(shì),與其他地區(qū)觀察到的數(shù)據(jù)一致[15],1、2 季度的穿刺人數(shù)要多于3、4 季度,而穿刺陽性率并不具有明顯的季節(jié)性,在建立模型的過程中我們篩選出ARIMA(0,1,1)(1,1,0)4與ARIMA(1,1,1)模型分別為前列腺穿刺人數(shù)與穿刺陽性率的最佳擬合模型,在對(duì)2018年穿刺人數(shù)與陽性率進(jìn)行預(yù)測(cè)時(shí),真實(shí)值均落在預(yù)測(cè)值的95%CI內(nèi),且預(yù)測(cè)值和真實(shí)值的動(dòng)態(tài)趨勢(shì)基本一致,說明預(yù)測(cè)效果較好,ARIMA模型可以用于對(duì)前列腺穿刺人數(shù)以及陽性率的預(yù)測(cè)。前列腺穿刺術(shù)需??漆t(yī)生進(jìn)行,若穿刺結(jié)果為陽性,前列腺癌的后續(xù)治療需要手術(shù)操作或針對(duì)性的藥物治療,建立前列腺穿刺人數(shù)及穿刺陽性率的預(yù)測(cè)模型不僅有助于醫(yī)院合理的安排手術(shù)室、操作人員以及醫(yī)療資源,同時(shí)近年來由于前列腺癌患者的增加以及死亡率的上升,很多專家提出針對(duì)前列腺癌應(yīng)提倡“三早”預(yù)防[16],預(yù)測(cè)模型可幫助相關(guān)部門從宏觀角度觀察對(duì)前列腺癌防治措施的效果,而本研究認(rèn)為隨著未來前列腺癌患者可預(yù)測(cè)的增多,還需采取措施提高前列腺穿刺人數(shù),盡可能做到疾病的早診斷,早治療。
綜上所述,ARIMA 模型可以用于對(duì)前列腺穿刺人數(shù)以及穿刺陽性率的預(yù)測(cè),目前國(guó)內(nèi)針對(duì)前列腺癌數(shù)據(jù)的ARIMA 模型較少建立,本研究數(shù)據(jù)來源可靠,數(shù)據(jù)的穩(wěn)定性、連續(xù)性較好,符合建立ARIMA 模型的條件,但受ARIMA 模型本身特點(diǎn)與資料可獲得性的限制,本研究存在一定的局限性,該模型易受外部突發(fā)因素影響,造成預(yù)測(cè)結(jié)果出現(xiàn)誤差,因此在實(shí)際應(yīng)用中應(yīng)盡可能收集更長(zhǎng)期的數(shù)據(jù),需考慮的更加全面,不斷修正和擬合更接近實(shí)際的模型,以得到滿意的預(yù)測(cè)結(jié)果。
新疆醫(yī)科大學(xué)學(xué)報(bào)2021年7期