高立,文銀剛,張勤,黃國華,葉方偉★
(1.超聲醫(yī)學(xué)工程國家重點(diǎn)實驗室,重慶醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院,重慶;2.重慶市生物醫(yī)學(xué)工程學(xué)重點(diǎn)實驗室,重慶;3.超聲醫(yī)療國家工程研究中心,重慶;4.遂寧市中心醫(yī)院,四川 遂寧)
子宮肌瘤是育齡期女性最常見疾病,大約在婦科良性腫瘤中占52%[1]。其臨床表現(xiàn)與肌瘤類型、肌瘤數(shù)目、肌瘤大小等相關(guān),常見癥狀為經(jīng)量增多、經(jīng)期延長、尿頻尿急、貧血等,但大多數(shù)患者沒有癥狀,通常經(jīng)由體檢發(fā)現(xiàn)。目前治療子宮肌瘤的方法主要包括藥物治療、手術(shù)治療、其他治療,如子宮動脈栓塞術(shù),超聲消融治療[2,3]。近年來超聲消融治療作為一種非侵入性、保守性治療子宮肌瘤的方法已取得較為滿意的臨床療效[4]?,F(xiàn)階段對其術(shù)后治療效果的評價一般是通過觀察造影后病灶區(qū)體積的變化,但此方法有一定的局限性。而數(shù)據(jù)挖掘以融合多個學(xué)科、匯總多種方法、處理海量數(shù)據(jù)、挖掘重要信息等特點(diǎn)越來越廣泛地引起了計算機(jī)、統(tǒng)計學(xué)等領(lǐng)域?qū)<液蛯W(xué)者的注意。回歸分析作為數(shù)據(jù)挖掘技術(shù)領(lǐng)域的一種重要算法,從其最初的算法到后來的算法改進(jìn)以及它在醫(yī)學(xué)中的應(yīng)用,都被進(jìn)行了廣泛深入地研究。將回歸分析應(yīng)用于HIFU 消融子宮肌瘤病人術(shù)后消融率的預(yù)測有著速度快,效率高,所建模型穩(wěn)健性好等特點(diǎn)。通過數(shù)據(jù)挖掘回歸分析方法可為臨床判斷、選擇合適的治療方案提供決策依據(jù)[5]。
資料來源于遂寧市中心醫(yī)院2014 年到2016 年的單發(fā)子宮肌瘤患者的臨床資料。涉及患者的基本信息、MRI 檢查、治療信息三個方面,共計11 項指標(biāo)。
首先,對原始數(shù)據(jù)進(jìn)行初步篩選,剔除部分有缺失和不完整的臨床記錄,通過篩選剩余907 例。資料中的類型變量采用啞變量賦值,如肌瘤位置(前壁/后壁/側(cè)壁/宮底/宮頸)這是一個類型變量,類型變量需要納入計算必須將其轉(zhuǎn)化為數(shù)值。因此,我們?yōu)榍氨趧?chuàng)建一列數(shù)據(jù),為后壁創(chuàng)建一列數(shù)據(jù),以此類推。然后將每一列分別以0/1 填充(1=yes,0=no)。這表明如果原始列為前壁,那么就會在壁/側(cè)壁/宮底/宮頸四列得到0,在前壁這列得到1。本數(shù)據(jù)中由于宮頸數(shù)量很少,因此我們把宮頸這一屬性進(jìn)行了剔除。
接著,對預(yù)處理后的數(shù)據(jù)進(jìn)行特征縮放,如本文中年齡范圍在20-50,其對應(yīng)的肌瘤體積范圍在500-300000 的數(shù)據(jù)。肌瘤體積一列的數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于年齡,而且有更廣的數(shù)據(jù)范圍。這表明,歐氏距離將完全由肌瘤體積這一特征所主導(dǎo),而忽視年齡數(shù)據(jù)的主導(dǎo)效果??s放特征仍能加速模型收斂。因此,可以在數(shù)據(jù)預(yù)處理中加入。特征縮放不影響最終結(jié)果,且包含了標(biāo)準(zhǔn)歸一化等方法。
最后,我們進(jìn)行了自變量的篩選,由于肌瘤位置在宮頸位置的只有一例,所以把宮頸位置予以刪除。最后一共產(chǎn)生了19 個自變量:對應(yīng)x1,x2,x3......x19 年齡、身高、體重、粘膜下、漿膜下、肌壁間、前壁、后壁、側(cè)壁、宮底、肌瘤體積、高信號、等信號、低信號、混雜信號、治療時間、輻照時間、治療強(qiáng)度、治療劑量,1 個因變量:消融率y。最終數(shù)據(jù)情況如表1 所示。
表1 數(shù)據(jù)情況分布表
采用數(shù)據(jù)挖掘技術(shù)中的回歸分析方法在Python 軟件上構(gòu)建回歸預(yù)測模型,對2014 到2016 年907 例的單發(fā)子宮肌瘤患者的臨床資料進(jìn)行回歸分析,并檢測其對子宮肌瘤患者術(shù)后消融率的預(yù)測準(zhǔn)確性。
回歸分析指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。其按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。
在數(shù)據(jù)分析中,回歸分析是一種預(yù)測性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測)之間的關(guān)系。這種技術(shù)通常用于預(yù)測分析,時間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。
回歸分析的主要應(yīng)用場景是進(jìn)行預(yù)測和控制,例如計劃制定、KPI 制定、目標(biāo)制定等方面;也可以基于預(yù)測的數(shù)據(jù)與實際數(shù)據(jù)進(jìn)行比對和分析,確定事件發(fā)展程度并給未來行動提供方向性指導(dǎo)[6]。
本文將通過Python 機(jī)器學(xué)習(xí)相關(guān)工具包實現(xiàn)模型構(gòu)建和預(yù)測,分別是用到:BayesianRidge( 貝葉斯嶺回歸)、LinearRegression( 普通線性回歸)、ElasticNet( 彈性網(wǎng)絡(luò)回歸)、SVR(支持向量機(jī)回歸)、GradientBoostingRegression(梯度增強(qiáng)回歸)等機(jī)器學(xué)習(xí)模型。
回歸分析的評估指標(biāo)采用以下4 個指標(biāo)來衡量:(1)方差得分(explainedvariancescore),其值取值范圍是[0, 1],越接近于1 說明自變量越能解釋因變量的方差變化,值越小則說明效果越差;(2)平均絕對誤差(Mean Absolute Error, MAE),用于評估預(yù)測結(jié)果和真實數(shù)據(jù)集的接近程度的程度,其值越小說明擬合效果越好;(3)均方誤差(Mean squared error, MSE),該指標(biāo)計算的是擬合數(shù)據(jù)和原始數(shù)據(jù)對應(yīng)樣本點(diǎn)的誤差的平方和的均值,其值越小說明擬合效果越好;(4)判定系數(shù)(r2score),其含義也是解釋回歸模型的方差得分,其值取值范圍是[0, 1],越接近于1 說明自變量越能解釋因變量的方差變化,值越小則說明效果越差。本研究建立了5 種回歸模型,各個模型的評估指標(biāo)得分如表2 所示。
本次實驗使用的數(shù)據(jù)集屬于小規(guī)模、多屬性,單從這一點(diǎn)分析,5 種回歸算法都易于實現(xiàn)、且性能表現(xiàn)良好。綜合表2 的數(shù)據(jù)中可以看出,SVR 的模型評估得分要明顯優(yōu)于其他4 種算法,這可能由于:(1)只考慮了每個自變量和因變量之間的關(guān)系,而沒有考慮到各個自變量之間的關(guān)系;(2)樣本數(shù)據(jù)分布不均勻,這都是能直接影響預(yù)測準(zhǔn)確率的原因。而且,根據(jù)表2 可以看到,5 種算法的均方誤差也是有差異的,SVR 算法的均方誤差顯然比另外4種算法小。綜上所述,在HIFU 消融子宮肌瘤的消融率預(yù)測實驗中SVR 算法效果更好。
表2 5 種回歸模型評估指標(biāo)得分表
子宮肌瘤是婦科中最常見的一種良性腫瘤,已經(jīng)對廣大女性的日常生活造成了很多負(fù)面影響。文章利用數(shù)據(jù)挖掘中的回歸分析算法在海扶醫(yī)療股份有限公司醫(yī)學(xué)服務(wù)部提供的子宮肌瘤患者數(shù)據(jù)進(jìn)行實驗,從而實現(xiàn)對HIFU 消融子宮肌瘤的消融率進(jìn)行預(yù)測。此次實驗不僅實現(xiàn)了對HIFU 消融子宮肌瘤消融率的預(yù)測,還可以對比5 種回歸分析算法,選出最合適的一種。SVR 算法擬合度較高,且均方誤差明顯比另外4 種算法小,因此,在此次實驗中使用SVR 算法效果更佳。
今后主要研究的問題就是在提高SVR 算法效率的同時,尋找更優(yōu)的算法。如今,HIFU 消融子宮肌瘤的有效性預(yù)測是廣受關(guān)注的一個問題,未來會有越來越多的研究學(xué)者提出更好的算法和方案來解決這個問題,并為醫(yī)學(xué)中的子宮肌瘤治療提供幫助。