趙詠旺,劉毅慧,黃 偉
(1齊魯工業(yè)大學(xué)(山東省科學(xué)院)信息學(xué)院,濟(jì)南250353;2山東省腫瘤醫(yī)院放療病區(qū),濟(jì)南250117)
近年來,對(duì)原發(fā)性肝癌(PrimaryLiver Carcinoma,PLC)的診治及術(shù)后已引發(fā)了研究學(xué)界的高度關(guān)注。目前,對(duì)中晚期原發(fā)性肝癌患者采用精確放療后也會(huì)導(dǎo)致乙型肝炎病毒(Hepatitis B Virus,HBV)再激活[1]。 因此,有效降低 HBV 感染率、發(fā)病率及死亡率至關(guān)重要。
當(dāng)下研究中,文獻(xiàn)[2]中接受HSCT的患者在單變量因子分析中檢測(cè)到 HBV DNA水平、年齡、HbsAg、HbcAb與HBV再激活有關(guān)。在多變量分析中,年齡、HBsAg是HBV再激活的危險(xiǎn)因素。Ji等人[3]通過應(yīng)用 Kaplan-Meier檢驗(yàn)及 Cox回歸模型分析影響HBV-PLC患者生存期的因素。實(shí)驗(yàn)結(jié)果表明,Child-Pugh分級(jí)、腫瘤轉(zhuǎn)移、年齡、抗病毒治療、血清HBV DNA水平和腫瘤治療方式是影響患者生存期的重要因素。Han等人[4]指出HBV再激活與腫瘤直徑大小及是否術(shù)前規(guī)范抗病毒治療等因素有關(guān)。Wang[5]通過研究比較基線特征差異篩選出HBV再激活的可能危險(xiǎn)因素,結(jié)果顯示性別、年齡等指標(biāo)無明顯差異,肝功能Child-pugh分級(jí)可能是HBV再激活的危險(xiǎn)因素。Huang等人[6]在69例原發(fā)性肝癌患者接受精確放療后致使乙型肝炎病毒再激活研究中發(fā)現(xiàn)基線血清HBV DNA水平和放療劑量是HBV病毒再激活的獨(dú)立危險(xiǎn)因素。Wu等人[7]在以前發(fā)現(xiàn)的危險(xiǎn)因素的基礎(chǔ)上又研發(fā)建立了RBF神經(jīng)網(wǎng)絡(luò)模型,識(shí)別率提高到80%。隨后通過遺傳算法發(fā)現(xiàn)HBVDNA水平、腫瘤分期TNM、Child-Pugh、外放邊界、V45和全肝最大劑量是乙肝病毒再激活的危險(xiǎn)因素[8]。 Wang 等人[9-10]又分別利用隨機(jī)森林、小波變換、順序前向、順序后向等一系列特征選擇方法使得HBV再激活的分類預(yù)測(cè)精度進(jìn)一步提高。
特征提取就是指利用已有特征計(jì)算出一個(gè)抽象程度更高的特征集的過程。而稀疏自動(dòng)編碼器(Sparse Auto-Encoder)于2007年由 Bengio提出,這就是一個(gè)典型3層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),可以對(duì)特定數(shù)據(jù)進(jìn)行關(guān)鍵特征提?。?1]。其中,輸入層和隱藏層之間的信號(hào)傳遞是編碼過程,隱藏層與輸出層之間的信號(hào)傳遞是解碼過程,通過對(duì)輸入數(shù)據(jù)的重構(gòu)一方面可以檢驗(yàn)自動(dòng)編碼器算法的學(xué)習(xí)效果,另一方面也可以對(duì)復(fù)雜的特征數(shù)據(jù)集進(jìn)行降維,降維后的數(shù)據(jù)集表示輸入數(shù)據(jù)最重要的因素[12]。本文通過采用稀疏自動(dòng)編碼器對(duì)山東省腫瘤醫(yī)院提供的90例原發(fā)性肝癌患者精確放療后影響HBV再激活的特征進(jìn)行降維,并分別利用SVM及Softmax分類器對(duì)新的樣本空間進(jìn)行分類預(yù)測(cè)。對(duì)此擬展開研究論述如下。
研究中,將山東省腫瘤醫(yī)院的90例經(jīng)過精確放療后原發(fā)性肝癌患者的臨床資料作為研究樣本,每個(gè)樣本包含有28個(gè)特征,組成90?28維大小的數(shù)據(jù)集,詳情見表1。
表1 特征編號(hào)及分別對(duì)應(yīng)的醫(yī)學(xué)名稱Tab.1 Feature numbers and the corresponding medical name
稀疏自動(dòng)編碼器是人工神經(jīng)網(wǎng)絡(luò)的一種特殊學(xué)習(xí)模型。該模型輸入輸出是相同的,通過訓(xùn)練調(diào)整參數(shù),使得輸入的樣本經(jīng)過編碼、以及解碼變換后盡可能復(fù)現(xiàn)原來特征,具有良好特征提取能力[13]。本文利用稀疏自動(dòng)編碼器對(duì)原發(fā)性肝癌臨床患者數(shù)據(jù)集進(jìn)行特征提取,其中稀疏自動(dòng)編碼器隱含層分別取一到二層,其網(wǎng)絡(luò)設(shè)計(jì)結(jié)構(gòu)如圖1所示。假設(shè)F和G分別表示編碼和解碼函數(shù),可將其分別寫作如下數(shù)學(xué)形式:
其中,sl為編碼器激活函數(shù),pl為解碼器激活函數(shù),本文研究中,分別選取satlin函數(shù)為編碼器激活函數(shù),purelin函數(shù)為解碼器激活函數(shù),權(quán)值矩陣w1,w2互為轉(zhuǎn)置。
圖1 二層自動(dòng)編碼器結(jié)構(gòu)示意圖Fig.1 Two-layer automatic encoder structure diagram
研究中,pi表示第j(j=1,2)個(gè)隱藏層上的第i號(hào)神經(jīng)元在訓(xùn)練集S={x(j)}上的平均激活度。要求pi=p(i=1,2,3,…,m),保證隱藏層上每個(gè)神經(jīng)元都滿足稀疏性限制。pi的數(shù)學(xué)表述見如下:
其中,hi(n)表示稀疏自動(dòng)編碼器隱含層數(shù)量為n(n=2) 的第i號(hào)神經(jīng)元的激活度[14-15]。 本文中,h(j=1)=20,即第一層神經(jīng)元節(jié)點(diǎn)數(shù)取值20。h(j=2)=15,第二層神經(jīng)元節(jié)點(diǎn)數(shù)取值15。p是稀疏性參數(shù),p(j=1)=p(j=2)=0.015,一層二層神經(jīng)元稀疏性參數(shù)都是0.015。 正則化系數(shù)r(j=1)=r(j=2)=2,一層二層神經(jīng)元稀疏性參數(shù)都是2。KL散度函數(shù)如下:
如果將KL函數(shù)加入到稀疏自動(dòng)編碼器的損失函數(shù)中,那么稀疏自動(dòng)編碼器的損失函數(shù)可表示為:
其中,β為控制稀疏性懲罰的權(quán)重系數(shù)。當(dāng)KL(pi‖p)=0,也就是pi=p,此時(shí)就可以得到最小損失函數(shù)。
稀疏自動(dòng)編碼器是一個(gè)特征提取器,本實(shí)驗(yàn)要實(shí)現(xiàn)分類功能還要添加一個(gè)分類器,如貝葉斯分類器(Bayesian classifier),支持向量機(jī)(Support Vector Machine)等[16]。本文主要采用的是SVM分類器,下面會(huì)將Softmax分類器的實(shí)驗(yàn)結(jié)果與SVM分類器的實(shí)驗(yàn)結(jié)果做出對(duì)比。
研究可知,作為特征提取的另一種方法,主成分分析算法(Principal Component Analysis)也可以對(duì)本實(shí)驗(yàn)數(shù)據(jù)集中的特征進(jìn)行降維。PCA特征降維的過程就是首先求得這個(gè)樣本的協(xié)方差矩陣,并求出這個(gè)協(xié)方差矩陣的特征值與特征向量[17]。然后根據(jù)特征值大小,選取前三個(gè)特征值所對(duì)應(yīng)的特征向量構(gòu)成特征矩陣。最后用原始樣本矩陣與得到的特征矩陣做積運(yùn)算,會(huì)得到一個(gè)降維之后的新樣本矩陣。為了保證原始測(cè)試樣本同樣能夠映射到這個(gè)空間中進(jìn)行表示,就需要將測(cè)試樣本與之前對(duì)訓(xùn)練樣本降維過程中得到的特征矩陣重新做積處理,便可以得到一個(gè)新的測(cè)試樣本矩陣[18]。特征提取后的主要成分以及貢獻(xiàn)率如圖2所示。此后,研究中會(huì)針對(duì)不同主成分個(gè)數(shù)進(jìn)行比較分析。
圖2 主成分貢獻(xiàn)率排序Fig.2 Ordering of principal component contribution rates
本文主要選取SVM分類器進(jìn)行最終分類處理,并用Softmax進(jìn)行對(duì)照實(shí)驗(yàn)。作為一個(gè)二分類模型,SVM的分類思想是給定一個(gè)包含正例和反例的樣本集合,尋找一個(gè)超平面對(duì)樣本根據(jù)正例和反例進(jìn)行分割。其研究旨在使得分開的2個(gè)類別具有最大間隔,這樣一來,分類才具有更高可信度以及更好的泛化能力[19]。假設(shè)超平面為wx+b=0;樣本點(diǎn)到超平面距離為:
首先,構(gòu)造并求解約束最優(yōu)化問題,研究推得數(shù)學(xué)運(yùn)算公式如下:
求得最優(yōu)解a?,然后將用到公式(8)進(jìn)行運(yùn)算:
最后求得分類決策函數(shù),具體公式如下:
文中,選取的是線性內(nèi)核函數(shù)G(xj,xk)=xj'xk。懲罰因子c是誤差容忍系數(shù)。當(dāng)c設(shè)置一個(gè)較大值時(shí),表示要求的分類精度很高,分錯(cuò)的點(diǎn)會(huì)很少。當(dāng)c設(shè)置一個(gè)較小值時(shí),表示可能容忍一定的錯(cuò)誤,分錯(cuò)的點(diǎn)可能就很多。由于本文的樣本數(shù)據(jù)中乙型肝炎病毒再激活的類標(biāo)簽數(shù)量較少,在這里就必須保證其分類正確率。本文中,c的取值是2。
Softmax模型是logistic回歸模型在多分類問題上的推廣,當(dāng)Softmax是一個(gè)二分類處理器時(shí)就會(huì)成為一個(gè)Logistic分類[20]。在本文Softmax分類層中,選取交叉熵函數(shù)作為損失函數(shù),函數(shù)公式如下:
其中,n是訓(xùn)練樣本數(shù)量k=2,即二分類問題;tij是目標(biāo)矩陣t的i行j列的元素;yij是輸入向量為xj時(shí)自動(dòng)編碼器的第i個(gè)輸出。
本文主要采用3個(gè)分類性能指標(biāo),分別是準(zhǔn)確性、特異性、靈敏性。其中,準(zhǔn)確性是指分類的正確預(yù)測(cè)值占樣本實(shí)際值的比重。特異性是將實(shí)際無病的人正確判定為真陰性的比例。靈敏性是將實(shí)際有病的人正確判定為真陽性的比例。
實(shí)驗(yàn)分別采用3折、5折、10折交叉驗(yàn)證,選取每一個(gè)分類性能度量標(biāo)準(zhǔn)的平均值作為最終數(shù)據(jù),測(cè)試實(shí)驗(yàn)結(jié)果見表2~表4。
表2 Softmax對(duì)不同隱含層數(shù)SAE對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Experimental results with Softmax classifier for different hidden layers SAE
表3 SVM對(duì)不同隱含層數(shù)SAE對(duì)比實(shí)驗(yàn)結(jié)果Tab.3 Experimental results with SVM classifier for different hidden layers SAE
表4 PCA不同主成分個(gè)數(shù)下分類預(yù)測(cè)實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of classification prediction under different number of principal components
表2是Softmax分類器分別對(duì)原始數(shù)據(jù)集、一層、二層SAE提取的特征進(jìn)行分類預(yù)測(cè)的結(jié)果。由表2可知,對(duì)原始數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確率要低于對(duì)一層、二層SAE所提取特征數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率。3折、5折、10折交叉驗(yàn)證下,Softmax分類器在一層SAE下的預(yù)測(cè)結(jié)果都要高于在二層SAE下的預(yù)測(cè)結(jié)果。其中,5折交叉驗(yàn)證下,SVM對(duì)一層SAE提取特征數(shù)據(jù)集的識(shí)別率可達(dá)72.22%,比二層SAE的識(shí)別率提高了近3.2個(gè)百分點(diǎn)。從靈敏性結(jié)果來看,3折、5折、10折交叉驗(yàn)證下,對(duì)一層、二層SAE所提取特征數(shù)據(jù)的靈敏度表現(xiàn)都要優(yōu)于對(duì)原始數(shù)據(jù)集的靈敏度表現(xiàn)。
表3是SVM分類器分別對(duì)原始數(shù)據(jù)集、一層、二層SAE提取的特征進(jìn)行分類預(yù)測(cè)的結(jié)果。由表3可知,對(duì)一層、二層SAE提取的特征進(jìn)行分類預(yù)測(cè)的結(jié)果要明顯優(yōu)于未經(jīng)過特征提取的原始數(shù)據(jù)預(yù)測(cè)結(jié)果。這一點(diǎn)與Softmax分類器的表現(xiàn)是一致的。而靈敏度的表現(xiàn)卻截然相反,SVM對(duì)原始數(shù)據(jù)的分類靈敏度要略高于對(duì)SAE特征提取數(shù)據(jù)的分類靈敏度。在3折、5折、10折交叉驗(yàn)證下,SVM分類器在二層SAE下的預(yù)測(cè)結(jié)果都要高于在一層SAE下的預(yù)測(cè)結(jié)果。其中,10折交叉驗(yàn)證下,SVM對(duì)二層SAE所提取特征數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確率可達(dá)78.52%,比原始數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確率提高了近7.0個(gè)百分點(diǎn),比一層SAE的預(yù)測(cè)準(zhǔn)確率提高了近5.6個(gè)百分點(diǎn)。
綜合來看,雖然SVM及Softmax對(duì)原始數(shù)據(jù)的分類預(yù)測(cè)表現(xiàn)相差不大,但從經(jīng)過一層SAE或者二層SAE提取特征之后的預(yù)測(cè)準(zhǔn)確率角度來看,SVM的表現(xiàn)要更加優(yōu)越。經(jīng)過一層SAE提取特征之后,在3折交叉驗(yàn)證下,SVM預(yù)測(cè)精度高于Softmax預(yù)測(cè)精度近3.2個(gè)百分點(diǎn)。在5折交叉驗(yàn)證下,SVM預(yù)測(cè)精度高于Softmax預(yù)測(cè)精度近3.0個(gè)百分點(diǎn)。經(jīng)過二層SAE提取特征之后,在3折交叉驗(yàn)證下,SVM預(yù)測(cè)精度高于Softmax預(yù)測(cè)精度近7.2個(gè)百分點(diǎn)。在5折交叉驗(yàn)證下,SVM預(yù)測(cè)精度高于Softmax預(yù)測(cè)精度近8.7個(gè)百分點(diǎn)。在10折交叉驗(yàn)證下,SVM預(yù)測(cè)精度高于Softmax預(yù)測(cè)精度近8.5個(gè)百分點(diǎn)。
表4是PCA在5折交叉驗(yàn)證下特征提取并建立SVM模型分類預(yù)測(cè)的結(jié)果。由表4可以看出,在不同主成分個(gè)數(shù)下的預(yù)測(cè)精度是有區(qū)別的。隨著主成分個(gè)數(shù)的增加,分類預(yù)測(cè)精度也是呈遞增趨勢(shì)。4個(gè)主成分的貢獻(xiàn)率是99.88%,而除去前4個(gè)主成分之外的其它成分貢獻(xiàn)率都在0.01%以下,可以看作是冗余信息,所以主成分個(gè)數(shù)最多取到4個(gè),此時(shí)預(yù)測(cè)精度是75.92%。靈敏性也是最高的,相比3個(gè)主成分時(shí)提高了近10.2個(gè)百分點(diǎn)。同樣在5折交叉驗(yàn)證下,SVM在二層SAE提取特征下的預(yù)測(cè)精度是77.75%,相比PCA在4個(gè)主成分下的預(yù)測(cè)精度提高了近1.8個(gè)百分點(diǎn)。由此可見,在對(duì)本實(shí)驗(yàn)的樣本數(shù)據(jù)進(jìn)行重要成分提取壓縮的過程中,SAE的效果要優(yōu)于PCA。
原發(fā)性肝癌患者在精確放療后乙型肝炎病毒再激活是一種常見并發(fā)癥,及時(shí)的預(yù)測(cè)防護(hù)能降低發(fā)病率、死亡率。影響原發(fā)性肝癌患者發(fā)生HBV再激活的危險(xiǎn)因素有很多,通過構(gòu)建二層學(xué)習(xí)的稀疏自動(dòng)編碼器相對(duì)主成分分析算法更能有效地對(duì)原發(fā)性肝癌患者臨床數(shù)據(jù)中的重要成分進(jìn)行提取。而SVM分類器有效提高了HBV再激活的分類預(yù)測(cè)準(zhǔn)確性,并且對(duì)二層稀疏自動(dòng)編碼器分類性能堪稱最優(yōu),10折交叉驗(yàn)證下,平均準(zhǔn)確率達(dá)78.52%。