王 成,史繼毅,鄭 剛,項(xiàng)華中,陳明慧,張大偉
(1.上海理工大學(xué) 生物醫(yī)學(xué)光學(xué)與視光學(xué)研究所,上海 200093;2.上海理工大學(xué) 上海市現(xiàn)代光學(xué)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,上海 200093;3.上海理工大學(xué) 教育部光學(xué)儀器與系統(tǒng)工程研究中心,上海 200093)
肝癌分為原發(fā)性和繼發(fā)性兩大類(lèi),其中原發(fā)性肝細(xì)胞癌(hepatocellular carcinoma,HCC)是全世界排名第6位的常見(jiàn)惡性腫瘤,其致死率世界排名第3位[1]。目前,手術(shù)切除仍然是臨床肝癌治療的主要手段,但即使是徹底性切除,5年內(nèi)轉(zhuǎn)移復(fù)發(fā)的概率仍高達(dá)60%~70%[2],轉(zhuǎn)移復(fù)發(fā)已成為提高肝癌生存率的瓶頸[3]。臨床的轉(zhuǎn)移是一個(gè)不斷復(fù)制篩選的過(guò)程,這種篩選使有轉(zhuǎn)移潛能的細(xì)胞數(shù)量增多。在篩選過(guò)程中,出現(xiàn)了一些具有不同轉(zhuǎn)移潛能的癌細(xì)胞,轉(zhuǎn)移潛能大的癌細(xì)胞和轉(zhuǎn)移潛能小的癌細(xì)胞在形態(tài)結(jié)構(gòu)和基因表達(dá)上有明顯的差異性[4]。對(duì)不同轉(zhuǎn)移潛能的肝癌細(xì)胞的檢測(cè),對(duì)抑制和預(yù)測(cè)癌癥的轉(zhuǎn)移復(fù)發(fā)有重要的臨床意義。
目前,肝癌檢測(cè)的金標(biāo)準(zhǔn)仍然是病理分析,但是,隨著計(jì)算機(jī)技術(shù)和生物醫(yī)學(xué)技術(shù)的發(fā)展和應(yīng)用,出現(xiàn)了許多新的檢測(cè)手段,例如:超聲探測(cè)根據(jù)回聲的不同可以檢測(cè)組織病變情況;CT掃描和磁共振成像可以對(duì)腫瘤進(jìn)行快速檢測(cè)。但這些手段不能呈現(xiàn)細(xì)胞水平的圖像,而光學(xué)檢測(cè)以其非侵入、非接觸的優(yōu)點(diǎn)為臨床診斷和活體細(xì)胞的研究提供了更有利的工具[5]。內(nèi)窺式激光共聚焦顯微鏡[6]、內(nèi)窺式光學(xué)層析成像(OCT)[7]可以在細(xì)胞水平區(qū)分正常組織和癌變組織,這兩種光學(xué)技術(shù)在無(wú)標(biāo)記條件下,都是基于光散射的探測(cè)。細(xì)胞的復(fù)雜結(jié)構(gòu)是光散射的主要來(lái)源,可以采用散射顯微光譜對(duì)細(xì)胞進(jìn)行識(shí)別[8]。本文使用前期搭建的光纖共焦后向散射(fiber confocal back-scattering, FCBS)顯微光譜檢測(cè)了正常肝細(xì)胞和不同轉(zhuǎn)移潛能的肝癌細(xì)胞的后向散射顯微光譜,再分別結(jié)合統(tǒng)計(jì)數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行自動(dòng)分類(lèi)、識(shí)別。
主成分分析(PCA)是一種常用的數(shù)據(jù)分析方法,目的是對(duì)原始數(shù)據(jù)進(jìn)行降維,把原本相關(guān)性很高的變量轉(zhuǎn)換為較少幾個(gè)彼此互相獨(dú)立不相干的變量,這幾個(gè)變量包含了原始數(shù)據(jù)的主要信息,稱為主成分[9]。由于所采集的光譜數(shù)據(jù)采樣間隔是納米或亞納米,一條光譜曲線是維數(shù)較高的二維數(shù)據(jù)。PCA可以把高維數(shù)據(jù)映射到低維空間,解決因?yàn)榫S數(shù)過(guò)多計(jì)算量大的弊端。
PCA的算法步驟如下:
式 中 : α (λ) 為 歸 一 化 后 的 光 譜 數(shù) 據(jù) ;αmax和αmin分別為光譜數(shù)據(jù)每一個(gè)樣本的最大值和最小值。計(jì)算樣本矩陣α的協(xié)方差矩陣:
將c的特征值從大到小排列,組成特征值矩陣,取前k個(gè)特征值,一般累積貢獻(xiàn)率要大于85%[10]。
支持向量機(jī)(support vector machine,SVM)在解決小樣本、非線性和高維數(shù)據(jù)方面具有特殊的優(yōu)勢(shì)。SVM主要用于定性分類(lèi)、定量回歸和預(yù)測(cè),近年來(lái)在生物醫(yī)學(xué)、圖像處理、模式識(shí)別等方面得到了廣泛的應(yīng)用[11]。
SVM的目標(biāo)是尋找到一個(gè)最優(yōu)超平面使得每類(lèi)樣本與超平面之間的間隔最大,從而對(duì)樣本實(shí)現(xiàn)分類(lèi)。分類(lèi)超平面表示為:
式中:ω為超平面的法向量;b為常數(shù),表示數(shù)據(jù)直線擬合的截距。每類(lèi)數(shù)據(jù)到最優(yōu)超平面的幾何間隔為 1 /‖ω‖ ,由此尋找最優(yōu)超平面,等價(jià)于最小化 1 /2‖ω‖2。為了解決最小化問(wèn)題,引入Lagrange函數(shù),轉(zhuǎn)化 為對(duì)偶問(wèn)題:
式中αi> 0為L(zhǎng)agrange乘數(shù)。求解對(duì)偶問(wèn)題,首先固定α,讓 L 關(guān)于ω和b最小化,分別對(duì)ω和b求偏導(dǎo)數(shù)使其等于零,代入后得到:
對(duì)于線性不可分的樣本,SVM的方法是把輸入向量投射到更高維度,在更高維度實(shí)現(xiàn)線性可分,找尋最優(yōu)分類(lèi)超平面。
雖然SVM是一個(gè)二分類(lèi)器,對(duì)于多分類(lèi),SVM的實(shí)現(xiàn)方式有兩種:一對(duì)多或一對(duì)一。本文所用工具包為臺(tái)灣林智仁教授撰寫(xiě)的libsvm庫(kù)[12],libsvm庫(kù)使用的是多對(duì)多的方法。即給定m個(gè)類(lèi),每?jī)蓚€(gè)類(lèi)訓(xùn)練一個(gè)二分類(lèi)器,總分類(lèi)器個(gè)數(shù)為m(m-1)/2個(gè),每個(gè)分類(lèi)器對(duì)樣本進(jìn)行投票,以最終票數(shù)結(jié)果作為分類(lèi)結(jié)果[13]。
本實(shí)驗(yàn)采用已在早期的文獻(xiàn)中報(bào)道的FCBS光譜儀[8],主要的檢測(cè)原理是結(jié)合了光纖共焦顯微成像和彈性散射光譜技術(shù),可以同時(shí)提供單個(gè)細(xì)胞的背散射光譜和圖像。整個(gè)系統(tǒng)如圖1所示,由寬帶光源、準(zhǔn)直鏡、光纖耦合器、光學(xué)探頭、光譜儀和主控電腦組成。在400~1 000 nm范圍內(nèi)響應(yīng)良好,光譜分辨率為4 nm。
圖1 FCBS 實(shí)驗(yàn)裝置Fig. 1 The experimental device of fiber confocal back scattering micro-spectrometer
實(shí)驗(yàn)所用的人正常肝細(xì)胞株(L02)、低轉(zhuǎn)移潛能肝癌細(xì)胞株(MHCC97-L)和高轉(zhuǎn)移潛能肝癌細(xì)胞株(HCCLM3)樣本共69例,如圖2所示,均由復(fù)旦大學(xué)附屬中山醫(yī)院肝癌研究所提供。細(xì)胞均在含10%胎牛血清的RPMI-1640培養(yǎng)基中生長(zhǎng),培養(yǎng)條件為37 ℃、CO2體積分?jǐn)?shù)為5%的細(xì)菌培養(yǎng)箱中培養(yǎng)。所有細(xì)胞植株均在直徑為35 mm的培養(yǎng)皿中以低傳代數(shù)(<105個(gè)細(xì)胞/mL)培養(yǎng)。培養(yǎng)時(shí)間大約為12 h,最終植株穩(wěn)定粘附在培養(yǎng)皿上。
圖2 20×顯微鏡下的細(xì)胞圖片F(xiàn)ig. 2 Cell pictures under 20× microscope
FCBS基于共焦理論,利用光纖耦合器的單模光纖將光源照射到樣品,并在焦點(diǎn)處接收回來(lái)的散射光。光纖端面同時(shí)作為點(diǎn)光源和點(diǎn)探測(cè),實(shí)現(xiàn)了共焦探測(cè)。把帶有貼壁細(xì)胞的培養(yǎng)皿拋卻培養(yǎng)液后放到物鏡下,在如圖1所示的系統(tǒng)中,寬帶光源經(jīng)過(guò)光纖耦合器耦合到準(zhǔn)直鏡,經(jīng)物鏡照射到樣品表面,同時(shí)細(xì)胞的后向散射光被準(zhǔn)直鏡接收,再經(jīng)光纖耦合器耦合到光譜儀上,獲得細(xì)胞的后向散射光譜。光譜儀接收到的光譜數(shù)據(jù)傳輸?shù)诫娔X進(jìn)行處理分析。FCBS光譜儀帶有一個(gè)觀察部分,用來(lái)確保檢測(cè)的是單個(gè)細(xì)胞[8]。
圖3為光譜儀所采集到的三種細(xì)胞的平均后向散射光譜數(shù)據(jù),分別為正常肝細(xì)胞株(L02)、低轉(zhuǎn)移潛能肝細(xì)胞株(MHCC97-L)和高轉(zhuǎn)移潛能肝細(xì)胞株(HCCLM3)。其中橫坐標(biāo)為波長(zhǎng);縱坐標(biāo)是相對(duì)后向散射光強(qiáng)度S,即相對(duì)于硅片的后向散射光譜。實(shí)驗(yàn)測(cè)量了可見(jiàn)光到近紅外波段,即450~1 000 nm波長(zhǎng)。
圖3 三種細(xì)胞典型光譜Fig. 3 Typical spectra of three kinds of cells
由圖3可見(jiàn),三種細(xì)胞在整體曲線趨勢(shì)上區(qū)別很明顯。在500~800 nm波長(zhǎng)范圍,低轉(zhuǎn)移潛能肝癌細(xì)胞株的散射光強(qiáng)明顯高于另外兩種細(xì)胞,可能是由于細(xì)胞癌變后體積變大,相對(duì)核仁較少,細(xì)胞內(nèi)部結(jié)構(gòu)分布的不均勻提高了散射系數(shù),導(dǎo)致后向散射光強(qiáng)增大。正常肝細(xì)胞株和高轉(zhuǎn)移潛能肝癌細(xì)胞株的光譜曲線趨勢(shì)在500~900 nm波長(zhǎng)范圍有一定的相似性,但高轉(zhuǎn)移肝癌細(xì)胞沒(méi)有如正常肝細(xì)胞一樣的周期性的變化,且散射光強(qiáng)要比正常肝細(xì)胞低,可能是高轉(zhuǎn)移潛能肝癌細(xì)胞核仁增多,內(nèi)部結(jié)構(gòu)的不對(duì)稱已經(jīng)破壞了細(xì)胞質(zhì)和細(xì)胞核邊界所形成的峰,高核質(zhì)比使細(xì)胞對(duì)照射光的吸收更強(qiáng),散射光強(qiáng)變小。
從圖3光譜曲線圖上看,由于系統(tǒng)誤差,可以看到光譜曲線在開(kāi)始和結(jié)尾處有明顯的噪聲影響,因此選取500~950 nm波段的光譜進(jìn)行PCA分析。對(duì)原始光譜數(shù)據(jù)進(jìn)行平滑、標(biāo)準(zhǔn)化等預(yù)處理后進(jìn)行主成分分析。從式(2)中協(xié)方差矩陣c找到一個(gè)正交矩陣p,滿足pTcp=λ,得到特征值矩陣λ后降序排列,這個(gè)特征值矩陣就是主成分的貢獻(xiàn)率。三種細(xì)胞共焦后向散射光譜的主成分貢獻(xiàn)率如表1所示,由于前兩個(gè)主成分的累積貢獻(xiàn)率已經(jīng)達(dá)到95.4%,所以前兩個(gè)主成分已經(jīng)可以表示原始光譜的主要信息。
表1 前8個(gè)主成分貢獻(xiàn)率及其累積貢獻(xiàn)率Tab. 1 Contribution rate and the cumulative contribution rate of 8 principal components
圖4表示三種肝細(xì)胞共69個(gè)樣本的主成分1、2的得分圖,其中正常肝細(xì)胞株19組,低轉(zhuǎn)移潛能肝癌細(xì)胞株20組,高轉(zhuǎn)移潛能肝癌細(xì)胞株30組。
從圖4主成分1和主成分2的得分圖可以觀察到,三種細(xì)胞具有明顯的區(qū)分。正常肝細(xì)胞株(L02)分布在PC1的-20與20之間,PC2的-10與30之間。低轉(zhuǎn)移潛能肝癌細(xì)胞株(MHCC97-L)主要分布在PC1的正半軸和PC2的負(fù)半軸。高轉(zhuǎn)移潛能肝癌細(xì)胞株(HCCLM3)主要分布在PC1的負(fù)半軸,PC2的-20與-10之間。
圖4 主成分 1、2 得分圖Fig. 4 Two principal component score of three kinds of cells
對(duì)FCBS光譜儀獲得的三種細(xì)胞后向散射光譜,隨機(jī)選取其中的50組數(shù)據(jù)(正常肝細(xì)胞株15組,低轉(zhuǎn)移潛能肝細(xì)胞株15組,高轉(zhuǎn)移潛能肝細(xì)胞株20組)作為訓(xùn)練集,首先對(duì)數(shù)據(jù)進(jìn)行歸一化預(yù)處理,建立屬性矩陣和標(biāo)簽,訓(xùn)練得到模型并對(duì)剩余的19例樣本預(yù)測(cè)集進(jìn)行預(yù)測(cè),由于光譜數(shù)據(jù)的特征比較多,選用線性核。預(yù)測(cè)結(jié)果如表2所示。
表2 SVM 預(yù)測(cè)結(jié)果Tab. 2 SVM prediction results of samples
對(duì)預(yù)測(cè)樣本預(yù)測(cè)結(jié)果如圖5所示,由表2及圖5可見(jiàn),樣本序號(hào)8預(yù)測(cè)結(jié)果錯(cuò)誤,其他預(yù)測(cè)結(jié)果準(zhǔn)確,整體分類(lèi)準(zhǔn)確率為94.7%,具有較高的正確率。說(shuō)明SVM可以進(jìn)行細(xì)胞光譜的分類(lèi)識(shí)別。
圖5 測(cè)試集預(yù)測(cè)結(jié)果圖Fig. 5 Prediction results of testing set
肝癌轉(zhuǎn)移復(fù)發(fā)的過(guò)程中會(huì)不斷復(fù)制篩選出具有不同轉(zhuǎn)移潛能的肝癌細(xì)胞,本文基于光纖共焦后向散射光譜系統(tǒng),采集正常肝細(xì)胞株、低轉(zhuǎn)移潛能肝癌細(xì)胞株和高轉(zhuǎn)移潛能肝癌細(xì)胞株的后向散射顯微光譜數(shù)據(jù),分別采用PCA和SVM兩種不同的算法對(duì)光譜數(shù)據(jù)進(jìn)行了自動(dòng)分類(lèi)研究。
實(shí)驗(yàn)結(jié)果顯示,PCA的前兩個(gè)主成分的累積貢獻(xiàn)率達(dá)到95.4%,因此前兩個(gè)主成分已經(jīng)包含了原始光譜數(shù)據(jù)的大部分信息。從圖4中我們可以看到,三種細(xì)胞在主成分1和主成分2的得分圖上的分布較為規(guī)律,三種細(xì)胞有明顯的區(qū)分。支持向量機(jī)是以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的算法,對(duì)小樣本情況具有非常好的分類(lèi)效果。本研究中使用SVM對(duì)不同轉(zhuǎn)移潛能的肝癌細(xì)胞訓(xùn)練分類(lèi)模型并進(jìn)行預(yù)測(cè),準(zhǔn)確率達(dá)到了94.7%。
實(shí)驗(yàn)證明FCBS光譜儀分別結(jié)合PCA和SVM可以對(duì)肝癌轉(zhuǎn)移侵襲時(shí)不同轉(zhuǎn)移潛能的細(xì)胞實(shí)現(xiàn)快速、準(zhǔn)確的分類(lèi)。為了進(jìn)一步提高光譜識(shí)別和分類(lèi)的精度,未來(lái)需要進(jìn)一步增加樣本量,建立不同細(xì)胞的標(biāo)準(zhǔn)光譜數(shù)據(jù)庫(kù),優(yōu)化智能識(shí)別算法,為臨床預(yù)測(cè)和抑制原發(fā)性肝細(xì)胞癌的轉(zhuǎn)移侵襲提供有效的檢測(cè)手段。