張俊杰,周 濤,夏 勇,王文文
(1.寧夏醫(yī)科大學(xué) a.管理學(xué)院;b.理學(xué)院,寧夏 銀川 750004;2.西北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710100)
基于粗糙集特征級(jí)融合的肺結(jié)節(jié)檢測(cè)算法
張俊杰1a,周濤1b,夏勇2,王文文1a
(1.寧夏醫(yī)科大學(xué)a.管理學(xué)院;b.理學(xué)院,寧夏 銀川 750004;2.西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,陜西 西安 710100)
摘要:以肺結(jié)節(jié)的檢測(cè)為研究目標(biāo),針對(duì)肺結(jié)節(jié)特征級(jí)融合檢測(cè)算法中存在特征結(jié)構(gòu)不合理和特征表達(dá)不緊致兩個(gè)問題,提出了一種基于粗糙集特征級(jí)融合的肺結(jié)節(jié)檢測(cè)算法,該算法首先分析肺部CT影像的醫(yī)學(xué)征象,提出了六個(gè)新的三維特征,并綜合其他二維和三維特征共42維特征分量共同量化ROI;然后基于粗糙集對(duì)提取的特征集合進(jìn)行5次特征級(jí)融合實(shí)驗(yàn);最后利用網(wǎng)格尋優(yōu)算法優(yōu)化核函數(shù)的SVM作為分類器進(jìn)行肺結(jié)節(jié)識(shí)別。以70例肺結(jié)節(jié)患者的肺部CT影像為原始數(shù)據(jù),通過4組對(duì)比實(shí)驗(yàn)驗(yàn)證算法的有效性和穩(wěn)定性,實(shí)驗(yàn)結(jié)果表明,經(jīng)過粗糙集特征級(jí)融合的肺結(jié)節(jié)檢測(cè)算法識(shí)別肺結(jié)節(jié)的能力得到了有效提升。
關(guān)鍵詞:肺結(jié)節(jié)檢測(cè);粗糙集;特征提取;特征約簡;支持向量機(jī)
肺癌已成為世界范圍內(nèi)發(fā)病率及死亡率最高的惡性腫瘤,嚴(yán)重威脅著人類的生命健康[1-2],早期發(fā)現(xiàn)是提高肺癌患者治療效果的有效方法[3],同時(shí)由于肺結(jié)節(jié)(lungnodules)是肺癌的早期形態(tài)[4],因此肺結(jié)節(jié)的檢測(cè)識(shí)別在肺癌治療中的重要性日益凸顯。計(jì)算機(jī)斷層掃描成像(ComputedTomography,CT)為臨床診斷提供了多角度、可視化、高質(zhì)量的胸部醫(yī)學(xué)影像[4],但是隨著CT在肺結(jié)節(jié)檢測(cè)中的廣泛應(yīng)用,產(chǎn)生的CT數(shù)據(jù)過載以及影像結(jié)果判讀主觀性等因素,都導(dǎo)致臨床誤診率居高不下[5]。計(jì)算機(jī)輔助診斷(Computer-AidedDiagnosis,CAD)能夠?qū)A緾T影像數(shù)據(jù)進(jìn)行前期篩查、標(biāo)記可疑病灶區(qū)域,然后結(jié)合影像醫(yī)生的二次判別在降低其閱片工作量的同時(shí)提高腫瘤診斷正確率[6],是解決上述問題的有效渠道之一。
肺結(jié)節(jié)檢測(cè)是CAD研究的熱點(diǎn)之一,如Santos[7]等首先基于區(qū)域生長法分割出肺實(shí)質(zhì),并根據(jù)高斯混合模型和海森矩陣從肺實(shí)質(zhì)中分離出ROI,然后選取Tsallis熵和香農(nóng)熵作為描述特征,利用支持向量機(jī)(SupportVectorMachine,SVM)對(duì)肺結(jié)節(jié)和非結(jié)節(jié)區(qū)域進(jìn)行分類識(shí)別;Netto[8]等首先利用增長型神經(jīng)氣體(GrowingNeuralGas,GNG)進(jìn)行聚類粗分割,然后根據(jù)三維距離變換把肺結(jié)節(jié)從含有血管、支氣管的組織中分離出來,最后利用SVM在提取的形狀特征和紋理特征集合的基礎(chǔ)上實(shí)現(xiàn)對(duì)肺結(jié)節(jié)的有效識(shí)別;Ye[9]等首先綜合模糊閾值、高斯矩陣、平均曲率、海森矩陣等算法進(jìn)行ROI的分割提取,然后選用局部形狀特征和局部散度信息作為ROI的特征表達(dá),最后采用加權(quán)的SVM進(jìn)行肺結(jié)節(jié)的識(shí)別檢測(cè);Tan[10]等首先基于Li[11]等提出的血管和結(jié)節(jié)增強(qiáng)濾波器進(jìn)行肺結(jié)節(jié)的分割,然后根據(jù)基于高斯模板計(jì)算的散度定位肺結(jié)節(jié)的聚類中心,實(shí)現(xiàn)ROI的提取,最后采用基于遺傳算法的分類器、人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)、SVM三種分類器對(duì)比分析肺結(jié)節(jié)的檢測(cè)效果;Cascio[12]等首先利用區(qū)域增長算法和形態(tài)學(xué)操作提取出ROI,然后基于3D彈簧模型進(jìn)行樣條曲面重建,以便于提取相關(guān)的三維灰度特征和形狀特征,最后采用ANN進(jìn)行肺結(jié)節(jié)的檢測(cè)。雖然以上文獻(xiàn)對(duì)肺結(jié)節(jié)的檢測(cè)方法進(jìn)行了一定的探討,但整體來看,這些方法在特征結(jié)構(gòu)的設(shè)計(jì)和特征集合的表達(dá)方面還存在以下不足:
1)提取特征集合量化ROI時(shí),存在特征結(jié)構(gòu)設(shè)計(jì)不合理的問題,較少考慮全局特征和局部特征、二維特征和三維特征的結(jié)合,并且容易忽視特征分量刻畫的準(zhǔn)確性。
2)特征數(shù)據(jù)融合時(shí),特征表達(dá)的緊致性是一個(gè)棘手的問題,較少考慮剔除特征冗余、保留有效特征,而且無需先驗(yàn)知識(shí)的特征級(jí)融合方法很少被應(yīng)用。
基于以上原因,本文提出了一種基于粗糙集(RoughSets,RS)特征級(jí)融合的肺結(jié)節(jié)檢測(cè)算法。針對(duì)第一個(gè)問題,提取了形狀特征、強(qiáng)度特征和紋理特征,其中在形狀特征中,提出了3個(gè)新的三維特征,即外接球形體積比、表面-中心距離標(biāo)準(zhǔn)差和外接長方體交線距離;在強(qiáng)度特征中,提出了3個(gè)新的三維特征,即強(qiáng)度梯度(由內(nèi)向外)、拉普拉斯散度均值、拉普拉斯散度距離;在特征描述上,使用二維紋理特征和三維形狀特征、強(qiáng)度特征共同量化;針對(duì)第二個(gè)問題,充分考慮粗糙集無需先驗(yàn)知識(shí)和能夠充分保留特征屬性的特點(diǎn),采用粗糙集進(jìn)行特征級(jí)融合,最后采用網(wǎng)格尋優(yōu)算法優(yōu)化SVM核函數(shù)并進(jìn)行肺結(jié)節(jié)的識(shí)別檢測(cè)。為了驗(yàn)證本文算法的有效性、穩(wěn)定性、優(yōu)越性,本文做了4組對(duì)比實(shí)驗(yàn),即粗糙集約簡前后的算法有效性驗(yàn)證實(shí)驗(yàn)、粗糙集約簡前后的算法穩(wěn)定性驗(yàn)證實(shí)驗(yàn)、基于粗糙集特征級(jí)融合算法的優(yōu)越性驗(yàn)證實(shí)驗(yàn)、與其他肺結(jié)節(jié)檢測(cè)算法的性能對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該算法能夠在一定程度上提升特征結(jié)構(gòu)的合理性和特征表達(dá)的緊致性,從而提高肺結(jié)節(jié)的檢測(cè)正確率。
1相關(guān)理論
1.1CT肺結(jié)節(jié)ROI的特征分析及量化
ROI特征由其描述的全面性(即特征分量的維度,過少的特征描述量無法以“多視角”的方式“觀測(cè)”病灶的特性)和刻畫的準(zhǔn)確性(即反映特征真實(shí)性的程度,特征量化數(shù)值偏離真實(shí)信息較多會(huì)造成特征區(qū)分度過低)共同影響,大量的噪聲信息會(huì)降低ROI的特征提取精度,影響最終的檢測(cè)結(jié)果,因此,為全面、準(zhǔn)確地表達(dá)肺結(jié)節(jié)ROI的形態(tài)結(jié)構(gòu)、局部特性,本文在對(duì)肺結(jié)節(jié)ROI醫(yī)學(xué)征象分析的基礎(chǔ)上,提出6個(gè)新的三維特征,并結(jié)合其他形狀特征、強(qiáng)度特征、紋理特征分別從二維和三維角度對(duì)病灶進(jìn)行定性分析和定量刻畫。
1.1.1形狀特征
形狀特征是最直觀的視覺特征,能夠從幾何形狀、邊緣粗糙度、拓?fù)浣Y(jié)構(gòu)等角度表示CT肺結(jié)節(jié)ROI的圓形腫塊征、分葉征、棘狀突起征、空泡征、毛刺征等主要醫(yī)學(xué)征象,本文提取的形狀特征分量主要有:周長、面積、體積、圓形度、矩形度、伸長度、歐拉數(shù)、外接球形體積比、表面-中心距離標(biāo)準(zhǔn)差、角點(diǎn)數(shù)、Hu矩,外接長方體交線距離。
其中:外接球形體積比是三維CT影像所提取的每個(gè)ROIAi(最大直徑是dim(Ai))與其外接球形體積VS(Ai)的比值,反映了該區(qū)域與球形的相似度,如圖1b所示。
(1)
(2)
表面-中心距離標(biāo)準(zhǔn)差,是ROI表面每個(gè)體素C(Si)與區(qū)域中心Ccen(Ai)的坐標(biāo)距離標(biāo)準(zhǔn)差,其值同樣描述了ROI的類球性,如果E2(Ai)的值為0,則該區(qū)域是一個(gè)標(biāo)準(zhǔn)的球形,隨著E2(Ai)的值增大,則該區(qū)域偏離球形的幅度隨之增大,如圖1c所示。
(3)
外接長方體交線距離,是ROI中心體素Ccen(Ai)與其外接長方體6個(gè)切面的12條交線中心dim(Li)(i=1,2,…,12)的距離,可以表示該區(qū)域體素在矩形體中均勻分布的程度,如圖1d所示。
(4)
圖1 三維特征示意圖
1.1.2強(qiáng)度特征
灰度統(tǒng)計(jì)特征是用定量的方法描述二維圖像區(qū)域的最基本特征,從三維角度考慮稱之為強(qiáng)度特征[12],本文提取的強(qiáng)度特征分量有強(qiáng)度均值、強(qiáng)度方差、最大最小強(qiáng)度差值、偏斜度、峰度、強(qiáng)度梯度(由內(nèi)向外)、拉普拉斯散度(均值、差值)。
其中:強(qiáng)度梯度(由內(nèi)向外),對(duì)ROIAi中體積大于0的體素Si不斷地做形態(tài)學(xué)腐蝕處理,求得每一次腐蝕剔除面的均值與上一次操作的均值作比較(初始為0),直到體積為零,如果比值為正,則k=k+1(初始為0),其中n是腐蝕操作的次數(shù)。
(5)
拉普拉斯散度均值,根據(jù)拉普拉斯算子La與原始CT影像卷積后的結(jié)果發(fā)現(xiàn),結(jié)節(jié)周圍灰度值差異較小的區(qū)域其散度卻有明顯的不同,因此,計(jì)算拉普拉斯散度有利于區(qū)分肺結(jié)節(jié)與干擾雜質(zhì)。
E5(Ai)=mean(Ai×La)
(6)
拉普拉斯散度距離,拉普拉斯散度的最大值與最小值的差值,描述了區(qū)域散度的變化范圍。
E6(Ai)=max(Ai×La)-min(Ai×La)
(7)
1.1.3紋理特征
強(qiáng)度特征描述了體素灰度級(jí)分布的相關(guān)信息,基于統(tǒng)計(jì)法的紋理特征是從間隔等距離的空間像素間變化關(guān)系刻畫肺結(jié)節(jié)ROI的潛在特征,本文提取了基于灰度共生矩陣(Gray-LevelCo-occurrenceMatrix,GLCM)的角二階矩、慣性矩、逆差矩、和均值、方差、和方差、差分方差、熵、熵的和、差分熵、信息測(cè)度、相關(guān)系數(shù)、最大相關(guān)系數(shù)[5],基于Tamura紋理特征的粗糙度、對(duì)比度、方向度。
基于以上對(duì)肺結(jié)節(jié)ROI的特征描述分析,表1給出了提取的42維特征分量集合,為便于后續(xù)測(cè)試,按表1中的書寫順序?qū)ζ湟来芜M(jìn)行編號(hào),其中形狀特征編號(hào)依次為fs1~fs18;強(qiáng)度特征編號(hào)依次為fi1~fi8;紋理特征編號(hào)依次為ft1~ft16。
表1CT肺結(jié)節(jié)ROI特征集合
特征類別特征分量維度形狀特征周長、面積、體積、圓形度、矩形度、伸長度、歐拉數(shù)、角點(diǎn)數(shù)、Hu矩(一階矩、二階矩、三階矩、四階矩、五階矩、六階矩、七階矩)、外接球形體積比、表面-中心距離標(biāo)準(zhǔn)差、外接長方體交線距離18強(qiáng)度特征灰度均值、灰度方差、偏斜度、峰度、最大最小灰度差值、強(qiáng)度梯度(由內(nèi)向外)、拉普拉斯散度均值、拉普拉斯散度差值8紋理特征Tamura紋理特征(粗糙度、對(duì)比度、方向度)、GLCM(角二階矩、慣性矩、逆差矩、和均值、方差、和方差、差分方差、熵、熵的和、差分熵、信息測(cè)度、相關(guān)系數(shù)、最大相關(guān)系數(shù))16
1.2粗糙集屬性約簡
醫(yī)學(xué)影像的特征分析有助于人為預(yù)判選取何種特征才能對(duì)ROI進(jìn)行最有效的特征表達(dá),但當(dāng)考慮采用高維特征集合全面刻畫ROI時(shí),人為選取特征描述的主觀性會(huì)造成特征分量信息交叉,使分類算法的性能難以到達(dá)最優(yōu)效果,剔除信息冗余的特征分量有利于構(gòu)建更具適用性、緊致性的肺結(jié)節(jié)檢測(cè)模型,因此,有效的特征降維是解決以上問題的有效途經(jīng)。主成分分析(PrincipalComponentAnalysis,PCA)作為通過特征變換的形式實(shí)現(xiàn)特征降維的常用方法,是把所有的特征分量作為一個(gè)整體進(jìn)行最優(yōu)線性投影,并不注重類別屬性的區(qū)分度,這種忽視掩蓋了非優(yōu)投影方向所存在的重要可分性信息,為彌補(bǔ)這種不足,本文采用粗糙集模型進(jìn)行屬性約簡,降低特征維度。
粗糙集作為一種刻劃不確定性和不完整性的軟計(jì)算數(shù)學(xué)工具,其特點(diǎn)是無需特征集合的先驗(yàn)知識(shí)描述,而是直接從問題的分類知識(shí)出發(fā),在保持較高分類能力的情況下,通過不可分辨關(guān)系導(dǎo)出問題的約簡結(jié)果。其數(shù)學(xué)定義如下:
設(shè)S=(U,A,V,F(xiàn))為一信息系統(tǒng),其中論域U={x1,x2,…,xn},A是屬性集合,V是屬性值集合,F(xiàn)是U中對(duì)象的屬性與其屬性值的關(guān)系映射:U×A→V。
定義1令R={r1,r2,r3,…,rn},且r≠φ,則∩r也是一個(gè)等價(jià)關(guān)系,IND(r)稱為r上的不可分辨關(guān)系,即
IND(r)={(xi, xj)∈U×U|f(xi, r)=f(xj, r) }
定義2對(duì)于任一子集ri∈R,如果IND{R-{ri}}=IND(R),則稱ri是可以約簡掉的。通?;诖植诩膶傩约s簡并不是唯一的,即可能存在多個(gè)約簡子集。
定義3若R劃分為條件屬性C和決策屬性D,則C∪D=R,C∩D=φ,當(dāng)D以依賴度K(0≤k≤1)依賴于C,記為C=>KD。
1.3支持向量機(jī)及其優(yōu)化
SVM是一種基于統(tǒng)計(jì)理論的有監(jiān)督學(xué)習(xí)模型,其主要思想是利用給定的訓(xùn)練樣本構(gòu)造最佳分類超平面,使距離超平面最近的不同類別元素之間的距離最大化。SVM具有學(xué)習(xí)性能優(yōu)、訓(xùn)練時(shí)間短、選擇參數(shù)少、泛化能力強(qiáng)、擬合精度高等優(yōu)點(diǎn),能夠解決線性可分和線性不可分的問題,常被用于目標(biāo)檢測(cè),模式識(shí)別[13-14]。SVM的優(yōu)化函數(shù)和分類函數(shù)為
(8)
(9)