秦穎博,孫 杰,陳 平
(1.天津理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,天津300191;2.天津理工大學(xué) 電子信息工程學(xué)院 薄膜電子與通信器件天津市重點(diǎn)實(shí)驗(yàn)室,天津300191)
尿液檢查以其簡(jiǎn)便、快捷、標(biāo)本易得而被臨床檢查所廣泛采用,是目前醫(yī)院臨床常規(guī)檢測(cè)項(xiàng)目之一。尿液成分的形態(tài)表征是對(duì)腎臟實(shí)質(zhì)性變化及其他累及病變的客觀表達(dá)。因而,如何快速準(zhǔn)確的統(tǒng)計(jì)出尿液中各類(lèi)細(xì)胞的種類(lèi)及含量成為人們的研究重點(diǎn)。
長(zhǎng)期以來(lái)人們對(duì)醫(yī)學(xué)圖像的分析主要是依靠人工目測(cè)完成的,因而存在著效率低、工作強(qiáng)度大、易疲勞、人為誤差頻繁等缺點(diǎn)。本文將支持向量機(jī) (SVM)技術(shù)應(yīng)用于尿液細(xì)胞自動(dòng)識(shí)別及分類(lèi)[1-2],通過(guò)對(duì)不同特征參數(shù)的識(shí)別準(zhǔn)確率、識(shí)別效率進(jìn)行對(duì)比,得出采用SVM方法的細(xì)胞識(shí)別分類(lèi)效果良好,達(dá)到輔助醫(yī)務(wù)人員分析和識(shí)別尿液細(xì)胞圖像的目的。本方法可給出病理檢查重要信息,對(duì)疾病診斷、治療監(jiān)測(cè)及健康普查具有重要的臨床意義。
細(xì)胞識(shí)別與分類(lèi)研究技術(shù)是圖像處理,模式識(shí)別和人工智能技術(shù)相結(jié)合的產(chǎn)物,采用SVM對(duì)數(shù)字化細(xì)胞圖像進(jìn)行自動(dòng)處理分析和分類(lèi)的主要方法是運(yùn)用圖像處理分析技術(shù)提取細(xì)胞的特征信息,在這些特征信息的基礎(chǔ)上采用SVM對(duì)細(xì)胞進(jìn)行識(shí)別分類(lèi)。
SVM細(xì)胞識(shí)別與分類(lèi)原理流程圖如圖1所示。
圖1 SVM識(shí)別與分類(lèi)流程
支持向量機(jī)是近幾年出現(xiàn)的一種統(tǒng)計(jì)模式識(shí)別方法[4]。在解決小樣本非線性及高維識(shí)別中有特有的優(yōu)勢(shì),具有極強(qiáng)的泛化能力和其它機(jī)器學(xué)習(xí)方法不可比擬的優(yōu)勢(shì)。其原理是用最優(yōu)超平面作為分離訓(xùn)練數(shù)據(jù)的線性函數(shù),解決線性分類(lèi)問(wèn)題。所謂最優(yōu)超平面是指,若訓(xùn)練樣本 (xi,yi),i=1,...,l,x∈Rd,y∈ {+1,-1},可以被超平面無(wú)差錯(cuò)分開(kāi),且超平面附近的向量離超平面距離最大,這樣的超平面即為最優(yōu)超平面[3]。
式 (1)中w是到超平面的法向量,b是偏移量。求距離最大值等同于求w的最小值
超平面:x·w+b=0要求
式中:C——懲罰因子,ξi——松弛變量.判決結(jié)果方程如下
式中:αi——拉格朗日乘子常數(shù),其值在優(yōu)化過(guò)程中確定。sv——支持向量集合,在很多實(shí)際情況下,訓(xùn)練數(shù)據(jù)集是線性不可分。例如在一維空間中,沒(méi)有任何一個(gè)線性函數(shù)能解決下述劃分問(wèn)題,即圖2所示:一維空間中,實(shí)線、虛線各代表一類(lèi)數(shù)據(jù),我們無(wú)法用線性函數(shù)將這兩類(lèi)數(shù)據(jù)區(qū)分開(kāi),可見(jiàn)線性判別函數(shù)有一定的局限性。
圖2 一維空間數(shù)據(jù)
完全可以建立一個(gè)二次判別函數(shù)
用來(lái)很好的解決上圖中線性不可分的問(wèn)題。決策分類(lèi)規(guī)則是:如果g(x)>0,則判定x屬于C1,如果g(x)<0,則判定x屬于C2,如果g(x)=0,則可以拒絕判定。如圖3所示。
圖3 二維空間的數(shù)據(jù)
二次判別函數(shù)g(x)= (x-a)(x-b)可以寫(xiě)成如下形式
新建向量
這樣判別函數(shù)就可以寫(xiě)成
于是,非線性函數(shù)就轉(zhuǎn)換成了四維空間里的線性函數(shù)。
在SVM中也是利用類(lèi)似的思路解決非線性問(wèn)題的,利用核函數(shù)將低維空間中的線性不可分?jǐn)?shù)據(jù)映射成高維特征空間中的線性可分?jǐn)?shù)據(jù)。在支持向量機(jī)中使用的核函數(shù)主要有:線性核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù)、Sigmoid核函數(shù)四類(lèi)。其中RBF核函數(shù)在實(shí)際使用中效果良好,因而本文采用RBF核函數(shù)作為SVM核函數(shù)。
在RGB色彩坐標(biāo)系統(tǒng)中,任意顏色都可看作是3個(gè)基本顏色——紅 (R,red),綠 (G,green)和藍(lán) (B,blue)的不同組合。
在HSI色彩坐標(biāo)系統(tǒng)中色調(diào)H:由角度表示,它反映了顏色最接近什么樣的光譜波長(zhǎng)。飽和度S:表征顏色的深淺程度,飽和度越高,顏色越深。亮度I:是表示光照強(qiáng)度或稱(chēng)為亮度。本文選擇HSI作為顏色特征。HSI在許多處理中有其獨(dú)特的優(yōu)勢(shì)。首先,在HSI中,亮度分量與色度是分開(kāi)的,I分量與圖像的彩色信息無(wú)關(guān)。其次,在HSI中,色調(diào)H和飽和度S的概念相互獨(dú)立并與人的視覺(jué)系統(tǒng)最為接近。這些特點(diǎn)使得HSI被優(yōu)先用于彩色圖像分析算法中。
從RGB到HSI的轉(zhuǎn)換公式如下[5]
細(xì)胞圖像是一種彩色物體,就單純一個(gè)像素點(diǎn)而言,它所包含的信息量不僅僅指的是是其顏色或色度信息,還有該像素點(diǎn)的空間信息,即該像素點(diǎn)所處的空間位置或者該像素點(diǎn)周?chē)袼氐男畔?。因而在特征參?shù)的選取上,僅有顏色參數(shù)是不可能表達(dá)像素的所有信息,有必要加入空間特征參數(shù)。為了提取某一像素點(diǎn)周?chē)袼氐男畔?,我們以該像素點(diǎn)周?chē)?×5領(lǐng)域?yàn)檠芯繉?duì)象,求取該像素點(diǎn)鄰域中所有像素點(diǎn)顏色特征的平均值作為空間特征。從理論上而言,這種處理更加充分地利用了細(xì)胞圖像所包含的信息。實(shí)驗(yàn)結(jié)果表明,加入空間特征能夠更好地識(shí)別不同種類(lèi)的細(xì)胞。
SVM的分類(lèi)性能主要由兩個(gè)參數(shù)確定,即:懲罰因子c和核函數(shù)的參數(shù)[6]。懲罰因子c用于調(diào)節(jié)學(xué)習(xí)機(jī)器置信范圍和經(jīng)驗(yàn)風(fēng)險(xiǎn)間的比例,使學(xué)習(xí)機(jī)器的推廣能力達(dá)到最好。選取時(shí)由具體的問(wèn)題而定,并取決于數(shù)據(jù)中噪聲的數(shù)量。核函數(shù)和其參數(shù)對(duì)分類(lèi)性能有很大影響,這里我們使用的是RBF核函數(shù)以及其參數(shù)g。SVM的參數(shù)確定過(guò)程實(shí)質(zhì)上就是一個(gè)優(yōu)化的過(guò)程。目前SVM參數(shù)確定方法主要有:經(jīng)驗(yàn)選擇法、實(shí)驗(yàn)試湊法、梯度下降法、交叉驗(yàn)證法[7]、Bayesian法等。本文提出網(wǎng)格搜索交叉驗(yàn)證法確定兩個(gè)SVM參數(shù):懲罰因子c和RBF核函數(shù)的參數(shù)g。
10-折交叉驗(yàn)證法是一種典型的SVM性能評(píng)價(jià)準(zhǔn)則。其主要思想為:將訓(xùn)練樣本集隨機(jī)分為10個(gè)互不相交的子集合,即s1,s2,…s10。對(duì)其中的9個(gè)子集作為訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,求出判決函數(shù),即可對(duì)剩下的一個(gè)子集合進(jìn)行樣本測(cè)試。記其中的錯(cuò)誤分類(lèi)樣本數(shù)為li,該過(guò)程重復(fù)10次,取10次過(guò)程中的測(cè)試錯(cuò)誤的平均值來(lái)估計(jì)期望泛化誤差。利用網(wǎng)格搜索遍歷所有可能的 (c,g)對(duì)值,然后進(jìn)行10-折交叉驗(yàn)證,找出使交叉驗(yàn)證錯(cuò)誤率最小的(c0,g0)對(duì),就為最優(yōu)參數(shù)。具體步驟如下:
(1)首先根據(jù)網(wǎng)格法搜索法初步設(shè)定參數(shù)變化范圍,將所有不同參數(shù)組合按10-折交叉驗(yàn)證求得識(shí)別率。
(2)根據(jù)前述參數(shù)范圍進(jìn)一步細(xì)分網(wǎng)格,得到更精確的參數(shù)值,根據(jù)10-折交叉驗(yàn)證平均正確率排序,選擇分類(lèi)正確率最高的參數(shù)組合作為模型的最優(yōu)參數(shù)。
尿液細(xì)胞識(shí)別分類(lèi)過(guò)程如下:
(1)將尿液細(xì)胞樣本圖片中每一類(lèi)細(xì)胞的特征參數(shù)作為一類(lèi)樣本,并以專(zhuān)門(mén)的格式存儲(chǔ)于數(shù)據(jù)庫(kù)中。
(2)讀取這些特征樣本分量作為SVM的訓(xùn)練樣本進(jìn)行訓(xùn)練,生成支持向量機(jī)分類(lèi)器。
(3)使用已生成的支持向量機(jī)分類(lèi)器對(duì)待檢測(cè)的細(xì)胞圖片所有像素點(diǎn)進(jìn)行預(yù)測(cè)分類(lèi),最終達(dá)到識(shí)別分類(lèi)的目的。
以上過(guò)程操作簡(jiǎn)單,只需使用少量樣本訓(xùn)練一次,生成分類(lèi)器后,就可對(duì)多種細(xì)胞同時(shí)進(jìn)行識(shí)別分類(lèi)。
程序軟件由C++語(yǔ)言編寫(xiě),同時(shí)結(jié)合SQL Server數(shù)據(jù)庫(kù)[8],設(shè)計(jì)出操作簡(jiǎn)單,實(shí)用性強(qiáng)的尿液細(xì)胞識(shí)別分類(lèi)程序。其中SVM部分是基于LIBSVM發(fā)展而來(lái),LIBSVM是臺(tái)灣大學(xué)林志仁教授開(kāi)發(fā)的一套快速高效的SVM模式識(shí)別與回歸的開(kāi)源程序包[9]。
軟件環(huán)境:操作系統(tǒng) Microsoft Windows XP Professional sp3,開(kāi)發(fā)軟件visual studio 2010,release版本。
硬 件 環(huán) 境: 處 理 器 Pentium4,2.40GHZ, 內(nèi) 存1GB RAM。
(1)利用圖像預(yù)處理對(duì)待檢測(cè)細(xì)胞圖像進(jìn)行處理。
利用高斯濾波法對(duì)待檢測(cè)細(xì)胞圖像去噪[4,10],有效的過(guò)濾掉圖像中的散粒噪聲,保留了細(xì)胞圖像的細(xì)節(jié)信息,進(jìn)而改善了細(xì)胞圖像質(zhì)量,如圖4、圖5所示。
(2)分割細(xì)胞圖像結(jié)構(gòu),提取細(xì)胞特征參數(shù)。
在RGB顏色空間中R,G,B值作為顏色特征參數(shù),ave_r,ave_g,ave_b作為空間特征參數(shù)。
在HSI顏色空間中H,S,I值作為顏色特征參數(shù),ave_h(yuǎn),ave_s,ave_i作為空間特征參數(shù)。將以上所有特征參數(shù)儲(chǔ)存于SQL Server數(shù)據(jù)庫(kù)中用于后續(xù)處理。圖6為樣本特征參數(shù)的選取過(guò)程。
為了方便用戶(hù)對(duì)SQL Server數(shù)據(jù)庫(kù)進(jìn)行必要的管理,我們編寫(xiě)了數(shù)據(jù)庫(kù)管理界面,如圖7所示。
圖6 樣本特征選取
圖7 樣本特征參數(shù)管理界面
(3)從數(shù)據(jù)庫(kù)中讀取特征值進(jìn)行SVM訓(xùn)練,通過(guò)網(wǎng)格搜索交叉驗(yàn)證法確定SVM最優(yōu)參數(shù),然后根據(jù)SVM訓(xùn)練結(jié)果及參數(shù)進(jìn)行細(xì)胞識(shí)別分類(lèi)。分類(lèi)結(jié)果如圖8所示。
圖8 RGB色彩系及HSI色彩系下識(shí)別實(shí)驗(yàn)
從圖8中可以明顯地看出,圖8(b)、圖8(c)中的識(shí)別效果比圖8(a)好,而圖8(d)中的識(shí)別效果要好于圖8(b)和圖8(c)。在整幅圖中圖8(d)的識(shí)別效果最好,即HSI色彩系下加入空間特征方法的識(shí)別效果最好。
本實(shí)驗(yàn)一共選取16張圖片,圖片大小為800×600,細(xì)胞種類(lèi)為6類(lèi),共107個(gè),分別為白細(xì)胞、紅細(xì)胞、上皮細(xì)胞、細(xì)胞管型、結(jié)晶、背景和雜質(zhì)歸為一類(lèi),一共六類(lèi)。我們以RGB值作為特征參數(shù)為例,經(jīng)過(guò)大量的實(shí)驗(yàn)測(cè)試,比較不同SVM參數(shù)下的識(shí)別效果,其中(c0,g0)為選取的最優(yōu)參數(shù)對(duì),并分別統(tǒng)計(jì)了各種細(xì)胞的識(shí)別率,見(jiàn)表1。
表1 不同SVM參數(shù)下識(shí)別結(jié)果比較 (%)
以上結(jié)果表明,當(dāng)特征參數(shù)一定時(shí),懲罰因子c和RBF核函數(shù)的參數(shù)g對(duì)SVM的性能起到?jīng)Q定作用,由網(wǎng)格搜索和交叉驗(yàn)證法確定SVM最優(yōu)參數(shù)得到了理想的識(shí)別分類(lèi)效果。
在SVM最優(yōu)參數(shù)確定后,通過(guò)對(duì)不同的方法進(jìn)行訓(xùn)練和測(cè)試,統(tǒng)計(jì)并對(duì)比所得到識(shí)別分類(lèi)的結(jié)果和所消耗的時(shí)間。其中樣本訓(xùn)練時(shí)間和識(shí)別時(shí)間由程序自動(dòng)生成,時(shí)間單位為毫秒 (ms),結(jié)果見(jiàn)表2、表3。
表2 不同特征參數(shù)下識(shí)別結(jié)果比較 (%)
表3 不同特征參數(shù)下識(shí)別效率比較 (ms)
從識(shí)別的準(zhǔn)確度來(lái)看,利用圖像綜合特征的分類(lèi)方法是可行的,采用HSI顏色系作為顏色參數(shù)所取得的效果要比采用RGB顏色系要好。另外加入空間特征參數(shù)要比采用單純顏色特征的分類(lèi)效果要好,這說(shuō)明圖像像素點(diǎn)的信息,不是僅僅用該像素點(diǎn)的顏色就能表達(dá)的還與該像素點(diǎn)周?chē)南袼赜嘘P(guān)。
從識(shí)別的效率來(lái)看,由于HSI顏色參數(shù)是根據(jù)RGB顏色參數(shù)由轉(zhuǎn)換公式計(jì)算而來(lái),因而計(jì)算量的增加導(dǎo)致樣本訓(xùn)練和識(shí)別時(shí)間也會(huì)相應(yīng)增加。在加入?yún)?shù)特征空間后,計(jì)算量也隨之相應(yīng)增加。準(zhǔn)確度與效率一直以來(lái)就是矛盾的,如果過(guò)高的追求精確度,則效率會(huì)有比較大的下降,只能從二者之間取一個(gè)平衡。從程序反饋的消耗時(shí)間來(lái)看,我們?cè)诟冻鲚^小效率的代價(jià)下,提高了識(shí)別準(zhǔn)確度。
實(shí)驗(yàn)結(jié)果表明:在利用SVM對(duì)尿液細(xì)胞進(jìn)行識(shí)別分類(lèi)的過(guò)程中,我們所提出的在HSI顏色空間選取顏色特征參數(shù)和空間特征參數(shù),同網(wǎng)格搜索交叉驗(yàn)證法選取SVM最優(yōu)參數(shù)相結(jié)合的方法得到很好的驗(yàn)證,取得了理想的實(shí)驗(yàn)結(jié)果。
本文選取符合人類(lèi)視覺(jué)感知的HSI顏色空間作為主要特征參數(shù),有效避免了RGB顏色空間的弊端。加入空間特征參數(shù)后,細(xì)胞圖像信息更完整。使用具有廣泛應(yīng)用前景的支持向量機(jī)為基礎(chǔ)的改進(jìn)算法,并采用網(wǎng)格搜索交叉驗(yàn)證法選取最佳的核函數(shù)和相關(guān)參數(shù),最終達(dá)到理想的分類(lèi)效果。還同時(shí)重點(diǎn)考慮算法的實(shí)用性,便利性和可擴(kuò)展性。以visual c++為平臺(tái)設(shè)計(jì)軟件,使其具有良好的兼容性,方便用戶(hù)使用。使用SQL Server數(shù)據(jù)庫(kù)保存特征數(shù)據(jù),為以后的尿液細(xì)胞識(shí)別分類(lèi)的網(wǎng)絡(luò)化應(yīng)用打下基礎(chǔ)。
:
[1]GU Yaxiang,DING Shifei. Advances of support vector machine [J].Computer Science,2011,38 (2):14-17 (in Chinese).[顧亞祥,丁世飛.支持向量機(jī)的研究進(jìn)展 [J].計(jì)算機(jī)科學(xué),2011,38 (2):14-17.]
[2]WANG Yongfeng,HUANG Siming,XU Jing.A gradient method for choosing kernel parameters for SVM [J].Mathematics In Practice and Theory,2011,41 (1):7-13 (in Chinese). [王永峰,黃思明,徐晶.一種通用的基于梯度的SVM核參數(shù)選取算法[J].北京:數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2011,41 (1):7-13.]
[3]Serafeim Moustakidis,Giorgos Mallinis,Nikos Koutsias,et al.SVM-based fuzzy decision trees for classification of high spa-tial resolution remote sensing images [J].IEEE Transactions on Geoscience and Remote Sensing,2012,50 (1):149-168.
[4]Mila Sonka,Vaclav Hlavac,Roger Boyle.Image processing,analysis and machine vision [M].CL-Engineering,2008.
[5]YE Xiaoling,LIU Yucheng,ZHANG Yingchao.Cell recognition research based on colorimetry and morphology [J].Computer Engineering and Design,2009,30 (6):1495-1498 (in Chinese).[葉小玲,劉玉成,張穎超.基于色度學(xué)與形態(tài)學(xué)相結(jié)合的細(xì)胞識(shí)別研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(6):1495-1498.]
[6]Dheeba J,Tamilselvi.Classification of malignant and benign MICRO-calcification using SVM classifier [C]//IEEE Proceedings of Icetect,2011:686-690.
[7]FENG Heguo.Parameter optimizing for support vector machines classification [J].Computer Engineering and Applications,2011,47 (3):123-125 (in Chinese). [奉和國(guó).SVM分類(lèi)核函數(shù)及參數(shù)選擇比較 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (3):123-125.]
[8]QU Yang.Visual C++實(shí)效編程280例 [M].Beijing:Posts& Telecom Press,2009 (in Chinese). [曲揚(yáng).Visual C++實(shí)效編程280例 [M].北京:人民郵電出版社,2009.]
[9]Hsu Chih wei,Changchih chung,Lin Chih jena.Practical guide to support vector classification [EB/OL].[2012-05-05].http://www.csie.ntu.edu.tw/cjlin.
[10]WANG Zhanquan,XU Hu.Digital image processing technology and engineering case for Visual C+ + [M].Beijing:Post and Telecom Post,2009 (in Chinese).[王占全,徐慧.Visual C++數(shù)字圖像處理技術(shù)與工程案例 [M].北京:人民郵電出版社,2009.]