馬帥營
(大連民族學(xué)院現(xiàn)代教育技術(shù)中心,遼寧大連 116605)
基于回歸分析的基因芯片圖像傾斜校正方法
馬帥營
(大連民族學(xué)院現(xiàn)代教育技術(shù)中心,遼寧大連 116605)
基因芯片圖像的傾斜校正對圖像分析有著重要意義。利用投影信號對圖像進行行列分割,對僅包括單行(列)樣點的子圖像運用回歸分析完成初步傾斜校正,利用樣點的質(zhì)心進行直線擬合,完成精確校正。實驗表明,對基因芯片圖像的傾斜校正有很高的準確性,且算法簡單易行。
基因芯片圖像;投影信號;回歸分析;傾斜校正
基因芯片的檢測與分析是基因芯片技術(shù)研究中的重要組成部分,其可靠性、準確性直接影響芯片的推廣與使用。其中包括了圖像預(yù)處理、網(wǎng)格定位、背景濾除、熒光信號提取等[1]。要進行芯片分析,首要任務(wù)就是進行網(wǎng)格定位[2-4],也就是在基因芯片圖像上確定各探針的雜交信號點的位置,在此基礎(chǔ)上準確地提取各探針的雜交信號。網(wǎng)格定位是進行后續(xù)芯片分析的前提。而在基因芯片圖像的采集中不可避免地會存在圖像的旋轉(zhuǎn),圖像存在傾斜角。傾斜角的角度判定及校正對后續(xù)的網(wǎng)格定位研究意義重大。
目前的網(wǎng)格定位方法中,文獻[2]提出了基于數(shù)學(xué)形態(tài)學(xué)的方法,利用基因芯片圖像在水平方向和豎直方向的投影信號,將二維圖像分析問題轉(zhuǎn)化為一維信號處理問題,完成網(wǎng)格定位。文獻[3]對該方法做了進一步的改進,其中提到“這里所處理的圖像均已經(jīng)過一定的旋轉(zhuǎn)處理”。所以這種方法只對無傾斜的圖像才有效,對存在傾斜的圖像的校正是該研究的前提。
文獻[4]中采用變形模板匹配法,通過構(gòu)造一個感興趣物體的模板,將模板進行各種變形,包括位移、旋轉(zhuǎn)、縮放。然后將變形模板與圖像的對應(yīng)區(qū)域比較,使模板與圖像的匹配達到最佳。該方法在計算圖像模板與圖像相似度時計算量很大,因為模板旋轉(zhuǎn)計算的時間復(fù)雜度和空間復(fù)雜度較大,相對于位移和縮放占主要計算量。所以對圖像進行傾斜校正后,將避免模板的旋轉(zhuǎn)匹配計算,大大減少該方法的計算量。
目前,基因芯片圖像的研究已經(jīng)取得一定進展,但如何更加有效地提高網(wǎng)格定位的精確度和速度非常值得研究。本文在前人研究的基礎(chǔ)上提出基因芯片圖像的傾斜校正,可以完善一些研究的前提條件,減少某些研究的算法計算量等等。
本文在對基因芯片圖像的傾斜校正時,包括三個步驟:
(1)通過水平投影信號將基因芯片圖像進行行列分割;
(2)采用回歸分析法,快速的對分割出的行列計算傾斜角及均值,進行初步的傾斜校正;
(3)重復(fù)(1),計算基因芯片行列子圖像中樣點的質(zhì)心,對質(zhì)心采取直線擬合的方法,完成精確的傾斜校正。
1.1 基于投影信號的基因芯片圖像的行列分割
首先對基因芯片圖像進行預(yù)處理,包括濾波、腐蝕、膨脹等數(shù)學(xué)形態(tài)學(xué)運算,濾除噪聲,提高圖像質(zhì)量。然后對圖像進行自適應(yīng)閥值分割,將基因芯片圖像變?yōu)槎祱D像,如圖1(圖像中包含10行、10列樣點)。
圖1 預(yù)處理后的圖像
在對圖像進行回歸分析前,需要對圖像進行行列分割,獲得只包含單行或單列樣點的子圖像,據(jù)此估算各行(列)的傾斜角。本文采用投影方法,對二值圖像f(x,y)沿水平方向計算投影信號,如圖2。投影信號計算公式為
式中,n為圖像f(x,y)的寬度。
投影信號圖中具有波峰波谷特性,其中波谷代表了各行樣點的行間隔。通過對投影信號進行曲線擬合,求出曲線的各個極小值,用其所代表的波谷位置來分割相鄰的兩行樣點圖像,最終分割出芯片陣列的行列子圖像,如圖3。這里,在對列的處理時,將圖像旋轉(zhuǎn)90°,轉(zhuǎn)化為對行計算,簡化計算,避免列的斜率為無窮大。
當圖像傾斜角較大時(10°以上),無法直接根據(jù)投影信號的波峰波谷準確分割出行列子圖像,如圖4。將圖像進行垂直分割,利用部分圖像投影信號獲得行列子圖像(取圖像的中間1/3部分,如圖5),進而估算傾斜角,以便完成初步的傾斜校正。這種方法,雖然行列子圖像的有效樣點數(shù)量較少,傾斜角的估計準確性隨之降低,但作為粗略的傾角估計仍是可行的。在根據(jù)估計出的傾角進行校正后,繼續(xù)步驟(1)的行列投影,能夠比較好的分割出行列的樣點子圖像,為下一步的精確傾角計算做準備。
回歸泛指變量之間的一般數(shù)量關(guān)系,一元線性回歸通過找到一條擬合直線,用直線上的點來代表散布圖上所有相關(guān)點。滿足“離差平方和最小”條件的直線使得回歸直線與所有檢測數(shù)據(jù)誤差的平方和達到極小值[5]。一元線性回歸方程的一般形式為
式中,表示是從回歸直線上取得的與xi對應(yīng)的yi的計算值;是擬和直線的截距;是擬和直線的斜率。離差δi為任一分析點(xi,yi)偏離回歸直線縱坐標方向的距離。離差平方和為
回歸直線應(yīng)是所有直線中離差平方和最小的一條直線,根據(jù)極值原理,對斜率求偏導(dǎo),并使之為零,解得
針對本文的行列二值圖像,上式中n為文檔圖像中白色像素的個數(shù),(xi,yi)表示每個白色像素點的x坐標和y坐標,i=1……n。傾斜角θ=tan-1(弧度)。這樣,分別對行列子圖像計算傾斜角及均值,按照平均傾斜角對圖像進行初步校正。
本實驗采用模擬的方法,將原基因芯片圖像進行一定角度的旋轉(zhuǎn),然后按本文的方法進行傾斜校正,實驗結(jié)果見表1。從表中結(jié)果可以看到,當傾斜角較小時(10°以下),該方法準確性較高;當傾斜角較大時,誤差較大,需要進一步的精確校正。
表1 初步校正結(jié)果
值得注意的是,當圖像的傾斜角較大時,比如表1中15°傾斜角,所分割出的行子圖像中包含了相鄰行的部分樣點,對回歸分析的傾斜角估計有較大影響,所以誤差較大。
經(jīng)步驟(1)(2)后,原基因芯片圖像完成初步傾斜校正,校正后的圖像傾斜角一般較小。為了進一步的精確校正,再重復(fù)步驟(1),此處所獲得行列分割子圖像一般僅包含單個行列的樣點,而相鄰行列的樣點不會被包含進入。為了更加精確地計算傾斜角,取各子圖像中樣點的質(zhì)心(如圖6),公式為
式中xi,yi為白色樣點坐標。
采用直線擬合如圖7,得到直線的斜率及傾斜角。對所有行列的傾斜角求均值,完成精確的傾斜校正。
對于表1中15°傾斜角經(jīng)初步校正后,采用質(zhì)心的直線擬合計算出傾斜角為6.9385°。
本文提出基因芯片圖像中存在傾斜的問題,而對于網(wǎng)格定位,有些方法中傾斜校正是必要的前提,同時也會減少某些算法(如變形模板匹配法)的運算量。根據(jù)預(yù)處理后的基因芯片圖像,運用行列分割子圖像的回歸分析,初步校正圖像,繼而完成質(zhì)心直線擬合的精確校正。
[1]邢克禮,丁紅軍.基于MATLAB的基因芯片圖像預(yù)處理[J].醫(yī)療衛(wèi)生裝備,2008(4):9-11.
[2]HIRATA J R,BARRERA J,HASHI MOTO R F,et al. Microarray gridding by mathematical morphology[C]. Proceedings of the 14th Brazilian Symposium on Computer Grahics and I mage Processing,Brazil,2001:112-119.
[3]胡園園,孫嘯,何農(nóng)躍,等.基于圖像投影的基因芯片圖像網(wǎng)格定位[J].生物醫(yī)學(xué)工程學(xué)雜志,2005,22 (4):668-671.
[4]李興珊,孫嘯,袁春偉.基于遺傳算法的基因芯片圖像網(wǎng)格定位[J].生物物理學(xué)報,2002(2):223-226.
[5]孔祥玲.直線回歸分析及其數(shù)據(jù)控制評定[J].計量與測試技術(shù),2007(10):15-17.
A Gene-chip Image Tilt Correction Approach Based on Regression Analysis
MA Shua i-ying
(Modern Educational Technology Center,Dalian NationalitiesUniversity,Dalian Liaoning 116605,China)
Gene-chip image tilt correction isof great significance to i mage analysis.We divided the gene-chip image into rows and columns by projection signals,before using regression analysis to preli minarily correcting sub-images that each includes a single row(or column)of sample points.We finally performed linear fittingwith the centroids of the sample points to complete precise correction.The experiment showed that thismethod has a high accuracy of tilt correction for gene-chip images alongwith a simple and easy-to-use algorithm.
gene-chip image;projection signal;regression analysis;tilt correction
TP391
A
1009-315X(2010)01-0065-03
2009-06-12
馬帥營(1980-),男,河南洛陽人,助工,主要從事神經(jīng)網(wǎng)絡(luò)、模式識別等研究。
(責任編輯 劉敏)