高維蛋白質(zhì)波譜癌癥數(shù)據(jù)特征提取
吳文峰,劉毅慧*
(齊魯工業(yè)大學(xué)信息學(xué)院,濟(jì)南 250353)
摘要:高維蛋白質(zhì)波譜癌癥數(shù)據(jù)分析,一直面臨著高維數(shù)據(jù)的困擾。針對高維蛋白質(zhì)波譜癌癥數(shù)據(jù)在降維過程中的問題,提出基于小波分析技術(shù)和主成分分析技術(shù)的高維蛋白質(zhì)波譜癌癥數(shù)據(jù)特征提取的方法,并在特征提取之后,使用支持向量機(jī)進(jìn)行分類。對8-7-02數(shù)據(jù)集進(jìn)行2層小波分解時,分別使用db1、db3、db4、db6、db8、db10、haar小波基,并使用支持向量機(jī)進(jìn)行分類,正確率分別達(dá)到98.18%、98.35%、98.04%、98.36%、97.89%、97.96%、98.20%。在進(jìn)一步提高分類識別正確率的同時,提高了時間率。
關(guān)鍵詞:小波分析;主成分分析;蛋白質(zhì)波譜;降維;分類
中圖分類號:Q629.73文獻(xiàn)標(biāo)志碼:A
Feature selection for high-dimensional cancer protein mass spectrometry data
WU Wenfeng,LIU Yihui*
(SchoolofInformation,QiluUniversityofTechnology,Jinan250353,China)
Abstract:The analysis of high-dimensional cancer protein mass spectrometry data is full of trouble from high-dimensional data.We propose method for selecting the feature of high-dimensional cancer protein mass spectrometry data based on the wavelet analysis and principal component analysis,and solving the faled problems when we reduce the dimensionality of high-dimensional cancer protein mass spectrometry data.After feature selection,we use the support Vector Machine(SVM) for classification.We use wavelet decomposition on 8-7-02 data set at second level,use different wavelet basis(db1,db3,db4,db6,db8,db10,haar) and classify them with the SVM, then we get different recognition rates:98.18%,98.35%,98.04%,98.36%,97.89%,97.96%,98.20%.Improve the classification accuracy and the efficiency of time simultaneously.
Keywords:Wavelet analysis;Principal component analysis;Protein mass spectrometry;Dimensionality reduction;Classify
近年來,蛋白質(zhì)組學(xué)迅速發(fā)展。蛋白質(zhì)波譜數(shù)據(jù)分析在癌癥檢測中得到了越來越廣泛的應(yīng)用。目前,在蛋白質(zhì)波譜分析過程中,波譜信息主要通過基質(zhì)輔助激光解析電離技術(shù)(Matrix-Assisted Laser Desorption/Ionization:MALDI)和表面增強激光解吸離子化飛行時間質(zhì)譜技術(shù)(Surface-Enhanced Laser Desorption/Ionization Time-of-Flight Mass Spectrometry:SELDI-TOF-MS)來獲得[1]。本文中的蛋白質(zhì)波譜數(shù)據(jù),主要是通過SELDI-TOF-MS技術(shù)得到。SELDI-TOF-MS技術(shù)主要由蛋白質(zhì)芯片、飛行時間質(zhì)譜儀和相關(guān)軟件組成,其中蛋白質(zhì)芯片是該技術(shù)的核心。
嚴(yán)勇等通過采用模式識別領(lǐng)域常用的決策樹與AdaBoost技術(shù)來處理醫(yī)學(xué)領(lǐng)域常用的質(zhì)譜分析數(shù)據(jù)[2],研究了弱分類器個數(shù)對分類性能的影響,將AdaBoost與支持向量機(jī)進(jìn)行類比。根據(jù)實驗,從大間隔學(xué)習(xí)的角度,闡述了AdaBoost的優(yōu)勢。AdaBoost是二元分類方法中經(jīng)常用到的一個提升方法[3]。AdaBoost對不同訓(xùn)練集訓(xùn)練時,采用同一個弱分類器,之后把在不同訓(xùn)練集上得到的分類器集合起來,組成一個更優(yōu)的強分類器。鄒修明等在基于蛋白質(zhì)的癌癥診斷實驗中[4],通過基線校正和標(biāo)準(zhǔn)化,并使用分箱法對原始數(shù)據(jù)進(jìn)行降維預(yù)處理,之后使用T檢驗方法來選取特征,對經(jīng)過了一系列處理后的蛋白質(zhì)質(zhì)譜數(shù)據(jù)進(jìn)行分析研究。論文中實驗采用10-fold交叉驗證和支持向量機(jī)對卵巢質(zhì)譜數(shù)據(jù)集進(jìn)行分類。楊合龍等針對如何有效分析高通量SELDI-TOF質(zhì)譜數(shù)據(jù)以及篩選與腫瘤相關(guān)的蛋白質(zhì)位點,提出一種基于近鄰傳播聚類分析 的特征選選擇方法[5]。Kuehl B 等將蛋白質(zhì)波譜分析應(yīng)用于細(xì)菌生理研究,并結(jié)合主成分分析方法,區(qū)分細(xì)菌的不同生理狀態(tài)[6]。EBERLIN L等利用蛋白質(zhì)波譜數(shù)據(jù)研究人類腦瘤,對正常和患病數(shù)據(jù)進(jìn)行分類[7]。王昭鑫等針對癌癥蛋白質(zhì)譜數(shù)據(jù)中包含大量未知的內(nèi)部結(jié)構(gòu)和變量這一特點,在總結(jié)主元余像集主成分分析(二次主成分分析)應(yīng)用的基礎(chǔ)上,提出了應(yīng)用t-驗證方法進(jìn)行特征子集選取,之后用主元余像集主成分分析來提取特征,最后以線性判別分析進(jìn)行分類的新方法[8]。
模式識別和分類的過程中,數(shù)據(jù)特征的質(zhì)量對于識別和分類的速率和正確率至為重要。需要預(yù)先對數(shù)據(jù)進(jìn)行降噪、降維、歸一化等預(yù)處理,之后再提取特征,最后基于降維后的特征來進(jìn)行模式的識別和分類。目前常用的數(shù)據(jù)降維降噪處理的方法有主成分分析法、T-test法、Boosting、遺傳算法、模擬退火算法、小波分析法等[9-14]。小波分析技術(shù)可以用于蛋白質(zhì)質(zhì)譜數(shù)據(jù)的分析,用它做降維去噪處理后的低頻系數(shù),可以有效的表征蛋白質(zhì)質(zhì)譜數(shù)據(jù)的特征信息。
高維數(shù)據(jù)的降維和特征提取方法研究依然很重要。本文將離散小波分析和主成分分析方法相結(jié)合,對幾組癌癥數(shù)據(jù)進(jìn)行多維降噪處理,提取低頻系數(shù)作為其特征數(shù)據(jù)。在小波分析過程中,對高維蛋白質(zhì)波譜數(shù)據(jù)進(jìn)行不同層的小波分解和基于不同小波基的分解,并做了詳細(xì)的比較,選擇出具有最佳識別率的分解層數(shù)和小波基。在之后的主成分分析過程中,通過實驗比較,選擇出最佳主成分。本文中將使用支持向量機(jī)對提取的特征數(shù)據(jù)進(jìn)行分類。
1相關(guān)理論
1.1小波分析技術(shù)
時頻分析,是時頻聯(lián)合域分析的簡稱。它提供了信號的時間域和頻率域的聯(lián)合信息,描述信號頻率隨著時間變化的關(guān)系。
小波分析是時頻分析的一種,它在時域和頻域里都能很好的表征局部信號特征,是一種多尺度信號分析方法。小波作為一重要的線性時頻展開方法,不同于短時傅里葉(Fourier)變換,它是將信號展開為持續(xù)時間很短的高頻基函數(shù)和持續(xù)時間較長的低頻基函數(shù),而這些不同的基函數(shù)是從單個原象小波通過平移和伸縮得到。小波又分兩大類:連續(xù)小波和離散小波。
(1)
稱Ψ是一個基小波或者稱作母小波,其中,R為實數(shù),t為時間。把基小波伸縮和平移,可以得到一個小波序列
(2)
其中,a,b∈R,并且a≠0。a稱為伸縮因子,b稱為平移因子。式子
(3)
(4)
本文中,采用了離散小波變換,其中,Z為整數(shù)。
小波分析中,選擇一個小波基并確定一個小波分解的層次N,然后對已知信號進(jìn)行N層小波分解,如圖1所示為小波分解示意圖以及部分小波基,圖2、圖3分別為小波分解前后數(shù)據(jù)信號波形。
圖1 小波分解及小波基
注:圖(a)為小波分解:原始信號X經(jīng)過一次分解后,得到高頻系數(shù)cD1和低頻系數(shù)cA1。之后再次對低頻系數(shù)進(jìn)行分解,每次分解都會得到高、低頻系數(shù)。圖(b)為db3小波。圖(c)為haar小波。
Notes:(a) is wavelet decomposition:fter first level wavelet decomposition on x,we get high frequency coefficient cD1 and low frequency coefficient cA1.Then decompose high frequency coefficient again,we will get high frequency coefficient and low frequency coefficient every decomposition. (b) is db3 wavelet basis. (c) is haar wavelet basis.
圖2 8-7-02數(shù)據(jù)集第一組數(shù)據(jù)原始信號波形
注:數(shù)據(jù)有15 154個屬性,作為Time軸,屬性值作為Frequency軸。
Notes:The original waveform of the first series data of 8-7-02 data set:the data set has 15 154 properties,set the properties as Time axis, property values as Frequency axis.
圖3 8-7-02數(shù)據(jù)集第一組數(shù)據(jù)處理后波形
注:采用db3小波基、4層作為參數(shù)進(jìn)行小波分解后波形,此時數(shù)據(jù)剩余951個屬性。
Notes:After fourth level wavelet decomposition on the first series data of 8-7-02 data set,use db3 wavelet basis:the data has 951 properties now.
1.2主成分分析
主成分分析(Principal component analysis,PCA)最早由皮爾遜(Pearson,1901)引入,后來由霍特林(Hotelling,1933)進(jìn)一步發(fā)展。它是將多個線性相關(guān)變量壓縮為少數(shù)幾個不相關(guān)的變量的一種多元統(tǒng)計方法,最早由Pearson在研究對空間中的數(shù)據(jù)進(jìn)行最佳直線和平面擬合時提出[16]。它通過提出嚴(yán)格線性相關(guān)或相關(guān)性較強的自變量的信息,選擇其中某些維度來表征原有數(shù)據(jù),以此達(dá)到降維的目的。通常,它對數(shù)據(jù)各維度進(jìn)行信息貢獻(xiàn)率的計算,并對數(shù)據(jù)維度按照貢獻(xiàn)率排序。之后,可以根據(jù)需要自行選取特定的維度來表征原始數(shù)據(jù)。
假設(shè)問題中有p個指標(biāo),把這些指標(biāo)看成p個隨機(jī)變量X1,X2,…,Xp,主成分分析是要把這p個指標(biāo)問題轉(zhuǎn)化為p個指標(biāo)的線性組合問題。這些新指標(biāo)F1,F(xiàn)2,…,Fk(k≤p),遵循保留主要信息量原則來反映原來指標(biāo)信息,并且它們相互之間獨立。
滿足如下條件:
(1)每個主成分系數(shù)平方和是1,即
(2)主成分之間相互獨立,即
(3)主成分的方差遞減,重要性遞減,即
F1、F2…Fp分別稱為原始變量的第一、第二、第p個主成分。如圖4所示為主成份分類散點圖:
圖4 8-7-02 數(shù)據(jù)集分類結(jié)果散點圖
注:黑色點為癌癥數(shù)據(jù),灰色點為正常數(shù)據(jù)。
Notes:Black dots are cancer datas,grey dots are normal datas.
1.3支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)從線性可分情況下的最優(yōu)分類面發(fā)展而來。最優(yōu)分類面就是要求分類線不但能將兩類正確分開(訓(xùn)練錯誤率為0),且使分類間隔最大。支持向量機(jī)考慮尋找一個滿足分類要求的超平面,并且使訓(xùn)練集中的點距離分類面盡可能的遠(yuǎn),也就是尋找一個分類面使它兩側(cè)的空白區(qū)域(Margin)最大[17]。
1.4K折交叉驗證
交叉驗證(K-fold cross-validation)是機(jī)器學(xué)習(xí)數(shù)據(jù)重抽樣常用的方法,并且被廣泛使用。交叉驗證主要有三種,Handout驗證、k折交叉驗證(K-fold cross-validation)、留一驗證(Leave-m-out)。本文主要使用k折交叉驗證(K-fold cross-validation)。其基本過程為:將樣本集隨機(jī)分為K個集合,通常分為K等份,對其中的K-1個集合進(jìn)行訓(xùn)練,剩下的一個集合用來在分類器中進(jìn)行樣本測試。該過程重復(fù)K次,取K次過程中的測試錯誤的平均值作為推廣誤差。
2實驗
2.1實驗數(shù)據(jù)
本實驗中,總共使用了三組SELDI-TOF蛋白質(zhì)質(zhì)譜數(shù)據(jù)集來測試分類器的性能。三組數(shù)據(jù)集中有一組高分辨率卵巢癌數(shù)據(jù)集、兩組低分辨率卵巢癌數(shù)據(jù)集。三組數(shù)據(jù)集來源于文獻(xiàn)[18]。這些數(shù)據(jù)在文獻(xiàn)[18]中分別給予了命名,本論文沿用文獻(xiàn)[18]中的命名。下面簡單介紹這三組數(shù)據(jù)。
2.1.18-7-02數(shù)據(jù)集
這組低分辨率卵巢癌數(shù)據(jù)集在采集數(shù)據(jù)過程中使用了WCX2蛋白質(zhì)芯片,然后使用升級的PBSII 型SELDI-TOF質(zhì)譜儀來生成質(zhì)譜數(shù)據(jù)。這組數(shù)據(jù)集包含 162個卵巢癌樣本和91個正常樣本。每個樣本有15 154個特征。
2.1.2這組數(shù)據(jù)也是低分辨率卵巢癌數(shù)據(jù),亦是采用WCX2蛋白質(zhì)芯片制備樣本的。這組數(shù)據(jù)集由100個卵巢癌樣本和100個正常樣本組成。每個樣本有15 154 個特征。
2.1.3OvarianCD_PostQAQC數(shù)據(jù)集
此組為高分辨率卵巢癌質(zhì)譜數(shù)據(jù)集。它由ABI Qstar型SELDI-TOF質(zhì)譜儀生成的非隨機(jī)卵巢癌樣本和正常樣本組成。卵巢癌樣本121個,正常樣本95個。每個樣本由15 154個特征組成。
2.2基本思路方法
將數(shù)據(jù)預(yù)處理后,通過小波分析技術(shù)進(jìn)行降維處理,之后使用PCA技術(shù),繼續(xù)降維,取出主成分屬性。然后用支持向量機(jī)(SVM)作為分類器,通過k-fold交叉驗證,分類數(shù)據(jù),并評估其性能。主要過程如圖5所示:
圖5 實驗流程圖
2.3實驗
對8-7-02數(shù)據(jù)集實驗結(jié)果進(jìn)行分析。實驗過程中,首先,確定PCA分析所取最佳屬性,實驗中,取能表征數(shù)據(jù)集90%以上主成分分量的最佳屬性。經(jīng)測試,8-7-02數(shù)據(jù)集經(jīng)過小波分析和主成分分析后,前12維屬性貢獻(xiàn)率之和達(dá)到90.61%,故取其前12維屬性,如圖6所示:
圖6 8-7-02數(shù)據(jù)集部分主要維度屬性貢獻(xiàn)率
注:前十二維屬性貢獻(xiàn)率之和為90.61%。
Notes:Sum of the contribution rates of the first twelve properties is 90.61%.
通過圖3的思路,對8-7-02數(shù)據(jù)集進(jìn)行分類,其中k-fold驗證中參數(shù)取5,小波變換過程中,分解層數(shù)分別取1到5層,小波基分別取haar和dbN小波系。最終得到在不同小波分解層數(shù)和不同小波基條件下的分類情況。結(jié)果如表1所示:
實驗一:取前十二維屬性,對比分析不同小波基、分解層數(shù)實驗效果。
由實驗結(jié)果數(shù)據(jù)可以看到,隨著小波分解層數(shù)增加,分類正確率、靈敏性、特異性都略有下降,每增加一層分解,數(shù)據(jù)屬性維度就會減少一半,數(shù)據(jù)維度太多或太少,都不能很好的實現(xiàn)分類效果。另外,小波分解之后,對得到數(shù)據(jù)進(jìn)行主成分分析,數(shù)據(jù)的前少數(shù)屬性維即可很好的表征數(shù)據(jù)特征,不需要太多冗余屬性維,這大大降低了數(shù)據(jù)維度,為之后的分類減輕了很大的負(fù)擔(dān),極大的提高了效率。最終經(jīng)實驗分析得出,8-7-02數(shù)據(jù)集在使用db3小波基,小波分解層數(shù)為1,取前12維屬性時,其分類效果最佳:正確率98.38%,靈敏性98.79%,特異性98.15%。見表1、表2、表3。
實驗二:固定小波基和分解層數(shù),對比選取不同主成分屬性實驗效果。
當(dāng)分別取前6、9、12維屬性,使用db4小波基、3層分解時,實驗結(jié)果對比如表4所示:
表1 不同小波基在不同分解層數(shù)條件下分類正確率
表2 不同小波基在不同分解層數(shù)條件下對應(yīng)靈敏性
表3 不同小波基在不同分解層數(shù)條件下對應(yīng)特異性
表4 不同維度數(shù)據(jù)在相同小波分解條件下結(jié)果
從表中數(shù)據(jù),我們可以看出,隨著維度數(shù)量的增加,正確率逐漸提高,但是當(dāng)維度達(dá)到一定數(shù)量之后,正確率的增加量逐漸減小。
其他數(shù)據(jù)集同樣經(jīng)上述思路進(jìn)行實驗處理后,具體實驗數(shù)據(jù)如下:
3.3.14/3/02數(shù)據(jù)集:
經(jīng)實驗處理后,本組數(shù)據(jù)前10維屬性貢獻(xiàn)率之和達(dá)到90.25%,分類實驗取前10維如圖7:
圖7 4/3/02 數(shù)據(jù)集部分主要維度屬性貢獻(xiàn)率
注:前十維屬性貢獻(xiàn)率之和為90.25%。
Notes:Sum of the contribution rates of the first tenth properties is 90.25%.
由實驗數(shù)據(jù)我們看到,對4/3/02 數(shù)據(jù)集進(jìn)行實驗,當(dāng)使用db8小波基,小波分解層數(shù)為1時,其分類效果最佳:正確率86.45%,靈敏性87.00%,特異性85.90%。見表5、表6、表7。
表5 不同小波基在不同分解層數(shù)條件下分類正確率(4/3/02數(shù)據(jù)集)
表6 不同小波基在不同分解層數(shù)條件下對應(yīng)靈敏性(4/3/02數(shù)據(jù)集)
表7 不同小波基在不同分解層數(shù)條件下對應(yīng)特異性(4/3/02數(shù)據(jù)集)
3.3.2OvarianCD_PostQAQC數(shù)據(jù)集
經(jīng)實驗處理后,本組數(shù)據(jù)前145維屬性貢獻(xiàn)率之和達(dá)到90.14%,分類實驗取前145維,如圖8:
由實驗數(shù)據(jù)我們看到,對OvarianCD_PostQAQC數(shù)據(jù)集進(jìn)行實驗,當(dāng)使用db10小波基,小波分解層數(shù)為3時,其分類效果最佳:正確率92.18%,靈敏性91.00%,特異性93.10%。見表8、表9、表10。
圖8 OvarianCD_PostQAQC 數(shù)據(jù)集部分主要維度屬性貢獻(xiàn)率
注:前145維屬性貢獻(xiàn)率之和為90.14%。
Notes:Sum of the contribution rates of the first 145thproperties is 90.14%.
表8 不同小波基在不同分解層數(shù)條件下分類正確率(OvarianCD_PostQAQC數(shù)據(jù)集)
表9 不同小波基在不同分解層數(shù)條件下對應(yīng)靈敏性(OvarianCD_PostQAQC數(shù)據(jù)集)
表10 不同小波基在不同分解層數(shù)條件下對應(yīng)特異性(OvarianCD_PostQAQC 數(shù)據(jù)集)
4討論與結(jié)論
經(jīng)過一系列的實驗,我們發(fā)現(xiàn),同一組數(shù)據(jù),在進(jìn)行小波分解時,采用同一小波基,當(dāng)分解層數(shù)不同時,分類結(jié)果會略有不同,如8-7-02數(shù)據(jù)集在使用db3小波基時,在一到五層分解時正確率分別為98.38%、98.35%、97.83%、97.65%、96.26%。另外,不同小波基,在相同分解層數(shù)條件下,對于數(shù)據(jù)分類結(jié)果,也會有不同影響,正確率會有所不同,但是差別不大,如8-7-02數(shù)據(jù)集在進(jìn)行2層小波分解時,分別使用db1、db3、db4、db6、db8、db10、haar小波基時正確率分別為98.18%、98.35%、98.04%、98.36%、97.89%、97.96%、98.20%。與文獻(xiàn)[4]的綜合識別率基本持平,但是在數(shù)據(jù)處理中,通過小波分析和主成分分析大大降低了數(shù)據(jù)維度,簡化了運算。
本文提出的模型中,先對蛋白質(zhì)波譜數(shù)據(jù)進(jìn)行小波分解,然后通過主成分分析提取特征,之后將特征送入支持向量機(jī)分類。經(jīng)實驗,本模型可以有效的降低數(shù)據(jù)計算量,提高效率,并能較好的對蛋白質(zhì)波譜數(shù)據(jù)進(jìn)行分類。
參考文獻(xiàn)(References)
[1]呂紅. 蛋白質(zhì)質(zhì)譜分析法的研究進(jìn)展[J]. China Pharmacy, 2010, 21(25): 2388-2389.
Lü Hong. The study progress of protein mass spectrometry analysis[J]. China Pharmacy, 2010, 21(25): 2388-2389.
[2]嚴(yán)勇, 王鑫, 楊慧中. 基于決策樹與質(zhì)譜分析數(shù)據(jù)的癌癥判別[J]. 無錫職業(yè)技術(shù)學(xué)院學(xué)報, 2013, 12(1): 31-33.
YAN Yong, WANG Xin, YANG Huizhong. Cancer discriminant based on the decision tree and mass spectrometry analysis data[J]. Proceedings of the Wuxi Institute of Technology, 2013, 12(1): 31-33.
[3]SCHAPIRE R, FREUND Y, BARTLETT P, WEE SUN L. Boosting the margin:a new explanation for the effectiveness of voting methods[J]. The Annals of Statistics, 1988, 26(5): 1651-1686.
[4]鄒修明, 羅楠, 孫懷江. 基于T檢驗與支持向量機(jī)的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析[J]. 淮陰師范學(xué)院學(xué)報(自然科學(xué)), 2011, 10(5): 409-413.
ZOU Xiuming, LUO Nan, SUN Huaijiang. Protein mass spectrometry analysis based on T-test and svm[J]. Proceedings of the Huaiyin Normal Univerity(natural sciences), 2011, 10(5): 409-413.
[5]楊合龍, 祝磊, 韓斌. 運用近鄰傳播聚類分析進(jìn)行SELDI-TOF蛋白質(zhì)譜特征選擇[J]. 中國生物醫(yī)學(xué)工程學(xué)報, 2013, 32(1): 14-18.
YANG Helong,ZHU Lei, HAN Bin. SELDI-TOF protein mass spectrometry feature selection based on neighbor clustering analysis[J]. Chinese Journal of Biomedical Engineering, 2013, 32(1): 14-18.
[6]KUEHL B, MARTEN S, BISCHOFF Y, et al. MALDI-ToF mass spectrometry-multivariate data analysis as a tool for classification of reactivation and non-culturable states of bacteria[J]. Anal Bioanal Chem, 2011, 401: 1593-1600.
[7]EBERLIN L, NORTON I, DILL A, et al. Classifying human brain tumors by lipid imaging with mass spectrometry[J]. Cancer Research, 2012, 72: 645-654.
[8]王昭鑫, 劉毅慧. 主元余像集主成分分析在蛋白質(zhì)質(zhì)譜數(shù)據(jù)中的應(yīng)用[B]. 生物信息學(xué), 2009, 7(3): 219-222.
WANG Zhaoxin, LIU Yihui. Application of 2nd PCA on protein mass spectrometry data[B]. Chinese Journal of Bioinformatics, 2009, 7(3): 219-222.
[9]BEHDAD M, FRENCH T, BARONE L, et al. On principal component analysis for high-dimensional XCSR[J]. Evolutionary Intelligence, 2012, 5(2): 129-138.
[10]Baldi P, Long A. A Bayesian framework for the analysis of microarray expression data:regularized t-test and statistical inferences of gene changes[J]. Bionformatics, 2001, 17: 509-519.
[11]ZHAO J. Asymptotic convergence of dimension reduction based boosting in classification[J]. Journal of Statistical Planning and Inference, 2013, 143(4): 651-662.
[12]李義峰, 劉毅慧. 基于遺傳算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)特征選擇[J]. 計算機(jī)工程, 2009, 35(19): 192-197.
LI Yifeng, LIU Yihui. Feature selection for protein mass spectrometry data based on genetic algorithm[J]. Computer Engineering, 2009, 35(19): 192-197.
[13]李義峰, 劉毅慧. 基于模擬退火算法的高分辨率蛋白質(zhì)質(zhì)譜數(shù)據(jù)特征選擇[J]. 生物信息學(xué), 2009, 2(7): 85-90.
LI Yifeng, LIU Yihui. Feature selection based on simulated annealing algorithm for high-resolutio protein mass spectrometry data[J]. Chinese Journal of Bioinformatics, 2009, 2(7): 85-90.
[14]LIU Yihui. Feature extraction and dimensionality reduction for mass spectrometry data[A]. Computers in Biology and Medicine, 2009, 39: 818-823.
[15]張德豐. MATLAB小波分析(第二版)[M]. 北京: 機(jī)械工業(yè)出版社, 2011.
ZHANG Defeng. The wavelet analysis of matlab(the second edition)[M]. Beijing: China Machine Press, 2011.
[16]GELADI P. Notes on the history and nature of partial least squares(PLS) modeling[J]. Journal of Chemometrics, 1988, 2: 231-246.
[17]邊肇祺, 張學(xué)工. 模式識別(第二版)[M]. 北京:清華大學(xué)出版社, 2003.
BIAN Zhaoqi,ZHANG Xuegong. Pattern recognition(the second edition)[M]. Beijing: Tsinghua University Press, 2003.
[18]李義峰. 基于優(yōu)化算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析[D]. 濟(jì)南:山東輕工業(yè)學(xué)院, 2009.
LI Yifeng. Optimization algorithms based protein mass spectrometry data analysis[D]. Jinan: Shandong Polytechnic University, 2009.