張洋俐君 高翠芳 陳 衛(wèi) 田豐偉
(1.江南大學理學院,無錫,214122;2.江南大學食品學院,無錫,214122)
分子生物學研究已進入后基因組時代,其中心任務(wù)是更多地關(guān)注基因組表達的蛋白質(zhì)結(jié)構(gòu)和功能。由于基因功能最終通過其表達產(chǎn)物——蛋白質(zhì)來實現(xiàn),因此要了解基因組全部功能活動,最終也必須回到蛋白質(zhì)上[1]。隨著研究的深入,發(fā)現(xiàn)信號肽是引導新合成蛋白質(zhì)實現(xiàn)轉(zhuǎn)移的標志性序列,很多模式生物的蛋白質(zhì)可通過分泌方式輸出到發(fā)酵液。而且信號肽對蛋白質(zhì)的定位有著非常重要的作用,使得信號肽的研究不僅具有重要的理論意義,而且也具有潛在的應(yīng)用價值[1]。這使得準確地識別出信號肽成為了首要工作。
原始信號肽序列用字母符號表示,這種符號不能直接作為識別算法的計算數(shù)據(jù)。為了方便計算和進行數(shù)據(jù)處理,必須把符號序列轉(zhuǎn)化成用數(shù)字表示的特征向量,因此在信號肽識別的智能算法中,特征提取起著關(guān)鍵作用。但是,信號肽一般由15~30個氨基酸組成,其長度變化和氨基酸序列變化都很大,而且不同種屬的信號肽的長度也有所不同,這對信號肽的識別造成很大困難,而要準確地識別區(qū)分不同種屬的信號肽,以達到實驗或研究的目的更是一個巨大挑戰(zhàn)。通常很難找到那些最重要的特征,或受條件限制不能對它們進行測量,這就使得信號肽的特征提取任務(wù)復雜化[2-4]。
對于信號肽的特征提取研究,已經(jīng)有學者提出了數(shù)理統(tǒng)計方法和頻譜分析方法,如氨基酸組分特征[5],小波能量特征[6]和馬爾科夫轉(zhuǎn)移特征[7]。其中馬爾科夫轉(zhuǎn)移特征既包含了氨基酸殘基的出現(xiàn)次數(shù),又體現(xiàn)了氨基酸的排列順序。壓縮感知技術(shù)(Compressive sensing,CS),即超完備基的稀疏線性表示問題[8-10],是由Donoho等人在2006年提出,利用變換空間來描述信號,在保證信息不損失的情況下,把對大量稀疏信號的采樣轉(zhuǎn)變?yōu)閷ι倭坑杏眯畔⒌牟蓸?,用測量矩陣將高維信號投影到一個低維空間上,得到具有高判別性的觀測信號[11]。另外,動態(tài)時間規(guī)整算法(Dynamic time warping,DTW)[12-13]的主要思想是把待識別的時間序列與參考模板的時間序列伸長或縮短,直到它們的長度一致,然后利用歐式距離來度量兩個時間序列之間的距離[14-16]。由于時間彎曲距離具有的優(yōu)秀的非線性對齊特性,即使是長度不一致的序列,在計算相似度上也非常準確,使其在語音識別領(lǐng)域成功解決了中發(fā)音長短不一致的問題。在這一對齊過程中,兩個不同長度的時間序列會進行非線性的規(guī)整,找出相互間的最佳對應(yīng)點,然后計算對應(yīng)點間的歐式距離,從而獲得兩條曲線間的相似度,非常適用于分析長度不同的信號肽序列。
在上述研究的基礎(chǔ)上,本文先用馬爾可夫轉(zhuǎn)移頻次矩陣將信號肽轉(zhuǎn)化為稀疏信號,以形成一個數(shù)字特征矢量,再把包含氨基酸組成、排列順序、結(jié)構(gòu)等重要信息的數(shù)字特征矢量轉(zhuǎn)化成稀疏向量并壓縮投影,然后運用壓縮感知技術(shù)提取特征對提取的特征結(jié)合動態(tài)時間規(guī)整算法,將特征向量非線性地彎曲成標準模式,最后采用支持向量機(Support vector machine,SVM)進行分類驗證。以這樣的方式結(jié)合DTW得到的特征向量能有效地反映出信號肽的結(jié)構(gòu)特征信息,比單純使用壓縮感知技術(shù)得到的特征具有更好的分類識別準確率。本文提出的方法能簡單地運用到其他生物序列的識別過程中,并且這種算法能夠?qū)W習出序列中潛在的結(jié)構(gòu)特征,使其在進行序列分類時具有一定優(yōu)勢。
壓縮感知理論建立了新的信號描述和處理理論框架,能很好地應(yīng)用與處理信號肽高密度的符號序列信息[11]。
設(shè)x∈RN為長度為N的一維信號,可由一組正交基(稀疏基)ψ 展開,即
式中:ψ =[ψ1,ψ2,…,ψN]為N×N矩陣,ψi(i=1,2,…,N)為N×1的向量;θ =[θ1,θ2,…,θN]為由N個稀疏系數(shù)θi=ψiTx構(gòu)成的N維向量。當信號x在正交基ψ 上僅有K(K?N)個非零系數(shù)時,則稱ψ 為信號x的稀疏基。
對于信號x,可將其投影到一個測量矩陣Φ =[φ1,φ2,…,φM]上,得到信號x的M個線性測量,即可表示為
式中:Φ 表示M×N的測量矩陣,s表示長度為M的測量向量。將式(1)代入式(2)得到
不難看出,原始的N維信號x降為M維觀測信號s,測量值s并非信號x本身,而是從高維降到低維的投影值。從數(shù)學角度分析,測量值是傳統(tǒng)理論下的原始樣本信號的組合函數(shù),即測量值是包含原始樣本中所有信號的少量高密度信息。
對于結(jié)構(gòu)多樣的信號肽S,根據(jù)上述理論,先構(gòu)建出信號肽序列的馬爾可夫轉(zhuǎn)移頻次矩陣(Markov矩陣U)。信號肽序列通常用一條有順序的符號分布集合來描述,序列鏈接結(jié)構(gòu)中共有20種天然氨基酸,如果把鏈上的氨基酸殘基視為轉(zhuǎn)移狀態(tài),用氨基酸殘基的排列順序反映狀態(tài)間的內(nèi)在關(guān)系,信號肽序列就是一個馬爾可夫過程[2]。首先構(gòu)建一個20×20的Markov矩陣U,矩陣中i行(代表氨基酸X)j列(代表氨基酸Y)的元素為k,表示的是X在前Y在后的相鄰兩個氨基酸在序列中出現(xiàn)的頻次為k次。將U按行展開,得到一維數(shù)字序列x,長度為400。由于信號肽一般由15~30個氨基酸組成,L?400(其中L為信號肽的長度),信息序列x已經(jīng)足夠稀疏,根據(jù)Markov矩陣的構(gòu)建原理,矩陣本身有一個重要的特征就是稀疏性,數(shù)據(jù)中只有小部分對后續(xù)識別是有用的,需要保留,而其余的大部分則要舍棄,相對于信號長度,只有極少數(shù)的幾個系數(shù)非零,其余系數(shù)均為零,非常符合稀疏信號所具有的結(jié)構(gòu)特性。所以本文采用單位正交基作為稀疏基。測量矩陣選擇獨立同分布的高斯隨機矩陣記為Φ ,計算內(nèi)積可得到低維觀測信號s[11]。
圖1顯示了將一個原始信號肽的氨基酸符號序列S使用壓縮感知技術(shù)進行特征提取,得到低維觀測信號s的過程[2]。
圖1 提取信號肽的壓縮感知特征過程示意圖Fig.1 Extraction of signal peptide Feature-CS process diagram
圖1 中:S為原始信號肽的氨基酸符號序列;U為20×20的馬爾可夫轉(zhuǎn)移頻次矩陣;x為長度為400的一維數(shù)字序列;ψ 為400×400的稀疏基,本文選擇單位正交基E;θ 為一維信號x在稀疏基ψ 下的展開;Φ為m×400的測量矩陣,本文選擇高斯隨機矩陣;s為壓縮后的測量數(shù)據(jù),長度為m,m?400,s即為壓縮感知特征;m為壓縮感知特征的維度,本文取m=20。
動態(tài)時間規(guī)整通過對輸入信號進行伸長或縮短直到與標準模式的長度一致,從而克服時間序列長度的不同,提高識別率。該算法對其他時間序列如原始蛋白質(zhì)序列及其特征提取序列同樣適用。
動態(tài)時間規(guī)整算法能夠?qū)⑺鼈冊跁r間維度中非線性地彎曲,然后找出兩個時間序列相互間的最佳對應(yīng)點,得到這兩個序列之間的最佳匹配,以確定他們的相似性程度,這種序列比對方法經(jīng)常用于時間序列分類。其匹配原理如圖2所示。
一段用特定字母表示的信號肽可以被看成是一組時間序列,用壓縮感知技術(shù)降低原信號中的冗余信息,所得到的壓縮感知特征便是它直接從連續(xù)時間信號變換得到的壓縮信號。接著再對壓縮感知特征向量結(jié)合DTW,以期將特征向量非線性地彎曲成標準模式后能更準確地識別出信號肽中的特征結(jié)構(gòu),從而提高信號肽識別準確率。
常用的最近鄰動態(tài)時間規(guī)整算法的思路是先算出測試樣本與每個訓練樣本的動態(tài)距離D,然后將測試樣本歸類為與它最小動態(tài)距離的訓練樣本那一類。該方法思路簡單但卻非常有效。序列Q=[q1,q2,…,qn]與序列C=[c1,c2,…,cm]的時間彎曲距離D定義如下[17]
圖2 動態(tài)時間規(guī)整算法的序列匹配示意圖Fig.2 Schematic diagram of sequence matching based on dynamic time warping algorithm
式中:wk=(i,j)表示的是第k條路徑中序列Q的第i個向量與序列C中的第j個向量是對應(yīng)向量(對應(yīng)點);W為最佳路徑,表示的是此路徑能使式(4)的值最小。
最近鄰動態(tài)時間規(guī)整使得測試集非常依賴與它動態(tài)距離最小的訓練樣本,而其他訓練樣本幾乎對它沒有影響。本文將采用另一種方法結(jié)合DTW,通過這種方法提取的特征能更好地結(jié)合機器學習方法,從而學習出信號肽中特征結(jié)構(gòu)的位置信息,更有利于準確分類。
為了保證結(jié)果的穩(wěn)定性,本文實驗均采用交叉驗證法。例如采用十重交叉驗證法步驟如下:先將數(shù)據(jù)分成10份,取第一份作為訓練集Q,其他為測試集C進行實驗得到第一個準確率;再取第二份為訓練集,其余為測試集進行實驗得到第二個準確率,以此類推,最后對10個準確率求平均值作為最后的分類準確率。由于采用的數(shù)據(jù)都是由分泌蛋白和非分泌蛋白兩個部分組成,因此在分成10份的過程中分別將分泌蛋白和非分泌蛋白各自分成10份,然后同時取它們的一份組成訓練集,剩下的再組成測試集。
結(jié)合DTW算法提取新的特征來代替原來20維的壓縮感知特征s。將第一個測試樣本C{1}與第一個訓練樣本Q{1}得到的時間彎曲距離D(C{1},Q{1})作為該測試集的第一個特征,再以該測試樣本C{1}與第二個訓練樣本Q{2}的時間彎曲距離D(C{1},Q{2})作為第二個特征,以此類推。最后,把得到的新的特征稱為動態(tài)規(guī)整特征[15]。值得說明的是,新提取的特征的維度取決于訓練集中訓練樣本的個數(shù)。為了更清晰地展示算法,以數(shù)據(jù)集Eukaryotes的特征提取過程來說明。Eukaryotes共包括1 009個分泌蛋白和269個非分泌蛋白數(shù)據(jù)。首先分別取前101個分泌蛋白和前26個非分泌蛋白(共127個數(shù)據(jù))組成訓練集Q,剩下的908個分泌蛋白和243個非分泌蛋白(共1 151個數(shù)據(jù))組成測試集C。由于這時的訓練集和測試集仍然是以壓縮感知特征表示,因此分別把訓練集和測試集以QCS,CCS表示為
接著結(jié)合DTW,將測試集以動態(tài)規(guī)整特征表示為
其中時間規(guī)整距離D的算法參考式(4),同理訓練樣本也需要替換為
替換之后樣本為
值得注意的是,所有數(shù)據(jù)集的壓縮感知特征是20維的特征,是因為1.1節(jié)中取壓縮維度m=20。采用十重交叉驗證的Eukaryotes數(shù)據(jù)集動態(tài)規(guī)整特征是127維,但同樣采用十重交叉驗證的Gram+數(shù)據(jù)集,由于其訓練集是由14個分泌蛋白和6個非分泌蛋白組成,它的動態(tài)規(guī)整特征也是20維。也就是說,在不同的數(shù)據(jù)集上采用上文的方法提取動態(tài)規(guī)整特征通常得到的是不同維度的特征,其維度是由入選為訓練集的樣本個數(shù)確定的。
另外,由于動態(tài)規(guī)整特征的每一個分量都是計算動態(tài)時間距離得到的,當數(shù)據(jù)樣本很多的時候具有較長的算法運行時間。為了節(jié)約運算時間,進一步采用帶限制窗的動態(tài)時間規(guī)整算法(DTW-R),在動態(tài)時間規(guī)整的基礎(chǔ)上添加一個限制窗,使得時間序列的彎曲程度不會過大,在一定程度上不會影響識別率,卻能極大地節(jié)省運算時間。
實驗采用的標準數(shù)據(jù)集來源于Nielsen等發(fā)布的網(wǎng)站http://www.cbs.dtu.dk/ftp/signalp/[18]。選擇了其中 3 個物種:(1)真核細胞(Eukaryotes),(2)革蘭氏陽性真細菌(Gram+bacteria),(3)革蘭氏陰性真細菌(Gram-bacteria)。對于分泌蛋白,數(shù)據(jù)集中給出的是信號肽的擴展序列,就是延長到包括部分成熟蛋白序列(與信號肽相鄰的30個氨基酸殘基)。對于非分泌蛋白,由于不存在信號肽,數(shù)據(jù)集中給出的是前70個氨基酸殘基組成的序列片段。數(shù)據(jù)集信息如表1所示。
本文對Eukaryotes,Gram+bacteria,Gram-bacteria三個物種的數(shù)據(jù)集分別采用壓縮感知技術(shù)、氨基酸組分[5]以及尺度小波分析法[6]提取特征。然后再對上述特征向量按1.2節(jié)的方法結(jié)合DTW,分別得到結(jié)合DTW的壓縮感知特征(Feature-CS-DTW,也稱為動態(tài)規(guī)整特征)、結(jié)合DTW的氨基酸組分成分特征(Feature-AAC-DTW)、結(jié)合DTW的小波能量特征(Feature-SW-DTW)。
首先,對上述特征向量使用機器學習算法驗證分類準確率。本文所采用的是目前影響力較高的支持向量機LIBSVM[19]。對于LIBSVM的主要參數(shù)設(shè)置,首先使用的是以多項式為核函數(shù),深度分別取1,2,3代表線性函數(shù),二次函數(shù),三次函數(shù),這樣可以防止欠擬合與過擬合,最后選取最高的分類準確率。除此之外對支持向量機未作更多的參數(shù)設(shè)置,這是為了說明特征提取方法不依賴于支持向量機的參數(shù)設(shè)置來得到更高的分類準確率。使用3種特征向量得到的分類結(jié)果如表2所示。
通過表2可以發(fā)現(xiàn),結(jié)合DTW之后:對于壓縮感知特征,因其是包含了序列結(jié)構(gòu)信息的高密度信息特征,通過引入時間彎曲距離,對整了序列的結(jié)構(gòu)信息特征,能更好地識別出信號肽,分類準確率得到提升;而氨基酸組分特征并不能體現(xiàn)序列的結(jié)構(gòu)信息,所以準確率沒有明顯的變化;相反地,對于小波能量特征,結(jié)合DTW之后反而破壞了原來特征的信息,降低了分類準確率。
表2 結(jié)合DTW算法的前后對比Tab.2 Feature comparison before and after combining with DTW
為了充分利用數(shù)據(jù)集,同時保證結(jié)果的穩(wěn)定性,本文采用的是十重交叉驗證,即入選為訓練集的數(shù)據(jù)樣本個數(shù)是整體的1/10?,F(xiàn)在考慮采用五重交叉驗證的方法,每次入選為訓練集的樣本個數(shù)增加到整體的1/5(訓練集樣本個數(shù)的增加意味著實驗次數(shù)減少),由此來分析訓練集樣本個數(shù)對實驗結(jié)果的影響。實驗表明壓縮感知特征的準確率分別為98.63%,86.10%,96.40%,而動態(tài)規(guī)整特征的準確率分別為99.34%,96.71%,97.56%。
圖3是對3個數(shù)據(jù)集分別采用兩重、三重、五重、十重和二十重交叉驗證得到的壓縮感知特征與動態(tài)規(guī)整特征分類準確率的對比,縱坐標表示最后的分類準確率。
圖3 壓縮感知特征和動態(tài)規(guī)整特征在不同重數(shù)交叉驗證算法下的分類準確率對比Fig.3 Performance comparison between Feature-CS and Feature-CS-DTW with different fold cross verification
由圖3可以發(fā)現(xiàn),動態(tài)規(guī)整特征得到的分類準確度始終高于壓縮感知特征。所以,壓縮感知特征在結(jié)合了DTW之后,具有更好的分類準確率。因此動態(tài)規(guī)整特征結(jié)合機器學習理論,通過將序列在時間維度中非線性規(guī)整,能有效判別出序列是否具有特定的結(jié)構(gòu)信息,從而判別是否為信號肽。
對壓縮感知特征使用不同重數(shù)的交叉驗證中,得到的分類準確率有小范圍的波動,僅在Gram+bacteria數(shù)據(jù)集的波動比稍大,這是由于Gram+bacteria數(shù)據(jù)集的數(shù)據(jù)較少,當采用二十重交叉驗證時,入選為訓練集的樣本個數(shù)僅只有10個,因此在使用支持向量機分類時,由于未充分訓練導致了較低的分類準確率。另外,在對動態(tài)規(guī)整特征使用不同重數(shù)的交叉驗證中,發(fā)現(xiàn)隨著交叉重數(shù)的減少(意味著訓練個數(shù)的增多),分類準確率存在一定程度的增加。但是一味地增加訓練個數(shù)并不一定提升分類準確率,當采用了兩重交叉驗證的時候,由于實驗次數(shù)比較少(只有2次),單次實驗的偶然性容易導致整體的分類準確率較低。此時應(yīng)在使用交叉驗證算法時,既要考慮訓練樣本不會過低,又要考慮實驗次數(shù)不能太少。最后,針對數(shù)據(jù)集樣本的特性,對3個數(shù)據(jù)集都采用三重交叉驗證來進行數(shù)據(jù)處理。
雖然增加訓練樣本個數(shù)能一定程度上提高分類準確率,但是從DTW的算法原理可知,增加訓練集個數(shù)同時意味著增加動態(tài)規(guī)整特征的特征個數(shù),而動態(tài)規(guī)整特征的每一個維度是計算動態(tài)時間距離得到的,當數(shù)據(jù)樣本很多的時候算法運行時間代價會較長。比如在對數(shù)據(jù)集Gram+bacteria動態(tài)規(guī)整特征進行分類運算的時候,程序一共耗時32.54 s,而在數(shù)據(jù)集Eukaryotes上,程序一共耗時1 159.13 s。這說明,數(shù)據(jù)集上的樣本數(shù)據(jù)越多,使用此方法耗時便越長。為了減少計算代價,采用了帶限制窗的動態(tài)時間規(guī)整方法(DTW-R),使得時間序列的彎曲不會過大,在不影響識別率的情況下節(jié)省運行時間。
然后對數(shù)據(jù)集Eukaryotes在不同交叉驗證算法下分別采用DTW和DTW-R進行特征提取,對程序運行時間進行對比,得到結(jié)果如圖4所示。圖中黑色表示采用DTW,白色表示采用DTW-R提取特征??梢园l(fā)現(xiàn)在不同的交叉驗證算法下,結(jié)合DTW-R程序所耗費的時間是結(jié)合DTW的1/5左右,說明DTW-R算法計算代價較小,節(jié)省時間。
接著對3個數(shù)據(jù)集分別采用DTW和DTW-R進行特征分類,并對運行時間和分類準確率進行對此,結(jié)果如圖5所示。同樣,圖中以黑色表示采用DTW,白色表示采用DTW-R,橫坐標1,2,3分別表示數(shù)據(jù)集真核細胞,革蘭氏陽性真菌,革蘭氏陰性真菌。從圖5中發(fā)現(xiàn)DTW-R在節(jié)省時間的同時,還能保持較高的分類準確率。
圖4 DTW與DTW-R特征在不同交叉驗證下的運算時間對比Fig.4 Comparison of running time between Feature-CS-DTW and Feature-CS-DTW-R with different fold cross verification
圖5 3種數(shù)據(jù)集上DTW與DTW-R的性能對比Fig.5 Performance comparison between Feature-CS-DTW and Feature-CS-DTW-R on three data sets
最后,將結(jié)合DTW-R提取的特征映射到二維空間[3],以灰色圓圈表示分泌蛋白,黑色叉號表示非分泌蛋白,畫出數(shù)據(jù)分布圖如圖6所示??梢郧宄吹?,兩組數(shù)據(jù)很容易被區(qū)分開來,并且圓圈和叉號的分布都比較集中。特別地,所有分泌蛋白都被劃分在一個較為緊密的區(qū)域,只有少數(shù)非分泌蛋白被錯誤地分成了分泌蛋白,而分泌蛋白并沒有被錯誤地劃分為非分泌蛋白。說明根據(jù)新方法提取的特征向量具有較好的可鑒別性。
圖6 算法的區(qū)分效果圖Fig.6 Classification of the algorithm
本文結(jié)合壓縮感知技術(shù)和動態(tài)時間規(guī)整算法提出了一種特征提取的新算法,提高了識別信號肽的分類準確率,并進一步利用帶限制窗的動態(tài)時間規(guī)整方法提高算法的計算速度。首先利用馬爾可夫轉(zhuǎn)移頻次矩陣將原始符號序列轉(zhuǎn)化成用數(shù)字表示的特征向量,該向量反映了由前一個氨基酸到后一個氨基酸的轉(zhuǎn)移過程,也一定程度上描述了生物序列的二肽表示信息。接著利用壓縮感知技術(shù)將稀疏數(shù)據(jù)映射到高密度的空間以降低冗余信息,提高分類準確率。最后通過壓縮感知算法將特征向量進行時間維度以標準形式表示。通過在多組數(shù)據(jù)集上進行實驗驗證,結(jié)果顯示利用該方法提取的特征向量較氨基酸組分、尺度小波分析法以及單純的使用壓縮感知技術(shù)所得到的特征向量具有更好的鑒別性。這是因為新的特征向量既體現(xiàn)信號肽中的氨基酸組成、排列順序、結(jié)構(gòu)等重要結(jié)構(gòu)信息,又能把信號肽的不同區(qū)域在時間維度中非線性地彎曲對整,以克服信號肽序列長度的不同,從而得到了比較準確的特征表達。新方法提取的特征向量在3個數(shù)據(jù)集Eukaryotes,Gram+bacteria,Gram-bacteria上的識別率分別達到99.32%,97.32%和98.67%,而使用氨基酸組分成分的識別率分別是78.91%,68.48%和58.72%,使用尺度小波分析法的識別率分別是93.40%,88.59%和88.06%,使用神經(jīng)網(wǎng)絡(luò)的識別率分別是71.8%,66.9%和81.7%[20],使用隱馬爾可夫模型的識別率分別是69.5%,64.5%和81.4%[20]。可以看出該方法在數(shù)據(jù)樣本個數(shù)較少的數(shù)據(jù)集上,信號肽識別效果優(yōu)于其他傳統(tǒng)方法。
值得注意的是,本文方法依然存在一些不足之處。對不同的數(shù)據(jù)集使用本文方法最后得到的特征向量的維度一般來說是不相同的,它是由入選為訓練集的數(shù)據(jù)樣本個數(shù)來確定的。例如使用十重交叉驗證的話,該維度便是樣本總數(shù)的1/10,因此數(shù)據(jù)維度會隨著樣本總數(shù)的增加而變大,當樣本總數(shù)特別大的時候該算法的計算效率通常會很低。
本文下一步研究方向主要包括兩個方面:一個是關(guān)于壓縮感知技術(shù)的壓縮維度的確定,現(xiàn)有的文獻沒有對此進行深入的研究和探討,目前已知的是壓縮維度的選擇不會很大程度地影響最后的分類準確率[2]。本文的數(shù)據(jù)集實驗結(jié)果證明了此結(jié)論,即使是最極端的令壓縮維度為1的情況下。另一個是DTW-R的參數(shù)R(限制窗口的大小)的選擇,目前采取的是默認的10%[17],如若優(yōu)化參數(shù)R將進一步提高分類準確率。