陳楚漢,鐘楊生,王先燕,趙懿琨,代 芬*
1. 華南農(nóng)業(yè)大學(xué)電子工程學(xué)院,廣東 廣州 510642 2. 華南農(nóng)業(yè)大學(xué)動物科學(xué)學(xué)院,廣東 廣州 510642 3. 廣東省蠶業(yè)技術(shù)推廣中心,廣東 廣州 510640
蠶繭雌雄鑒別是蠶繭雜交育種的重要一步[1]。 從熟蠶上蔟到蠶蛹化蛾共約14 d,蠶種場一般在第8天進行削繭鑒蛹辨別雌雄,削繭鑒蛹時間只有4~5 d,在短時間內(nèi),完成削繭鑒蛹需要大量人工,勞動成本高。 使用近紅外光譜對蠶繭進行雌雄鑒別,成本比較高,使用較少的近紅外波段可以節(jié)約成本。
目前關(guān)于蠶繭性別自動鑒定的方法大多都是有損的,需要人工削繭,這些方法有熒光蠶繭辨性[2]、磁共振成像、X射線成像技術(shù),高光譜成像技術(shù)[3],計算機視覺方法和近紅外光譜分析[4-5]等。 目前還沒有結(jié)合化學(xué)計量學(xué)和近紅外光譜的蠶繭性別自動鑒別的研究[6]。 使用全波段光譜進行分析,儀器成本較高,無法大規(guī)模應(yīng)用在實際生產(chǎn)中。
數(shù)據(jù)提取是把之前維度的特征映射到一個更低維度的空間[7],但數(shù)據(jù)提取的方法無法減少使用的近紅外光譜波段。 在近紅外光譜分析中,用特征選擇方法挑選單波段特征[8],然后用挑選出來特征波長對應(yīng)的單波發(fā)光二極管(LED) 或激光光源代替近紅外光譜儀[9],能節(jié)約設(shè)備成本。
根據(jù)上述需求,提出了一種基于統(tǒng)計學(xué)的包裹式方法,基于SVM的自助重加權(quán)采樣(bootstraping re-weighted sampling support vector machines,BRS-SVM)的特征選擇方法。 近紅外光譜分析依靠不同樣品光譜間的微小變化進行分析[10],連續(xù)波段面積能很好反映出不同樣本光譜間的微小差異。 用BRS-SVM分別挑選單波段特征和連續(xù)波段面積特征,再用支持向量機(support vector machines,SVM)和邏輯回歸(logistic regression,LR)建立雌雄分類模型,以挑選相同特征個數(shù)時模型的準確率對特征選擇方法評估,并和其他特征選擇方法比較,分析實驗結(jié)果,以期選擇合適數(shù)量的窄LED燈代替近紅外光譜儀。
基于學(xué)習模型的特征排序方法是基于學(xué)習器,通過衡量學(xué)習器特征的權(quán)重大小,給特征重要性排序,去除不重要的特征。 其優(yōu)勢是可以快速去除大量不重要特征,但是不適合挑選較少特征。 本工作使用基于SVM的特征排序方法(model based ranking support vector machines,MBR-SVM)和邏輯回歸LR的特征排序方法(model based ranking logistic regression,MBR-LR)。
特征選擇的方法分為過濾試,包裹式和嵌入式。 包裹式特征選擇法的特征選擇過程與學(xué)習器相關(guān),使用學(xué)習器的性能作為特征選擇的評價準則,選擇最有利于學(xué)習器性能的特征子集[11]。 遞歸特征消除(RFE)是一種包裹式特征選擇的方法,該方法類似使用了多次基于學(xué)習模型的特征排序方法,每次迭代消除少量特征。 以SVM-REF為例,在每一輪訓(xùn)練過程中,會選擇所有特征來進行訓(xùn)練,繼而得到了分類的超平面,SVM-REF會消除較小的權(quán)重,本工作每次迭代消除兩個特征。
連續(xù)投影算法(successive projections algorithm,SPA) 是前向特征變量選擇方法。 SPA利用向量的投影分析,通過將波長投影到其他波長上,比較投影向量大小,以投影向量最大的波長為待選波長,然后基于矯正模型選擇最終的特征波長。 SPA選擇的是含有最少冗余信息及最小共線性的變量組合。
遺傳算法(genetic algorithm,GA)是模擬達爾文進化論的自然選擇和遺傳學(xué)機理的生物進化過程的計算模型,是一種模擬自然進化過程搜索最優(yōu)解的方法,利用選擇,交叉和突變等進化因子使得種群的適應(yīng)度不斷增強,從而達到優(yōu)勝劣汰的目的。 本工作利用SVM給個體適應(yīng)度評分。
BRS-SVM是一種包裹式法,該方法通過統(tǒng)計學(xué)的方式,評價不同組合的特征子集的得分,逐步選取最優(yōu)的特征子集,子集搜索策略是啟發(fā)式搜索策略,這種搜索策略效率要遠優(yōu)于全局最優(yōu)搜索;自助法是一種啟發(fā)式搜索策略,在光譜特征選擇中有著較好的效果[12]。 BRS-SVM能夠快速有效的尋找最優(yōu)的特征組合。 BRS-SVM大致可以分為子集搜索和子集評價部分,首先初始化每個特征的權(quán)重u和抽取特征的數(shù)量,其中每個特征的初始權(quán)重u相等且和為1,抽取的特征個數(shù)等于樣本特征個數(shù)。 子集搜索部分: (1)首先初始化n個樣本空間,即重復(fù)n次將數(shù)據(jù)隨機分成80%的訓(xùn)練集和20%驗證集,樣本空間個數(shù)n越大,統(tǒng)計次數(shù)就越多;(2)在n個樣本空間下,每個樣本空間按權(quán)重為u進行隨機重復(fù)抽樣,抽取出m個特征。 子集評價部分: (1)根據(jù)自助法,排除重復(fù)的特征,剩下約0.632 m個不重復(fù)的特征;(2)每個樣本空間分別用SVM建模,然后用驗證集準確率評價抽取的特征子集;(3)得分前10%的特征子集有利于學(xué)習器的性能,以得分前10%的特征抽取頻率更新特征的權(quán)重u;(4)以所有樣本空間抽取不重復(fù)特征個數(shù)的評價值更新抽取個數(shù)m。 重復(fù)子集搜索和子集評價部分,直到抽取個數(shù)m滿足需求,算法流程圖如圖1所示。 設(shè)置BRS-SVM的樣本空間大小為200。
圖1 BRS-SVM算法流程圖Fig.1 BRS-SVM algorithm flow chart
所有實驗都重復(fù)計算50次,再求平均值,其中準確率的定義如式(1)所示
(1)
式(1)中,T為數(shù)據(jù)集分類正確的數(shù)量,F(xiàn)為數(shù)據(jù)集分類錯誤的數(shù)量。
所有的運算都是在個人計算機上(Intel Core i5-4200,2.8 GHz CPU和12GB內(nèi)存)用Pycharm(Python版本3.6.5,Tensorflow版本1.14.0,Keras版本2.3.1)進行的。
樣本的漫透射光譜采集使用課題組自行研制的種繭自動分選樣機完成,光譜儀為海洋公司的NirQuest512型便攜式光纖光譜儀,檢測范圍: 900~1 699 nm。 光譜儀設(shè)置積分時間為200 ms,平均次數(shù)為4以提高數(shù)據(jù)的穩(wěn)定性,平滑寬度為4以匹配系統(tǒng)的分辨率,樣機如圖1所示。 樣機工作步驟如下:
(1)將未剝殼的蠶繭放入左邊進料口中,機械臂會抓取蠶繭到轉(zhuǎn)盤中。
(2)轉(zhuǎn)盤再將蠶繭轉(zhuǎn)到光源(100 W的鹵燈泡)處,光源從上向下照射蠶繭,積分球在蠶繭下面采集蠶繭的漫透射光,通過600 μm光纖連接光譜儀。
(3)通過USB線將光譜儀采集的光譜數(shù)據(jù)傳輸給電腦,保存數(shù)據(jù)。
圖2 種繭自動分選樣機Fig.2 Automatic silkworm sorting machine
試驗用的家蠶種繭樣本來自于廣東省蠶業(yè)推廣中心和廣東化州種繭場。 將2019年4月至2020年10月采集的4517個近紅外光譜樣本作為試驗的數(shù)據(jù)集,2021年6月采集的1 695個樣本作為測試集,其中數(shù)據(jù)集信息如表1所示。 9芙×7湘是9芙和7湘的第一代雜交品質(zhì),它們體型大小十分接近。 試驗集和測試集數(shù)據(jù)的采集時間不同,但他們品種接近,用測試集數(shù)據(jù)能很好驗證試驗的有效性。 將繭殼削開,通過觀察蠶繭尾部花紋來判斷蠶蛹雌雄。
表1 試驗數(shù)據(jù)集的詳細信息Table 1 Details of the data sets
圖3為9芙和9芙×7湘通過NirQuest512型便攜式光纖光譜儀采集到的雌雄蠶繭平均光譜,采集范圍為900~1 699 nm。 由圖3可以看出,兩種品種的蠶繭雌雄光譜有5個相同的譜峰,峰值波長分別為918,970,1 084,1 186和1 269 nm。 兩種品種雌雄蠶繭的平均近紅外光譜的譜峰差別不大,且它們譜峰都較寬。 通常,雌蠶蛹的個體要比雄蠶蛹的大,所以相同品種情況下,雌蠶繭的平均近紅外漫透射率要低于雄蠶繭的。 雌雄蠶繭的漫透射近紅外光譜存在交叉,但其交叉規(guī)律較為復(fù)雜,很難觀察出雌雄蠶繭光譜差異較大的波長,因此需要使用相關(guān)算法挑選出相應(yīng)的特征波長。
圖3 蠶繭平均近紅外光譜Fig.3 Mean near infrared spectra of cocoon
將試驗集隨機分為80%的訓(xùn)練集和20%的驗證集。 使用訓(xùn)練集的全波段光譜數(shù)據(jù)建立SVM模型,驗證集準確率為99.16%,以該SVM模型的權(quán)重大小為評判標準,權(quán)重越大特征越重要,將900~1 699 nm波段特征的重要性排序,并根據(jù)排序?qū)⒅匾潭瓤s放到0~1,其中重要程度的計算如式(2)所示
(2)
式(2)中,S為特征重要性的排序。 得到全波段特征重要性熱力圖,如圖4所示,辭雄分類的重要特征都集中在900~1 399 nm,使用該波段范圍的訓(xùn)練集建立SVM模型,驗證集準確率為99.40%,所以我們認為雌雄分類信息大部分在900~1 399 nm波段內(nèi)。
圖4 蠶繭近紅外光譜特征重要性熱力圖Fig.4 The importance heatmap of near infraredspectral characteristics of cocoon
在900~1 399 nm波段內(nèi)挑選蠶繭雌雄分類的有用信息,分別使用MBR-SVM,MBR-LR,REF-SVM和SPA挑選5,10,20,30,40和50個特征,GA和BRS-SVM無法抽取固定的特征個數(shù)。 將試驗集隨機分為80%訓(xùn)練集和20%驗證集,使用挑選出來的特征訓(xùn)練SVM和LR雌雄分類模型,計算驗證集準確率,重復(fù)上述50次,得到平均驗證集準確率如圖5所示,其中MBR-SVM-SVM表示使用MBR-SVM挑選特征,再使用SVM建模,同理可得其他圖例含意。 使用同種特征選擇的方法挑選特征,再使用SVM模型建模的準確率比LR模型準確率高。 挑選5個特征,BRS-SVM-SVM驗證集準確率為93.88%,GA-SVM驗證集準確率為89.24%,而其他特征選擇方法只有80%~82%。 BRS-SVM的性能要優(yōu)于GA-SVM,而GA-SVM的性能要優(yōu)于其他算法。
用特征選擇方法在試驗集中挑選特征,得到的特征再用測試集建立分類模型,測試集準確率如圖5所示。 用測試集900~1 399 nm波段建立SVM雌雄分類模型準確率為95.70%,建立LR雌雄分類模型準確率為95.54%。 用BRS-SVM挑選5個特征使用SVM建模準確率為89.56%,其余準確率大多在86%~87%,SVM建模的準確率比LR的高,當挑選大于9個特征個數(shù)時,RFE-SVM,GA-SVM和BRS-SVM性能接近,用BRS-SVM挑選27個特征SVM建模準確率為94.97%,和使用900~1 399 nm波段建模準確率接近。 通過上述實驗,證明挑選單波段特征時我們的方法要優(yōu)于其他方法,尤其是挑選特征數(shù)量較少的情況下。
圖5 挑選的單波段特征的準確率圖Fig.5 Accuracies of models using selected single-band features
計算試驗集900~1 399 nm波段內(nèi)的面積特征,如900 nm需要計算900,900~901和900~902 nm等15個連續(xù)波段的面積,1 385~1 399 nm范圍向1 400 nm后面的波段計算,共獲取7 500個新的特征,再使用MBR*SVM,MBR-LR,REF-SVM,SPA,GA和BRS-SVM挑選連續(xù)波段的面積特征,其中MBR-SVM,MBR-LR,REF-SVM和SPA分別挑選5,10,20,30,40和50個特征,驗證集準確率如圖6所示,測試集準確率如圖6所示。 用BRS-SVM挑選5個特征再用SVM建模,驗證集準確率為94.17%,測試集準確率為91.95%。 用REF-SVM挑選5個特征再用SVM建模,驗證集準確率為86.30%,測試集準確率為85.91%,用GA挑選5個特征再用SVM建模,驗證集準確率為89.30%,測試集準確率為86.66%,在總特征數(shù)量較多且挑選少量特征的情況下,我們提出的MBR-SVM要優(yōu)于REF-SVM和GA,在挑選特征數(shù)量大于等于20個時,REF-SVM的性能和MBR-SVM,GA相同。
圖6 挑選的連續(xù)波段面積特征的準確率圖Fig.6 Modeling accuracies of selected band area features
圖7(a)為用BRS-SVM挑選的27個單波段特征,用這些特征建立SVM雌雄分類模型測試集準確率為94.97%。 圖7(b)為用BRS-SVM挑選的14個連續(xù)波段面積特征,用SVM建模測試集準確率為94.43%,可用13個LED燈替代近紅外光譜。 可以根據(jù)實際生產(chǎn)需求選擇合適的特征,成本較低準確率要求不高,可選擇挑選連續(xù)波段面積的特征,如用BRS-SVM挑選的5個連續(xù)波段面積特征,再用SVM建模測試集準確率為91.95%,可用5個LED燈替代近紅外光譜。
圖7 (a)BRS-SVM挑選的27個單波段特征; (b)BRS-SVM挑選的14個連續(xù)波段面積特征
為了進一步驗證挑選的特征的有效性,我們用SW2540型便攜式光纖光譜儀采集112個932品種蠶繭的漫透射光譜和77個7xia品種蠶繭的漫透射光譜。 用BRS-SVM挑選的27個單波段特征和14個連續(xù)波段面積特征建立SVM雌雄分類模型,準確率如表2所示。 932品種的分類模型效果差些,這是因為不同光譜儀或者不同品種的蠶繭采集的近紅外光譜存在著差異。
表2 932和7xia品種蠶繭的SVM雌雄分類模型準確率Table 2 Accuracy of SVM sex classification modelfor silkworm cocoons of 932 and 7xia
提出了一種包裹式的特征選擇方法,基于支持向量機的自助重加權(quán)采樣(BRS-SVM)的特征選擇方法,分別對蠶繭近紅外光譜單波段特征和連續(xù)波段特征進行選擇,建立有效的雌雄分類模型。 BRS-SVM與其他特征選擇方法相比性能均有一定優(yōu)化,特別是在挑選少量特征時模型精度最高。 在需求為低成本和低精度的情況下,挑選5個單波段特征,測試集準確率為89.56%,在需求為高精度的情況下,挑選14個連續(xù)波段面積特征,測試集準確率為94.97%。 首次結(jié)合化學(xué)計量法分析蠶繭的近紅外光譜,為蠶繭的雌雄檢測應(yīng)用提供一種實用的解決方案。