,,, ,
(1.華東交通大學機電與車輛工程學院,江西南昌 330013;2.江蘇大學食品與生物工程學院,江蘇鎮(zhèn)江 212013;3.贛州出入境檢驗檢疫局,江西贛州 341000)
基于近紅外光譜和LSSVM方法的轉(zhuǎn)基因大米鑒別研究
郝勇1,2,溫欽華1,羅秋紅3,饒敏3,陳斌2
(1.華東交通大學機電與車輛工程學院,江西南昌 330013;2.江蘇大學食品與生物工程學院,江蘇鎮(zhèn)江 212013;3.贛州出入境檢驗檢疫局,江西贛州 341000)
采用近紅外漫反射光譜結(jié)合主成分分析(principal component analysis,PCA)和最小二乘支持向量機(least squares support vector machine,LSSVM)研究轉(zhuǎn)基因大米的鑒別方法。采用PCA方法分析大米樣品光譜空間分布;不同的光譜預處理方法:5點平滑、多元散射校正(multiplicative scatter correction,MSC)和標準正態(tài)變量變換(standard normal variate transformation,SNV)結(jié)合LSSVM用于定性判別模型的建立和優(yōu)化;采用格點搜索方法對LSSVM模型的懲罰因子(c)和徑向基核函數(shù)寬度(g)進行優(yōu)化;正確識別率(correct recognition rate,CRR)用于判別模型的評價。結(jié)果表明:MSC結(jié)合LSSVM可用于轉(zhuǎn)基因大米定性判別模型的建立,最優(yōu)模型的CRR為97.50%。該方法有望成為轉(zhuǎn)基因食品快速鑒別的一種輔助方法。
近紅外光譜,轉(zhuǎn)基因大米,主成分分析,最小二乘支持向量機
近些年,轉(zhuǎn)基因技術(shù)得到迅猛發(fā)展,大量抗蟲、抗旱及品質(zhì)改良的轉(zhuǎn)基因農(nóng)作物品種問世。中國已成為世界上種植轉(zhuǎn)基因作物面積最大的國家之一[1-3],轉(zhuǎn)基因食品對人類健康及生態(tài)環(huán)境的潛在影響也日益受到人們的普遍關(guān)注。世界各國都在加強對轉(zhuǎn)基因食品的管理,我國政府相關(guān)監(jiān)管部門也在積極努力地修訂和完善轉(zhuǎn)基因食品安全政策,以加強對轉(zhuǎn)基因食品安全的管理,因此轉(zhuǎn)基因食品的快速檢測是十分重要的[4-6]。水稻是我國重要的糧食作物,為全國約2/3的人口提供食物,因此轉(zhuǎn)基因大米快速檢測方法的研究迫在眉睫。
目前轉(zhuǎn)基因食品檢測方法主要包括轉(zhuǎn)基因核酸檢驗法-定性聚合酶鏈反應(polymerase chain reaction,PCR)、適時PCR、熒光定量PCR、多重PCR、基因芯片、等溫核酸擴增及蛋白檢驗法等方法(含印跡法、酶聯(lián)免疫吸附、免疫試紙條法)[7-11]。在利用PCR進行檢測時,首先需提取所測目標的高質(zhì)量DNA基因組并準備合適的引物,再在適宜的反應體系中培養(yǎng),最后進行凝膠電泳,整個轉(zhuǎn)基因檢測過程繁瑣、費時、檢測成本高且極易造成交叉污染[12]。上述這些傳統(tǒng)檢測方法均存在類似耗時、高成本等不足,因此,急需探索一種準確、快速、簡便且成本低廉的檢測方法用于轉(zhuǎn)基因食品的現(xiàn)場快速檢測。
近紅外光譜的波長范圍為780~2500 nm,主要記錄的是有機物分子中一些含氫基團(C-H、O-H、N-H、S-H等)的倍頻和合頻吸收,容易獲得穩(wěn)定的特征譜圖[13-14]。不同的物質(zhì)在近紅外區(qū)域有特定的、豐富的吸收光譜[15],可以實現(xiàn)復雜物質(zhì)的定性鑒別和定量分析,具有測試方便、速度快、成本低和無損等優(yōu)點。近紅外光譜技術(shù)已在轉(zhuǎn)基因作物及轉(zhuǎn)基因食品的檢測中得到了應用。Aderval[16]等將近紅外光譜技術(shù)與SVM-DA(支持向量機-判別分析)和PLS-DA(偏最小二乘-判別分析)方法相結(jié)合用于轉(zhuǎn)基因和非轉(zhuǎn)基因大豆油的快速鑒別,其中SVM方法的轉(zhuǎn)基因樣本識別率為90%,PLS-DA方法的識別率為80%;謝麗娟[17]采用近紅外光譜技術(shù)結(jié)合多種模式識別方法對轉(zhuǎn)基因番茄進行檢測,轉(zhuǎn)基因樣本的總體識別率為95.81%;翟亞鋒等[18]應用近紅外光譜技術(shù)結(jié)合仿生模式識別方法識別轉(zhuǎn)基因小麥,識別率達到了95.6%;張龍[19]使用近紅外光譜技術(shù)結(jié)合偏最小二乘法識別轉(zhuǎn)基因大米(外來基因為OsTCTP和Osmi166),識別率達到了100%;于燕波[20]利用近紅外光譜結(jié)合DPLS方法進行轉(zhuǎn)基因水稻的識別,其中對稻種中含中作321和日本晴轉(zhuǎn)基因的樣本的識別率為100%,對稻種中含TP309基因樣本的識別率為93.4%。由以上研究可知,基于近紅外的轉(zhuǎn)基因作物的識別效果與選用的化學計量學算法及轉(zhuǎn)基因作物所植入的外來基因的類型有關(guān)。
本文采用近紅外漫反射光譜技術(shù)結(jié)合主成分分析法(principal component analysis,PCA)和最小二乘支持向量機(least squares support vector machine,LSSVM)進行抗蟲轉(zhuǎn)基因大米(含BT基因)判別模型的建立和優(yōu)化,期望為轉(zhuǎn)基因大米的快速鑒別提供一種快速準確的參考方法。
1.1材料及儀器
轉(zhuǎn)基因大米樣本:“Bt汕優(yōu)63”品系大米 該品系是在原有水稻中導入蘇云金芽胞桿菌(BT)基因使其具有抗蟲特性,由中國檢驗檢疫科學研究院提供;轉(zhuǎn)基因大米的對照樣本 未導入抗蟲基因的原始品系“汕優(yōu)63”由市場收集所得;總共收集大米樣本120份,轉(zhuǎn)基因和非轉(zhuǎn)基因大米各60份。
MicroNIR 1700型便攜式微型近紅外光譜儀 美國JDSU公司生產(chǎn),用于大米漫反射光譜的采集。
1.2實驗方法
1.2.1 光譜采集 采用石英玻璃管盛放樣品,裝樣高度約為2 cm,玻璃管直徑與光譜儀圓形檢測窗口相同,檢測時直接將樣品放置于采集窗口進行光譜采集,波長范圍為900~1700 nm。每個樣品采用重復裝樣的方式采集三條光譜,平均光譜作為最終分析光譜。
1.2.2 樣品轉(zhuǎn)基因成分分析 兩類樣本由贛州出入境檢驗檢疫局采用傳統(tǒng)PCR檢測方法進行驗證。使用CTAB試劑提取樣本水稻基因組DNA,將含有CaMV35S啟動子、NOS終止子和Cry1Ac基因的質(zhì)粒作為陽性對照,選用對應的引物,然后進行常規(guī)PCR擴增并將其擴增產(chǎn)物進行凝膠電泳。實驗結(jié)果證實樣本可靠,測試樣本含BT轉(zhuǎn)基因成分,而原始品系樣本不含抗蟲轉(zhuǎn)基因成分。
1.3樣品集劃分及光譜預處理
采用Kennard-Stone(KS)方法[21-22]進行樣品集的劃分,將轉(zhuǎn)基因和非轉(zhuǎn)基因樣品的光譜分別按2∶1的比例劃分為校正集和測試集,因此兩類樣品的校正集光譜分別有40條,測試集則均各有20條光譜。
在大米樣品光譜的采集過程中,為了消除重復裝樣引起的漫反射光程不一致導致的光譜漂移和噪聲等因素的影響,需要對光譜進行預處理,從而提高校正模型的預測能力。本文采用5點平滑、多元散射校正(multiplicative scatter correction,MSC)[23]和標準正態(tài)變量變換(standard normal variate transformation,SNV)[24]3種預處理方法對光譜進行預處理以消除噪聲(隨機誤差)、固體顆粒大小、表面散射以及光程變化等因素對近紅外漫反射光譜的影響。
1.4數(shù)據(jù)分析及評價指標
PCA是一種常用的數(shù)據(jù)降維方法,該方法能夠在最大限度地保留光譜原始數(shù)據(jù)信息的基礎(chǔ)上有效地剔除數(shù)據(jù)中的冗余信息,便于后續(xù)分析。使用PCA對大米樣品的近紅外光譜進行處理,通過光譜主成分的空間分布來判斷能否區(qū)分轉(zhuǎn)基因和非轉(zhuǎn)基因大米。
LSSVM是基于SVM的一種改進算法。它通過構(gòu)造損失函數(shù)將原SVM中算法的二次尋優(yōu)變?yōu)榍蠼饩€性方程,其求解速度較快,在各個領(lǐng)域中都得到了廣泛的應用[25-26]。LSSVM方法共有4種核函數(shù)進行選擇(包括線性核、多項式核、徑向基函數(shù)核和高斯核),其中徑向基函數(shù)核(radial basis function,RBF)由于其良好的非線性問題處理能力而被廣泛應用,因此本文使用RBF函數(shù)來實現(xiàn)LSSVM建模。
采用正確識別率(correct recognition rate,CRR)對判別模型進行評價。正確識別率可準確的表征定性判別模型的優(yōu)劣。
CRR計算公式見式(1):
式(1)
CRR越接近于100%,判別模型的精度越高。
2.1大米樣品的近紅外漫反射光譜
轉(zhuǎn)基因和非轉(zhuǎn)基因大米的原始近紅外漫反射光譜如圖1所示。從漫反射光譜圖中可知轉(zhuǎn)基因和非轉(zhuǎn)基因大米的光譜形狀極其相似,且有部分重疊,肉眼無法從中分辨出是否為轉(zhuǎn)基因大米。因此需通過光譜預處理方法結(jié)合定性判別算法對大米進行定性區(qū)分。
圖1 轉(zhuǎn)基因和非轉(zhuǎn)基因大米的原始近紅外漫反射光譜
2.2大米光譜的主成分分析
PCA方法能夠在保留原始光譜數(shù)據(jù)信息的基礎(chǔ)上進行冗余信息的剔除。采用PCA方法對原始大米樣品的近紅外光譜進行處理,樣品前3個主成分空間分布如圖2所示,非轉(zhuǎn)基因大米和轉(zhuǎn)基因大米的PCA分布圖中部分樣品互相重疊交織在一起,無法完全分離,而且采用該方法無法準確的計算轉(zhuǎn)基因和非轉(zhuǎn)基因大米間的明確界限和CRR值,因此需要進一步采用其它有監(jiān)督的模式識別方法對樣品進行識別。
圖2 轉(zhuǎn)基因和非轉(zhuǎn)基因大米光譜的主成分分布圖
2.3基于最小二乘支持向量機(LSSVM)的轉(zhuǎn)基因大米定性模型建立
在利用LSSVM方法建立定性模型時,除了核函數(shù)的選擇外,需要對算法的懲罰因子(c)和徑向基核函數(shù)的寬度(g)進行優(yōu)化以改善模型的識別效果[27-28]。圖3所示為大米樣品原始光譜采用網(wǎng)格搜索法對c和g的優(yōu)化示意圖。經(jīng)優(yōu)化后的c和g分別為0.177和0.25。
圖3 LSSVM模型參數(shù)c和g優(yōu)化示意圖
采用校正集樣品進行LSSVM模型的建立,測試集樣品用于模型的驗證。在模型構(gòu)建時,非轉(zhuǎn)基因大米光譜的目標值定義為1,轉(zhuǎn)基因大米光譜的目標值則定義為2。分別采用原始光譜、5點平滑、SNV和MSC預處理光譜建立轉(zhuǎn)基因和非轉(zhuǎn)基因大米的LSSVM判別模型,并分別對c和g進行優(yōu)化,計算模型的正確識別率,結(jié)果如表1所示。
由表1可知,原始光譜模型的總體正確識別率為95%,其CRR1和CRR2分別為100%和90%。光譜經(jīng)SNV和MSC方法處理后都得到相同的識別結(jié)果,將光譜模型的總體識別率改善為97.5%。然而,采用MSC進行光譜預處理時,需要采用校正集樣品的平均光譜作為理想光譜對未知樣品光譜進行擬合,因此,該方法對未知樣品預處理時充分參考了建模樣品集的光譜信息,模型的預測可靠性和穩(wěn)定性更好。
表1 最小二乘支持向量機與三種預處理方法結(jié)合的識別效果
注:CRR1為非轉(zhuǎn)基因樣品的識別率;CRR2為轉(zhuǎn)基因樣品的識別率;CRR為測試集樣品的識別率。
圖4 轉(zhuǎn)基因和非轉(zhuǎn)基因大米樣品LSSVM模型識別結(jié)果和樣品實際類別比較圖
圖4為測試集樣品光譜經(jīng)MSC預處理后LS-SVM模型的識別結(jié)果和樣品實際類別比較圖,其中22號樣品識別錯誤,將轉(zhuǎn)基因樣品識別為非轉(zhuǎn)基因樣本,其余測試樣品均為正確識別。模型對轉(zhuǎn)基因和非轉(zhuǎn)基因大米具有較好的識別效果。
論文采用便攜式近紅外光譜儀結(jié)合PCA和LS-SVM方法對轉(zhuǎn)基因大米的快速測定可行性進行了研究,探討了不同光譜預處理方法對模型預測結(jié)果的影響。結(jié)果表明,PCA方法無法很好地區(qū)分轉(zhuǎn)基因和非轉(zhuǎn)基因大米,而LSSVM模型的區(qū)分效果較好;使用MSC進行光譜預處理,均可以優(yōu)化LSSVM模型,預測集樣品的總體識別率達到97.5%,其中轉(zhuǎn)基因和非轉(zhuǎn)基因樣品的正確識別率分別為100%和95%。近紅外光譜結(jié)合LSSVM方法可用于轉(zhuǎn)基因大米的快速檢測,該方法具有快速、無損、準確以及儀器便攜化的優(yōu)點,有望為轉(zhuǎn)基因食品的現(xiàn)場快速鑒別提供參考。
[1]葉敬忠,李華. 關(guān)于轉(zhuǎn)基因技術(shù)的綜述與思考[J]. 農(nóng)業(yè)技術(shù)經(jīng)濟,2014(1):11-21.
[2]KOU J P,TANG Q L,ZHANG X F. Agricultural GMO safety administration in China[J]. Journal of Integrative Agriculture,2015,14(11):2157-2165.
[3]CLIVE J. 2014年全球生物技術(shù)/轉(zhuǎn)基因作物商業(yè)化發(fā)展態(tài)勢[J]. 中國生物工程雜志,2015,36(1):1-14.
[4]宋歡,王坤立,許文濤,等. 轉(zhuǎn)基因食品安全性評價研究進展[J]. 食品科學,2014,135(15):295-303.
[5]HUDSON J. Chapter 27-Genetically modified products and GMO foods:A game of chance?[J]. Developing New Functional Food and Nutraceutical Products,2017(27):481-494.
[6]DUTTA J. Chapter 42-Genetically modified(GM)foods:The food security dilemma[J]. Food Safety in the 21st Century,2017(42):507-514.
[7]王新桐,孫佳芝,高麗麗,等. 轉(zhuǎn)基因棉花中新霉素磷酸轉(zhuǎn)移酶(NPTⅡ)雙抗體夾心ELISA定量檢測方法的建立[J]. 農(nóng)業(yè)生物技術(shù)學報,2014,22(3):372-379.
[8]張麗,曹應龍,王海英,等. 實時熒光定量PCR(qRT-PCR)檢測轉(zhuǎn)基因成分的數(shù)據(jù)分析及其標準化研究[J]. 農(nóng)業(yè)生物技術(shù)學報,2015,23(1):126-134.
[9]丁耀魁,沈娟,馬黎黎. 快速檢測試紙條法在大豆轉(zhuǎn)基因檢測中的應用[J]. 糧油食品科技,2010,18(2):45-46.
[10]魏霜,陳貞,蘆春斌,等. 多重PCR檢測轉(zhuǎn)基因水稻的轉(zhuǎn)基因成分[J]. 食品科學,2012,33(12):159-162.
[11]周杰,黃文勝,鄧婷婷,等. 環(huán)介導等溫擴增法檢測6種轉(zhuǎn)基因大豆[J]. 農(nóng)業(yè)生物技術(shù)學報,2017,25(2):335-344.
[12]WU G,WU Y,NIE S,et al. Real-time PCR method for detection of the transgenic rice event TT51-1[J]. Food Chemistry,2010,119(1):417-422.
[13]高榮強,范世福. 現(xiàn)代近紅外光譜分析技術(shù)的原理及應用[J]. 分析儀器,2002(3):9-12.
[14]石吉勇,胡雪桃,朱瑤迪,等. 基于近紅外光譜技術(shù)的醋醅中常見桿菌快速識別[J]. 農(nóng)業(yè)機械學報,2016(2):245-250.
[15]王君,劉蓉. 近紅外光譜技術(shù)在液態(tài)食品摻假檢測中的應用[J]. 食品工業(yè)科技,2016,37(7):374-380,386.
[16]ADERVAL S L,ARNALDO P D S,JESSICA S A. Rapid characterization of transgenic and non-transgenic soybean oils by chemometric methods using NIR spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2013,100(1):115-119.
[17]謝麗娟. 轉(zhuǎn)基因番茄的可見/近紅外光譜快速無損檢測方法[D]. 杭州:浙江大學,2009.
[18]翟亞鋒,蘇謙,鄔文錦,等. 基于仿生模式識別和近紅外光譜的轉(zhuǎn)基因小麥快速鑒別方法[J]. 光譜學與光譜分析,2010,30(4):924-928.
[19]ZHANG L,WANG S S,DING Y F. Discrimination of Transgenic Rice Based on Near Infrared Reflectance Spectroscopy and Partial Least Squares Regression Discriminant Analysis[J]. Rice Science,2015,22(5):245-249.
[20]于燕波. 近紅外光譜分析技術(shù)在轉(zhuǎn)基因水稻識別和高油棉籽篩選中的應用研究[D]. 北京:中國農(nóng)業(yè)大學,2014.
[21]李華,王菊香,邢志娜,等. 改進的K/S算法對近紅外光譜模型傳遞影響的研究[J]. 光譜學與光譜分析,2011,31(2):362-365.
[22]HU W H,SUN D W,BLASCO J. Rapid monitoring 1-MCP-induced modulation of sugars accumulation in ripening‘Hayward’ kiwifruit by Vis/NIR hyperspectral imaging[J]. Postharvest Biology and Technology,2017,125(6):168-180.
[23]王動民,紀俊敏,高洪智. 多元散射校正預處理波段對近紅外光譜定標模型的影響[J]. 光譜學與光譜分析,2014,34(9):2387-2390.
[24]樊書祥,黃文倩,李江波,等. LS-SVM的梨可溶性固形物近紅外光譜檢測的特征波長篩選[J]. 光譜學與光譜分析,2014,34(8):2089-2093.
[25]王快妮. 支持向量機魯棒性模型與算法研究[D]. 北京:中國農(nóng)業(yè)大學,2015.
[26]唐舟進,任峰,彭濤,等. 基于迭代誤差補償?shù)幕煦鐣r間序列最小二乘支持向量機預測算法[J]. 物理學報,2014,63(5):78-87.
[27]張紅光,楊秦敏,盧建剛. 基于近紅外光譜和最小二乘支持向量機的聚丙烯酰胺類型鑒別[J]. 光譜學與光譜分析,2014(4):972-976.
[28]SUN C,JIAO L C,LIU H Y,et al. New classifier based on compressed dictionary and LS-SVM[J]. Neurocomputing,2016,216(c):617-626.
Studyonidentificationofgeneticallymodifiedricebyusingnear-infraredspectroscopycombinedwithLSSVM
HAOYong1,2,WENQin-hua1,LUOQiu-hong3,RAOMin3,CHENBin2
(1.School of Mechanotronics & Vehicle Engineering,East China Jiaotong University,Nanchang 330013,China;2.School of Food and Biological Engineering,Jiangsu University,Zhenjiang 212013,China;3.Ganzhou Entry-Exit Inspection and Quarantine Bureau,Ganzhou 341000,China)
Near-infrared diffuse reflectance spectroscopy(NIDRS)combined with principal component analysis(PCA)and least squares support vector machine(LSSVM)were used for the identification of transgenic rice. PCA was used to analyze the spectral spatial distribution of rice. Different spectral preprocessing methods including 5-point smoothing,multivariate scatter correction(MSC)and standard normal variate transformation(SNV)combined with LSSVM were used to build and optimize qualitative models. The grid search algorithm was employed to obtain the optimal solution of the penalty factor(c)and the parameters gamma(g)of RBF kernel. The correct recognition rate(CRR)were used to evaluate models. The results showed that MSC combined with LSSVM could be used to establish the qualitative identification model of transgenic rice. The CRR of the optimal model was 97.50%. The method was expected to be an auxiliary method for rapid detection of genetically modified foods.
near-infrared spectroscopy(NIRS);genetically modified rice;principal component analysis(PCA);least squares support vector machine(LSSVM)
2017-04-28
郝勇(1978-),男,博士,副教授,主要從事智能光電無損檢測方面的研究,E-mail:haonm@163.com。
國家自然科學基金項目(21265006)。
TS201.1
A
1002-0306(2017)22-0242-04
10.13386/j.issn1002-0306.2017.22.047