何 琴,李各各,朱 蕾
(許昌學(xué)院 化學(xué)化工學(xué)院,河南 許昌 461000)
?
基于神經(jīng)網(wǎng)絡(luò)的玫瑰花揮發(fā)性有機(jī)物的定量結(jié)構(gòu)色譜保留相關(guān)
何琴,李各各,朱蕾
(許昌學(xué)院 化學(xué)化工學(xué)院,河南 許昌 461000)
采用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)中的誤差反向傳播神經(jīng)網(wǎng)絡(luò)(Error Back Propagation,BP)方法,以40種玫瑰花揮發(fā)性成分的4個(gè)拓?fù)渲笖?shù)作為輸入,以保留時(shí)間作為輸出,建立其定量結(jié)構(gòu)-色譜保留時(shí)間(Quantitative Structure Chromatographic retention Relationship, QSRR)相關(guān)模型.采用留一交叉檢驗(yàn)和外檢驗(yàn)相結(jié)合的方法檢驗(yàn)?zāi)P偷姆€(wěn)健性和預(yù)測(cè)能力.得到的留一交叉相關(guān)系數(shù)為0.986 6;外檢驗(yàn)時(shí),預(yù)測(cè)集的相關(guān)系數(shù)為0.992 6;而采用多元線性回歸(Multiple Linear Regressions,MLR)法所得相關(guān)系數(shù)為0.954 5.結(jié)果表明,ANN模型比MLR模型有更好的擬合效果.
玫瑰花;人工神經(jīng)網(wǎng)絡(luò);定量結(jié)構(gòu)色譜保留相關(guān);揮發(fā)性成分
玫瑰花具有較高的食用、藥用和觀賞價(jià)值[1],其所含的揮發(fā)性成分(Volatile Organic Compounds, VOC)是很珍貴的工業(yè)原料,常用于高級(jí)香料、食品、釀酒等行業(yè)[2-3].玫瑰花揮發(fā)性成分的測(cè)定對(duì)玫瑰精油的提取、生產(chǎn)具有重要的指導(dǎo)作用[4-5],也能應(yīng)用于其品質(zhì)分析.目前,玫瑰花揮發(fā)性成分的測(cè)定多采用氣相色譜或氣質(zhì)聯(lián)用[6-7],方法繁瑣費(fèi)時(shí),人力、物力、財(cái)力耗費(fèi)較大.而定量結(jié)構(gòu)-色譜保留相關(guān)(quantitative structure-retention relationship, QSRR)在現(xiàn)代色譜領(lǐng)域中已經(jīng)受到了廣泛關(guān)注,它可以建立分子結(jié)構(gòu)與色譜保留的定量模型,也可以用來(lái)解釋各種化合物的色譜行為、預(yù)測(cè)色譜保留時(shí)間,并對(duì)選擇色譜條件和深入研究色譜保留機(jī)理具有重要意義[8-9].經(jīng)典的QSRR研究多采用多元線性回歸法(MLR),近年來(lái)人工神經(jīng)網(wǎng)絡(luò)法(Artificial Neural Network, ANN)備受關(guān)注[10-12].
論文擬采用ANN法,對(duì)玫瑰花揮發(fā)性成分進(jìn)行QSRR研究,為玫瑰花揮發(fā)性成分的測(cè)定、VOC的提取和應(yīng)用等研究奠定一定的基礎(chǔ).
1.1數(shù)據(jù)來(lái)源
在玫瑰花揮發(fā)性化學(xué)成分的QSRR研究中,其相應(yīng)的氣相色譜保留值數(shù)據(jù)源自于文獻(xiàn)[2].
1.2研究方法
采用誤差反傳前向人工神經(jīng)網(wǎng)絡(luò)(BP-ANN)法進(jìn)行建模,并將建模結(jié)果與經(jīng)典的MLR方法進(jìn)行比較.
1.3BP網(wǎng)絡(luò)訓(xùn)練集與預(yù)測(cè)集的構(gòu)建
BP網(wǎng)絡(luò)由MATLAB7工具箱提供.從40種玫瑰花揮發(fā)性成分中每隔4個(gè)標(biāo)*號(hào)的樣本作為預(yù)測(cè)集,不帶*號(hào)標(biāo)記的樣本作為訓(xùn)練集,見(jiàn)表1.構(gòu)建訓(xùn)練集和預(yù)測(cè)集的輸入(結(jié)構(gòu)參數(shù))、輸出(色譜保留)矩陣后,進(jìn)行模型的構(gòu)建、優(yōu)化和仿真.
1.4模型的檢驗(yàn)
留一交叉檢驗(yàn)(Leave-One-Out cross Validation,LOO-CV)常用來(lái)檢驗(yàn)所建模型的穩(wěn)健性,論文選取32種玫瑰花揮發(fā)性化合物為訓(xùn)練集,余下8種化合物為外部預(yù)測(cè)集,通過(guò)留一交叉法檢驗(yàn)?zāi)P偷姆€(wěn)健性.另外,通過(guò)8樣本外部檢驗(yàn)考察模型的預(yù)測(cè)能力.
2.1ANN模型構(gòu)建和參數(shù)選擇
2.1.1BP網(wǎng)絡(luò)的結(jié)構(gòu)
BP網(wǎng)絡(luò)有三層,通過(guò)數(shù)據(jù)試驗(yàn),優(yōu)化為:4×2×1.
2.1.2網(wǎng)絡(luò)參數(shù)的確定
隱含層節(jié)點(diǎn)數(shù)體現(xiàn)了網(wǎng)絡(luò)的復(fù)雜程度,隱含層節(jié)點(diǎn)數(shù)過(guò)大,網(wǎng)絡(luò)越復(fù)雜.一般選取輸入層節(jié)點(diǎn)數(shù)與輸出層節(jié)點(diǎn)數(shù)之和的一半,單因素優(yōu)化,選取最合適的隱含層節(jié)點(diǎn)數(shù),為2.
目標(biāo)函數(shù)也被稱(chēng)為誤差函數(shù),即當(dāng)函數(shù)達(dá)到所要求的誤差時(shí),網(wǎng)絡(luò)停止訓(xùn)練,結(jié)果輸出,而當(dāng)達(dá)不到要求時(shí),函數(shù)按原定路線將誤差反向傳遞、調(diào)節(jié)權(quán)重和偏置,直到誤差達(dá)到要求[9].論文通過(guò)單因素得到最優(yōu)的目標(biāo)函數(shù)1×10-6.
學(xué)習(xí)速率的大小也會(huì)影響到系統(tǒng)的穩(wěn)定性.過(guò)大的學(xué)習(xí)速率會(huì)導(dǎo)致網(wǎng)絡(luò)的不穩(wěn)定,而學(xué)習(xí)速率過(guò)小會(huì)使學(xué)習(xí)過(guò)程太長(zhǎng),因此選擇適當(dāng)?shù)膶W(xué)習(xí)速率是非常有必要的.數(shù)據(jù)試驗(yàn)優(yōu)化后的最佳學(xué)習(xí)速率為0.1.同理得到最佳學(xué)習(xí)次數(shù)為9 000.
優(yōu)化后的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為4×2×1,目標(biāo)函數(shù)為1×10-6、學(xué)習(xí)速度為0.1、學(xué)習(xí)次數(shù)為9 000.
2.2BP網(wǎng)絡(luò)的預(yù)測(cè)能力
優(yōu)化后,模型預(yù)測(cè)得到的預(yù)測(cè)值如表1所示.模型的自相容和泛化能力預(yù)測(cè)值以及留一交叉檢驗(yàn)預(yù)測(cè)值與實(shí)驗(yàn)值較為接近,相對(duì)誤差范圍分別為-0.134~0.329(自相容和泛化)和-0.069~0.379(LOO-CV).而MLR法得到的預(yù)測(cè)誤差在-0.179~0.495之間.由此可見(jiàn),BP-ANN模型的預(yù)測(cè)能力優(yōu)于MLR模型.
表1 玫瑰花揮發(fā)性化學(xué)成分的拓?fù)渲笖?shù)及其保留時(shí)間
續(xù)表1
No化合物tR/(min)BP-ANN模型預(yù)測(cè)值(自相容和泛化)Er(自相容和泛化)BP-ANN模型預(yù)測(cè)值(LOO)Er(LOO)MLR模型預(yù)測(cè)值Er(MLR)15*香葉醇13.8812.52-0.09814.040.01212.69-0.08616香葉醛14.1312.23-0.13413.56-0.04012.35-0.12617正十二烷14.5614.870.02114.700.01014.32-0.01618香葉酸甲酯14.8814.900.00114.64-0.01614.41-0.03219香茅醇乙酸酯15.2515.620.02415.510.01716.180.06120*橙花醇乙酸酯15.3815.37-0.00115.630.01716.280.05921香葉醇乙酸酯15.6514.62-0.06615.660.00015.04-0.03922丁香酚甲醚15.9715.73-0.01516.120.00915.63-0.02123雪松烯16.3715.27-0.06716.580.01314.06-0.14124石竹烯16.4016.31-0.00516.39-0.00116.25-0.00925*愈創(chuàng)木二烯16.5516.640.00615.98-0.03416.22-0.02026(E)-金合歡烯16.6716.930.01616.890.01317.330.04027α-蛇麻烯16.8816.82-0.00317.140.01517.960.06428大根葉烯-D17.1916.57-0.03616.79-0.02316.35-0.04929正十五烷17.2617.600.01917.18-0.00517.12-0.00830*金合歡烯17.3317.710.02216.56-0.04417.330.000311(10),11-愈創(chuàng)木二烯17.4316.67-0.04417.36-0.00416.24-0.06832正十六烷18.4718.45-0.00118.33-0.00718.05-0.023338-十七碳烯19.3919.32-0.00419.34-0.00318.79-0.03134正十七烷19.6319.37-0.01319.690.00318.98-0.03335*十八烷20.7221.010.01421.170.02219.90-0.040362,6,10-三甲基十四烷21.4520.92-0.02521.510.00319.92-0.071379-十九碳烯21.5221.04-0.02221.650.00620.64-0.04138正二十烷21.7722.070.01421.60-0.00821.760.00039正二十二烷22.7623.930.05123.400.02823.610.03740*9-己基十七烷23.7224.550.03524.530.03426.390.113
圖1 ANN與MLR預(yù)測(cè)殘差值散點(diǎn)圖
預(yù)測(cè)相對(duì)誤差散點(diǎn)圖如圖1所示,BP-ANN模型預(yù)測(cè)誤差更接近與0軸,且在0軸附近均勻分布,說(shuō)明BP-ANN模型的預(yù)測(cè)能力優(yōu)于MLR模型.樣本1“α-蒎烯”在兩種方法中均是預(yù)測(cè)誤差較大的樣本,可能的原因有兩個(gè),一是結(jié)構(gòu)提取不夠全面,二是保留時(shí)間測(cè)定不夠準(zhǔn)確.具體是哪種原因,因?yàn)闂l件的限制沒(méi)有進(jìn)行深入研究.
2.3ANN模型與MLR模型的比較
優(yōu)化后,對(duì)所構(gòu)建的模型進(jìn)行留一交叉檢驗(yàn)(LOO-CV)和自相容、泛化能力檢驗(yàn),相關(guān)分析見(jiàn)表2、圖2、圖3和圖4.BP-ANN模型留一交叉檢驗(yàn)相關(guān)系數(shù)QCV為0.986 6,自相容和泛化能力的相關(guān)系數(shù)R為0.975 6,外部集交叉檢驗(yàn)相關(guān)系數(shù)Qext為0.992 6.而用MLR法構(gòu)建的模型的相關(guān)系數(shù)為0.954 5.由此可見(jiàn),BP-ANN法所構(gòu)建模型的穩(wěn)健性?xún)?yōu)于MLR法構(gòu)建的模型,模型穩(wěn)健性良好;結(jié)合表1和圖1可知,BP-ANN模型預(yù)測(cè)能力優(yōu)良.
表2 MLR法與ANN法的比較
圖2 BP-ANN模型的相關(guān)分析圖(自相容和泛化值)
圖3 基于MLR模型的相關(guān)分析圖
2.4泛化能力
BP網(wǎng)絡(luò)的泛化能力是指網(wǎng)絡(luò)對(duì)集外樣本的預(yù)測(cè)能力.影響泛化能力的因素很多,如訓(xùn)練集過(guò)少可能會(huì)導(dǎo)致網(wǎng)絡(luò)的學(xué)習(xí)可靠性不強(qiáng),不能很好地反映問(wèn)題的本質(zhì),而過(guò)多的訓(xùn)練集中,跳躍性較大的樣本也會(huì)影響網(wǎng)絡(luò)的泛化能力[13].
在最優(yōu)參數(shù)條件下,8樣本交叉檢驗(yàn)所得預(yù)測(cè)值與實(shí)驗(yàn)值相關(guān)分析如圖5所示,相關(guān)系數(shù)為0.992 5,8樣本的預(yù)測(cè)相對(duì)誤差分別為:-0.016、0.040、-0.098、-0.001、0.006、0.022、0.014、0.035,均較小.由此可知,BP-ANN構(gòu)建的模型具有良好的泛化能力.
圖4 留一交叉檢驗(yàn)法數(shù)據(jù)相關(guān)分析圖
圖5 預(yù)測(cè)集泛化能力相關(guān)分析圖
BP-ANN結(jié)構(gòu)為4×2×1,目標(biāo)函數(shù)為1×10-6,學(xué)習(xí)速率為0.1,步長(zhǎng)值為9 000,模型取得了較好的預(yù)測(cè)結(jié)果.BP-ANN法的預(yù)測(cè)相對(duì)誤差分布為-0.134~0.329,而MLR法的預(yù)測(cè)相對(duì)誤差分布為-0.179~0.495, BP-ANN法的預(yù)測(cè)結(jié)果要優(yōu)于MLR法.另外,BP-ANN模型的相關(guān)系數(shù)為0.975 6,標(biāo)準(zhǔn)偏差SD為0.949 1,比MLR建立的模型相關(guān)關(guān)系數(shù)0.954 5、標(biāo)準(zhǔn)偏差1.234 3要好.
但BP網(wǎng)絡(luò)還存在一些不足,如網(wǎng)絡(luò)的不穩(wěn)定性,得到的結(jié)果有時(shí)會(huì)偏差很大,需要經(jīng)過(guò)大量反復(fù)的實(shí)驗(yàn)才能確定,而且參數(shù)的選擇并沒(méi)有確定的數(shù)值,都是憑經(jīng)驗(yàn)而定.對(duì)于這些缺點(diǎn),通常要對(duì)BP網(wǎng)絡(luò)進(jìn)行改進(jìn),除通常所用的多次對(duì)所建模型訓(xùn)練,其改進(jìn)方法有待于進(jìn)一步探究.
[1]胡曉燕,沈才洪,敖宗華,等.玫瑰花有效成分及玫瑰花酒的研究進(jìn)展[J].釀酒科技,2014(11):68-72.
[2]陳紅艷, 廖蓉蘇,楊今朝.玫瑰花揮發(fā)性化學(xué)成分的分析研究[J].食品科技,2011,36(11):186-190,196.
[3]王淑敏,劉春明,邢俊鵬,等.玫瑰花中揮發(fā)油成分的超臨界萃取及質(zhì)譜分析[J].質(zhì)譜學(xué)報(bào),2006,27(1):45-49.
[4]陳艷,李靖.QSRR研究用于玫瑰花揮發(fā)性化學(xué)成分色譜保留值的預(yù)測(cè)[J].時(shí)珍國(guó)醫(yī)國(guó)藥,2013,24(11):2 573-2 576.
[5]何琴.BP網(wǎng)絡(luò)用于香梨酒香氣成分的QSRR研究[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2013,37(5):86-91.
[6]Wang Cheng-Zhong, Su Yue, Wang Hao-Yang, Guo Yin-Long. Gas Chromatographic-Ion Trap Mass Spectrometric Analysis of Volatile Organic Compounds by Ion-Molecule Reactions Using the Electron-Deficient Reagent Ion CCl3+[J]. Journal of The American Society for Mass Spectrometry, 2011, 22(10): 1 839-1 850.
[7]Kang Wen-Yi, Wang Jin-Mei, Tian Pu-Yu. Analysis of volatiles in the flowers of Patrinia scabiosifolia BY HS-SPME-GC-MS[J]. Chemistry of Natural Compounds, 2011, 47(1): 101-102.
[8]Angelo Antonio D’Archivio, Maria Anna Maggi, Fabrizio Ruggieri. Artificial neural network prediction of multilinear gradient retention in reversed-phase HPLC: comprehensive QSRR-based models combining categorical or structural solute descriptors and gradient profile parameters [J]. Analytical and Bioanalytical Chemistry, 2015, 407(4): 1 181-1 190.
[9]張曉彤,國(guó)晶晶,任創(chuàng),等.人工神經(jīng)網(wǎng)絡(luò)方法對(duì)鹵代聯(lián)苯化合物的QSRR研究[J].石油化工高等學(xué)校學(xué)報(bào),2011,24(1):26-28.
[10]何琴.人工神經(jīng)網(wǎng)絡(luò)用于有機(jī)磷酸酯類(lèi)化合物的定量結(jié)構(gòu)色譜保留相關(guān)研究[J].分析科學(xué)學(xué)報(bào),2013,29(4):483-487.
[11]張曉彤,葛翠年,孫兆林,等.烷基硫醇在不同固定相上的QSRR研究[J].計(jì)算機(jī)與應(yīng)用化學(xué),2013,30(1):21-26.
[12]張曉彤,王芳,姚岳,等.分子電性距離矢量用于FCC汽油中硫化物的QSRR研究[J].化學(xué)分析計(jì)量,2014,23(4):6-10.
[13]周文全.BP網(wǎng)絡(luò)泛化能力的增強(qiáng)改進(jìn)[D].廣州:暨南大學(xué),2012.
責(zé)任編輯:衛(wèi)世乾
Quantitative Structure-Retention Relationship Study of the Volatile Organic Compounds of Rose Flowers Based on Neural Network
HE Qin, LI Ge-ge, ZHU Lei
(SchoolofChemistryandChemicalEngineering,XuchangUniversity,Xuchang461000,China)
When using 4 toplogical indexes of 40 volatile organic compounds of rose flowers as inputs and the retention time as output, the error back propagation algorithm (EBP)of the artificial neural network (ANN) as the model we establish the quantitative structure retention relationship (QSRR)correlation model. The stability and predictive ability of the model was analyzed by the leave-one-out cross-validation and external validation. When the correlation coefficient of the leave-one-out cross-validation check is 0.9866;when it is applied in predicting the external set, the correlation coefficient is 0.9926. For the MLR model, the correlation coefficient is 0.9545. The results showed that the performance of ANN model is better than that MLR method in terms of fitting effect.
rose; artificial neural network; quantitative structure retention relationship; volatile organic compounds
2016-05-03
許昌學(xué)院優(yōu)秀青年骨干教師資助項(xiàng)目
何琴(1979—),女,湖北黃岡人,副教授,碩士,研究方向:定量構(gòu)效關(guān)系和教學(xué).
1671-9824(2016)05-0075-05
O659.2
A