秦夢潔 丁學(xué)利 王靜
摘? 要:2021年全國大學(xué)生數(shù)學(xué)建模競賽E題附件1提供了425個(gè)中藥材樣本數(shù)據(jù)。針對425個(gè)中藥材樣本數(shù)據(jù),首先采用標(biāo)準(zhǔn)差法提取中紅外光譜的特征波段數(shù)據(jù),再使用因子分析對數(shù)據(jù)進(jìn)一步降維,最后利用K-均值聚類模型對藥材樣本進(jìn)行合理的分類。該模型為中藥材的鑒別提供了一個(gè)快速有效的方法。
關(guān)鍵詞:中藥材鑒別;特征波;因子分析;K-均值聚類
中圖分類號: O212??? ??????文獻(xiàn)標(biāo)識碼: A??????????? 文章編號:1672-4437(2022)01-0077-04
中醫(yī)藥歷史悠久,中藥材的類別、產(chǎn)地會(huì)影響藥效,因而中藥材種類和產(chǎn)地的鑒別一直是大眾比較關(guān)心的問題。中藥材大多由專業(yè)的質(zhì)檢部門或者擁有豐富經(jīng)驗(yàn)的“老藥工”進(jìn)行鑒別,主要依靠相關(guān)人員的知識儲(chǔ)備和經(jīng)驗(yàn),具有較強(qiáng)的不確定性。隨著現(xiàn)代科技的發(fā)展,越來越多的技術(shù)與方法應(yīng)用于中藥材品種與產(chǎn)地的鑒別,比如顯微技術(shù)及色譜光譜技術(shù)等。紅外光譜技術(shù)作為一種高新分析技術(shù),具有分析成本低、不破壞樣本、分析速度快等特點(diǎn)。紅外光按照波數(shù)(單位為cm)的不同主要分成三種:遠(yuǎn)紅外(波數(shù):10-400 cm)、中紅外(波數(shù):400-4000 cm)、近紅外(波數(shù):4000-14000 cm)。
通過對紅外光譜進(jìn)行分析可以快速對中藥材進(jìn)行分類,目前藥材鑒別分類的方法大致可以分為有監(jiān)督的分類和無監(jiān)督的分類兩種。有監(jiān)督的分類常用方法有K-鄰近法、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)SVM等。其中K-鄰近法的結(jié)果容易受噪聲數(shù)據(jù)的影響,BP神經(jīng)網(wǎng)絡(luò)的收斂速度慢并且存在局部極小問題,SVM算法對大數(shù)據(jù)集難以實(shí)施且很難解決多分類問題。無監(jiān)督的分類方法主要是聚類分析,聚類分析包括層次聚類、劃分聚類和K-均值聚類等。其中K-均值聚類具有簡單、高效的顯著特點(diǎn),且該方法對大數(shù)據(jù)集也具備較好的處理能力。由于紅外光譜數(shù)據(jù)量大、冗余度高,單獨(dú)使用無監(jiān)督的分類方法,效果較差。因此本文考慮先利用因子分析降維,再用K-均值聚類分析對中藥材進(jìn)行合理分類。
1 數(shù)據(jù)來源與分析
1.1數(shù)據(jù)預(yù)處理
本研究的數(shù)據(jù)來源于2021年全國大學(xué)生數(shù)學(xué)建模競賽E題的附件1。附件1提供了425個(gè)中藥材樣本(No表示藥材編號)數(shù)據(jù),分別記錄了每個(gè)樣本在波數(shù)652-3999cm下的吸光度(見表1)。圖1是425個(gè)中紅外光譜數(shù)據(jù)的曲線圖。從圖1可以看出3個(gè)樣本的吸光度數(shù)值過高,明顯不符合該藥材的光譜特征。通過篩查確定異常數(shù)據(jù)編號為64、136和201的藥材,將異常數(shù)據(jù)剔除,剔除后的光譜數(shù)據(jù)曲線如圖2所示。
1.2 特征波段選取
本研究將波數(shù)視為指標(biāo)變量,可以發(fā)現(xiàn)數(shù)據(jù)中所給的波數(shù)多達(dá)3348條,并且所給波數(shù)是連續(xù)不間斷的,這就需要充分挖掘數(shù)據(jù),提取特征波進(jìn)行降維處理。從圖2可以看出強(qiáng)譜峰出現(xiàn)在652~1780cm區(qū)域,這主要與藥材所含官能團(tuán)有關(guān),也就是說在652~1780cm這個(gè)區(qū)間里存在較多的化學(xué)信息,即652~1780cm的波數(shù)內(nèi)存在較多的特征波段。
在同一波數(shù)下,標(biāo)準(zhǔn)差越大,說明數(shù)據(jù)波動(dòng)越大,樣本間的差異越大,也就是說該波數(shù)可以作為特征波數(shù)提取出來。將不同波數(shù)下的吸光度標(biāo)準(zhǔn)差繪制成散點(diǎn)圖,如圖3所示。圖3極大值點(diǎn)所對應(yīng)的波數(shù)(單位為cm)分別為:652、758、1030、1048、1245、1383、1463、1734、2850、2918、3274,將這11個(gè)波數(shù)視為特征波段。
2 因子-聚類分析模型
2.1 因子分析
因子分析是把多個(gè)變量歸納為少數(shù)幾個(gè)綜合因子,使得這些綜合因子所包含的信息無重疊,從而實(shí)現(xiàn)降維的目的。因子分析之前必須對原變量進(jìn)行相關(guān)性檢驗(yàn),可以采用KMO檢驗(yàn)和Bartlett球形檢驗(yàn)。然后根據(jù)累積貢獻(xiàn)率提取主因子,計(jì)算因子得分和綜合得分。
2.2 聚類分析
聚類分析是一種無監(jiān)督的分類方法,它將具有相同或相似性質(zhì)的事物歸為一類,性質(zhì)差距較大的事物歸入不同類的一種分析方法。
因子-聚類分析本質(zhì)上就是因子分析和K-均值聚類的綜合,首先需要提取主因子,計(jì)算因子得分和綜合得分。再將綜合得分作為分析變量,使用K-均值聚類模型對中藥材進(jìn)行鑒別分類。這種因子-聚類分析模型很大程度上提高了分類的準(zhǔn)確性,為中藥材的鑒別提供了一種新思路。
3 結(jié)果分析
3.1 因子分析結(jié)果
將11個(gè)特征波段分別記為變量,,…,,做因子分析。在做因子分析之前需要判斷一下該數(shù)據(jù)是否可以進(jìn)行因子分析,將11個(gè)特征波段的吸光度數(shù)據(jù)導(dǎo)入SPSS軟件,進(jìn)行相關(guān)系數(shù)以及KMO和Bartlett球形檢驗(yàn),檢驗(yàn)結(jié)果見表2。
從KMO和Bartlett檢驗(yàn)結(jié)果可以看到KMO值為0.865>0.5,顯著性Sig值為0.000,說明可以對其進(jìn)行因子分析。因子分析的結(jié)果見表3和圖4。
表3為總方差解釋表,可以看出前2個(gè)主因子的累積貢獻(xiàn)率達(dá)到了95.219%,也就是說基本上保留了原數(shù)據(jù)的大部分信息。
圖4為碎石圖,由圖4可以看出第一個(gè)因子的特征值最高,對解釋原有變量的貢獻(xiàn)最大,第二個(gè)以后的因子特征值都比較小,對解釋原有變量的貢獻(xiàn)較小。
由表2和圖4,可知用2個(gè)主因子來代替11個(gè)變量是可行的。記F為第一主因子,F(xiàn)為第二主因子,其表達(dá)式為:
F=0.321+0.318+0.327+0.326+0.311+0.296+0.251+0.317+0.299+0.350+0.266(1)
F=0.066-0.233-0.037+0.043-0.281-0.352-0.499+0.192+0.346+0.308+0.485(2)
綜合得分F=0.820F+0.132F。
利用Matlab軟件計(jì)算主因子F和F得分以及綜合得分F,結(jié)果見表4(由于藥材樣本數(shù)量過大,本文只展示部分結(jié)果)。
3.2 聚類分析結(jié)果
以因子分析的綜合得分F為分類變量進(jìn)行K-均值聚類分析。K-均值聚類中分類數(shù)K值的選取至關(guān)重要,很多情況下K值是人為直接給出的,不合適的K值會(huì)導(dǎo)致分類結(jié)果過“粗”或者過“細(xì)”,無法達(dá)到理想的分類效果??煽紤]采用平均輪廓值作為選取最佳K值的標(biāo)準(zhǔn),平均輪廓值越大,聚類的結(jié)果越準(zhǔn)確。不同類別對應(yīng)的平均輪廓值,如圖5所示。
由圖5可知,當(dāng)類別數(shù)為2時(shí)輪廓值最高,但是分為2類過于籠統(tǒng),實(shí)際意義不大。當(dāng)分為3類時(shí)輪廓值相對較大,因此將K值定為3。接著以綜合得分F作為分類變量,使用K-均值聚類模型對樣本進(jìn)行分類。選取3個(gè)初始聚類中心,可以得到每個(gè)類別下的藥材樣本編號,繪制三類藥材光譜曲線圖,如圖6所示。
對比三幅光譜曲線圖可以看出,三種光譜曲線的差異性還是比較明顯的。具體特征如下:
(1)當(dāng)波數(shù)在652-1780cm時(shí),第一類的吸光峰個(gè)數(shù)明顯較多,并且吸光峰強(qiáng)度較大(峰值介于0.2 AU和0.4 AU之間);第二類的吸光峰個(gè)數(shù)也比較多,但是吸光峰強(qiáng)度較?。ǚ逯敌∮?.2 AU);第三類存在一個(gè)比較明顯的強(qiáng)吸光峰(峰值接近0.4 AU),其余吸光峰的強(qiáng)度都較小。
(2)當(dāng)波數(shù)在2800-3600cm時(shí),第一類有3個(gè)吸光峰(2個(gè)尖峰,1個(gè)坡峰);第二類有2個(gè)吸光峰(1個(gè)尖峰,1個(gè)坡峰);第三類有3個(gè)吸光峰(2個(gè)尖峰,1個(gè)坡峰)且峰的強(qiáng)度明顯高于前兩類峰的強(qiáng)度。
4 結(jié)論
針對中藥材鑒別問題,首先采用標(biāo)準(zhǔn)差提取特征波段對原數(shù)據(jù)進(jìn)行第一輪降維,再用因子分析提取公因子計(jì)算綜合得分,對數(shù)據(jù)進(jìn)行第二輪降維。最后使用無監(jiān)督的分類方法K-均值聚類模型對藥材進(jìn)行合理分類,這為不同種類的中藥材鑒別提供了一種快捷、高效的方法。但是對某些差異性較小的藥材或者不合格藥材進(jìn)行鑒別時(shí)可能比較困難,今后需進(jìn)一步分析光譜特征,改進(jìn)鑒別模型,提高鑒別精度。
參考文獻(xiàn):
[1]王彬,郭文鑫,劉文濤,等.基于K-鄰近法的電網(wǎng)關(guān)鍵斷面在線分布式發(fā)現(xiàn)方法[J].電力系統(tǒng)保護(hù)與控制,2019,47(07):113-118.
[2]王麗瓊,范琦,易珍奎,等.HPLC指紋圖譜結(jié)合反向傳播人工神經(jīng)網(wǎng)絡(luò)和判別分析鑒定不同的麻黃藥材[J].西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012,37(05):73-77.
[3]李懷寶,李紅,婁小平,等.基于支持向量機(jī)的光纖光柵反射光譜類型識別方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,
[4]楊秀璋,武帥,張苗,等.基于層次聚類和社交網(wǎng)絡(luò)的貴州旅游發(fā)展文獻(xiàn)主題挖掘[J].現(xiàn)代計(jì)算機(jī),2021,27(23):79-85,90.
[5]黃學(xué)雨,向馳,陶濤.基于MapReduce和改進(jìn)密度峰值的劃分聚類算法[J].計(jì)算機(jī)應(yīng)用研究,2021,38(10):2988-2933,3024.
[6]王志遠(yuǎn),孫鵬菊,王海波,等.基于聚類分類算法的IGBT健康狀態(tài)分類研究[J].電工電能新技術(shù),2021,40(11):1-8.
[7]徐琳,何洪源,劉翠梅,等.芬太尼類物質(zhì)的振動(dòng)光譜特征分析研究[J].光譜學(xué)與光譜分析,2021,41(09):2829-2834.