李 夢(mèng),張小波,劉紹波,陳興峰,黃璐琦,史婷婷,楊 瑞,劉 舒,鄭逢杰
1. 河南中醫(yī)藥大學(xué)藥學(xué)院,河南 鄭州 450046 2. 中國中醫(yī)科學(xué)院中藥資源中心道地藥材國家重點(diǎn)實(shí)驗(yàn)室培育基地,北京 100700 3. 航天恒星科技有限公司大數(shù)據(jù)項(xiàng)目辦公室,北京 100086 4. 中國科學(xué)院空天信息創(chuàng)新研究院國家環(huán)境保護(hù)衛(wèi)星遙感重點(diǎn)實(shí)驗(yàn)室,北京 100094 5. 中國中醫(yī)科學(xué)院道地藥材國家重點(diǎn)實(shí)驗(yàn)室培育基地,北京 100700 6. 中國科學(xué)院西北生態(tài)環(huán)境資源研究院甘肅省遙感重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730000 7. 中國科學(xué)院長春應(yīng)用化學(xué)研究所吉林省中藥化學(xué)與質(zhì)譜重點(diǎn)實(shí)驗(yàn)室,吉林 長春 130022 8. 航天工程大學(xué)航天信息學(xué)院,北京 101416
人參是五加科植物人參(PanaxginsengC. A. Meyer)的干燥根和根莖,是我國名貴中藥材,應(yīng)用歷史悠久。 栽培的俗稱“園參”,播種在山林野生狀態(tài)下自然生長的稱“林下山參”,習(xí)稱“籽海”[1]。 人參早在秦漢時(shí)期應(yīng)用已較為普遍,在《神農(nóng)本草經(jīng)》中被列為上品,記載其具有“主補(bǔ)五臟,安精神,定魂魄,止驚悸,除邪氣,明目,開心益智。 久服,輕身延年”功效。
《中國藥材學(xué)》記載: “野生品稱山參、野山參,主產(chǎn)于東北長白山區(qū),大、小興安嶺,栽培品稱園參,主產(chǎn)于吉林、遼寧、黑龍江;河北、山西、山東、湖北及北京等地有引種試種”。 依據(jù)歷代本草記載,人參最早出于山西上黨(潞州)及遼東等地,后因資源枯竭,至明之后,基本以東北為主產(chǎn)地,奉為道地。 道地中藥材,是指經(jīng)過中醫(yī)臨床長期應(yīng)用優(yōu)選出來、產(chǎn)在特定地域,與其他地區(qū)所產(chǎn)同種中藥材相比,品質(zhì)和療效更好,且質(zhì)量穩(wěn)定,具有較高知名度的中藥材。 故人參道地藥材指產(chǎn)于以東北長白山山脈為中心,核心區(qū)域包括吉林撫松、集安、靖宇,遼寧寬甸、桓仁及周邊地區(qū),也包括黑龍江大興安嶺、小興安嶺等地區(qū)的人參。
近年來,通常采用性狀觀察法、化學(xué)指紋圖譜法、光譜分析、分子識(shí)別等方法[2-7]進(jìn)行人參產(chǎn)地的識(shí)別,但上述方法均要求有一定的經(jīng)驗(yàn)積累或者專業(yè)知識(shí),同時(shí)在識(shí)別的過程中易造成樣品損毀,故對(duì)于經(jīng)濟(jì)價(jià)值較高的人參藥材,迫切需要研發(fā)一種無損的檢測(cè)方法。 本工作采用高光譜成像技術(shù)對(duì)人參的產(chǎn)地進(jìn)行識(shí)別分析,該技術(shù)具備快速無損的突出優(yōu)勢(shì),其電磁波在較短的波長范圍內(nèi)(如400~2 500 nm)照射到人參藥材上產(chǎn)生反射信號(hào),測(cè)量時(shí)間短,不對(duì)人參藥材造成損壞,未涉及到熱輻射波段,不受環(huán)境溫度影響,通過對(duì)其高光譜數(shù)據(jù)進(jìn)行分析來識(shí)別人參產(chǎn)地。 本研究以我國黑龍江、吉林、遼寧、山東四省十個(gè)地區(qū)的人參樣品為研究對(duì)象,采用高光譜成像設(shè)備獲取人參藥材的光譜反射率信息,基于具備部分可解釋性的隨機(jī)森林機(jī)器學(xué)習(xí)模型對(duì)人參進(jìn)行產(chǎn)地識(shí)別。
收集黑龍江省(伊春市、鐵力市、虎林市),吉林省(撫松縣、靖宇縣、臨江市、長白縣、琿春市)、遼寧省(寬甸縣)、山東省共十個(gè)不同產(chǎn)地的54個(gè)人參(園參)樣品。 統(tǒng)一進(jìn)行簡單清洗及干燥處理。 隨機(jī)選取一定數(shù)量樣本作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集,剩余的樣本作為測(cè)試驗(yàn)證數(shù)據(jù)集。 機(jī)器學(xué)習(xí)方法的訓(xùn)練和驗(yàn)證重復(fù)10次,以測(cè)試方法穩(wěn)定性。
人參的高光譜數(shù)據(jù)使用NEO公司的兩臺(tái)相機(jī)獲?。?Hyspex VNIR-1024的可見光近紅外高光譜相機(jī)和Hyspex SWIR-384短波紅外高光譜相機(jī)。 二者均為線陣掃描方式,線陣探元個(gè)數(shù)分別為1 024和384,覆蓋波段分別為400~1 000和940~2 500 nm,聯(lián)合使用可以覆蓋400~2 500 nm的光譜范圍。 使用暗室環(huán)境拍攝,內(nèi)置穩(wěn)定人工光源,保證所有樣本的高光譜數(shù)據(jù)是在同樣的光照條件下獲取。 人參樣本放置在黑色背景中接受掃描。 掃描成像的同時(shí)放置具有接近朗伯體反射特性的白板,用以實(shí)現(xiàn)絕對(duì)和相對(duì)輻射校正。
將每個(gè)人參樣本的高光譜圖像處理成一條光譜曲線。 數(shù)據(jù)處理方案如下。
(1)為減小采集過程中光源分布不均及鏡頭中暗電流造成的噪聲影響,對(duì)每個(gè)波段的圖像進(jìn)行相對(duì)和絕對(duì)輻射校正。 白板以上的所有像素值(digital number, DN) 按照式(1)進(jìn)行校正,校正后得到反射率
(1)
式(1)中,λ為電磁波長,DN(i, j)為校正前的第i行,第j列的像素值,E(DNwb(:, j))是第j列白板所有像素值的平均值,此處平均計(jì)算目的是消除白板因塵埃污染等造成的空間反射差異。 將DN值除以白板值定義為是歸一化到白板反射率為1情況下的人參反射率數(shù)值,通過白板作為參考完成絕對(duì)輻射校正。 所有樣本中的反射率絕對(duì)值具有大小可比性。 其值域范圍理論上為從0到無窮大,實(shí)際上處于(0, 2.5)的區(qū)間。 從白板亮度可以看出相機(jī)掃描的每個(gè)探元對(duì)應(yīng)的光照條件并不一致,呈現(xiàn)中間亮邊緣暗的低頻相對(duì)輻射差異,探元之間響應(yīng)能力不同導(dǎo)致固定的高頻相對(duì)輻射差異,通過按照每列分別除以白板均值,可以完成相對(duì)輻射校正。
(2)圖像分割。 通過統(tǒng)計(jì)黑色背景、白板、人參在單波段的數(shù)值差異,構(gòu)建了僅基于單波段反射率閾值的人參目標(biāo)圖像分割方法,可以確定人參所包含的所有像素,完成人參目標(biāo)的圖像分割,存為二值圖像掩膜Mask,1代表人參,0代表非人參。
(3)獲得反射率光譜曲線數(shù)據(jù),計(jì)算方法如式(2)所示。
(2)
式(2)中,ρλ是一個(gè)數(shù)值,表示波長為λ的反射率,公式中分子表示波長為λ的圖像中所有人參像素反射率之和,公式右側(cè)分母表示人參像素?cái)?shù)量。 通過循環(huán)處理高光譜圖像的每個(gè)波段,每個(gè)樣本可以得到一條反射率光譜曲線。
隨機(jī)森林是一種包含多個(gè)決策樹的機(jī)器學(xué)習(xí)模型,大多用于解決分類問題,隨機(jī)森林的輸出是所有決策樹輸出的眾數(shù)。 “森林”中的單個(gè)決策樹使用部分樣本進(jìn)行訓(xùn)練,因此每個(gè)決策樹都是“弱分類器”,最終結(jié)果取決于多個(gè)弱分類器投票表決。 因使用了決策樹,隨機(jī)森林可以根據(jù)輸入特征作為決策依據(jù)的重要程度,給出輸入特征的重要性排序,從而具備部分可解釋性。
人參高光譜產(chǎn)地識(shí)別系統(tǒng)基于scikit-learn0.23.2版本,使用python語言開發(fā),隨機(jī)森林設(shè)置使用默認(rèn)參數(shù)。 產(chǎn)地,是一個(gè)通俗說法,在研究中需要明確地域尺度大小才能進(jìn)行識(shí)別研究。 共使用三種產(chǎn)地歸類尺度,分別為東北與否二分類、省域四分類、縣級(jí)或地級(jí)八分類識(shí)別。 通過測(cè)試驗(yàn)證數(shù)據(jù)集預(yù)測(cè)混淆矩陣給出結(jié)果的總體精度進(jìn)行評(píng)價(jià)。
將人參樣品擺放于移動(dòng)平臺(tái)上,擺放時(shí)突出每一樣品的特征,將用于黑白校正的白板擺放在樣品后方5 cm處。 通過高光譜設(shè)備采集數(shù)據(jù),在高光譜數(shù)據(jù)收集完成后,為消除儀器對(duì)樣品數(shù)據(jù)的影響,利用儀器自帶RAD校正軟件校正原始高光譜圖像。 得到單個(gè)樣品的高光譜圖像如圖1(a,b)所示。
因不同相機(jī)在采集樣品高光譜圖像的過程中,可能會(huì)受光源分布不均及鏡頭中暗電流造成的噪聲等多重因素影響,故對(duì)400~1 000和940~2 500 nm兩個(gè)不同波段范圍的高光譜圖像分別進(jìn)行數(shù)據(jù)處理,得到每個(gè)樣品的反射率光譜曲線。
圖1 人參高光譜成像示例
其光譜曲線數(shù)據(jù),反射率絕對(duì)值具有大小可比性,且避免了人參單一位置光譜因雜質(zhì)等造成噪聲、因選取部位不同造成光譜不可比等問題,具有較高的信噪比和穩(wěn)定性。
為合并分析400~2 500 nm光譜范圍內(nèi)人參高光譜曲線規(guī)律,將兩個(gè)不同波段范圍的人參反射率光譜曲線在1 000 nm處拼接在一起。 可見-近紅外波段的相機(jī)(visible-near infrared, VNIR)和短波紅外(short wavelength infrared, SWIR)兩臺(tái)相機(jī)拍攝的燈光照射角度不同,兩個(gè)反射率的方向定義差異導(dǎo)致形成曲線斷層,但每個(gè)樣本的拍攝條件相同,不影響隨機(jī)森林方法識(shí)別。 通過數(shù)據(jù)處理后,得到54個(gè)人參樣品反射率光譜曲線如圖2所示。 其中黑龍江省樣品標(biāo)為紅色,吉林省樣品標(biāo)為綠色,遼寧省樣品標(biāo)為藍(lán)色,山東省樣品標(biāo)為黑色。
從圖2中可以看出,僅靠反射率大小很難將不同產(chǎn)地分開,使用機(jī)器學(xué)習(xí)的方法是一種較好的解決方案。 在當(dāng)前的54個(gè)樣本集中,將東北與否二分類隨機(jī)森林隨機(jī)選取20%(11個(gè))用于驗(yàn)證,共驗(yàn)證識(shí)別110次;考慮到總樣本數(shù)量有限,參與訓(xùn)練的樣本要保障一定數(shù)量,四省分類和八地分類尺度,按照隨機(jī)選取10%(5個(gè))用于驗(yàn)證。 按照三種產(chǎn)地歸類尺度,每種尺度分別使用隨機(jī)森林訓(xùn)練并驗(yàn)證重復(fù)10次,驗(yàn)證結(jié)果如表1所示。
圖2 不同產(chǎn)地的人參反射率光譜曲線Fig.2 Spectral reflectance curves from different geographical origins
表1 三種產(chǎn)地歸類尺度下的識(shí)別精度(百分比)Table 1 The recognition accuracies under three origin classification scale (100%)
人參是我國東北三省的“三寶”之一,東三省是傳統(tǒng)的人參產(chǎn)區(qū)。 首先按照東三省與否來進(jìn)行產(chǎn)地區(qū)分,共有2次將東北人參錯(cuò)分為山東人參,平均總體精度98.2%,對(duì)于人參產(chǎn)地是否屬于東三省“道地產(chǎn)區(qū)”的識(shí)別具有較高的實(shí)際應(yīng)用價(jià)值。 受到本批次人參樣品數(shù)量限制,四省分類和八地分類已經(jīng)受到樣本數(shù)量的影響,平均總體精度分別為82%和68%。 尤其是八地分類,隨機(jī)選取訓(xùn)練和識(shí)別樣本不同,導(dǎo)致驗(yàn)證精度從100%可能降到20%,樣本數(shù)量少導(dǎo)致的學(xué)習(xí)不足最為明顯。
從三種產(chǎn)地歸類尺度均有100%識(shí)別精度的情況來看,可以預(yù)期在樣本數(shù)量增加的情況下,所有產(chǎn)地歸類尺度下的隨機(jī)森林識(shí)別精度將會(huì)進(jìn)一步提升。
將三種產(chǎn)地歸類尺度下,按照(1)超過80%驗(yàn)證精度,(2)各波段重要性累加后,需要占到全部光譜的重要性的96%以上。 將符合上述兩個(gè)條件的訓(xùn)練和驗(yàn)證輪次得到的光譜波段重要性進(jìn)行了統(tǒng)計(jì),將重要性高的波段視為特征波段,如表2所示。
表2 隨機(jī)森林統(tǒng)計(jì)出的人參產(chǎn)地識(shí)別特征波段Table 2 The feature bands statistics of ginsengorigin recognition by random forest
從表2可以看出,對(duì)于東北人參與否的識(shí)別,SWIR具有明顯優(yōu)勢(shì),在訓(xùn)練樣本數(shù)量夠多的情況下,甚至僅使用SWIR光譜相機(jī)即可滿足應(yīng)用需求。 對(duì)于四個(gè)省份的人參識(shí)別,依然是短波紅外占據(jù)了主要信息量,仍然存在僅使用SWIR即可達(dá)到較高精度的可能。 對(duì)于縣級(jí)和地市級(jí)區(qū)分的八地識(shí)別,暫無明確結(jié)論。
(1)基于機(jī)器學(xué)習(xí)方法,可以僅通過光譜信息進(jìn)行高精度的人參產(chǎn)地識(shí)別,在四省和東北與否兩種尺度下,識(shí)別精度分別可達(dá)82%和98.2%。 按照純反射光譜的識(shí)別要求開發(fā)專用設(shè)備,將具有高精度、無損、快速、普通人可以簡易操作的優(yōu)勢(shì)。
(2)可見-近紅外波段的相機(jī)(VNIR)和短波紅外(SWIR)相機(jī)因探測(cè)器不同,可以認(rèn)為是兩臺(tái)設(shè)備,在產(chǎn)地識(shí)別中,應(yīng)重點(diǎn)探索基于SWIR的識(shí)別技術(shù)和硬件方案。
(3)人參屬于貴重中藥材,機(jī)器學(xué)習(xí)方法需要采集購買足夠多的樣本來提高識(shí)別算法的精度。
(4)基于決策樹的機(jī)器學(xué)習(xí)方法有利于發(fā)現(xiàn)描述產(chǎn)地之間差異的特征光譜,為進(jìn)一步建立人參高光譜圖譜提供支撐。