康 睿, 程雅雯, 周玲莉, 任 妮*
1. 江蘇省農(nóng)業(yè)科學(xué)院, 江蘇 南京 210031 2. 農(nóng)業(yè)農(nóng)村部長三角智慧農(nóng)業(yè)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 江蘇 南京 210031
食源性致病菌是導(dǎo)致食物中毒和食源性疾病的重要誘因, 嚴(yán)重威脅著消費(fèi)者的生命健康。 如何實(shí)現(xiàn)這類微生物的早期快速檢測是全球食品安全面臨的挑戰(zhàn)之一[1]。 常見的食源性致病菌有鼠傷寒沙門氏菌、 大腸埃希氏菌O157:H7和空腸彎曲桿菌等。 它們體型微小, 以食物為載體潛入人體快速繁殖, 誘發(fā)諸如惡心、 嘔吐、 急性腸胃炎、 出血性腹瀉、 腎或肝衰竭、 甚至癌癥等各類疾病。 在2003年至2017年期間, 我國發(fā)生食源性疫情共計(jì)19 517次, 約有235 754人患病, 107 470人需住院治療, 1 457人因此喪生。 由各類食源性致病菌引起的案例占比約為44.5%[2]。 為應(yīng)對(duì)日益嚴(yán)峻的食源性致病菌傳播風(fēng)險(xiǎn), 我國自2013年起就出臺(tái)了《食品中致病菌限量》等標(biāo)準(zhǔn)用于食品安全監(jiān)管[3]。 然而, 目前作為金標(biāo)準(zhǔn)的分離培養(yǎng)檢測法周期較長, 易錯(cuò)過防控食源性疫情爆發(fā)的最佳時(shí)機(jī)。
近年來, 各類快速檢測技術(shù)發(fā)展迅猛, 光學(xué)與光譜成像法因其非侵入性檢測的優(yōu)勢成為各國的研究熱點(diǎn)。 當(dāng)前用于致病菌檢測的光學(xué)光譜法主要以菌落或者菌液為研究對(duì)象, 如普渡大學(xué)的Tang等利用激光散射技術(shù)對(duì)不同血清型非O157產(chǎn)志賀毒素大腸桿菌的菌落生長分布圖像進(jìn)行識(shí)別分類[4]。 Windham等則使用可見/近紅外光譜技術(shù)對(duì)各類致病菌菌落進(jìn)行光譜建模分析實(shí)現(xiàn)種類判定[5]。 雖然宏觀尺度的致病菌光譜檢測技術(shù)的成功令人矚目, 但是如何在更早期如細(xì)胞階段的致病菌光學(xué)或光譜數(shù)據(jù)采集依然是挑戰(zhàn)。 常規(guī)光學(xué)顯微鏡技術(shù)在透明的細(xì)胞觀測任務(wù)中存在不足, 當(dāng)前的改良手段是通過添加熒光材料進(jìn)行標(biāo)記。 但是, 熒光染料通常具有毒性會(huì)導(dǎo)致細(xì)胞凋亡, 不易于實(shí)驗(yàn)的復(fù)現(xiàn)和深入研究。 顯微高光譜成像技術(shù)成為食源性致病菌細(xì)胞檢測的一種新型方式, 通過將非侵入性的光譜表征技術(shù)延伸至顯微尺度, 有助于致病菌活菌細(xì)胞的檢測和種類識(shí)別[6]。 Park等構(gòu)建了一種基于暗場顯微鏡的高光譜成像系統(tǒng), 實(shí)現(xiàn)了致病菌細(xì)胞微弱信號(hào)的捕捉和成像[7]。 Eady等則在實(shí)驗(yàn)步驟上進(jìn)行優(yōu)化, 通過增加特殊的烘干技巧將致病菌固定, 避免了圖像采集時(shí)細(xì)胞移動(dòng)導(dǎo)致的一系列問題[8]。 然而, 高分辨率的細(xì)胞高光譜圖像數(shù)據(jù)量巨大, 如何實(shí)現(xiàn)細(xì)胞超立方體圖像的高維特征提取和快速分析成為新的難題。
本研究以空腸彎曲桿菌、 大腸埃希氏菌O157:H7、 鼠傷寒沙門氏菌為對(duì)象, 利用自行構(gòu)建的顯微高光譜成像系統(tǒng)進(jìn)行致病菌單個(gè)細(xì)胞的超立方體數(shù)據(jù)采集, 提取細(xì)胞的圖像和光譜特征, 并嘗試構(gòu)建一種基于神經(jīng)網(wǎng)絡(luò)的智能算法實(shí)現(xiàn)致病菌高光譜數(shù)據(jù)的快速分析。
試驗(yàn)采用了三種常見的食源性致病菌, 分別為空腸彎曲桿菌(Campylobacterjejuni,C.jejuni)(ATCC 33291)、 大腸埃希氏菌O157:H7 (Escherichiacoli,E.coli)(ATCC 700728)和鼠傷寒沙門氏菌(SalmonellaTyphimurium,S.Typhimurium)(ATCC 14028)。 在試驗(yàn)前, 純種菌株存放在-80 ℃的細(xì)菌庫中。 根據(jù)每次試驗(yàn)需要, 將菌株從冰箱中取出并選擇各自的生長培養(yǎng)基進(jìn)行接種。 孵育時(shí)間、 溫度和培養(yǎng)基的選擇參考Difco &BBL微生物培養(yǎng)手冊(cè)[9]。 試驗(yàn)步驟主要參照Park等的研究[10], 使用接種環(huán)從瓊脂板上挑出各致病菌菌落, 并接種到100 μL純水中搖勻, 然后吸出3 μL細(xì)菌懸浮液置于載玻片的中央, 并利用生物安全柜進(jìn)行15分鐘通風(fēng)干燥制樣。 隨后, 在細(xì)菌載玻片中央滴入約0.8 μL無菌水, 并用無色透明的玻璃蓋玻片壓住, 擠出多余氣泡并在蓋玻片頂部滴入少許香柏油, 便于顯微高光譜成像系統(tǒng)進(jìn)行觀察和圖像采集。
實(shí)驗(yàn)用顯微高光譜成像系統(tǒng)如圖1所示, 主要由Eclipse e80i直立顯微鏡(日本尼康), AOTF光譜儀(英國克羅姆, 光譜范圍450~800 nm, 間隔4 nm), 高性能的16位EMCCD相機(jī)(北愛爾蘭安道爾科技)以及鹵鎢燈(21 V, 150 W, 德國歐司朗)組成。 顯微鏡主體主要用于觀察致病菌細(xì)胞, 光路傳輸方式參照暗場相差顯微鏡光路配置, 因此采集獲得的細(xì)胞背景圖像為暗。 AOTF光譜儀基于聲光衍射原理, 能夠通過調(diào)節(jié)不同頻率的聲波促使聲光晶體材質(zhì)進(jìn)行特定波長濾波, 為后續(xù)CCD相機(jī)的圖像采集準(zhǔn)備。 EMCCD相機(jī)的采集參數(shù)調(diào)至最佳, 曝光時(shí)間設(shè)定為250 ms, 增益為15%。 通過移動(dòng)載物臺(tái)調(diào)整顯微鏡視場捕捉不同位置細(xì)胞的圖像, 最終每類致病菌采集獲得50張高光譜超立方體數(shù)據(jù), 共計(jì)150(3×50)張, 部分致病菌數(shù)據(jù)可在相關(guān)平臺(tái)公開獲得[8]。
圖1 AOTF顯微高光譜成像采集系統(tǒng)
(1)
(2)
(3)
細(xì)胞形態(tài)數(shù)據(jù)集則從在546 nm波段從高光譜數(shù)據(jù)中抽取細(xì)胞圖像(此波段細(xì)胞成像最清晰), 并按照光譜數(shù)據(jù)集的編號(hào)順序進(jìn)行保存, 保證同一個(gè)細(xì)胞的光譜與圖像數(shù)據(jù)編號(hào)一致。 細(xì)胞圖像的形態(tài)特征采用自行編寫的Python程序提取, 主要使用scikit-learn工具包提取細(xì)胞的面積、 周長、 長軸長、 短軸長等形態(tài)信息, 詳細(xì)特征參數(shù)如表1所示。
表1 細(xì)胞形態(tài)特征匯總
對(duì)于形態(tài)數(shù)據(jù)集, 將首先使用標(biāo)準(zhǔn)歸一化(Standard normal variate, SNV)的方式對(duì)形態(tài)數(shù)據(jù)以行為中心進(jìn)行運(yùn)算, 從而實(shí)現(xiàn)每行形態(tài)特征的中心化縮放, 矩陣運(yùn)算方法如式(4)所示。
(4)
光譜數(shù)據(jù)集和圖譜數(shù)據(jù)集分別按照7∶2∶1的比例劃分為訓(xùn)練集(700×3)、 驗(yàn)證集(200×3)和測試集(100×3)。 模型評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(Acc)、 精確率(Pre)、F1值和Kappa系數(shù)(K), 它們的計(jì)算分別如式(5)—式(8)所示。
(5)
(6)
(7)
(8)
其中, 準(zhǔn)確率、 精確率和F1公式中的TP、TN、FP和FN分別表示真陽性、 真陰性、 假陽性和假陰性樣本數(shù),K值則用于模型的一致性評(píng)估,Pe表示偶然一致性, 可以通過對(duì)混淆矩陣進(jìn)行運(yùn)算獲得。 實(shí)驗(yàn)中所有評(píng)價(jià)指標(biāo)的公式運(yùn)算均通過Python編程實(shí)現(xiàn)。 對(duì)各模型在圖像、 光譜和圖譜數(shù)據(jù)集的分類表現(xiàn)進(jìn)行分析, 并探索利用圖譜模型進(jìn)行致病菌分類的可行性。
智能算法采用雙向長短式記憶網(wǎng)絡(luò)(Bi-directional long short-term memory, Bi-LSTM), 其主要通過正反向傳播的LSTM網(wǎng)絡(luò)組合一起實(shí)現(xiàn), 對(duì)于一維光譜數(shù)據(jù)分析具有優(yōu)勢。 Bi-LSTM中的內(nèi)部節(jié)點(diǎn)與LSTM網(wǎng)絡(luò)相同, 包括輸入門、 遺忘門和輸出門, 主要結(jié)構(gòu)如圖2所示。
圖2 LSTM單元構(gòu)成詳解
(9)
ft=σ(Wf×[ht-1,xt]+bf)
(10)
it=σ(Wi×[ht-1,xt]+bi)
(11)
ot=σ(Wo×[ht-1,xt]+bo)
(12)
(13)
ht=ot×tanh(Ct)
(14)
通過利用這種特定的單元結(jié)構(gòu), LSTM網(wǎng)絡(luò)能夠?qū)θ我夤庾V間隔內(nèi)的數(shù)據(jù)流進(jìn)行解析。 Bi-LSTM則在傳統(tǒng)的LSTM前向傳播的基礎(chǔ)上添加反向?qū)? 通過對(duì)前向?qū)雍秃笙驅(qū)拥碾[藏向量進(jìn)行堆疊實(shí)現(xiàn)輸出, 具體堆疊方式如圖3所示。
圖3 Bi-LSTM內(nèi)部結(jié)構(gòu)圖
(15)
(16)
(17)
在建模分析環(huán)節(jié), 采用光譜分析領(lǐng)域中經(jīng)典的線性判別分析(linear discriminant analysis, LDA)和主成分分析結(jié)合支持向量機(jī)算法(principal components analysis and support vector machine, PCA-SVM)與Bi-LSTM網(wǎng)絡(luò)進(jìn)行分類比較。 其中, LDA是一種經(jīng)典的線性分類器, 可以通過矩陣特征分解的方式實(shí)現(xiàn)光譜數(shù)據(jù)的線性降維識(shí)別。 PCA方法是目前常用的無監(jiān)督光譜降維方法, 其與支持向量機(jī)的組合使用方式在光譜數(shù)據(jù)分類領(lǐng)域應(yīng)用廣泛。 各分類器將對(duì)1.3小節(jié)中劃分的光譜數(shù)據(jù)集和光譜圖像數(shù)據(jù)集進(jìn)行各自建模, 各分類器內(nèi)部的超參數(shù)將進(jìn)行分別調(diào)優(yōu), 最終將分類結(jié)果匯總對(duì)比分析。
致病菌的光譜數(shù)據(jù)提取過程和結(jié)果如圖4所示。 首先, 從致病菌高光譜數(shù)據(jù)[圖4(a)所示]中提取較為清晰的單波段圖像, 采用灰度化、 降噪濾波、 閾值分割等圖像處理手段生成對(duì)應(yīng)的掩膜文件[圖4(b)所示]。 然后, 將原始高光譜數(shù)據(jù)中的每個(gè)波段的細(xì)胞原圖像和掩膜進(jìn)行異或操作, 利用閾值分割的方式提取感興趣區(qū)域(regions of interest, ROI)。 接著, 將單波段的細(xì)胞圖像按照波段序列重新疊加組合, 重新形成新的細(xì)胞ROI的超立方體數(shù)據(jù)[圖4(c)所示]。 最后, 計(jì)算ROI區(qū)域內(nèi)的所有光譜形成均值光譜, 并進(jìn)行MSC算法校正。 圖4(d)顯示了不同致病菌在450~800 nm波段下的光譜曲線圖, 各類致病菌的光譜峰形相似, 且都在522、 546、 574、 590和670 nm的波段取得峰值, 但是在光譜強(qiáng)度上表現(xiàn)出差異。 其中, 空腸彎曲桿菌的光譜強(qiáng)度最低, 大腸埃希氏菌O157:H7和鼠傷寒沙門氏菌存在部分光譜重疊區(qū)域。 這些強(qiáng)度規(guī)律的形成與光子在細(xì)胞中透射、 散射和折射的相互作用有關(guān)。 首先, 入射光先通過細(xì)胞的膠囊、 細(xì)胞壁和細(xì)胞內(nèi)膜進(jìn)入內(nèi)部, 與細(xì)胞液、 染色體DNA和核糖體相互作用, 產(chǎn)生光能的二次衰減。 由于各種致病菌細(xì)胞個(gè)體的差異, 導(dǎo)致細(xì)胞內(nèi)部這些物質(zhì)的含量不同, 因此光能衰減存在差異, 從而形成獨(dú)特的“光譜指紋”[11]。
圖4 (a) 致病菌高光譜數(shù)據(jù); (b) 細(xì)胞圖像對(duì)應(yīng)的掩膜圖像; (c) 提取獲得的單個(gè)細(xì)胞高光譜圖像; (d) MSC算法校正后的三種細(xì)菌平均光譜圖
基于1.4所描述的模型判別方案, 建立LDA, PCA-SVM和Bi-LSTM模型。 其中, LDA使用自動(dòng)調(diào)超參的方式進(jìn)行優(yōu)化; 在PCA-SVM分類器中, PCA選用前8個(gè)主成分, 光譜數(shù)據(jù)集的總解釋變量為97.9%, 圖譜數(shù)據(jù)集為94.9%。 SVM采用高斯核函數(shù), 在兩種數(shù)據(jù)集中參數(shù)C均為20, gamma參數(shù)均為0.15。 Bi-LSTM網(wǎng)絡(luò)中內(nèi)部輸出維度參數(shù)units為200, dropout為0.2, 采用雙向封裝器對(duì)光譜數(shù)據(jù)進(jìn)行前后雙向運(yùn)算。
在光譜數(shù)據(jù)集中, LDA、 PCA-SVM和Bi-LSTM分類器在測試集分別取得了80.1%、 88.5%和91.0%的準(zhǔn)確率, 精確率分別為0.81、 0.89和0.91,F1值分別為0.80、 0.88和0.91,K值分別為0.7、 0.82和0.86, 詳細(xì)結(jié)果如表2所示。 其中, 非線性模型PCA-SVM和Bi-LSTM性比線性LDA模型準(zhǔn)確率更高。 各模型的精確率和F1值區(qū)別不大, 表明各模型的超參數(shù)均被調(diào)優(yōu), 評(píng)估性能穩(wěn)定。 但是, 在一致性檢測環(huán)節(jié), LDA僅取得0.70的K值得分, PCA-SVM和Bi-LSTM則分別為0.82和0.86, 表明非線性模型在光譜分類任務(wù)中更加可靠。 綜上, 光譜數(shù)據(jù)集的分類結(jié)果表明, 經(jīng)典的PCA-SVM和神經(jīng)網(wǎng)絡(luò)算法Bi-LSTM相較于傳統(tǒng)方法LDA, 準(zhǔn)確率和穩(wěn)定性更強(qiáng)。 在光譜和形態(tài)數(shù)據(jù)集中, 各分類器的分類結(jié)果均取得提升, 測試集分別取得了95.3%、 95.3%和98.1%的準(zhǔn)確率, 精確率分別為0.96、 0.95和0.98,F1值分別為0.95、 0.95和0.98,K值分別為0.92、 0.92和0.97。 其中, LDA分類器準(zhǔn)確率提升較大, 從80.1%提升至95.3%, 達(dá)到了與PCA-SVM同樣的分類準(zhǔn)確率。 光譜形態(tài)數(shù)據(jù)集的分類結(jié)果表明, 形態(tài)數(shù)據(jù)的加入能夠顯著提升各分類模型的性能, LDA提升了15.2%, PCA-SVM模型提升了6.8%, Bi-LSTM網(wǎng)絡(luò)提升了7.1%。 Bi-LSTM分類器在圖譜數(shù)據(jù)集中表現(xiàn)最為優(yōu)異, 測試集取得了98.1%的準(zhǔn)確率, 0.98的精確率、 0.98的F1-Score和0.97的K值。
表2 不同模型的分類結(jié)果
如圖5所示, 通過混淆矩陣可視化手段能夠直觀展現(xiàn)各分類器在三種致病菌分類任務(wù)中詳細(xì)表現(xiàn)。 圖5(a)展示了三種分類器在光譜數(shù)據(jù)集上的致病菌分類情況, 各分類器的分均能較好的區(qū)分空腸彎曲桿菌, 但是在大腸埃希氏菌O157:H7和鼠傷寒沙門氏菌的分類中表現(xiàn)較差。 已有的文獻(xiàn)表明, 空腸彎曲桿菌體態(tài)為弧形, 與大腸埃希氏菌O157:H7和鼠傷寒沙門氏菌存在明顯差異[12], 顯微高光譜成像則能夠捕捉這些由各致病菌細(xì)胞物理結(jié)構(gòu)和化學(xué)成分不同而產(chǎn)生的光子能量差異。 各分類器的性能也會(huì)影響最終判別結(jié)果, 如圖5(a)所示, 有60個(gè)大腸埃希氏菌O157:H7樣本被誤判為鼠傷寒沙門氏菌, 而有51個(gè)鼠傷寒沙門氏菌樣本被誤判為大腸埃希氏菌O157:H7。 雖然使用性能更佳的PCA-SVM(誤判的大腸埃希氏菌O157:H7個(gè)數(shù)為30, 鼠傷寒沙門氏菌個(gè)數(shù)為16)和Bi-LSTM(誤判的大腸埃希氏菌O157:H7 29個(gè)數(shù)為, 鼠傷寒沙門氏菌個(gè)數(shù)為17)分類器能夠改善假陽性問題, 但依然無法顯著提升各類致病菌的分類效果。 綜上, 基于光譜數(shù)據(jù)集的結(jié)果表明, 僅使用光譜特征進(jìn)行分類易產(chǎn)生誤判, 這是由于大腸埃希氏菌O157:H7和鼠傷寒沙門氏菌均擁有相似的細(xì)胞壁、 細(xì)胞膜、 細(xì)胞質(zhì)和細(xì)胞核等結(jié)構(gòu)。 因此, 形態(tài)特征的加入或許能夠?yàn)榉诸愋Ч母纳铺峁椭?空腸彎曲桿菌為空間螺旋形, 細(xì)長且呈S形彎曲; 大腸埃希氏菌O157:H7與鼠傷寒沙門氏菌雖然菌體兩端均呈鈍圓形, 但在桿體長短等形態(tài)特征上存在差異。 基于圖像和光譜的分類結(jié)果如圖5(b)所示, 在LDA分類器中, 僅有25個(gè)大腸埃希氏菌O157:H7樣本被誤判為鼠傷寒沙門氏菌; PCA-SVM分類器中, 這兩類致病菌的誤判樣本數(shù)分別為15和11; Bi-LSTM網(wǎng)絡(luò)則能更進(jìn)一步的解決假陽性問題, 僅有2個(gè)鼠傷寒沙門氏菌的樣本被誤判。 混淆矩陣可視化的結(jié)果表明, 大腸埃希氏菌O157:H7和鼠傷寒沙門氏菌的假陽性誤判問題是制約各分類器準(zhǔn)確率的重要原因, 使用圖像和光譜特征結(jié)合先進(jìn)的Bi-LSTM神經(jīng)網(wǎng)絡(luò)分類器則能夠顯著提高致病菌的分類精度。
圖5 (a) 基于光譜數(shù)據(jù)集的各分類器的混淆矩陣; (b)基于圖像和光譜融合數(shù)據(jù)集的各分類器的混淆矩陣
在顯微高光譜成像技術(shù)和圖譜智能算法應(yīng)用于食源性致病菌的快速檢測和分類具有鮮明的數(shù)字化、 智能化的優(yōu)勢: (1)本研究提出的顯微高光成像技術(shù)能夠?qū)崿F(xiàn)各類食源性致病菌的快速特異性表征, 為使用智能算法進(jìn)行致病菌細(xì)胞級(jí)別的分類提供了數(shù)據(jù)支撐; (2)Bi-LSTM網(wǎng)絡(luò)在光譜和圖譜分類任務(wù)中具有優(yōu)勢, 它的端對(duì)端網(wǎng)絡(luò)結(jié)構(gòu)能夠直接處理高維特征, 無需類似PCA-SVM方法使用降維預(yù)處理步驟, 并能取得比LDA更好的識(shí)別準(zhǔn)確率; (3)形態(tài)特征和光譜數(shù)據(jù)融合形成的圖譜數(shù)據(jù)集能夠顯著增強(qiáng)致病菌的特異性表達(dá), 提升各分類器的識(shí)別精度, 與靈活且強(qiáng)大的Bi-LSTM網(wǎng)絡(luò)進(jìn)行結(jié)合能夠進(jìn)一步解決致病菌分類過程中出現(xiàn)的假陽性問題。