陸彥邑,曾琳,嚴(yán)博文,黎敏,何慶華
陸軍軍醫(yī)大學(xué)大坪醫(yī)院/國(guó)家創(chuàng)傷燒傷復(fù)合傷重點(diǎn)實(shí)驗(yàn)室,重慶400042
電子鼻是一種利用氣體傳感器陣列來(lái)檢測(cè)和識(shí)別物質(zhì)氣味的檢測(cè)技術(shù),其核心部件是各種類型的氣體傳感器。由多個(gè)傳感器對(duì)檢測(cè)物質(zhì)的響應(yīng)構(gòu)成了傳感器陣列對(duì)該氣味的響應(yīng)數(shù)據(jù),不同類別的物質(zhì)形成不同類別的數(shù)據(jù),采用合適的模式識(shí)別方法可對(duì)信號(hào)進(jìn)行分類和識(shí)別[1-2]。
基于傳感器的多樣化,電子鼻可用于醫(yī)學(xué)診斷[3]、環(huán)境監(jiān)測(cè)[4]、食品檢測(cè)[5-6]等領(lǐng)域,具有廣泛的應(yīng)用價(jià)值。在醫(yī)學(xué)診斷領(lǐng)域,傷口感染檢測(cè)在臨床工作中極其重要,但傳統(tǒng)傷口感染檢測(cè)方法速度較慢,無(wú)法迅速確定傷口感染類型,快速有效的檢測(cè)手段能極大地提高治療效率。臨床中傷口感染細(xì)菌種類繁多,常見的有大腸桿菌、金黃色葡萄球菌、銅綠假單胞菌、鮑曼不動(dòng)桿菌、肺炎克雷伯桿菌等。電子鼻用于傷口感染檢測(cè)早已有研究,涉及到的細(xì)菌有大腸桿菌和銅綠假單胞菌[7-8]、金黃色葡萄球菌[7-10]、糞腸球菌[11]、梭菌屬和脆弱擬桿菌[12]等。國(guó)內(nèi)對(duì)電子鼻用于傷口細(xì)菌感染檢測(cè)已有較多的研究[13-15],主要涉及到大腸桿菌、金黃色葡萄球菌、銅綠假單胞菌3種細(xì)菌。
本文在現(xiàn)有的研究基礎(chǔ)上,使用自制電子鼻檢測(cè)臨床中的5 種常見傷口感染細(xì)菌(大腸桿菌、金黃色葡萄球菌、銅綠假單胞菌、鮑曼不動(dòng)桿菌、肺炎克雷伯桿菌)的細(xì)菌培養(yǎng)液,并使用模式識(shí)別算法進(jìn)行細(xì)菌的分類識(shí)別,以期為傷口感染的快速檢測(cè)提供更多的可能性。
采用重慶大學(xué)自制電子鼻裝置作為電子鼻檢測(cè)儀器[16],如圖1所示。該電子鼻系統(tǒng)分為樣品單元、檢測(cè)單元和控制單元3 個(gè)部分。傳感器陣列包括1個(gè)溫度傳感器、1個(gè)濕度傳感器、1個(gè)氣壓傳感器、1個(gè)電壓傳感器和30個(gè)氣體傳感器(其中傳感器GSBT-11已損壞)。采集過(guò)程分為基線采集、樣本采集、系統(tǒng)清潔3 個(gè)階段,采集頻率1 Hz。實(shí)驗(yàn)時(shí)3 個(gè)階段設(shè)置時(shí)長(zhǎng)分別為180、180、240 s,共600 s。重復(fù)實(shí)驗(yàn),以收集更多的樣本。
圖1 自制電子鼻實(shí)驗(yàn)裝置Fig.1 Experiment device of self-made electronic nose
本實(shí)驗(yàn)有6 種樣品:使用巰基乙酸酯(Thioglycolate,TH)培養(yǎng)液培養(yǎng)的大腸桿菌、金黃色葡萄球菌、銅綠假單胞菌、鮑曼不動(dòng)桿菌、肺炎克雷伯桿菌的細(xì)菌培養(yǎng)液及純TH 培養(yǎng)液,其中大腸桿菌(ATCC25922)、金黃色葡萄球菌(ATCC25923)、銅綠假單胞菌(ATCC27853)為陸軍軍醫(yī)大學(xué)大坪醫(yī)院檢驗(yàn)科提供的ATCC 標(biāo)準(zhǔn)菌株,肺炎克雷伯桿菌為陸軍軍醫(yī)大學(xué)大坪醫(yī)院檢驗(yàn)科提供的從臨床患者傷口分泌物中分離出來(lái)的菌株,鮑曼不動(dòng)桿菌(ATCC19606)為陸軍軍醫(yī)大學(xué)西南醫(yī)院燒傷科提供的標(biāo)準(zhǔn)菌株。所有細(xì)菌均轉(zhuǎn)種至規(guī)格為5 mL 的TH培養(yǎng)液中培養(yǎng)16~20 h得到用于檢測(cè)的細(xì)菌培養(yǎng)液。
基于儀器特性,本研究所用的電子鼻典型傳感器響應(yīng)曲線(傳感器MQ135)如圖2所示,每一個(gè)傳感器有一組響應(yīng)曲線,共600個(gè)數(shù)據(jù)點(diǎn)。
圖2 典型的傳感器響應(yīng)曲線Fig.2 A typical response curve of a sensor
傳感器GSBT-11 已損壞,溫度傳感器、濕度傳感器、氣壓傳感器及電壓傳感器響應(yīng)較為恒定,因此剔除這5 個(gè)傳感器的響應(yīng)數(shù)據(jù),使用剩余29 個(gè)傳感器響應(yīng)數(shù)據(jù)進(jìn)行分析。每一個(gè)類別每個(gè)傳感器均有一組響應(yīng)數(shù)據(jù),一組響應(yīng)數(shù)據(jù)有600 個(gè)數(shù)據(jù)點(diǎn),因此原始樣本數(shù)據(jù)維度為m× 600 × 29,m為收集到的樣本組數(shù),600 為一組數(shù)據(jù)的長(zhǎng)度,29 為傳感器個(gè)數(shù)。本研究中,每類樣本各收集到200組數(shù)據(jù),m=1 200。由于原始樣本數(shù)據(jù)量較大且存在干擾,因此對(duì)樣本數(shù)據(jù)先進(jìn)行預(yù)處理再進(jìn)行分類識(shí)別,數(shù)據(jù)處理流程見圖3。
圖3 數(shù)據(jù)處理流程圖Fig.3 Flowchart of data processing
2.1.1 濾波實(shí)驗(yàn)數(shù)據(jù)存在異常干擾,對(duì)于每個(gè)傳感器的每一組響應(yīng)數(shù)據(jù),按傳感器依次采用5點(diǎn)中值濾波來(lái)減小干擾。
2.1.2 特征點(diǎn)提取濾波后,對(duì)于每個(gè)傳感器的響應(yīng)數(shù)據(jù)v=(v1,v2,…,v600)T,特征點(diǎn)xfeature提取方法如下:
其中,vmax為響應(yīng)曲線中樣本采集階段的最大值,vbaseline為響應(yīng)曲線中基線采集階段其中一段的平均值,定義如下:
對(duì)每個(gè)樣本的一組數(shù)據(jù),有多少個(gè)傳感器就有多少個(gè)特征點(diǎn),此時(shí)一組完整的傳感器相應(yīng)特征點(diǎn)可表示如下:
其中,n為特征點(diǎn)總數(shù)。
2.1.3 歸一化特征點(diǎn)提取后的樣本數(shù)據(jù),依然按組進(jìn)行歸一化,方法如下:
經(jīng)過(guò)以上處理的數(shù)據(jù),去除了干擾,提取了特征點(diǎn),可進(jìn)行樣本的分類和識(shí)別。使用邏輯回歸(Logistic Regression, LR)、BP(Back propagation)神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(Support Vector Machine,SVM)3種算法對(duì)6種樣品進(jìn)行分類識(shí)別。
2.2.1 LRLR是一種根據(jù)預(yù)測(cè)函數(shù)hθ(x)來(lái)實(shí)現(xiàn)二分類的分類算法,通過(guò)樣本訓(xùn)練得到預(yù)測(cè)函數(shù),后使用預(yù)測(cè)函數(shù)對(duì)未知樣本進(jìn)行預(yù)測(cè)和歸類。hθ(x)定義如下:
x為樣本特征向量,θ為各個(gè)特征的參數(shù)。當(dāng)hθ(x) ≥0.5 時(shí),樣本屬于正類(第一類);hθ(x) < 0.5時(shí),樣本屬于反類(第二類)。
模型的損失函數(shù)為:
其中,m為訓(xùn)練樣本總數(shù),n為特征總數(shù)。為避免過(guò)擬合,引入正則化項(xiàng),λ為正則化系數(shù)。損失函數(shù)用于評(píng)估預(yù)測(cè)的準(zhǔn)確性,損失函數(shù)值越小,代表預(yù)測(cè)越準(zhǔn)確??墒褂锰荻认陆邓惴▽?duì)J(θ)求偏導(dǎo)數(shù),尋找最優(yōu)的θ使得J(θ)最小,此時(shí)的預(yù)測(cè)函數(shù)hθ(x)即為最優(yōu)預(yù)測(cè)函數(shù)。
本研究屬于多分類問題,可以使用一對(duì)多(onevsrest)的方式對(duì)每個(gè)類別訓(xùn)練一個(gè)二元分類器:對(duì)類別①,類別①為正類,其余為反類,搭建二分類器h1θ(x);對(duì)類別②,類別②為正類,其余為反類,搭建二分類器h2θ(x)。對(duì)需要預(yù)測(cè)的新樣本,依次使用以上二分類器預(yù)測(cè)輸出,輸出值最大的那組預(yù)測(cè)結(jié)果即為新樣本的所屬類別。
2.2.2 BP神經(jīng)網(wǎng)絡(luò)BP網(wǎng)絡(luò)即反向傳播網(wǎng)絡(luò),是目前應(yīng)用非常廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu)如圖4所示,分為輸入層、隱含層、輸出層。BP網(wǎng)絡(luò)的訓(xùn)練過(guò)程可分為前向傳播和反向傳播兩個(gè)過(guò)程。前向傳播根據(jù)輸入的樣本特征向量(x1,x2,…,xn),通過(guò)各隱含層的權(quán)重值w和偏置項(xiàng)b計(jì)算輸出值(y1,y2,…,yc),以及輸出值與實(shí)際值之間的誤差項(xiàng)δ,其中,c為總類別數(shù)。若誤差值在給定范圍內(nèi),則網(wǎng)絡(luò)訓(xùn)練完畢。若誤差項(xiàng)不在給定的范圍內(nèi),則進(jìn)行反向傳播,通過(guò)誤差項(xiàng)δ回傳給各級(jí)隱含層,重新計(jì)算各級(jí)的權(quán)重值w和偏置項(xiàng)b,數(shù)次迭代直到誤差項(xiàng)在給定范圍內(nèi),此時(shí)網(wǎng)絡(luò)訓(xùn)練完畢。
圖4 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Structure of BP neural network
設(shè)隱含層共有l(wèi)層,各隱含層節(jié)點(diǎn)數(shù)為(s1,s2,…,sl),zk、hk、f(zk)分別為第k層的節(jié)點(diǎn)值、輸出值、激活函數(shù),k=(1,2,…,l),則各隱含層的節(jié)點(diǎn)值和輸出值計(jì)算如下:
其中,zi(k+1)為第(k+ 1)層第i個(gè)節(jié)點(diǎn)的值,wkij為第k層第i個(gè)節(jié)點(diǎn)上第j個(gè)輸入的權(quán)重值,bki為第k層第i個(gè)節(jié)點(diǎn)的偏置項(xiàng)值。給定各級(jí)網(wǎng)絡(luò)初始權(quán)重值和偏置項(xiàng)值,根據(jù)以上公式即可算出各級(jí)隱含層和輸出層的節(jié)點(diǎn)值和輸出值。
網(wǎng)絡(luò)訓(xùn)練方法有多種,常見的訓(xùn)練方法有梯度下降法、共軛梯度法、擬牛頓算法、列文伯格-馬夸爾特法(Levenberg-Marquardt, LM)法等。網(wǎng)絡(luò)訓(xùn)練完畢,將待測(cè)試的樣本輸入網(wǎng)絡(luò),即可預(yù)測(cè)出其類別。
2.2.3 SVMSVM本身是一個(gè)二分類器,其目的是找到一個(gè)最優(yōu)超平面,使兩類數(shù)據(jù)點(diǎn)正確地分在超平面的兩側(cè)。如圖5所示,樣本線性可分時(shí),可以用一條直線(在高維空間則是一個(gè)決策曲面)把兩類樣本分開。圖5中虛線上的點(diǎn)稱為支持向量,當(dāng)兩類樣本的支持向量到該直線(決策曲面)的間隔d最大時(shí),該直線(決策曲面)即為最優(yōu)超平面。決策曲面定義如下:
圖5 支持向量機(jī)原理圖Fig.5 Schematic diagram of support vector machine
其中,x為樣本特征向量;w為可調(diào)權(quán)值;b為偏置,代表決策面相對(duì)于原點(diǎn)的偏移。求解決策曲面的過(guò)程即是尋找最優(yōu)超平面的過(guò)程。經(jīng)過(guò)計(jì)算可得間隔d:
因此,最大化d等價(jià)于最小化權(quán)值向量w的歐幾里得范數(shù)‖w‖。最終計(jì)算可得:
其中,αi是拉格朗日乘子;xi表示特征向量x中某一個(gè)特征值,i=(1,2,…,n),n表示特征向量維度;yi表示相應(yīng)類的標(biāo)識(shí),yi為+1 時(shí)代表第一類(正類),yi為-1時(shí)代表第二類(反類)。式(12)作為SVM的支持向量和最優(yōu)超平面分類器。多數(shù)情況下,樣本是線性不可分的,此時(shí)可以通過(guò)核函數(shù)將樣本映射到高維空間,變?yōu)榫€性可分樣本再進(jìn)行分類。常見的核函數(shù)有線性核、多項(xiàng)式核、徑向基函數(shù)核(Radial Basis Function,RBF)以及sigmoid核。
當(dāng)使用SVM 用于多分類時(shí),本文采用一對(duì)一的方式進(jìn)行分類。其實(shí)現(xiàn)方式是用SVM對(duì)任意兩類設(shè)計(jì)一個(gè)二分類器,從而得到c(c- 1)/2 個(gè)二分類器,c為總類別數(shù)。對(duì)于一個(gè)需要分類的樣本,用所有二分類器對(duì)其進(jìn)行預(yù)測(cè),得票最多的類別即為該樣本所屬類別。
在同一實(shí)驗(yàn)條件下,使用電子鼻檢測(cè)6種樣品,6種樣品的典型電子鼻雷達(dá)圖譜如圖6所示,可看出6種樣品各有其圖譜特征。
圖6 6種樣品電子鼻雷達(dá)圖譜Fig.6 Radar patterns of 6 types of samples detected by electric nose
6 類樣品每類共收集到200 組樣本數(shù)據(jù),經(jīng)過(guò)濾波、特征值提取和歸一化的預(yù)處理后得到了200×29的特征值矩陣。
對(duì)于每類的200 組樣本數(shù)據(jù),隨機(jī)選取其中100組為訓(xùn)練集,剩余100 組為測(cè)試集,分別使用SVM、BP、LR 來(lái)進(jìn)行分類識(shí)別。經(jīng)過(guò)多次實(shí)驗(yàn)可分別得到3 種算法的最優(yōu)參數(shù):BP 選擇一層隱含層,隱含層節(jié)點(diǎn)數(shù)為輸入層的1.5 倍,隱含層和輸出層的激活函數(shù)分別為tan-sigmod 和purelin,網(wǎng)絡(luò)訓(xùn)練方法為L(zhǎng)M 算法;SVM 算法的核函數(shù)類型為RBF 核;為避免擬合,LR 引入正則化參數(shù),參數(shù)最優(yōu)值為1。由于訓(xùn)練樣本為隨機(jī)選取,因此每一次運(yùn)行識(shí)別率略有不同,運(yùn)行10次取平均可得平均識(shí)別率,見表1。
表1 3種算法平均識(shí)別率(%)Tab.1 Average recognition rates of 3 algorithms(%)
3種算法中,總體識(shí)別率BP最高(93.18%),SVM次之(86.52%),LR 最低(72.78%)。對(duì)于單個(gè)類別的識(shí)別率,BP 依然最高。從單個(gè)類別識(shí)別率可看出,BP 和SVM 對(duì)大腸桿菌、肺炎克雷伯桿菌和金黃色葡萄球菌具有良好的識(shí)別效果,能達(dá)到98%以上。鮑曼不動(dòng)桿菌和銅綠假單胞菌識(shí)別率不如以上3 種細(xì)菌,但使用BP 算法也能達(dá)到88%以上。以上結(jié)果表明,對(duì)于常見傷口感染細(xì)菌的培養(yǎng)液,使用BP算法識(shí)別率和可分性更高。
本研究為電子鼻用于快速篩查常見傷口感染細(xì)菌類型提供了一定的實(shí)驗(yàn)基礎(chǔ)和可行性,但也有其局限性,需改進(jìn)和繼續(xù)研究的地方有以下兩個(gè)方面。一是傳感器數(shù)量較多,可能存在冗余,需要篩選和優(yōu)化傳感器組合以減小傳感器部分體積和復(fù)雜度。二是本研究只對(duì)細(xì)菌培養(yǎng)液進(jìn)行了檢測(cè),實(shí)際的臨床傷口細(xì)菌感染是復(fù)雜且多樣的,需進(jìn)一步開展臨床樣本研究,探索更多的可能性。
本研究使用自制電子鼻檢測(cè)大腸桿菌、金黃色葡萄球菌、銅綠假單胞菌、鮑曼不動(dòng)桿菌、肺炎克雷伯桿菌細(xì)菌培養(yǎng)液和純TH培養(yǎng)液共6種樣品,得到具有各自圖譜特征的電子鼻雷達(dá)圖譜。對(duì)6類樣本數(shù)據(jù)進(jìn)行預(yù)處理和提取特征后,使用SVM、BP、LR 3種算法進(jìn)行了分類識(shí)別。結(jié)果表明,BP算法識(shí)別效果最好,SVM次之,LR最低,提示BP算法對(duì)大腸桿菌、肺炎克雷伯桿菌、金黃色葡萄球菌、鮑曼不動(dòng)桿菌、銅綠假單胞菌的細(xì)菌培養(yǎng)液具有良好的可分性,為電子鼻用于傷口細(xì)菌感染類型的快速篩查進(jìn)一步提供了可能性。