郭 盟,董新明,韓 廣,,王慧泉,,王忠強(qiáng),趙 喆
(1.天津工業(yè)大學(xué) 生命科學(xué)學(xué)院,天津 300387;2.天津康復(fù)療養(yǎng)中心,天津 300191;3.天津市光電檢測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室,天津 300387;4.愛(ài)科維申科技(天津)有限公司,天津 300308)
孵化蛋胚是物種繁育、疫苗生產(chǎn)和種禽繁殖與生產(chǎn)的重要環(huán)節(jié)。流感疫苗主要以蛋胚為載體生產(chǎn)[1],其制備過(guò)程為:將流感病毒毒株接種在9 日胚胎無(wú)特定病原體(specefic pathogen free,SPF)中,毒株在胚胎的尿囊腔中增殖培養(yǎng),在15 日時(shí)提取胚胎中的組織液,對(duì)組織液進(jìn)行分離提純并用于甲醛或者β-丙內(nèi)酯滅活等方法處理后獲得流感疫苗[2]。在接種病毒前,需要對(duì)蛋胚的活性進(jìn)行檢測(cè),篩除死胚和弱胚,只有活胚能夠接種病毒;在接種后,蛋胚需要定時(shí)進(jìn)行活性檢測(cè),對(duì)活胚繼續(xù)培養(yǎng),對(duì)死胚及時(shí)清除以防止孵化箱內(nèi)的交叉污染,對(duì)弱胚取出并回收利用以減少疫苗資源的浪費(fèi),弱胚若不及時(shí)處理會(huì)使整個(gè)孵化箱內(nèi)培養(yǎng)的蛋胚都被放棄。在流感疫苗生產(chǎn)過(guò)程中,對(duì)孵化蛋胚在15 日的孵化期內(nèi)進(jìn)行10 次活性檢測(cè),而蛋胚的多樣性差異會(huì)嚴(yán)重影響對(duì)蛋胚活性的判斷。因此,快速、無(wú)創(chuàng)、準(zhǔn)確的蛋胚活性檢測(cè)是確保疫苗質(zhì)量和提高禽類繁殖產(chǎn)能的重要因素,弱胚的準(zhǔn)確檢測(cè)是當(dāng)前要攻克的關(guān)鍵技術(shù)之一。
在過(guò)去二十年,有關(guān)快速、準(zhǔn)確的蛋胚活性分類方法的研究不斷出現(xiàn),包括聲學(xué)振動(dòng)法[3-4]、熱差法[5]、超聲成像法[6]、機(jī)器視覺(jué)[7]、高光譜成像法[8-9]等。聲學(xué)振動(dòng)在檢測(cè)過(guò)程中會(huì)有聲學(xué)共振現(xiàn)象,引起孵化蛋胚的一起振動(dòng),影響孵化蛋胚的正常發(fā)育。熱差法運(yùn)用在孵化過(guò)程中,檢測(cè)過(guò)程緩慢且不能實(shí)時(shí)判斷孵化蛋胚的活性。超聲成像的高頻信號(hào)對(duì)孵化蛋胚的發(fā)育也有一定的不良影響。常用的蛋胚檢測(cè)方法有圖像法和人工檢測(cè)法,圖像法和人工檢測(cè)法均通過(guò)分辨血管和氣室的特征進(jìn)行活性檢測(cè)。人工檢測(cè)的檢測(cè)效率和檢測(cè)準(zhǔn)確率都較低;圖像法提取蛋胚圖像的感興趣區(qū)域,觀察蛋胚內(nèi)的血管分布和液體顏色,在檢測(cè)過(guò)程中有較嚴(yán)格的要求,蛋盤中有空位時(shí),光照會(huì)使相機(jī)過(guò)度曝光,獲得的蛋胚圖像較差,蛋胚的檢測(cè)準(zhǔn)確率降低。
光電容積脈搏波檢測(cè)法[10](photo plethysmo graphy,PPG)是光吸收量隨著動(dòng)脈血液搏動(dòng)而搏動(dòng),是檢測(cè)蛋胚組織中血液容積變化的一種無(wú)創(chuàng)手段。將光源直射到蛋胚表面,入射光透過(guò)蛋殼射入蛋胚組織中,經(jīng)過(guò)蛋殼、組織的吸收和散射作用,最終在蛋胚底部射出。采用透射式方法獲得蛋胚光強(qiáng)信息,從蛋胚透射出的光強(qiáng)會(huì)隨著蛋胚內(nèi)血管的收縮和舒張而變化,將光強(qiáng)度變化的信號(hào)通過(guò)光電傳感器轉(zhuǎn)換成電信號(hào),獲得容積脈搏血流的變化。利用光電容積脈搏法對(duì)蛋胚進(jìn)行檢測(cè),對(duì)胚胎的檢測(cè)徹底,獲得的蛋胚活性信息豐富?;钆吆退琅叩姆诸惙浅C鞔_,但是弱胚在信號(hào)質(zhì)量上與死胚相近。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)[11,12]和自然語(yǔ)言處理領(lǐng)域[13-14],可通過(guò)一維卷積神經(jīng)網(wǎng)絡(luò)對(duì)患者心電圖實(shí)時(shí)分類[15]及對(duì)人體運(yùn)動(dòng)信息分類識(shí)別[16]。CNN 具有自適應(yīng)提取特征的能力,能夠高效提取數(shù)據(jù)特征,且不必對(duì)數(shù)據(jù)做過(guò)多的前期預(yù)處理,相較于其他預(yù)測(cè)模型,它特有的權(quán)重共享機(jī)制能夠大大減少權(quán)重的數(shù)目,降低模型的復(fù)雜度。CNN 從輸入層到輸出層經(jīng)歷多個(gè)隱藏層,能夠解決復(fù)雜信息,實(shí)現(xiàn)復(fù)雜函數(shù)逼近,從而提升分類的準(zhǔn)確率。
本文提出一種基于CNN 模型的孵化蛋胚活性高通量檢測(cè)方法,蛋胚活性檢測(cè)裝置可以同時(shí)采集大量蛋胚數(shù)據(jù),通過(guò)數(shù)字高通濾波器和低通濾波器對(duì)蛋胚脈搏波進(jìn)行預(yù)處理,去除信號(hào)中的基線漂移和部分噪聲,信號(hào)的滑動(dòng)功率譜密度(power spectral density, PSD)作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,對(duì)蛋胚活性快速作出判斷。
當(dāng)光入射蛋胚時(shí),透過(guò)蛋殼、靜態(tài)組織層,光強(qiáng)的衰減程度相同,由于脈搏搏動(dòng)性,透過(guò)血管層時(shí),光強(qiáng)隨著脈搏波的波動(dòng)呈周期性變化,從光電檢測(cè)器可以獲得透過(guò)蛋胚的光強(qiáng)信號(hào)[17],從而獲得蛋胚的脈搏波。如圖1 中蛋胚波形圖所示,從上至下依次為活胚、死胚和弱胚。本文通過(guò)對(duì)蛋胚信號(hào)的預(yù)處理,去除基線漂移,保留6 Hz 以內(nèi)的信號(hào),再利用簡(jiǎn)單的運(yùn)算分辨蛋胚活性的狀態(tài),獲得的分類結(jié)果較差。通過(guò)研究發(fā)現(xiàn),蛋胚信號(hào)在頻域上有一定的區(qū)別。因此,提出脈搏波信號(hào)增強(qiáng)的滑動(dòng)PSD 方法,再利用CNN 模型深度解析脈搏波的信息,區(qū)分蛋胚的活性,
圖1 胚胎的活、死、弱狀態(tài)圖Fig.1 Waveform of embryo's live, dead and weak state
快速傅里葉變換(fast Fourier transform,F(xiàn)FT),是根據(jù)離散傅氏變換的奇偶虛實(shí)等特性,對(duì)離散傅里葉變換的算法進(jìn)行改進(jìn)獲得的。
對(duì)于標(biāo)準(zhǔn)的周期性信號(hào),經(jīng)過(guò)快速傅里葉變換,會(huì)出現(xiàn)一個(gè)峰值,而隨著時(shí)間的推移,頻譜圖像上的峰值位置基本不會(huì)發(fā)生變化。由于噪聲的隨機(jī)性,在短時(shí)間的測(cè)量過(guò)程中,峰值的位置會(huì)出現(xiàn)波動(dòng)?;瑒?dòng)功率譜的方法如圖2 所示,對(duì)于一段周期性信號(hào),第1 個(gè)窗為第1 點(diǎn)至第6 點(diǎn),對(duì)其作FFT,形成FFT-1,第2 個(gè)窗為第2 點(diǎn)至第7 點(diǎn),對(duì)其作FFT,形成FFT-2,依次類推,最后一個(gè)窗口為第94 點(diǎn)至第99 點(diǎn),對(duì)其作FFT,形成FFT-94。將經(jīng)過(guò)FFT以后的信號(hào)進(jìn)行合并,形成滑動(dòng)PSD。
圖2 滑動(dòng)PSD 原理圖Fig.2 Schematic diagram of sliding PSD
根據(jù)上述原理,對(duì)于一段檢測(cè)時(shí)長(zhǎng)為8 s、采樣率為62.5 Hz 的脈搏波信號(hào),設(shè)計(jì)一個(gè)計(jì)算FFT 的滑動(dòng)窗,第1 個(gè)窗為第1 點(diǎn)至第60 點(diǎn),第2 個(gè)窗為第2 點(diǎn)至第61 點(diǎn),依次類推,最后一個(gè)窗口為第441 點(diǎn)至第500 點(diǎn)。將每一個(gè)窗口中的FFT 按照時(shí)間進(jìn)行拼接,形成蛋胚脈搏波滑動(dòng)PSD,圖3 為活胚的脈搏波圖像,經(jīng)過(guò)滑動(dòng)PSD 的方法得到如圖4 所示的活胚脈搏波PSD 結(jié)果。
圖3 蛋胚脈搏波圖像Fig.3 Egg embryo pulse wave diagram
圖4 活胚脈搏波PSD 結(jié)果Fig.4 Live embryo pulse wave PSD results
根據(jù)以上方法,分別獲得的活胚、死胚和弱胚的PSD 對(duì)應(yīng)結(jié)果如圖5 所示。
從圖5 可以看出死胚和活胚的分布區(qū)域有著明顯的差異,可通過(guò)以上特征對(duì)蛋胚死、活狀態(tài)進(jìn)行判斷;但是,死胚和弱胚在圖像上的特征較為相似,信號(hào)的頻率隨著時(shí)間的變化比較雜亂,死胚沒(méi)有主頻,弱胚有主頻。因此,采用簡(jiǎn)單的PSD信號(hào)增強(qiáng)的方法不能直接對(duì)蛋胚的死、弱狀態(tài)做出判斷?;钆叩拿}搏波博信趨于穩(wěn)定,脈搏波的頻率不隨著時(shí)間發(fā)生變化,對(duì)應(yīng)的PSD 結(jié)果中,每個(gè)時(shí)間點(diǎn)的頻譜基本保持不變,是一個(gè)穩(wěn)定的周期性信號(hào)。弱胚和死胚的信號(hào)較為相似,對(duì)應(yīng)的PSD 結(jié)果也較為相似,不能明顯地對(duì)弱胚和死胚信號(hào)進(jìn)行區(qū)分。經(jīng)過(guò)PSD 方法的脈搏波信號(hào)得到了增強(qiáng),經(jīng)過(guò)比較分析,死胚和弱胚的脈搏波信號(hào)經(jīng)過(guò)PSD 技術(shù)的結(jié)果也難以區(qū)分蛋胚的活性。僅根據(jù)PSD 的可視化方法不能精準(zhǔn)地對(duì)蛋胚活性進(jìn)行分類,可采用挖掘深度蛋胚脈搏波信息的神經(jīng)網(wǎng)絡(luò)模型分類。
圖5 蛋胚對(duì)應(yīng)的滑動(dòng)PSD 結(jié)果圖Fig.5 Sliding PSD results diagram corresponding to egg embryo
CNN 網(wǎng)絡(luò)模型是一種包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)中最具有代表性的算法之一。CNN 網(wǎng)絡(luò)模型構(gòu)建多層神經(jīng)網(wǎng)絡(luò),具有優(yōu)異的表征學(xué)習(xí)能力,能夠運(yùn)用于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)中。隨著大規(guī)模的數(shù)據(jù)獲取和計(jì)算機(jī)硬件的飛速發(fā)展,CNN 網(wǎng)絡(luò)模型應(yīng)用越來(lái)越廣泛。
卷積神經(jīng)網(wǎng)絡(luò)的隱含層包含卷積層、池化層和全連接層。卷積層的功能是對(duì)輸入數(shù)據(jù)的特征提取,其內(nèi)部包含多個(gè)卷積核,組成卷積核的每個(gè)元素都對(duì)應(yīng)一個(gè)相應(yīng)的權(quán)重系數(shù)和一個(gè)偏差量。在卷積層進(jìn)行特征提取后,輸出的特征圖被傳遞至池化層進(jìn)行特征選擇和信息過(guò)濾。卷積神經(jīng)網(wǎng)絡(luò)中輸出層的上游通常是全連接層,對(duì)于圖像分類問(wèn)題,輸出層使用邏輯函數(shù)或歸一化函數(shù)輸出分類標(biāo)簽。
池化層主要用于特征降維、壓縮數(shù)據(jù)和參數(shù)數(shù)量,減少過(guò)擬合。文中使用最大池化獲得一組最大輸出,其式為其中:R是 池化的大小;T是池化的步長(zhǎng)。經(jīng)過(guò)池化后,特征圖像維度變?yōu)槠湎鄳?yīng)輸入的1/R。池化層和卷積層可以彼此的堆疊構(gòu)成深度神經(jīng)網(wǎng)絡(luò)的隱藏層的架構(gòu)。這些層可以提取出數(shù)據(jù)中的復(fù)雜特征。全連接層和softmax 分類器的組合可以用來(lái)識(shí)別分類蛋胚的狀態(tài)。將從卷積和池化層提取出的特征平展成向量的形式為序號(hào)。將向量輸入到全連接層,形式如(3)式:
其中:c是蛋胚活性分類;L是最后一層的索引;NC是蛋胚狀態(tài)分類的數(shù)目。
在預(yù)測(cè)結(jié)果后,對(duì)CNN 模型的分類結(jié)果進(jìn)行分析,ROC 曲線和AUC 常用于評(píng)價(jià)二值分類模型的優(yōu)劣。假設(shè)模型有n個(gè)預(yù)測(cè)值,對(duì)模型的預(yù)測(cè)值由低到高進(jìn)行排序,依次遍歷得分作為判斷正負(fù)樣本的閾值,計(jì)算不同閾值對(duì)應(yīng)的正樣本數(shù)TP和負(fù)樣本數(shù)FP。ROC 曲線中的橫坐標(biāo)FPR和縱坐標(biāo)TPR計(jì)算形式為
其中:P為標(biāo)簽值為正的數(shù)目;N為標(biāo)簽值為負(fù)的數(shù)目。再利用復(fù)合梯形求積公式計(jì)算出曲線與坐標(biāo)軸的面積AUC:
其中:x為ROC 曲線的橫坐標(biāo)FPR;y為ROC 曲線的縱坐標(biāo)TPR。
本次實(shí)驗(yàn)采集數(shù)據(jù)的平臺(tái)包含近紅外光光源、放置蛋胚的蛋盤支架、數(shù)據(jù)采集器和PC。數(shù)據(jù)采集時(shí)應(yīng)在無(wú)光的環(huán)境中,避免其他光源的干擾。本實(shí)驗(yàn)采用白殼雞蛋,孵育時(shí)間為9 至13 天,其中蛋胚活性均已人工復(fù)檢。采集不同孵化天數(shù)的蛋胚樣本4791 枚,其中活胚1 979 枚,弱胚1083枚,死胚1729 枚。
經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,參數(shù)眾多,因此需要大量樣本支撐網(wǎng)絡(luò)訓(xùn)練,從而實(shí)現(xiàn)參數(shù)辨識(shí),但是本文蛋胚活性分類識(shí)別屬于小樣本分類,不適用大部分經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)。本文應(yīng)用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖6 所示。
圖6 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Structure diagram of neural network
用于蛋胚活性檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)參數(shù)如表1所示,像素為439×31 的圖片為蛋胚活性檢測(cè)的輸入,輸入數(shù)據(jù)經(jīng)過(guò)兩層交替連接的卷積池化層獲取圖像數(shù)據(jù)特征,其中,兩層卷積核的維度為5×5,個(gè)數(shù)為20,步長(zhǎng)為1,池化層維度為2×2,激活函數(shù)為ReLU,學(xué)習(xí)率為0.01。根據(jù)第1 節(jié)中卷積操作以及池化操作描述,每次經(jīng)過(guò)卷積池化操作后的特征圖維度如表2。再通過(guò)全連接層將多個(gè)二維特征圖轉(zhuǎn)換為一維向量以獲得更高維的全局特征。最后,全局特征通過(guò)Softmax 分類器進(jìn)行3 分類,分別為活胚、死胚和弱胚。獲得訓(xùn)練抓取樣本量128,最大迭代次數(shù)2200。
將蛋胚數(shù)據(jù)隨機(jī)打亂,選擇蛋胚總量的50%(2 396 枚)作為CNN 網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集;蛋胚總量的30%(1 437 枚),作為驗(yàn)證集數(shù)據(jù);蛋胚總量的20%(958 枚)作為測(cè)試集數(shù)據(jù)。訓(xùn)練集用于模型擬合的數(shù)據(jù)樣本,驗(yàn)證集用來(lái)調(diào)整模型的參數(shù),而測(cè)試集用來(lái)評(píng)估模型的泛化能力。采用Intel i7-7700HQ處理器、16GB DDR4 內(nèi)存以及Nvidia GTX 1060(6G)顯卡進(jìn)行CNN 網(wǎng)絡(luò)訓(xùn)練以及預(yù)測(cè),同時(shí)記錄測(cè)試集從數(shù)據(jù)預(yù)處理到預(yù)測(cè)結(jié)束所需的時(shí)間。
表1 卷積神經(jīng)網(wǎng)絡(luò)相關(guān)參數(shù)Table 1 Convolutional neural network parameters
表2 經(jīng)過(guò)卷積層與池化層的特征圖維度Table 2 Feature diagram dimension after convolutional layer and pooling layer
滑動(dòng)PSD 技術(shù)不但包含時(shí)域信息,同時(shí)也含有孵化信號(hào)的頻譜隨時(shí)間變化的信息,增加了蛋胚信號(hào)的信息維度,增強(qiáng)了信號(hào)的辨識(shí)度。該信息作為CNN 模型的輸入,使訓(xùn)練更加充分,提高了模型對(duì)數(shù)據(jù)信息的辨識(shí)度。
CNN 模型訓(xùn)練的ACC 和LOSS 曲線如圖7 所示。
圖7 CNN 模型收斂曲線Fig.7 CNN model convergence curve
圖8 為使用CNN 的蛋胚分類結(jié)果畫(huà)出的操作特性曲線(ROC 曲線)。曲線越接近(0,1)點(diǎn)說(shuō)明模型的分類效果越好,圖8(a)為活胚和死胚分類的ROC 曲線,圖8(b)對(duì)應(yīng)活胚和弱胚分類的ROC曲線,圖8(c)對(duì)應(yīng)弱胚和死胚分類的ROC 曲線。求ROC 曲線下的面積AUC,反映二分類模型分類的好壞,是一種常用的模型評(píng)價(jià)指標(biāo)。圖8(a)、圖8(b)、圖8(c)分別對(duì)應(yīng)的AUC值為99.70%、97.57%、90.43%。分類模型對(duì)活胚和死胚的分辨率能力最好,其次是分辨活胚和弱胚較好,對(duì)弱胚和死胚的分辨能力較差。使用CNN 模型對(duì)滑動(dòng)PSD 數(shù)據(jù)進(jìn)行處理,提取PSD 中的深度信息,挖掘出蛋胚數(shù)據(jù)中的特征,實(shí)現(xiàn)了蛋胚的活性分類。
圖8 基于CNN 網(wǎng)絡(luò)的孵化蛋胚活性分類的ROC 曲線和曲線下面積AUCFig.8 ROC curve and area under curve AUC of hatching egg embryo activity classification based on CNN network
通過(guò)CNN 模型的訓(xùn)練及驗(yàn)證參數(shù)的調(diào)整,本文對(duì)蛋胚活性的分類結(jié)果如表3 所示。在CNN 模型預(yù)測(cè)結(jié)果中,活胚的真陽(yáng)率高達(dá)99.74%,死胚的真陽(yáng)率為93.73%,弱胚的真陽(yáng)率為84.39%。經(jīng)過(guò)CNN 模型的蛋胚的活性檢測(cè)具有高準(zhǔn)確率,預(yù)測(cè)時(shí)間僅為12.60 ms,可以支持蛋胚活性高通量檢測(cè)產(chǎn)業(yè)化設(shè)計(jì),具有一定的應(yīng)用價(jià)值。
表3 CNN 模型預(yù)測(cè)結(jié)果Table 3 CNN model prediction results
通過(guò)對(duì)誤檢部分分析,大部分弱胚被判斷為死胚,大部分死胚被判斷為弱胚。從蛋胚的脈搏波信號(hào)中可以得出,弱胚的信號(hào)強(qiáng)度很小,被掩蓋在噪聲信號(hào)中,弱胚的脈搏波與死胚的脈搏波有一定的相似性,同時(shí)經(jīng)過(guò)PSD 技術(shù)后的信號(hào)也難以區(qū)分,CNN 模型也不能完全分辨。CNN 能夠更深層次地有效挖掘雞胚數(shù)據(jù)的特征,實(shí)現(xiàn)蛋胚的分類,模型訓(xùn)練中的所有數(shù)據(jù)是隨機(jī)打亂的,包含了實(shí)驗(yàn)所有的發(fā)育階段,因此該模型可以預(yù)測(cè)當(dāng)前實(shí)驗(yàn)蛋胚的所有發(fā)育階段,相較于使用閾值法有更好的通用性,具有重要的市場(chǎng)應(yīng)用價(jià)值。
本文提出了一種解決孵化蛋胚分類的方法,使用光電容積脈搏波獲得蛋胚的生理信號(hào)作為蛋胚活性檢測(cè)的判斷依據(jù)。此外,將脈搏波信號(hào)通過(guò)滑動(dòng)PSD 技術(shù),增加了信息維度,利用PSD信號(hào)構(gòu)建CNN 模型,實(shí)現(xiàn)了蛋胚的活性分類。利用本方法構(gòu)建的CNN 模型進(jìn)行蛋胚活性檢測(cè),單個(gè)蛋胚檢測(cè)時(shí)間僅需12.60 ms,計(jì)算速度滿足工業(yè)上的高通量檢測(cè)需求,可以對(duì)大量蛋胚同時(shí)檢測(cè)。本文提出的蛋胚活性檢測(cè)方法可以對(duì)蛋胚的活、弱和死態(tài)進(jìn)行分類,減少了疫苗生產(chǎn)車間的資源浪費(fèi),提高了生產(chǎn)效率。實(shí)驗(yàn)表明:本文提出的蛋胚檢測(cè)技術(shù),是一種高通量、無(wú)創(chuàng)、高準(zhǔn)確率的檢測(cè)方法,滿足實(shí)際的應(yīng)用需求。