韓美林 程峻杰 楊陽
摘要:生物相分析是污水廠運(yùn)行管理的重要手段,但目前以人工分析為主,原因在于圖像背景多變、目標(biāo)物類型較多,不同階段、不同環(huán)境下的生物特征多變[1]。本文借助圖像處理的知識(shí)對(duì)活性污泥中生物相進(jìn)行識(shí)別,通過PCA算法降低生物相圖像特征的維度,再利用支持向量機(jī)(SVM)對(duì)降維后的生物相圖像進(jìn)行分類識(shí)別,最后使用MATLAB軟件對(duì)已知生物相數(shù)據(jù)庫(kù)進(jìn)行仿真。數(shù)據(jù)結(jié)果表明,該方法能夠較為準(zhǔn)確的識(shí)別出活性污泥中的生物相。
Abstract: Biological phase analysis is an important means of operation and management of wastewater treatment plants. However, it is mainly based on manual analysis. The reason is that the background of the image is variable and the types of targets are many. The biological characteristics in different stages and environments are variable. In this paper, the bio-phase of activated sludge is identified by the knowledge of image processing. The dimension of bio-image features is reduced by PCA algorithm. Then, the support vector machine (SVM) is used to classify and identify the reduced-phase bio-phase images. Finally, MATLAB is used to simulate a known bio-phase database. The data show that the method can accurately identify the biological phase in the activated sludge.
關(guān)鍵詞:污水處理;生物相識(shí)別;主成分分析
Key words: sewage treatment;biological phase identification;principal component analysis
中圖分類號(hào):X703? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2019)34-0184-02
1? 緒論
在傳統(tǒng)的污水處理廠運(yùn)行管理中,生物相分析是污水處理廠運(yùn)行管理的重要手段,但傳統(tǒng)的生物相分析依賴于人的經(jīng)驗(yàn),對(duì)從業(yè)人員的專業(yè)知識(shí)要求高,這顯然無法在我國(guó)大量小微污水處理廠(站)得到推廣應(yīng)用。圖像處理技術(shù)的飛速發(fā)展為解決上述問題提供了新的思路,然而目前生物相自動(dòng)分析并不成熟,主要問題在于:鏡檢圖像背景多變、目標(biāo)物類型較多;現(xiàn)場(chǎng)條件較差,獲得的圖像質(zhì)量太差?;谝陨戏治觯疚慕柚鷪D像處理的知識(shí)對(duì)活性污泥中生物相進(jìn)行識(shí)別,從而為污水廠采用智能化手段進(jìn)行管理提供理論與技術(shù)基礎(chǔ)[2]。
2? 主成分分析算法原理
主成分分析算法主要作用是用于在多變量統(tǒng)計(jì)分析中對(duì)數(shù)據(jù)進(jìn)行分析,目標(biāo)是盡量用最少數(shù)量的維度,盡可能精確地描述數(shù)據(jù)[3]。PCA的本質(zhì)實(shí)際上是K-L變換,K-L變換將會(huì)使得向量的值發(fā)生變化,但是所存在的向量數(shù)目是不會(huì)改變的,即使數(shù)值發(fā)生改變也會(huì)變成小數(shù)值,所以能夠一邊減少向量的維數(shù)一邊對(duì)向量的主要特性進(jìn)行保留[4],因此經(jīng)常被應(yīng)用于特征的提取。
3? 生物相識(shí)別過程
3.1 構(gòu)建特征空間
經(jīng)過基本簡(jiǎn)單的預(yù)處理后,將庫(kù)中每個(gè)對(duì)象的前五張圖像載入作為訓(xùn)練集,后五張載入作為測(cè)試集。將生物相圖像設(shè)置為矩陣得到訓(xùn)練樣本集[5]。接著對(duì)訓(xùn)練樣本的均值進(jìn)行求取,為了將差異性表現(xiàn)出來,在減掉均值之后,就得到了N幅差異圖像。然后在去掉均值。再對(duì)協(xié)方差矩陣進(jìn)行求取和特征分解,但是考慮到矩陣很大的矩陣,所以我們需要先轉(zhuǎn)換然后對(duì)其進(jìn)行分解。最后對(duì)其進(jìn)行歸一化處理,得到歸一化特征向量,從而達(dá)到了減少本實(shí)驗(yàn)中高特征維數(shù)的目的[7]。
3.2 特征提取
特征提取就是提取出生物相圖像中差異性最大的特征,接下來進(jìn)行有序識(shí)別工作。為了得到訓(xùn)練集坐標(biāo)系數(shù),需要將訓(xùn)練集生物相圖像和測(cè)試集圖像在特征子空間進(jìn)行投影,從而得到的這組系數(shù)就可以作為生物相識(shí)別的依據(jù)[8]。
3.3 SVM分類算法介紹
3.3.1 SVM算法原理簡(jiǎn)介
要完成生物相的識(shí)別,在PCA算法完成特征提取之后還需要結(jié)合支持向量機(jī)法對(duì)特征提取后的生物相用進(jìn)行識(shí)別。支持向量機(jī)(support vector machine)是通過將結(jié)構(gòu)化的風(fēng)險(xiǎn)控制在最小限度來改善機(jī)器學(xué)習(xí)的泛化能力,在統(tǒng)計(jì)的樣本量很少的時(shí)候?qū)⒔?jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍抑制到最小限度的分類算法[9]。
3.3.2 SVM算法重要參數(shù)
C與gamma在SVM模型中是兩個(gè)相對(duì)來說比較重要的參數(shù)。其中C表示的是懲罰系數(shù),通俗的來講就是對(duì)誤差的容忍程度。C太大或太小,都會(huì)導(dǎo)致泛化能力變差。gamma是一個(gè)參數(shù),在選擇作為核心的RBF函數(shù)后與函數(shù)一同出現(xiàn)。它在將數(shù)據(jù)分配到一個(gè)新的特征空間之后,隱含地確定了數(shù)據(jù)的分配,影響到訓(xùn)練與預(yù)測(cè)的速度[10]。
3.3.3 SVM訓(xùn)練函數(shù)和測(cè)試函數(shù)
選取兩組圖片來利用SVM算法進(jìn)行訓(xùn)練測(cè)試處理,其中一組圖片作為訓(xùn)練數(shù)據(jù)來使用,另外一組圖片作為測(cè)試數(shù)據(jù)。除了選取訓(xùn)練測(cè)試數(shù)據(jù)之外,還需要做的就是利用MATLAB軟件提供的svmtrain函數(shù)和svmclassify函數(shù)編寫訓(xùn)練函數(shù)與測(cè)試函數(shù)。
4? 生物相識(shí)別系統(tǒng)結(jié)果與分析
本文是利用MATLAB R2017a軟件設(shè)計(jì)的生物相識(shí)別系統(tǒng),主要實(shí)現(xiàn)的功能是在MATLAB GUI界面中點(diǎn)擊“讀取庫(kù)”時(shí),系統(tǒng)會(huì)得到降維后的主成分特征圖;點(diǎn)擊“打開”時(shí),系統(tǒng)會(huì)輸入一張生物相圖片;點(diǎn)擊“識(shí)別”時(shí),系統(tǒng)會(huì)準(zhǔn)確識(shí)別出訓(xùn)練集中的圖片。
主成分分析法可以起到降低維度的作用,可以去除圖像像素之間的相關(guān)性,可以把多指標(biāo)合成為幾個(gè)相互無關(guān)的主成分,每個(gè)主成分都反映了原始變量的大部分信息,并且所含的信息互不重復(fù)。對(duì)訓(xùn)練集中的全體樣本進(jìn)行規(guī)格化,對(duì)訓(xùn)練集中的生物相圖像利用SVM進(jìn)行訓(xùn)練,通過一對(duì)一投票決定其最終類別歸屬來實(shí)現(xiàn)生物相的識(shí)別。通過利用MATLAB軟件仿真得到如圖1、圖2所示實(shí)驗(yàn)結(jié)果。
本文利用圖像處理技術(shù)生物相的特征,通過系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)了生物相的識(shí)別。為了本系統(tǒng)的可行性,采集了800張的生物相圖像樣本,分為8組,每組100張圖像。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可以看出,整個(gè)實(shí)驗(yàn)的檢測(cè)時(shí)間為59秒,單幅生物相檢測(cè)識(shí)別時(shí)間為59/800=0.074s,因此該程序的檢測(cè)識(shí)別速度較快。由表統(tǒng)計(jì),檢測(cè)結(jié)果的誤判數(shù)為71,檢測(cè)識(shí)別系統(tǒng)的準(zhǔn)確率(800-71)/800×100%=91.125%。
5? 結(jié)論
在實(shí)驗(yàn)中,利用PCA算法將圖像樣本的特征向量從10304維降到20維,在之后運(yùn)用SVM算法進(jìn)行分類的時(shí)候,使得數(shù)據(jù)簡(jiǎn)化,極大的減少了系統(tǒng)運(yùn)行時(shí)間。同時(shí),對(duì)數(shù)據(jù)進(jìn)行降維之后,識(shí)別率并沒有隨著維數(shù)的降低而降低,而是依舊保持著非常高的識(shí)別率,足以證明了經(jīng)過PCA處理后圖像特征向量具有舍棄區(qū)分能力弱,相對(duì)一致的特征。最后使用MATLAB軟件對(duì)已知生物相數(shù)據(jù)庫(kù)進(jìn)行仿真。仿真結(jié)果表明,該方法能夠準(zhǔn)確識(shí)別出活性污泥中的生物相,從而為污水廠采用智能化手段進(jìn)行管理提供理論與技術(shù)基礎(chǔ)。
參考文獻(xiàn):
[1]任勇.活性污泥法在污水處理中常見的問題探討[J].建材與裝飾,2019(15):286-287.
[2]劉惠娜.城市污水SBR處理生物相種群與處理效率相關(guān)性研究[D].廣東工業(yè)大學(xué),2005.
[3]宋金晶.基于子空間幾何特征分析的人臉識(shí)別方法研究[D].同濟(jì)大學(xué),2006.
[4]李琳琳.一種改進(jìn)的基于主成分分析的人臉識(shí)別技術(shù)[J].電信快報(bào),2016(7):39-42.
[5]劉衛(wèi)凱,郝雅倩,鄭晗,齊立萍.人臉識(shí)別綜述[J].信息記錄材料,2018,19(07):13-14.
[6]李宜清,程武山.融合PCA的支持向量機(jī)人臉檢測(cè)研究[J].計(jì)算機(jī)測(cè)量與控制,2019,27(03):49-54.
[7]付康,陳中舉,杜友福.基于PCA和SVM的人臉識(shí)別研究[J].電腦知識(shí)與技術(shù),2019,15(07):209-211.
[8]楊博雄,楊雨綺.利用PCA進(jìn)行深度學(xué)習(xí)圖像特征提取后的降維研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(01):279-283.
[9]張持健,劉雪,張賀,張燕習(xí).基于PCA和非線性SVC的小數(shù)據(jù)人臉識(shí)別[J].無線電通信技術(shù),2019,45(01):73-77.
[10]劉惠娜.城市污水SBR處理生物相種群與處理效率相關(guān)性研究[D].廣東工業(yè)大學(xué),2005.