梁詩(shī)華,何金成,林毅鑫
(福建農(nóng)林大學(xué)機(jī)電工程學(xué)院現(xiàn)代農(nóng)業(yè)裝備研究所,福建福州 350002)
?
基于C-SVM的大米品種識(shí)別研究
梁詩(shī)華,何金成*,林毅鑫
(福建農(nóng)林大學(xué)機(jī)電工程學(xué)院現(xiàn)代農(nóng)業(yè)裝備研究所,福建福州 350002)
提出了一種基于支持向量機(jī)(C-SVM)區(qū)分大米品種的方法。首先對(duì)大米圖像進(jìn)行閾值分割、平滑處理等預(yù)處理,并根據(jù)大米的粒型特點(diǎn),提取米粒的面積、周長(zhǎng)等6個(gè)形態(tài)特征。利用OrangeCanvas數(shù)據(jù)挖掘軟件先對(duì)linear和RBF核函數(shù)進(jìn)行核參數(shù)選擇,并在Opencv3.0環(huán)境下,編程實(shí)現(xiàn)K-means、linear和RBF的3種大米品種識(shí)別方法,對(duì)10組混合大米圖像進(jìn)行品種測(cè)試。試驗(yàn)結(jié)果表明,支持向量機(jī)線(xiàn)性核函數(shù)對(duì)大米品種識(shí)別具有較高的預(yù)測(cè)穩(wěn)定性,識(shí)別分類(lèi)準(zhǔn)確率約為99%。
品種;特征提取;K-means;linear;RBF
隨著機(jī)器視覺(jué)技術(shù)的發(fā)展和廣泛應(yīng)用,利用機(jī)器視覺(jué)實(shí)現(xiàn)大米品種識(shí)別已受到廣泛關(guān)注。目前市面上出現(xiàn)許多摻假大米現(xiàn)象,以人工的方式辨別是否摻雜不同種類(lèi)的大米,是一項(xiàng)費(fèi)力費(fèi)時(shí)的作業(yè)。因此,對(duì)大米品種識(shí)別是實(shí)現(xiàn)大米自動(dòng)化分類(lèi)的前提。
近年來(lái),國(guó)內(nèi)外對(duì)谷物的外觀品質(zhì)研究較多,但對(duì)大米品種分類(lèi)的研究主要還是在亞洲國(guó)家,且相對(duì)較少。對(duì)于大米品種研究主要集中在利用神經(jīng)網(wǎng)絡(luò)算法上,周子立等[1]結(jié)合可見(jiàn)-近紅外光譜技術(shù),利用小波變換、主成分分析,建立人工神經(jīng)網(wǎng)絡(luò)模型,對(duì)不同品種大米進(jìn)行預(yù)測(cè)分析,效果顯著,為大米品種鑒別提供一種新方法。方華等[2]基于模糊神經(jīng)網(wǎng)絡(luò)對(duì)大米品種進(jìn)行識(shí)別研究,識(shí)別精度接近 94%,對(duì)珍珠米的識(shí)別可達(dá) 100%。Abirami等[3]利用神經(jīng)網(wǎng)絡(luò)模式識(shí)別大米品種,在米粒不發(fā)生重疊時(shí),米粒分類(lèi)的正確率達(dá)到98.7%,在米粒發(fā)生重疊時(shí),米粒分類(lèi)的正確率變?yōu)?1.3%。林萍等[4]采用紅外光譜技術(shù),用遺傳算法、偏最小二乘法與誤差逆?zhèn)鞑ド窠?jīng)網(wǎng)絡(luò)相結(jié)合,對(duì)大米品種進(jìn)行預(yù)測(cè),提高了識(shí)別的精準(zhǔn)度。近幾年來(lái),也出現(xiàn)許多學(xué)者利用支持向量機(jī)和稀疏表示[5]對(duì)大米品種進(jìn)行識(shí)別。JinXiaming等[6]是在高光譜數(shù)據(jù)下,分別比較研究LS-SVM、SVM中核函數(shù)linear與K-近鄰算法(KNN)在大米品種中的預(yù)測(cè)準(zhǔn)確度,LS-SVM具有較好的準(zhǔn)確度。
綜上研究發(fā)現(xiàn),利用神經(jīng)網(wǎng)絡(luò)對(duì)大米進(jìn)行識(shí)別分類(lèi)較多,對(duì)于米粒這種小樣本集的分類(lèi),實(shí)際上不需要獲取無(wú)限多的訓(xùn)練樣本,支持向量機(jī)則是針對(duì)小樣本問(wèn)題進(jìn)行學(xué)習(xí)和分類(lèi),解決神經(jīng)網(wǎng)絡(luò)中無(wú)法避免的局部極小問(wèn)題,增強(qiáng)了非線(xiàn)性分類(lèi)能力[7-8]。雖然目前已存在利用支持向量機(jī)對(duì)大米品種進(jìn)行分類(lèi)的研究,但都是通過(guò)采集大米的高光譜數(shù)據(jù)進(jìn)行研究分析,成本高。從目前研究來(lái)看,還沒(méi)有學(xué)者直接利用大米特征參數(shù)中的原始數(shù)據(jù),比較分析支持向量機(jī)中線(xiàn)性核函數(shù)和徑向基核函數(shù)之間的預(yù)測(cè)準(zhǔn)確度的差異。因此,筆者根據(jù)大米粒型特征,提取米粒的面積、周長(zhǎng)、長(zhǎng)、寬、長(zhǎng)寬比及圓度6個(gè)特征參數(shù),并根據(jù)這些特征參數(shù),比較分析SVM中線(xiàn)性核函數(shù)和徑向基核函數(shù)預(yù)測(cè)準(zhǔn)確度,并與最傳統(tǒng)的聚類(lèi)方法K-均值聚類(lèi)算法進(jìn)行分析比較,為后續(xù)大米品種檢測(cè)提供依據(jù)。
1.1試驗(yàn)設(shè)備以相機(jī)獲取米粒圖像,容易受到光照的影響,且不同環(huán)境光源下所受到的影響差異較大,相比之下,以?huà)呙鑳x獲取的圖像較為穩(wěn)定,采用300dpi進(jìn)行灰度掃描,圖像以JPG格式進(jìn)行存儲(chǔ)。為了防止米粒發(fā)生黏連、重疊的問(wèn)題,該研究使用置米盤(pán)將米粒分開(kāi)[9],置米盤(pán)樣式如圖1所示。
圖1 試驗(yàn)用置米盤(pán)Fig.1 Tested rice tray
1.2試驗(yàn)材料試驗(yàn)所用的大米品種為江西省岱寶山產(chǎn)的軟丁優(yōu)米和黑龍省哈爾濱產(chǎn)的東北米。
2.1圖像預(yù)處理圖2a為采集的樣品圖像,運(yùn)用Otsu算法來(lái)設(shè)定最優(yōu)閾值,將圖像中的背景和目標(biāo)進(jìn)行分離(如圖2b),再將其進(jìn)行二值化處理。為了能夠消除圖像的噪聲,對(duì)大米圖像進(jìn)行中值濾波(如圖2c),濾波后圖像輪廓清晰,顆粒狀噪聲得到很好地抑制。最后,利用canny算法提取大米輪廓,如圖2d所示。
圖2 大米灰度圖像中提取的大米圖像Fig.2 Picking out of rice kernel image from gray
2.2特征參數(shù)的獲取根據(jù)前人研究成果所得[1,10-12],大米的粒型主要取決于面積、周長(zhǎng)、長(zhǎng)、寬、長(zhǎng)寬比及圓度6個(gè)幾何特征參數(shù),特征參數(shù)見(jiàn)表1。
表1 大米粒型的特征參數(shù)
注:已將圖像像素點(diǎn)個(gè)數(shù)轉(zhuǎn)為實(shí)際尺寸,單位mm。
Note:Thenumberofpixelshasbeentransferredtotheactualsizeoftheimage,unitismm.
3.1支持向量機(jī)支持向量機(jī)(SupportVectorMachines,SVM)是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)之上的新一代機(jī)器學(xué)習(xí)算法,主要解決小樣本、非線(xiàn)性及高維模式識(shí)別問(wèn)題,其基本思想是通過(guò)核函數(shù)將數(shù)據(jù)從原始特征空間映射到高維特征空間,來(lái)實(shí)現(xiàn)最優(yōu)分類(lèi)超平面,并用此超平面實(shí)現(xiàn)對(duì)未知樣本的判斷[13]。
SVM常用核函數(shù)主要有線(xiàn)性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)和sigmoid核函數(shù)。該研究選用最常見(jiàn)的2種核函數(shù)——線(xiàn)性核函數(shù)和徑向基核函數(shù),對(duì)大米不同品種進(jìn)行比較分析。
線(xiàn)性核函數(shù)(LinearKernelFunction)表示如下:
K(x,y)=x·y
(1)
徑向基核函數(shù)(RadicalBasisFunctionKernelFunction,RBF)表示如下:
K(x,y)=exp(-g|x-y|2)
(2)
式中,g為參數(shù)。
SVM分類(lèi)器性能的關(guān)鍵是參數(shù)的選擇。Linear僅受邊界參數(shù)C的影響,而RBF同時(shí)受到邊界參數(shù)C和核寬度的影響。邊界參數(shù)C是結(jié)構(gòu)風(fēng)險(xiǎn)和樣本無(wú)誤差的綜合考慮,其值與訓(xùn)練可容忍的誤差相關(guān),而核寬度g的取值與輸入的樣本范圍有關(guān)[14]。在訓(xùn)練前,將訓(xùn)練樣本導(dǎo)入OrangeCanvas數(shù)據(jù)挖掘軟件進(jìn)行核參數(shù)預(yù)判,獲取Linear邊界參數(shù)C=1,RBF則選用C=1、g=0.125,分類(lèi)效果最佳,識(shí)別準(zhǔn)確率均可達(dá)到99%以上。
3.2K-均值聚類(lèi)算法K-均值聚類(lèi)算法(K-means)是一種聚群、非監(jiān)督學(xué)習(xí)算法,它主要受初始位置的選擇、K值、度量距離3個(gè)方面因素的影響。該算法主要步驟是根據(jù)K值選定,隨機(jī)設(shè)定K個(gè)中心點(diǎn)作為聚類(lèi)中心,再將除了聚類(lèi)中心點(diǎn)之外的數(shù)據(jù)點(diǎn)分配給最鄰近的中心點(diǎn),分配完成后,將中心點(diǎn)移動(dòng)到所表示的聚類(lèi)的平均中心位置處,重復(fù)迭代上述步驟,直到準(zhǔn)則函數(shù)收斂。通常采用的準(zhǔn)則函數(shù)為平方誤差和準(zhǔn)則函數(shù),即SSE(sumofthesquarederror),其定義如下:
(3)
式中,SSE是數(shù)據(jù)庫(kù)中所有對(duì)象的平方誤差總和;p為數(shù)據(jù)對(duì)象,mi是簇Ci的平均值。
3.3算法評(píng)價(jià)與指標(biāo)為了說(shuō)明分類(lèi)方法的準(zhǔn)確性,采用正確率(Accurate,ACC)、命中率(Precision,P),召回率(Recall,R)及F1度量(Recall和Precision的調(diào)和平均數(shù))4個(gè)計(jì)算指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)價(jià)。指標(biāo)計(jì)算如式(4)~(7)所示:
(4)
Precision=TP/(TP+FP)
(5)
Recall=TP/(TP+FN)
(6)
(7)
式中,TP表示正確預(yù)測(cè)到正例的數(shù)量;TN表示正確預(yù)測(cè)到負(fù)例的數(shù)量;FP表示負(fù)例預(yù)測(cè)到正例的數(shù)量;FN表示正例預(yù)測(cè)到負(fù)例的數(shù)量。
ACC是表示評(píng)估分類(lèi)器好壞的指標(biāo),正確率越高,分類(lèi)器越好。命中率是精確度的度量,是指分類(lèi)模型判為正的所有樣本中有多少是真正的正樣本。召回率則是覆蓋面的度量,是所有正樣本有多少被分類(lèi)模型判為正樣本。F1是將命中率和召回率的方法組合成一個(gè)度量指標(biāo),它賦予命中率和召回率相等的權(quán)重。該研究將用上述指標(biāo)進(jìn)行對(duì)分類(lèi)模型的判斷,其值越大,表示分類(lèi)效果越好。
4.1數(shù)據(jù)處理與分析為了證實(shí)所提取的大米特征能反映大米的真實(shí)信息,采用主成分分析方法對(duì)所提取的特征值進(jìn)行分析。大米粒型特征值的標(biāo)準(zhǔn)誤差、各特征值的貢獻(xiàn)率以及累計(jì)貢獻(xiàn)率見(jiàn)表2。
從表2 可知,所提取的大米特征參數(shù)基本上能夠反映大米粒型的全部信息。
表2 大米粒型參數(shù)的主成分分析
注:主成分編號(hào)與表1的特征參數(shù)相匹配。
Note:Theprincipalcomponentnumbermatchthecharacteristicparametersoftable1.
4.2檢測(cè)結(jié)果分析該研究分別選取1 000粒大米作為SVM訓(xùn)練樣本,選取10張隨機(jī)混合大米圖像進(jìn)行預(yù)測(cè)。操作系統(tǒng)為WindowsXP,以Qt5.5.1為開(kāi)發(fā)工具,借助Opencv3.0進(jìn)行圖像處理和分析。編程實(shí)現(xiàn)K-means、Linear和RBF的大米品種識(shí)別方法。表3是利用K-means、Linear和RBF3種方法對(duì)2種大米識(shí)別結(jié)果比較。從表3可知,對(duì)于2種大米測(cè)試樣本,K-means、linear和RBF識(shí)別的準(zhǔn)確率分別為 98.75%、98.83%和96.01%。在這3類(lèi)模型中,K-means表現(xiàn)出更低分類(lèi)準(zhǔn)確率,原因在于它是根據(jù)每張大米圖像樣本信息進(jìn)行分聚類(lèi),沒(méi)有統(tǒng)一標(biāo)準(zhǔn),而SVM是事先對(duì)樣本進(jìn)行訓(xùn)練,系統(tǒng)已具有大米品種特征參數(shù),預(yù)測(cè)時(shí),只需根據(jù)每粒大米的特征參數(shù)進(jìn)行歸類(lèi)。
表3linear、RBF和K-means對(duì)2種大米品種識(shí)別結(jié)果比較
Table3Comparisonofidentificationresultswithlinear,RBFandK-meansfortworicevarieties
模型Models正確率Correctrate(ACC)命中率Hitrate(P)召回率Recallrate(R)度量Measurement(F1)Linear0.98750.97080.98240.9765RBF0.98830.99460.85990.9224K-means0.96010.96850.91410.9405
同時(shí),試驗(yàn)結(jié)果表明,Linear比RBF召回率高,即說(shuō)明分類(lèi)器正確預(yù)測(cè)正例的比例高,預(yù)測(cè)穩(wěn)定性比較好。Linear具有較高的F1值,則說(shuō)明大米在進(jìn)行品種識(shí)別中,Linear優(yōu)于其他2種算法。
該研究使用平板掃描儀獲取大米粒型圖像,編程實(shí)現(xiàn)對(duì)大米外觀特征提取與檢測(cè)算法,并利用SVM與K-means的方法,對(duì)2種大米進(jìn)行了識(shí)別研究。結(jié)果表明,利用SVM進(jìn)行大米識(shí)別,Linear和RBF具有相似的分類(lèi)準(zhǔn)確率,準(zhǔn)確率約為99%。但是Linear的預(yù)測(cè)穩(wěn)定性要比RBF核函數(shù)的預(yù)測(cè)穩(wěn)定性要高。相比于SVM分類(lèi)效果,K-means具有相對(duì)較低的準(zhǔn)確率,但K-means無(wú)需對(duì)樣本訓(xùn)練進(jìn)行事先的訓(xùn)練,節(jié)省了大部分的時(shí)間,且相對(duì)于小樣本的數(shù)據(jù),運(yùn)算時(shí)間短,豐富了大米圖像識(shí)別研究,為大米外部品質(zhì)識(shí)別提供了客觀可行的方法,同時(shí)也為其他的農(nóng)作物產(chǎn)品品種識(shí)別與鑒定提供參考價(jià)值。該裝置具有良好的擴(kuò)展性,我國(guó)稻米種類(lèi)繁多,后續(xù)將對(duì)更多品種進(jìn)行廣泛的取樣與試驗(yàn),但是目前該研究只針對(duì)2種粒型的大米進(jìn)行研究,還需要對(duì)不同品種和分類(lèi)算法展開(kāi)試驗(yàn)研究等進(jìn)一步校正和完善,從而建立大米外觀品質(zhì)識(shí)別評(píng)價(jià)體系,為進(jìn)一步實(shí)現(xiàn)大米在線(xiàn)檢測(cè)和自動(dòng)分級(jí)提供基礎(chǔ)。
[1] 周子立,張瑜,何勇,等.基于近紅外光譜技術(shù)的大米品種快速鑒別方法[J].農(nóng)業(yè)工程學(xué)報(bào),2009,25(8):131-134.
[2] 方華,孫翠霞,張虎.基于模糊神經(jīng)網(wǎng)絡(luò)的大米品種識(shí)別算法研究[J].安徽農(nóng)業(yè)科學(xué),2012,40(29):14617-14619.
[3]ABIRAMIS,NEELAMEGAMP,KALAH.Analysisofricegranulesusingimageprocessingandneuralnet-workpatternrecognitiontool[J].Internationaljournalofcom-puterapplications,2014,96(7):20-24.
[4] 林萍,陳永明. 利用可見(jiàn)近紅外光譜技術(shù)快速鑒別大米品種[J].江蘇農(nóng)業(yè)科學(xué),2015,43(12):320-323.
[5] 楊蜀秦,寧紀(jì)鋒,何東健.基于稀疏表示的大米品種識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2011,27(3):191-195.
[6]JINXM,SUNJ,MAOHP,etal.DiscriminationofricevarietiesusingLS-SVMclassificationalgorithmsandhyperspectralData[J].Advancejournaloffoodscienceandtechnology,2015,7(9):691-696.
[7]NIBLACKW,BARBERR,EQUITZW,etal.TheQBICproject:Queryingimagesbycontent,usingcolor,textureandshape[J].SPIE,1993,19(8):173-187.
[8]CHAPELLEO,HAFFNERP,VAPNIKVN,etal.Supportvectormachinesforhis-togram-basedimageclassification[J].IEEETransonneuralnetworks,1999,10(5):1055-1064.
[9] 許秉宗.米粒影像特征擷取與分群演算法之探討[R].2014.
[10] 袁佐云,牛興和,劉傳云.基于最小外接矩形的稻米粒型檢測(cè)方法[J].糧食與飼料工業(yè),2006(9):7-8.
[11] 吳才章,步東偉.稻米粒型特性參數(shù)測(cè)試系統(tǒng)的開(kāi)發(fā)[J].農(nóng)業(yè)工程學(xué)報(bào),2010(12):131-135.
[12] 張聰,張慧.基于Canny算法的大米粒型邊緣檢測(cè)應(yīng)用研究[J].糧食與飼料工業(yè),2008(6):3-4.
[13] 梁龍,房桂干,吳珽,等.基于支持向量機(jī)的近紅外特征變量選擇算法用于樹(shù)種快速識(shí)別[J].分析測(cè)試學(xué)報(bào),2016(1):101-106.
[14] 劉偉,劉長(zhǎng)虹,鄭磊.基于支持向量機(jī)的多光譜成像稻谷品種鑒別[J].農(nóng)業(yè)工程學(xué)報(bào),2014,30(10):145-151.
Thispaperproposedamethodbasedonsupportvectormachine(C-SVM)todistinguishricevarieties.Atfirst,itdidtheimagethresholdsegmentation,thenproceededthesmoothprocessing.Andaccordingtothecharacteristicsofricegrainshape,extractedarea,perimeterandsoon,usingOrangeCanvasdataminingsoftwaretoselectkernelparametersoflinearandRBFkernelfunction,andaccomplishricevarietiesrecognitionbyprogramingusingKmeans,linearfunctioninSVMandRBFmethodsunderOpencv3.0.Tengroupsofmixedricewereconductedtherecognitiontest,theresultsshowedthatlinearfunctioninSVMcouldidentifyricevarietiesinasuperiorpredictionstabilitywithclassificationaccuracyatabout99%.
Varieties;Featureextraction;K-means;Linear;RBF
福建省自然科學(xué)基金項(xiàng)目(2010J01272);福建省福建農(nóng)林大學(xué)現(xiàn)代農(nóng)業(yè)裝備及自動(dòng)化創(chuàng)新平臺(tái)項(xiàng)目(612014017)。
梁詩(shī)華(1992- ),女,福建連江人,碩士研究生,研究方向:圖像處理。*通訊作者,副教授,碩士生導(dǎo)師,從事生物圖像識(shí)別與處理研究。
2016-06-22
S24
A
0517-6611(2016)23-201-03
TheIdentificationResearchofRiceVarietiesBasedonC-SVM
LIANGShi-hua,HEJin-cheng*,LINYi-xin(InstituteofModernAgriculturalEquipment,CollegeofMechanicalandElectronicEngineering,FujianAgricultureandForestryUniversity,Fuzhou,Fujian350002)