崔巖
摘 要:驗(yàn)證基于Haar-like特征的健康辨識(shí)ROC-Boosting算法在不同人群中的應(yīng)用效果。在天津市南開(kāi)醫(yī)院采集的32例舌部圖像及其健康辨識(shí)結(jié)果上運(yùn)行ROC-Boosting算法,將基于Haar-like特征與其他人群采集的舌部圖像及其健康辨識(shí)結(jié)果進(jìn)行比較。研究結(jié)果表明,在兩個(gè)人群中選擇出的特征均集中于舌中、后部,基于選出特征建立的模型ROC曲線下面積達(dá)到0.864。結(jié)果驗(yàn)證了ROC-Boosting算法在滿足人類(lèi)觀察舌部圖像特點(diǎn)的同時(shí),適用于不同人群。
關(guān)鍵詞:舌部圖像;健康狀態(tài);ROC-Boosting
DOIDOI:10.11907/rjdk.171143
中圖分類(lèi)號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)007-0134-03
0 引言
Haar-like特征是用于人臉識(shí)別的一類(lèi)重要特征[1]。這類(lèi)特征不僅抽取速度快,而且對(duì)人臉檢測(cè)等特定問(wèn)題具有高敏感性或者高特異性特征。在此基礎(chǔ)上建立的分類(lèi)器,不僅準(zhǔn)確率高,而且所選出的特征有著良好的可解釋性。與應(yīng)用于人臉檢測(cè)相似,近年來(lái)在中醫(yī)舌診客觀化研究中,也發(fā)現(xiàn)Haar-like特征與高尿酸血癥存在聯(lián)系,與疾病相關(guān)特征集中在舌部中間部分,符合中醫(yī)舌診中舌苔顏色的變化特點(diǎn)[2]。在此基礎(chǔ)上,針對(duì)研究對(duì)象的健康/疾病狀態(tài)使用ROC-Boosting這一算法選擇出的Haar-like特征同樣也集中于舌中、后部[3]。相對(duì)于特征數(shù)量,用于建立模型的數(shù)據(jù)量不足,而且醫(yī)學(xué)數(shù)據(jù)獲取難度大、成本高,易受到各種條件限制。因此,在當(dāng)前研究階段,無(wú)法用分類(lèi)準(zhǔn)確率等指標(biāo)評(píng)價(jià)模型性能。因此,采取通過(guò)比較所選出的特征在舌部圖像上的位置及所建模型ROC曲線下面積的方法,評(píng)價(jià)ROC-Boosting算法在新采集人群上的有效性。
1 對(duì)象與方法
數(shù)據(jù)采集的納入標(biāo)準(zhǔn)為參與健康體檢,年齡在20~70歲(含),且自愿參與研究的人群。因服藥、外傷等導(dǎo)致舌部顏色、形狀和紋理劇烈變化,且在1小時(shí)內(nèi)無(wú)法恢復(fù)的,以及舌部活動(dòng)受限的,例如流涎、無(wú)法張嘴、舌頭強(qiáng)直、顫動(dòng)等,加上不配合研究的,都予以排除。為了安撫研究對(duì)象人群,對(duì)于年齡超過(guò)范圍的,也可以應(yīng)邀獲取圖像和健康辨識(shí)結(jié)果,但其數(shù)據(jù)不參與研究。2015年9月-10月,從天津市南開(kāi)醫(yī)院采集了32例舌部圖像,研究對(duì)象的基本情況如表1所示。采集圖像后立刻由專(zhuān)門(mén)人員使用調(diào)查問(wèn)卷將其健康狀態(tài)劃分為疾病和健康兩類(lèi)[4]。由于采集樣本數(shù)量有限,將問(wèn)卷中獲取健康狀態(tài)為可疑的,都視作疾病狀態(tài)。對(duì)圖像作預(yù)處理后,連同問(wèn)卷健康辨識(shí)結(jié)果形成數(shù)據(jù)庫(kù),而后在其上運(yùn)行ROC-Boosting算法[3]。
采用以往研究中的方法預(yù)處理采集圖像,得到100*120像素的舌部圖像。圖1是一幅經(jīng)過(guò)預(yù)處理的舌部圖像。由于抽取的Haar-like特征數(shù)量較多,因而按照ROC-Boosting算法的要求過(guò)濾特征,使用t檢驗(yàn)過(guò)濾無(wú)明顯差異的特征。最終,選擇p值切點(diǎn)為0.000 1,候選特征數(shù)為9 527。在此基礎(chǔ)上,開(kāi)始運(yùn)行ROC-Boosting算法。
ROC-Boosting算法過(guò)程如下:
步驟(9)采用了兩個(gè)條件,首先保證被正確分類(lèi)的正類(lèi)樣本數(shù)和負(fù)類(lèi)樣本數(shù)與總體樣本中正類(lèi)和負(fù)類(lèi)的樣本數(shù)比例盡量一致。在本研究中,健康狀態(tài)的樣本為正類(lèi),疾病狀態(tài)的為負(fù)類(lèi),這一比例為10∶22。在保證這一比例的基礎(chǔ)上,選擇ROC曲線下面積最大的特征。
使用R語(yǔ)言3.3.0的64位版本作為統(tǒng)計(jì)工具[5]。
ROC曲線下面積使用其中的ROCR包計(jì)算。特診抽取和ROC-Boosting算法均采用R語(yǔ)言中的腳本完成。
2 結(jié)果與分析
2.1 結(jié)果
最終ROC-Boosting算法在現(xiàn)有特征集中選出了5個(gè)特征。共15個(gè)樣本被正確分類(lèi)后,因?yàn)闆](méi)有特征滿足步驟(9)的條件,算法結(jié)束。與以往研究中所選出特征的位置對(duì)比及最終模型分類(lèi)的ROC曲線如圖2所示。其中,圖2(a)為ROC-Boosting在以往數(shù)據(jù)集上共1 322例舌部圖像及其健康辨識(shí)結(jié)果上運(yùn)行后,選擇出的Haar-like特征的累積[3];圖2(b)為在本研究中32例圖像中選擇出的特征的累積;圖2(c)為選出這5個(gè)特征后,形成組合模型的ROC曲線,曲線下面積為0.864。
2.2 分析
從圖2(b)可以看出,盡管選出的特征數(shù)量較少,但是選出特征仍舊集中在舌中部,這與在以往人群中運(yùn)行ROC-Boosting算法的結(jié)果相似。一般中醫(yī)認(rèn)為,舌苔顏色的變化是人體健康狀態(tài)的重要標(biāo)志,并將舌苔顏色分為白、黃、黑等類(lèi)型。已有研究對(duì)舌苔顏色及所在位置進(jìn)行了研究,并認(rèn)為舌苔一般位于舌中、后部[6],利用ROC-Boosting算法所選出的特征集中于位于舌圖像的中、后部,如圖2(a)所示。本研究由于樣本數(shù)量的限制,選出的特征數(shù)量非常有限,僅為5個(gè),但是已經(jīng)體現(xiàn)出舌苔在舌體所處位置。隨著研究的深入,采集樣本量的增加,所選出的特征也會(huì)進(jìn)一步增加。
盡管由現(xiàn)有數(shù)據(jù)得到的ROC曲線下面積較大,達(dá)到了0.864,但是由于沒(méi)有更多數(shù)據(jù),因而無(wú)法驗(yàn)證依照目前數(shù)據(jù)所得分類(lèi)模型的分類(lèi)效果。本研究正/負(fù)類(lèi)樣本的比例與以往研究不同,以往研究對(duì)象中,健康對(duì)象比例數(shù)量較少,正/負(fù)類(lèi)樣本的比例為0.126(148/1 174,共1 322例)。而本研究中樣本的正/負(fù)類(lèi)比例為0.455(10/22,共32例)。因此也無(wú)法直接將以往研究中的模型直接用于當(dāng)前人群預(yù)測(cè)和驗(yàn)證。
ROC-Boosting算法是一種提升算法。Viola等[1]于2004年首先將基于Haar-like特征的提升算法其應(yīng)用于人臉檢測(cè)。至今為止,這類(lèi)算法仍舊是人臉檢測(cè)的主要方法之一。但是這一算法成功應(yīng)用于人臉檢測(cè)的前提是人臉圖像上有鼻子、雙眼等敏感度極高但是特異度不高的單個(gè)Haar-like特征存在。而后算法可以在保證敏感度的前提下,提高特異度,最終得到幾乎完美的分類(lèi)模型。這類(lèi)模型用于人臉檢測(cè)時(shí),ROC曲線下面積接近于1。將這一算法推廣到其它圖像分類(lèi)問(wèn)題時(shí),面臨著以下兩個(gè)主要問(wèn)題:endprint
(1)不存在單個(gè)高性能特征。例如用于舌部圖像健康辨識(shí)這一問(wèn)題時(shí),通過(guò)前期實(shí)驗(yàn)發(fā)現(xiàn)在海量的特征中不存在高敏感度或者高特異度的特征,因此無(wú)法通過(guò)原始的算法提升得到高性能的分類(lèi)模型。
(2)樣本數(shù)質(zhì)量問(wèn)題。在人臉識(shí)別中,盡管Viola聲稱(chēng)其訓(xùn)練方法不需要負(fù)類(lèi)樣本,但實(shí)際上,圖像上所有的非人臉部分都可以作為負(fù)類(lèi)樣本,而且人臉圖像非常容易獲取,因此用大量樣本訓(xùn)練可靠的分類(lèi)器是可行的。但是在舌診健康辨識(shí)問(wèn)題上,面臨著數(shù)據(jù)采集難度高的問(wèn)題,這也造成數(shù)據(jù)數(shù)量和質(zhì)量都無(wú)法訓(xùn)練出特別高性能的分類(lèi)器。
為了解決以上兩個(gè)問(wèn)題,將Viola的算法進(jìn)行擴(kuò)展,增加了應(yīng)對(duì)樣本不平衡的比例限制條件,即選出的特征正確預(yù)測(cè)的正負(fù)類(lèi)樣本比例,必須與原始樣本中正負(fù)類(lèi)的比例接近。這一條件防止分類(lèi)器過(guò)分傾向于大類(lèi)。例如在本研究的32例圖像中,選出5個(gè)Haar-like特征,每個(gè)都是正確預(yù)測(cè)了1個(gè)健康樣本和2個(gè)疾病樣本。此外,還增加了限制單個(gè)特征性能的條件,使每個(gè)選出的特征的ROC曲線都是上凸且不穿過(guò)ROC空間的隨機(jī)猜測(cè)線,這也保證了總體分類(lèi)模型的性能逐步提升。有了以上兩個(gè)條件的限制,ROC-Boosting算法能夠隨著樣本量增加得到更好的分類(lèi)模型。
在以往研究中發(fā)現(xiàn),由于參與健康辨識(shí)研究人群多由參與體檢、社區(qū)等途徑獲得,因而健康樣本數(shù)量大大少于疾病樣本數(shù)量,造成樣本間不平衡問(wèn)題。這類(lèi)出現(xiàn)在醫(yī)藥研究領(lǐng)域中樣本數(shù)量不平衡分類(lèi)問(wèn)題仍舊是研究重點(diǎn)[7]。集成分類(lèi)算法,是應(yīng)對(duì)此類(lèi)問(wèn)題的主要手段之一。此外,本研究所采集數(shù)據(jù)量較少,因此樣本間數(shù)量較為平衡,由此對(duì)分類(lèi)模型的影響也是未知的。
3 結(jié)語(yǔ)
通過(guò)在不同人群上運(yùn)行ROC-Boosting算法,驗(yàn)證了該算法能實(shí)現(xiàn)在不同的人群中成功提取Haar-like特征。所提取的特征數(shù)量較少,但與以往研究一致的是,特征都集中于舌的中、后部,這與中醫(yī)舌診的理論相符合。因?yàn)闃颖緮?shù)量較少且分布不同于以往研究,因而無(wú)法評(píng)價(jià)ROC-Boosting算法的預(yù)測(cè)性能。因此,進(jìn)一步規(guī)范和擴(kuò)大舌部圖像和相應(yīng)健康狀態(tài)的采集,驗(yàn)證ROC-Boosting的預(yù)測(cè)性能將是后續(xù)研究的重點(diǎn)。
參考文獻(xiàn):
[1] VIOLA P,JONES M.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.
[2] CUI Y,LIAO S,WANG H,et al.Relationship between hyperuricemia and haar-like features on tongue images[J].BioMed Research International,2015(9):32-36.
[3] CUI Y,LIAO S,WANG H,et al.ROC-boosting:a feature selection method for health identification using tongue image[J].Computational and Mathematical Methods in Medicine,2015(11):32-36.
[4] ZHOU X,XU F,GAO J.Development and preliminary validation of the questionnaire (the First Edition) based on tcm for detecting health status in China[J].Evidence-based Complementary and Alternative Medicine,2015(2):83-85.
[5] R CORE TEAM.A language and environment for statistical computing,R foundation for statistical computing[EB/OL].https://www.R-project.org/.
[6] 陳松鶴,梁嶸,王召平.6種舌苔顏色數(shù)據(jù)的三維分布特征的描述[J].時(shí)珍國(guó)醫(yī)國(guó)藥,2009(11):2852-2854.
[7] 李玉平,夏斌.樣本不平衡的睡眠數(shù)據(jù)分期研究[J].微型機(jī)與應(yīng)用,2016(18):55-57,61.endprint