譚章祿,陳孝慈
(中國礦業(yè)大學(xué)(北京) 管理學(xué)院,北京 100083)
數(shù)據(jù)中蘊(yùn)含著大量信息,信息的價值需要經(jīng)過縝密的分析獲取,分類(classification)是指通過對離散型變量的建模,預(yù)測其屬性或類別,它既是數(shù)據(jù)分析的一種重要形式,同時也是機(jī)器學(xué)習(xí)的一個重要任務(wù)[1]。分類的目的是從人工標(biāo)注的分類訓(xùn)練樣本(訓(xùn)練集)中,學(xué)習(xí)出一個分類函數(shù)或分類模型,基于此建立分類器,當(dāng)有新數(shù)據(jù)時,即可根據(jù)已有的函數(shù)或模型進(jìn)行預(yù)測,從而將新數(shù)據(jù)(測試集)映射到給定類別的某一個類中[2-3]。這種分析能夠幫助研究者快速、全面地理解數(shù)據(jù)。
采用什么樣的分類器能夠更好地解決問題,離不開對分類器性能的評價。作為分類的最后一步,分類器的性能評價是分類過程中不可或缺的環(huán)節(jié)。對于待分類數(shù)據(jù)分類效果的好壞決定了分類器的性能,基于這一思想,Van Rijsbergen于1979年首先提出精確率(Precision)和召回率(Recall)等評價指標(biāo)并獲得諸多研究者的廣泛認(rèn)同[4]。之后,國內(nèi)外研究者又針對不同的情境提出了新的分類評價指標(biāo),如接收者操作特征曲線(Receiver operating characteristic,ROC)能夠在樣本正負(fù)變換時保持形狀基本不變,準(zhǔn)確率(Accuracy)能夠在部分環(huán)境下判斷分類器是否有效,這些研究成果豐富了研究人員評價分類器分類效果的手段,對于分類器評價標(biāo)準(zhǔn)的建立貢獻(xiàn)良多[5-8]。分類技術(shù)發(fā)展至今,所面臨的數(shù)據(jù)環(huán)境越來越復(fù)雜多變,如何判別分類器有效與否顯得尤為重要,當(dāng)面對大規(guī)模、不平衡數(shù)據(jù)集時,現(xiàn)有的評價指標(biāo)體系越來越難以滿足需求,分類器評價指標(biāo)相關(guān)研究有必要繼續(xù)深入[9]。設(shè)計合理的分類器評價指標(biāo),不論是對于分類任務(wù)的良性進(jìn)行,還是評價指標(biāo)的推廣應(yīng)用,都具有深刻的理論意義和廣泛的現(xiàn)實(shí)意義。
現(xiàn)階段,分類器性能的評價指標(biāo)中,以精確率、召回率和F1-score這三種指標(biāo)的應(yīng)用范圍最為廣泛[10]。為了更清楚地理解這些評價標(biāo)準(zhǔn),用表1所示的混淆矩陣表示分類的最終結(jié)果。
表1 分類結(jié)果混淆矩陣
表1中相關(guān)名詞解析如下:
真正例(True Positive,TP):被模型辨識為正的正樣本,即分類器判定樣本屬于某一類而樣本實(shí)際上也屬于該類;
真負(fù)例(True Negative,TN):被模型辨識為負(fù)的負(fù)樣本,即分類器判定樣本不屬于某一類而樣本實(shí)際上也不屬于該類;
假正例(False Positive,F(xiàn)P):被模型辨識為正的負(fù)樣本,即分類器判定樣本屬于某一類但樣本實(shí)際上不屬于該類;
假負(fù)例(False Negative,F(xiàn)N):被模型辨識為負(fù)的正樣本,即分類器判定樣本不屬于某一類但樣本實(shí)際上屬于該類。
基于表1,精確率的計算公式為:
(1)
召回率的計算公式為:
(2)
F1-score計算公式為:
(3)
三種指標(biāo)中,精確率用于衡量分類器的查準(zhǔn)率,表示辨識為正的正樣本占所有辯識為正的樣本比重,精確率越大,表明分類器準(zhǔn)確率越高;召回率用于衡量分類器的查全率,表示辨識為正的正樣本占所有正樣本的比重,召回率越高,表明分類器的查全率越高;F1-score是一種綜合考慮查準(zhǔn)與查全的評價指標(biāo),F(xiàn)1-score的值越大,表示分類器越有效。
上述三種指標(biāo)具有較好的獨(dú)立性、時間無關(guān)性、可擴(kuò)展性和較低的計算復(fù)雜度,因而在眾多研究和實(shí)踐中獲得廣泛應(yīng)用。但是,不少學(xué)者經(jīng)研究發(fā)現(xiàn),上述指標(biāo)并未考慮到分類結(jié)果的穩(wěn)定性以及當(dāng)前廣泛存在的數(shù)據(jù)不平衡問題[11-14]。在現(xiàn)實(shí)的應(yīng)用中,分類結(jié)果不穩(wěn)定以及樣本數(shù)據(jù)不平衡的現(xiàn)象普遍存在,人們或強(qiáng)調(diào)整體性能,認(rèn)為每一類結(jié)果的準(zhǔn)確與否同樣重要,或?qū)τ谀骋活惢驇最悩颖镜姆诸愋Ч囊蟾?,而對樣本的整體分類效果具備一定的容忍。例如,多個類別的數(shù)據(jù)樣本中,人們可能認(rèn)為局部分類效果較差不可接受;人們也可能認(rèn)為樣本數(shù)量較多的類別比較重要,因?yàn)檫@些類別上即使較低的錯誤率也意味著較高的錯誤數(shù)量;又可能認(rèn)為樣本數(shù)量較少的類別更加重要,因?yàn)榧词股倭垮e誤也會使得該類別樣本錯誤率較高。上述情境在現(xiàn)實(shí)中普遍存在且較早即引起研究者關(guān)注,但目前尚未取得公認(rèn)的突破性進(jìn)展[15]。
為了解決這一問題,研究者提出了兩種不同的解決思路,其一是通過多種數(shù)據(jù)預(yù)處理方法,使得不平衡數(shù)據(jù)集趨于平衡,如Wang[16]等設(shè)計了一種多策略集成特征的分類器,在分類之前對不平衡數(shù)據(jù)集進(jìn)行下采樣,使得多數(shù)類與少數(shù)類樣本數(shù)量達(dá)成平衡,Li等[17]對數(shù)據(jù)進(jìn)行預(yù)先打分,提取出每類得分最高的部分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn),從而實(shí)現(xiàn)了不平衡數(shù)據(jù)集轉(zhuǎn)化為平衡數(shù)據(jù)集,但這類方法大大增加了數(shù)據(jù)分析的復(fù)雜度,對計算機(jī)性能提出更高的要求。另一種解決方法即是從評判標(biāo)準(zhǔn)層面出發(fā),設(shè)計全新的分類器分類性能評價指標(biāo)。
精確率、召回率和F1-score這三類評價指標(biāo)在實(shí)際應(yīng)用中已經(jīng)證明其價值,因此,新指標(biāo)在這三類指標(biāo)的基礎(chǔ)上加以改進(jìn)。新指標(biāo)著重關(guān)注分類結(jié)果的穩(wěn)定性,同時,新指標(biāo)必須能夠根據(jù)樣本的數(shù)量分布來調(diào)節(jié)類別的重要性。對于分類結(jié)果的穩(wěn)定性,可以用單個類別的分類效果與總體效果差異來表示;對于樣本的重要程度,可以用單個類別樣本與樣本總量的比例來表示。基于這一思想,假設(shè)待分類的樣本共有n類,待分類樣本的總數(shù)為C,第i類待分類樣本的數(shù)量為ci。
設(shè)定平衡精確度(Stable Precision,SP)的計算公式為:
(4)
設(shè)定平衡召回度(Stable Recall,SR)的計算公式為:
(5)
式(5)中,Ri表示第i類樣本的分類召回率,R表示所有樣本分類召回率的宏平均。
設(shè)定平衡F1-score(Stable F1-score,SF)的計算公式為:
(6)
式(6)中,F(xiàn)i表示第i類樣本的分類F1-score,F(xiàn)表示所有樣本分類F1-score的宏平均。
上述三類指標(biāo),SP衡量分類器的查準(zhǔn)率,SR衡量分類器的查全率,SF是一種綜合性指標(biāo),它們最終取值范圍均在區(qū)間[0,1],指標(biāo)的值越大代表分類器的性能越好。與現(xiàn)有指標(biāo)相比,新指標(biāo)在不大幅增加計算復(fù)雜度的前提下,通過單一類別指標(biāo)與指標(biāo)平均值的差值體現(xiàn)平穩(wěn)性,通過調(diào)節(jié)系數(shù)α來體現(xiàn)人們對于類別的樣本數(shù)量的重視程度。
為了驗(yàn)證上述評價指標(biāo)對分類器的評價效果,分別使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)建立文本分類器,進(jìn)行文本分類對比實(shí)驗(yàn),利用新舊指標(biāo)評價最終的分類效果[18-19]。相關(guān)實(shí)驗(yàn)流程如圖1所示。
圖1 實(shí)驗(yàn)流程圖
數(shù)據(jù)源自清華大學(xué)自然語言處理實(shí)驗(yàn)室提供的THUCNews中文文本數(shù)據(jù)集,分別利用兩種分類器進(jìn)行10次對比實(shí)驗(yàn)[20]。兩類分類器在全部實(shí)驗(yàn)中僅改變訓(xùn)練集數(shù)據(jù),不改變測試集、分詞表、停詞表、分類器參數(shù)等設(shè)置。數(shù)據(jù)集的類別分布情況如表2所示,實(shí)驗(yàn)中訓(xùn)練集各類文本數(shù)據(jù)量呈等差數(shù)列增加,通過調(diào)節(jié)訓(xùn)練集文本數(shù)量改變實(shí)驗(yàn)結(jié)果。每次實(shí)驗(yàn)中兩分類器的訓(xùn)練集數(shù)據(jù)保持一致,數(shù)據(jù)從數(shù)據(jù)源中隨機(jī)抽取。所有實(shí)驗(yàn)的測試集數(shù)據(jù)均相同,但每類文本數(shù)量不一致。
表2 數(shù)據(jù)集概況表
分別利用CNN與RNN分類器進(jìn)行實(shí)驗(yàn),設(shè)計開展10組對照實(shí)驗(yàn),實(shí)驗(yàn)最終結(jié)果如表3及圖2所示。
圖2中,橫坐標(biāo)表示訓(xùn)練集中每類樣本的數(shù)量,縱坐標(biāo)分別代表精確率、召回率和F1-score,所有圖像的橫縱坐標(biāo)范圍均相同。從表3及圖2可以初步發(fā)現(xiàn),CNN分類器在所有情境下的表現(xiàn)均好于RNN分類器。但是,在訓(xùn)練集每類樣本數(shù)量為 2 500、3 000和3 500的實(shí)驗(yàn)中,兩種分類器的表現(xiàn)十分接近。進(jìn)一步觀察表3中數(shù)據(jù)后發(fā)現(xiàn),三次實(shí)驗(yàn)中,CNN分類器穩(wěn)定性表現(xiàn)不佳,在“財經(jīng)”這一類別文本的分類中,其最終分類效果不僅與其它類別的分類效果有一定差距,而且較RNN分類器明顯不如,這一現(xiàn)象從三種現(xiàn)有評價指標(biāo)中并未體現(xiàn)出來。在這三次實(shí)驗(yàn)中,如果仍然認(rèn)為CNN分類器的分類效果更好,則顯得缺乏依據(jù)。
表3 分類實(shí)驗(yàn)詳細(xì)結(jié)果
圖2 現(xiàn)有評價指標(biāo)評判結(jié)果
對照實(shí)驗(yàn)的目的是為了驗(yàn)證改進(jìn)的分類器分類性能評價指標(biāo)對分類結(jié)果穩(wěn)定性的評判是否有效,以及調(diào)節(jié)系數(shù)是否發(fā)揮預(yù)期之內(nèi)調(diào)節(jié)重要性的作用。分別設(shè)定α=0及α=1,利用改進(jìn)的評價指標(biāo)評判各分類器(圖3)。
圖3 改進(jìn)評價指標(biāo)的評判結(jié)果
圖3中,橫坐標(biāo)表示訓(xùn)練集中每類樣本的數(shù)量,縱坐標(biāo)分別代表SP、SR和SF,所有圖像的橫縱坐標(biāo)范圍均相同。
實(shí)驗(yàn)中,當(dāng)α=0時,其含義為不考慮各個類別中待分類樣本的數(shù)量多少,視每類樣本的分類結(jié)果對總體結(jié)果而言同樣重要。在此條件下,當(dāng)訓(xùn)練集每類樣本數(shù)量為3 000或3 500時,CNN分類器在SP和SF兩指標(biāo)上表現(xiàn)明顯不如RNN分類器,結(jié)合表3發(fā)現(xiàn),這是因?yàn)樵凇柏斀?jīng)”這一類別中,CNN分類器的精確率明顯偏低,進(jìn)而降低了分類精確率的總體穩(wěn)定性,這一因素同時也影響了SF。
當(dāng)α=1時,各個類別的分類結(jié)果對總體結(jié)果的影響與各個類別中待分類樣本數(shù)量正相關(guān),每一類別待分類樣本數(shù)量越多,則其分類結(jié)果對總體結(jié)果越重要。在此條件下,僅當(dāng)訓(xùn)練集每類樣本數(shù)量為3 000時,RNN分類器在SP和SF兩指標(biāo)上表現(xiàn)略微優(yōu)于CNN分類器,與α=0時的差異明顯。結(jié)合表3發(fā)現(xiàn),由于“財經(jīng)”類文本數(shù)量較少,當(dāng)α=1時,這一類別分類結(jié)果對總體的影響較低,雖然CNN分類器對于“財經(jīng)”類別的分類效果不佳,但這一差距被淡化。
雖然造成CNN分類器在部分情境中表現(xiàn)較差的根本原因都是對于“財經(jīng)”類文本的分類效果不好,但是,由于調(diào)節(jié)系數(shù)α的取值不同,使得兩種情境下對于分類器的最終評判結(jié)果并不相同。當(dāng)α=1,訓(xùn)練集每類樣本數(shù)量為2 500和3 500時,CNN分類器在三種新指標(biāo)上的表現(xiàn)均比RNN分類器優(yōu)秀,這是由于前者在其它類別上的表現(xiàn)存在明顯優(yōu)勢,相較于α=0的情況,α=1加強(qiáng)了這種優(yōu)勢。上述情況說明α能夠控制某些類別樣本重要程度??傮w來看,實(shí)驗(yàn)結(jié)果表明改進(jìn)的分類器分類性能評價指標(biāo)能夠較好地衡量分類結(jié)果的穩(wěn)定性、調(diào)節(jié)樣本的重要性,實(shí)現(xiàn)了預(yù)期目標(biāo)。但是,一方面,由于調(diào)節(jié)系數(shù)范圍的限制,改進(jìn)的指標(biāo)中,實(shí)際上處于與樣本量“完全無關(guān)”到與樣本量“正相關(guān)”的范圍內(nèi),這掣肘了改進(jìn)的指標(biāo)的進(jìn)一步推廣應(yīng)用。未來,對于樣本重要程度的調(diào)節(jié),應(yīng)當(dāng)實(shí)現(xiàn)按樣本數(shù)量調(diào)節(jié)以及按實(shí)際需求調(diào)節(jié)兩種形式。另一方面,改進(jìn)的指標(biāo)仍然增加了計算復(fù)雜度,如果樣本類別多、數(shù)量大,對運(yùn)算速度會產(chǎn)生較大的負(fù)面作用。因此,分類器分類性能評價指標(biāo)仍然有待進(jìn)一步發(fā)展完善。
針對現(xiàn)有的分類評價指標(biāo)無法很好地評判不均衡數(shù)據(jù)的分類效果問題,因此,在精確率、召回率和F1-score這三種指標(biāo)的基礎(chǔ)上,提出了綜合分類結(jié)果平穩(wěn)性的SP、SR和SF評判指標(biāo),并以THUCNews數(shù)據(jù)集為基礎(chǔ)實(shí)驗(yàn)設(shè)計開展研究。
實(shí)驗(yàn)結(jié)果表明,新指標(biāo)能夠更好地體現(xiàn)分類器分類結(jié)果穩(wěn)定性。同時,通過引入調(diào)節(jié)系數(shù),分類器能夠根據(jù)樣本數(shù)量實(shí)現(xiàn)對于類別重要性的劃分,這顯著增加了新指標(biāo)應(yīng)用的靈活性。實(shí)際應(yīng)用時,調(diào)節(jié)系數(shù)還可以設(shè)定為與其它因素相關(guān)的函數(shù),以期根據(jù)研究者需要,實(shí)現(xiàn)更精確的權(quán)重調(diào)節(jié)。下一步的研究工作,需實(shí)現(xiàn)穩(wěn)定性重要性調(diào)節(jié),同時實(shí)現(xiàn)研究人員對穩(wěn)定性的調(diào)控需求,進(jìn)一步增強(qiáng)指標(biāo)的實(shí)用價值。