混合特征選擇和集成學(xué)習(xí)驅(qū)動(dòng)的代碼異味檢測

2022-07-14 13:11:30艾成豪高建華黃子杰

計(jì)算機(jī)工程 2022年7期

艾成豪，高建華，黃子杰

（1.上海師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系，上海 200234；2.華東理工大學(xué) 計(jì)算機(jī)科學(xué)與工程系，上海 200237）

0 概述

為了評估軟件的可維護(hù)性，F(xiàn)OWLER等［1］引入代碼異味的概念，其表示開發(fā)人員在實(shí)現(xiàn)軟件系統(tǒng)的過程中使用的不良設(shè)計(jì)和代碼實(shí)現(xiàn)。代碼異味使軟件的易變性和易錯(cuò)性提高［2］，且其擁有很長的生命周期［3］。若代碼異味未被及時(shí)消除，因它們所導(dǎo)致的工作量和維護(hù)成本將會(huì)成倍增加，消除代碼異味也會(huì)變得更加困難［4］，及時(shí)檢測出源代碼中所含的代碼異味能夠有效避免此類問題的產(chǎn)生。

目前，已經(jīng)有很多研究人員提出多種代碼異味檢測技術(shù)［5-7］，它們中的大多數(shù)都是基于規(guī)則或啟發(fā)式方法，即應(yīng)用檢測規(guī)則從源代碼中計(jì)算相關(guān)度量值，并與統(tǒng)計(jì)所得的閾值進(jìn)行比較，以確定源代碼中是否含有代碼異味［8］。然而，這些技術(shù)均存在一定的局限性，如開發(fā)人員對代碼異味的理解不同，在對閾值的設(shè)定和度量的選擇過程中帶有主觀性［9］，從而導(dǎo)致不同檢測技術(shù)對相同代碼異味的檢測結(jié)果存在差異［10］。機(jī)器學(xué)習(xí)技術(shù)被視為解決上述問題的一種有效方法，其能自動(dòng)地組合代碼度量，且無需指定任何閾值。目前大部分通用機(jī)器學(xué)習(xí)算法都能取得較高的檢測性能［11］，但是它們?nèi)匀淮嬖诖倪M(jìn)的部分。

在模型選擇方面，沒有一種單一模型能在所有代碼異味檢測中都取得良好的表現(xiàn)［12］。為此，集成學(xué)習(xí)方法被應(yīng)用于代碼異味檢測，但是，以往的研究都側(cè)重于使用同構(gòu)集成學(xué)習(xí)，而對于異構(gòu)集成學(xué)習(xí)的研究較少。

在類平衡方面，代碼異味的數(shù)據(jù)普遍存在不平衡的問題，受代碼異味影響的樣本偏少［13］。相關(guān)學(xué)者首先使用采樣技術(shù)平衡代碼異味正、負(fù)（即有異味與無異味）樣本比例，然后利用特征選擇方法得到最優(yōu)特征子集，將其送入機(jī)器學(xué)習(xí)方法中進(jìn)行檢測，最終取得較高的檢測性能［14-15］。然而，近期有相關(guān)研究指出，類平衡算法可能會(huì)降低模型性能，從類對于軟件系統(tǒng)重要性的角度出發(fā)，也沒有任何的類需要“被平衡”［16］。

在特征選擇方面，若使用大量特征進(jìn)行訓(xùn)練可能會(huì)造成“維度災(zāi)難”問題，從而增加模型訓(xùn)練時(shí)間并使其產(chǎn)生過擬合［17］。然而，代碼異味的特征度量可能存在高度共線問題［18］，這意味著在原始數(shù)據(jù)集中存在的多數(shù)度量對代碼異味預(yù)測沒有任何幫助，而且會(huì)導(dǎo)致模型過擬合。文獻(xiàn)［19］結(jié)合多種特征選擇方法，首先使用Spearman 相關(guān)系數(shù)檢測特征對之間的相關(guān)性，選出相關(guān)性較高的特征對，然后刪除特征對中信息增益率較小的部分，分析結(jié)果表明，該方法的分類性能取得一定提升。

本文針對上述模型和特征選擇中存在的問題，提出一種混合特征選擇和集成學(xué)習(xí)驅(qū)動(dòng)的代碼異味檢測方法。比較多種機(jī)器學(xué)習(xí)模型在不同代碼異味上的分類性能，以選擇適合被測異味的模型。設(shè)計(jì)一種混合特征選擇方法，用于去除對分類結(jié)果影響較小的無關(guān)特征。在此基礎(chǔ)上，構(gòu)建一種兩層結(jié)構(gòu)的Stacking 集成學(xué)習(xí)模型，通過集成單一模型的優(yōu)點(diǎn)來提升分類性能。

1 相關(guān)技術(shù)

1.1 代碼異味

代碼異味最初的版本涵蓋了22 種異味，其為一種設(shè)計(jì)上的缺陷，會(huì)對軟件維護(hù)帶來一定的影響，通常利用重構(gòu)對代碼異味進(jìn)行干預(yù)。本文主要研究以下4 種在開發(fā)過程中較為常見的代碼異味：

1）LM（LongMethod）：類中方法具有過長的代碼行數(shù)［4］。

2）LC（LazyClass）：復(fù)雜性較低的類，包含簡單的方法［4］。

3）CDSBP（ClassDataShouldBePrivate）：類存在公開（Public）字段，因而違反了封裝中的可見性要求［20］。

4）LPL（LongParameterList）：類中方法存在過長的參數(shù)列表［20］。

1.2 源代碼度量

源代碼度量（即特征度量）是一組從不同角度對軟件系統(tǒng)進(jìn)行描述的值，其能使開發(fā)人員更好地了解他們正在編寫的代碼。源代碼度量標(biāo)準(zhǔn)主要分為產(chǎn)品度量和過程度量兩大類，產(chǎn)品度量包括代碼規(guī)模度量、復(fù)雜性度量等，過程度量包括代碼變更度量、開發(fā)人員度量等。源代碼度量是代碼異味檢測中的重要依據(jù)，不同代碼異味對應(yīng)的源代碼度量不同，表1 所示為一些常見的代碼異味檢測規(guī)則。

表1 代碼異味檢測規(guī)則Table 1 Code smell detection rules

1.3 特征選擇

從源代碼中提取的大量代碼度量可能是無關(guān)的，即特征與分類標(biāo)簽（是否為異味）之間的相關(guān)性較低。若存在大量無關(guān)的特征，會(huì)產(chǎn)生“維度災(zāi)難”問題，從而增加模型運(yùn)行時(shí)間并降低分類性能。特征選擇是解決此類問題最有效的方法之一。特征選擇主要分為過濾法（Filter）、包裝法（Wrapper）和嵌入法（Embedded）［25］3 種：過濾法選取所有特征中最具區(qū)別性、不依賴于任何分類算法的特征，其計(jì)算所有特征與分類標(biāo)簽之間的相關(guān)性，過濾掉相關(guān)性較低的特征，將保留的高相關(guān)性特征作為后續(xù)模型的輸入；包裝法依據(jù)分類算法的預(yù)測性能來評判所選特征子集的質(zhì)量，其預(yù)先制定好一種搜索策略，將搜索得到的特征子集送入分類器，預(yù)測結(jié)果越好，則該子集越有效；嵌入法結(jié)合了上述兩者的思想，即將特征選擇過程嵌入到分類算法中，從而篩選出最優(yōu)子集。

本文采用一種混合特征選擇方法，該方法結(jié)合過濾法和嵌入法的優(yōu)點(diǎn)，融合通過ReliefF、XGBoost特征重要性和Pearson 相關(guān)系數(shù)得到的特征權(quán)重值，以去除與分類標(biāo)簽無關(guān)的特征。

1.3.1 ReliefF

ReliefF 是對Relief 的擴(kuò)展，其能夠處理多分類數(shù)據(jù)。ReliefF 是一種過濾法，根據(jù)特征對近距離樣本的區(qū)分能力賦予特征不同的權(quán)重，權(quán)重越大，則分類能力越強(qiáng)。每次從樣本集中隨機(jī)選擇一個(gè)樣本S，尋找與它同類別的K個(gè)近鄰樣本，記為NH；從不同于樣本S的類別中各選出K個(gè)近鄰樣本，記為NM(C)。迭代更新所有特征的權(quán)重ω(x)［26］，如式（1）所示：

其中：m為迭代次數(shù)；P（C）為第C類的概率；Class（S）為樣本S所屬的類別；NHj為與S同類別的第j個(gè)近鄰；NM(C)j為與S不同類別的第j個(gè)近鄰；diff(X,S,S')為特征X上樣本S和S'之間的距離。diff(X,S,S')的計(jì)算如式（2）所示：

1.3.2 Pearson 相關(guān)系數(shù)

Pearson 相關(guān)系數(shù)是一種過濾法，其能夠衡量2 個(gè)變量X和Y之間相關(guān)性的強(qiáng)弱，當(dāng)一個(gè)變量的變化能引起另一個(gè)變量改變時(shí)，則稱它們之間具有相關(guān)性［27］。Pearson 相關(guān)系數(shù)的計(jì)算公式如式（3）所示：

其中：σX、σY分別表示2 個(gè)變量的標(biāo)準(zhǔn)差；cov(X,Y)表示2個(gè)變量的協(xié)方差；n為樣本數(shù)量；xˉ與yˉ分別為變量X和Y的均值。

Pearson 相關(guān)系數(shù)輸出值ρ的取值范圍在?1～1之間：當(dāng)取值為負(fù)數(shù)時(shí)，表示2 個(gè)變量呈負(fù)相關(guān)；當(dāng)取值為0 時(shí)，表示2 個(gè)變量之間獨(dú)立；當(dāng)取值為正數(shù)時(shí)，表示2 個(gè)變量呈正相關(guān)。ρ的絕對值越接近1，則2 個(gè)變量的相關(guān)性越高，它們之間的聯(lián)系也越緊密。

1.3.3 XGBoost 特征重要性

XGBoost 由CHEN等［28］于2016 年提出，其為一種高效、可擴(kuò)展的機(jī)器學(xué)習(xí)模型。XGBoost 是基于梯度提升決策樹（GBDT）改進(jìn)的模型，通過Boosting方式組合多棵CART 決策樹，其主要思想是通過迭代添加新的分類器來擬合之前的殘差。XGBoost 對損失函數(shù)進(jìn)行二階泰勒展開來近似目標(biāo)函數(shù)，并通過向目標(biāo)函數(shù)添加控制模型復(fù)雜度的正則項(xiàng)來獲取更好的泛化性，從而避免過擬合問題。此外，XGBoost 能充分發(fā)揮多核CPU 的優(yōu)勢進(jìn)行并行計(jì)算，大幅縮短了運(yùn)行時(shí)間。

XGBoost 特征重要性（XGBI）是嵌入法中的一種，其通過XGBoost 在訓(xùn)練過程中得到每個(gè)特征的重要性，特征重要性值越高，則該特征在模型構(gòu)建與訓(xùn)練過程中的貢獻(xiàn)越大。XGBoost 利用貪心算法來確定樹的結(jié)構(gòu)，即尋找最優(yōu)切分點(diǎn)，其通過遍歷所有節(jié)點(diǎn)并計(jì)算分裂前后的差值得到增益，選擇增益最大的節(jié)點(diǎn)進(jìn)行分裂［29］。

增益的計(jì)算公式如式（4）所示：

1.4 集成學(xué)習(xí)

集成學(xué)習(xí)利用特定的策略組合多個(gè)基分類器（即機(jī)器學(xué)習(xí)模型）來構(gòu)建相對穩(wěn)定和準(zhǔn)確的模型。與單個(gè)分類器相比，集成學(xué)習(xí)能取得更好的結(jié)果和更強(qiáng)的泛化能力。在通常情況下，集成學(xué)習(xí)遵循以下2個(gè)原則：

1）基分類器的準(zhǔn)確率高于隨機(jī)猜測。

2）基分類器之間具有多樣性［30］。

集成學(xué)習(xí)主要分為Boosting、Bagging 和Stacking這3 種：Boosting 是串行關(guān)系，其按順序逐一構(gòu)造多個(gè)基分類器，并以迭代方式調(diào)整前一個(gè)分類器錯(cuò)誤分類的樣本權(quán)重，用于訓(xùn)練下一個(gè)分類器；Bagging對訓(xùn)練樣本采用Bootstrap 抽樣策略，并行地訓(xùn)練多個(gè)獨(dú)立的基分類器，并將它們的結(jié)果以多數(shù)投票或取平均的方法進(jìn)行結(jié)合。以上2 種集成學(xué)習(xí)是同質(zhì)集成，即只包含同種類型的基分類器。本文采用的Stacking 是一種異構(gòu)集成學(xué)習(xí)模型，該模型由WOLPERT［31］于1992 年提出，其通過結(jié)合多種不同類型的機(jī)器學(xué)習(xí)模型，使得模型的邊界變得更穩(wěn)定，避免單一模型預(yù)測性能不佳、魯棒性較差的問題。Stacking 集成學(xué)習(xí)模型通常被設(shè)計(jì)為兩層框架的結(jié)構(gòu)，為此引入了基分類器和元分類器的概念。第一層由多個(gè)基分類器組成，為了防止過擬合，采用K 折交叉驗(yàn)證對其進(jìn)行訓(xùn)練，合并它們的預(yù)測結(jié)果形成新數(shù)據(jù)集后輸入第二層的元分類器中，從而得到最終的結(jié)果。Stacking 集成學(xué)習(xí)模型的構(gòu)建過程如圖1所示，第一層以5 折交叉驗(yàn)證為例，其實(shí)現(xiàn)過程如算法1 所示。

圖1 Stacking 集成學(xué)習(xí)模型構(gòu)建過程Fig.1 Construction procedure of Stacking ensemble learning model

算法1Stacking 集成學(xué)習(xí)模型算法

2 本文代碼異味檢測方法

針對使用大量特征進(jìn)行訓(xùn)練可能引起“維度災(zāi)難”以及單一模型泛化性能不佳的問題，本文提出一種混合特征選擇和集成學(xué)習(xí)驅(qū)動(dòng)的代碼異味檢測方法。該方法首先從開源項(xiàng)目中提取度量并與對應(yīng)的分類標(biāo)簽合并構(gòu)成代碼異味數(shù)據(jù)集，然后對數(shù)據(jù)歸一化后的數(shù)據(jù)集進(jìn)行混合特征選擇，最后將得到的特征子集送入后續(xù)的Stacking 集成學(xué)習(xí)模型進(jìn)行分類。本文方法流程如圖2 所示。

圖2 本文代碼異味檢測方法流程Fig.2 The procedure of code smell detection method in this paper

2.1 數(shù)據(jù)集

本文考慮4 個(gè)大小不一且屬于不同領(lǐng)域的Java開源項(xiàng)目，分別為Rhino 1.6R6、ArgoUML0.26、Mylyn 3.1.1 和Eclipse 3.3.1，用以構(gòu)建代碼異味數(shù)據(jù)集。由于本文方法需要大量自變量，即面向?qū)ο蟮亩攘恐?，因此使用SourceMeter 和CKJM extended 這2 種常用的度量計(jì)算工具，共提取78 個(gè)度量，度量說明如表2、表3 所示。

在所提取的度量中，存在一小部分相同的度量，本文按照文獻(xiàn)［32］中的做法將它們保留，保留的原因是所用的度量計(jì)算工具針對的對象不同，SourceMeter 是針對源文件，而CKJM extended 是對字節(jié)碼文件進(jìn)行計(jì)算，因此，兩者得到的度量值不同［33］。數(shù)據(jù)集中的異味標(biāo)簽均來自于文獻(xiàn)［20］，最后，利用類名作為匹配鍵合并度量與異味標(biāo)簽，得到一個(gè)含有14 063 條樣本、78 個(gè)度量以及4 種代碼異味的數(shù)據(jù)集，數(shù)據(jù)集格式如圖3 所示。

2.2 數(shù)據(jù)歸一化

在模型構(gòu)建之前，通常需要將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一規(guī)格，或?qū)⒉煌植嫉臄?shù)據(jù)轉(zhuǎn)換成所需的特定分布，即數(shù)據(jù)需要無量綱化。文獻(xiàn)［34］指出數(shù)據(jù)歸一化不僅能夠增強(qiáng)分類器的性能，而且可以加快求解速度，提高模型的求解質(zhì)量。Min-Max 歸一化是最常用的數(shù)據(jù)歸一化方法，其對原始數(shù)據(jù)進(jìn)行線性變換，轉(zhuǎn)換公式如式（5）所示：

其中：Xmin和Xmax分別是第i個(gè)特征的最小值和最大值；X*的取值在[0,1]范圍內(nèi)。

2.3 混合特征選擇

使用原始的高維特征集不但會(huì)增加分類器的計(jì)算成本，還可能降低其識(shí)別性能，因此，需要使用特征選擇方法優(yōu)化特征數(shù)量。文獻(xiàn)［25］指出單一的特征選擇方法可能會(huì)在篩選特征的過程中忽略一些潛在信息，導(dǎo)致結(jié)果不穩(wěn)定。文獻(xiàn)［35］通過結(jié)合多種特征選擇方法來提高特征選擇的魯棒性。本文提出一種混合特征選擇方法，該方法結(jié)合ReliefF、XGBoost 特征重要性和Pearson 相關(guān)系數(shù)這3 種常見的特征選擇方法，計(jì)算出特征權(quán)重并進(jìn)行融合，然后去除權(quán)重值較低的無關(guān)特征。在對特征權(quán)重向量融合的過程中，需要確保不同方法所生成的權(quán)重具有可比性，因此，在此之前需對權(quán)重向量進(jìn)行Min-Max歸一化。本文混合特征選擇方法的輸入是歸一化后的數(shù)據(jù)集，輸出是特征子集，具體步驟如下：

步驟1由ReliefF、XGBoost特征重要性和Pearson相關(guān)系數(shù)分別生成含有所有特征的權(quán)重向量。

由ReliefF 得到的權(quán)重向量為：

由XGBoost 特征重要性得到的權(quán)重向量為：

由Pearson 相關(guān)系數(shù)得到的權(quán)重向量為：

步驟2利用融合策略，將通過3 種特征選擇方法得到的權(quán)重向量進(jìn)行合并，融合策略為：

步驟3將特征權(quán)重融合后的值按從高到低降序排列，刪除權(quán)重值較低的后20%的特征，這些特征與分類標(biāo)簽的相關(guān)性較弱。

不同特征選擇方法的側(cè)重點(diǎn)不同，將它們結(jié)合可能會(huì)在特征空間中產(chǎn)生更好的表示以描述數(shù)據(jù)，從而彌補(bǔ)單一特征選擇方法偏向某一方面的缺陷。本文方法能在一定程度上減少無關(guān)特征，避免有效特征信息損失，以達(dá)到降低計(jì)算成本并提高后續(xù)算法性能的目的。

2.4 Stacking 集成學(xué)習(xí)模型構(gòu)建

為了更好地檢測代碼異味，避免單一模型泛化性能不佳的問題，本文構(gòu)建一種兩層結(jié)構(gòu)的Stacking集成學(xué)習(xí)模型。該模型的第一層由異構(gòu)基分類器構(gòu)成，這些基分類器需要具有較高的準(zhǔn)確性以及多樣性，為此本文使用LGB（LightGBM）、XGB（XGBoost）和RF（Random Forest）這3 種理論較成熟的模型，它們之間具有一定差異，能通過使用不同的學(xué)習(xí)策略來從不同角度和空間學(xué)習(xí)特征，實(shí)現(xiàn)模型間的互補(bǔ)，從而提升Stacking 集成學(xué)習(xí)模型的整體性能。

第一層采用K 折交叉驗(yàn)證對基分類器進(jìn)行訓(xùn)練，即將數(shù)據(jù)隨機(jī)劃分成K 份，其中的K?1 份作為訓(xùn)練集，剩余的1 份作為測試集，重復(fù)K 次。由于代碼異味數(shù)據(jù)集大多呈不平衡狀態(tài)，因此本文在此層的每一折中都應(yīng)用分層抽樣，以保證代碼異味的分布與原始訓(xùn)練集中的分布相同［23］。

第二層元分類器的輸入不再是原始數(shù)據(jù)的特征，而是各基分類器的預(yù)測結(jié)果合并變換后的數(shù)據(jù)。文獻(xiàn)［36］指出基分類器使用復(fù)雜的非線性變換提取數(shù)據(jù)特征，容易過擬合，元分類器無需使用復(fù)雜的分類器，因此，本文使用與其相同的分類器LR（Logistic Regression），該分類器通常被用來處理二分類問題，其結(jié)構(gòu)簡單且可以通過正則化進(jìn)一步防止過擬合。

本文所構(gòu)建的Stacking 集成學(xué)習(xí)模型流程如圖4 所示。

圖4 Stacking 集成學(xué)習(xí)模型流程Fig.4 The procedure of Stacking ensemble learning model

3 實(shí)驗(yàn)結(jié)果與分析

本節(jié)在4 個(gè)項(xiàng)目上驗(yàn)證混合特征選擇和集成學(xué)習(xí)驅(qū)動(dòng)的代碼異味檢測方法的有效性，主要解決如下4 個(gè)問題：

Q1：哪些機(jī)器學(xué)習(xí)模型能夠在本文所檢測的代碼異味中取得良好的表現(xiàn)？

Q2：混合特征選擇方法是否有效？

Q3：Stacking 集成學(xué)習(xí)模型能否提高代碼異味檢測的性能？

Q4：與其他方法相比，本文所提方法是否具有優(yōu)勢？

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)環(huán)境設(shè)置：操作系統(tǒng)為Windows 10，處理器為Intel?CoreTMi7-8550U @1.80 GHz，內(nèi)存為16 GB，實(shí)驗(yàn)工具為Jupyter Notebook，編程語言為Python。在實(shí)驗(yàn)過程中，采用10×5 折交叉驗(yàn)證的方式進(jìn)行驗(yàn)證，即取10 次5 折交叉驗(yàn)證的平均值，以確保結(jié)論的可靠性。

3.2 評價(jià)指標(biāo)

由于本文構(gòu)建的模型是用于檢測模塊中是否含有代碼異味，屬于二分類問題，因此模型性能的好壞可以通過混淆矩陣展現(xiàn)，混淆矩陣如表4 所示。

表4 混淆矩陣Table 4 Confusion matrix

混淆矩陣中各元素的含義分別為：1）TTP（True Positive）：正確識(shí)別為異味的異味樣本數(shù)；2）TTN（True Negative）：正確識(shí)別為無異味的無異味樣本數(shù)；3）FFN（False Negative）：錯(cuò)誤識(shí)別為無異味的異味樣本數(shù)；4）FF（PFalse Positive）：錯(cuò)誤識(shí)別為異味的無異味樣本數(shù)。

由混淆矩陣衍生出多種評價(jià)指標(biāo)，為了更直觀地評估本文方法的性能，考慮F-measure 和G-mean這2 種指標(biāo)，F(xiàn)-measure 和G-mean 均含有精確率（Precision）和召回率（Recall）。

Precision 表示預(yù)測為異味的樣本中真正為異味的樣本占比，如式（10）所示：

Recall 表示正確預(yù)測為有異味的樣本占真實(shí)異味樣本的比例，如式（11）所示：

F-measure 是一個(gè)綜合評價(jià)指標(biāo)，因?yàn)镻recision和Recall 會(huì)出現(xiàn)相互矛盾的狀況，存在一定的局限性，難以單獨(dú)用于評價(jià)分類性能，因此，必須綜合考慮這兩者。F-measure 是Precision 和Recall 的加權(quán)調(diào)和平均值，其值越大，則模型性能較好。F-measure計(jì)算如式（12）所示：

代碼異味數(shù)據(jù)集通常呈現(xiàn)類不平衡狀態(tài)，G-mean 指標(biāo)能夠更直觀地評價(jià)類不平衡性能，其計(jì)算如式（13）所示：

3.3 結(jié)果分析

1）解決Q1 問題。

表5 所示為XGB（XGBoost）、LGB（LightGBM）、隨機(jī)森林（RF）、決策樹（DT）、K 最近鄰（KNN）和樸素貝葉斯（NB）這6 種機(jī)器學(xué)習(xí)模型在不同代碼異味上的檢測性能，最優(yōu)結(jié)果加粗表示。從表5 可以看出，綜合性能排在前三的模型為XGB、LGB 和RF，它們都是基于樹的模型，與文獻(xiàn)［37］中的結(jié)論相符，即基于樹的模型在代碼異味檢測中都有著良好的表現(xiàn)。分析表中的數(shù)據(jù)可以發(fā)現(xiàn)，在LC、CDSBP、LPL這3 種代碼異味上XGB 表現(xiàn)最好，而LGB 在LM 這一種異味上優(yōu)于其他模型，由此可得，并沒有一種模型適合檢測所有的代碼異味。因此，本文選擇XGB、LGB 和RF 作為后續(xù)Stacking 集成學(xué)習(xí)模型的基分類器，以避免單一模型泛化性能不佳的問題。

表5 不同分類器的代碼異味檢測結(jié)果Table 5 Code smell detection results of different classifiers

2）解決Q2 問題。

表6 所示為特征選擇前后XGB、LGB 和RF 模型在不同代碼異味上的F-measure 對比結(jié)果。從表6可以看出，在多數(shù)情況下，特征選擇前后的F-measure 值相差不大，由此可得數(shù)據(jù)集中存在無關(guān)特征，去除這些無關(guān)特征并不會(huì)對結(jié)果造成影響。

表6 特征選擇前后模型的F-measure 值對比Table 6 Comparison of F-measure values of models before and after feature selection

圖5 所示為所選機(jī)器學(xué)習(xí)模型在4 種代碼異味數(shù)據(jù)集上進(jìn)行特征選擇前后的平均訓(xùn)練時(shí)間，即進(jìn)行一次5 折交叉驗(yàn)證的時(shí)間。從圖5 可以看出，XGB、LGB 與RF 在特征選擇后的平均訓(xùn)練時(shí)間相較特征選擇前都有所降低，其中，XGB 下降幅度最大，RF 其次，下降幅度最小的是LGB。以XGB 為例，在特征選擇前，其在4 種代碼異味數(shù)據(jù)集上的訓(xùn)練時(shí)間為31.23 s，而經(jīng)過特征選擇后，訓(xùn)練時(shí)間減少至26.18 s，時(shí)間縮短效率為16.17%。由此可見，特征選擇在確保F-measure 的同時(shí)能夠在一定程度上縮短模型的訓(xùn)練時(shí)間。

圖5 特征選擇前后模型的平均訓(xùn)練時(shí)間對比Fig.5 Comparison of average training time of models before and after feature selection

3）解決Q3 問題。

從表7 可以看出，相較單一模型，Stacking 集成學(xué)習(xí)模型在特征選擇后的數(shù)據(jù)中都能夠取得良好的分類性能，在F-measure 和G-mean 評價(jià)指標(biāo)上均有一定提升。經(jīng)分析，Stacking 集成學(xué)習(xí)模型優(yōu)于單一模型的原因如下：Stacking 集成學(xué)習(xí)模型能夠結(jié)合多樣化的模型，這些模型能夠從不同角度來觀測數(shù)據(jù)，從而充分發(fā)揮每一種模型的優(yōu)勢，同時(shí)屏除分類結(jié)果較差的部分，以糾正單一模型的預(yù)測偏差；從模型優(yōu)化的角度來看，單一模型在訓(xùn)練過程中可能會(huì)有陷入局部最優(yōu)的風(fēng)險(xiǎn)，導(dǎo)致其泛化性能不佳，而集成多種模型可以減少此類風(fēng)險(xiǎn)發(fā)生的概率［38］；Stacking集成學(xué)習(xí)模型通常為兩層結(jié)構(gòu)，第二層結(jié)構(gòu)能糾正第一層結(jié)構(gòu)產(chǎn)生的誤差，從而提高模型的分類精度。

表7 特征選擇后單一模型和Stacking 集成學(xué)習(xí)模型的性能比較Table 7 Performance comparison of single model and Stacking ensemble learning model after feature selection

4）解決Q4 問題。

將本文模型與文獻(xiàn)［39］模型、文獻(xiàn)［40］模型以及異構(gòu)集成學(xué)習(xí)中的Voting 模型進(jìn)行比較，這些對比模型均采用本文的數(shù)據(jù)集，以確保可比性。針對文獻(xiàn)［39］模型，使用自編碼器將原始數(shù)據(jù)降至與本文特征選擇后相同的維度，而對于文獻(xiàn)［40］模型以及Voting 模型，均使用本文特征選擇后的數(shù)據(jù)，并將Voting 模型中的基分類器與本文中的Stacking 模型保持一致，即XGB、LGB 和RF。從表8 可以看出，文獻(xiàn)［39］模型和文獻(xiàn)［40］模型的性能指標(biāo)均低于本文模型，而Voting 模型僅在檢測LM 代碼異味時(shí)略優(yōu)于本文模型，由此可見，本文模型具有良好的魯棒性。

表8 不同模型的性能比較Table 8 Performance comparison of different models

4 結(jié)束語

本文提出一種混合特征選擇和集成學(xué)習(xí)驅(qū)動(dòng)的代碼異味檢測方法，其融合由多種特征選擇方法得到的特征權(quán)重以去除無關(guān)特征，同時(shí)利用Stacking集成學(xué)習(xí)模型結(jié)合多種單一機(jī)器學(xué)習(xí)模型的優(yōu)勢來提升最終的分類性能。實(shí)驗(yàn)結(jié)果表明，使用混合特征選擇和集成學(xué)習(xí)方法能夠取得較好的代碼異味檢測結(jié)果，即本文所提檢測方法具有有效性。代碼異味通常都呈類不平衡狀態(tài)，可能會(huì)對檢測結(jié)果產(chǎn)生一定影響從而降低模型的性能，可利用采樣技術(shù)來平衡代碼異味數(shù)據(jù)集，因此，下一步將求證該技術(shù)在代碼異味檢測中是否有效，并使用模型可解釋性方法探究采樣技術(shù)對代碼異味預(yù)測模型性能的影響。此外，本文僅使用了產(chǎn)品度量，加入過程度量后是否能提高分類精度也是今后的一個(gè)研究課題。