黃 祥,王紅星,顧 徐,孟 悅,王浩羽
一種新的基于特殊離群樣本優(yōu)化的三維點(diǎn)云特征選擇算法
黃 祥,王紅星,顧 徐,孟 悅,王浩羽
(江蘇方天電力技術(shù)有限公司,江蘇 南京 211102)
隨著元宇宙、數(shù)字孿生、虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)等前沿技術(shù)的快速發(fā)展,三維點(diǎn)云在電力、建筑、先進(jìn)制造等行業(yè)中得到廣泛應(yīng)用,隨之而來的,如何降低三維點(diǎn)云數(shù)據(jù)冗余度、有效進(jìn)行點(diǎn)云特征選擇,已在充分利用海量點(diǎn)云數(shù)據(jù)中扮演著關(guān)鍵角色??紤]到現(xiàn)有大多數(shù)三維點(diǎn)云特征選擇算法忽略了特定樣本在特征評(píng)估中的表現(xiàn),提出一種新的有監(jiān)督特征選擇算法,即基于特殊離群樣本優(yōu)化的特征選擇算法(FSSO)。具體地,為獲得精準(zhǔn)的特殊離群樣本(SOs),F(xiàn)SSO優(yōu)化均值中心并動(dòng)態(tài)地界定類簇主體;計(jì)算SOs的類內(nèi)相對(duì)偏離程度,通過減小類內(nèi)相對(duì)偏離對(duì)特征進(jìn)行打分,實(shí)現(xiàn)特征選擇過程。在3個(gè)公共的三維點(diǎn)云模型分類數(shù)據(jù)集上(ModelNet40,IntrA,ShapeNetCore)的實(shí)驗(yàn),以及4個(gè)高維人工特征數(shù)據(jù)集的驗(yàn)證實(shí)驗(yàn)結(jié)果表明,相較于其他特征選擇算法,F(xiàn)SSO可選擇出具有更強(qiáng)分類能力的特征子集,并提升分類準(zhǔn)確率。
三維點(diǎn)云數(shù)據(jù);有監(jiān)督特征選擇;特殊離群樣本;類內(nèi)相對(duì)偏離程度;分類
三維點(diǎn)云數(shù)據(jù)分析旨在從無序、非結(jié)構(gòu)化的三維數(shù)據(jù)中解構(gòu)出有用信息,是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域中的熱點(diǎn)問題[1-2]。在諸如元宇宙、數(shù)字孿生、數(shù)字城市、虛擬現(xiàn)實(shí)等現(xiàn)實(shí)應(yīng)用中,不同技術(shù)手段獲取的三維點(diǎn)云數(shù)據(jù)往往含有大量冗余特征,增加了點(diǎn)云數(shù)據(jù)分析和解讀的難度。特征選擇是從原始特征集中選出有識(shí)別力的特征子集,不僅可以有效地降低數(shù)據(jù)維度,還能提升對(duì)樣本的表征能力,是點(diǎn)云數(shù)據(jù)分析的有效手段。
根據(jù)是否依賴樣本的類別標(biāo)簽,特征選擇算法可以分為:有監(jiān)督、無監(jiān)督和半監(jiān)督特征選擇[3]。有監(jiān)督特征選擇方法又可以進(jìn)一步劃分成過濾式、包裹式和嵌入式。其中,過濾式模型不依賴任何分類器的表現(xiàn),通過衡量訓(xùn)練樣本的本質(zhì)屬性對(duì)各特征進(jìn)行評(píng)分,因此計(jì)算效率很高。包裹式模式基于隨機(jī)搜索序列,需要依據(jù)分類結(jié)果選擇得分最高的特征子集,故計(jì)算量較大。嵌入式模型將特征選擇問題與分類問題結(jié)合成單一目標(biāo)規(guī)劃問題,雖然相較于包裹式模型,其計(jì)算成本大大降低,但仍不及過濾式模型??紤]到三維點(diǎn)云數(shù)據(jù)含有豐富的內(nèi)在屬性,且數(shù)據(jù)規(guī)模較大,因此本文設(shè)計(jì)采用過濾式模型的特征選擇算法。
此外,大多數(shù)特征選擇算法將數(shù)據(jù)庫中的每個(gè)樣本均視為同等重要。但在實(shí)際應(yīng)用中,某些特定樣本如離群(outliers),往往隱含更有價(jià)值的信息待挖掘。如圖1所示,類別“aneurysm”(記為類別1)中有一些樣本,如1(k1),表現(xiàn)為遠(yuǎn)離所屬類內(nèi)大多數(shù)樣本,卻進(jìn)入到了類別“blood vessel”(記為類別2)中。顯而易見,從信息論的角度而言,相較于普通樣本2(k1),形如1(k1)這類特殊離群樣本信息熵大,含有更多有價(jià)值的信息,理應(yīng)在特征選擇過程中獲得更多關(guān)注。
通過上述分析可以發(fā)現(xiàn),為實(shí)現(xiàn)基于特殊離群優(yōu)化的特征選擇算法,需解決如何準(zhǔn)確地獲取特殊離群樣本(specific outliers,SOs)和基于SOs的特性進(jìn)行特征選擇2個(gè)問題。本文基于SOs表現(xiàn),提出了一種有監(jiān)督、濾波式的,基于特殊離群樣本優(yōu)化的特征選擇(feature selection based on specific outliers,F(xiàn)SSO)算法。首先,相較于常見的類均值中心,F(xiàn)SSO采用去除部分離群樣本后,計(jì)算剩余樣本的均值作為優(yōu)化的類中心;然后,利用該優(yōu)化的均值中心,計(jì)算各類中的SOs;最后,計(jì)算SOs的類內(nèi)相對(duì)偏離程度,并引進(jìn)具有統(tǒng)計(jì)意義的樣本正態(tài)分布3原則作為可調(diào)節(jié)閾值,將超過閾值的大片特征視為冗余特征,從候選特征集中篩除。基于3個(gè)不同類型的大規(guī)模點(diǎn)云模型數(shù)據(jù)集(ModelNet40,IntrA,ShapeNetCore),以及4個(gè)高維人工特征數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),本文提出的FSSO算法相比其他特征選擇算法,能夠選出有較強(qiáng)識(shí)別力的特征子集、并提高了分類準(zhǔn)確率。
圖1 三維點(diǎn)云分類數(shù)據(jù)集IntrA中的特殊離群樣本x1(k1)
隨著深度學(xué)習(xí)的發(fā)展,出現(xiàn)了許多使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行點(diǎn)云分類的工作。CHARLES等[4]提出的PointNet是將多層感知機(jī)用于點(diǎn)云分析,但其無法獲取完整局部特征信息及學(xué)習(xí)鄰接點(diǎn)間關(guān)系。QI等[5]隨后提出的PointNet++則解決了提取點(diǎn)云局部特征的問題。后續(xù)研究者繼續(xù)提出了更多的基于PointNet++框架的點(diǎn)云分類網(wǎng)絡(luò),其中代表的工作有PointWeb[6],So-Net[7]和Grid-GCN[8]等。
本文的工作是基于三維點(diǎn)云特征選擇,因此實(shí)驗(yàn)時(shí)只使用點(diǎn)云分類網(wǎng)絡(luò)中的特征提取層的輸出作為后續(xù)特征選擇算法的輸入。點(diǎn)云特征提取有CurveNet[9]網(wǎng)絡(luò),其連接點(diǎn)(曲線)序列首先通過點(diǎn)云進(jìn)行引導(dǎo)式步行分組,然后再重新聚合以增強(qiáng)其逐點(diǎn)的特征。3DMedPT[10]是專門針對(duì)醫(yī)療點(diǎn)云的基于注意力的深度網(wǎng)絡(luò)模型,在查詢中增加上下文信息和總結(jié)本地響應(yīng),并在注意力模塊中捕獲本地上下文和全局內(nèi)容特征交互。DGCNN[11]中的EdgeConv可以在保持點(diǎn)云排列不變性的情況下,提取點(diǎn)云局部形狀的特征。
然而,通過深度神經(jīng)網(wǎng)絡(luò)從三維點(diǎn)云數(shù)據(jù)中提取的高維特征不可避免包含冗余特征,會(huì)直接影響分類的準(zhǔn)確率。因此,對(duì)三維點(diǎn)云特征進(jìn)行特征選擇以提升后續(xù)分類器的準(zhǔn)確率是有實(shí)際價(jià)值的。
根據(jù)是否使用樣本的標(biāo)簽信息,特征選擇算法可分為無監(jiān)督、半監(jiān)督、有監(jiān)督3類。由于無標(biāo)簽信息,即無監(jiān)督方法通常使用數(shù)據(jù)的相似度、數(shù)據(jù)重建誤差等準(zhǔn)則來評(píng)估特征的重要程度[12]。半監(jiān)督方法的動(dòng)機(jī)是使用少量的有標(biāo)簽數(shù)據(jù)作為無監(jiān)督方法的補(bǔ)充信息來提升方法的性能,其適用于小樣本問題。Fisher算法[13]是一種常見的特征選擇算法,可計(jì)算全體樣本的類內(nèi)方差和類間偏離程度,將兩者的比值作為特征的得分。ReliefF[14]算法根據(jù)樣本以及鄰近樣本的相關(guān)性來評(píng)價(jià)特征。量化MI[15]算法利用量化的離散變量計(jì)算信息熵,是十分適用于大規(guī)模超高維的數(shù)據(jù)集。ILFS[16]是全部可能的特征子集的得分。TRC[17]優(yōu)化了特征子集的得分準(zhǔn)則。在半監(jiān)督和無監(jiān)督方法范疇下,RLSR[18]利用重新調(diào)節(jié)的回歸系數(shù)來對(duì)特征進(jìn)行評(píng)估;Inf-FS[19]將特征視為全連接圖上的節(jié)點(diǎn);LRLMR[20]將潛在的代表行學(xué)習(xí)嵌入進(jìn)無監(jiān)督特征選擇;DGUFS[21]基于L2,0范數(shù)設(shè)計(jì)了無映射特征選擇模型。然而,上述方法對(duì)特征的評(píng)估準(zhǔn)則均基于數(shù)據(jù)庫中全部樣本的表現(xiàn),而忽略了一些特殊樣本對(duì)特征評(píng)分的影響。為公平起見,本文重點(diǎn)關(guān)注有監(jiān)督特征選擇算法。但為了更加全面地驗(yàn)證本文提出的FSSO方法,半監(jiān)督和無監(jiān)督特征選擇算法也參與了實(shí)驗(yàn)比較。
圖2為FSSO算法的總體框架。
圖2 FSSO算法的總體框架
一般特征選擇方法基于全部樣本計(jì)算類均值中心,由于特殊離群樣本不能準(zhǔn)確地反映類簇的主要特性,使用其得到的均值中心往往會(huì)偏向于離群樣本聚集的區(qū)域,從而影響特征評(píng)分(圖3)。
圖3 常見的均值中心和優(yōu)化的均值中心比較
本文三維點(diǎn)云類中心計(jì)算方法的關(guān)鍵步驟為:
(2) 基于剩余樣本計(jì)算各類均值中心。根據(jù)上述公式和定義,三維點(diǎn)云優(yōu)化的類中心計(jì)算算法為:
算法1.三維點(diǎn)云的類中心計(jì)算算法。
輸入:各類樣本集(k),= 1, 2,···,;各類的樣本總數(shù)n;參數(shù)。
輸出:優(yōu)化的類均值中心(k),=1, 2,···,。
for=1, 2,···,do
顯然,由于在計(jì)算三維點(diǎn)云類中心時(shí)排除了離群者,此優(yōu)化類均值中心能更加準(zhǔn)確地代表類別的特性,且不受離群樣本影響。
本文受文獻(xiàn)[22]采用方向性離群樣本的特征選擇算法的啟發(fā),提出了基于上述特殊離群樣本優(yōu)化的特征選擇算法,并將直接篩除冗余特征的優(yōu)化操作用于計(jì)算各個(gè)特征的得分,從而更加精準(zhǔn)地實(shí)現(xiàn)對(duì)特征的選擇。即將={1,2,···,}記為初始特征集合。
基于上述公式和分析,三維點(diǎn)云特征選擇算法為:
算法2:基于SOs的特征選擇算法。
輸入:參數(shù);選擇的特征數(shù)。
輸出:經(jīng)選擇的特征集合。
初始化={1,2,···,};
do
6. 最終選擇得分最高的個(gè)特征。
本文實(shí)驗(yàn)選擇在3個(gè)開源的大規(guī)模三維點(diǎn)云分類數(shù)據(jù)集(ModelNet40,IntrA,ShapeNetCore)上進(jìn)行實(shí)驗(yàn),分別與5種方法進(jìn)行了比較,并使用評(píng)價(jià)指標(biāo)——分類準(zhǔn)確率進(jìn)行評(píng)估對(duì)比。此外,為論證FSSO的適用性,還在4個(gè)高維人工特征數(shù)據(jù)集(USPS,TOX_171,lymphoma,CLL_SUB_111)上進(jìn)行了驗(yàn)證。
ModelNet40[23]是人造物體點(diǎn)云數(shù)據(jù)集,包含12 311個(gè)物體,涵蓋40個(gè)類別。遵循官方提供的實(shí)驗(yàn)設(shè)置,其中9 843個(gè)物體用于訓(xùn)練,剩余的2 468個(gè)物體用于測試。對(duì)該數(shù)據(jù)集使用CurveNet[9]進(jìn)行特征提取,取網(wǎng)絡(luò)分類層的輸入作為提取的樣本特征,維數(shù)為2 048。
IntrA[24]是一個(gè)二分類的顱內(nèi)動(dòng)脈瘤的3D數(shù)據(jù)集,包含正常的血管片段和動(dòng)脈瘤片段共2 025個(gè)樣本。實(shí)驗(yàn)設(shè)置遵循五折交叉驗(yàn)證方式。采用3DMedPT[10]對(duì)IntrA數(shù)據(jù)集進(jìn)行特征提取,取網(wǎng)絡(luò)分類層的輸入作為提取的樣本特征,相應(yīng)特征維數(shù)為512。
ShapeNetCore[25]數(shù)據(jù)集包含51 300個(gè)三維模型,覆蓋55個(gè)類別。依據(jù)官方提供的實(shí)驗(yàn)設(shè)置,該數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測試集分別含35 708,5 158和10 261個(gè)樣本,其中驗(yàn)證集僅在訓(xùn)練深度模型時(shí)用到,保存驗(yàn)證集上表現(xiàn)最好的模型參數(shù)。使用DGCNN[11]對(duì)ShapeNetCore數(shù)據(jù)集進(jìn)行特征提取,取網(wǎng)絡(luò)分類層的輸入作為提取到的樣本特征,相應(yīng)的維數(shù)為512。
這里CurveNet,3DMedPT和DGCNN均作為三維點(diǎn)云樣本的特征提取器,提取到的特征直接作為特征選擇算法的輸入。
此外,為充分地驗(yàn)證FSSO的有效性,還在4個(gè)高維/較大規(guī)模手工特征數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):USPS,是手寫體數(shù)據(jù)集,含9 298個(gè)樣本,涵蓋0~9是個(gè)類別,特征維數(shù)是256;TOX_171,是生物數(shù)據(jù)集,涵蓋4個(gè)的共171個(gè)樣本,特征維數(shù)是5 748;lymphoma,是生物基因數(shù)據(jù)集,有來自 9個(gè)類別的96個(gè)樣本,維數(shù)是4 026;CLL_SUB_111是基因數(shù)據(jù)集,共111個(gè)樣本,來自3個(gè)類別,特征維數(shù)是11 340。
表1展示了9種對(duì)比方法和基準(zhǔn)方法(Baseline)的相關(guān)信息,其中基準(zhǔn)方法指所有原始特征均被選擇。,,,分別代表樣本數(shù)、特征維數(shù)、類別數(shù)和算法的迭代次數(shù)。
表1 本文實(shí)驗(yàn)涉及到的對(duì)比方法的基本信息
表1還給出各算法的時(shí)間復(fù)雜度,其數(shù)據(jù)均來自其參考文獻(xiàn),若未提及,則用符號(hào)“-”替代。本文FSSO的時(shí)間復(fù)雜度包含2個(gè)部分,一是優(yōu)化的類均值中心算法的時(shí)間復(fù)雜度,需要()的時(shí)間;二是基于類內(nèi)相對(duì)偏離的特征選擇算法的時(shí)間復(fù)雜度。該特征選擇算法基于特殊離群樣本的類內(nèi)相對(duì)偏離,考慮到一個(gè)數(shù)據(jù)庫中的離群樣本數(shù)遠(yuǎn)小于樣本總數(shù),因此特征選擇算法需要的時(shí)間小于(),那么FSSO的時(shí)間復(fù)雜度則最多為(+)。對(duì)于大多數(shù)的三維點(diǎn)云數(shù)據(jù)集,F(xiàn)SSO方法的時(shí)間損耗是可接受的。
本文實(shí)驗(yàn)采用2種常見的分類器驗(yàn)證分類效果,即:線性支持向量機(jī)(support vector machine,SVM)和K-近鄰分類器(K-nearest neighbor algorithm,KNN)。其中,設(shè)置KNN分類器的參數(shù)為=2,3,···,10,并選取最高分類準(zhǔn)確率作為最終的結(jié)果。
遵循文獻(xiàn)[22,26]的工作,本文對(duì)所有方法采用網(wǎng)格搜索法,選擇不同百分比下的特征數(shù)并計(jì)算相應(yīng)的分類準(zhǔn)確率,將其中的全局最優(yōu)的結(jié)果作為實(shí)驗(yàn)結(jié)果展示。
表2為不同對(duì)比方法、不同分類器在三維點(diǎn)云數(shù)據(jù)集ModelNet40,IntrA和ShapeNetCore上的全局最優(yōu)分類結(jié)果。值得注意的是,由于TRC,DGUFS和LRMLR涉及計(jì)算求逆矩陣或成對(duì)樣本之間的距離,計(jì)算成本十分巨大,故不使用LRMLR對(duì)樣本數(shù)超過50 000的大規(guī)模數(shù)據(jù)集ShanpeNetCore進(jìn)行實(shí)驗(yàn)。圖4為在ModelNet40,IntrA和ShapeNetCore上,當(dāng)選擇不同百分比特征數(shù)時(shí)得到的分類準(zhǔn)確率,5種進(jìn)行比較的方法為:ReliefF,MI,ILFS,RLSR和Inf-FS。注意到,由于二分類數(shù)據(jù)集IntrA的2個(gè)類別下的樣本數(shù)差別巨大,因此,基于SOs篩選特征的FSSO算法會(huì)在類內(nèi)偏離不再減小時(shí)自動(dòng)停止特征選擇,故在圖4(c)和(d)中,分別選擇前65%,70%,···,95%特征數(shù)進(jìn)行比較。顯然對(duì)于3種數(shù)據(jù)集,本文的FSSO算法位于其他對(duì)比方法的上方,說明FSSO選擇出的特征子集表現(xiàn)更好,能獲得更高的分類準(zhǔn)確率。此外,還可以得到如下結(jié)論:
(1) 表2展示的在全部數(shù)據(jù)集上、無論何種分類器,F(xiàn)SSO算法得到的分類準(zhǔn)確率穩(wěn)定地優(yōu)于Baseline,這不僅說明對(duì)三維點(diǎn)云數(shù)據(jù)進(jìn)行特征選擇是十分有必要的,并且表明了FSSO算法能有效地選出有識(shí)別力的特征子集。反觀一些對(duì)比方法,如Inf-FS,DGUFS和LRMLR等,其分類表現(xiàn)普遍劣于Baseline;
(2) 相較于其他對(duì)比方法,F(xiàn)SSO選出的特征子集表現(xiàn)的更加出色,如,在ModelNet40上,F(xiàn)SSO+SVM (93.03%)比次佳的ReliefF+SVM (92.95%)多正確分類了3個(gè)樣本;在IntrA上,F(xiàn)SSO+KNN (96.99%)比次佳的ReliefF+KNN (96.94%)多正確分類了1個(gè)樣本。值得注意的是,對(duì)于像IntrA這樣的醫(yī)學(xué)影像數(shù)據(jù)集,正確分類樣本數(shù)的提高是具有實(shí)際應(yīng)用價(jià)值的;
(3) 結(jié)合圖4可以發(fā)現(xiàn),選擇50%~90%特征數(shù)時(shí),F(xiàn)SSO比其他對(duì)比方法有更加顯著地分類優(yōu)越性。這說明FSSO能夠優(yōu)先篩除冗余特征、更多地保留特征原始信息。
表2中有多個(gè)方法在ModelNet40和IntrA上取到了相同的全局最優(yōu)分類準(zhǔn)確率,因此在表3中列出了取得該準(zhǔn)確率時(shí)對(duì)應(yīng)的特征數(shù)。結(jié)合表3可以看到,在大多數(shù)情況下FSSO在選擇較少特征時(shí)已可以取得其全局最優(yōu)結(jié)果,這是因?yàn)樵贔SSO特征選擇過程中,最冗余的特征總是被最先找到并被賦予較小的得分,這種方式得到的特征評(píng)分相較于其他對(duì)比方法更加準(zhǔn)確。
表2 各方法在ModelNet40,IntrA,ShapeNetCore上的全局最優(yōu)分類準(zhǔn)確率(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
圖4 5種對(duì)比方法(ReliefF,MI,ILFS,RLSR和Inf-FS)與FSSO在不同特征數(shù)百分比下的分類準(zhǔn)確率比較
表3 各方法在取得最優(yōu)分類準(zhǔn)確率時(shí)的特征維數(shù)百分比(%)
表4給出了本文方法在4個(gè)高維/較大規(guī)模手工特征數(shù)據(jù)集上的結(jié)果??梢?,本文方法比其他特征選擇算法的分類準(zhǔn)確率更高,說明本文方法在高維和較大規(guī)模的手工特征數(shù)據(jù)集上仍然表現(xiàn)出較好的性能。
表4 在高維/大規(guī)模手工特征數(shù)據(jù)集上的全局最優(yōu)分類準(zhǔn)確率,采用SVM分類器(%)
注:加粗?jǐn)?shù)據(jù)為最優(yōu)值
使用SVM作為分類器對(duì)FSSO中的參數(shù)和進(jìn)行分析。由圖5可見,F(xiàn)SSO在5個(gè)數(shù)據(jù)集上的準(zhǔn)確率均較穩(wěn)定,而出現(xiàn)下降的情況集中在圖的四周,即當(dāng)或過大或過小時(shí),準(zhǔn)確率略有下降。圖5結(jié)果表明,F(xiàn)SSO對(duì)參數(shù)不敏感,當(dāng)參數(shù)在一個(gè)較大的范圍內(nèi)變化時(shí),F(xiàn)SSO的分類準(zhǔn)確率仍能保持穩(wěn)定。因此,ModelNet40上建議參數(shù)區(qū)間為?[0.7,0.9],?[3.8,4.2];IntrA建議為?[0.7,0.9],?[2,2.4];ShapeNetCore建議為?[0.7,0.9],?[8.2,8.6];TOX_171建議為?[0.5,0.7],?[2,2.2];CLL_SUB_111建議為?[0.9,1],?[1.6,1.8]。
圖5 不同參數(shù)組合下FSSO的比較結(jié)果(SVM分類器)
針對(duì)三維點(diǎn)云特征中包含大量冗余成分的問題,本文提出了一種新的特征選擇方法——基于特殊離群樣本優(yōu)化的特征選擇算法(FSSO)。首先計(jì)算優(yōu)化的均值中心,接著通過計(jì)算特殊離群樣本的類內(nèi)相對(duì)偏離程度給特征賦值并進(jìn)行篩選。與其他特征選擇算法相比,本文方法有2個(gè)顯著優(yōu)勢:①在3個(gè)廣泛使用的點(diǎn)云分類數(shù)據(jù)集和4個(gè)高維/大規(guī)模手工特征數(shù)據(jù)集上取得了最優(yōu)或接近最優(yōu)的準(zhǔn)確率,表明了本文方法有效地去除了冗余特征;②在一定范圍內(nèi)調(diào)節(jié)2個(gè)參數(shù),算法仍保持較高的準(zhǔn)確率,表明算法對(duì)參數(shù)不敏感。實(shí)驗(yàn)結(jié)果表明FSSO選擇出的特征能夠獲得更好地分類效果,且計(jì)算效率更高。后續(xù)工作將聚焦于設(shè)計(jì)出更加合理的類中心算法、設(shè)計(jì)更準(zhǔn)確的特殊離群樣本捕捉算法,以提升特征選擇算法的性能。
[1] 王文曦, 李樂林. 深度學(xué)習(xí)在點(diǎn)云分類中的研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(1): 26-40.
WANG W X, LI L L. Review of deep learning in point cloud classification[J]. Computer Engineering and Applications, 2022, 58(1): 26-40 (in Chinese).
[2] DENG S, FENG Y D, WEI M Q, et al. Direction-aware feature-level frequency decomposition for single image deraining[C]//The 13th International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2021: 650-656.
[3] 劉藝, 曹建軍, 刁興春, 等. 特征選擇穩(wěn)定性研究綜述[J]. 軟件學(xué)報(bào), 2018, 29(9): 2559-2579.
LIU Y, CAO J J, DIAO X C, et al. Survey on stability of feature selection[J]. Journal of Software, 2018, 29(9): 2559-2579 (in Chinese).
[4] CHARLES R Q, HAO S, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 77-85.
[5] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 5105-5114.
[6] ZHAO H, JIANG L, FU C, et al. Pointweb: Enhancing local neighborhood features for point cloud processing[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5565–5573.
[7] LI J, CHEN B, LEE G. So-net: self-organizing network for point cloud analysis[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9397-9406.
[8] XU Q, SUN X, WU C, et al. Grid-gcn for fast and scalable point cloud learning[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 5661-5670.
[9] XIANG T G, ZHANG C Y, SONG Y, et al. Walk in the cloud: learning curves for point clouds shape analysis[C]//2021 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2021: 895-904.
[10] YU J, ZHANG C, WANG H, et al. 3D medical point transformer: introducing convolution to attention networks for medical point cloud analysis[EB/OL]. [2022-01-04]. https://arxiv.org/abs/2112.04863.
[11] WANG Y, SUN Y, LIU Z, et al. Dynamic graph CNN for learning on point clouds[J]. Acm Transactions on Graphics, 2019, 38(5): 1-12.
[12] LI J D, TANG J L, LIU H. Reconstruction-based unsupervised feature selection: an embedded approach[C]//The 26th International Joint Conference on Artificial Intelligence. New York: ACM Press, 2017: 2159-2165.
[13] DUDA R O, HART P E, STORK D G. Pattern classification[M]. 2nd Edition. Boston: McGraw-Hill, 2001: 177-179.
[14] KONONENKO I. Estimating attributes: analysis and extensions of RELIEF[J]. European Conference on Machine Learning, 1994, 784: 171-182.
[15] ZHANG Y, WU J, CAI J. Compact representation of high-dimensional feature vectors for large-scale image recognition and retrieval[J]. IEEE Transactions on Image Processing, 2016, 25(5): 2407-2419.
[16] ROFFO G, MELZI S, CASTELLANI U, et al. Infinite latent feature selection: a probabilistic latent graph-based ranking approach[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 1407-1415.
[17] NIE F, XIANG S, JIA Y, et al. Trace ratio criterion for feature selection[C]//The 23th AAAI. Palo Alto: AAAI, 2008: 671-676.
[18] CHEN X J, NIE F P, YUAN G W, et al. Semi-supervised feature selection via rescaled linear regression[C]//The 26th International Joint Conference on Artificial Intelligence. New York: ACM Press, 2017: 1525-1531.
[19] ROFFO G, MELZI S, CRISTANI M. Infinite feature selection[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 4202-4210.
[20] TANG C, BIAN M, LIU X, et al. Unsupervised feature selection via latent representation learning and manifold regularization[J]. Neural Netw, 2019, 117: 163-178.
[21] GUO J, ZHU W W. Dependence guided unsupervised feature selection[EB/OL]. [2021-12-13]. https://zhuanlan.zhihu.com/p/ 37216951.
[22] YUAN L, YANG G, XU Q, et al. Discriminative feature selection with directional outliers correcting for data classification[J]. Pattern Recognition, 2022, 126: 108541.
[23] WU Z R, SONG S R, KHOSLA A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1912-1920.
[24] YANG X, XIA D, KIN T, et al. Intra: 3d intracranial aneurysm dataset for deep learning[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2656-2666.
[25] CHANG A, FUNKHOUSER T, GUIBAS L. Shapenet: an information-rich 3D model repository[EB/OL]. [2022-01-06]. https://arxiv.org/pdf/1512.03012.pdf.
[26] NIE F P, YANG S, ZHANG R, et al. A general framework for auto-weighted feature selection via global redundancy minimization[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2428-2438.
A new 3D point clouds feature selection method using specific outliers optimization
HUANG Xiang, WANG Hong-xing, GU Xu, MENG Yue, WANG Hao-yu
(Jiangsu Frontier Electric Power Technology Co., Ltd., Nanjing Jiangsu 211102, China)
With the rapid development of technologies in metaverse, digital twins, virtual and augmented reality, three-dimensional (3D) point clouds have been widely applied to electric power, construction, advanced manufacturing, and other industries. As a result, how to reduce the redundancies of 3D point clouds data and how to effectively select useful point cloud features have played a critical role in the full use of massive point clouds data. Considering that most of the current feature selection methods pay little attention to specific instances, in this paper, we proposed a novel supervised feature selection method, named feature selection based on specific outliers optimization (FSSO). Specifically, in order to obtain accurate specific outliers (SOs), we first optimized the traditional mean center of class, and automatically defined the class majority. Then, we proposed the feature selection algorithm that could compute the intra-class relative deviation of SOs, and score features based on the deviations. Extensive experiments on 3D data clouds classification datasets (ModelNet40, IntrA, and ShapeNetCore), and on four high-dimensional handcrafted datasets show that the proposed FSSO can select discriminative features, and improve the classification accuracy.
three-dimensional point clouds; supervised feature selection; specific outliers; intra-class relative deviation degree; classification
TP 391
10.11996/JG.j.2095-302X.2022050884
A
2095-302X(2022)05-0884-08
2022-04-02;
2022-06-22
2 April,2022;
22 June,2022
黃 祥(1990-),男,工程師,本科。主要研究方向?yàn)楦邏弘姎庠囼?yàn)、無人機(jī)電力巡檢作業(yè)及電力巡檢圖像識(shí)別等。E-mail:huangxiang1124@sohu.com
HUANG Xiang (1990-), engineer, bachelor. His main research interests cover include high-voltage electrical test, UAV power patrol operation and power patrol image recognition. E-mail:huangxiang1124@sohu.com