徐明迪 崔 峰
(武漢數(shù)字工程研究所 武漢 430205)
隨著網(wǎng)絡(luò)空間中攻防博弈日趨激烈,攻擊者滲透目標(biāo)系統(tǒng)的路徑變得更加復(fù)雜和隱蔽[1],僅依靠人工進(jìn)行分析和識(shí)別將難以應(yīng)對(duì)。ATT&CK模型[2]作為網(wǎng)絡(luò)攻防知識(shí)的一種“固化”,將其與網(wǎng)絡(luò)安全工具結(jié)合,例如蜜罐系統(tǒng)、態(tài)勢(shì)感知系統(tǒng),能夠提高網(wǎng)絡(luò)安全威脅分析的自動(dòng)化程度[3],提高安全威脅捕獲的效率。
ATT&CK 模型由MITRE 組織發(fā)布,在網(wǎng)絡(luò)安全防御方面有諸多應(yīng)用。國(guó)內(nèi)外對(duì)與ATT&CK 模型也開展了許多研究,其中楊萍等[4]通過對(duì)大量惡意代碼的詳細(xì)分析,總結(jié)惡意代碼各種行為事件實(shí)現(xiàn)的模式特征,基于ATT&CK 模型提出m-ATT&CK 模 型;潘 亞 峰 等[5]設(shè) 計(jì) 并 實(shí) 現(xiàn) 了 基 于ATT&CK的APT攻擊語(yǔ)義規(guī)則模型,用于識(shí)別和標(biāo)記攻擊行為;文獻(xiàn)[6]中對(duì)ATT&CK 模型中攻擊技術(shù)之間的關(guān)聯(lián)關(guān)系進(jìn)行研究。
上述研究都是圍繞ATT&CK模型展開,但沒有對(duì)模型應(yīng)用中的復(fù)雜性進(jìn)行考慮。本文針對(duì)ATT&CK 模型的應(yīng)用問題,提出一種基于凝聚層次的改進(jìn)聚類算法,對(duì)ATT&CK 技術(shù)集進(jìn)行聚類簡(jiǎn)化,提出一種將ATT&CK 技術(shù)集合量化的方法,并考慮到如何確定最佳聚類數(shù)據(jù)量的問題,將統(tǒng)計(jì)假設(shè)檢驗(yàn)與聚類算法結(jié)合,由統(tǒng)計(jì)假設(shè)確定最佳聚類數(shù)量。
應(yīng)用ATT&CK 模型進(jìn)行攻擊行為識(shí)別和標(biāo)記時(shí),從戰(zhàn)術(shù)層面和攻擊手法層面都不適合直接應(yīng)用。首先,ATT&CK 模型中戰(zhàn)術(shù)的抽象層次較高,在ATT&CK的企業(yè)版中包括的戰(zhàn)術(shù)有訪問初始化、執(zhí)行、常駐、提權(quán)、防御規(guī)避、訪問憑證、發(fā)現(xiàn)、橫向移動(dòng)、收集、數(shù)據(jù)獲取、命令和控制,可以看出上述的戰(zhàn)術(shù)作為網(wǎng)絡(luò)攻擊階段性的抽象描述,僅以戰(zhàn)術(shù)階段作為攻擊行為的標(biāo)簽不利于對(duì)攻擊行為的具體分析;其次ATT&CK 模型提供了一個(gè)包含440 項(xiàng)技術(shù)的集合,這個(gè)集合是作為不同類型攻擊所涉及技術(shù)的超集,但MITRE 僅為模型中部分技術(shù)提供了檢測(cè)規(guī)則描述,如果應(yīng)用ATT&CK模型進(jìn)行攻擊行為識(shí)別將無(wú)法做到全部覆蓋。因此本文在ATT&CK 模型的戰(zhàn)術(shù)和技術(shù)層之間增加一層劃分,解決戰(zhàn)術(shù)層過于抽象和技術(shù)層無(wú)法全覆蓋的問題。
在對(duì)ATT&CK 模型的技術(shù)集合應(yīng)用聚類算法進(jìn)行劃分前,需要研究解決三個(gè)問題。首先,如何將ATT&CK 技術(shù)集合量化為特征向量;其次,聚類數(shù)量如何確定,如何為ATT&CK的技術(shù)集合找到最佳的聚類數(shù)量;最后,在聚類算法將樣本聚類成k個(gè)簇后,如何確定得到的聚類結(jié)果具有意義。
針對(duì)上述的問題,本文提出一種基于凝聚層次聚類算法的改進(jìn),用于對(duì)ATT&CK模型的技術(shù)集合進(jìn)行聚類。算法改進(jìn)部分是,在聚類流程中加入統(tǒng)計(jì)假設(shè)檢驗(yàn)步驟,借助統(tǒng)計(jì)假設(shè)檢驗(yàn)結(jié)果完成對(duì)聚類結(jié)果的有效性檢驗(yàn),同時(shí)確定最佳聚類數(shù)量。本節(jié)中對(duì)ATT&CK 模型技術(shù)集合的聚類研究按照?qǐng)D1所示的流程進(jìn)行。
圖1 模型改進(jìn)流程
首先對(duì)聚類對(duì)象ATT&CK技術(shù)集合進(jìn)行量化,為聚類算法提供數(shù)據(jù)基礎(chǔ)。ATT&CK 模型中的技術(shù)均為文本數(shù)據(jù),需要將其轉(zhuǎn)化為向量數(shù)據(jù)集后才能應(yīng)用于聚類算法,MITRE 對(duì)于技術(shù)按照表1 中提供相關(guān)字段的組織技術(shù)的文本介紹(表中僅列出部分字段),雖然技術(shù)的介紹在整體上看是具有結(jié)構(gòu)的,但在不同字段內(nèi)文本內(nèi)容是非結(jié)構(gòu),受作者的寫作風(fēng)格等因素影響。
表1 ATT&CK模型中技術(shù)介紹
參考表1,可以看出與技術(shù)相關(guān)的數(shù)據(jù)大部分由文本組成。因此在考慮量化方法時(shí),首先考慮直接對(duì)于文本數(shù)據(jù)的量化,采用自然語(yǔ)言處理領(lǐng)域中常用的處理步驟,對(duì)文本數(shù)據(jù)進(jìn)行分詞、量化等處理[7],采用上述方法進(jìn)行量化存在兩方面的不足,首先不同技術(shù)描述文本受其作者的主觀因素影響較大;其次直接進(jìn)行分詞量化,因不同文本長(zhǎng)度不同得到的特征向量維度也不同,如果在實(shí)現(xiàn)過程中對(duì)不同向量維度進(jìn)行截?cái)嗷蛱畛?,可能?huì)丟失部分信息??紤]到上述不足,直接采用自然語(yǔ)言處理領(lǐng)域中的文本量化方式是不合適的。通過查閱文獻(xiàn),在本文中使用同樣由MITRE 提供Groups 知識(shí)庫(kù),完成對(duì)技術(shù)數(shù)據(jù)集的量化。
Groups 是一個(gè)用于整理網(wǎng)上公開入侵情報(bào)的知識(shí)庫(kù),其作用和貢獻(xiàn)主要是,在安全社區(qū)中確定一個(gè)通用、統(tǒng)一的名稱進(jìn)行入侵活動(dòng)的跟蹤,分析人員使用各種分析方法和術(shù)語(yǔ)跟蹤活動(dòng)集群,例如威脅組、威脅參與者、入侵集和活動(dòng)。
在量化過程中,本文主要使用表2中的技術(shù)/子技術(shù)字段,在Groups 知識(shí)庫(kù)中,每個(gè)APT 記錄視被為攻擊實(shí)例,并將每種技術(shù)均作為攻擊實(shí)例的組成屬性,其形式化表達(dá)如式(1)所示,式中tn代表ATT&CK模型中的技術(shù),T代表技術(shù)集合。
表2 Groups中攻擊實(shí)例描述
本文采用特征工程中的二值編碼方法。二值編碼是常用且易操作的量化方式,它只依據(jù)某個(gè)特征決定是否存在,來(lái)決定特征向量中對(duì)應(yīng)位置是1或0,而不是量化出現(xiàn)次數(shù)。借助Groups 知識(shí)庫(kù),將ATT&CK 模型中的技術(shù)統(tǒng)一映射為81 維向量,映射策略為向量中每個(gè)維度代表一個(gè)Groups 中的攻擊實(shí)例,如果該技術(shù)在攻擊實(shí)例中被使用,則該維度的值為1,反之則為0。經(jīng)過上述的映射方法處理后,數(shù)據(jù)集由離散的高維向量組成,特征的結(jié)果為0 或1,分別表示攻擊實(shí)例中某個(gè)技術(shù)的負(fù)面或正面發(fā)生。
在利用Groups知識(shí)庫(kù)量化的過程中,為了避免并產(chǎn)生誤導(dǎo)性的技術(shù)關(guān)聯(lián),本文中使用至少包含五種不同技術(shù)的攻擊實(shí)例進(jìn)行量化,在本節(jié)接下來(lái)的部分中對(duì)于ATT&CK 技術(shù)集合量化得到的向量數(shù)據(jù)集,均簡(jiǎn)稱為ATT&CK數(shù)據(jù)集。
對(duì)ATT&CK數(shù)據(jù)集進(jìn)行聚類趨勢(shì)評(píng)估,判斷其是否具備聚類的基礎(chǔ),保證聚類結(jié)果的合理性。聚類趨勢(shì)評(píng)估用于檢驗(yàn)樣本分布的空間隨機(jī)性,從而判斷數(shù)據(jù)是否可以聚類,進(jìn)行聚類趨勢(shì)評(píng)估的必要性是因?yàn)榧词乖跀?shù)據(jù)集中沒有顯著的組時(shí),聚類方法也經(jīng)??梢苑祷鼐垲惤Y(jié)果,無(wú)論類別下的樣本是否相關(guān)[8]。
在聚類趨勢(shì)評(píng)估中使用霍普金斯統(tǒng)計(jì)(Hopkins statistic)[9]方法,Hopkins 統(tǒng)計(jì)由Brian Hopkins和John Gordon Skellam 提出,是一種空間統(tǒng)計(jì)量,檢驗(yàn)空間分布的變量的空間隨機(jī)性,可以看作是對(duì)于給定的數(shù)據(jù)集D,它由隨機(jī)分布生成的概率。具體操作是將數(shù)據(jù)集D中的點(diǎn)之間的距離與從隨機(jī)模擬的數(shù)據(jù)集DR中得出的點(diǎn)之間的距離進(jìn)行比較。具體計(jì)算步驟如下所示,
1)隨機(jī)從D中抽取n個(gè)點(diǎn)p1,p2,…,pn,對(duì)每個(gè)點(diǎn)pi(1 ≤i≤n),找出pi在D中的最近鄰樣本點(diǎn),并令xi為pi與它在D中的最近鄰之間的距離。
2)隨機(jī)從DR中抽取n個(gè)點(diǎn)q1,q2,…,qn,對(duì)每個(gè)點(diǎn)qi(1 ≤i≤n),找出qi在DR中的最近鄰樣本點(diǎn),并令yi為qi與它在DR中的最近鄰之間的距離。
3)根據(jù)步驟1)、2)得到的結(jié)果,計(jì)算霍普金斯統(tǒng)計(jì)量。
在上述步驟中,D表示對(duì)ATT&CK 模型技術(shù)集合量化后得到的數(shù)據(jù)集,dist()為計(jì)算樣本間距離的函數(shù),函數(shù)中分別使用Jaccard 距離[10]和Phi系數(shù)[11]進(jìn)行計(jì)算得到不同距離,關(guān)于距離度量的選取說(shuō)明在3.3 節(jié)中進(jìn)一步進(jìn)行分析。在步驟1)、2)中,隨機(jī)數(shù)據(jù)集使用伯努利分布生成,結(jié)合數(shù)據(jù)集的性質(zhì)能保證是在樣本空間中均勻取點(diǎn)。對(duì)于式(4)的計(jì)算結(jié)果H,假設(shè)D是均勻分布的,缺乏聚類趨勢(shì)那么,H將約等于0.5。因此,如果H為0.5可以得出數(shù)據(jù)是均勻分布的、沒有任何有意義的聚類;假設(shè)D不是隨機(jī)分布且具有聚類趨勢(shì),那么H將約等于1;對(duì)于H約等于0 的情況,此時(shí)D可以被認(rèn)為既不是隨機(jī)也沒有聚類趨勢(shì)。
對(duì)ATT&CK 數(shù)據(jù)集使用Jaccard 距離和Phi 系數(shù)計(jì)算霍普金斯統(tǒng)計(jì)量,Jaccard 距離得到的HJ為0.59 和Phi 系數(shù)得到的HΦ為0.63。HΦ值高于HJ表明使用Phi 系數(shù)可以使ATT&CK 數(shù)據(jù)集具有更好的聚類趨勢(shì)。
凝聚分層聚類算法適用于查找具有最大相似性的集合,因?yàn)楸举|(zhì)上該算法是貪心策略的一種實(shí)現(xiàn),在聚類決策過程中,每一次聚類都是將目前最相似的兩個(gè)簇合并,直至聚類結(jié)束,從而保證得到聚類結(jié)果是最相似的。凝聚層次聚類算法首先得到樣本數(shù)據(jù)的多級(jí)分層,然后通過指定聚類數(shù)量k或截?cái)喔叨鹊玫阶罱K聚類結(jié)果。
在獲得ATT&CK數(shù)據(jù)集之后,可以使用層次聚類算法獲得最終樹狀圖,但仍然不能推斷出技術(shù)之間關(guān)聯(lián),因?yàn)樾枰_定樹的截?cái)喔叨龋醋詈蟮木垲悢?shù)量)。因此本文提出一種基于凝聚層次聚類算法的改進(jìn),在聚類流程中加入統(tǒng)計(jì)假設(shè)檢驗(yàn)步驟,借助統(tǒng)計(jì)假設(shè)檢驗(yàn)結(jié)果進(jìn)行聚類數(shù)量的選擇。
在統(tǒng)計(jì)假設(shè)檢驗(yàn)步驟中采用的零假設(shè)驗(yàn)證,通常是數(shù)據(jù)分析實(shí)驗(yàn)的一部分,指進(jìn)行統(tǒng)計(jì)檢驗(yàn)時(shí)預(yù)先建立假設(shè),零假設(shè)成立時(shí)有關(guān)統(tǒng)計(jì)量應(yīng)服從已知的某種概率分布,當(dāng)統(tǒng)計(jì)量的計(jì)算值落入否定域時(shí),可知發(fā)生了小概率事件,應(yīng)否定原假設(shè)[12]。
將統(tǒng)計(jì)假設(shè)檢驗(yàn)與聚類算法進(jìn)行結(jié)合,將ATT&CK 數(shù)據(jù)集產(chǎn)生的樹狀結(jié)構(gòu)與零分布產(chǎn)生的樹進(jìn)行比較來(lái)分析聚類的有效性,并允許在所需的置信度水平上推斷出統(tǒng)計(jì)上顯著的結(jié)果,統(tǒng)計(jì)假設(shè)檢驗(yàn)所用的數(shù)據(jù)集由隨機(jī)伯努利分布生成,產(chǎn)生的數(shù)據(jù)與ATT&CK數(shù)據(jù)集具有相同方差,隨機(jī)數(shù)據(jù)集上產(chǎn)生的空樹表示為T0。如果在指定的階段高度TD中的簇?cái)?shù)與T0的簇?cái)?shù)明顯不同,則聚類產(chǎn)生的結(jié)果將具有統(tǒng)計(jì)意義。具有統(tǒng)計(jì)意義的層次結(jié)構(gòu)樹的結(jié)果可以得出這樣的結(jié)論,即所產(chǎn)生的關(guān)聯(lián)不同于隨機(jī)產(chǎn)生的結(jié)果,從而為技術(shù)關(guān)聯(lián)提供了有效性基礎(chǔ)?;谀蹖哟尉垲惖母倪M(jìn)算法流程如下。
應(yīng)用聚類分析ATT&CK 數(shù)據(jù)集的過程是根據(jù)每個(gè)數(shù)據(jù)之間的相異度進(jìn)行劃分,因此選擇相異度的度量標(biāo)準(zhǔn)對(duì)于聚類結(jié)果有較大影響。在應(yīng)用中,聚類算法多使用特征空間中的歐式距離作為度量標(biāo)準(zhǔn)計(jì)算不同樣本之間的相異度[13]。當(dāng)使用歐式距離作為相異度測(cè)量時(shí),樣本之間的距離越小,則說(shuō)明兩者之間越相似,越有可能被劃分到同一個(gè)簇。聚類使用的相似性度量(或稱為距離度量)是在樣本數(shù)據(jù)上執(zhí)行,因此相似性度量方法隨樣本集性質(zhì)的不同而不同。因此必須對(duì)本文中使用的數(shù)據(jù)集中的變量使用合適的距離度量。歐式距離度量標(biāo)準(zhǔn)通常應(yīng)用于連續(xù)變量,而本文中的ATT&CK數(shù)據(jù)集具有離散性,因此需要考慮歐式距離以外的度量方法。
對(duì)于ATT&CK數(shù)據(jù)集的數(shù)據(jù)由二元變量組成,通過查閱文獻(xiàn)[6]確定Jaccard距離和Phi系數(shù)相關(guān)距離是最合適的。Jaccard 距離是用來(lái)衡量?jī)蓚€(gè)集合差異性的一種指標(biāo),Jaccard 距離是Jaccard 相似系數(shù)的補(bǔ)集,被定義為1減去Jaccard相似系數(shù),Jaccard 相似系數(shù)是用來(lái)衡量?jī)蓚€(gè)集合相似度的一種指標(biāo)。在用于本文中計(jì)算任何兩個(gè)技術(shù)Ti和Tj之間的Jaccard相似系數(shù)時(shí),定義如式(5)所示。
其中,需要n的下標(biāo)為兩個(gè)數(shù)字,從左至右分別代表Ti和Tj是否出現(xiàn),n11代表Ti和Tj出現(xiàn)在同一個(gè)APT 攻擊實(shí)例中的頻次,n01代表Ti不出現(xiàn)在某個(gè)APT 攻擊實(shí)例而Tj出現(xiàn)的頻次,n10與n01定義相反,在式(5)中Jaccard相似系數(shù)的計(jì)算不考慮n00的值。Jaccard距離度量技術(shù)Ti和Tj之間的不相似度,并定義為Jaccard 相似系統(tǒng)的補(bǔ)碼,即1-Js(Ti,Tj)。Jaccard 距離可以解釋為,Ti和Tj涉及的攻擊實(shí)例的交集除以它們的并集之比。
Phi 系數(shù)是一個(gè)經(jīng)驗(yàn)的非參數(shù)相關(guān)度量,專門用于二進(jìn)制數(shù)據(jù)。在使用Phi 系數(shù)度量不同技術(shù)時(shí),首先將待度量的技術(shù)排成2×2 表,具體排列情況見表4。Phi系數(shù)的基本概念是,兩個(gè)二元變量的觀察值若大多落在2×2 列聯(lián)表的主對(duì)角線字段,則這兩個(gè)技術(shù)呈正相關(guān)。反之,若兩個(gè)二元變量的觀察值大多落在非對(duì)角線字段,則這兩個(gè)變量呈負(fù)相關(guān)。任意兩種技術(shù)之間Phi 系數(shù)與計(jì)算方如式(6)所示。
式(5)、式(6)中出現(xiàn)n的定義見表3。
表3 Jaccard距離和Phi系數(shù)中n值定義
在確定樣本間的距離度量方式基礎(chǔ)上,在本文中使用Ward鏈接[14]作為簇間距計(jì)算方式。因?yàn)橄啾扔赪ard鏈接,單鏈接方法會(huì)創(chuàng)建松散的簇;全鏈接方法會(huì)創(chuàng)建緊密的簇,但異常點(diǎn)對(duì)聚類結(jié)果影響較大。
在本節(jié)實(shí)驗(yàn)部分通過數(shù)據(jù)預(yù)處理、選取評(píng)價(jià)指標(biāo)、算法實(shí)現(xiàn)和設(shè)計(jì)對(duì)比驗(yàn)證凝聚分層的改進(jìn)聚類算法的效果。
在實(shí)驗(yàn)對(duì)比中,本文對(duì)ATT&CK數(shù)據(jù)集采用模糊聚類算法[15]中的PAM 算法進(jìn)行[16]聚類,將模糊聚類得到結(jié)果與凝聚層次聚類算法得到的結(jié)果進(jìn)行比較。
圖2 每種劃分的聚類方法的聚類圖和相應(yīng)的數(shù)據(jù)集用不同的顏色表示,其中橫縱坐標(biāo)軸為ATT&CK 數(shù)據(jù)集的維度1 和維度2,圖像中的輪廓為數(shù)據(jù)集在維度1和維度2組成平面上的投影。模糊聚類算法對(duì)ATT&CK 數(shù)據(jù)集的結(jié)果如圖2 所示,從指定維度上的投影可以看出,得到的技術(shù)聚類之間相互重疊和包含,難以區(qū)分任何潛在的技術(shù)關(guān)聯(lián)。
圖2 模糊聚類結(jié)果
對(duì)于ATRT&CK 數(shù)據(jù)集,學(xué)習(xí)到的層次聚類樹的結(jié)果如圖3 所示,通過基于凝聚層次的改進(jìn)聚類算法最終得到54 個(gè)簇,每個(gè)簇在樹中以不同的顏色表示。由于層次聚類算法的特點(diǎn),聚類結(jié)果不會(huì)出現(xiàn)簇間的交集,因此需要對(duì)改進(jìn)聚類算法的結(jié)果進(jìn)一步分析,驗(yàn)證得到聚類結(jié)果是有效的。
圖3 基于凝聚層次改進(jìn)的聚類算法結(jié)果
通過選取部分聚類結(jié)果進(jìn)行原理分析說(shuō)明聚類結(jié)果的合理性,對(duì)聚類得到的子集合{T1494,T1115,T1485,T1486,T1487}進(jìn)行分析,集合中的元素按照順序分別代表端口監(jiān)控、運(yùn)行數(shù)據(jù)操縱、發(fā)送數(shù)據(jù)操縱、剪貼板數(shù)據(jù)獲取、數(shù)據(jù)破壞、破壞性數(shù)據(jù)加密、磁盤數(shù)據(jù)結(jié)構(gòu)擦除。由包含的攻擊技術(shù)可以看出,該子集代表了一種竊取或破壞數(shù)據(jù)的攻擊模式。該模式下,攻擊者可以通過運(yùn)行數(shù)據(jù)操縱、發(fā)送數(shù)據(jù)操縱來(lái)間接影響目標(biāo)進(jìn)程的正常運(yùn)行,或者進(jìn)行數(shù)據(jù)收集、竊取信息,然后在下一步中可以選擇數(shù)據(jù)破壞也可以進(jìn)行加密勒索。上述的順序關(guān)系只是舉例說(shuō)明,實(shí)際環(huán)境下可能是竊取、加密勒索等同時(shí)出現(xiàn)。
攻擊技術(shù)的子集對(duì)于ATT&CK 模型的改進(jìn)主要體現(xiàn)在兩方面,首先,提高蜜罐監(jiān)控的針對(duì)性,可針對(duì)ATT&CK模型的技術(shù)子集進(jìn)行數(shù)據(jù)監(jiān)控;其次提高關(guān)聯(lián)分析的能力,當(dāng)捕獲到子集中一個(gè)攻擊技術(shù)時(shí),應(yīng)該關(guān)聯(lián)考慮子集中其他攻擊技術(shù),這些攻擊技術(shù)出現(xiàn)的可能性較高。
針對(duì)網(wǎng)絡(luò)攻擊模型應(yīng)用于蜜罐系統(tǒng),分析應(yīng)用過程存在的問題,并提出一種基于凝聚層次聚類的改進(jìn)算法,用于對(duì)ATT&CK模型的技術(shù)集合進(jìn)行聚類。改進(jìn)算法在聚類流程中加入統(tǒng)計(jì)假設(shè)檢驗(yàn)步驟,借助統(tǒng)計(jì)假設(shè)檢驗(yàn)結(jié)果對(duì)聚類結(jié)果的有效性檢驗(yàn),同時(shí)確定最佳聚類數(shù)量k。對(duì)比不同聚類算法分析和分析聚類結(jié)果,驗(yàn)證改進(jìn)聚類算法能夠?qū)TT&CK模型的技術(shù)集合產(chǎn)生有效聚類結(jié)果。
本文針對(duì)ATT&CK模型的應(yīng)用的復(fù)雜性問題,提出了一種基于聚類算法的ATT&CK 模型改進(jìn)方法,首先使用Groups 知識(shí)庫(kù)對(duì)ATT&CK 技術(shù)集合進(jìn)行量化,在量化得到的特征向量數(shù)據(jù)集上使用Jaccard 距離和Phi 系數(shù)相關(guān)距離進(jìn)行聚類趨勢(shì)度量,驗(yàn)證量化后的數(shù)據(jù)集具有聚類趨勢(shì),最后在凝聚層次聚類算法中加入統(tǒng)計(jì)假設(shè)驗(yàn)證用于確定最佳聚類數(shù)量,并通過實(shí)驗(yàn)和分析驗(yàn)證聚類結(jié)果的有效性。