馬元元
摘要:特征選擇是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中聚類分析的一種常用分析處理方式,目前已廣泛運(yùn)用于文本資源分類和數(shù)據(jù)集的聚類中,在未被標(biāo)記的資源集處理環(huán)境中,讓計(jì)算機(jī)自己學(xué)習(xí)使用一些特征相關(guān)度量的選擇方法??偨Y(jié)了一種基于多特征選擇算法的聚類方法(MFSC),在資源集中,對(duì)多特征進(jìn)行聚類特征方法選擇、分類,將關(guān)系相關(guān)性較強(qiáng)的劃分為同類簇群,再依次從每個(gè)簇群中輪詢特征代表性較強(qiáng)的歸為一類集合,最終達(dá)到去除弱依賴特征和特征冗余的結(jié)果。實(shí)驗(yàn)證明MFSC特征集約效果較高、性能較穩(wěn)定。
關(guān)鍵詞:特征選擇;多特征;聚類;MFSC
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)05-0139-03
Clustering Research Based on Multiple Feature Selection
Ma Yuanyuan
(Information Engineering School, Zhongshan Polytechnic, Zhongshan Guangdong 528404)
Abstract:feature selection is the clustering analysis of data mining and machine learning in the field of a common analysis method, has been widely used in text classification and clustering of resource data sets, in the unlabeled set of resources processing environment, let the computer choose their own learning methods using some characteristics related to measure. To explore and summarize a multiple feature selection algorithm (MFSC) feature selection and clustering method, which use the characteristic interval intermediate key single feature clustering, clustering method which features the concentration of resources in the feature selection classification, divides the relationship is strong for the same cluster, then from each cluster in the polling feature representative is classified as a class set, to remove the weak dependence and feature redundancy results. Experimental results show that the MFSC feature is highly effective and stable.
Key Words:Feature selection;Multi feature;Clustering;MFSC
1 引言
近年來,隨著大數(shù)據(jù)、云計(jì)算、人工智能等前沿技術(shù)的廣泛應(yīng)用,互聯(lián)網(wǎng)龐大的信息的處理和使用,成為了廣大業(yè)內(nèi)學(xué)者研究的重要課題之一。這類課題研究都產(chǎn)生于標(biāo)記資源集的數(shù)據(jù)處理中,對(duì)未知或者說未標(biāo)記的資源集的處理研究則顯得相對(duì)薄弱。其原因是因?yàn)椋海?)未標(biāo)記資源集特征選擇是基于計(jì)算機(jī)自我學(xué)習(xí)和自我提升處理能力的;(2)未標(biāo)記資源集特征選擇是利用上下文(一組帶屬性的有序序列),進(jìn)行自我對(duì)象認(rèn)知和激活的過程,要求是自動(dòng)服務(wù),如同步數(shù)據(jù)到資源庫、實(shí)時(shí)激活、事物的再處理的過程中充滿了許多不確定性,獲取的結(jié)果也難以驗(yàn)證和解釋。本文對(duì)多特征選擇聚類算法(Multiple feature selection clustering algorithm)進(jìn)行研究,以降低特征空間維數(shù)、提升聚類的效果[1]。
2 文本分類的相關(guān)技術(shù)
聚類在web文本數(shù)據(jù)的歸類中作為一種手段,利用的是計(jì)算機(jī)的自我分析和聚合。例如兩個(gè)職員對(duì)音樂有興趣,一個(gè)喜歡哲學(xué),一個(gè)喜歡運(yùn)動(dòng)。這些數(shù)據(jù)并沒有被預(yù)先計(jì)算好,它們是實(shí)時(shí)的從匹配查詢語句的文檔中動(dòng)態(tài)計(jì)算生成的。首先將文本中挖掘的數(shù)據(jù)集分成若干個(gè)數(shù)據(jù)簇,要求有較強(qiáng)的依賴和相關(guān)性,而不同的數(shù)據(jù)簇相關(guān)性盡可能的小,然后對(duì)文本進(jìn)行聚類分析后的分類信息可作為對(duì)用戶行為相似度的分析[2]。
通常對(duì)文本數(shù)據(jù)采用向量空間標(biāo)記來進(jìn)行聚類描述。在這一設(shè)計(jì)模型中,每一單詞都作為特征空間中的一維坐標(biāo)系,而每一文本的數(shù)據(jù)簇作為一個(gè)向量。這種分析方法雖然簡單和直接,但是在多維稀疏矩陣文本聚類中,效率和性能卻很難讓人滿意。
為了解決上述問題,我們通過特征選擇來進(jìn)行分級(jí)匯總進(jìn)行特征值的降序排序,根據(jù)標(biāo)記和未標(biāo)記資源集的特征選擇進(jìn)行分類。比如,在對(duì)文檔的聚類中,文檔歸屬于一種類型(type),而這些聚類分析后的類型存在于索引(index)中,我們對(duì)其中的字段(fields)進(jìn)行搜索,步驟如下所示:
Relational DB -> Databases -> Tables -> Rows -> ColumnsSearch -> Indices -> Types -> Documents -> Fields
3 特征選擇聚類算法研究endprint
在未標(biāo)記的數(shù)據(jù)集中,數(shù)據(jù)的特征并不是孤立表現(xiàn)的,而是相關(guān)聯(lián)的表現(xiàn)相似特征,這就構(gòu)成了多特征的集。針對(duì)這些在區(qū)分類別時(shí)存在的冗余現(xiàn)象,本文提出了基于上下文多特征選擇的聚類算法。主要思想是根據(jù)數(shù)據(jù)集表現(xiàn)的特征的相似度,對(duì)相似屬性類的特征進(jìn)行聚類匯總,然后在每個(gè)簇群中選擇一個(gè)特征作為主鍵,簇群中的其他特征從候選特征集中標(biāo)記為外鍵或?qū)σ蕾囆匀醯倪M(jìn)行剔除,這樣保證特征集的相對(duì)獨(dú)立性、降低高冗余度,進(jìn)而對(duì)剩余的特征進(jìn)行信息篩選后特征歸類。
3.1 特征區(qū)間的選擇
我們以web文本為例,對(duì)于DocType類型的文本中的每一特征作為一類的特征區(qū)間。如文檔內(nèi)容、URI和web的訪問日志,對(duì)于文檔內(nèi)容和URI我們可以用向量區(qū)間模型表示,通過對(duì)語義的劃分表示權(quán)值。但對(duì)于用戶訪問過的log信息,如果沒有定義信息來源類別,將得不到任何關(guān)于詞分類的信息。因此引入了一種從開發(fā)到用戶使用之間的關(guān)系向量。
假設(shè)日志信息包含了m個(gè)上下文樣本記錄和n個(gè)查詢特征,特征集F可表示為:
F=,(1≤K≤n).K指的是特征集,F(xiàn)進(jìn)行聚類時(shí)被劃分了K個(gè)不同的特征簇。
對(duì)于特征選擇后的聚類,不確定性是特征評(píng)價(jià)的指標(biāo),它也是針對(duì)計(jì)算機(jī)信息增減變化的度量指標(biāo)和依賴程度,可以理解為數(shù)據(jù)簇之間共同相似的信息含量。如果用ω表示web頁面的上下文本記錄,j表示查詢次的訪問過的頁面,表示特征向量的空間。
V(ω) =
則可以利使用以上公式計(jì)算每個(gè)web頁面的特征向量空間,對(duì)每個(gè)特征區(qū)間進(jìn)行聚類匯總了。
3.2 多特征選擇聚類算法(MFSC)
在聚類的選擇特征中,對(duì)特征類型的分類是一個(gè)反復(fù)進(jìn)行的過程,首先對(duì)探測到的未標(biāo)記的數(shù)據(jù)集進(jìn)行相關(guān)度計(jì)算并形成類別區(qū)間,基于多特征選擇聚類的算法,會(huì)在此基礎(chǔ)上進(jìn)行降序特征排序,然后通過聚類算法在不同的子空間中檢索數(shù)據(jù)簇,確定標(biāo)記主鍵,然后形成特征子集的特征簇群。其處理過程如圖1所示。
在實(shí)際的應(yīng)用中,多特征選擇聚類算法充分利用文本的多特征特性,為特征類的聚集確定主鍵,并進(jìn)行分離出具有代表性的特征子集,這樣在得到不同類別的類集后,在各個(gè)類集上進(jìn)行特征選擇并利用合并函數(shù)得到結(jié)果集。設(shè)M表示每個(gè)特征區(qū)間的數(shù)據(jù)集,代表一維的特征向量,代表聚類選擇的第i個(gè)特征區(qū)間,CF代表合并的函數(shù)。那么算法程序的偽代碼可以表示為:
for (n iterations of clustering) {
for (M feature character) {
Do clustering in feature char m
}
for (M feature character) {
for feature character m, do feature index using results in all freature character;
then
to combined score
f(x) = Voting(value())
}
}
其中,在程序代碼的實(shí)現(xiàn)中利用到的算法,可以具體表示為:
Voting(value)
= (1)
公式(1)中,value可以用3.1節(jié)中標(biāo)記資源集的特征選擇聚集函數(shù)公式來計(jì)算,st是特征選擇的閥值,可以通過以往統(tǒng)計(jì)的數(shù)據(jù)推出設(shè)定值。從算法中,我們可以發(fā)現(xiàn)基于上下文進(jìn)行多特征選擇的聚類方法在聚類時(shí)是利用主鍵的方式進(jìn)行表示,采用分類別的簇間的不同性選擇特征子集。在每一次特征集簇群選擇后,聚類都會(huì)重新降序排列匯總,得到一組高聚類的特征子集。
3.3 實(shí)驗(yàn)結(jié)果比較
對(duì)于特征選擇算法的評(píng)估,我應(yīng)考慮到:(1)特征分類所獲的結(jié)果相同時(shí),子集的區(qū)間距離越短,其性能越優(yōu);(2)在大數(shù)據(jù)集測試時(shí),特征分類的越穩(wěn)定,其算法越好。
表1和表2分別對(duì)比了Raw(特征全集)、TS、FCBF、FSFC、MFSC等算法,在K-Means和Nave bayes分類器的分類結(jié)果,并由實(shí)驗(yàn)結(jié)果可以看出:(1)MFSC算法結(jié)果正態(tài)分布的穩(wěn)定性;(2)MFSC在未標(biāo)記數(shù)據(jù)集上的分類用時(shí)是高于其他特征方法的,其原因在于多特征的選擇的分量,類區(qū)間內(nèi)距離分量相比其他更小。(3)MFSC在數(shù)據(jù)集上的分類上,由于特征選擇的子集區(qū)間分量較小,準(zhǔn)確率相比其他更高和錯(cuò)誤率更低[3]。
4 結(jié)論
本文提出一種在未被標(biāo)記的資源集處理環(huán)境中,讓計(jì)算機(jī)自己學(xué)習(xí)使用多特征相關(guān)的選擇聚類的方法——MFSC。使用這一算法將有無標(biāo)記或有無監(jiān)督的特征選方法成功的運(yùn)用到了聚類分析,利用了上下文的多種相似特征進(jìn)行主成分分析,確立主鍵和區(qū)間內(nèi)距離,并對(duì)子區(qū)間也進(jìn)行了特征值降序排列,從而達(dá)到較為理想的效果。
參考文獻(xiàn)
[1]樊東輝.基于文本聚類的特征選擇算法研究[D].西北師范大學(xué),2012.
[2]樊東輝,王治和,陳建華,許虎寅.基于DF算法改進(jìn)的文本聚類特征選擇算法[J].甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(1):51-54.
[3]徐峻嶺,周毓明,陳林,徐寶文.基于互信息的無監(jiān)督特征選擇[J].計(jì)算機(jī)研究與發(fā)展,2012(2):372-382.endprint