代 勁,胡 艷
(重慶郵電大學 軟件工程學院,重慶 400065)
網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,對網(wǎng)絡(luò)新聞的分析和監(jiān)督無疑對社會和政府有著極大的作用.多視圖數(shù)據(jù)是指從不同的源頭采集或由不同屬性的特征進行描述的數(shù)據(jù),例如網(wǎng)絡(luò)新聞數(shù)據(jù)通常通過文本、圖片以及多媒體信息等特征進行描述,可以按照特征所屬的不同類型劃分為不同的視圖.目前,多視圖聚類算法在無人駕駛、異常點檢測、生物醫(yī)學分析等領(lǐng)域中都得到了充分的應用.
文獻[1]中,首次提出了以協(xié)同訓練為基礎(chǔ)的多視圖聚類方法.文獻[2]基于核的思想,將每個視圖表示為圖,將多個圖融合后進行譜聚類.文獻[3]結(jié)合多視圖K-均值算法和集成技術(shù),提高了聚類的性能.文獻[4]將共正則化和非負矩陣分解結(jié)合,然后再進行聚類.文獻[5]利用正則相關(guān)性分析從多個視圖特征中選取最相關(guān)的視圖作為視圖數(shù)據(jù)的唯一表示,然后再用傳統(tǒng)的聚類方法.
上述方法都默認不同視圖對簇結(jié)構(gòu)的貢獻程度一樣大.但是,在現(xiàn)實世界的聚類問題中,某些視圖包含不同數(shù)量的信息,同時當某些視圖已經(jīng)被噪聲破壞導致聚類效果較差的時候,平等的看待各個視圖會影響最終的聚類結(jié)果.文獻[6]提出通過結(jié)合先驗知識粗略地計算權(quán)重,這種方法是人工干預的.文獻[7]以拉普拉斯秩約束為基礎(chǔ),通過引入超參數(shù)來學習視圖間的權(quán)重.文獻[8]提出的TW-K-means方法可以學習視圖和樣本特征的權(quán)重.文獻[9]提出的WMCFS算法,可以選取特征和給視圖加權(quán),但是目標函數(shù)中的兩個超參數(shù)均依賴先驗知識.文獻[10]從不同樣本間存在的差異出發(fā),提出SWMVC算法,它能自適應確定不同視圖中樣本的權(quán)重,但沒有考慮關(guān)注不同視圖對簇結(jié)構(gòu)的貢獻.
當前關(guān)于新聞數(shù)據(jù)的聚類分析中,大多數(shù)是基于新聞文本的,忽略了新聞圖片和新聞視頻等多媒體信息.詳細地分析當前的網(wǎng)絡(luò)新聞結(jié)構(gòu),可以看到新聞內(nèi)容除了直接的文本信息之外,通常還使用高度語義概括后的標簽信息對新聞中出現(xiàn)的圖片、音頻視頻等多媒體信息進行描述,直接導致新聞內(nèi)容中的文本、圖片和視頻視圖的特征的粒度和語義不在同一個層次.若不經(jīng)過粒度和語義層次的統(tǒng)一操作而將直接的文本特征與標簽特征進行分析或?qū)W習,將嚴重影響新聞數(shù)據(jù)挖掘性能.本文首先在網(wǎng)絡(luò)新聞不同視圖上分別進行特征選擇,使得各個視圖的特征均統(tǒng)一到標簽的粒度上.然后在此基礎(chǔ)上構(gòu)建視圖間的自適應權(quán)重方法,提出了一種混合粒度新聞數(shù)據(jù)的多視圖聚類算法(multi-view clustering of multi-granularity news data,MVCN),可以較優(yōu)的融合新聞各個視圖的數(shù)據(jù),反映不同視圖對聚類簇結(jié)構(gòu)的貢獻程度,以此來提升聚類效果.
(1)
“熵”主要是用來衡量不確定的程度的大小.對于隨機變量X,其熵取值如下:
(2)
其中,n是X可能的取值類別總數(shù),P(x)表示x發(fā)生的概率.
通過分析網(wǎng)絡(luò)新聞的特性,本文發(fā)現(xiàn)新聞內(nèi)容除了由詞粒度特征構(gòu)成的文本信息之外,通常還使用高度語義概括后的標簽粒度特征對新聞中出現(xiàn)的圖片、音視頻等多媒體信息進行描述.其結(jié)構(gòu)如圖1所示.
1)不同視圖中不同標簽粒度的統(tǒng)一:標簽抽取
通過圖1看到,圖片和多媒體(音視頻)視圖中的數(shù)據(jù)特征由幾個高度語義概括后的詞條(標簽粒度)組成,而文本視圖中的數(shù)據(jù)特征則由成百上千的詞條(詞粒度)組成.如果將新聞文本、圖片和視頻等不同粒度層次的視圖當作同一粒度層次進行處理,在邏輯上有所欠缺考慮,難以體現(xiàn)出由各種粒度特征表示的視圖的區(qū)別.同時文本視圖詞粒度得到的特征向量空間維度過高,導致特征數(shù)較少的視圖(圖片和視頻等多媒體信息)在聚類中的作用可能會被弱化.本文通過不同的標簽生成方法來探討混合粒度視圖的粒度統(tǒng)一化.
圖1 網(wǎng)絡(luò)新聞結(jié)構(gòu)示例Fig.1 Network news structure example
首先,由于新聞圖片和多媒體視圖中的數(shù)據(jù)特征通常是由幾個高度語義概括后的詞條組成,所以本文直接提取圖片和多媒體信息視圖中的數(shù)據(jù)特征,作為圖片和多媒體視圖的標簽.
考慮到文本視圖中是由成百上千的詞粒度特征組成,本文首先在新浪新聞的基礎(chǔ)上調(diào)用百度AI文章標簽生成接口獲得文本的標簽,各視圖的特征數(shù)量變化如表1所示.
表1 新浪新聞特征變化情況1Table 1 Sina news features changes 1
百度AI生成的標簽會在一定程度上受到語料庫的影響,進一步會影響標簽質(zhì)量.由于TF-IDF值可以用來評估某個詞條的重要程度,所以本文將通過經(jīng)典的TF-IDF提取新聞文本視圖的關(guān)鍵詞作為文本視圖的標簽特征.當新浪和網(wǎng)易新聞數(shù)據(jù)集的文本視圖分別進行單獨的聚類時,聚類效果隨著關(guān)鍵詞個數(shù)text_features取值的不同而變化,如圖2所示.其中,橫縱坐標分別指文本視圖中的text_features取值和各評價指標的百分比.
圖2 新浪和網(wǎng)易新聞單獨的文本聚類效果Fig.2 Effect of separate text clustering on Sina andNetEase news
通過圖2可以看出,當新浪和網(wǎng)易新聞的text_features取30時各聚類指標均表現(xiàn)較好,故本文提取文本視圖TF-IDF值前30的關(guān)鍵詞作為各新聞數(shù)據(jù)集文本視圖的標簽特征.其中,新浪新聞各視圖的特征數(shù)量變化如表2所示.
表2 新浪新聞特征變化情況2Table2 Sina news features changes 2
2)視圖間的融合處理
接下來,本文分析了新聞數(shù)據(jù)中不同視圖單獨聚類的效果.當單獨對新浪新聞文本、圖片和視頻視圖進行K-均值聚類20次時,結(jié)果如表3所示.
表3 單獨的新浪文本、圖片和視頻數(shù)據(jù)聚類結(jié)果Table 3 Individual clustering results of Sina text,picture and video data
然后,簡單融合新浪新聞各視圖的特征后再進行聚類,得到的結(jié)果如表4所示.
表4 簡單融合新浪新聞3個視圖特征的聚類結(jié)果Table 4 Clustering result of simple fusion of three view features of Sina News
通過表3的結(jié)果可以分析出,圖片和視頻視圖的數(shù)據(jù)對聚類結(jié)果有一定的作用.同時,新聞數(shù)據(jù)由于采樣的特征空間的不同,造成了各視圖樣本并不一定均具有良好的聚類特性.通過表4中簡單融合各個視圖特征的聚類結(jié)果與表3單獨的文本聚類結(jié)果對比,ACC、NMI和Purity分別降低了0.1986,0.3140,0.0843.實驗結(jié)果說明在新聞數(shù)據(jù)各個視圖特征的簡單融合中,某些簇結(jié)構(gòu)劃分不清晰的特征的視圖(文本、圖片或視頻視圖)在整個多視圖聚類的過程中的作用較弱,甚至會起到不好的作用,因此應減弱這種視圖在聚類中的作用.
針對上面提出的網(wǎng)絡(luò)新聞每個視圖特征的粒度不統(tǒng)一,各個視圖對最終的簇結(jié)構(gòu)的貢獻程度不一樣等問題,本文提出了一種混合粒度多視圖新聞數(shù)據(jù)聚類方法(multi-view clustering of mixed-granularity news data,MVCN).首先通過TF-IDF提取出各個視圖的特征作為視圖的標簽,使得文本、圖片和多媒體信息等視圖的特征統(tǒng)一為標簽.同時,考慮到各個視圖對最終的簇結(jié)構(gòu)的貢獻程度不一樣,本文借助信息熵確定視圖間的自適應權(quán)重.技術(shù)路線如圖3所示.
圖3 混合粒度多視圖新聞數(shù)據(jù)聚類方法技術(shù)路線Fig.3 Technical route of mixed-granularity multi-view news data clustering method
本文通過特征選擇使得各視圖混合粒度特征統(tǒng)一到相同的標簽粒度,減小了特征數(shù)較少的視圖在聚類中被弱化的程度,最終提高聚類的效果.
首先,本文在第3部分簡單的分析了文本視圖中特征數(shù)量text_features的取值,在文本視圖上采用詞頻-逆文本頻率提取TF-IDF值前30的特征作為文本視圖的標簽信息.
本文中各個多視圖新聞數(shù)據(jù)樣本中特征的重要程度通過TF-IDF值來確定,圖片和視頻視圖的特征數(shù)量分別由picture_features和video_features表示,本文設(shè)置各個視圖特征數(shù)量取值在[5,50]區(qū)間,步長設(shè)為5,特征選取了之后再單獨聚類,選取聚類性能最優(yōu)的特征數(shù)量作為圖片和視頻視圖的特征數(shù)量取值.
考慮到各個視圖對最終的簇結(jié)構(gòu)的貢獻程度不一樣,本文借助熵確定視圖間的自適應權(quán)重.具體的符號含義如表5所示.
表5 符號含義Table 5 The meaning of symbol
4.2.1 視圖間自適應權(quán)重的確定
本文將權(quán)重看作概率分布,用熵來描述各個視圖的權(quán)重.則視圖權(quán)重可表示為:
(3)
通過將上述的加權(quán)項引入到多視圖K-均值聚類中,則目標函數(shù)如下:
(4)
目標函數(shù)由兩部分組成:首先是在標準的多視圖K-均值算法上進行聚類,使各個視圖的信息相互補充.同時,增加了視圖權(quán)重參數(shù)w(v),引入超參數(shù)θ來控制各個視圖的權(quán)重.最終的聚類效果與θ的取值有較大的關(guān)系,本文通過網(wǎng)格貪心搜索方法獲取.
4.2.2 MVCN模型建立及參數(shù)求解
本文引入拉格朗日算子τ進行極值求解,構(gòu)造拉格朗日目標函數(shù)L對公式(4)進行優(yōu)化求解,函數(shù)構(gòu)造形式及求解過程如下:
(5)
通過對公式(5)中w(v)求偏導,得到:
(6)
(7)
(8)
固定視圖權(quán)重w(v),推導出各個視圖的簇中心:
(9)
混合粒度多視圖新聞數(shù)據(jù)聚類方法(multi-view clustering of mixed-granularity news data,MVCN)的詳細步驟如下所示:
算法1.MVCN算法
輸入:數(shù)據(jù)X={x1,x2,…,xV}∈RN×Dv,V是視圖總數(shù),N為樣本總數(shù),Dv是視圖v的特征維度,超參數(shù)θ,最大迭代更新的次數(shù)t.
1.不同粒度信息的視圖進行統(tǒng)一的標簽生成處理
步驟1.分別提取各個視圖的第n_sample個樣本的TF-IDF值前text_features、picture_features和video_features的特征;
步驟2.n_sample=n_sample+1;
步驟3.如果n_sample>N,則文本視圖標簽生成處理結(jié)束,跳出循環(huán),返回新的數(shù)據(jù)樣本X;否則,跳回步驟1.
2.視圖間自適應權(quán)重的確定
步驟1.利用公式(8)更新各個視圖的權(quán)重w(v)
步驟3.n_run=n_run+1;
步驟4.當n_run>t時,則最終權(quán)重確定,結(jié)束循環(huán);否則跳回步驟1.
本文提出的MVCN方法與多視圖K-均值在時間性能上相似,為Ο(N×k×t×V).其中,N,k,t以及V均為上述MVCN算法描述中所示.
本文通過網(wǎng)絡(luò)爬蟲獲得新浪和網(wǎng)易在2019年07月01日至12月01的新聞數(shù)據(jù)作為實驗數(shù)據(jù)集.其中新浪新聞由3個視圖組成,分別是詞粒度特征構(gòu)成的文本視圖、高度語義概括后的標簽粒度特征構(gòu)成的圖片和視頻視圖.網(wǎng)易新聞則由兩個視圖組成,分別是詞粒度特征構(gòu)成的文本視圖和標簽粒度特征構(gòu)成的圖片視圖.
同時,本文還選用了UCI經(jīng)典的Digits(手寫數(shù)字圖片)多視圖數(shù)據(jù)集,由6個視圖構(gòu)成.
本文的混合粒度多視圖新聞數(shù)據(jù)是通過TF-IDF來進行特征選擇,使得各個視圖統(tǒng)一為標簽粒度,但Digits數(shù)據(jù)集則是通過卡方檢驗.設(shè)置特征數(shù)量取值在[2,50]區(qū)間變化,步長設(shè)為2,和新聞文本、圖片以及視頻視圖一樣,選取最優(yōu)的特征數(shù)量作為最終的取值.上述的新浪、網(wǎng)易以及Digits的詳細信息如表6所示.
表6 數(shù)據(jù)集詳細信息Table 6 Details of the dataset
本文選取常用的聚類有效性評價指標進行驗證,分別為準確率(Accuracy,簡稱ACC)、歸一化互信息(簡稱NMI)和純度(Purity).具體定義如下:
1)ACC:它用來衡量聚類算法精確性.計算公式定義為:
(10)
其中,num表示聚類正確的樣本數(shù),N是樣本總數(shù).
2)NMI:利用熵計算聚類結(jié)果相似度.計算公式定義為:
(11)
其中,I(m,n)是互信息,H(m)和H(n)是信息熵.
3)Purity:其計算公式定義為:
(12)
其中,k是簇的數(shù)量,ni,j表示簇i和j的樣本交集數(shù).
上述3個指標的取值均在[0,1]區(qū)間,且越接近1越好.
為了全面評估本文提出的MVCN多視圖聚方法,對比算法的簡要信息描述如下:
1)Pair-wise CoNMF算法:該算法是文獻[4]中提出的一種通過成對共正則化,使得從兩個視圖中學到的系數(shù)矩陣可以在分解過程中相互補充的方法.
2)Cluster-wise CoNMF算法:該算法是文獻[4]中提出的另一種方法.
3)PwMC算法:由文獻[7]提出,基于拉普拉斯秩約束,通過引入超參數(shù)γ來學習權(quán)重,本文設(shè)置γ=0.6.
4)SwMC算法:該算法是文獻[7]中通過分析PwMC算法的不足而提出的另一種新的完全自加權(quán)的多視圖聚類方法.
5)SWMVC算法:由文獻[10]提出,其實驗效果與其樣本重要度正則項參數(shù)λ有關(guān),本文設(shè)置λ=0.5.
MVCN是本文提出的混合粒度多視圖新聞數(shù)據(jù)聚方法,其中參數(shù)θ的取值通過網(wǎng)格尋優(yōu)方法獲得,在新浪新聞和網(wǎng)易新聞兩個新聞數(shù)據(jù)集以及Digits上均設(shè)為0.5.MVCN和其他方法20次實驗的均值如表7、表8和表9,以及圖4、圖5和圖6所示.
表7 不同聚類方法在新浪新聞數(shù)據(jù)集上的實驗結(jié)果Table 7 Clustering results of different clustering methods on different multi-view news datasets
表8 不同聚類方法在網(wǎng)易新聞數(shù)據(jù)集上的實驗結(jié)果Table 8 Clustering results of different clustering methods on different multi-view news datasets
表9 不同聚類方法在Digits數(shù)據(jù)集上的實驗結(jié)果Table 9 Clustering results of different clustering methods on different multi-view Digits datasets
圖4 不同聚類方法在新浪新聞數(shù)據(jù)集上的聚類結(jié)果Fig.4 Clustering results of different clustering methods on the Sina news dataset
圖5 不同聚類方法在網(wǎng)易新聞數(shù)據(jù)集上的聚類結(jié)果Fig.5 Clustering results of different clustering methods on the NetEase news dataset
圖6 不同聚類方法在Digits數(shù)據(jù)集上的聚類結(jié)果Fig.6 Clustering results of different clustering methods on the Digits news dataset
由表7和表8可以得到,本文提出的方法在各個新聞數(shù)據(jù)集中的聚類效果有較好的提升,分析其主要原因是:1)Pair-wise CoNMF、Cluster-wise CoNMF、PwMC、SwMC和SWMVC并未考慮不同視圖之間特征的差異,本文前幾節(jié)一直強調(diào)新聞內(nèi)容中,出現(xiàn)了不同語義層次、不同粒度的內(nèi)容概念(直接的文本特征與標簽特征)描述.本文通過特征選擇,使得各個視圖的特征均由標簽粒度表示,不僅可以減少特征維度,而且能得到更好的聚類效果;2)Pair-wise CoNMF和Cluster-wise CoNMF是在假設(shè)各個視圖的重要性程度一樣的基礎(chǔ)上進行的實驗,未考慮視圖的權(quán)重.
通過表9可以分析出本文提出的方法MVCN在Digits數(shù)據(jù)集上表現(xiàn)較弱,分析其根本原因是Digits各個視圖的特征均由圖像特征組成,并未出現(xiàn)不同語義層次、不同粒度的內(nèi)容概念描述,且視圖間互補的信息較少.
為了進一步驗證本文提出的MVCN方法,本文通過主成分分析法(簡稱PCA)將原始的高維數(shù)據(jù)(新浪和網(wǎng)易)降到二維,并在圖7和圖8進行了可視化展示.
圖7 新浪新聞原始數(shù)據(jù)集Fig.7 Sina news raw dataset
圖8 網(wǎng)易新聞原始數(shù)據(jù)集Fig.8 Netease news raw dataset
通過圖7和圖8可以看到新聞文本視圖和其他視圖是互補的,但具有不同程度的噪聲,文本視圖的噪聲相對于圖片和視頻視圖要低一點.
圖9 MVCN在新浪和網(wǎng)易新聞數(shù)據(jù)集中學習到的各視圖權(quán)重Fig.9 View weights learned by MVCN in sina and netease news datasets
然后,本文在圖9展示了MVCN方法在兩個新聞數(shù)據(jù)集Sina和NetEase上學到的視圖權(quán)重.其中,橫縱坐標分別是視圖的名稱和權(quán)重.
由圖9可以看出,在新浪新聞數(shù)據(jù)集中,文本圖片和視頻視圖權(quán)重分別約為0.74,0.16和0.10.在新浪和網(wǎng)易新聞數(shù)據(jù)集中,文本視圖所占權(quán)重均大于其他的視圖,和在圖7和圖8初步觀察的結(jié)果相吻合,即文本視圖更能反映數(shù)據(jù)的特性.同時,新聞圖片和視頻視圖同樣也包含一定的信息量.
本文初步的研究了如何融合新聞文本、圖片和視頻等多媒體信息來對混合粒度多視圖新聞數(shù)據(jù)進行聚類,這對于新聞聚類有了顯著的效果.在混合粒度視圖中針對不同粒度進行統(tǒng)一的標簽生成處理中,本文通過對各個視圖進行特征選擇,使各個視圖的特征統(tǒng)一到相同的粒度.同時,本文借助信息熵確定視圖間的自適應權(quán)重,將3個視圖更優(yōu)的融合起來,然后再進行聚類操作.實驗表明,本文提出的MVCN方法在新聞數(shù)據(jù)上的性能較好.
盡管本文的實驗數(shù)據(jù)集各個視圖的數(shù)據(jù)都是完整的,但視圖間數(shù)據(jù)缺失的情況卻不可避免.所以接下來將致力于解決各視圖數(shù)據(jù)有所缺失的聚類問題.