張 濤, 翁康年, 顧小敏, 張玥杰
(1. 上海財經(jīng)大學 信息管理與工程學院, 上海 200433;2. 上海市金融信息技術(shù)研究重點實驗室(上海財經(jīng)大學), 上海 200433;3. 復旦大學 計算機科學技術(shù)學院, 上海 200433; 4. 上海市智能信息處理重點實驗室(復旦大學), 上海 200433)
我國證券市場的發(fā)展歷史短,各項機制還不夠健全,因此交易行為常常受到市場信息和傳聞的影響.特別是2015年我國股票市場在52個交易日內(nèi)呈現(xiàn)股災(zāi)式暴跌,整體跌幅高達40.31%,年內(nèi)A股市場驚現(xiàn)17次千股跌停,這暴露出我國證券市場發(fā)展的不成熟和股民們的非理性投資決策行為,股市的頻繁劇烈波動已超出傳統(tǒng)金融學理論的解釋范圍.研究表明,投資者情緒可顯著影響股票市場的表現(xiàn),如何通過相關(guān)論壇股評信息的主題挖掘來度量投資者情緒對股市表現(xiàn)的影響,已成為金融領(lǐng)域的重要研究方向.
網(wǎng)絡(luò)論壇積累了大量短文本,短文本攜帶著豐富的用戶信息,成為極具價值的新型信息資源[1].因此,從論壇的豐富信息中挖掘出用戶真正關(guān)心的主題[2],不僅有助于管理層及時了解網(wǎng)絡(luò)熱點信息,還便于對網(wǎng)絡(luò)輿情的監(jiān)管[3-4].然而,網(wǎng)絡(luò)論壇的文本數(shù)據(jù)具有低質(zhì)、簡短和冗余等問題,使得在基于現(xiàn)有向量空間模型的文本聚類方法處理時陷入高維稀疏、語義缺失的困境.對此,基于深度學習的方法效率較高,但需要依賴大量數(shù)據(jù)集進行訓練,而實際應(yīng)用中很難獲取龐大的數(shù)據(jù)集.機器學習方法易于解釋和理解,便于進行參數(shù)調(diào)整和模型改進,本文中提出的主題發(fā)現(xiàn)方法就是利用改進的機器學習算法進行短文本篩選和頻繁項集的聚類.
選取新浪財經(jīng)股吧論壇版塊的評論作為數(shù)據(jù)集,利用基于頻繁項集與潛在語義相結(jié)合的短文本聚類(STC_FL)框架和TSC-SN (text soft classifying based on similarity threshold and non-overlapping)算法對論壇數(shù)據(jù)進行深層次主題分析與挖掘,實現(xiàn)在線股評文本的自動聚類.
一般從以下兩個方面對投資者情緒進行考量:從隱性情緒指數(shù)的視角,選擇公認可測變量來衡量;從顯性指數(shù)的角度,通過實際調(diào)查來獲取投資者的情緒[5].面向股評論壇的主題發(fā)現(xiàn)是通過對股評文本進行挖掘來獲得潛在的主題和熱點,然后分析用戶發(fā)帖行為和情緒指標,并將其用于股市表現(xiàn)分析,以支持投資者的合理投資決策[6].
利用概率模型進行各類文本熱點主題挖掘的方法已在信息處理領(lǐng)域得到廣泛應(yīng)用[7].常見的主題發(fā)現(xiàn)模型涵蓋概率潛在語義索引(PLSI)模型、隱含狄利克雷分配主題(LDA)模型和潛在語義索引(LSI)模型等.其中,LDA模型最為經(jīng)典,可用于從大量文檔集中挖掘潛在的主題信息[8].Shams等[9]將共生關(guān)系作為先驗領(lǐng)域知識應(yīng)用到LDA模型中,自動從共生關(guān)系等方面的相關(guān)主題提取相關(guān)的先驗知識,提高模型效果.Kim等[10]采用LDA模型,并結(jié)合基于變分期望最大化(EM)算法的學習模型參數(shù)推理算法,實現(xiàn)Twitter朋友和內(nèi)容的推薦.Zhang等[11]提出基于群體LDA模型的受眾檢測方法,將圖書模塊和圖書章節(jié)信息融入到模型中.李揚等[12]基于LDA模型將由文本提取的潛在主題用作分類特征,提出基于主題模型的閾值調(diào)整半監(jiān)督文本情感分類模型.然而,基于概率模型的主題發(fā)現(xiàn)方法在訓練過程中對語料依賴程度較高[13],應(yīng)用于短文本數(shù)據(jù)效果不佳,主題中常出現(xiàn)高頻重復詞而無法直觀看出主題,并且容易出現(xiàn)過擬合[14].
基于詞頻統(tǒng)計的主題挖掘方法也得到一定的關(guān)注與應(yīng)用,最具代表性的是K-means算法.該算法在處理大規(guī)模數(shù)據(jù)時效率較高,不足之處在于初始聚簇中心容易選擇不當而導致文本聚類結(jié)果為局部最優(yōu).針對該算法的不足,Laszlo等[15]利用遺傳算法改進K-means算法對初始聚簇中心敏感的問題,嘗試將該算法應(yīng)用于高維數(shù)據(jù)聚類中.Sun等[16]引進Bradley和Fayyad的初始點迭代算法,提高了K-means算法聚類結(jié)果的準確性.然而,基于詞頻統(tǒng)計的主題發(fā)現(xiàn)方法是基于距離來度量文本之間和文本與聚簇類別間的相似度大小,而現(xiàn)實中文本特征項常常具有高維性.
基于頻繁項集的熱點主題挖掘方法的基本假設(shè)是:同一個主題聚簇中的文檔集應(yīng)共享更多的頻繁項集,而不同主題聚簇間的文檔集則共享較少的頻繁項集.在此假設(shè)下按照頻繁項集將文本劃分至不同主題類別下[17].該方法得到了廣泛的研究和應(yīng)用.Chen等[18]提出了基于模糊頻繁項集挖掘的層次文檔聚類.Wang等[19]將頻繁項集的概念用于數(shù)據(jù)庫中的事務(wù)聚類和文本聚類,提出基于頻繁項集的文本聚類算法.在應(yīng)用中,學者們也對基于頻繁項集的聚類算法不斷改進.Zhang等[20]提出MC (maximum capturing)算法,利用文檔所包含的頻繁項集來度量文檔間相似度,并將文檔集劃分至相似度高的聚簇中.Sethi等[21]提出混合頻繁項集挖掘方法,通過對數(shù)據(jù)集進行垂直布局來解決迭代中數(shù)據(jù)集掃描的問題,提高算法效率.Djenouri等[22]提出頻繁項集挖掘仿生方法,考慮頻繁項集的遞歸性質(zhì),并引入粒子群優(yōu)化算法.
基于頻繁項集的方法從文本中挖掘頻繁出現(xiàn)的詞集合,可有效降低文本特征維度,又可對聚簇結(jié)果的聚類主題進行基本描述.然而,針對面向股評論壇中短文本比例較高的特殊情形,依然需要考慮以下三個問題:① 聚類過程中忽略文本所包含的潛在語義關(guān)系,造成語義缺失和不合理聚類;② 聚類中仍涉及初始聚簇中心選擇與聚類數(shù)確定的問題;③ 采用的聚類算法仍屬于文本硬聚類,僅將文本劃分至唯一聚簇中.為解決這三個問題,有必要建立一種頻繁項集和潛在語義的融合機制,有效結(jié)合兩種方法的優(yōu)勢,以實現(xiàn)對短文本深層次信息的挖掘和主題歸類.
為解決現(xiàn)有主題挖掘方法處理網(wǎng)絡(luò)股評論壇中短文本數(shù)據(jù)所存在的困難,構(gòu)建一種面向股評論壇主題發(fā)現(xiàn)的短文本聚類框架.利用頻繁項集與潛在語義相結(jié)合的STC_FL框架從在線股評抽取主題詞,再使用TSC-SN算法基于主題詞進行文本檢索,從而實現(xiàn)特有的股評文本聚類,如圖1所示.知網(wǎng)(HowNet)是以揭示概念與概念之間和概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫.針對文本中所蘊含的潛在語義關(guān)系,引入知網(wǎng)作為背景知識庫建立基于概念的向量空間,并在文本集相似度計算的基礎(chǔ)上,采用基于統(tǒng)計和潛在語義相結(jié)合的度量模式.通過較長頻繁項集預(yù)估主題個數(shù),以解決聚類結(jié)果數(shù)目的最優(yōu)設(shè)定.針對融合頻繁項集與潛在語義關(guān)系的文本軟聚類,在文本檢索階段對TSC-SN算法設(shè)置短文本與主題簇間相似度閾值與簇間非重疊度參數(shù),靈活選擇和控制文本與主題間的對應(yīng)關(guān)系.采用頻繁項集和概念映射來降低向量空間維度,彌補基于向量空間的聚類所存在的語義缺失問題;融合頻繁項集與潛在語義,有效降低特征空間維度的同時充分考慮潛在語義關(guān)系;在對主題詞相關(guān)文本進行檢索時控制短文本與主題簇間相似度閾值,同時引入簇間非重疊度概念,利用新型文本集劃分策略實現(xiàn)文本軟聚類.
圖1 基于頻繁項集和潛在語義的短文本聚類基本框架
為了使具有潛在語義關(guān)系的詞能夠表達同一主題,引入語義知識源——知網(wǎng)作為背景知識庫來加強語義間關(guān)聯(lián),在關(guān)鍵詞向量空間中,將關(guān)鍵詞映射至知識庫中的某個概念,以概念來代替關(guān)鍵詞特征項,在更高的概念層面上實現(xiàn)文本相似度度量,從而使同一主題的文本更容易聚集在一起.
2.1.1詞義消岐
當某個語義場與文本中的語境相符時,語義場中的詞也有可能出現(xiàn)在文本中,可通過對比文本中的詞和語義場中的詞來實現(xiàn)語義消岐.通過計算各語義場中詞在文本中的重要程度來選取概念定義式(DEF),采用語義場密度進行度量,表現(xiàn)為語義場中詞在文本中出現(xiàn)的頻率之和.對于一個多義詞w,其第i個DEF的語義場密度定義如下所示:
式中:tj表示第i個語義場中第j個詞;f(tj)表示多義詞w的語義場中第j個詞在文本中出現(xiàn)的頻率;qi為第i個語義場中所有詞的個數(shù).語義場密度越大,語義場中的詞對文本就越重要,針對詞義消歧的DEF由下式確定:
2.1.2義原抽取
由知網(wǎng)的概念層次樹特點可知,義原在概念樹中的層次越深,所表達的含義就越具體,其描述能力就越強[23].可以認為,義原離概念樹根節(jié)點越遠,同時下位義原個數(shù)越少,該義原的描述能力就越強.義原權(quán)值計算如下所示:
式中:W(ZDEF,wj)為DEF中第j個義原ZDEF,wj的權(quán)值;Wtree為所在概念樹的權(quán)重;droot,j為義原j在概念樹中的層次;mj為義原j的下位義原數(shù);a、b、c為控制權(quán)值W(ZDEF,wj)取值的因子.最終,義原的選取由下式確定:
2.1.3概念向量空間構(gòu)建
在對文本、關(guān)鍵詞進行概念抽取后,即可構(gòu)建基于概念的向量空間.假設(shè)分詞和預(yù)處理后的文本d={t1,f1(d), …,ti,fi(d), …,tn,fn(d)},ti表示文本d中的第i個關(guān)鍵詞,fi(d)表示文本d中ti的詞頻,概念向量空間表示的生成算法如圖2所示.
針對所構(gòu)建的概念向量空間,利用頻繁模式增長(FP-growth)算法進行頻繁項集挖掘,但得到的頻繁項集存在冗余度高的問題.為此,采用相似度過濾獲取重要頻繁項集.首先剔除所有頻繁項集的子集,然后對剩余頻繁項集計算相似度.將頻繁項集相似度定義為Jaccard系數(shù)形式,如下所示:
式中:Ii表示頻繁項集i;J(Ii,Ij)表示Ii與Ij的
輸入:文本d的關(guān)鍵詞向量空間Vt(d)= (t1, f1(d), …, ti, fi(d), …, tn, fn(d)),閾值為θwhile d≠?且i≤n從d中依次取出關(guān)鍵詞ti;判斷關(guān)鍵詞ti在知網(wǎng)中是否存在;if ti為未登錄詞if fi(d)<θ去除;else ti的概念zi={ti},并將概念zi和詞頻fi(d)加到概念向量空間Vc(d)中;else 查詢知網(wǎng),獲取ti的概念if ti只有一個DEF定義計算每個義原的權(quán)值W(ZDEF,wj),選擇權(quán)值最大者作為ti的概念zi,并統(tǒng)計zi頻率,將zi加入至概念向量空間Vc(d)中;else 通過詞義消岐選擇ti的語義場密度最大的DEF,再選擇其中權(quán)值最大的義原計算頻率,作為ti的向量加入至概念向量空間Vc(d)中;i=i+1;endreturn 文本d的概念向量空間Vc(d)= {z1, f1(d), …, zi, fi(d), …, zk, fk(d)}
圖2 概念向量空間表示的生成算法
Fig.2 Generation algorithms for conceptual vectorspace representation
Jaccard系數(shù);|Ii∩Ij|表示Ii與Ij的交集元素個數(shù);|Ii∪Ij|表示Ii與Ij的并集元素個數(shù).若頻繁項集相似度大于設(shè)定值,則剔除,否則保留.將每一頻繁項集作為一個檢索詞串,從文本中查詢出相關(guān)文本集合.因此,兩個頻繁項集間的相似度計算就可由其相關(guān)文本集間相似度來替代,如下所示:
(1)
式中:Di和Dj分別為包含頻繁項集Ii和Ij的文本集;gi為頻繁項集Ii中詞的個數(shù);Wj為每個詞的權(quán)重;fjk為詞tj在文本dk中出現(xiàn)的次數(shù).設(shè)ζ為頻繁項集與文本間最小相似度,當Sim1(Ii,dk)≥ζ時,將文本dk劃分至頻繁項集Ii的相關(guān)文本集Di中.由此,即可得到頻繁項集相似度較高的文本集.
2.2.1文本潛在語義分析
潛在語義分析(LSA)是Scott等于1990年提出的一種索引與檢索方法[7].基于該方法的表示過程為矩陣奇異值分解(SVD)與降維,具體步驟如下所示:
(1) 分析文檔集,建立詞-帖子矩陣.假設(shè)帖子數(shù)量為n,涵蓋m個詞,Xm×n=(Xij)=(c1,c2, …,cn),Xij表示詞i在帖子j中出現(xiàn)的頻數(shù).
(2) 運用SVD將Xm×n分解為三個矩陣的乘積,Xm×n=USVT.其中,U和V分別為m×m與n×n的正交矩陣,S為對角矩陣,S的非零對角元素δi(i=1, 2, …,r)為矩陣Xm×n的奇異值,r為非零對角元素的個數(shù).
(3) 對SVD后的矩陣進行降維,剔除較小奇異值.計算得到原矩陣的相似矩陣X′,構(gòu)建潛在語義空間,將文檔向量與查詢向量映射至一個子空間,該空間中來自文檔矩陣的語義關(guān)系被保留,從而計算出帖子間的相似度.
2.2.2文本語義相關(guān)度度量
為充分考慮自然語言中所蘊涵的語義問題,提出將語義和統(tǒng)計相結(jié)合的文本語義相關(guān)度度量方法.在考察頻繁項集相關(guān)的文本集間相關(guān)度時采用以下兩種計算方式:基于Jaccard系數(shù)和基于SVD相似矩陣.基于Jaccard系數(shù)和基于SVD相似矩陣計算式如下所示:
(2)
式中:ci為文本集Di中所有文本合并生成的長向量;xir(r=1,2,…,R)為ci中的元素;Sim2(Di,Dj)和Sim3(Di,Dj)分別為基于Jaccard系數(shù)和基于SVD相似矩陣的潛在語義分析所計算的文本集語義相關(guān)度;Seqcom(*, *)為最終文本集之間的語義相關(guān)度.設(shè)η為文本集之間Jaccard系數(shù)最小語義相關(guān)度,ω為文本集間的潛在語義最小相似度,則Seqcom(*, *)計算按照以下策略進行:
步驟1計算度量文本集Di和Dj間語義相關(guān)度的Jaccard系數(shù).若J(Di,Dj)≥η,則Di和Dj語義相關(guān),否則執(zhí)行步驟2.
步驟2計算相關(guān)文本集Di和Dj間的潛在語義相關(guān)度cos(ci,cj),若cos(ci,cj)≥ω,則Di和Dj語義相關(guān),否則兩者不相關(guān).
2.2.3基于潛在語義分析的聚類
字符較多的頻繁項集表達完整且明確的主題,利用較長頻繁項集進行聚類所得到聚類數(shù)可作為總體頻繁項集V的初始聚類數(shù).選取較長頻繁項集集合I*={vi|vi∈V, |vi|>2},設(shè)定初始簇C1={v1|v1∈I*},初始簇集C={C1},初始簇數(shù)目K=1,則對?vi∈I*,依次比較vi與當前所有簇Ck∈C間的相似度.對較長頻繁項集聚類后將簇按大小排序,依次累計簇的元素個數(shù),直至累計之和大于集合I*長度的80%為止,此時已累計簇的數(shù)量即為預(yù)估的聚類數(shù)K.為此,頻繁項集與簇間的相似度計算如下所示:
對任一頻繁項集vi與簇Ck間的相似度,可利用vi與Ck中所有頻繁項集的平均相似度來計算.
輸入:重要頻繁項集集合V′={vi|vi=Ii, i=1, 2, …, N},用于挖掘頻繁項集的文本集D?={dj|j=1, 2, …, M},詞權(quán)重集W={Wp|p=1, 2, …, P},參數(shù)η、ω、ζ以及簇與頻繁項集間最小相似度γ初始化:初始化每個頻繁項集vi的相關(guān)文本集Di=?,?vi∈V′, dj∈D?,根據(jù)式(1)計算Sim1(vi, dj);if Sim1(vi, dj)≥ζ將dj加入至vi的相關(guān)文本集Di中;建立相似度矩陣X?,元素Wij由式(2)中的Sim2(Di, Dj)和Sim3(Di, Dj)比較得到;if Sim2(Di, Dj)=J(Di, Dj)≥ηWij=Sim2(Di, Dj);else if Sim3(Di, Dj)=cos(c1, c2)≥ωWij=Sim3(Di, Dj);else Wij=min{Sim2(Di, Dj), Sim3(Di, Dj)};endreturn 相似度矩陣X?;預(yù)估的聚類數(shù)K按照譜聚類算法對頻繁項集進行聚類
圖3 基于頻繁項集和潛在語義的聚類算法
Fig.3 Clustering algorithm based on frequent item-sets and latent semantics
基于主題簇的主題詞抽取,主要從詞性、詞頻、詞的簇內(nèi)支持度以及詞的簇間區(qū)分度綜合考慮.有關(guān)詞tki的主題詞分值計算式如下所示:
式中:fi為詞tki在高質(zhì)量文本集中出現(xiàn)的頻率;Sk(i)為簇Ck中包含詞tki的頻繁項集的個數(shù);IKey為重要頻繁項集集合;|Ii| (Ii∈IKey)為包含詞tki的頻繁項集個數(shù);|Ci|為包含詞tki的聚類數(shù);|C|為總聚類數(shù);W(i)為詞tki的詞性權(quán)重.
短文本聚類可看作在主題詞基礎(chǔ)上進行信息檢索,尋找出與短文本di(di∈D)相似度較大的聚簇Ck(Ck∈C),簇與短文本相似度度量依據(jù)式(1)計算.TSC-SN算法允許同一文本劃分至多個主題.設(shè)文本與聚簇間的相似度閾值為λ,簇間非重疊度參數(shù)pnol的臨界值為δ.主題詞集Tk與短文本di間的相似度Sim1(Tk,di)>λ時,將文本劃分至相似度大于λ的若干個聚簇中,實現(xiàn)文本與主題間一對多的對應(yīng)關(guān)聯(lián).pnol的計算式如下所示:
式中:N為文本總數(shù);|Cij|為初始簇Ci經(jīng)過第j次文本劃分后所包含的文本數(shù);K′為主題簇個數(shù).基于TSC-SN算法的文本軟聚類算法的具體步驟如下所示:
步驟1計算短文本di∈D與簇Ck∈C的主題詞Tk={tk1,tk2, …,tks}間的相似度,將短文本di劃分到相似度最大的簇,即argmax(Sim1(Tk,di)).
步驟2降低相似度閾值θ,θ∈[0, 1],可從1開始逐漸下調(diào).選定θ后將Sim1(Tk,di)>θ時的文本劃分至相似度大于θ的若干簇中.
步驟3計算在選定θ下的pnol,若pnol≤δ,則聚類結(jié)束.
步驟4重復步驟2和步驟3,直至pnol≤δ.
在對主題詞相關(guān)的文本進行檢索時,控制短文本與主題簇之間的θ,不斷降低θ,計算每次降低后的總體文本pnol,直到滿足pnol≤δ為止.由此,既可控制總體文本重疊度,又可實現(xiàn)文本軟劃分.
實驗數(shù)據(jù)來源于新浪財經(jīng)股吧論壇,涵蓋2015年5月至2015年12月期間與七個股市熱點事件相關(guān)的64 286條評論數(shù)據(jù),日均股評發(fā)帖量262條.該期間內(nèi)國內(nèi)股市行情波動較大,經(jīng)歷比較明顯的上漲和下跌,并且引發(fā)股民熱烈討論,有利于論壇中多樣化主題和熱點的挖掘.基于在線股評數(shù)據(jù),根據(jù)知網(wǎng)中所蘊含的概念上下位關(guān)系,知網(wǎng)中的義原共構(gòu)成“事件樹”、“實體樹”、“專有名詞樹”、“屬性樹”、“次特征樹”等九棵概念樹.鑒于名詞與動詞更能體現(xiàn)文本的語義內(nèi)涵,賦予“實體樹”和“事件樹”更高的權(quán)重,分別設(shè)置為1.00和0.25.“次特征樹”中“領(lǐng)域”分支下的義原能加強文本的主題區(qū)分度,將其權(quán)重設(shè)置為0.15.“專有名詞樹”主要涵蓋國家名稱義原,但這些詞本身已是不可再分的語義單位,因此這類義原不參與概念抽取,將其權(quán)重設(shè)為0.其他概念樹中所包含的概念對文本類別區(qū)分的貢獻都比較小,相應(yīng)權(quán)重均設(shè)置為0.1.針對義原權(quán)值W(ZDEF,wi)計算中所涉及的三個參數(shù)a、b、c,分別設(shè)置為1.50、5.00和0.15.經(jīng)過文本預(yù)處理后所得到的關(guān)鍵詞數(shù)為46 382,特征空間的概念數(shù)為19 075,特征空間維度縮減58.9%,有效緩解概念向量空間表示中所存在的高維度問題.
3.1.1重要頻繁項集數(shù)的參數(shù)分析
為通過頻繁項集過濾策略獲得比較完整與冗余性低的重要頻繁項集集合,特別分析最小支持度min_sup和頻繁項集間的Jaccard系數(shù)最大相似度α與重要頻繁項集個數(shù)的關(guān)系,分別設(shè)置α的不同取值,觀測每個取值下過濾后的重要頻繁項集數(shù)與最小支持度min_sup之間的變化規(guī)律,如圖4所示.
由圖4可知,在α的不同設(shè)置中,過濾后的頻繁項集占頻繁項集總數(shù)的百分比均不超過20%,有利于提高頻繁項集聚類的效率.為挖掘出更多的頻繁項集,這里將min_sup設(shè)置較低,由此可得到大量包含主題信息的頻繁項集,再通過過濾策略得到高質(zhì)量的重要頻繁項集.過濾策略的方法復雜度低,不會增加過多的時間消耗.α設(shè)置越高,過濾后的重要頻繁項集所占百分比越高.當α取值為0.4與0.5時,重要頻繁項集的百分比相差較小;當α取值為0.6時,重要頻繁項集的百分比顯著增大.這主要是因為基于FP-growth算法挖掘獲取的頻繁項集中包含大量3-項集.當α取值為0.4或0.5時,兩個3-項集中若有兩個重疊項,則被過濾掉;當α取值為0.6時,兩個3-項集都會被保留.這說明α取值為0.6是不合理的,會造成大量冗余頻繁項集未被過濾.另外,過濾后頻繁項集的比例與min_sup成反比關(guān)系,這是因為min_sup越高就會產(chǎn)生越多的1-項集和2-項集,這些項集幾乎是其他頻繁項集的子集,很容易被過濾掉,使得重要頻繁項集的比例降低.
圖4 過濾后頻繁項集所占百分比與最小支持度的關(guān)系
Fig.4 Relationship between frequent item-sets proportion and minimum support degree after filtering
3.1.2聚類數(shù)的參數(shù)分析
為進一步分析min_sup與α、頻繁項集與頻繁項集簇間最小相似度β對預(yù)估聚類數(shù)的影響,選取min_sup∈{20, 25, 30, 40, 50, 60}、α∈{0.4, 0.5, 0.6}以及β∈{0.2, 0.4, 0.6}時來預(yù)估聚類數(shù),實驗結(jié)果如表1所示.
表1 針對不同參數(shù)的預(yù)估聚類數(shù)比較
由表1可知,聚類數(shù)隨著min_sup和α的增加而逐漸減小,主要因為min_sup增加時一些話題無法產(chǎn)生較長頻繁項集,在預(yù)估聚類數(shù)時直接將其忽略.另外,當α增加時,新增加的頻繁項集往往被分配到規(guī)模較大的前幾個頻繁項集簇中,而在估計聚類數(shù)時選擇頻繁項集累計總數(shù)占總頻繁項集數(shù)80%以上的簇個數(shù)作為聚類數(shù).因此,當更多頻繁項集劃入較大規(guī)模的簇中時,聚類數(shù)會減少.此外,β對預(yù)估聚類數(shù)影響較大.當β設(shè)置為0.2或0.4時,針對α和min_sup的不同設(shè)置,聚類數(shù)相近并且比較穩(wěn)健.當β設(shè)置為0.6時,原來比較相似的簇會被劃分成更小的簇,聚類數(shù)也明顯增多.
綜合上述分析,考慮效率與準確性的平衡,設(shè)定min_sup=25、α=0.6以及β=0.4.
3.2.1主題詞提取
將名詞、動詞與形容詞的權(quán)重分別設(shè)定為1.00、0.25和0.15,按前文方法對主題詞簇中每個詞打分后,選擇排序在前τ位的詞為該簇主題詞,這里設(shè)定τ=4.針對聚類數(shù)K不同設(shè)置的各事件主題詞提取結(jié)果如表2所示.
由表2可知:當聚類數(shù)K=7時,股市暴跌這一事件分裂為兩個子主題,一類討論股市暴跌時國家是否會及時出臺救市政策,另一類討論暴跌所帶來的恐慌情緒與投資者信心受挫,通過股吧論壇原文數(shù)據(jù)分析可發(fā)現(xiàn),對于股市暴跌這一事件的討論詞區(qū)分度較大,一定程度上說明股市暴跌時投資者情緒波動較大,意見分歧明顯;當聚類數(shù)K=8時,救市事件也被分裂為兩個子主題,一類討論國家出臺相關(guān)救市政策及影響,另一類討論為防止大盤崩盤央行緊急制定各種政策;當聚類數(shù)K=6時,這些分裂簇會消失,其他簇則幾乎不變.這說明本文所選取的聚類方法在主題抽取方面比較穩(wěn)定且準確.
表2 針對聚類數(shù)K不同設(shè)置的各事件主題詞提取結(jié)果
注:ETF為交易型開放式指數(shù)基金; IPO為首次公開募股.
3.2.2文本聚類
通過計算文本與頻繁項集簇中主題詞之間的相似度,將文本劃分至相似度最高的主題詞簇下,圍繞2015年股市大幅下跌前后的評論數(shù)據(jù)進行文本聚類,部分聚類結(jié)果如圖5所示.
圖5 基于頻繁項集的短文本聚類部分結(jié)果
首先根據(jù)argmax(Sim1(Tk,di))將短文本di劃分至相似度最大的簇中,此時pnol=1,對應(yīng)圖5中第一次聚類結(jié)果;若設(shè)定δ=0.8,則降低θ(θ∈[0, 1]).選定θ=0.6,將符合Sim1(Tk,di)>0.6的文本劃分至相似度大于0.6的若干簇中,對應(yīng)圖5中第二次聚類結(jié)果,此時再次計算θ=0.6下的pnol(0.916).因pnol>δ,需重復調(diào)低θ值,將文本進行軟劃分之后再計算pnol.隨著θ值增大,pnol呈現(xiàn)緩慢上升趨勢,這是因為聚類文本長度較短,大部分僅表達一個主題,少數(shù)文本與多個主題簇之間相似度均較高.有關(guān)pnol隨文本與θ變化情況,如圖6所示.
圖6 聚類簇間非重疊度與文本-簇相似度閾值關(guān)系
Fig.6 Relationship between non-overlapping degree of clusters and text-cluster similarity threshold
通過重復對θ進行取值與文本軟劃分,發(fā)現(xiàn)將θ取值為0.4時所計算出的pnol=0.762,滿足終止條件pnol<δ=0.8.
針對頻繁項集聚類效果的評估,選擇聚類后簇內(nèi)平均緊密度c與簇間平均分離度s作為比較對象,計算式如下所示:
式中:uk為聚類簇Ck的中心向量;ui與uj分別為不同聚類簇的中心向量;l為歐氏距離.高質(zhì)量的聚類算法應(yīng)具有低簇內(nèi)緊密度和高簇間分離度.整體性能評估采用涵蓋準確率、召回率及F值,F(xiàn)值為準確率與召回率的加權(quán)平均.考慮到當α∈{0.4, 0.6}與β∈{0.2, 0.4}時,所估計的聚類數(shù)集中分布在{6, 7, 8},因此將聚類數(shù)K值設(shè)置為6、7、8.
3.3.1頻繁項集聚類性能對比分析
為驗證基于知網(wǎng)獲取概念向量空間TSC-SN算法的性能,選取基于關(guān)鍵詞向量空間的V_SC譜聚類算法、V_K-means算法、V_TSC-SN算法進行比較.因四種聚類算法并非都在歐氏空間進行聚類,無法直接比較算法的簇內(nèi)平均緊密度c與簇間平均分離度s,因而選擇比值c/s作為評價指標.四種算法的參數(shù)設(shè)置均相同,對比結(jié)果如表3所示.
表3 四種聚類算法的性能對比
由表3可知,針對不同聚類數(shù),TSC-SN算法和V_TSC-SN算法的c/s值小于V_SC與V_K-means算法,相比于基于歐氏空間的距離度量法,TSC-SN算法的頻繁項集聚類效果更優(yōu).TSC-SN算法的c/s值也小于V_TSC-SN算法,說明基于知網(wǎng)獲取概念向量空間的聚類結(jié)果優(yōu)于基于關(guān)鍵詞向量空間的聚類結(jié)果,驗證了本文算法的有效性.
3.3.2主題發(fā)現(xiàn)性能對比分析
為評估本文算法所獲取的主題類別效果,計算出相應(yīng)的最大F值,如表4所示.
表4 不同事件的文本聚類整體性能
由表4可知,在本文所提出的基于頻繁項集和潛在語義相結(jié)合的論壇主題發(fā)現(xiàn)算法框架下,不同事件的最大F值整體上均較高.當K為7時,大部分事件的最大F值優(yōu)于K取6與8時的情況.另外,K為6與7時,不同事件的最大F值相差較小,因為“大盤暴跌”和“投資者恐慌”這兩個主題經(jīng)常同時出現(xiàn),文本軟劃分時這兩個主題簇重疊度較高.
為進一步驗證本文算法在基于文本聚類的主題發(fā)現(xiàn)上的整體性能,選取基于關(guān)鍵詞向量空間的V_EM算法、V_K-means算法、V_TSC-SN算法以及基于概念向量空間但未考慮潛在語義的C_TSC-SN算法進行比較,結(jié)果如圖7所示.
由圖7可知,TSC-SN算法的整體性能最優(yōu),F(xiàn)值最大.V_EM和V_K-means算法的整體性能F值均低于其他三種算法.這主要是因為大部分文本較短,從而造成向量空間的稀疏性,使得僅從歐氏距離度量相似度比較低效,由此得到聚類中心向量所表達的主題不集中,聚類結(jié)果不理想.TSC-SN算法與V_TSC-SN算法相比,前者略優(yōu)于后者,兩種算法效果優(yōu)于C_TSC-SN算法,說明結(jié)合潛在語義進行相似度分析后所得到的主題簇更為全面.
圖7 不同聚類算法F值對比
Fig.7 Comparison ofF-measure values among different clusting algorithms
3.3.3時間性能對比分析
為驗證TSC-SN算法的時間性能,選取基于概念向量空間的C_K-means算法、V_SC算法進行比較,實驗結(jié)果如圖8所示.
圖8 不同聚類算法時間性能對比
由圖8可知,TSC-SN算法在時間性能上表現(xiàn)最優(yōu),并且隨著文本數(shù)量的增加運行時間增加較為緩慢.比較TSC-SN和V_SC的運行時間可見,基于知網(wǎng)獲取概念向量空間后可有效緩解短文本高維度問題,降低算法運行時間.
針對股評論壇主題發(fā)現(xiàn)問題,提出利用頻繁項集和潛在語義相結(jié)合的框架從在線股評抽取主題詞,使用TSC-SN算法基于主題詞進行文本檢索以實現(xiàn)文本軟聚類,進而獲取股評論壇相關(guān)文本的主題.實驗結(jié)果表明,該方法具有明顯優(yōu)勢.利用潛在語義信息與多層次聚類優(yōu)化策略,是提高大規(guī)模短文本聚類效果以獲取文本主題的有效方式.未來研究將進一步拓展目前的整體框架與文本情感傾向性分析的融合,考慮短文本中修飾詞、專有詞項的詞法層檢測和語義層分析,充分利用短文本中的多樣性信息,延伸更為深層次的主題發(fā)現(xiàn)與情感獲取.