李 欣,李 旸,王素格,3
(1. 山西職工醫(yī)學(xué)院 信息中心,山西 晉中 030619;2. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
隨著新興電子商務(wù)平臺(tái),微博和微信等社交媒體的廣泛使用,人們?cè)谙硎芑ヂ?lián)網(wǎng)技術(shù)帶來便利的同時(shí),也用文字記載了自己的心情、狀態(tài)、評(píng)價(jià)和觀點(diǎn)。通過挖掘海量微博和評(píng)論文本等社會(huì)媒體數(shù)據(jù),可以獲得用戶對(duì)產(chǎn)品的情感傾向(褒揚(yáng)或者貶斥),從而指導(dǎo)企業(yè)的決策以及個(gè)人的消費(fèi)行為[1-2]。有監(jiān)督的機(jī)器學(xué)習(xí)方法需要大量的帶標(biāo)簽的文本數(shù)據(jù),而無監(jiān)督的文本聚類方法可以克服這一不足[3]。
目前,聚類方法在文本數(shù)據(jù)挖掘中發(fā)揮了重要作用,情感聚類的相關(guān)研究也備受關(guān)注[4]。情感聚類常面臨三個(gè)困難: 首先,由于聚類算法的無指導(dǎo)性,使聚類結(jié)果總是沿著文本最顯著的特點(diǎn)聚簇。而文本一般是按照一定的主題進(jìn)行組織,因此,情感聚類結(jié)果的準(zhǔn)確率并不高;其次,由于用戶表達(dá)的感受和觀點(diǎn)等情感蘊(yùn)含在評(píng)論中,其特征表現(xiàn)并不明顯。從大量的特征中難以實(shí)現(xiàn)情感特征的有效分離;再次,海量的文本數(shù)據(jù)也存在文本表示的高維和稀疏問題。為了解決這些問題,一些研究者試圖對(duì)傳統(tǒng)的聚類算法進(jìn)行改進(jìn)。希望獲得較高的聚類精度,另一些則從特征選擇和文本間距離度量等方面展開研究,然而,這些方法過多地依賴人工參與及反饋,且不能有效解決文本向量表示的高維和稀疏問題。
為了充分利用文本的上下文信息,獲取文本的語義特征,同時(shí)降低文本表示的維度和稀疏性,本文從文本相似度計(jì)算角度出發(fā),提出一種基于子空間的文本語義相似度計(jì)算方法(RESS)。該方法分別構(gòu)建文本相關(guān)度子空間(RSS)和文本情感子空間(ESS),在此基礎(chǔ)上計(jì)算文本集的語義相似度,構(gòu)建相似度矩陣,最后采用聚類算法實(shí)現(xiàn)情感聚類。
近幾年,情感分析技術(shù)為各行各業(yè)及政府提供了重要的信息,體現(xiàn)著不可估量的價(jià)值,這些應(yīng)用推動(dòng)了情感分析技術(shù)的發(fā)展。Pang等[5]人首次使用監(jiān)督學(xué)習(xí)方法在電影評(píng)論領(lǐng)域做了情感分類研究,2001年,Sanjiv等[6]人設(shè)計(jì)出在經(jīng)濟(jì)領(lǐng)域進(jìn)行實(shí)時(shí)情感挖掘和分析系統(tǒng),采用分類算法獲取股民對(duì)股票投資的觀點(diǎn)傾向,并分析股票走勢對(duì)金融市場和股民情緒的影響。隨著網(wǎng)絡(luò)評(píng)論文本的指數(shù)級(jí)增長,采用無監(jiān)督的聚類方法進(jìn)行情感分析也備受關(guān)注。研究者主要從聚類算法的層面進(jìn)行改進(jìn),如重構(gòu)文本聚簇[7]、添加約束條件[8]、構(gòu)建新特征空間[9]、引入反饋機(jī)制[10]等。而這些方法過多地依賴人工參與和人類反饋,甚至需要人工閱讀大量的評(píng)論文本,既耗時(shí)又費(fèi)力。隨著研究的深入,人們漸漸發(fā)現(xiàn),對(duì)文本情感聚類的研究不能停留在算法層面,情感因素的表示、文本特征選擇直接影響著聚類結(jié)果,在特征選擇、文本距離度量等方面開展了大量的研究。
詞特征的選擇是文本情感分析的關(guān)鍵步驟,Ellen等[11]人在情感分析和觀點(diǎn)挖掘的任務(wù)中使用詞、n元語法、短語和詞匯語義規(guī)則進(jìn)行文本表示,并使用詞語包容關(guān)系所構(gòu)建的層次結(jié)構(gòu)識(shí)別復(fù)雜特征和約簡冗余特征。實(shí)驗(yàn)表明這種特征選擇方法可以改善情感分析效果。Feng等[12]人認(rèn)為博客文本中的情感傾向性在網(wǎng)絡(luò)中服從一定的分布。它與已有博文聚類方法不同的是,他們認(rèn)為對(duì)于文本特征表示,挖掘博文中潛在的情感因素比抽取其關(guān)鍵詞更重要。文中提出了一種概率潛在語義分析方法,首先為隱含的情感因子建模,然后對(duì)文本進(jìn)行聚類。黃永光等[13]人分析了網(wǎng)絡(luò)中存在的大量不規(guī)范的文本數(shù)據(jù)。這些不僅長度短,而且語言用詞極不規(guī)范。針對(duì)此類問題他們提出的一種“規(guī)范文本——拼音串匹配——搜索聚類”處理流程,很好地提高了變異短文本的聚類性能。文本聚類技術(shù)有效性的前提是為文本選取合適的特征。但在短文本中,由于特征的稀疏性,單純使用統(tǒng)計(jì)分析方法存在很多弊端。因此,Makrehchi等[14]人在《同義詞詞林》的基礎(chǔ)上,考慮語義和統(tǒng)計(jì)特性,選擇最佳特征,使得聚類性能也得到了提升。傳統(tǒng)的文本聚類方法,都是在詞匯特征的基礎(chǔ)上,加入一些簡單的語義信息。如利用WordNet獲得同義或反義關(guān)系,而沒有利用任何基于短語的語義分析。Zheng等[15]人從名詞短語的角度挖掘更多的語義信息(上位關(guān)系、下位關(guān)系、整體部分關(guān)系),改進(jìn)了基于WordNet的聚類方法,獲得了更好的效果。由于特征集過大使得文本表示維度過高,特征集過小,導(dǎo)致文本表示稀疏,信息表現(xiàn)不完整。Jing等[16]人提出一種新的基于知識(shí)的向量空間模型,這種模型考慮了文檔之間的非相似性,與傳統(tǒng)的只考慮文檔之間的相似性方法相比,提高了文本聚類的性能。王素格等[17]人針對(duì)文本情感分類中的數(shù)據(jù)稀疏問題,提出一種新的文本表示模型。該模型利用模糊粗糙理論對(duì)文本屬性特征進(jìn)行離散化處理,對(duì)包含情感傾向意義的屬性加權(quán)。計(jì)算屬性對(duì)于情感類別的隸屬度,實(shí)現(xiàn)屬性特征的壓縮,提高情感分類效果。夏云慶等[18]人針對(duì)歌詞情感分析問題,提出了基于情感單元的情感向量空間模型。該模型能夠有效地解決文本表示效率、歧義、情感功能、數(shù)據(jù)稀疏等方面的不足,提高情感分類的效果。針對(duì)微博情感分析問題,劉全超等[19]利用微博內(nèi)容和轉(zhuǎn)發(fā)等特征,構(gòu)建基于短語路徑的微博文本情感傾向性判定方法,提高情感分類性能。
傳統(tǒng)的文本表示方法將所有的文本構(gòu)建在共同的特征空間上。文本集的特征個(gè)數(shù)作為向量的維度,特征數(shù)越多,則每篇文本的信息表現(xiàn)得越完整。但同時(shí)增加了向量的維度,提高了計(jì)算的復(fù)雜度。相反,特征數(shù)越少,雖然降低了計(jì)算的復(fù)雜度,但同時(shí)減少了文本向量所包含的信息量。針對(duì)情感聚類中文本-特征向量的高維和稀疏問題,以及對(duì)評(píng)論文本潛在情感因素的表示問題,本文從子空間角度出發(fā),構(gòu)建文本集的語義相似度矩陣。
在文本情感聚類中,文本相似度既要充分考慮文本在分布上的相關(guān)性,又需要計(jì)算文本間的情感相關(guān)度。因此,本文分別為數(shù)據(jù)集構(gòu)建相關(guān)性子空間(RSSV)和情感子空間(ESSV),計(jì)算基于相關(guān)性和情感相融合的文本語義相似度(RESS),在此基礎(chǔ)上進(jìn)行文本情感聚類。其流程圖如圖1所示。
圖1 基于RESS的文本情感聚類流程
文本是由詞組成的。在聚類過程中,詞語之間的相關(guān)度直接影響到文本相似性計(jì)算和文本聚類效果。對(duì)本文所使用的語料集進(jìn)行統(tǒng)計(jì)和分析發(fā)現(xiàn),當(dāng)文本數(shù)據(jù)為2 000篇時(shí),詞數(shù)可達(dá)近20 000個(gè),這些詞語以其復(fù)雜的關(guān)系構(gòu)成了不同的表達(dá)。因此,詞語相關(guān)度度量是文本表示和文本聚類研究的前提和基礎(chǔ)。
詞語相關(guān)度反映了詞語在語法、語義及語用方面的關(guān)聯(lián)程度。常用的詞語相關(guān)度計(jì)算方法有兩種: 一種是基于本體知識(shí)庫(如HowNet、WordNet、同義詞詞林、情感詞典[20]等)的方法。這種方法把詞語作為本體知識(shí)網(wǎng)中的節(jié)點(diǎn),通過計(jì)算節(jié)點(diǎn)之間的距離獲得詞語之間的相關(guān)性。該方法簡單、直觀,但由于對(duì)外部資源的依賴性強(qiáng),因此在解決多領(lǐng)域和跨領(lǐng)域問題時(shí)會(huì)表現(xiàn)出一定的局限性;另一種是基于大規(guī)模語料庫的統(tǒng)計(jì)方法。該方法建立在滿足以下假設(shè)的前提上: 凡是語義相近的詞,其上下文也相似。對(duì)于大規(guī)模語料資源,這一假設(shè)是成立的。統(tǒng)計(jì)兩個(gè)詞語在特定窗口中同時(shí)出現(xiàn)的頻率,頻率越大,其相關(guān)性越大?;诮y(tǒng)計(jì)的方法表面上計(jì)算孤立的兩個(gè)詞語之間的關(guān)聯(lián)關(guān)系,實(shí)際上也利用了詞語所在的上下文信息。本文采用基于語料庫統(tǒng)計(jì)的方法計(jì)算詞語相關(guān)度。
假設(shè)ti,tj是文本集中兩個(gè)特征詞,rel(ti,tj)表示ti與tj的相關(guān)度,采用加權(quán)對(duì)數(shù)似然比(WLLR)方法,其公式如式(1)所示。
(1)
由于自然語言表達(dá)的豐富性,在文本相關(guān)性度量中,為了降低向量維度,減少數(shù)據(jù)的稀疏性,同時(shí)利用文本的特征信息,本文將文本向量建立在以任意兩篇文本及其特征所構(gòu)成的子空間上。子空間的維度最大不超過兩篇文本中詞的個(gè)數(shù)。在以兩篇文本構(gòu)成的子空間上構(gòu)建特征向量,不但降低了向量維度,而且能夠充分利用文本的詞信息。
設(shè)評(píng)論文本數(shù)據(jù)集X={x1,x2,…,xN},xi表示第i篇評(píng)論文本,N表示評(píng)論文本的總數(shù),T={t1,t2,…,tn}是X的原始特征集,n表示特征個(gè)數(shù),假定Θ(X,T)表示文本集的原始特征空間。
對(duì)于xi,xj∈X,T1={t1,t2,…,tp}?T表示xi,xj中所有非停用詞構(gòu)成的特征詞集。其中,p表示特征個(gè)數(shù)。采用T1為文本xi,xj構(gòu)建基于相關(guān)度的特征子空間Θ1((xi,xj),T1),Θ1?Θ。用vi={wi1,wi2,…,wip}表示文本xi的特征向量表示。其中,wik(k=1,…,p)表示文本xi在特征tk下的權(quán)重,其計(jì)算的規(guī)則如下:
(1) 若文本xi中包含特征詞tk,則wik=1;
(2) 若文本xi中不包含特征詞tk,wik=maxt∈xirel(tk,t)。其中,rel(tk,t)表示tk與xi中詞t的相關(guān)度,采用式(1)計(jì)算。
與傳統(tǒng)的向量空間表示不同,基于RSSV的文本表示為數(shù)據(jù)集中任意兩篇文本xi,xj構(gòu)建向量子空間,其向量模型見表1所示。
表1 基于RSSV的文本向量模型
評(píng)論者發(fā)表其觀點(diǎn)時(shí),常常隱含著其情感傾向和情緒表達(dá)。因此,包含傾向的觀點(diǎn)詞可以用情感向量表示。由于文本是詞的集合,對(duì)觀點(diǎn)詞向量進(jìn)行疊加,可以獲得文本的情感向量表示,構(gòu)建文本情感子空間。
2.3.1 情感特征集
對(duì)于產(chǎn)品評(píng)論和微博,評(píng)論者通常采用情緒詞表達(dá)個(gè)人的觀點(diǎn)和情感傾向。例如“這款三星用著真心不爽?。?!”其中,“不爽”是一個(gè)表示情緒的貶義詞,評(píng)論者以此表達(dá)對(duì)“這款三星手機(jī)”的差評(píng)。由此可見,評(píng)論者的心情能夠反映其對(duì)產(chǎn)品的態(tài)度。在語料庫中,很多評(píng)論文本所持有的觀點(diǎn)是通過評(píng)論者“喜”、“怒”、“哀”、“樂”的情緒表達(dá)的,因此,在情感子空間中,情感特征詞應(yīng)同時(shí)考慮到情緒詞和觀點(diǎn)詞。
對(duì)于第k個(gè)文本特征詞tk∈T,用情感特征集M={M1,M2,…,M12}構(gòu)建特征詞的情感向量。對(duì)于不同的數(shù)據(jù)集,情感特征集M的選擇也是不同的。
對(duì)于英文數(shù)據(jù)集,采用Mitral[21]等人提出的情緒類別劃分方式[22-23],使用“anger”、“disgust”、“fear”、“guilt”、“sadness”、“shame”、“interest”、“joy”、“surprise”、“desire”、“l(fā)ove”、“courage”共12個(gè)基本情緒構(gòu)成情感特征集M。
對(duì)于中文數(shù)據(jù)集,在情感類別的劃分方面至今還沒有統(tǒng)一標(biāo)準(zhǔn)。本文采用林鴻飛[24]的分類方法,在七個(gè)基本情感類別(“恐懼”、“憤怒”、“厭惡”、“悲傷”、“驚訝”、“高興”、“喜好”)的基礎(chǔ)上,參考英文情感類的劃分,并對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)和分析。在中文數(shù)據(jù)集的每個(gè)領(lǐng)域均增加五個(gè)與領(lǐng)域相關(guān)的觀點(diǎn)詞,分別是: 保險(xiǎn)領(lǐng)域: “煩人”、“可惡”、“缺德”、“失望”、“不錯(cuò)”;翡翠領(lǐng)域: “漂亮”、“溫潤”、“精致”、“圓潤”、“均勻”;手機(jī)領(lǐng)域: “失望”、“郁悶”、“傷心”、“不錯(cuò)”、“爽”,將情感類別擴(kuò)充到12類,分別作為每個(gè)數(shù)據(jù)集的情感特征集M。
2.3.2 文本情感子空間(ESSV)
(2)
對(duì)于文本情感聚類,常常面臨聚類的方向和結(jié)果不是情感相關(guān)的。為了解決這一問題,我們提出一種基于RSSV和ESSV融合的文本語義相似度計(jì)算方法(RESS),在文本相關(guān)性子空間Θ1和文本情感子空間Θ2結(jié)合的基礎(chǔ)上,構(gòu)建文本語義空間Θ1∪Θ2∈Θ。
在語義空間中,依據(jù)Θ1有效地解決文本向量的高維問題,實(shí)現(xiàn)文本表示的有效降維;依據(jù)Θ2將數(shù)據(jù)集的原始空間映射到情感空間,實(shí)現(xiàn)文本表示的情感因素表達(dá)。
對(duì)于文本向量xi和xj,基于相關(guān)性的文本相似度S1(xi,xj)計(jì)算如式(3)所示,其中,vi,vj分別為文本xi,xj的相關(guān)性特征向量表示。
(3)
(4)
基于RESS的xi和xj文本相似度S(xi,xj)計(jì)算如式(5)所示。
S(xi,xj)=αS1(xi,xj)+(1-α)S2(xi,xj)
(5)
其中α取值范圍為(0,1)。當(dāng)α→0時(shí),S(xi,xj)→S2(xi,xj);當(dāng)α→1時(shí),S(xi,xj)→S1(xi,xj)。
本文所使用的語料包含英文語料和中文語料。英文語料來自亞馬遜網(wǎng)站的產(chǎn)品評(píng)論數(shù)據(jù)。含概Book、DVD、Electronic和Kitchen四個(gè)領(lǐng)域,每個(gè)領(lǐng)域包含2 000篇文本,文本情況統(tǒng)計(jì)見表2;中文語料來自第六屆中文傾向性分析評(píng)測(COAE2014),包含保險(xiǎn)、翡翠、手機(jī)三個(gè)領(lǐng)域的的微博數(shù)據(jù),文本情況統(tǒng)計(jì)見表3。
表2 英文數(shù)據(jù)集文本情況統(tǒng)計(jì)
表3 中文數(shù)據(jù)集文本情況統(tǒng)計(jì)
本文的實(shí)驗(yàn)主要對(duì)產(chǎn)品評(píng)論文本進(jìn)行正面和負(fù)面兩極情感聚類。為了驗(yàn)證聚類結(jié)果的有效性,采用純度和F值兩個(gè)聚類性能評(píng)價(jià)指標(biāo)[25]。所有實(shí)驗(yàn)的聚類方法均采用K-means聚類方法。
在第2.4節(jié)中提出,基于RESS的文本相似度計(jì)算需要確定α參數(shù)。為了分析基于RSSV的文本相關(guān)度和基于ESSV的文本相關(guān)度對(duì)于RESS的文本相似度的影響,本文對(duì)α取值為[0,0.1,…,1],采用圖示的形式分別展示中、英文數(shù)據(jù)集聚類的F值,如圖2、圖3所示。
圖2 英文數(shù)據(jù)集中不同參數(shù)α下的聚類F值
圖3 中文數(shù)據(jù)集不同參數(shù)α下的聚類F值
從圖2和圖3中可以看出,對(duì)于中、英文數(shù)據(jù)集,當(dāng)參數(shù)α取值為0.6~0.9時(shí),比取值為0.1~0.5所獲得的聚類結(jié)果更好。這表明文本的上下文(相關(guān)性因素)比情感因素在表達(dá)文本語義相似度時(shí)能夠提供更有價(jià)值的信息,獲得更好的聚類結(jié)果。英文數(shù)據(jù)集的聚類性能峰值保持在參數(shù)取值為0.8~0.9之間,說明情感因素在聚類中并未起到很好的作用。而中文數(shù)據(jù)集的聚類結(jié)果峰值在參數(shù)α取值為0.5-0.9之間,這說明情感因素和語義因素共同作用能夠獲得更好的聚類結(jié)果。尤其對(duì)于手機(jī)數(shù)據(jù)集,當(dāng)參數(shù)α取0.5時(shí),聚類效果最好。
通過對(duì)數(shù)據(jù)集的分析發(fā)現(xiàn),上述聚類結(jié)果與ESSV方法中情感特征集的選取密切相關(guān)。對(duì)于英文數(shù)據(jù)集,不同領(lǐng)域選取相同的情感特征詞,沒有考慮領(lǐng)域相關(guān)的情感特征;對(duì)于中文數(shù)據(jù)集,在確定情感類別時(shí)采用基于統(tǒng)計(jì)的方法,為不同領(lǐng)域選取一定的領(lǐng)域相關(guān)的特征詞作為補(bǔ)充。情感特征集包含了通用情感詞和領(lǐng)域相關(guān)的情感詞。這種情感特征選擇方法能更好地刻畫文本中潛在的情感因素,提升情感聚類性能。這也說明,情感集的選定也是影響情感聚類結(jié)果的一個(gè)重要因素。
為了驗(yàn)證語義子空間對(duì)文本向量表示的有效降維,本文針對(duì)英文數(shù)據(jù)集和中文數(shù)據(jù)集,對(duì)在原始空間Θ和文本語義子空間Θ1∪Θ2的文本向量表示進(jìn)行對(duì)比,結(jié)果如表4所示。
表4 數(shù)據(jù)集在Θ和Θ1∪Θ2的特征數(shù)量
從表4中可以看出,對(duì)于中、英文文本數(shù)據(jù),采用子空間的文本表示和采用原始特征空間的文本表示在選取的文本特征數(shù)量上存在量級(jí)的差別。比如,對(duì)于Book數(shù)據(jù)集的2 000篇文本,在Θ空間中選取的特征數(shù)量為18 835個(gè),在Θ1∪Θ2空間特征最多只有2 636個(gè);對(duì)于來自微博的中文數(shù)據(jù)集則更少,保險(xiǎn)領(lǐng)域的2 153篇文本在Θ空間中選取的特征數(shù)為7 293,在Θ1∪Θ2子空間,特征數(shù)最多為134個(gè)。這表明采用語義子空間的文本表示能有效地解決文本向量表示的高維問題。
為了進(jìn)一步驗(yàn)證語義子空間表示對(duì)文本情感聚類的有效性,本文在中英文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別使用基于TF-IDF方法和使用基于概念詞典(WordNet、HowNet)的方法構(gòu)建文本相似度矩陣,聚類的比較結(jié)果如表5所示。
從表8中可以看出,本文的方法比采用傳統(tǒng)的TF-IDF以及概念詞典的文本相似度方法具有更好的F值。采用TF-IDF方法,雖然可以有效地選擇對(duì)文本聚類具有高區(qū)分度的特征詞,但沒有考慮詞語之間的語義關(guān)系;基于概念詞典的方法只利用詞語間的相似度關(guān)系,而沒有充分考慮詞語之間的情感關(guān)系;本文方法既考慮了詞語之間的相關(guān)性,也體現(xiàn)了詞語的情感因素,因此能夠有效地改進(jìn)情感聚類的效果。
表5 不同文本表示的相似度計(jì)算方法的情感聚類F值
對(duì)比分析在文本相關(guān)性子空間Θ1、文本情感子空間Θ2、文本語義子空間Θ1∪Θ2和原始特征空間Θ中的情感聚類結(jié)果,實(shí)驗(yàn)結(jié)果見表6和表7所示。
表6 數(shù)據(jù)集在不同表示空間中的聚類純度
表7 數(shù)據(jù)集在不同表示空間中的聚類F值
從表6和表7可以看出:
(1) 對(duì)于中、英文領(lǐng)域的七個(gè)數(shù)據(jù)集,在Θ1、Θ2、Θ1∪Θ2三種子空間上的聚類結(jié)果均優(yōu)于原始空間Θ,對(duì)于DVD、Electronic、Kitchen、保險(xiǎn)、翡翠、手機(jī)數(shù)據(jù)集,在空間Θ1∪Θ2上獲得最好的聚類純度和F值。這說明本文提出的基于語義子空間的文本表示和相似度計(jì)算方法在情感聚類中是有效的。
(2) 在英文數(shù)據(jù)集中,Book數(shù)據(jù)集在Θ1上獲得的情感聚類效果最好,并且優(yōu)于Θ1∪Θ2(文本相關(guān)性子空間),這與Book數(shù)據(jù)集本身的特點(diǎn)有關(guān)。Book數(shù)據(jù)集的評(píng)論相對(duì)其他數(shù)據(jù)集較長,文本中不但包含了閱讀者對(duì)某一本書的整體評(píng)價(jià)和感受,而且也包含大量對(duì)書中故事情節(jié)和人物情感的客觀描述,因此,在Θ2上構(gòu)建的情感向量是不準(zhǔn)確的,會(huì)影響評(píng)論文本的情感極性。
(3) 在中文數(shù)據(jù)集中,雖然保險(xiǎn)和翡翠數(shù)據(jù)集是非平衡的,但其聚類的純度和F值均比手機(jī)數(shù)據(jù)集高。通過對(duì)數(shù)據(jù)分類結(jié)果的分析發(fā)現(xiàn),保險(xiǎn)、翡翠領(lǐng)域的評(píng)論文本的語言風(fēng)格、評(píng)價(jià)對(duì)象和評(píng)價(jià)詞相對(duì)固定、單一。這種語言現(xiàn)象有助于提高非平衡數(shù)據(jù)集多數(shù)類的聚類效果,從而改善了數(shù)據(jù)集整體的聚類結(jié)果。這說明本文提出的基于RESS的情感聚類方法同樣適用于不平衡數(shù)據(jù)集,這在大數(shù)據(jù)中有更廣泛的應(yīng)用價(jià)值。
本文針對(duì)情感聚類中文本-特征向量的高維和稀疏問題,以及對(duì)評(píng)論文本潛在情感因素的表示問題,提出基于子空間的文本語義相似度計(jì)算方法(RESS),通過構(gòu)建文本相關(guān)度子空間(RSS)和文本情感子空間(ESS),計(jì)算文本集語義相似度矩陣,實(shí)現(xiàn)情感聚類。在中、英文七個(gè)領(lǐng)域的數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),結(jié)果表明: 基于RESS的文本語義相似度計(jì)算從文本相關(guān)性和情感角度實(shí)現(xiàn)文本的語義表示,有效地解決文本向量的高維問題,并獲得較好的聚類結(jié)果。同時(shí),該方法也適用于非平衡數(shù)據(jù)集。
本文的情感聚類結(jié)果將文本分為正面和負(fù)面兩類,但是五級(jí)情感標(biāo)簽可以更細(xì)地刻畫情感的強(qiáng)度。因此,今后將在五級(jí)情感聚類方面開展研究。
[1] 孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013, 50(01):146-169.
[2] Berry M W, Castellanos M. Survey of text mining [M]. New York: Springer, 2004:219-232.
[3] Turney P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002: 417-424.
[4] 李欣,王素格,李德玉. 面向文本情感聚類的維度判別方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015,51(7):124-130.
[5] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics, 2002:79-86.
[6] Das S R, Chen M Y. Yahoo! For amazon: sentiment parsing from small talk on the Web[J]. ManagementScience, 2007, 53(9):1375-1388.
[7] 陳笑蓉,劉作國. 文本聚類的重構(gòu)策略研究[J]. 中文信息學(xué)報(bào),2016,30(02):189-195.
[8] Bilenko M, Basu S, Mooney R J. Integrating constraints and metric learning in semi-supervised clustering[C]//Proceedings of the 21stInternational Conference on Machine Learning. ICML, 2004:81-88.
[9] Bekkerman R, Raghavan H, Allan J, et al. Interactive clustering of text collections according to a user-specified Criterion[C]//Proceedings of the International Joint Conference on Artificial Intelligence. IJCAI, 2007: 684-689.
[10] Dasgupta S, Ng V. Mining clustering dimensions[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10), 2010: 26270.
[11] Riloff E, Patwardhan S, Wiebe J. Feature subsumption for opinion analysis[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,2006: 440-448.
[12] Feng S, Wang D, Yu G, et al. Extracting common emotions from blogs based on fine-grained sentiment clustering[J]. Knowledge and Information Systems, 2011, 27(2): 281-302.
[13] 黃永光,劉挺,車萬翔,胡曉光. 面向變異短文本的快速聚類算法[J]. 中文信息學(xué)報(bào),2007,21(02): 63-68.
[14] Makrehchi M, Kamel M S. Text classification using small number of features[M]. Machine Learning and Data Mining in Pattern Recognition. Springer Berlin Heidelberg, 2005: 580-589.
[15] Zheng H T, Kang B Y, Kim H G. Exploiting noun phrases and semantic relationships for text document clustering[J]. Information Sciences, 2009, 179(13): 2249-2262.
[16] Jing L, Ng M K, Huang J Z. Knowledge-based vector space model for text clustering[J]. Knowledge and Information Systems, 2010, 25(1): 35-55.
[17] 王素格,李德玉,魏英杰. 基于賦權(quán)粗糙隸屬度的文本情感分類方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2011, 48(05):855-861.
[18] 夏云慶,楊瑩,張鵬洲,劉宇飛. 基于情感向量空間模型的歌詞情感分析[J]. 中文信息學(xué)報(bào),2010,24(01): 99-103.
[19] 劉全超,黃河燕,馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學(xué)報(bào),2014, 28(04):123-131.
[20] 郗亞輝. 產(chǎn)品評(píng)論中領(lǐng)域情感詞典的構(gòu)建[J]. 中文信息學(xué)報(bào), 2016,30 (05):136-144.
[21] Mitral M, Hadi A, Man L, et. al. Sense Sentiment Similarity: An Analysis[C]//Proceedings of the 26thAssociation for the Advancement of Artificial Intelligence, 2012:1706-1712.
[22] Neviarouskaya A, Ishizuka M. SentiFul: Generating a reliable lexicon for sentiment analysis[C]//Proceedings of the 3th International Conference on Affective Computing and Intelligent Interaction and Workshops (ACII), 2009:1-6.
[23] Ortony A, Turner T J. What's basic about basicemotions?[J]. Psychological Review, 1990, 97(3):315-331.
[24] 徐琳宏,林鴻飛,潘宇. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008,27(2):180-185.
[25] Dunning T. Accurate methods for the statistics of surprise and Coincidence[J]. Computational Linguistics, 1993, 19(1): 61-74.