楊一璞,朱永華,高海燕,高文靖
(1.上海大學(xué)上海電影學(xué)院,上海 200072;2.上海大學(xué)生命科學(xué)學(xué)院,上海 200444)
情感分析是分析人們?cè)谖谋局兴憩F(xiàn)出的意見(jiàn)、觀點(diǎn)、情感態(tài)度的研究領(lǐng)域.如今,互聯(lián)網(wǎng)快速發(fā)展,新聞媒體平臺(tái)以及各種社交媒體平臺(tái)每天產(chǎn)生大量的內(nèi)容,其中包括用戶產(chǎn)生的大量評(píng)論.對(duì)這些信息進(jìn)行自動(dòng)的情感分析,在多個(gè)方面具有潛在的應(yīng)用價(jià)值.例如,企業(yè)可以了解用戶對(duì)特定事件和話題的態(tài)度,把握公眾意見(jiàn),及時(shí)掌握輿情以便做出相應(yīng)的決策.另外,透過(guò)對(duì)商品和服務(wù)相關(guān)內(nèi)容的評(píng)價(jià),企業(yè)還可以及時(shí)了解市場(chǎng)口碑,便于進(jìn)一步提高產(chǎn)品及服務(wù)質(zhì)量.
傳統(tǒng)的情感分析方法大致可以分為基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法.基于情感詞典的方法需要構(gòu)建由情感詞組成的情感詞典,通過(guò)設(shè)計(jì)一系列規(guī)則,如Turney[1]利用詞語(yǔ)間的點(diǎn)互信息(pointwise mutual information,PMI)對(duì)文本進(jìn)行情感分類.這種方法往往高度依賴情感詞典的構(gòu)建以及規(guī)則的設(shè)計(jì),難以應(yīng)對(duì)隱含的情感內(nèi)容.而基于機(jī)器學(xué)習(xí)的方法則通過(guò)有監(jiān)督的方式,利用提取的特征訓(xùn)練分類器.機(jī)器學(xué)習(xí)方法在許多任務(wù)中的有效性都得以證明,其效果往往依賴于特征工程.近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在情感分析以及文本分類等領(lǐng)域得到了應(yīng)用.與傳統(tǒng)機(jī)器學(xué)習(xí)方法中特征往往比較稀疏的情況不同,深度神經(jīng)網(wǎng)絡(luò)的方法將文本轉(zhuǎn)換成密集向量,并將所獲文本的高層表示用于分類.
就新聞評(píng)論或微博評(píng)論等內(nèi)容而言,現(xiàn)有的方法往往只集中于對(duì)評(píng)論文本本身的分析.這些評(píng)論具有篇幅普遍較短的特性,如果僅利用其文本內(nèi)容進(jìn)行特征提取可能不足以充分利用其語(yǔ)義以及背景信息.對(duì)于新聞事件而言,不同話題或主題往往對(duì)評(píng)論的情感基調(diào)有一定影響,因此引入評(píng)論的源文章信息就具有現(xiàn)實(shí)意義.本工作提出了一種基于支持向量機(jī)(support vector machine,SVM)和K均值(K-means)聚類的情感分類模型,并且將詞頻-逆文檔頻次(term frequency-inverse document frequency,TF-IDF)特征融入詞袋特征.實(shí)驗(yàn)結(jié)果表明,本方法相較于其他傳統(tǒng)方法有較好的分類效果,同時(shí)證明了采用K-means聚類的方法引入文章信息可以提升分類效果.
文本分類是自然語(yǔ)言處理中的重要研究?jī)?nèi)容,而情感分析則被認(rèn)為是文本分類的一個(gè)分支.情感分析的目的是識(shí)別文本中所表達(dá)的整體情感,這些文本可以是網(wǎng)絡(luò)評(píng)論、文章、微博等內(nèi)容.傳統(tǒng)的方法通常通過(guò)有監(jiān)督的方式,利用詞袋(bag-of-words,BoW)模型訓(xùn)練分類器.Pang等[2]利用unigrams和SVM取得了比其他方法更好的分類效果;Gamon等[3]利用自然語(yǔ)言分析工具獲得了深層語(yǔ)言結(jié)構(gòu)特征,并將其加入其他表層特征,提升了分類的準(zhǔn)確率.此外,基于詞典及規(guī)則的方法也得到廣泛應(yīng)用,這種方法往往依賴于情感詞典的構(gòu)建以及規(guī)則的設(shè)計(jì).吳杰勝等[4]構(gòu)建了包括表情符號(hào)詞典在內(nèi)的多部情感詞典,并設(shè)計(jì)了轉(zhuǎn)折、遞進(jìn)、假設(shè)等句間分析規(guī)則以及句型分析規(guī)則,將情感詞典與規(guī)則集結(jié)合,實(shí)現(xiàn)了對(duì)中文微博的情感分析;王志濤等[5]在情感詞典和規(guī)則集的基礎(chǔ)上,結(jié)合表情符號(hào)信息,對(duì)微博進(jìn)行情感分析;姜杰等[6]將規(guī)則擴(kuò)展成規(guī)則特征,并將其嵌入基本特征,結(jié)合機(jī)器學(xué)習(xí)的方法訓(xùn)練情感分析模型;馬麗菲等[7]針對(duì)影評(píng)分類問(wèn)題構(gòu)建了電影領(lǐng)域的本體,對(duì)特征詞進(jìn)行擴(kuò)展,以決策樹作為分類器對(duì)擴(kuò)展后的特征進(jìn)行訓(xùn)練,顯著提升了分類的準(zhǔn)確率.
近年來(lái),由于深度神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的特征提取能力,多種基于深度神經(jīng)網(wǎng)絡(luò)的情感分析方法被提出.在傳統(tǒng)機(jī)器學(xué)習(xí)方法中,特征往往具有稀疏以及維度較高的特性.為了解決這一問(wèn)題,詞嵌入(word embedding)[8]將高維特征嵌入到一個(gè)維度較低的連續(xù)向量空間,每個(gè)單詞被表示為實(shí)數(shù)域上的一個(gè)向量.這些特征向量是通過(guò)連續(xù)詞袋模型(continuous bag-of-words,CBoW)、Skip-gram等算法在大規(guī)模語(yǔ)料訓(xùn)練所得到,其中受到最廣泛應(yīng)用之一的word embedding模型就是Word2Vec模型[9],許多方法都通過(guò)該模型獲得詞向量,并將其作為文本的表示.Kim[10]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在預(yù)訓(xùn)練的詞向量的基礎(chǔ)上進(jìn)行句子分類任務(wù),包括情感分析任務(wù)以及問(wèn)題分類任務(wù);朱曉亮等[11]首先利用TextRank算法對(duì)文本進(jìn)行關(guān)鍵句提取并去除冗余信息,然后利用詞向量表示提取關(guān)鍵句后的文本,將其作為字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的輸入,訓(xùn)練分類模型.不同于以上方法,Johnson等[12]直接將CNN應(yīng)用于高維的one-hot向量,學(xué)習(xí)小范圍文本區(qū)域的embedding,利用單詞順序提升文本分類的效果.為了獲取文本中較長(zhǎng)序列的語(yǔ)義信息,諸如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)及其變體的序列模型也被應(yīng)用于情感分類任務(wù)[13-19],然而在缺乏大量訓(xùn)練數(shù)據(jù)的情況下,這些深度模型不能很好地?cái)M合.
本工作提出的基于SVM的新聞評(píng)論情感分析模型,利用了bag-of-ngrams特征并與TFIDF特征相結(jié)合,同時(shí)引入評(píng)論的源文章信息作為特征的補(bǔ)充,通過(guò)聚類將源文章主題對(duì)新聞評(píng)論的影響引入評(píng)論文本的情感分析.
本工作針對(duì)新聞評(píng)論的情感分析,構(gòu)造并結(jié)合多種特征,提出了基于SVM和K-means的情感分類模型.該模型的具體流程如圖1所示.
圖1 本模型框架圖Fig.1 Framework of this model
首先,對(duì)新聞評(píng)論以及評(píng)論的源文章分別進(jìn)行文本預(yù)處理,包括去掉重復(fù)的、存在空值的數(shù)據(jù),去除數(shù)據(jù)中無(wú)意義的符號(hào),單詞小寫轉(zhuǎn)換以及去停用詞等步驟,得到清洗后的數(shù)據(jù)進(jìn)行下一步特征提取.其次,特征提取部分通過(guò)BoW詞袋模型對(duì)文工作進(jìn)行特征表示;并結(jié)合TF-IDF賦予特征權(quán)重,分別得到評(píng)論文本與源文章文本的向量特征表示.然后,將K-means聚類算法應(yīng)用于所得的源文章特征向量,得到文本的聚類信息,并將其作為附加特征與評(píng)論文本的特征結(jié)合.最后,將結(jié)合后的特征與情感標(biāo)簽一起作為輸入,訓(xùn)練SVM分類器;將測(cè)試數(shù)據(jù)輸入訓(xùn)練好的SVM分類器,即可得到預(yù)測(cè)的情感標(biāo)簽.
BoW是常見(jiàn)的通過(guò)向量的方式表示文本特征表示方法.向量的維度是根據(jù)文本所構(gòu)建的詞典大小,向量每一個(gè)維度表示文本中每個(gè)單詞出現(xiàn)的頻次.然而,這種方法無(wú)法表示文本中單詞的順序,使得語(yǔ)義會(huì)有一定損失,因此往往采取與n-gram結(jié)合的方式進(jìn)行特征表示,這也稱為bag-of-ngrams.這樣的特征表示方式仍然存在不足,一些單詞雖然在語(yǔ)料中出現(xiàn)的頻率很高,但是其本身并沒(méi)有太多語(yǔ)義信息,因此本工作采用結(jié)合TF-IDF的方式,給特征分配不用的權(quán)重,以此形成更高效的特征表示.
TF-IDF算法是一種在信息檢索領(lǐng)域常用的算法,用來(lái)衡量由大量文本構(gòu)成的語(yǔ)料庫(kù)中一個(gè)詞對(duì)于某篇文本的重要程度.單詞i在文本j中的權(quán)重值為
式中:nij為單詞i在文本j中出現(xiàn)的頻次;nj為文本j的單詞總數(shù);|D|為語(yǔ)料庫(kù)中文本總數(shù);|Di|為語(yǔ)料庫(kù)中包含單詞i的文本數(shù)量.
聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,可以將無(wú)標(biāo)簽的數(shù)據(jù)自動(dòng)劃分為幾類.在得到源文章的特征后,本工作使用聚類算法對(duì)源文章數(shù)據(jù)進(jìn)行劃分.新聞評(píng)論表達(dá)的是用戶對(duì)新聞所描述事件的態(tài)度與看法,因此新聞的主題或話題內(nèi)容會(huì)對(duì)評(píng)論的整體情感基調(diào)有不同的影響.本工作通過(guò)K-means聚類的方式,將源文章信息引入新聞評(píng)論的情感分析模型,以便構(gòu)建更豐富的特征,提升情感分析的效果.K-means算法可以分為如下幾個(gè)步驟:
(1)從源文章特征向量中隨機(jī)選取K個(gè)特征向量,代表K個(gè)簇的初始質(zhì)心;
(2)計(jì)算每一個(gè)數(shù)據(jù)點(diǎn)到K個(gè)質(zhì)心的距離,并將數(shù)據(jù)點(diǎn)分配到距離自身最近的質(zhì)心所在的簇中;
(3)將所有數(shù)據(jù)點(diǎn)完成劃分后,計(jì)算每一個(gè)簇所有數(shù)據(jù)點(diǎn)的平均值,將其作為新的質(zhì)心;
(4)重復(fù)(2)、(3)這2個(gè)步驟直至數(shù)據(jù)點(diǎn)劃分趨于穩(wěn)定.
經(jīng)過(guò)聚類后,源文章特征被劃分至K個(gè)簇中.同一個(gè)簇中的文章在主題或語(yǔ)義上有更高的相似度,而不同簇之間的文章則在主題和語(yǔ)義上有更大的區(qū)分度.通過(guò)聚類的方式,就不需要對(duì)源文章主題類別進(jìn)行額外標(biāo)注,即可完成對(duì)源文章類別的劃分.完成劃分后的類別信息即可作為特征,與新聞評(píng)論特征進(jìn)行進(jìn)一步結(jié)合,提升分類器的效果.
SVM是經(jīng)典的有監(jiān)督機(jī)器學(xué)習(xí)方法,可用于線性和非線性分類.原始的SVM只適用于二分類,對(duì)于多分類任務(wù)則需要采用相應(yīng)的策略.常見(jiàn)的多分類策略有一對(duì)一(one vs.one,OVO)法和一對(duì)多(one vs.rest,OVR)法.
一對(duì)一法對(duì)每2個(gè)類別樣本設(shè)計(jì)一個(gè)分類器,對(duì)于n個(gè)類別的樣本,則需要設(shè)計(jì)個(gè)分類器.一對(duì)多法則對(duì)含有n個(gè)類別的樣本構(gòu)造n個(gè)分類器,在每個(gè)分類器在處理樣本時(shí)將某一個(gè)類別歸為一類,將其余樣本全部歸于另一類.本方法所采用的SVM為基于一對(duì)多策略的線性SVM.
為了驗(yàn)證本模型的有效性,本工作采用了Yahoo Labs Webscope的英文數(shù)據(jù)集Yahoo News Annotated Comments Corpus(YNACC)[20-21],并選取了其中帶有情感標(biāo)簽的新聞評(píng)論數(shù)據(jù)作為數(shù)據(jù)集.情感標(biāo)簽分為4個(gè)類別,分別為正向、負(fù)向、中立以及混合類別.利用這些情感標(biāo)簽即可進(jìn)行有監(jiān)督的情感分類.數(shù)據(jù)集中也包含了新聞評(píng)論源文章的URL信息,本工作根據(jù)其提供的地址獲得了部分源文章信息,部分信息由于網(wǎng)址失效未能獲取.
此外,評(píng)論數(shù)據(jù)存在一定程度的類別不平衡問(wèn)題,即評(píng)論數(shù)據(jù)中的情感類別標(biāo)簽存在比較明顯的分布不均衡現(xiàn)象.針對(duì)這一問(wèn)題,本工作采用了過(guò)采樣的方式,分別嘗試了合成少數(shù)類過(guò)采樣技術(shù)(synthetic minority oversampling technique,SMOTE)和隨機(jī)過(guò)采樣算法,增加少數(shù)類樣本.經(jīng)過(guò)過(guò)采樣處理后的數(shù)據(jù)統(tǒng)計(jì)信息如表1所示.
表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics information of the dataset
針對(duì)數(shù)據(jù)集中的文本,本工作使用NLTK工具包進(jìn)行去除符號(hào)、去停用詞等預(yù)處理,將數(shù)據(jù)集中的數(shù)據(jù)按照4∶1的比例劃分為訓(xùn)練集和測(cè)試集.
實(shí)驗(yàn)采用的評(píng)價(jià)標(biāo)準(zhǔn)為Precision、Recall、F1值和Accuracy這4個(gè)指標(biāo),計(jì)算公式分別如(2)~(5)所示,其中TP(true positive)表示為實(shí)際為正類、預(yù)測(cè)也為正類的樣本數(shù)量;FP(false positive)表示為實(shí)際為負(fù)類、預(yù)測(cè)為正類的樣本數(shù)量;FN(false negative)表示為實(shí)際為正類、預(yù)測(cè)為負(fù)類的樣本數(shù)量;TN(true negative)表示為實(shí)際為負(fù)類、預(yù)測(cè)也為負(fù)類的樣本數(shù)量:
由于本實(shí)驗(yàn)為多分類任務(wù),故對(duì)以上Precision、Recall、F1值這3個(gè)評(píng)價(jià)指標(biāo)取Macro平均值,即先對(duì)每一個(gè)類計(jì)算指標(biāo)值,然后對(duì)所有類的指標(biāo)取算數(shù)平均值;Accuracy則取值為被正確分類的樣本數(shù)除以所有樣本數(shù).
對(duì)本工作提出的基于SVM和K-means聚類的情感分析模型和其他baseline模型進(jìn)行對(duì)比,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析.涉及的方法如下:
AvgWordvec:將word2vec預(yù)訓(xùn)練模型[9]的詞向量作為單詞的特征表示,將評(píng)論中所有單詞的詞向量均值作為評(píng)論文本的特征,輸入到SVM分類器中進(jìn)行訓(xùn)練;
K-means+uni:使用unigram詞袋特征表示評(píng)論文本,加入TF-IDF權(quán)重信息,并使用Kmeans對(duì)源文章進(jìn)行聚類,得到源文章特征,最后利用結(jié)合后的特征訓(xùn)練SVM分類器;
K-means+bi:使用bigram二元詞組作為評(píng)論文本特征,將TF-IDF權(quán)重信息與特征結(jié)合進(jìn)行加權(quán),并使用K-means對(duì)源文章進(jìn)行聚類,得到源文章特征,最后利用結(jié)合后的特征訓(xùn)練SVM分類器;
K-means+tri:以trigram三元詞組作為評(píng)論文本特征,利用TF-IDF權(quán)重信息對(duì)獲得的評(píng)論文本特征進(jìn)行加權(quán),并使用K-means對(duì)源文章進(jìn)行聚類,得到源文章特征,最后利用結(jié)合后的特征訓(xùn)練SVM分類器;
K-means+uni+bi:使用unigram和bigram作為評(píng)論文本特征,利用TF-IDF權(quán)重信息對(duì)獲得的評(píng)論文本特征進(jìn)行加權(quán),并使用K-means對(duì)源文章進(jìn)行聚類,得到源文章特征,最后利用結(jié)合后的特征訓(xùn)練SVM分類器;
uni+bi+tri:和本方法的區(qū)別是此方法未使用K-means聚類,僅使用unigram、bigram和trigram作為評(píng)論文本特征,并加入TF-IDF權(quán)重信息,訓(xùn)練SVM分類器;
K-means+uni+bi+tri:本工作提出的基于SVM和K-means的情感分析方法,除使用unigram、bigram和trigram多重特征對(duì)評(píng)論進(jìn)行表示外,還加入TF-IDF權(quán)重信息,對(duì)特征進(jìn)行加權(quán),并使用K-means聚類對(duì)源文章特征進(jìn)行表示,將其與評(píng)論特征進(jìn)行結(jié)合后,使用SVM進(jìn)行模型訓(xùn)練.
表2為不同方法的實(shí)驗(yàn)結(jié)果對(duì)比.
表2 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of different experimental results
表2的結(jié)果表明,本工作提出的基于SVM和K-means聚類的情感分析模型取得了優(yōu)于其他方法的效果.在所有未使用K-means聚類的方法中,AvgWordvec的分類效果最不理想.該方法使用預(yù)訓(xùn)練的詞向量對(duì)單詞進(jìn)行表示,并將單詞詞向量的均值作為評(píng)論的特征,未能表示單詞的順序信息,使得部分語(yǔ)義信息缺失.相比之下uni+bi+tri方法的效果有明顯提升,該方法在詞袋模型的基礎(chǔ)上結(jié)合了二元詞組和三元詞組特征,在一定程度上保留了單詞出現(xiàn)的順序信息,TF-IDF特征的加入使得模型能夠根據(jù)各個(gè)單詞和詞組的重要程度對(duì)特征進(jìn)行加權(quán),提升分類的效果.
在使用了K-means聚類對(duì)源文章特征進(jìn)行表示,并與評(píng)論特征進(jìn)行結(jié)合的所有方法中,K-means+tri的效果最差,K-means+bi方法其次.這2種方法分別只考慮了三元詞組特征和二元詞組特征,特征表示過(guò)于單一,缺失了評(píng)論文本的基礎(chǔ)語(yǔ)義信息.K-means+uni的方法相比于只使用bigram的方法F1值提高了10.2%,Accuracy提高了8.5%.對(duì)比只使用trigram的方法,該方法的F1值提高了14.1%,Accuracy提高了16%,在同樣采取單一特征的情況下,該方法效果有明顯的提高,體現(xiàn)了unigram特征對(duì)區(qū)分文本的重要性.K-means+uni+bi方法在該方法的基礎(chǔ)上加入了bigram特征,效果沒(méi)有明顯變化,說(shuō)明unigram對(duì)于評(píng)論文本而言可以表示更為基本的語(yǔ)義信息.而在此基礎(chǔ)上加入bigram和trigram的方法在各項(xiàng)評(píng)價(jià)指標(biāo)上有略微提升,體現(xiàn)了多種詞組特征對(duì)于文本語(yǔ)義有補(bǔ)充作用.
本工作提出的基于SVM和K-means聚類的情感分析方法取得了上述對(duì)比方法中最優(yōu)的分類效果.在與uni+bi+tri方法的對(duì)比中,本方法在F1值上提升了4%,在Accuracy上提升了2.3%,證明了通過(guò)K-means方式能夠?qū)π侣勗u(píng)論的源文章信息進(jìn)行分類表示,并與新聞評(píng)論特征和結(jié)合,可以提升分類的準(zhǔn)確率,證明了本方法的有效性.
為了研究在在進(jìn)行Bag-of-ngrams特征構(gòu)造時(shí),不同特征維數(shù)對(duì)分類效果的影響,本工作對(duì)采用不同特征維數(shù)的模型進(jìn)行了對(duì)比實(shí)驗(yàn)(見(jiàn)表3).
表3 特征維數(shù)對(duì)實(shí)驗(yàn)結(jié)果影響Table 3 Impact of feature dimension on experimental results
結(jié)果表明,模型的F1值和Accuracy這2項(xiàng)指標(biāo)隨著特征維數(shù)的增加而提高,當(dāng)特征維數(shù)達(dá)到10 000時(shí)2項(xiàng)指標(biāo)趨于穩(wěn)定;而Precision及Recall在特征數(shù)取10 000時(shí)達(dá)到最高值,之后隨著特征維度升高趨于穩(wěn)定并略有下降.因此,本方法將特征維數(shù)確定為10 000.
考慮到SVM分類器參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,本工作同時(shí)對(duì)SVM分類器的參數(shù)C進(jìn)行了不同設(shè)置,對(duì)不同參數(shù)下模型分類效果進(jìn)行對(duì)比(見(jiàn)圖2).
圖2 分類器參數(shù)C對(duì)分類效果的影響Fig.2 Impact of parameter C on classification performance
實(shí)驗(yàn)結(jié)果顯示,模型在C取值較小時(shí)有更好的分類效果;當(dāng)C取值大于1.00時(shí),分類效果隨參數(shù)的增大而變差.根據(jù)實(shí)驗(yàn)結(jié)果,本方法將SVM分類器的參數(shù)C設(shè)置為0.10.
在對(duì)文章進(jìn)行K-means聚類的過(guò)程中,K值的選取對(duì)聚類效果有很重要的影響.好的聚類結(jié)果能使同一簇內(nèi)的數(shù)據(jù)有更大的相似性,即同一簇內(nèi)的文章具有更相似的主題或語(yǔ)義信息.因此,聚類的結(jié)果將影響到最終評(píng)論特征的質(zhì)量以及模型最終的分類效果.本工作通過(guò)實(shí)驗(yàn)對(duì)比了K-means聚類方法中K取不同值時(shí)模型的最終效果(見(jiàn)圖3).
圖3 不同K值對(duì)分類效果的影響Fig.3 Impact of different K values on classification performance
實(shí)驗(yàn)結(jié)果顯示,Accuracy隨K值的增大呈小范圍浮動(dòng),F1值隨K取值的增大而增大;當(dāng)K值大于16時(shí),2項(xiàng)指標(biāo)均有明顯下降.因此,根據(jù)實(shí)驗(yàn)結(jié)果本工作將K值設(shè)置為16.
本工作提出了一種基于SVM和K-means聚類的新聞評(píng)論情感分析方法.考慮到新聞文章主題或話題內(nèi)容對(duì)其評(píng)論情感產(chǎn)生的影響,本方法通過(guò)K-means聚類的方式對(duì)新聞文章進(jìn)行簇的劃分,將這種主題或語(yǔ)義的差異進(jìn)行表示,并結(jié)合新聞評(píng)論特征訓(xùn)練SVM分類器.實(shí)驗(yàn)結(jié)果表明,該方法取得了優(yōu)于其他對(duì)比方法的效果,證明了采用K-means聚類的方法引入文章信息可以提升分類效果,驗(yàn)證了該方法對(duì)于新聞評(píng)論情感分析的有效性.此外,構(gòu)造更低維度和更高效的特征來(lái)提升方法的分類效果,也是需要進(jìn)一步研究的內(nèi)容之一.