楊 慧,劉紅巖,何 軍
(1.中國電子科技集團公司第十五研究所航空信息系統(tǒng)部,北京 100083;2.清華大學管理科學與工程系,北京 100084;3.中國人民大學信息學院,北京 100872)
隨著Internet的發(fā)展和普及,Web已經(jīng)在很大程度上改變了消費者反饋觀點的途徑。如今,產(chǎn)品使用者可以通過商家的網(wǎng)站、網(wǎng)絡(luò)論壇、BBS,以及Blog發(fā)表對于產(chǎn)品性能的看法。人們通常稱這類數(shù)據(jù)為用戶生成數(shù)據(jù)(user generated content或者user generated media)。這些網(wǎng)上評論為市場研究提供了充足且寶貴的信息資源。潛在消費者也可以此作為重要的參考依據(jù)。但由于網(wǎng)絡(luò)信息分散、海量、非結(jié)構(gòu)化的特點,給評論信息的收集、統(tǒng)計帶來很大的困難?;诖水a(chǎn)生了意見挖掘。
本文的工作是進行意見挖掘。研究對象是中文產(chǎn)品評論,研究目標是自動收集網(wǎng)絡(luò)上關(guān)于用戶指定產(chǎn)品的評論,對這些評論進行結(jié)構(gòu)化,即按照產(chǎn)品特征組織評論,并判斷對應特征的意見的感情色彩。
本文的貢獻是對中文語種的非領(lǐng)域相關(guān)的評論結(jié)構(gòu)化的第一次嘗試,對于其所面臨的問題給出解決方法。
產(chǎn)品特征結(jié)構(gòu)化由Liu等人在文獻[1]中提出,旨在發(fā)現(xiàn)用戶對于產(chǎn)品某些細節(jié)的喜好,通常是句子級別的操作。例如對于句子“保濕效果持久”,這條評論關(guān)注的是產(chǎn)品的“保濕效果”這一細節(jié),并發(fā)表了“持久”這一意見,通過上下文可了解到,“持久”在這里是褒義評論。將評論關(guān)注的細節(jié)定義為“特征”(feature),用戶對于“特征”的評論,定義為“意見”(opinion)。相關(guān)的有些算法還會在此基礎(chǔ)上對各個特征進行匯總,歸納出一個摘要。在Liu的論文發(fā)表之后,很多研究人員開始關(guān)注這個領(lǐng)域,其中文獻[2-9]在該領(lǐng)域都進行了不同程度的探索。國內(nèi)在該領(lǐng)域也有一些研究成果[10-14],主要集中在對某特定類別中文產(chǎn)品意見的挖掘研究。
產(chǎn)品評論結(jié)構(gòu)化的相關(guān)研究主要著重于2個議題上:1)特征、意見抽取;2)意見極性判斷。對于上面舉的例子,找到用戶關(guān)注的細節(jié)即產(chǎn)品特征“保濕效果”抽取的過程稱為特征抽取,找到與特征“保濕效果”相關(guān)聯(lián)的意見“持久”即是意見抽取,判斷“持久”的感情色彩的過程,稱為極性判斷。
目前對消費者評論的特征抽取的方式有有監(jiān)督(supervised)以及無監(jiān)督(unsupervised)2 種方式[4]。無監(jiān)督的方式屬于無人工介入,不需要有人為的標注語料庫作為訓練集,因此有較好的通用性以及便利性,可以適用于每一種產(chǎn)品,不需花太多時間就能夠套用到不同種類產(chǎn)品上,缺點是正確率可能較差。文獻[2,4]中的特征抽取方法都屬于無監(jiān)督抽取方法。有監(jiān)督的方法需要有人工標注的數(shù)據(jù)作為它的訓練集,由于有一些卷標必須要人工標記,無法由程序完成,因此需要人為介入。不同種類的產(chǎn)品就必須要標注不同的訓練集,因此會相當耗費時間,無法同時適用所有種類的產(chǎn)品。文獻[1,6]提出用有監(jiān)督方法抽取用戶評論中的特征以及意見。
opinion是表達對于feature的意見,通常都是以形容詞的方式呈現(xiàn),但也有不少的opinion是以動詞或是副詞等其它形式呈現(xiàn)。除了必須抽取不同詞性的opinion外,也必須判斷opinion的極性方向性,以便將正面以及負面的評價區(qū)分。文獻[2,4]中介紹了opinion的抽取方法。
opinion的極性判別在opinion處理上一直是相當重要的議題,文獻[2-3,15-17]在這方面做了很多工作。判斷極性可以讓系統(tǒng)對于opinion進行分類,對分類整理后提供給用戶,從而方便用戶能夠更快速地得到想要的信息,不用一條一條地查看。opinion極性判斷的困難在于,雖然人類知道這個opinion是正面或是負面,但是人工列舉出所有的極性opinion的工作量很大,機器由于不了解自然語言而無法自動完成。自動處理語義極性成為一個重要的研究課題。
Review Search的系統(tǒng)結(jié)構(gòu)如圖1所示。系統(tǒng)根據(jù)用戶輸入的產(chǎn)品名稱返回對網(wǎng)絡(luò)上關(guān)于這一產(chǎn)品的評論的結(jié)構(gòu)化結(jié)果。本文的工作主要集中在“產(chǎn)品結(jié)構(gòu)化系統(tǒng)”中。處理的數(shù)據(jù)為網(wǎng)絡(luò)中關(guān)于某一產(chǎn)品的網(wǎng)頁集合,網(wǎng)頁通過商業(yè)搜索引擎接口得到(如Google API)。網(wǎng)頁經(jīng)過去噪后,送到“評論識別”模塊,用于識別出包含評論的網(wǎng)頁。將識別出的評論,進行“特征、意見抽取”。經(jīng)過特征、意見抽取,得到一個特征與意見相關(guān)聯(lián)的結(jié)構(gòu)FeatureList。接下來判斷FeatureList的感情色彩,這一工作由“極性判斷”模塊通過極性聚類的方法完成。最后返回用戶依據(jù)產(chǎn)品特征、意見、極性組織的結(jié)構(gòu)化信息。在下面的章節(jié)中,將陸續(xù)介紹相應模塊。
圖1 引擎體系結(jié)構(gòu)
定義1 產(chǎn)品 P 的評論集 R=(r1,r2,...,rm):其中ri為集合中的一條評論,一般情況下評論以用戶來區(qū)分,即每個用戶發(fā)表的評論記為ri。
定義2 評論發(fā)表人Holder:即R中ri的發(fā)表人。
通常情況下意見可以是關(guān)于任何事物的,比如人、組織、事件、電影等。本文中的意見為關(guān)于某個商品的意見,因此用“product”來指代評論的對象實體。product可能會有一些組成部件(components),也可能有一些屬性(attributes)。這樣product就可以得到一個關(guān)于其組成部分和屬性的層次結(jié)構(gòu)。例如,產(chǎn)品product(汽車),包含組件 components(發(fā)動機,輪胎等),具有性質(zhì) attributes(百公里能耗,啟動性等)。下面給出形式化定義。
定義3 Product:Product(縮寫為P)是一個評論對象實體。其關(guān)聯(lián)一個集合P:(C∪A),C為P的組成部分集合,A為P的屬性集合。
定義4 特征feature:為了簡化后續(xù)的討論,用feature(縮寫為 f)來代表組件與屬性的集合,即feature=:component∪attribute。
定義5 顯性特征(explicit feature)與隱性特征(implicit feature):如果f在評論R中出現(xiàn)了,就定義為顯性特征,如果沒有出現(xiàn)在R中就定義為隱性特征。
定義6 意見opinion:opinion(縮寫為o)為評論R中關(guān)于特征f的意見。
定義7 極性polarity:極性即評論的感情色彩,通常分為褒義(正向,positive)和貶義(負向,negative)。
定義8 上下文相關(guān)意見context dependent opinion與上下文無關(guān)意見context independent opinion:上下文無關(guān)意見指意見opinion的極性固定,不受上下文的影響;上下文相關(guān)意見指意見opinion沒有明確的極性,而受上下文的影響,這里主要是受與opinion相關(guān)聯(lián)特征的影響。
在第1節(jié)中已經(jīng)介紹了特征與意見的抽取大致可以分為有監(jiān)督抽取和無監(jiān)督抽取2種方法。其中有監(jiān)督抽取方法需要大量的手工標注,而且由于不同類別產(chǎn)品的特征意見變化較大,所以這一方法僅限于領(lǐng)域相關(guān)的應用。無監(jiān)督抽取方法雖然不受領(lǐng)域的限制,但抽取正確率與召回率都不及前者。
本文試圖尋找一種方法,即通用方法,領(lǐng)域無關(guān),而且也可以獲得較高的正確率與召回率。
算法的核心思想是:利用語言中相對穩(wěn)定的部分,通過迭代的方法發(fā)現(xiàn)特征與意見。算法思想來自對評論句式的分析,下面簡單介紹一下對評論句式的統(tǒng)計結(jié)果。
3.2.1 評論特點分析
經(jīng)統(tǒng)計發(fā)現(xiàn),評論主要可以分為3種句式:
句式1 feature+opinion。
這種句式直接表達了用戶對產(chǎn)品某種特征的意見,其中feature代表產(chǎn)品的特征,opinion代表相應意見。例句見表1。
這種句式里包含另一種重要句式,即feature并沒有顯性地提出,就是說只有opinion而沒有相應的feature,但事實上這種句式中的opinion同時暗指了feature,所以這里認為該句式里的opinion既是implicit feature(隱性特征)也是opinion。例句見表1。
句式2 主張詞+句式1。
這種句式由“主張詞”來顯性標識所在句子為評論。識別這類句式有助于提高召回率。例句見表1。
句式3 情感詞+feature。
這種句式由“情感詞”來顯性標識這句是評論。識別這類句式有助于提高召回率。例句見表1。
表1 評論句式分類
本文標注了500條評論,3種句式在標注集中所占的比例如圖2所示。從圖2可以看出這3種句式的覆蓋率還是比較高的。
圖2 3種主要評論句式所占比例
根據(jù)對評論句式的統(tǒng)計,針對句式1提出抽取特征、意見的算法,并利用句式2與句式3提高算法的召回率。
在抽取順序上,不同于以往算法的先確定特征再發(fā)現(xiàn)意見詞,而是采取先抽取opinion,然后根據(jù)opinion抽取feature的方法。確定這全策略是由于中文評論中隱性特征較多,如果運用傳統(tǒng)方法即先確定feature,然后抽取opinion的話,會損失掉隱性特征。
采用這一順序的另一方面原因是,評論中不可避免會有噪音,噪音的來源可能是網(wǎng)頁本身的廣告、標簽等;也可能是評論人發(fā)表的非評論部分。以實驗數(shù)據(jù)來說,由于本文的數(shù)據(jù)是關(guān)于化妝品使用心得的,評論中可能會含有一些使用方法、購買地點等噪音。認為這些成分是噪音的原因無疑是這些成分中不含有用戶的意見。通過先抽取意見的方法,同時忽略不含有意見的句子,這樣自然就濾去了噪音。
3.2.2 發(fā)現(xiàn)意見詞
核心思想:通過相對穩(wěn)定且小規(guī)模的程度副詞發(fā)現(xiàn)意見詞。
通過統(tǒng)計觀察發(fā)現(xiàn),人們在發(fā)表評論時經(jīng)常會使用程度副詞來修飾opinion word(意見詞)。意見詞會因評論的對象不同、特征不同而變化,且數(shù)量巨大,隨時間的變化也較大,而副詞的數(shù)量較少,且相對穩(wěn)定。羅振聲教授主持的清華大學ZW大型語料庫的詞性統(tǒng)計表見表2。因此本文考慮是否可以通過副詞來找到意見詞。
表2 詞性統(tǒng)計表
本文標注了500條評論,經(jīng)統(tǒng)計發(fā)現(xiàn):通過“adv+adj”模式,判斷adj為意見詞的正確率為92%。而意見詞前面含有程度副詞的情況達81%,這里由于一個意見詞可能出現(xiàn)頻率不止一次,只要在一次出現(xiàn)中前面伴隨程度副詞則按照出現(xiàn)的n次里都伴隨副詞進行統(tǒng)計。
具體方法:首先準備一個初始advWordList(程度副詞詞表),實驗中所用的初始 advWordList是《知網(wǎng)》情感分析用詞語集中的詞匯[18]。在頻繁集中,將符合“adv+adj”的模式抽出來,這里的adv代表adv-WordList中的詞,adj表示該詞的詞性為形容詞,也就是說要抽出程度副詞后面的形容詞作為opinion,并放入opinionList中。然后再找opinion前面的副詞添加到advWordList中,這樣反復迭代,直到opinionList與advWordList都不再增長為止。
3.2.3 發(fā)現(xiàn)特征
核心思想:意見詞opinion前的名詞短語為產(chǎn)品特征feature。
具體算法如下:
取opinion前的以名詞為中心的一定長度窗口內(nèi)的n-gram,加入featureList中。
將feature所在句子中形容詞加入opinionList。
將新加入的opinion前面的以名詞為中心的ngram加入featureList。反復迭代,直到opinionList與featureList不再增長。
為了提高算法的召回率,根據(jù)3.2.1節(jié)評論句式分類中的句式2、句式3,提出2條啟發(fā)式規(guī)則:
規(guī)則1 如果句子中含有“主張詞”,則將句中的形容詞加入opinionList,以名詞為中心的n-gram加入featureList中。
規(guī)則2 如果句子中含有“情感詞”,則將句中的名詞加入featureList。
對特征剪枝:統(tǒng)計featuren-gram的頻率,如果 support(n - gram)≤minsup=ReviewCount× support,其中minsup為用戶給定的一個閾值,則將該featuren-gram從featureList中刪去。
最后合并同義feature:合并的方法即計算任意2個feature的相似度,相似度用于衡量2個特征為同義詞的可能性,如果相似度大于閾值則視為同義詞進行合并。合并同義特征主要考慮2方面:首先,如果2個feature含有共同的詞語片段,則認為2個feature相似;另一方面,考慮同義詞產(chǎn)生的原因,之所以會有同義現(xiàn)象是由于不同用戶的語言習慣不同,對同一產(chǎn)品特征有不同的表達方式,但對于同一個用戶來說,他在表達某一特征時用不同的說法的可能較小,也就是說,如果2個feature出現(xiàn)在同一個人發(fā)表的評論中,則這2個feature為同義詞的概率較小?;谶@2點,用如下公式計算2個特征featurei和featurej的相似性:
經(jīng)過特征與意見抽取后,得到一個特征與意見相關(guān)聯(lián)的結(jié)構(gòu),即特征列表(FeatureList),其中包含最終的特征。FeatureList中的每個feature鏈著一個意見集合(OpinionSet),意見集合包含了與其關(guān)聯(lián)的特征的所有意見,其中每個單元包括意見詞及其出現(xiàn)的子句號碼列表。子句號碼的標識將在下面的章節(jié)中介紹。
極性判斷即是判斷感情色彩,分為3類:正向(褒義)、負向(貶義)、未知。
以往在判斷評論極性時,通常分為3個層次,即基于文章的、基于句子的、基于特征的。本文中判斷粒度是子句(由任意標點符號分割),若該子句內(nèi)含有某特征和意見,由于判斷時同時考慮此子句內(nèi)否定詞的個數(shù),因此可以看作是對(特征,意見,否定詞個數(shù))三元組極性的判斷。通過這種方法將特征和意見相關(guān)聯(lián),判斷上下文相關(guān)意見的極性??紤]否定詞個數(shù)的原因是顯而易見的,即如果有1個否定詞,則對偶的極性翻轉(zhuǎn),如果有2個否定詞則雙重否定變肯定。
判斷(特征,意見,否定詞個數(shù))三元組極性的方法是基于聚類的,希望將同一極性類別的特征、意見對聚在同一個類中,因此稱該聚類為極性聚類(polarityClustering)。
算法總體描述:
polarityCluster借鑒了已有極性判斷算法中的利用連詞和種子詞的方法,不同之處在于不是簡單依賴句子中極性之間的并列關(guān)系(如果有轉(zhuǎn)折連詞的話,則為互斥關(guān)系),而是通過聚類的方法,考慮類中其他成員對判斷極性的意見詞的影響,從而緩解前述中存在的問題。
為了描述算法,將評論按照3種級別進行操作,分別是評論級別、同極性句級別、子句級別。
1)評論級別:每個用戶的評論被認為一條評論。
2)同極性級別:將每條評論分成若干段,每個片段的極性認為是相同的。
3)子句級別:同極性句中的任意2個標點符號之間的句子被看為一個子句。
每個級別中句子統(tǒng)一編號。
算法過程如下:
1)首先將待處理評論以轉(zhuǎn)折連詞分開,各自成為一個“同極性句”。
被轉(zhuǎn)折連詞分開的2個同極性句極性相反,將彼此的這一級句子編碼synonymSentence(同極性句子)加入其反義句集antonymSentenceSet中。將這些信息記錄到FeatureList結(jié)構(gòu)中,即根據(jù)每個特征所關(guān)聯(lián)意見的子句,添加同極性句子和反義句(可為空)。統(tǒng)計每個子句中的否定詞個數(shù)(privativeCount),添加到featureList結(jié)構(gòu)中。這個結(jié)構(gòu)有助于判斷否定句式的極性。
將每個feature關(guān)聯(lián)的opinion所在的同極性句集按照否定詞個數(shù)分成2個集合。生成 polarityPair(polaritySentenceSet0,polaritySentenceSet1),polaritySentenceSeti為其中否定詞個數(shù)為奇數(shù)(或偶數(shù))的同極性句的集合,并且分別將polaritySentenceSet1與polaritySentenceSet0的反義句集合antonymSentenceSet加入到對方的集合中。
2)初始化相似度矩陣SimilarityMatix。
為了進行聚類,需要確定任意2個三元組間的相似度,即確定相似度矩陣SimilarityMatix的值。SimilarityMatix為 n×n矩陣,其中 n為三元組的個數(shù)。SimilarityMatrix[ i] [j]表示三元組 triplei、triplej之間的相似度。其初始值賦值如表3所示。
表3 SimilarityMatrix初始值
3)計算相似度矩陣的n次方(n-th Power)。
在上一步的相似度矩陣初始化中,對矩陣中有直接相連關(guān)系的單元進行了賦值,接下來通過矩陣連乘的方式獲得間接相連關(guān)系的相似度值。相似度矩陣乘方的計算公式如下:
從上面的公式可以看出,1次矩陣乘方中計算了triplei、triplej通過一次間接連接更新 triplei、triplej間的相似度。類似地,經(jīng)過n次乘方后,就遍歷了所有可能的路徑,將 SimilarityMatrix[ i] [j]更新為 triplei、triplej最大相似度。
但是通過這樣計算相似度的依據(jù)是什么呢?舉個例子,比如:
triplei、triplej沒有直接聯(lián)系,即 SimilarityMatrix[i][j]=0;
triplei、triplek互 為 反 義,則 SimilarityMatix[i][k]=-1;
triplek、triplej互 為 同 義,則 SimilarityMatix[k][j]=1。
4)聚類。
應用k-medoids聚類算法進行聚類[19]。
5)極性聚類的極性判斷。
根據(jù)類別中已知極性的意見詞的正負傾向頻率比例來判斷聚類的極性。也就是說,如果類別中已知極性的意見詞的正向頻率高則類別的極性判定為正向,反之,判定為負向。同極性句中的特征-意見對的極性繼承聚類中的極性。
為了進行實驗,手工標注一個測試集realFOtest-Set,該測試集數(shù)據(jù)為網(wǎng)絡(luò)關(guān)于產(chǎn)品雪肌精的評論的隨機抽取集合。realFOtestSet中包含255條關(guān)于化妝品類中對于產(chǎn)品雪肌精的評論,對這些評論中的產(chǎn)品特征、相應同義詞、和特征相關(guān)聯(lián)的意見、區(qū)分意見的極性、程度副詞等進行了標注。表4中展示了標注集的一些統(tǒng)計信息。
表4 測試集標注的統(tǒng)計信息
4.1.1 意見詞發(fā)現(xiàn)實驗結(jié)果
程度副詞初始列表為知網(wǎng)提供情感分析用詞語集中的詞匯。
圖3所示為根據(jù)程度副詞(adv)發(fā)掘意見詞opinion和由特征詞feature發(fā)掘意見詞的實驗結(jié)果。實驗集合中共有101個opinion,由程度副詞推導出82個opinion,正確率為100%,召回率為81.2%。由特征詞推導出29個opinion,正確率為55%,召回率為15.8%。由程度副詞和特征詞推導出的opinion共111個,正確率為88.2%,召回率為97.1%。由實驗可以看出程度副詞推導opinion的正確率和準確率都很高,在計算由特征詞推導的opinion時統(tǒng)計的是根據(jù)程度副詞沒有找到的opinion。由特征詞導出opinion時所引入的錯誤主要是由于一些修飾特征詞的形容詞誤識為opinion所致。實驗中由特征詞導出opinion算法中的窗口大小為4。
由于根據(jù)特征詞推導opinion算法中結(jié)果受窗口大小影響,因此基于窗口變化做了一組實驗。從圖4可看出,opinion召回率隨窗口增大而增大,正確率卻下降,窗口為4可使正確率和準確率達到穩(wěn)定狀態(tài)。
圖3 推導opinion的實驗
圖4 窗口大小對推導opinion算法的影響
4.1.2 特征抽取實驗結(jié)果
圖5所示為特征抽取實驗結(jié)果。實驗數(shù)據(jù)中共有62個feature。實驗中由opinion推導出的feature有41個,其中正確的有34個,特征抽取正確率為82.9%,特征抽取召回率為66.1%;由主觀詞推導出feature共5個,其中正確的有5個,特征抽取正確率為100%,特征抽取召回率為8.1%;由情感詞推導出feature共4個,其中正確的有4個,特征抽取正確率為100%,特征抽取召回率為6.5%。3部分的特征抽取正確率為86%,特征抽取召回率為69.4%。
由于特征抽取算法效果和窗口大小有關(guān),所以圖6展示了算法準確率、召回率隨窗口大小變化的情形。隨著窗口的變大,召回率增大,準確率下降。
圖5 特征抽取實驗結(jié)果
圖6 抽取算法準確率
為了進行實驗,準備了2個類別4種產(chǎn)品的測試集,實驗結(jié)果如圖7所示。從圖7可以看出意見極性識別的準確率在70%左右,還是比較理想的。
圖7 極性判斷有效性實驗
與其他算法的比較:
由于這部分算法是對基于“連詞”“種子詞”進行極性判斷的改進,因此進行了這2種算法的對比實驗。在圖8中召回數(shù)指的是通過各自算法可以確定的特征意見對偶的極性的數(shù)目。正確數(shù)是極性判斷正確的數(shù)目。實驗結(jié)果表明無論是召回數(shù)還是正確數(shù),本文算法都優(yōu)于文獻[2]方法。
圖8 極性判斷對比實驗
本文的研究對象是中文產(chǎn)品評論,研究目標是自動收集網(wǎng)絡(luò)上關(guān)于用戶指定產(chǎn)品的評論,對這些評論進行結(jié)構(gòu)化,即按照產(chǎn)品特征組織評論,并判斷對應特征意見的感情色彩。
產(chǎn)品評論結(jié)構(gòu)化研究在英語、日語等語種上已經(jīng)有了一定成果,但由于中文自身的特點,已有算法并不適用于中文產(chǎn)品評論,其問題主要有以下3點:
1)由于中文口語中句子成分省略現(xiàn)象普遍,造成了大量產(chǎn)品隱性特征,這大大增加了意見結(jié)構(gòu)化中產(chǎn)品特征提取的難度。隱性特征的提取在意見挖掘領(lǐng)域一直是個難題。
2)由于中文二義現(xiàn)象更為突出,語義極性分析對上下文的依賴加強,這使得工作難度進一步加大。
3)基于以上問題,本文提出了針對中文的產(chǎn)品評論結(jié)構(gòu)算法。算法包括2部分:產(chǎn)品特征、意見抽取模塊;感情色彩判斷模塊。
本文實現(xiàn)了中文產(chǎn)品評論結(jié)構(gòu)化系統(tǒng)review search。該系統(tǒng)根據(jù)用戶輸入的產(chǎn)品名稱,返回網(wǎng)絡(luò)上關(guān)于產(chǎn)品評論的結(jié)構(gòu)化處理結(jié)果。系統(tǒng)的優(yōu)點主要有,不受領(lǐng)域限制,自動抽取產(chǎn)品特征、意見;自動判斷上下文相關(guān)的意見的感情色彩極性。
[1] Liu Bing,Hu Minqing,Cheng Junsheng.Opinion observer:Analyzing and comparing opinions on the Web[C]//Proceedings of the 14th International Conference on World Wide Web.2005:342-351.
[2] Hu Minqing,Liu Bing.Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2004:168-177.
[3] Turney P.Thumbs up or thumbs down?Semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.2002:417-424.
[4] Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[C]//Proceedings of the 2005 Conference on Human Language Technology and Empirical Methods in Natural Language Processing.2005:339-346.
[5] Hu Minqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of the 19th AAAI National Conference on Artificial Intelligence.2004:755-760.
[6] Ghani R,Probst K,Liu Yan,et al.Fano:Text mining for product attribute extraction[J].ACM SIGKDD Explorations Newsletter,2006,8(1):41-48.
[7] Ding Xiaowen,Liu Bing.The utility of linguistic rules in opinion mining[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.2007:811-812.
[8] Gamon M,Aue A,Corston-Oliver S,et al.Pulse:Mining customer opinions from free text[C]//Proceedings of the 6th International Symposium on Intelligent Data Analysis.2005:121-132.
[9] Scaffidi C,Bierhoff K,Chang E,et al.Red opal:Productfeature scoring from reviews[C]//Proceedings of the 8th ACM Conference on Electronic Commerce.2007:182-191.
[10] 郭沖,王振宇.面向細粒度意見挖掘的情感本體樹及自動構(gòu)建[J].中文信息學報,2013,27(5):75-83.
[11] 文濤,楊達,李娟.中文軟件評論挖掘系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2013,34(1):163-167.
[12] 馬曉玲,金碧漪,范并思.中文文本情感傾向分析研究[J].情報資料工作,2013,34(1):52-56.
[13] 陸文星,王燕飛.中文文本情感分析研究綜述[J].計算機應用研究,2012,29(6):2014-2017.
[14] 李芳,何婷婷,宋樂.評價主題挖掘及其傾向性識別[J].計算機科學,2012,39(6):159-162.
[15] Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[16] Pang Bo,Lee L,Vaithyanathan S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing.2002:79-86.
[17] Yu Hong,Hatzivassiloglou V.Towards answering opinion questions:Separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods for Natural Language Processing.2003:129-136.
[18] 董振東,董強.《知網(wǎng)》情感分析用詞語集[EB/OL].http://www.keenage.com/cgi-bin/c_enroll.cgi,2007-10-21.
[19] Kaufman L,Rousseeuw P J.Finding Groups in Data:An Introduction to Cluster Analysis[M].New York:Wiley,1990.