王慶福
摘要:目前國內存在各種類型的輿論平臺,以資訊類輿論平臺為主,咨詢類平臺的受眾通常都會對咨詢進行評論,分析提取評論中主題內容,對評論信息進行分類分析,了解當前網(wǎng)民的核心訴求具有非常重要的意義。主題模型作為主題發(fā)現(xiàn)中重要的模型手段,對主題的定位具有明顯的效果。
關鍵詞:網(wǎng)絡評論;主題發(fā)現(xiàn);網(wǎng)民導向
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)16-0133-02
Abstract: The various types of public opinion platform, based on information platform of public opinion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model in the subject discovery, has obvious effect on the orientation of the subject.
Key words: online review; topic discovery; public opinion
情感分析是目前文本挖掘中比較主流的應用領域,情感分析涵蓋的內容很多,諸如電商平臺中評論信息分析、社交媒體平臺中用戶的評論導向等都屬于情感分析的范疇。情感分析能夠發(fā)現(xiàn)用戶評論數(shù)據(jù)中極性,對于分析用戶的思維導向具有很好的指導價值。
情感分析能夠輔助電商和社交等平臺更好地提升用戶體驗,以電商平臺(淘寶)為例,淘寶的用戶量級和商品量級都非常巨大,通過提取分析用戶評論中情感特點,可以動態(tài)的對淘寶店鋪和淘寶商品的排序進行調整,最大適度的提升用戶的滿意度。情感分析對社交平臺的輔助性也是巨大的,很多熱點社會時政信息都會在社交平臺上暴露出來,通過對當前熱點事件下網(wǎng)民的跟帖信息分析,能夠發(fā)現(xiàn)網(wǎng)民對當前熱點事件的趨勢,一方面網(wǎng)民遍布全國各地,網(wǎng)民跟帖信息能夠在一定程度上幫助驗證事件的真實度。
1 情感分析流程
情感分析包括很多的內容,例如需要對用戶評論信息進行分詞,分詞之后需要對各個分詞結果的詞語進行詞性分析,詞性分析的結果是希望通過對單個詞語的詞性分析來分析整個句子的極性,需要通過機器學習的方法對每條評論信息進行極性標注,極性標注的方式可能存在多個類別而非簡單的積極和消極兩種情況。需要對用戶產(chǎn)生的新評論信息進行極性分類等。
1.1 評論分詞
用戶評論信息以句子和短文本為主,情感分析很重要的一步是依賴情感詞典,通過將評論信息中詞語與情感詞典進行映射,發(fā)現(xiàn)可以匹配的結果,以此來界定詞語的極性。因此對評論信息進行情感分析的首要工作是分詞,分詞的好壞決定了最終情感分析的結果。分詞可以采用多種算法,最簡單的方式是詞典匹配的方式,即通過能夠匹配詞典的詞語作為分詞單位,分詞時采用最大匹配單位為準,還有諸如最大熵分詞算法,既保證當前規(guī)則的分詞切分方式能夠最大化的保留句子的主要信息。值得一提的是,目前應用最為廣泛的應該是隱馬爾可夫模型的分詞算法,隱馬爾可夫模型將句子切分后的各個單元概率最大化,這樣做的目的是保證切詞后的劃分是基于統(tǒng)計意義下最可能的切分,分詞系統(tǒng)結構如圖1所示。
1.2句法分析
句法分析是分詞之后的步驟,分詞的目的是為了分析用戶評論中各個詞語的極性,分析極性的目的是為了對整個評論語句進行分析。句法分析涉及多個細節(jié),需要對句子的組成成分進行分析,常用的分析方法是隱馬爾可夫模型,隱馬爾可夫模型通過對句子拆分后的各個詞語進行動態(tài)組合,找出最佳的句子匹配成分,對句子成分的分析是為了能夠更加準確地分析句子。
1.3句子主題識別
句子主題識別在電商平臺應用尤為明顯,用戶評論的句子千差萬別,需要在如此海量的評論數(shù)據(jù)中找到評論中共通的信息,以淘寶為例,淘寶評論分為有限的類別,然后評論數(shù)據(jù)量確實非常巨大,需要從海量的評論數(shù)據(jù)中識別出有限的類別。依賴于前兩個流程的幫助,評論分詞和句子分析,可以試圖提取句子中共現(xiàn)次數(shù)較多的詞語,并評估這些詞語在整個評論數(shù)據(jù)中占據(jù)的信息量大小。
1.4評論分類
對海量評論數(shù)據(jù)的處理之后,如何對產(chǎn)生的新評論數(shù)據(jù)進行分析,即需要對新評論數(shù)據(jù)進行分類,分類的依據(jù)是之前通過歷史數(shù)據(jù)學習的類別數(shù)據(jù)。以淘寶為例,淘寶評論的類別有很多種,諸如物流信息、尺寸信息和顏色信息等有限的幾個類別,這些類別都是通過對歷史評論信息進行動態(tài)的劃分,新評論產(chǎn)生之后,通過分詞和句法分析等步驟,對新評論進行類別分類,將新評論映射到具體的類別中。
2情感分析實踐
情感分析是指發(fā)現(xiàn)作者在對某個話題或某個事物發(fā)表評論時的態(tài)度和觀點。這個態(tài)度或許是他當時的情感流露,又或者是作者透露出來的情感交流或者只是本人簡單的判斷和評估等。在進行情感分析時,需要分清逐級區(qū)分,可以是最基礎的詞語級別的、也或者是句子級別的再或者是最上層整個評論主體級別的。文本情感分析的要義就是對評論中詞語進行細粒度的極性分析,從而實現(xiàn)對整個句子級別的極性判斷??傮w來說,可以將情感分析劃分如下幾個步驟。
第一步,就是確定一個詞是積極還是消極,是主觀還是客觀。這一步主要依靠詞典。英文已經(jīng)有偉大詞典資源:SentiWordNet. 無論積極消極、主觀客觀,還有詞語的情感強度值都一并拿下。
但在中文領域,判斷積極和消極已經(jīng)有不少詞典資源,如Hownet,NTUSD但用過這些詞典就知道,效果實在是不咋地(最近還發(fā)現(xiàn)了大連理工發(fā)布的情感詞匯本體庫,不過沒用過,不好評價)。中文這方面的開源真心不夠英文的做得細致有效。而中文識別主客觀,那真的是不能直視。
中文領域難度在于:詞典資源質量不高,不細致。另外缺乏主客觀詞典。
第二步,就是識別一個句子是積極還是消極,是主觀還是客觀。有詞典的時候,好辦。直接去匹配看一個句子有什么詞典里面的詞,然后加總就可以計算出句子的情感分值。
但由于不同領域有不同的情感詞,比如看上面的例子,“藍屏”這個詞一般不會出現(xiàn)在情感詞典之中,但這個詞明顯表達了不滿的情緒。因此需要另外根據(jù)具體領域構建針對性的情感詞典。
如果不那么麻煩,就可以用有監(jiān)督的機器學習方法。把一堆評論扔到一個算法里面訓練,訓練得到分類器之后就可以把評論分成積極消極、主觀客觀了。分成積極和消極也好辦,還是上面那個例子。5顆星的評論一般來說是積極的,1到2顆星的評論一般是消極的,這樣就可以不用人工標注,直接進行訓練。但主客觀就不行了,一般主客觀還是需要人來判斷。加上中文主客觀詞典不給力,這就讓機器學習判斷主客觀更為困難。
中文領域的難度:還是詞典太差。還有就是用機器學習方法判斷主客觀非常麻煩,一般需要人工標注。另外中文也有找到過資源,比如這個用Python編寫的類庫:SnowNLP. 就可以計算一句話的積極和消極情感值。但我沒用過,具體效果不清楚。
到了第三步,情感挖掘就升級到意見挖掘(Opinion Mining)了。這一步需要從評論中找出產(chǎn)品的屬性。拿手機來說,屏幕、電池、售后等都是它的屬性。到這一步就要看評論是如何評價這些屬性的。比如說“屏幕不錯”,這就是積極的?!半姵匾惶於疾粔蚓陀猛炅耍拥 ?,這就是消極的,而且強度很大。
這就需要在情感分析的基礎上,先挖掘出產(chǎn)品的屬性,再分析對應屬性的情感。分析完每一條評論的所有屬性的情感后,就可以匯總起來,形成消費者對一款產(chǎn)品各個部分的評價。接下來還可以對比不同產(chǎn)品的評價,并且可視化出來。如圖2所示。
3總結
本文以文本情感分析為主要切入點,分析了文本情感分析在當前諸多領域中應用場景,文本情感分析可以發(fā)現(xiàn)用戶在特定場景下的情感特性,通過對情感特性的分析,可以了解用戶對當前話題或者世事的態(tài)度。很明顯這種研究具有非常重要的社會價值。情感分析包括句子分詞、句子成分分析、主題發(fā)現(xiàn)和句子分類等多個部分,通過諸多環(huán)節(jié)的協(xié)調組合共同組成了最終的情感分析。
參考文獻:
[1] 徐健. 基于網(wǎng)絡用戶情感分析的預測方法研究[J]. 中國圖書館學報,2013(3):96-107.
[2] 蔣宗禮,金益斌. 結合點評情感分析的推薦算法研究[J]. 計算機應用研究,2016(5):1-5.
[3] 江騰蛟,萬常選,劉德喜,劉喜平,廖國瓊. 基于語義分析的評價對象-情感詞對抽取[J]. 計算機學報,2016(39):1-17.
[4] 息行雨. 音樂與情感結合的教學方法分析[J]. 中國培訓,2016(6):121.
[5] 杜思奇,李紅蓮,呂學強. 基于漢語組塊分析的情感標簽抽取[J]. 情報理論與實踐,2016(5):125-129.