鄭誠等
摘要:近年來,隨著計算機移動技術和社會媒體的發(fā)展,微博已經(jīng)成為一個熱門的信息交流平臺。由于微博平臺數(shù)據(jù)量龐大,所以會導致提取帶有用戶觀點的句子較為困難,如何提取出帶有用戶觀點的句子也越來越受到關注。但是,目前的中文微博觀點句提取方法都集中在使用句法分析與分類器,忽略了微博主觀信息所具有的內(nèi)容關聯(lián)性。因此,該文將傳統(tǒng)觀點句識別方法與共現(xiàn)詞相結(jié)合,提出了基于共現(xiàn)詞的中文微博觀點句識別算法。該文的研究內(nèi)容包含以下幾點:首先,利用主題模型對數(shù)據(jù)進行聚類分析,提取具有內(nèi)容代表性的詞語,組成共現(xiàn)詞集合;然后,使用Stanford Parser句法分析工具對微博數(shù)據(jù)進行句法分析并且進行模板匹配,識別出較為明顯的觀點句;最后,使用共現(xiàn)詞與2-POS[1]等特征,識別句法分析無法識別的觀點句。
關鍵詞:微博;觀點句;主題模型;LDA;共現(xiàn)詞
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)11-2618-04
隨著國外Twitter等微博的風靡,我國國內(nèi)的微博也開始發(fā)展,截至2013年11月,我國微博賬號總數(shù)已經(jīng)突破13億。用戶可以在微博平臺上自由發(fā)表觀點與意見,而這些信息有著巨大的潛在價值。微博的觀點句識別技術可以幫助人們快速,準確地獲得自己感興趣的內(nèi)容中的民眾觀點。因此,近年來微博的觀點識別研究逐漸成為了熱點。但是,與傳統(tǒng)媒體相比,微博的觀點句識別更加具有難度。目前,國內(nèi)對于微博觀點句識別的主要技術可以分為兩類[2]:基于詞典與規(guī)則匹配的識別方法和基于統(tǒng)計的識別方法?;谠~典與規(guī)則匹配的識別方法主要使用情感詞本體或者情感詞典作為識別的基礎?;诮y(tǒng)計的識別方法主要使用了支持向量機(SVM),樸素貝葉斯(Naive Bayes)等[3]在已經(jīng)標注好的語料上進行訓練,然后使用訓練所得到的分類器進行分類。但是這兩類方法很少考慮到微博內(nèi)容的聚集性特征。
本文決定使用LDA(Latent Dirichlet Allocation)[4]主題模型對微博內(nèi)容進行分類,并提取出其中的共現(xiàn)詞組成詞對加入到觀點句提取算法中。該文的研究內(nèi)容:考慮微博數(shù)據(jù)的內(nèi)容聚集性,將LDA主題模型與常用觀點句提取算法相結(jié)合,并且通過實驗驗證了該方法的有效性。
1 背景
1.1 LDA模型介紹
LDA是一種自生成模型,該模型采用了概率的產(chǎn)生式來對文本進行建模。 LDA主題模型是基于bag of word前提的,即不考慮文檔中的單詞順序,其基本思想是每一篇文本都可以看成是所有主題的混合分布,而主題又可以看成是詞匯庫中所有單詞的混合分布。
1.2 微博觀點句
根據(jù)COAE2013中關于微博觀點句定義,可以將微博觀點句定義為:微博中對特定事物或者對象的評價,但是不包括對于自身情感或者心情的表達。該文參考張博[5]一文中對于觀點句的分類來劃分觀點句,將觀點句分為顯性的觀點句和隱性的觀點句。顯性觀點句:核心謂語為指示性動詞,例如“認為、覺得”等,一般長度較短,具有明顯的句法特征。例如:“我覺得蒙牛牛奶很好喝。”。隱性觀點句:不帶有指示性動詞,但是包含了對于特定事物的情感傾向。例如:“奧迪的車型很好看”。
2 觀點句提取算法
本文采取了工具模板標注以及Weka工具軟件來提取微博觀點句。本節(jié)將討論算法設計以及所使用的工具。
2.2 共現(xiàn)詞提取
由于微博信息的長度較短,所以微博中的觀點句一般會采取具有代表性的詞匯來表達觀點。通過LDA模型所得到的某個主題下的貢獻詞匯,一般與該主題有著較大的相關性,故本文采取共現(xiàn)詞來識別微博信息的主題,提取觀點句。
根據(jù)文本預處理的結(jié)果,該文使用LDA模型進行分類,然后對于分類結(jié)果進行共現(xiàn)詞的篩選,并且使得共現(xiàn)詞表中的名詞達到50%以上時停止篩選。
2.3觀點句提取
根據(jù)觀點句的分類,該文分別提取顯性觀點句和隱性觀點句,同時,對于微博信息具有的特殊格式:轉(zhuǎn)發(fā)信息,該文進行了特殊處理,然后按照普通微博信息的觀點句提取算法進行觀點句提取。
2.3.1 轉(zhuǎn)發(fā)信息處理
微博與傳統(tǒng)信息的相比,具有其特殊格式:轉(zhuǎn)發(fā)信息,這要求我們在提取微博觀點句時必須對這種特殊格式進行處理。該文對于大量微博語料進行了研究,提出了以下微博轉(zhuǎn)發(fā)信息處理方法:
優(yōu)先抽取出最后一條微博信息和第一條被轉(zhuǎn)發(fā)微博信息,進行觀點句判斷,如果判斷為觀點句,則認為該微博信息是觀點句;如果判斷這兩條微博信息都不帶有觀點,則從左至右依次判斷其他轉(zhuǎn)發(fā)信息,只要任意一條為觀點句,則認為該微博信息為觀點句。
2.3.3 隱性觀點句提取
對于隱性觀點句,該文采用去除離散句子后使用Weka工具中的多數(shù)投票算法來識別。
Weka是一款JAVA環(huán)境下的開源機器學習以及數(shù)據(jù)挖掘工具軟件,其中實現(xiàn)了多數(shù)投票
分類的方法。Weka中投票算法的關鍵在于特征選擇以及特征權(quán)重的設置,通常采用詞性,情感詞,2-POS等特征,并且統(tǒng)計微博中這些特征的出現(xiàn)的次數(shù)作為權(quán)重。
在這里,該文加入共現(xiàn)詞作為特征之一,所選擇的特征如下:1.共現(xiàn)詞特征,通過LDA模型提取出的共現(xiàn)詞;2.形容詞、動詞特征,微博信息中每個部分的詞性,通過ICTCLAS分詞標注得到;3.情感詞特征,即帶有情感傾向的形容詞、動名詞以及網(wǎng)絡詞匯;4.2-POS特征,對于分詞所標注的詞性,每相鄰的兩個組成一個新的標記串。2-POS是葉強等提出的一種根據(jù)連續(xù)的雙詞詞性組合來計算句子主觀性的發(fā)方法,該方法通過統(tǒng)計方法提取2-POS主觀模式經(jīng)過訓練樣本統(tǒng)計后共發(fā)現(xiàn)有223個2-POS標記,我們采用卡方檢驗,選取了前20個2-POS標記作為特征。
在選取特征并且進行向量化以后,我們使用Weka工具進行了訓練、測試以及效果對比。實驗中人工標注了3000條隱性觀點句,并且將1500條隱性觀點句標注數(shù)據(jù)作為訓練集,另1500條作為測試集。3 實驗結(jié)果endprint
本文采用了第五屆中文傾向性分析評測會議(COAE2013)所提供的數(shù)據(jù)進行試驗。
對語料進行預處理:去除語料中的噪音,人工標注了5000條觀點句,并且將標注數(shù)據(jù)中的1500條隱性觀點句數(shù)據(jù)作為訓練集,另3500條作為測試集。
使用LDA模型提取共現(xiàn)詞:使用LDA模型進行多次分類提取共現(xiàn)詞,共進行了10次提取實驗,提取出共現(xiàn)詞共83個,分為3大類,這三大類共現(xiàn)詞分別代表了銀行業(yè)務類話題,汽車類話題以及牛奶健康類話題。
使用觀點句提取算法進行觀點句的提取。首先使用顯性觀點句提取算法對于3500條測試集提取顯性觀點句,剩下的部分使用隱性觀點句提取算法進行提取。4 總結(jié)和不足
本文探討了對于中文微博觀點句的提取方法,但是由于微博信息的特殊性,國內(nèi)對于微博觀點句的提取算法效果并不理想。COAE2013評測中,17家單位的平均評測準確率和召回率均在24%左右,最高也僅有35%。所以說,對于中文微博觀點句的提取方法,目前還處于初步探索階段,處理方法有待改進。下一階段,我們的工作將會集中在:
1)考慮網(wǎng)絡標點與新詞,擴建情感詞典,加入網(wǎng)絡詞匯。
2)由于LDA模型對于短文本分類效果有限,我們考慮使用中國科學院計算技術研究所科針對短文本所提出的BTM模型[6]替代LDA模型。
參考文獻:
[1] 葉強, 張紫瓊, 羅振雄. 面問互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J]. 信息系統(tǒng)學報,2007(01).
[2] 呂云云, 李旸, 王素格. 基于 Bootstrapping 的集成分類器的中文觀點句識別方法[J]. 中文信息學報, 013, 5: 012.
[3] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[4] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.
[5] 張博. 基于 SVM 的中文觀點句抽取[D]. 北京郵電大學, 2011.
[6] Yan X, Guo J, Lan Y, et al. A Biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2013: 1445-1456.endprint
本文采用了第五屆中文傾向性分析評測會議(COAE2013)所提供的數(shù)據(jù)進行試驗。
對語料進行預處理:去除語料中的噪音,人工標注了5000條觀點句,并且將標注數(shù)據(jù)中的1500條隱性觀點句數(shù)據(jù)作為訓練集,另3500條作為測試集。
使用LDA模型提取共現(xiàn)詞:使用LDA模型進行多次分類提取共現(xiàn)詞,共進行了10次提取實驗,提取出共現(xiàn)詞共83個,分為3大類,這三大類共現(xiàn)詞分別代表了銀行業(yè)務類話題,汽車類話題以及牛奶健康類話題。
使用觀點句提取算法進行觀點句的提取。首先使用顯性觀點句提取算法對于3500條測試集提取顯性觀點句,剩下的部分使用隱性觀點句提取算法進行提取。4 總結(jié)和不足
本文探討了對于中文微博觀點句的提取方法,但是由于微博信息的特殊性,國內(nèi)對于微博觀點句的提取算法效果并不理想。COAE2013評測中,17家單位的平均評測準確率和召回率均在24%左右,最高也僅有35%。所以說,對于中文微博觀點句的提取方法,目前還處于初步探索階段,處理方法有待改進。下一階段,我們的工作將會集中在:
1)考慮網(wǎng)絡標點與新詞,擴建情感詞典,加入網(wǎng)絡詞匯。
2)由于LDA模型對于短文本分類效果有限,我們考慮使用中國科學院計算技術研究所科針對短文本所提出的BTM模型[6]替代LDA模型。
參考文獻:
[1] 葉強, 張紫瓊, 羅振雄. 面問互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J]. 信息系統(tǒng)學報,2007(01).
[2] 呂云云, 李旸, 王素格. 基于 Bootstrapping 的集成分類器的中文觀點句識別方法[J]. 中文信息學報, 013, 5: 012.
[3] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[4] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.
[5] 張博. 基于 SVM 的中文觀點句抽取[D]. 北京郵電大學, 2011.
[6] Yan X, Guo J, Lan Y, et al. A Biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2013: 1445-1456.endprint
本文采用了第五屆中文傾向性分析評測會議(COAE2013)所提供的數(shù)據(jù)進行試驗。
對語料進行預處理:去除語料中的噪音,人工標注了5000條觀點句,并且將標注數(shù)據(jù)中的1500條隱性觀點句數(shù)據(jù)作為訓練集,另3500條作為測試集。
使用LDA模型提取共現(xiàn)詞:使用LDA模型進行多次分類提取共現(xiàn)詞,共進行了10次提取實驗,提取出共現(xiàn)詞共83個,分為3大類,這三大類共現(xiàn)詞分別代表了銀行業(yè)務類話題,汽車類話題以及牛奶健康類話題。
使用觀點句提取算法進行觀點句的提取。首先使用顯性觀點句提取算法對于3500條測試集提取顯性觀點句,剩下的部分使用隱性觀點句提取算法進行提取。4 總結(jié)和不足
本文探討了對于中文微博觀點句的提取方法,但是由于微博信息的特殊性,國內(nèi)對于微博觀點句的提取算法效果并不理想。COAE2013評測中,17家單位的平均評測準確率和召回率均在24%左右,最高也僅有35%。所以說,對于中文微博觀點句的提取方法,目前還處于初步探索階段,處理方法有待改進。下一階段,我們的工作將會集中在:
1)考慮網(wǎng)絡標點與新詞,擴建情感詞典,加入網(wǎng)絡詞匯。
2)由于LDA模型對于短文本分類效果有限,我們考慮使用中國科學院計算技術研究所科針對短文本所提出的BTM模型[6]替代LDA模型。
參考文獻:
[1] 葉強, 張紫瓊, 羅振雄. 面問互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J]. 信息系統(tǒng)學報,2007(01).
[2] 呂云云, 李旸, 王素格. 基于 Bootstrapping 的集成分類器的中文觀點句識別方法[J]. 中文信息學報, 013, 5: 012.
[3] Pang B, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[4] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.
[5] 張博. 基于 SVM 的中文觀點句抽取[D]. 北京郵電大學, 2011.
[6] Yan X, Guo J, Lan Y, et al. A Biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2013: 1445-1456.endprint