• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種針對(duì)短文本的主題情感混合模型

      2017-04-25 07:31:55蘇婧瓊鄒雪君李思宇
      中文信息學(xué)報(bào) 2017年1期
      關(guān)鍵詞:先驗(yàn)語(yǔ)料短文

      謝 珺,郝 潔,蘇婧瓊,鄒雪君,李思宇

      (太原理工大學(xué) 信息工程學(xué)院,山西 晉中 030600)

      一種針對(duì)短文本的主題情感混合模型

      謝 珺,郝 潔,蘇婧瓊,鄒雪君,李思宇

      (太原理工大學(xué) 信息工程學(xué)院,山西 晉中 030600)

      主題情感混合模型可以同時(shí)提取語(yǔ)料的主題信息和情感傾向。針對(duì)短文本特征稀疏的問(wèn)題,主題情感聯(lián)合分析方法較少的問(wèn)題,該文提出了BJSTM模型(Biterm Joint Sentiment Topic Model),在BTM模型(Biterm Topic Model)的基礎(chǔ)上,增加情感層的設(shè)置,從而形成“情感-主題-詞匯”的三層貝葉斯模型。對(duì)每個(gè)雙詞的情感和主題進(jìn)行采樣,從而對(duì)整個(gè)語(yǔ)料的詞共現(xiàn)關(guān)系建模,一定程度上克服了短文本的稀疏性。實(shí)驗(yàn)表明,BJSTM模型在無(wú)監(jiān)督情感分類和主題提取方面都有不錯(cuò)的表現(xiàn)。

      主題情感混合模型;情感分類;BTM

      1 引言

      隨著博客、微博、微信等自媒體的流行,網(wǎng)絡(luò)購(gòu)物的盛行和網(wǎng)購(gòu)評(píng)價(jià)體系的不斷完善,互聯(lián)網(wǎng)中,對(duì)事件的觀點(diǎn)、對(duì)物品的評(píng)價(jià)等具有情感傾向的文本越來(lái)越多。這些信息對(duì)于政府部門(mén)的輿情監(jiān)控、企業(yè)的經(jīng)營(yíng)決策和個(gè)人的購(gòu)買(mǎi)決定,都起著至關(guān)重要的作用。

      主題情感混合模型由于可以同時(shí)提取語(yǔ)料的主題信息和情感傾向而在文本情感分析領(lǐng)域得到了越來(lái)越廣泛的關(guān)注,并被應(yīng)用于情感信息抽取和情感分類等領(lǐng)域。有學(xué)者指出,互聯(lián)網(wǎng)評(píng)論文本的長(zhǎng)度與數(shù)量呈冪律關(guān)系[1],即短文本占絕大多數(shù),這些文本特征稀疏,很多傳統(tǒng)的文本分析方法無(wú)法直接使用,目前針對(duì)短文本的主題情感聯(lián)合分析方法較少。

      Lin等人提出了LSM模型(Latent Sentiment Model),該模型將情感作為主題的特例,認(rèn)為文檔中詞匯的分布與情感有關(guān),從而實(shí)現(xiàn)了文檔的無(wú)監(jiān)督情感分類,但無(wú)法識(shí)別出更細(xì)粒度的主題信息[2]。TSM模型(Topic Sentiment Mixture Model)能夠無(wú)監(jiān)督地抽取文檔的主題和情感信息,但TSM模型以PLSA算法(Probability Latent Semantic Analysis)為基礎(chǔ),受其限制容易產(chǎn)生過(guò)擬合[3]。ASUM模型(Aspect and Sentiment Unification Model)建立了“句子-主題-詞”的三層模型,ASUM以LDA為基礎(chǔ),泛化能力較強(qiáng),但該模型認(rèn)為一個(gè)句子中的所有詞均屬于同一方面,該假設(shè)過(guò)于嚴(yán)格[4]。JST模型(Joint Sentiment/Topic Model)是一種可以無(wú)監(jiān)督地提取文檔主題和情感信息的四層貝葉斯網(wǎng)絡(luò),和以上提到的這些方法類似,主要考慮單個(gè)文檔內(nèi)的詞共現(xiàn)信息,更適用于長(zhǎng)文本主題情感聯(lián)合分析[5]。熊蜀峰提出了面向短文本的情感主題模型SSTM(Short-text Sentiment-topic Model),提升了文檔情感分類精度,但這種方法基于每個(gè)主題下均有正負(fù)兩種情感的假設(shè),與實(shí)際情況不完全相符,該算法在推斷文檔情感時(shí),對(duì)每個(gè)詞情感的二值化也影響到情感分類的精度[6]。

      本文在雙詞話題模型(Biterm Topic Model,BTM)[7]的基礎(chǔ)上,增加情感層的設(shè)置,從而形成“情感-主題-詞匯”的三層貝葉斯模型。不僅可以無(wú)監(jiān)督地提取語(yǔ)料的主題信息和情感傾向,由于捕捉到語(yǔ)料級(jí)別豐富的詞共現(xiàn)關(guān)系,也在一定程度上克服了單個(gè)短文本特征的稀疏性。

      2 背景知識(shí)——BTM模型

      BTM模型[7]是一種針對(duì)于短文本的主題模型,通過(guò)直接對(duì)語(yǔ)料中的雙詞進(jìn)行建模,從而避免了文本過(guò)短而造成的內(nèi)容稀疏。該模型的主題學(xué)習(xí)過(guò)程無(wú)需借助任何外部數(shù)據(jù),這也是目前首個(gè)通用的短文本主題模型。

      對(duì)于短文本語(yǔ)料D={d1,d2,K,dND},對(duì)應(yīng)的雙詞集合為B={b1,b2,K,bNB},其中,bi=(wi,1,wi,2),z∈[1,K]為一個(gè)主題,K為主題數(shù)目,θ表示語(yǔ)料的主題分布,服從先驗(yàn)參數(shù)為α的狄利克雷分布,φ表示主題的詞分布,服從先驗(yàn)參數(shù)為β的狄利克雷分布。

      算法1 BTM模型文檔產(chǎn)生過(guò)程.

      Step 1對(duì)語(yǔ)料采樣一個(gè)主題分布θ~Dir(α)

      Step 2對(duì)每個(gè)主題k∈[1,K] 采樣一個(gè)詞匯分布φk~Dir(β)

      Step 3對(duì)每個(gè)雙詞bi∈B 采樣一個(gè)主題zi~Mult(θ) 根據(jù)主題zi,獨(dú)立采樣兩個(gè)詞wi,1,wi,2~Mult(φzi)

      圖1 BTM圖模型

      在BTM模型中,隱含變量θ和φ可按公式(1)和公式(2)估計(jì)。

      在BTM建模中,沒(méi)有涉及文檔的產(chǎn)生過(guò)程,故通過(guò)文檔中雙詞的主題來(lái)估計(jì)文檔的話題比例。假設(shè)文檔d包含Nd個(gè)雙詞{bij|j∈[1,Nd]},則該文檔中主題k的比例為式(3)。

      (3)

      其中,nd(bij)表示文檔d中的雙詞bij出現(xiàn)的次數(shù)。

      3 BJSTM模型

      3.1 模型結(jié)構(gòu)

      對(duì)于短文本語(yǔ)料D={d1,d2,…,dND},對(duì)應(yīng)的雙詞集合為B={b1,b2,…,bNB},其中,bi=(wi,1,wi,2),l∈[1,S]為一個(gè)情感,z∈[1,K]為一個(gè)主題,π表示語(yǔ)料的情感分布,服從先驗(yàn)參數(shù)為γ的狄利克雷分布,θ表示語(yǔ)料的主題分布,服從先驗(yàn)參數(shù)為α的狄利克雷分布,Φ表示主題的詞分布,服從先驗(yàn)參數(shù)為β的狄利克雷分布。

      圖2 BJSTM圖模型

      圖2為BJSTM的圖模型,按本模型的假設(shè),一篇文檔的生成過(guò)程見(jiàn)算法2。

      算法2 BJSTM模型文檔產(chǎn)生過(guò)程.

      Step 1對(duì)整個(gè)語(yǔ)料采樣一個(gè)情感分布π~Dir(γ)

      Step 2對(duì)每個(gè)情感l(wèi)∈[1,S] 采樣一個(gè)主題分布θl~Dir(α)

      Step 3對(duì)每個(gè)主題k∈[1,K] 對(duì)每個(gè)情感l(wèi)∈[1,S] 采樣一個(gè)詞匯分布φkl~Dir(β)

      Step 4對(duì)每個(gè)雙詞bi∈B 采樣一個(gè)情感l(wèi)i~Mult(π) 根據(jù)情感l(wèi)i,采樣一個(gè)主題zi~Mult(θli) 根據(jù)情感l(wèi)i和主題zi,獨(dú)立采樣兩個(gè)詞wi,1,wi,2~Mult(φzili)

      按上述文檔生成過(guò)程,若已知π,θ,Φ,雙詞bi的產(chǎn)生概率為式(4)。

      (4)

      給定參數(shù)α,β,γ,對(duì)整個(gè)雙詞集合,似然函數(shù)為式(5)。

      P(B|α,β,γ)=

      (5)

      3.2 參數(shù)估計(jì)

      本文通過(guò)吉布斯采樣估計(jì)π,θ,Φ。采樣的后驗(yàn)分布為式(6)。

      (6)

      其中,

      (7)

      類似地,可以得到公式(8)~(12)。

      (8)

      (9)

      (10)

      P(z┐i|l┐i)=

      (11)

      P(B┐i|z┐i,l┐i)=

      (12)

      P(li=s,zi=k|l┐i,z┐i,B)=

      (13)

      按照式(14)~(16)估計(jì)πs,θsk,φskw:

      本文通過(guò)文檔中雙詞的情感來(lái)估計(jì)文檔的情感比例。假設(shè)文檔d包含Nd個(gè)雙詞{bij|j∈[1,Nd]},則該文檔中情感s的比例為式(17)。

      (17)

      則文檔d的情感傾向?yàn)槭?18)。

      Ed=argmax(Ped)

      (18)

      其中,Ped為文檔d中各情感的比例。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)語(yǔ)料為從“去哪兒網(wǎng)*http://hotel.qunar.com/”爬取的26 533條酒店評(píng)論,其中包含正向情感文本13 934條和負(fù)向情感文本12 599條。經(jīng)過(guò)分詞和去停用詞等預(yù)處理后,每篇文檔的平均詞數(shù)為22詞,去除在整個(gè)語(yǔ)料中出現(xiàn)次數(shù)小于三次的詞。正面和負(fù)面情感種子詞來(lái)自知網(wǎng)《中文情感分析用詞語(yǔ)集》*http://www.keenage.com/html/c_bulletin_2007.htm。從中篩選出在語(yǔ)料中出現(xiàn)頻次最高的正負(fù)各35個(gè)情感詞。正面情感種子詞包括“好”、“舒適”、“干凈”等,負(fù)面情感種子詞包括“不好”、“差”、“舊”等。本文通過(guò)網(wǎng)格搜索確定BJSTM模型各個(gè)參數(shù)取值,即α=50/K,β=0.01,γ=0.1。JST和SSTM兩種模型的參數(shù)分別與文獻(xiàn)[4]和文獻(xiàn)[5]保持一致。BJSTM、JST和SSTM三模型的迭代次數(shù)均為1 000。

      4.2 情感分類精度

      按照公式(16)計(jì)算每個(gè)文檔的情感比例,將比例最大的情感作為該文檔的情感,圖3展示了無(wú)先驗(yàn)信息時(shí)各模型情感分類精度。

      圖3 無(wú)先驗(yàn)信息時(shí)各模型情感分類精度對(duì)比

      在沒(méi)有引入種子詞前,JST模型的情感分類精度徘徊在0.5~0.6,相對(duì)較低;SSTM居中;BJSTM模型在各個(gè)主題數(shù)目下的情感分類精度較高。

      引入種子詞后,各模型分類精度隨主題數(shù)目變化的波動(dòng)均有所減小,JST模型的情感分類性能提升較大,BJSTM比JST稍高。正如前文提到的,SSTM模型由于假設(shè)每個(gè)主題下均有正負(fù)兩個(gè)情感,對(duì)單個(gè)詞語(yǔ)的情感二值化也會(huì)引入誤差,在本次實(shí)驗(yàn)中,各個(gè)主題數(shù)目下BJSTM模型的情感分類精度均優(yōu)于SSTM模型。

      以K=10為例,表1列舉了各模型對(duì)正面、負(fù)面及全部文檔的情感分類精度。Baseline1和baseline2表示直接根據(jù)某文檔中包含的已知情感極性的詞的數(shù)量進(jìn)行多數(shù)表決,其中,baseline1使用的情感種子詞與其他三種方法一致,baseline2使用的是知網(wǎng)《中文情感分析用詞語(yǔ)集》的全部情感詞匯。

      圖4 帶先驗(yàn)信息時(shí)各模型情感分類精度對(duì)比

      表1 K=10時(shí)各方法分類精度對(duì)比

      由于BJSTM模型對(duì)整個(gè)語(yǔ)料的詞共現(xiàn)關(guān)系直接建模,在無(wú)先驗(yàn)信息和帶先驗(yàn)信息時(shí)都有不錯(cuò)的情感分類精度。由于所列舉的幾種算法均未考慮到詞序信息,可能丟失部分信息,在負(fù)面情感的文本中體現(xiàn)的尤為明顯。另外,baseline2中,即使使用了全部的情感詞匯,其精度也只是和無(wú)監(jiān)督的JST/SSTM/BJSTM相當(dāng),反映了網(wǎng)絡(luò)評(píng)論由于文本長(zhǎng)度較短而產(chǎn)生的稀疏性和可能存在的用詞不規(guī)范。

      4.3 關(guān)鍵詞對(duì)比

      在主題模型中,一般通過(guò)各個(gè)主題下概率最大的詞匯表征主題的含義。表2~表4列舉了K=10、帶先驗(yàn)信息時(shí)JST、SSTM和BJSTM關(guān)鍵詞,并對(duì)各個(gè)主題的主要內(nèi)容進(jìn)行了人工歸納。

      表2 JST模型關(guān)鍵詞

      可以看到,在短文本語(yǔ)料的背景下,JST模型得到的主題含義不明晰,如正面情感下的主題4、主題5和負(fù)面情感下的主題3、主題4、主題5,均包含多方面的內(nèi)容。另外,個(gè)別主題的情感也存在搖擺不定,如負(fù)面情感下的主題3,在展示出的十個(gè)關(guān)鍵詞及其后的若干詞中,均包含正負(fù)兩種情感傾向的詞匯。

      表3 SSTM關(guān)鍵詞

      SSTM模型得到的單個(gè)主題某情感下的關(guān)鍵詞的一致性比JST強(qiáng),但在真實(shí)語(yǔ)料下,并不是每個(gè)主題下都對(duì)應(yīng)兩種情感。在本實(shí)驗(yàn)中,只有主題4和主題5基本符合SSTM模型的假設(shè),得到的是“酒店環(huán)境”這一主題下的正負(fù)兩種情感色彩的關(guān)鍵詞,其他三個(gè)主題分別是“交通便利”和“設(shè)施老舊”對(duì)應(yīng),“有接機(jī)服務(wù)”和“環(huán)境衛(wèi)生差”對(duì)應(yīng),“服務(wù)貼心”和“缺乏必備設(shè)施”對(duì)應(yīng),涉及到的主要內(nèi)容不一致,與模型假設(shè)不符,這也影響到SSTM的情感分類精度。

      表4 BJSTM關(guān)鍵詞

      雖然在情感分類精度上,帶有先驗(yàn)信息的BJSTM模型僅略高于JST模型,但BJSTM模型得到的各情感下的主題關(guān)鍵詞表意明顯強(qiáng)于JST模型。這主要是因?yàn)镴ST模型基于LDA產(chǎn)生,針對(duì)的是單篇文檔內(nèi)的詞共現(xiàn)關(guān)系,BJSTM模型基于BTM,刻畫(huà)了語(yǔ)料中全局的詞共現(xiàn)關(guān)系。網(wǎng)絡(luò)評(píng)論文本長(zhǎng)度較傳統(tǒng)文本更短,單篇文檔內(nèi)的詞共現(xiàn)關(guān)系十分有限,BJSTM模型一定程度上克服了其稀疏性。

      5 結(jié)論

      本文提出了BJSTM主題情感混合模型,構(gòu)建了“情感—主題—詞匯”的三層貝葉斯網(wǎng)絡(luò)。通過(guò)刻畫(huà)語(yǔ)料級(jí)別的詞匯共現(xiàn)關(guān)系,一定程度上克服了單個(gè)短文本特征稀疏的問(wèn)題。實(shí)驗(yàn)表明,BJSTM模型能夠較為有效地提取各情感下主題的關(guān)鍵詞,并得到了較好的情感分類精度。如何將詞序信息加入到模型當(dāng)中和如何定量評(píng)價(jià)關(guān)鍵詞的質(zhì)量是下一步工作的重點(diǎn)。

      [1] 張林,錢(qián)冠群,樊衛(wèi)國(guó),等.輕型評(píng)論的情感分析研究[J].軟件學(xué)報(bào),2014(12):2790-2807.

      [2] Lin C,He Y,Everson R.A comparative study of Bayesian models for unsupervised sentiment detection[C]//Proceedings of 14th conference on computational natural language learning.Stroudsburg,PA,USA:Association for Computational Linguistics,2010:144-152.

      [3] Mei Q,Ling X,Wondra M,et al.Topic sentiment mixture:modeling facets and opinions in weblogs[C]//Proceedings of International Conference on World Wide Web.New York,NY,USA:ACM,2010:171-180.

      [4] Yohan Jo,AH Oh.Aspect and Sentiment Unification Model for Online Review Analysis[C]//Proceedings of ACM International Conference on Web Search and Data Mining.New York,NY,USA:ACM,2011:815-824.

      [5] Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C]//Proceedings of ACM Conference on Information & Knowledge Management.New York,NY,USA:ACM,2009:375-384.

      [6] 熊蜀峰,姬東鴻.面向產(chǎn)品評(píng)論分析的短文本情感主題模型[J].自動(dòng)化學(xué)報(bào),2016,42(8):1227-1237.

      [7] Yan X,Guo J,Lan Y,et al.A biterm topic model for short texts[C]//Proceedings of International Conference on World Wide Web.New York,NY,USA:ACM,2013:1445-1456.

      A Joint Topic and Sentiment Model for Short Texts

      XIE Jun,HAO Jie,SU Jingqiong,ZOU Xuejun,LI Siyu

      (Information Engineering College,Taiyuan University of Technology,Jinzhong,Shanxi 030600,China)

      The joint topic and sentiment model is aimed at efficiently detecting topics and emotions for the given corpus.Faced with the sparsity of short texts and the lack of sentiment/topic analysis methods,this paper proposes a novel way called Biterm Joint Sentiment Topic Model (BJSTM).A sentiment layer is added to Biterm Topic Model,thus a three-layer Bayesian model of “sentiment-topic-term” is formed.By sampling the sentiment and topic of each biterm,BJSTM could depict the word co-occurrence of the whole corpus and overcome the sparsity of short texts to some extent.The experimental results show that BJSTM gets better performance in sentiment classification as well as topic extraction.

      the topic and sentiment unification model;sentiment classification;BTM

      謝珺(1979—),副教授,主要研究領(lǐng)域?yàn)榱S?jì)算、粗糙集、數(shù)據(jù)挖掘和智能信息處理。E-mail:xiejun@tyut.edu.cn郝潔(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、粗糙集。E-mail:tyhj_415@163.com蘇婧瓊(1991—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、粒計(jì)算。E-mail:1138224810@qq.com

      1003-0077(2016)00-0162-07

      2016-09-17 定稿日期:2016-11-02

      山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2015-045,2013-033);山西省留學(xué)回國(guó)人員科技活動(dòng)擇優(yōu)資助項(xiàng)目(2013年度);山西省自然科學(xué)基金(2014011018-2)

      TP391

      A

      猜你喜歡
      先驗(yàn)語(yǔ)料短文
      基于無(wú)噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
      KEYS
      Keys
      基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
      先驗(yàn)的廢話與功能的進(jìn)路
      《苗防備覽》中的湘西語(yǔ)料
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      高陵县| 定州市| 万源市| 于田县| 贡山| 盐源县| 元谋县| 贵港市| 阜南县| 根河市| 栾城县| 大悟县| 巩义市| 会昌县| 新野县| 武功县| 沁源县| 广东省| 克什克腾旗| 水城县| 长沙市| 延庆县| 习水县| 濮阳县| 泸水县| 克什克腾旗| 天台县| 库尔勒市| 阿克陶县| 望都县| 保靖县| 石首市| 繁昌县| 揭东县| 金门县| 德州市| 许昌县| 交口县| 富阳市| 什邡市| 温泉县|