張 璞,王俊霞,王英豪
(重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065)
隨著電子商務(wù)的快速發(fā)展,各電商網(wǎng)站產(chǎn)生了帶有情感色彩的海量評(píng)論文本,文本情感分析技術(shù)也得到越來(lái)越多的應(yīng)用。通過(guò)對(duì)產(chǎn)品評(píng)論文本進(jìn)行情感傾向性的自動(dòng)分析,不僅可以為消費(fèi)者節(jié)省大量時(shí)間和精力,提供商品屬性粒度級(jí)別的購(gòu)買(mǎi)依據(jù),還可以使商家更加了解消費(fèi)者對(duì)產(chǎn)品的情感傾向以及關(guān)心的問(wèn)題,由此明確產(chǎn)品的優(yōu)勢(shì)和不足,對(duì)用戶(hù)需求和產(chǎn)品改進(jìn)方向作出有效反應(yīng),提高企業(yè)競(jìng)爭(zhēng)力[1]。
文本情感分析領(lǐng)域中,情感詞典的構(gòu)建是重要研究?jī)?nèi)容之一。情感詞典作為一種重要的情感資源,在詞語(yǔ)、短語(yǔ)、屬性、句子及篇章級(jí)等不同粒度的情感分析任務(wù)中起著重要的作用[2]。
通用情感詞典如General Inquirer(GI)、SentiWordNet等主要以手工或半自動(dòng)方式構(gòu)建而成,難以覆蓋不同領(lǐng)域的情感詞,其領(lǐng)域適應(yīng)性及可靠性受到限制[2-3]。因此,許多研究關(guān)注于情感詞典的自動(dòng)構(gòu)建。其中一類(lèi)主要方法是利用語(yǔ)義知識(shí)庫(kù)(WordNet、HowNet等)來(lái)進(jìn)行情感詞典的擴(kuò)充[3-6]。這類(lèi)方法主要以一組已知極性的詞語(yǔ)作為種子集,通過(guò)利用知識(shí)庫(kù)中詞語(yǔ)的同義、反義、上下位、詞語(yǔ)和義原的關(guān)聯(lián)等語(yǔ)義關(guān)系來(lái)對(duì)未知詞的情感傾向進(jìn)行判定,可以方便快捷地?cái)U(kuò)充情感詞典,但也存在依賴(lài)于語(yǔ)義知識(shí)庫(kù)、詞典覆蓋率有限、領(lǐng)域適應(yīng)性差等問(wèn)題。針對(duì)上述問(wèn)題,本文利用語(yǔ)料庫(kù)來(lái)進(jìn)行情感詞典的構(gòu)建,提出一種基于標(biāo)簽傳播的情感詞典構(gòu)建方法。該方法通過(guò)在語(yǔ)料上利用Word2Vec訓(xùn)練詞向量,以及分析詞語(yǔ)之間的連詞關(guān)系等2種方式來(lái)對(duì)情感種子擴(kuò)充候選情感詞,并根據(jù)擴(kuò)充詞和種子詞之間的相似性構(gòu)建圖,最后再利用標(biāo)簽傳播算法來(lái)計(jì)算詞匯的情感極性,得到情感詞典。
本文方法的整體思路如下:首先選取一定數(shù)量積極極性和消極極性的情感種子詞,然后使用Word2Vec在語(yǔ)料上訓(xùn)練詞向量。如果詞語(yǔ)a和種子詞b的相似性超過(guò)閾值,則詞語(yǔ)a和b之間有一條邊;此外,通過(guò)在語(yǔ)料中分析種子詞的連詞關(guān)系,如果詞語(yǔ)c和種子詞b具有連詞關(guān)系,則詞語(yǔ)c和b之間有一條邊。最后得到一個(gè)圖,再通過(guò)標(biāo)簽傳播算法在圖上進(jìn)行極性傳播,最終確定所有擴(kuò)充得到的候選情感詞的極性??傮w流程如圖1所示。
圖1 本文方法的總體流程
在情感詞典構(gòu)建中,通常選用具有明顯情感傾向的詞語(yǔ)作為種子詞。本文選擇SentiWordNet[7]中部分主觀性強(qiáng)的詞語(yǔ)作為種子詞。SentiWordNet中對(duì)各種詞性的情感詞打有分值,本文選擇分?jǐn)?shù)高且常見(jiàn)的情感詞作為種子詞,將極性為積極的情感詞放入積極種子詞集合(“Positive”集合,簡(jiǎn)稱(chēng)“Pos”集合)中,將極性為消極的情感詞放在消極種子詞集合(“Negative”集合,簡(jiǎn)稱(chēng)“Neg”集合)中。所選取的部分種子詞如表1所示。
表1 部分種子詞集合
Word2Vec是一款將詞語(yǔ)表征為詞向量(也稱(chēng)詞嵌入)的高效工具。詞向量是詞語(yǔ)的分布式表示(Distributed Representation)方式,其基本思想是利用深度學(xué)習(xí)技術(shù),通過(guò)在語(yǔ)料上訓(xùn)練后,將每個(gè)詞映射成多維的實(shí)數(shù)向量,使得語(yǔ)義相近的詞間的距離也比較接近。Word2Vec中包含了2種訓(xùn)練模型,分別是連續(xù)詞袋模型(Continuous Bag-Of-Words,CBOW)和skip-gram模型。其中,CBOW模型通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞,skip-gram模型則通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)上下文。相比于詞語(yǔ)的獨(dú)熱表示方式(One-hot Representation),詞向量不但能更好地表達(dá)詞語(yǔ)間的語(yǔ)義關(guān)系,也避免了維數(shù)災(zāi)難,因而被應(yīng)用于情感新詞的發(fā)現(xiàn)[8]、情感詞典的自動(dòng)構(gòu)建[9]等工作中。受上述工作的啟發(fā),本文也采用Word2Vec工具來(lái)進(jìn)行情感詞的擴(kuò)充,通過(guò)Word2Vec在語(yǔ)料上訓(xùn)練詞向量模型,得到每個(gè)詞語(yǔ)的詞向量。再將訓(xùn)練語(yǔ)料中與種子詞相似度大于設(shè)定閾值的詞語(yǔ)抽取出來(lái)作為候選情感詞,添加到候選情感詞集合中。在計(jì)算詞語(yǔ)間相似度時(shí),本文選用余弦相似度方法來(lái)進(jìn)行計(jì)算。
本文所用連詞關(guān)系主要有并列關(guān)系和轉(zhuǎn)折關(guān)系這2種。一般而言,評(píng)論文本中所出現(xiàn)的并列關(guān)系連詞不會(huì)改變連續(xù)出現(xiàn)的情感詞極性,而轉(zhuǎn)折關(guān)系連詞會(huì)使文本中前后出現(xiàn)的情感詞極性發(fā)生變化。具有并列關(guān)系的評(píng)論文本如例1)、例2),具有轉(zhuǎn)折關(guān)系的評(píng)論文本如例3)、例4):例1)“The cellphone is beautiful and durable”;例2)“The phone is neither cheap nor beautiful”;例3)“The phone's performance is good,but the price is too expensive”;例4)“For the price,this is a cheap,yet somewhat protective option”。
本文選用的并列關(guān)系連詞有:and,neither…nor,either…or,as well as,not only…but also…等。轉(zhuǎn)折關(guān)系連詞有:but,yet,however,still,while,on the contrary等。為了利用詞語(yǔ)之間的連詞關(guān)系抽取候選情感詞,傳統(tǒng)方法通常采用詞匯窗口技術(shù)??紤]到有些具有連詞關(guān)系(尤其是轉(zhuǎn)折關(guān)系)的詞語(yǔ)的距離比較遠(yuǎn),使用詞匯窗口技術(shù)來(lái)抽取候選情感詞時(shí)會(huì)由于窗口大小設(shè)置不當(dāng)而失效,因此,本文使用Stanford Parser[10]來(lái)對(duì)語(yǔ)料進(jìn)行依存句法分析,得到詞語(yǔ)之間的依存關(guān)系,再將和種子詞具有連詞依存關(guān)系的詞語(yǔ)抽取出來(lái)作為候選情感詞。Stanford Parser能夠依據(jù)連詞依存關(guān)系來(lái)有效地抽取出候選情感詞。例如,對(duì)例3)所示的評(píng)論而言,“good”和“expensive”這2個(gè)詞分別位于句子的不同子句中,距離比較遠(yuǎn)。通過(guò)Stanford Parser對(duì)評(píng)論句子進(jìn)行依存句法分析后,可以得到以下依存關(guān)系結(jié)果,“det(phone-2,The-1),nmod_poss(performance-4,phone-2),case(phone-2,'s-3),nsubj(good-6,performance-4),cop(good-6,is-5),root(ROOT-0,good-6),cc(good-6,but-8),det(price-10,the-9),nsubj(expensive-13,price-10),cop(expensive-13,is-11),advmod(expensive-13,too-12),conj_but(good-6,expensive-13)”。其中,每條依存關(guān)系分析結(jié)果提供的信息主要由兩部分構(gòu)成:關(guān)系名稱(chēng)(如det代表冠詞修飾關(guān)系;conj_but表示轉(zhuǎn)折關(guān)系;nsubj代表主謂關(guān)系),2個(gè)參與關(guān)系的詞語(yǔ)及它們分別在句中的位置。通過(guò)conj_but(good-6,expensive-13)這一依存關(guān)系結(jié)果可知 “good”和“expensive”具有轉(zhuǎn)折關(guān)系,因此,當(dāng)“good”為種子詞時(shí),則可以根據(jù)conj_but依存關(guān)系來(lái)抽取出候選情感詞“expensive”。類(lèi)似地,對(duì)例1)、例2)、例4)中的評(píng)論句子,可以分別利用conj_and、conj_nor、conj_yet等連詞依存關(guān)系來(lái)抽取候選情感詞。
當(dāng)評(píng)論文本中的詞語(yǔ)和種子詞具有并列關(guān)系時(shí),將該詞語(yǔ)加入到對(duì)應(yīng)候選情感詞集合中,并記錄詞語(yǔ)在集合中的出現(xiàn)次數(shù)。當(dāng)集合中已有該詞時(shí),則將其次數(shù)加1,且標(biāo)記為并列關(guān)系;當(dāng)評(píng)論文本中的詞語(yǔ)和種子詞具有轉(zhuǎn)折關(guān)系時(shí),將該詞語(yǔ)也加入到對(duì)應(yīng)候選情感詞集合中。若集合中已有該詞時(shí),則將其次數(shù)加1,且標(biāo)記為轉(zhuǎn)折關(guān)系。如此在評(píng)論文本中對(duì)選取的種子詞利用連詞關(guān)系不斷擴(kuò)充候選情感詞,直到再?zèng)]有可以擴(kuò)充的詞語(yǔ)為止。假設(shè)“beautiful”和“good”都是種子詞,而例1)中“beautiful”和“durable”具有并列關(guān)系,所以“durable”被抽取出來(lái);例3)中“good”和“expensive”具有轉(zhuǎn)折關(guān)系,所以“expensive”被抽取出來(lái)。
在擴(kuò)充得到的候選情感詞集合中,通過(guò)一個(gè)種子詞擴(kuò)充得到的具有相同連詞關(guān)系的詞語(yǔ)數(shù)量來(lái)計(jì)算種子詞和該詞語(yǔ)的相似度。如種子詞“good”擴(kuò)充到3個(gè)具有并列關(guān)系的詞語(yǔ):“durable”“beautiful”“cheap”,其數(shù)量分別為3、4、3,則這3個(gè)詞語(yǔ)與種子詞“good”的相似度分別為3/(3+4+3),4/(3+4+3),3/(3+4+3)。
1.5.1 標(biāo)簽傳播算法
標(biāo)簽傳播算法(Label Propagation Algorithm,LPA)是一種基于圖的半監(jiān)督學(xué)習(xí)方法,目前已在Web頁(yè)面挖掘[11]、社區(qū)發(fā)現(xiàn)[12]、人物社會(huì)關(guān)系抽取[13]、情感詞典構(gòu)建[14]等諸多領(lǐng)域得到運(yùn)用。標(biāo)簽傳播算法根據(jù)結(jié)點(diǎn)之間的相似度關(guān)系構(gòu)建關(guān)系圖,在圖完成初始化后,圖中結(jié)點(diǎn)可以分為已知標(biāo)簽的結(jié)點(diǎn)和未知標(biāo)簽的結(jié)點(diǎn),LPA的基本思想是通過(guò)已知標(biāo)簽的結(jié)點(diǎn)來(lái)預(yù)測(cè)未知標(biāo)簽結(jié)點(diǎn)的標(biāo)簽信息。結(jié)點(diǎn)之間的標(biāo)簽主要通過(guò)相似度來(lái)進(jìn)行傳播。在標(biāo)簽傳播的過(guò)程中,未知標(biāo)簽的結(jié)點(diǎn)通過(guò)相鄰已知標(biāo)簽的結(jié)點(diǎn)信息來(lái)更新自己的標(biāo)簽。若相鄰結(jié)點(diǎn)與它的相似度越大,則對(duì)其標(biāo)簽影響的權(quán)重越大,也就更容易進(jìn)行標(biāo)簽的傳播。
1.5.2 情感詞典的構(gòu)建
首先,將1.3節(jié)和1.4節(jié)中擴(kuò)充所得到的候選情感詞和種子詞都作為圖中的結(jié)點(diǎn),圖的構(gòu)造方法如下:如果詞語(yǔ)a通過(guò)Word2Vec方法可以擴(kuò)充得到詞語(yǔ)b,那么a和b之間有一條邊,權(quán)重為詞語(yǔ)a和b的相似度;如果詞語(yǔ)a和詞語(yǔ)c具有連詞關(guān)系,則a和c之間有一條邊,權(quán)重為詞語(yǔ)a和c的相似度。因此,所有抽取出的候選情感詞和種子詞被抽象為一張圖,如圖2所示。
圖2 圖模型結(jié)構(gòu)
假設(shè)圖中共有m個(gè)結(jié)點(diǎn),則可構(gòu)建一個(gè)m維的相似度概率轉(zhuǎn)移矩陣。計(jì)算方法如下:
(1)
其中,T[i][j]表示詞語(yǔ)i到詞語(yǔ)j的相似度轉(zhuǎn)移概率,SIM(wi,wj)表示詞語(yǔ)i和j的相似度。
在圖2中,假設(shè)a和b分別是積極種子詞和消極種子詞,極性分別記為+1和-1。其余詞語(yǔ)的極性未知,記為0。則詞語(yǔ)a~e初始情感極性向量V如下:
(2)
然后利用相似度概率轉(zhuǎn)移矩陣和詞語(yǔ)的初始情感極性進(jìn)行不斷地迭代,得到每個(gè)未知極性的詞語(yǔ)極性。計(jì)算方法如下:
(3)
其中,PO[i]表示迭代后結(jié)點(diǎn)i的情感極性,T[j][i]表示結(jié)點(diǎn)j到結(jié)點(diǎn)i的相似度矩陣中的轉(zhuǎn)移概率,V[j]表示迭代前結(jié)點(diǎn)j的初始情感極性。在每輪迭代中,種子詞的極性保持不變。經(jīng)過(guò)不斷迭代,直到圖中詞語(yǔ)的極性不再發(fā)生任何變化為止。迭代過(guò)程結(jié)束后,將極性的絕對(duì)值大于某一閾值的詞語(yǔ)作為最終情感詞,并得到未知標(biāo)簽的詞語(yǔ)極性,擴(kuò)充得到情感詞典。
本文提出了基于標(biāo)簽傳播的情感詞典構(gòu)建方法,算法描述如算法1所示。
算法1情感詞典構(gòu)建算法
輸入評(píng)論語(yǔ)料(Review Corpus,RC),情感種子詞SD,利用Word2Vec擴(kuò)充詞語(yǔ)的閾值wv,存放情感詞的集合U,確定是否是積極情感詞的閾值ppos,確定是否是消極情感詞的閾值pneg
輸出積極情感詞典(SLpos)和消極情感詞典(SLneg)
1)初始化情感詞典,令SLpos=?,SLneg=?。
2)對(duì)語(yǔ)料RC進(jìn)行預(yù)處理。
3)對(duì)每個(gè)種子詞SDi∈SD。
(1)利用Word2Vec在語(yǔ)料RC上訓(xùn)練詞向量,若RC中的詞語(yǔ)SWi和種子詞SDi的相似性大于閾值wv,則U=U∪SDi∪SWi,并記錄詞語(yǔ)之間的相似度。
(2)對(duì)語(yǔ)料RC進(jìn)行連詞關(guān)系和依存句法分析,若RC中的詞語(yǔ)SWj和種子詞SDi具有連詞關(guān)系,則U=U∪SDi∪SWj。
(3)按1.4節(jié)所敘述方法來(lái)計(jì)算步驟(2)中詞語(yǔ)SWj和種子詞SDi的相似度。
4)通過(guò)步驟3得到所有擴(kuò)充的候選情感詞以及詞語(yǔ)之間的相似度矩陣后,再根據(jù)式(1)得到詞語(yǔ)之間的相似度概率轉(zhuǎn)移矩陣,并構(gòu)建情感詞之間的語(yǔ)義關(guān)聯(lián)圖。
5)在整個(gè)圖中,根據(jù)式(3)以及詞語(yǔ)的初始情感極性V計(jì)算未知極性的詞語(yǔ)極性PO。
6)令V=PO。
7)重復(fù)步驟5)、步驟6),直至整個(gè)圖中詞語(yǔ)的極性不再發(fā)生任何變化。
8)得到最終詞語(yǔ)的極性向量PO。PO中每個(gè)值代表每個(gè)詞語(yǔ)的情感傾向。如果詞語(yǔ)SWk的極性POk>0且|POk|>ppos,則SLpos=SLpos∪SWk,如果詞語(yǔ)SWk的極性POk<0且|POk|>pneg,則SLneg=SLneg∪SWk。
語(yǔ)料:本文語(yǔ)料選用斯坦福大學(xué)所提供的亞馬遜評(píng)論語(yǔ)料[15],該語(yǔ)料中有書(shū)籍、手機(jī)、衣服、電子產(chǎn)品以及電影等不同領(lǐng)域的評(píng)論,本文選擇其中的手機(jī)領(lǐng)域評(píng)論語(yǔ)料作為實(shí)驗(yàn)語(yǔ)料,共194 185條。
利用Word2Vec在語(yǔ)料上訓(xùn)練詞向量時(shí),由于skip-gram模型具有高效的特點(diǎn)[16],本文選擇skip-gram來(lái)訓(xùn)練詞向量,并在訓(xùn)練過(guò)程中采用Negative Sampling方法。相應(yīng)參數(shù)設(shè)置如下:詞向量維度值為200,上下文窗口取值為8。
評(píng)價(jià)標(biāo)準(zhǔn):類(lèi)似于文獻(xiàn)[17]的評(píng)估方法,本文利用人工評(píng)判方法對(duì)情感詞典進(jìn)行評(píng)估,具體做法是選取情感詞典中一定數(shù)量的詞語(yǔ),人工判斷它們的極性是否正確,通過(guò)這些情感詞的正確率來(lái)衡量所構(gòu)建的情感詞典性能。
為了驗(yàn)證本文提出的情感詞典構(gòu)建方法的有效性,選取了以下方法作為基線方法:
1)基于WordNet的情感詞典構(gòu)建方法(A Method of Constructing Sentiment Lexicon Based on WordNet,WN):直接利用WordNet語(yǔ)義知識(shí)庫(kù)對(duì)情感種子詞進(jìn)行同義詞的迭代抽取,得到擴(kuò)充的情感詞典。
2)基于連詞關(guān)系的情感詞典構(gòu)建方法(Method of Constructing Sentiment Lexicon Based on Conjunctive Relations,CR):分析語(yǔ)料,迭代抽取和種子詞具有連詞關(guān)系的詞語(yǔ)。和種子詞具有并列關(guān)系的詞語(yǔ)極性和種子詞極性相同,和種子詞具有轉(zhuǎn)折關(guān)系的詞語(yǔ)極性和種子詞極性相反,得到擴(kuò)充的情感詞典。
3)基于Word2Vec的情感詞典構(gòu)建方法(Method of Constructing Sentiment Lexicon Based on Word2Vec,W2V):利用Word2Vec在語(yǔ)料上訓(xùn)練詞向量,然后迭代計(jì)算語(yǔ)料中詞語(yǔ)和情感種子詞之間的語(yǔ)義相似度,相似度大于某個(gè)閾值的詞語(yǔ)和該種子詞的極性相同,以此得到擴(kuò)充的情感詞典。
4)基于連詞關(guān)系和標(biāo)簽傳播的情感詞典構(gòu)建方法(Method of Constructing Sentiment Lexicon Based on Conjunctive Relations and Label Propagation,CRLP):利用連詞關(guān)系抽取候選情感詞后,然后利用標(biāo)簽傳播算法確定候選情感詞的極性以及構(gòu)建情感詞典。
5)基于Word2Vec和標(biāo)簽傳播的情感詞典構(gòu)建方法(A Method of Constructing Sentiment Lexicon Based on Word2Vec and Label Propagation,W2VLP):利用Word2Vec在語(yǔ)料上訓(xùn)練詞向量后,然后計(jì)算語(yǔ)料中詞語(yǔ)和情感種子詞之間的語(yǔ)義相似度,將相似度大于某個(gè)閾值的詞語(yǔ)抽取出來(lái)作為候選情感詞,最后利用標(biāo)簽傳播算法確定候選情感詞的極性以及情感詞典。
為了方便,將本文提出的方法稱(chēng)為CR&W2V-LP方法。分別選取20個(gè)、30個(gè)、50個(gè)種子詞進(jìn)行實(shí)驗(yàn)。其中,確定是否是積極情感詞的閾值ppos設(shè)為0.01,確定是否是消極情感詞的閾值pneg設(shè)為0.02。人工判斷所構(gòu)建情感詞典的正確率,實(shí)驗(yàn)結(jié)果分別如表2~表4所示。
表2 種子詞為20個(gè)的實(shí)驗(yàn)結(jié)果 %
表3 種子詞為30個(gè)的實(shí)驗(yàn)結(jié)果 %
表4 種子詞為50個(gè)的實(shí)驗(yàn)結(jié)果 %
從表2~表4可以看出,在基線實(shí)驗(yàn)中,WN方法所得情感詞典的正確率的實(shí)驗(yàn)結(jié)果最差。原因在于WordNet是一個(gè)人工構(gòu)建的語(yǔ)義知識(shí)庫(kù)詞典,在迭代擴(kuò)充過(guò)程中所引入的噪聲詞比較多,并且覆蓋面有限,對(duì)于不在WordNet中的情感詞擴(kuò)充不到,因而有相應(yīng)局限。
相比于依賴(lài)語(yǔ)義知識(shí)庫(kù)的WN方法而言,基于語(yǔ)料庫(kù)的CR方法和W2V方法的實(shí)驗(yàn)結(jié)果均取得了較好效果,說(shuō)明了基于語(yǔ)料庫(kù)的情感詞典構(gòu)建方法的優(yōu)越性。進(jìn)一步,發(fā)現(xiàn)在表2~表4中,W2VLP方法的性能均好于W2V方法,CRLP方法的性能也優(yōu)于CR方法,這說(shuō)明了標(biāo)簽傳播算法的有效性。
相比于基線方法,本文提出的CR&W2V-LP方法在表2~表4中的正確率均取得了最高值,相對(duì)于CRLP和W2VLP這2個(gè)性能較好的基線方法分別獲得了1.5%~5.1%間的性能提升,可見(jiàn)本文方法對(duì)于情感詞典的構(gòu)建有較大的優(yōu)勢(shì)。下面對(duì)原因進(jìn)行分析。
在W2V和W2VLP方法中,對(duì)于語(yǔ)料中和種子詞距離較遠(yuǎn)的情感詞會(huì)由于相似度較小而被過(guò)濾掉。CR和CRLP方法雖然可以將語(yǔ)料中和種子詞具有連詞關(guān)系的詞語(yǔ)抽取出來(lái)作為情感詞,但是對(duì)于其他和種子詞沒(méi)有連詞關(guān)系的情感詞卻會(huì)被忽略。如“The cellphone is beautiful and durable,I love it very much”這一評(píng)論中,若“beautiful”作為種子詞,利用CR或者CRLP方法可以抽取出和它并列的情感詞“durable”,但是情感詞“l(fā)ove”則因?yàn)楹头N子詞沒(méi)有連詞關(guān)系而被忽略掉。因此,從上述分析可以看出,基于Word2Vec的方法和基于連詞關(guān)系的方法各有優(yōu)缺點(diǎn)。
本文方法則因?yàn)榻Y(jié)合了Word2Vec和連詞關(guān)系這2種方法來(lái)抽取候選情感詞,因而,能較好地抽取出各自方法所擴(kuò)充不到的情感詞。此外,標(biāo)簽傳播算法可以將種子詞的情感極性通過(guò)邊向相鄰結(jié)點(diǎn)傳播。在圖中,詞語(yǔ)的極性不僅受到近距離種子詞的影響,也受到其他種子詞極性的影響。通過(guò)多次迭代,標(biāo)簽在不斷地傳播,可以對(duì)極性標(biāo)注不正確的情感詞進(jìn)行及時(shí)地更新,使最終擴(kuò)充得到的情感詞典的正確率更高。綜上所述,本文方法所構(gòu)建的情感詞典質(zhì)量更高,在性能和正確率上具有更大優(yōu)勢(shì)。
此外,本文方法還具有良好的魯棒性。圖3直觀地展示了基線方法以及本文方法隨種子詞個(gè)數(shù)變化的正確率變化情況,從圖3可以看出,本文方法較為穩(wěn)定,在種子詞數(shù)量變化的情況下性能均優(yōu)于其他方法。
圖3 隨種子詞個(gè)數(shù)變化的實(shí)驗(yàn)結(jié)果
本文提出一種基于標(biāo)簽傳播算法的情感詞典構(gòu)建方法。該方法首先選取情感種子詞,然后通過(guò)Word2Vec和連詞關(guān)系等2種方式在語(yǔ)料中找出候選情感詞,構(gòu)建語(yǔ)義關(guān)聯(lián)圖,使用標(biāo)簽傳播算法更新候選情感詞的極性,最終構(gòu)建得到情感詞典。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于基線方法,具有良好的性能及魯棒性。下一步將對(duì)本文方法在其他領(lǐng)域語(yǔ)料上進(jìn)行實(shí)驗(yàn),并考慮將語(yǔ)言學(xué)知識(shí)融入標(biāo)簽傳播算法中,提高情感詞典構(gòu)建方法的準(zhǔn)確率。
[1] 杜嘉忠,徐 健,劉 穎.網(wǎng)絡(luò)商品評(píng)論的特征-情感詞本體構(gòu)建與情感分析方法研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,30(5):74-82.
[2] 王 科,夏 睿.情感詞典自動(dòng)構(gòu)建方法綜述[J].自動(dòng)化學(xué)報(bào),2016,42(4):495-511.
[3] 謝松縣,劉 博,王 挺.應(yīng)用語(yǔ)義關(guān)系自動(dòng)構(gòu)建情感詞典[J].國(guó)防科技大學(xué)學(xué)報(bào),2014(3):111-115.
[4] KIM S M,HOVY E.Determining the sentiment of opinions[C]//Proceedings of the 20th International Conference on Computational Linguistics.Geneva,Switzerland:Association for Computational Linguistics,2004:1367-1373.
[5] HASSAN A,RADEV D.Identifying text polarity using random walks[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden:Association for Computational Linguistics,2010:395-403.
[6] 周詠梅,楊佳能,陽(yáng)愛(ài)民.面向文本情感分析的中文情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2013,43(6):27-33.
[7] BACCIANELLA S,ESULI A,SEBASTIANI F.SentiWordNet 3.0:an enhanced lexical resource for sentiment analysis and opinion mining[C]//Proceedings of International Conference on Language Resources and Evaluation.Valletta,Malta:European Languages Resources Association,2010:83-90.
[8] 楊 陽(yáng),劉龍飛,魏現(xiàn)輝,等.基于詞向量的情感新詞發(fā)現(xiàn)方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):51-58.
[9] 楊小平,張中夏,王 良,等.基于Word2Vec的情感詞典自動(dòng)構(gòu)建與優(yōu)化[J].計(jì)算機(jī)科學(xué),2015,44(1):42-47.
[10] StanfordParser[EB/OL].[2016-11-21].https://nlp.stanford.edu/software/lex-parser.shtml.
[11] 張乃洲,曹 薇,李石君.一種基于結(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁(yè)面挖掘方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(2):349-364.
[12] 馬千里,張俊浩.一種局部強(qiáng)化的多標(biāo)簽傳播社區(qū)發(fā)現(xiàn)算法[J].計(jì)算機(jī)工程,2014,40(6):171-174.
[13] 劉錦文,許 靜,張利萍,等.基于標(biāo)簽傳播和主動(dòng)學(xué)習(xí)的人物社會(huì)關(guān)系抽取[J].計(jì)算機(jī)工程,2017,43(2):234-240.
[14] 李壽山,李逸薇,黃居仁,等.基于雙語(yǔ)信息和標(biāo)簽傳播算法的中文情感詞典構(gòu)建方法[J].中文信息學(xué)報(bào),2013,27(6):75-81.
[15] MCAULEY J,TARGETT C,SHI Q,et al.Image-based recommendations on styles and substitutes[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2015:43-52.
[16] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations.Scottsdale,Arizona,USA:ACM Press,2013:1-12.
[17] NEVIAROUSKAYA A,PRENDINGER H,ISHIZUKA M.SentiFul:a lexicon for sentiment analysis[J].IEEE Transactions on Affective Computing,2011,2(1):22-36.