宋佳穎,賀宇,付國(guó)宏
(黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,黑龍江哈爾濱150080)
隨著Web2.0的興起和社會(huì)媒體的迅速發(fā)展,情感分析(亦稱意見(jiàn)挖掘)已成為自然語(yǔ)言處理研究的一個(gè)熱點(diǎn),并在近年得到快速的發(fā)展,出現(xiàn)不同的情感分析系統(tǒng)。但這些系統(tǒng)在大規(guī)模開(kāi)放應(yīng)用時(shí)依然面臨情感詞典覆蓋度[1-2]、動(dòng)態(tài)極性識(shí)別[3-6]和領(lǐng)域適應(yīng)性[7-11]等挑戰(zhàn)。一方面,詞語(yǔ)極性是句子情感分類的基礎(chǔ)。因此,大多數(shù)句子情感分類系統(tǒng)一般都帶有一個(gè)情感詞典以幫助確定詞語(yǔ)極性[12]。但事先構(gòu)造的情感詞典很難覆蓋開(kāi)放意見(jiàn)文本中的所有情感詞語(yǔ)。另一方面,許多情感詞語(yǔ)或短語(yǔ)在不同的上下文或領(lǐng)域中呈現(xiàn)不同的極性。例如,在分屬汽車和手機(jī)兩個(gè)不同領(lǐng)域的評(píng)價(jià)“油耗高”和“屏幕分辨率高”中,情感詞“高”分別表達(dá)負(fù)向和正向情感極性;而在“噪音大”和“駕駛空間大”兩個(gè)例子中,它們雖同屬汽車領(lǐng)域且使用同一個(gè)情感詞“大”,但因其修飾不同的汽車屬性而表達(dá)了不同的情感傾向性。因此,情感詞典擴(kuò)展,特別是領(lǐng)域和上下文相關(guān)的動(dòng)態(tài)極性詞語(yǔ)的識(shí)別和擴(kuò)展近年來(lái)開(kāi)始引起人們的廣泛關(guān)注[1-11]。
本文在前人工作基礎(chǔ)上,融合意見(jiàn)要素正規(guī)化信息,改進(jìn)PolarityRank算法,提出一種面向產(chǎn)品評(píng)價(jià)文本的領(lǐng)域相關(guān)的漢語(yǔ)情感詞典擴(kuò)展方法。為此,我們首先采用條件隨機(jī)場(chǎng)[13](conditional random fields,CRFs)序列標(biāo)注方法識(shí)別意見(jiàn)句中的產(chǎn)品屬性和評(píng)價(jià)等意見(jiàn)要素。而后綜合考慮共現(xiàn)詞頻和詞間距離等特征從意見(jiàn)句中進(jìn)一步抽取屬性-評(píng)價(jià)對(duì)。為了減少詞典擴(kuò)展的復(fù)雜性和噪聲,我們還分別采用Jaccard系數(shù)以及修飾詞、否定詞縮減規(guī)則對(duì)抽取的屬性及其評(píng)價(jià)進(jìn)行了正規(guī)化。最后,改進(jìn)基于連接圖的PolarityRank算法擴(kuò)展極性詞典,使其適用于中文產(chǎn)品評(píng)論,從而提升詞典擴(kuò)展效果。
本文的組織結(jié)構(gòu)如下:第二節(jié)是相關(guān)研究的總結(jié);第三節(jié)詳細(xì)介紹領(lǐng)域相關(guān)的情感詞典擴(kuò)展方法;第四節(jié)給出本文的實(shí)驗(yàn)結(jié)果及分析;最后一節(jié)是結(jié)論和展望。
意見(jiàn)要素抽取往往作為情感詞典構(gòu)造和擴(kuò)展的預(yù)處理,其主要任務(wù)是從給定的意見(jiàn)文本中抽取組成意見(jiàn)的要素,包括評(píng)價(jià)對(duì)象及其屬性、評(píng)價(jià)詞等。典型的意見(jiàn)要素抽取方法主要有規(guī)則方法[14]、基于依存知識(shí)的方法[14-15]和機(jī)器學(xué)習(xí)方法[3-4]。Hu和Liu[11]首先利用關(guān)聯(lián)規(guī)則挖掘的方法從產(chǎn)品評(píng)論中抽取高頻的名詞及短語(yǔ)作為屬性,擴(kuò)展已有屬性周邊名詞作為低頻屬性,這種方法由于規(guī)則限定,結(jié)果的召回率不佳。Zhang等[14]以屬性詞典和評(píng)價(jià)詞詞典為基礎(chǔ),利用依存關(guān)系匹配抽取屬性-評(píng)價(jià)對(duì)。Jakob和Gurevych[16]在CRFs框架下探討了領(lǐng)域內(nèi)和跨領(lǐng)域產(chǎn)品屬性抽取。此外,Wang等[17]以評(píng)價(jià)詞詞典為基礎(chǔ),采用自舉迭代策略,依據(jù)上下文關(guān)聯(lián)度獲取屬性及其評(píng)價(jià)詞。
情感詞典自動(dòng)擴(kuò)展研究目前主要圍繞詞典覆蓋度和動(dòng)態(tài)情感極性獲取兩個(gè)問(wèn)題展開(kāi),并形成各具特色的擴(kuò)展方法[16,18]。Kanayama和Nasukawa[1]將句內(nèi)同現(xiàn)信息和跨句子的同現(xiàn)信息結(jié)合來(lái)學(xué)習(xí)詞和短語(yǔ)的極性,從而構(gòu)造領(lǐng)域相關(guān)的詞典。這種方法強(qiáng)烈依賴于已知的種子情感詞,對(duì)于種子詞典不包含的未知情感詞,缺少抽取能力。Qiu等[2]采用雙重繁殖算法利用屬性-情感詞關(guān)系來(lái)擴(kuò)展情感詞典。為了獲取上下文相關(guān)的動(dòng)態(tài)極性知識(shí),Esuli和Sebastiani[3]利用詞典中詞語(yǔ)的解釋來(lái)確定詞語(yǔ)的關(guān)聯(lián)關(guān)系,并以此構(gòu)建詞語(yǔ)網(wǎng)絡(luò),進(jìn)而通過(guò)連線權(quán)重來(lái)確定詞語(yǔ)的極性。Wilson等[5]深入分析了影響詞語(yǔ)動(dòng)態(tài)極性的各種因素,并嘗試在短語(yǔ)層面融合各種特征解決詞語(yǔ)動(dòng)態(tài)極性問(wèn)題。此外,Wu和Wen等[6]研究了漢語(yǔ)形容詞的極性消歧問(wèn)題。雖然這些方法主要關(guān)注動(dòng)態(tài)極性詞所在的局部上下文,忽視了相關(guān)的領(lǐng)域,因而不能識(shí)別領(lǐng)域相關(guān)的情感極性詞。領(lǐng)域相關(guān)的動(dòng)態(tài)極性詞識(shí)別對(duì)意見(jiàn)挖掘系統(tǒng)的領(lǐng)域移植至關(guān)重要。為此,Andreevskaia和Bergler[7]、Tan等[8]和呂韶華等人[9]分別從不同角度探討了情感分類系統(tǒng)跨領(lǐng)域移植問(wèn)題。Klebanov[19]將復(fù)述技術(shù)應(yīng)用于詞典擴(kuò)展,采用了早期的一種基于樞軸的復(fù)述生成技術(shù),對(duì)英法雙語(yǔ)平行語(yǔ)料經(jīng)過(guò)翻譯得到對(duì)應(yīng)短語(yǔ)作為復(fù)述資源完成詞典擴(kuò)展,通過(guò)文本的極性分類對(duì)詞典進(jìn)行了評(píng)估,但由于缺乏領(lǐng)域針對(duì)性,該詞典無(wú)法發(fā)揮最大效用。Yu[20]對(duì)已知情感極性的文本進(jìn)行分析,并不構(gòu)建初步的種子情感詞典,而是通過(guò)統(tǒng)計(jì)的方法抽取出一些詞語(yǔ)作為情感特征詞,此工作對(duì)文本的質(zhì)量要求較高。此外,為了領(lǐng)域動(dòng)態(tài)極性詞的極性判定問(wèn)題,Cruz等人[21]以屬性-評(píng)價(jià)對(duì)為單位,提出基于PageRank[22]的隨機(jī)游走排列算法PolarityRank,并用連詞結(jié)構(gòu)作為橋梁從未加工的意見(jiàn)語(yǔ)料對(duì)種子詞典進(jìn)行擴(kuò)展。本文以PolarityRank算法為基礎(chǔ),面向產(chǎn)品評(píng)價(jià)文本展開(kāi)漢語(yǔ)領(lǐng)域動(dòng)態(tài)極性詞典擴(kuò)展研究。與Cruz等人[21]的研究不同,本文改進(jìn)PolarityRank算法連接圖構(gòu)圖方式以適應(yīng)漢語(yǔ)的特點(diǎn),同時(shí)融合產(chǎn)品屬性及其評(píng)價(jià)的正規(guī)化信息,以減少詞典擴(kuò)展的噪聲,進(jìn)而提高詞典擴(kuò)展質(zhì)量。
在本文研究中,情感詞典擴(kuò)展的任務(wù)是在種子詞典基礎(chǔ)上,從特定領(lǐng)域的產(chǎn)品評(píng)價(jià)文本中自動(dòng)抽取未知情感詞語(yǔ)及其屬性,并根據(jù)改進(jìn)的PolarityRank算法確定相應(yīng)的情感極性,從而完成相應(yīng)詞條的構(gòu)造。如圖1所示,本文的情感詞典擴(kuò)展系統(tǒng)主要包括以下四個(gè)模塊。
(1)預(yù)處理模塊的主要任務(wù)是對(duì)給定的產(chǎn)品評(píng)價(jià)文本進(jìn)行分詞和詞性標(biāo)注,為后續(xù)的意見(jiàn)要素識(shí)別和抽取做準(zhǔn)備。為了提高詞法分析的可靠性,本文采用基于語(yǔ)素的分詞和詞性標(biāo)注一體化的系統(tǒng)[23]完成預(yù)處理任務(wù)。
(2)意見(jiàn)要素識(shí)別模塊的主要任務(wù)是在詞法分析基礎(chǔ)上識(shí)別產(chǎn)品屬性及其評(píng)價(jià)等產(chǎn)品意見(jiàn)的主要要素。本文將這一問(wèn)題視作序列標(biāo)注問(wèn)題,并采用條件隨機(jī)域方法完成這一任務(wù)。
圖1 詞典擴(kuò)展流程圖
(3)屬性-評(píng)價(jià)對(duì)匹配/合成模塊的任務(wù)是從抽取的屬性和評(píng)價(jià)中根據(jù)其在意見(jiàn)句中的共現(xiàn)關(guān)系判斷他們是否形成修飾關(guān)系。存在修飾關(guān)系的屬性-評(píng)價(jià)對(duì)實(shí)際上是情感詞典潛在的一個(gè)擴(kuò)展詞條。
(4)屬性-評(píng)價(jià)對(duì)正規(guī)化模塊的任務(wù)是對(duì)屬性-評(píng)價(jià)對(duì)中存在的大量互為復(fù)述關(guān)系的屬性詞及其評(píng)價(jià)分別進(jìn)行正規(guī)化處理,為同一詞意的詞確定一致化標(biāo)準(zhǔn),從而獲取更多的屬性-評(píng)價(jià)對(duì)情感極性,降低詞典擴(kuò)展的難度。
(5)基于PolarityRank的情感詞典擴(kuò)展模塊的任務(wù)是將步驟(4)正規(guī)化后的屬性評(píng)價(jià)對(duì)作為候選詞條,構(gòu)造相應(yīng)的無(wú)向連接圖,并通過(guò)迭代確定相應(yīng)的情感極性。
值得注意的是動(dòng)態(tài)極性詞在不同的領(lǐng)域或不同的上下文中可能呈現(xiàn)不同的情感極性。例如,詞典詞語(yǔ)“高”是一個(gè)典型的漢語(yǔ)動(dòng)態(tài)極性詞語(yǔ),在“配置-高”中,“配置”表示手機(jī)產(chǎn)品的一個(gè)屬性,“高”是關(guān)于該屬性的一個(gè)評(píng)價(jià)詞,表示正向情感極性;而在“油耗-高”中,“油耗”是汽車產(chǎn)品的一個(gè)屬性,此處的“高”具有負(fù)向情感極性。為了確定地描述情感詞語(yǔ)的動(dòng)態(tài)極性,本文情感詞典的詞條結(jié)構(gòu)為<eval,attr,polar,domain>。其中,eval代表評(píng)價(jià)詞,attr代表產(chǎn)品屬性,polar代表情感極性,domain代表所在領(lǐng)域標(biāo)記。產(chǎn)品屬性attr可以是相應(yīng)產(chǎn)品的某一部分、組件或性能指標(biāo)。情感極性polar∈{-1,1},其中,-1表示負(fù)面(negative)極性,1表示正面(positive)極性。
下文3.2~3.6節(jié)將分別介紹圖1所示的詞典擴(kuò)展各模塊的基本原理。
在詞典擴(kuò)展中,意見(jiàn)要素識(shí)別的主要任務(wù)是識(shí)別給定意見(jiàn)句子中的屬性及相應(yīng)的評(píng)價(jià)。本文把意見(jiàn)要素識(shí)別看作是一個(gè)序列標(biāo)注問(wèn)題,鑒于條件隨機(jī)場(chǎng)模型在解決序列標(biāo)注問(wèn)題時(shí)的良好表現(xiàn),我們以詞作為序列標(biāo)注的基本單位,應(yīng)用條件隨機(jī)場(chǎng)框架完成屬性、評(píng)價(jià)詞的識(shí)別。
如圖2所示,每個(gè)意見(jiàn)要素在標(biāo)注中獲得一個(gè)形如x-y的標(biāo)記。其中,x代表相應(yīng)詞語(yǔ)在所在意見(jiàn)要素的位置標(biāo)記,y代表意見(jiàn)要素類別標(biāo)記??紤]到詞典擴(kuò)展的實(shí)際,本文定義三種意見(jiàn)要素類別標(biāo)記,即{A,E,O},分別用來(lái)表示產(chǎn)品屬性、評(píng)價(jià)和非意見(jiàn)要素詞語(yǔ)。至于位置標(biāo)記,本文采用常見(jiàn)的四標(biāo)記體系,即{S,B,M,E},分別表示單個(gè)詞語(yǔ)構(gòu)成的意見(jiàn)要素和意見(jiàn)要素首詞、中間詞和尾詞。此外,在四標(biāo)記SBME基礎(chǔ)上,本文還引入一個(gè)標(biāo)記I表示意見(jiàn)要素首個(gè)中間詞,形成五標(biāo)記體系SBIME,以提高意見(jiàn)要素標(biāo)注性能。
圖2 意見(jiàn)要素標(biāo)注樣例
考慮到屬性及其評(píng)價(jià)的長(zhǎng)度,在意見(jiàn)要素序列標(biāo)注中我們選取當(dāng)前詞語(yǔ)前后五個(gè)詞語(yǔ)窗口內(nèi)詞形和詞性以及相應(yīng)的一元、二元和三元上下文特征來(lái)構(gòu)造特征模板。
給定一個(gè)意見(jiàn)句,它可能蘊(yùn)含多條意見(jiàn)信息,即一個(gè)意見(jiàn)句子可能有多個(gè)屬性-評(píng)價(jià)對(duì)。屬性-評(píng)價(jià)對(duì)合成的任務(wù)是從意見(jiàn)句子潛在的多個(gè)屬性和評(píng)價(jià)組合中抽取合適的屬性-評(píng)價(jià)對(duì)。如式(1)所示,為了簡(jiǎn)化問(wèn)題,本文在意見(jiàn)要素標(biāo)注基礎(chǔ)上,考慮屬性和評(píng)價(jià)的共現(xiàn)頻度及其距離來(lái)確定屬性attr和評(píng)價(jià)eval匹配的可能性。
其中,Count(attr,eval)表示屬性attr和評(píng)價(jià)詞eval在所有產(chǎn)品評(píng)論中的共現(xiàn)頻率,Distance(attr,eval)表示在對(duì)應(yīng)句中的屬性和評(píng)價(jià)詞之間的字?jǐn)?shù),實(shí)際應(yīng)用時(shí)為防止分母為0,對(duì)Distance進(jìn)行了加0.05的調(diào)整,對(duì)于中間含有標(biāo)點(diǎn)符號(hào)的情況做了加4的調(diào)整。P(attr,eval)實(shí)際上反映了當(dāng)前的屬性和評(píng)價(jià)詞匹配成對(duì)的可能性。對(duì)于同一屬性的每個(gè)候選屬性-評(píng)價(jià)對(duì),我們選取其中P值最大的作為正確的屬性-評(píng)價(jià)匹配對(duì)。
由于用戶生成的意見(jiàn)文本行文比較自由,屬性共指和評(píng)價(jià)復(fù)述現(xiàn)象比較普遍。加之,在分詞和意見(jiàn)要素標(biāo)注時(shí),評(píng)價(jià)詞語(yǔ)邊界確定存在不一致的現(xiàn)象。因此,在情感詞典擴(kuò)展前有必要對(duì)屬性和評(píng)價(jià)進(jìn)行正規(guī)化,以進(jìn)一步提高詞典擴(kuò)展的質(zhì)量。為了簡(jiǎn)化問(wèn)題,本文分別采用Jaccard系數(shù)和規(guī)則方法來(lái)分別進(jìn)行屬性和評(píng)價(jià)的正規(guī)化。
(1)屬性正規(guī)化
由于存在多個(gè)屬性詞表示相同意見(jiàn)對(duì)象的情況,例如,“屏幕分辨率”和“分辨率”,“油耗”、“耗油”和“耗油量”等,如果這些屬性詞搭配了相同的評(píng)價(jià)詞,則可以看作是同意的屬性評(píng)價(jià)對(duì),我們可將其進(jìn)行一致化處理,從而降低詞典擴(kuò)展的難度,減少未知極性詞條的數(shù)量。因此我們用式(2)所示的Jaccard系數(shù)計(jì)算屬性詞間的相似度,以獲取產(chǎn)品屬性的同意屬性詞簇,為屬性詞生成互為復(fù)述的屬性詞集合,選擇集合中在評(píng)價(jià)文本中出現(xiàn)頻率最高的屬性詞作為標(biāo)準(zhǔn),對(duì)其他屬性詞進(jìn)行一致化處理。
其中,mxk表示字符k在短語(yǔ)x中出現(xiàn)的總次數(shù),myk則表示字符k在短語(yǔ)y中出現(xiàn)的總次數(shù)。通過(guò)多組實(shí)驗(yàn)為相似度判定確定閾值。
(2)評(píng)價(jià)正規(guī)化
針對(duì)抽取得到評(píng)價(jià)詞切分不規(guī)范及含有冗余信息的現(xiàn)象,我們采用下面規(guī)則處理評(píng)價(jià)信息。
Rule 1 由于抽取得到的一些極性詞前面還含有修飾詞,這為后續(xù)的詞典擴(kuò)展帶來(lái)不利的影響,例如,非常硬→硬,有點(diǎn)高→高,這兩個(gè)詞對(duì)的左右兩邊實(shí)際表示了相同的評(píng)價(jià)意義。在詞典擴(kuò)展階段,由于抽取得到的很多評(píng)價(jià)短語(yǔ)含有冗余的修飾部分,會(huì)造成連接圖中大量的同類節(jié)點(diǎn)無(wú)法合并,這將直接影響情感預(yù)測(cè)結(jié)果。因此,我們?cè)跀U(kuò)展前先對(duì)所有極性詞進(jìn)行修飾詞的過(guò)濾,以達(dá)到正規(guī)化的效果。本文過(guò)濾的修飾詞包含收集所得的程度副詞、肯定副詞和少量語(yǔ)氣副詞共76個(gè)。因而實(shí)驗(yàn)階段構(gòu)建連接圖時(shí),可以有效地減少邊數(shù),從而提高極性預(yù)測(cè)精度。
Rule 2 由于抽取得到的極性詞有些還被否定詞所修飾,這種情況也會(huì)對(duì)極性判定和詞典擴(kuò)展產(chǎn)生干擾,我們又用八個(gè)否定前綴依次對(duì)極性詞進(jìn)行過(guò)濾,對(duì)去除否定修飾的極性詞再次查找已知詞典,從而獲得更多的已知極性的屬性-評(píng)價(jià)對(duì),減小詞典擴(kuò)展的任務(wù)難度。
我們根據(jù)訓(xùn)練部分的極性信息,得到初始的種子情感詞典,即其中的屬性-評(píng)價(jià)對(duì)詞條都含有對(duì)應(yīng)的情感極性,本節(jié)任務(wù)是完成對(duì)測(cè)試語(yǔ)料中的詞條的極性預(yù)測(cè),從而實(shí)現(xiàn)情感詞典的擴(kuò)展。從訓(xùn)練語(yǔ)料中抽取得到領(lǐng)域內(nèi)動(dòng)態(tài)情感詞,汽車領(lǐng)域22個(gè),手機(jī)領(lǐng)域20個(gè),在詞典擴(kuò)展時(shí)要對(duì)兩類極性詞分別考慮。
Cruz等人[21]所提出的PolarityRank算法主要用連詞結(jié)構(gòu)作為橋梁來(lái)進(jìn)行情感詞典擴(kuò)展。然而,漢語(yǔ)產(chǎn)品評(píng)價(jià)文本中連詞結(jié)構(gòu)并不多見(jiàn),通常有關(guān)聯(lián)關(guān)系的特征就會(huì)出現(xiàn)在同一個(gè)短句中。為此,我們對(duì)PolarityRank算法進(jìn)行了改進(jìn),通過(guò)詞語(yǔ)共現(xiàn)關(guān)系及詞頻構(gòu)建無(wú)向連接圖,以適合漢語(yǔ)特性。情感詞典擴(kuò)展步驟具體如下:
· 根據(jù)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料中的屬性-評(píng)價(jià)對(duì)在評(píng)論語(yǔ)句中的共現(xiàn)關(guān)系,構(gòu)建無(wú)向圖,出現(xiàn)在同一句評(píng)價(jià)中的兩個(gè)屬性-評(píng)價(jià)對(duì)可以連接成一條邊,屬性-評(píng)價(jià)對(duì)為節(jié)點(diǎn)。構(gòu)建初始圖時(shí),靜態(tài)評(píng)價(jià)詞和動(dòng)態(tài)評(píng)價(jià)詞沒(méi)有區(qū)別,在簡(jiǎn)化圖階段,節(jié)點(diǎn)合并時(shí)兩者的判定會(huì)有差別。靜態(tài)評(píng)價(jià)詞節(jié)點(diǎn)只要評(píng)價(jià)詞相同就算作相同節(jié)點(diǎn),動(dòng)態(tài)評(píng)價(jià)詞節(jié)點(diǎn)需要對(duì)應(yīng)評(píng)價(jià)和屬性都完全相同才可以看作是相同節(jié)點(diǎn)。共現(xiàn)頻率作為邊的權(quán)重,節(jié)點(diǎn)合并后邊的權(quán)重也會(huì)有相應(yīng)增加。
·未知極性節(jié)點(diǎn)初始極性為0,根據(jù)對(duì)每個(gè)點(diǎn)計(jì)算得到的PR值為節(jié)點(diǎn)更新極性,從而完成對(duì)無(wú)向圖的節(jié)點(diǎn)極性更新。
·迭代計(jì)算每個(gè)點(diǎn)的PR值直到?jīng)]有新的節(jié)點(diǎn)極性值產(chǎn)生,完成詞典擴(kuò)展。這里,節(jié)點(diǎn)vi的PR+(vi)和PR-(vi)值可分別采用式(3)和式(4)計(jì)算。
式中,d是一個(gè)自定參數(shù),本文采用PageR-ank[22]推薦的0.85。e+i代表與當(dāng)前節(jié)點(diǎn)vi關(guān)聯(lián)的極性為正的節(jié)點(diǎn)個(gè)數(shù),e-i代表與vi關(guān)聯(lián)的極性為負(fù)的節(jié)點(diǎn)個(gè)數(shù),E(vi)表示與vi相連的邊集,pji表示節(jié)點(diǎn)vi和節(jié)點(diǎn)vj形成的邊的權(quán)重。
PR+(vi)和PR-(vi)值可分別作為vi所代表的評(píng)價(jià)詞為正向極性詞、負(fù)向極性詞的可能性概率值。由式(3)、式(4)可以看出,每個(gè)節(jié)點(diǎn)的極性計(jì)算都會(huì)考察關(guān)聯(lián)的所有節(jié)點(diǎn)的極性,這也是共現(xiàn)策略的重要應(yīng)用。節(jié)點(diǎn)vi的極性Polarity(vi)可由以下三條規(guī)則確定。
(1)若PR+>PR-,Polarity(vi)=1;
(2)若PR+<PR-,Polarity(vi)=-1;
(3)若PR+=PR-,Polarity(vi)=0。
圖3給出詞典擴(kuò)展算法的偽碼描述。該算法的基本思想為:每次迭代將新得到極性的屬性評(píng)價(jià)對(duì)作為已知詞條,繼續(xù)下一輪計(jì)算,直到獲得極性的屬性-評(píng)價(jià)對(duì)不再增加為止。
圖3 詞典擴(kuò)展算法
為了驗(yàn)證上述方法的有效性,我們構(gòu)建一個(gè)領(lǐng)域相關(guān)的情感詞典擴(kuò)展系統(tǒng),并分別應(yīng)用于汽車和手機(jī)兩種產(chǎn)品評(píng)論的情感極性分析。本節(jié)將給出相應(yīng)的實(shí)驗(yàn)結(jié)果及其分析。
如表1所示,本文實(shí)驗(yàn)所用語(yǔ)料來(lái)自汽車、手機(jī)兩個(gè)領(lǐng)域的網(wǎng)絡(luò)用戶評(píng)價(jià)并進(jìn)行了意見(jiàn)要素的標(biāo)注,標(biāo)注內(nèi)容包括意見(jiàn)對(duì)象、產(chǎn)品屬性、評(píng)價(jià)和屬性-評(píng)價(jià)對(duì)對(duì)應(yīng)的情感極性。意見(jiàn)要素標(biāo)注形式如圖4所示。
表1 實(shí)驗(yàn)語(yǔ)料統(tǒng)計(jì)信息
圖4 實(shí)驗(yàn)語(yǔ)料標(biāo)注樣例
表2給出了測(cè)試語(yǔ)料中未知極性詞語(yǔ)的統(tǒng)計(jì)信息。
表2 測(cè)試語(yǔ)料中未知極性詞語(yǔ)統(tǒng)計(jì)
為了驗(yàn)證意見(jiàn)要素標(biāo)注性能對(duì)詞典擴(kuò)展質(zhì)量可能產(chǎn)生的影響,我們測(cè)試了不同標(biāo)記下不同領(lǐng)域的意見(jiàn)要素標(biāo)注效果。本實(shí)驗(yàn)的測(cè)試指標(biāo)為精確率(Precision,P)、召回率(Recall,R)和F-測(cè)度(F)。結(jié)果如表3所示。
表3 意見(jiàn)要素標(biāo)注結(jié)果
從表3的結(jié)果可以看出:五標(biāo)記系統(tǒng)在兩個(gè)領(lǐng)域的抽取結(jié)果都明顯優(yōu)于相應(yīng)的四標(biāo)記系統(tǒng)。因此,后續(xù)的實(shí)驗(yàn)均采用五標(biāo)記系統(tǒng)抽取所得的屬性和評(píng)價(jià)詞。對(duì)汽車和手機(jī)兩個(gè)領(lǐng)域測(cè)試語(yǔ)料中所識(shí)別的屬性和評(píng)價(jià)進(jìn)一步采用3.3節(jié)的匹配原則,分別得到687和1 135個(gè)屬性-評(píng)價(jià)對(duì)。
為了考察不同因素對(duì)情感詞典擴(kuò)展的影響,我們?cè)趯?shí)際情感詞典擴(kuò)展測(cè)試中設(shè)計(jì)了以下五組實(shí)驗(yàn)。
實(shí)驗(yàn)1 應(yīng)用3.6節(jié)的詞典擴(kuò)展算法直接預(yù)測(cè)測(cè)試語(yǔ)料中未知極性詞的極性;
實(shí)驗(yàn)2 針對(duì)人工標(biāo)注的測(cè)試語(yǔ)料中的各個(gè)屬性-評(píng)價(jià)對(duì)(金標(biāo)數(shù)據(jù)),應(yīng)用3.6節(jié)的詞典擴(kuò)展算法判定屬性-評(píng)價(jià)對(duì)極性;
實(shí)驗(yàn)3 先用3.4節(jié)的屬性正規(guī)化方法對(duì)所有屬性進(jìn)行標(biāo)準(zhǔn)化處理,再用3.6節(jié)詞典擴(kuò)展算法預(yù)測(cè)測(cè)試語(yǔ)料中未知極性詞的極性;
實(shí)驗(yàn)4 先用3.4節(jié)的屬性正規(guī)化方法對(duì)所有屬性進(jìn)行標(biāo)準(zhǔn)化處理以及評(píng)價(jià)正規(guī)化規(guī)則1過(guò)濾修飾詞,再應(yīng)用3.6節(jié)詞典擴(kuò)展算法預(yù)測(cè)測(cè)試語(yǔ)料中未知詞極性;
實(shí)驗(yàn)5 先通過(guò)3.4節(jié)的屬性正規(guī)化方法標(biāo)準(zhǔn)化屬性詞,再用評(píng)價(jià)正規(guī)化規(guī)則1為極性詞過(guò)濾修飾詞,用規(guī)則2過(guò)濾否定詞,最后應(yīng)用3.6節(jié)算法擴(kuò)展詞典。
詞典擴(kuò)展的構(gòu)圖階段在實(shí)驗(yàn)1時(shí)共得到汽車領(lǐng)域?qū)傩裕u(píng)價(jià)對(duì)節(jié)點(diǎn)3 292個(gè),邊數(shù)為2 417條。手機(jī)領(lǐng)域節(jié)點(diǎn)4 019個(gè),邊數(shù)為1 414條,而經(jīng)過(guò)正規(guī)化后實(shí)驗(yàn)5的汽車領(lǐng)域邊數(shù)減少為2 213條,手機(jī)領(lǐng)域的邊數(shù)減少為1 279條,有效合并了相同意見(jiàn)節(jié)點(diǎn)。屬性一致化時(shí)本著使盡可能多的有共指關(guān)系的屬性能被識(shí)別的原則,確定3.4節(jié)的相似度計(jì)算閾值為0.5。評(píng)測(cè)部分采用常用指標(biāo)準(zhǔn)確率(P)、召回率(R)和F-測(cè)度(F),為了考察對(duì)兩類極性詞詞典的擴(kuò)展效果,首先對(duì)動(dòng)態(tài)極性和靜態(tài)極性詞進(jìn)行了分別評(píng)測(cè),然后對(duì)合并的極性詞典完成評(píng)測(cè)。實(shí)驗(yàn)結(jié)果如表4和表5所示。
表4 汽車領(lǐng)域詞典擴(kuò)展結(jié)果
表5 手機(jī)領(lǐng)域詞典擴(kuò)展結(jié)果
從表4和表5的實(shí)驗(yàn)結(jié)果可以看出:(1)對(duì)比實(shí)驗(yàn)1、3、4和5的結(jié)果,經(jīng)過(guò)正規(guī)化處理后,兩個(gè)領(lǐng)域的極性詞典擴(kuò)展性能均得到較大提高;(2)同等條件下,實(shí)驗(yàn)2的擴(kuò)展性能優(yōu)于相應(yīng)的實(shí)驗(yàn)1的結(jié)果,這說(shuō)明意見(jiàn)要素識(shí)別以及屬性-評(píng)價(jià)對(duì)匹配性能直接影響到詞典擴(kuò)展性能。此外,同等條件下,手機(jī)領(lǐng)域的詞典擴(kuò)展結(jié)果優(yōu)于汽車領(lǐng)域,其原因可能是汽車評(píng)價(jià)文本質(zhì)量本身較差,相應(yīng)的意見(jiàn)要素識(shí)別性能較低(表3),從而導(dǎo)致最后的詞典擴(kuò)展性能不佳。
為了進(jìn)一步說(shuō)明領(lǐng)域詞典擴(kuò)展對(duì)情感分析的影響,我們從上述兩個(gè)領(lǐng)域的語(yǔ)料中隨機(jī)抽取1 000句,并采用以下三組不同的詞典進(jìn)行句子級(jí)情感極性分類測(cè)試。
詞典一 知網(wǎng)(HowNet)+臺(tái)灣大學(xué)(NTUSD)+ 清華大學(xué)(漢語(yǔ)情感詞極值表);
詞典二 詞典一+本文構(gòu)建的靜態(tài)情感詞典(4.3節(jié)實(shí)驗(yàn)5);
詞典三 詞典二+本文構(gòu)建的動(dòng)態(tài)情感詞典(4.3節(jié)實(shí)驗(yàn)5)。
注意:本實(shí)驗(yàn)的情感極性分類采用簡(jiǎn)單的基于詞袋模型的分類方法,通過(guò)詞典中的情感詞給各句打分,完成極性判定。實(shí)驗(yàn)結(jié)果如表6所示。
表6 采用不同詞典時(shí)的情感極性分類結(jié)果
表6的實(shí)驗(yàn)結(jié)果顯示:加入擴(kuò)展的領(lǐng)域靜態(tài)情感詞語(yǔ)后,雖然極性分類的精確度稍有下降,但在召回率和F值方面都有顯著的提高,這從側(cè)面說(shuō)明增加情感詞典的覆蓋度有助于提高情感極性分類的召回率和整體性能。相比于加入擴(kuò)展的領(lǐng)域靜態(tài)詞語(yǔ),在加入擴(kuò)展的動(dòng)態(tài)情感詞語(yǔ)后,情感極性分類的召回率和F-值提升幅度更為明顯,這進(jìn)一步驗(yàn)證了領(lǐng)域情感詞典對(duì)于領(lǐng)域相關(guān)的情感分析和意見(jiàn)挖掘的重要意義。
針對(duì)漢語(yǔ)產(chǎn)品評(píng)論的特點(diǎn),本文融合意見(jiàn)要素正規(guī)化信息,提出一種面向漢語(yǔ)產(chǎn)品評(píng)價(jià)的基于PolarityRank的領(lǐng)域相關(guān)的情感詞典擴(kuò)展方法。在汽車和手機(jī)兩個(gè)領(lǐng)域的產(chǎn)品評(píng)價(jià)語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明意見(jiàn)要素標(biāo)注以及正規(guī)化直接影響到情感詞典的質(zhì)量。相應(yīng)的句子情感極性分類實(shí)驗(yàn)表明引入擴(kuò)展的領(lǐng)域相關(guān)的情感詞語(yǔ)可以有效提高情感分類性能。
雖然本文實(shí)驗(yàn)取得預(yù)期結(jié)果,證明了領(lǐng)域相關(guān)的情感詞典對(duì)于漢語(yǔ)情感分析的意義。但由于本文研究的重點(diǎn)限制,所采取的意見(jiàn)要素正規(guī)化、屬性-評(píng)價(jià)對(duì)抽取和情感極性分類方法均比較簡(jiǎn)單,不夠系統(tǒng),可能影響到情感詞典擴(kuò)展性能。在將來(lái)的研究中,我們將系統(tǒng)探索上述這些問(wèn)題,同時(shí)擴(kuò)大語(yǔ)料規(guī)模和領(lǐng)域范圍,以進(jìn)一步提高領(lǐng)域相關(guān)的情感詞典擴(kuò)展性能。
[1] H Kanayama,T Nasukawa.Fully automatic lexicon expansion for domain-oriented sentiment analysis[C]//Proceedings of EMNLP'06,2006:355-363.
[2] G Qiu,B Liu,J Bu,C Chen.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.
[3] A Esuli,F(xiàn) Sebastiani.Determining the semantic orientation of terms through gloss classification[C]//Proceedings of the CIKM'05,2005:617-624.
[4] 王榮洋,鞠久鵬,李壽山,周國(guó)棟.基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J].中文信息學(xué)報(bào),2012,26(2):56-61.
[5] T Wilson,J Wiebe,P Hoffmann.Recognizing contextual polarity:An exploration of features for phraselevel sentiment analysis[J].Computational Linguistics,2009,35(3):399-434.
[6] Y Wu,M Wen.Disambiguating dynamic sentiment ambiguous adjectives[C]//Proceedings of COLING'10,2010:1191-1199.
[7] A Andreevskaia,S Bergler.When specialists and generalists work together:Overcoming domain dependence in sentiment tagging[C]//Proceedings of ACL '08,2008:290-298.
[8] S Tan,G Wu,H Tang and X Cheng.A novel scheme for domain-transfer problem in the context of sentiment analysis[C]//Proceedings of CIKM'07,2007:979-982.
[9] 呂韶華,楊亮,林鴻飛.基于SimRank的跨領(lǐng)域情感傾向性分析算法研究[J].中文信息學(xué)報(bào),2012,26(6):38-44.
[10] A Ismail,S Manandhar.Bilingual lexicon extraction from comparable corpora using in-domain terms[C]//Proceedings of COLING'10,2010:481-489.
[11] M Hu,B Liu.Mining opinion features in customer reviews[C]//Proceedings of AAAI'04,2004:755-760.
[12] 傅向華,劉國(guó),郭巖巖,郭武彪.中文博客多方面話題情感分析研究[J].中文信息學(xué)報(bào),2013,27(1):47-55.
[13] J Lafferty,A McCallum,F(xiàn) Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of ICML'01,2001:282-289.
[14] L Zhang,F(xiàn) Jing,X Zhu.Movie review mining and summarization[C]//Proceedings of CIKM'06.2006:43-50.
[15] 劉鴻宇,趙妍妍,秦兵,劉挺.評(píng)價(jià)對(duì)象抽取及其傾向性分析[J].中文信息學(xué)報(bào),2010,24(1):84-88.
[16] N Jakob,I Gurevych.Using anaphora resolution to improve opinion target identification in movie reviews[C]//Proceedings of ACL'10,2010:263-268.
[17] B Wang,H Wang.Bootstrapping both product features and opinion words from Chinese customer reviews with cross-inducing[C]//Proceedings of IJCNLP'08,2008:289-295.
[18] 李壽山,李逸薇,黃居仁,蘇艷.基于雙語(yǔ)信息和標(biāo)簽傳播算法的中文情感詞典構(gòu)建方法[J].中文信息學(xué)報(bào),2013,27(6):75-81.
[19] B Klebanov,N Madnani,J Burstein.Using Pivot-Based Paraphrasing and Sentiment Profiles to Improve a Subjectivity Lexicon for Essay Data[J].TACL,2013,1:99-110.
[20] H Yu,Z Deng,S Li.Identifying Sentiment Words Using an Optimization-based Model without Seed Words[C]//Proceedings of ACL'13.2013:855-859.
[21] F Cruz,J Troyano,F(xiàn) Ortega,et al.Automatic expansion of feature-level opinion lexicons[C]//Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis,2011:125-131.
[22] L Page,S Brin,R Motwani,et al.The PageRank citation ranking:bringing order to the web[J].1999-66:Stanford Digital Library Technologies Project.
[23] G Fu,C Kit,J Webster.Chinese word segmentation as morpheme-based lexical chunking[J].Information Sciences,2008,178(9):2282-2296.