王 茵 周學(xué)廣 陸 健
基于條件隨機(jī)場(chǎng)的中文情感分析方法比較研究?
王 茵1周學(xué)廣2陸 健2
(1.海軍計(jì)算技術(shù)研究所 北京 100841)(2.海軍工程大學(xué)信息安全系 武漢 430033)
條件隨機(jī)場(chǎng)(Conditional random field,CRF)模型是目前開(kāi)展中文情感分析研究的一個(gè)熱門工具。文章分析了CRF研究現(xiàn)狀,給出了CRF適用于中文信息處理的理由,開(kāi)展了基于CRF算法的比較研究:運(yùn)用自然語(yǔ)言處理與中文計(jì)算2012年會(huì)議的公開(kāi)評(píng)測(cè)結(jié)果,分別對(duì)CRF與隱馬爾科夫模型和最大熵馬爾可夫模型進(jìn)行了比較研究,總結(jié)了CRF模型的特點(diǎn)。
條件隨機(jī)場(chǎng);隱馬爾科夫;最大熵馬爾可夫;情感分析;中文信息處理
AbstractConditional Random Field(CRF)model is a popular tool to carry out research in Chinese sentiment analysis.This paper analyzes the research status of CRF,CRF applicable for Chinese information processing is given,and a comparative study based on CRF algorithm is carried out.Using natural language processing and Chinese to calculate public evaluation results of that meeting in 2012,CRF and hidden Markov model and maximum entropy Markov model are researched comparatively,the character?istics of CRFmodel is summarized.
Key Wordsconditional random fields,hidden markov model,maximum entropy,emotion analysis,Chinese information processing
Class NumberTP391.1
為了既保留隱馬爾科夫模型(Hidden Markov Model,HMM)[1]和最大熵馬爾可夫模型(Maximum Entropy,ME)[2]等條件概率框架的優(yōu)點(diǎn),又解決標(biāo)記偏置的問(wèn)題,Lafferty等學(xué)者提出了CRF(Condi?tional Random Field,CRF)模型[3],CRF屬于隨機(jī)場(chǎng)的一種,是判別式概率無(wú)向圖學(xué)習(xí)模型,在數(shù)據(jù)分段、序列標(biāo)注、命名實(shí)體識(shí)別、中文分詞等自然語(yǔ)言處理任務(wù)中都有很好的表現(xiàn),大大提高了中文分析準(zhǔn)確率。
CRF已經(jīng)被廣泛的應(yīng)用于輿情分析、情感的分類等相關(guān)研究領(lǐng)域中。中文文本的情感分類的研究有Wang[4]等提出的基于啟發(fā)規(guī)則與貝葉斯分類相結(jié)合的評(píng)論句子情感傾向性的分類方法。王根[5]等提出了基于多重冗余標(biāo)記CRF的句子情感分析方法,提高了最終分級(jí)任務(wù)的準(zhǔn)確率。喻奇[6]結(jié)合情感詞定位規(guī)則與CRF方法,提出了對(duì)觀點(diǎn)句的評(píng)價(jià)對(duì)象進(jìn)行抽取并計(jì)算極性的方法。廈門大學(xué)的陳怡疆等[7]提出時(shí)態(tài)樹(shù)的概念和構(gòu)造方法,使用樹(shù)形CRF為未標(biāo)注時(shí)態(tài)樹(shù)的結(jié)點(diǎn)加標(biāo)注,提出的特征函數(shù)的模板能滿足模型推斷的需要。中科院的劉康和趙軍[8]提出利用多個(gè)CRF模型對(duì)句子的褒貶類別和褒貶強(qiáng)度進(jìn)行判定,實(shí)驗(yàn)結(jié)果證明其準(zhǔn)確率和召回率效果要優(yōu)于普通文本分類與單層CRF模型。重慶大學(xué)的張玉芳和莫凌琳[9]等利用CRF對(duì)科研論文的信息進(jìn)行分層提取,該方法的抽取性能優(yōu)于基于詞或塊的CRF模型的信息抽取方法。Chen等[10]利用CRF實(shí)現(xiàn)了從評(píng)論中抽取多種類型的評(píng)論信息。徐冰[11]等則是引入淺層句法特征提高CRF模型的識(shí)別精度。王榮洋等[12]提出利用詞法、依存關(guān)系、相對(duì)位置、語(yǔ)義四大類別信息作為CRF的特征抽取出評(píng)價(jià)對(duì)象。鄭敏潔等[13]則提出了一種基于層疊CRF的中文句子評(píng)價(jià)對(duì)象抽取方法,有效提高了情感對(duì)象為復(fù)合詞和未登錄詞時(shí)的識(shí)別精度。
情感詞的情感傾向預(yù)測(cè)不是唯一的,也就是說(shuō)評(píng)價(jià)詞存在歧義現(xiàn)象。例如“性價(jià)比高”和“價(jià)格高”,同一個(gè)字“高”在兩個(gè)句子中表象出來(lái)的情感傾向是不一致的。還有,不同情感傾向的詞語(yǔ),出現(xiàn)的語(yǔ)境也不同。因此,詞語(yǔ)的情感傾向和它的上下文有著緊密的聯(lián)系。然而不論是基于詞典,還是基于語(yǔ)料庫(kù)的方法,它們都把詞的情感傾向預(yù)測(cè)局限于這個(gè)詞語(yǔ)的本身,忽略了它所出現(xiàn)的上下文。本節(jié)提出一個(gè)基于識(shí)別情感詞情感傾向的鏈?zhǔn)紺RF模型,可以用來(lái)識(shí)別評(píng)價(jià)詞的情感傾向。
CRF屬于無(wú)向圖模型,Lafferty等對(duì)CRF定義如下:
令G=(V,E),其中G表示無(wú)向圖,V和E屬于無(wú)向圖中的集合。在此表達(dá)式中,V代表節(jié)點(diǎn)集合,E代表邊集合,標(biāo)記序列中,元素和圖中的節(jié)點(diǎn)一一對(duì)應(yīng)。在已知觀察序列條件下X條件下,如果隨機(jī)變量的分布滿足馬爾可夫性,即節(jié)點(diǎn)與圖G中是相鄰節(jié)點(diǎn),則稱此圖是一個(gè)CRF。
CRF可以用公式表示,令 X=(X1,X2,…,XT),表示帶標(biāo)注序列,令Y=(Y1,Y2,…,YT),表示對(duì)應(yīng)于X的狀態(tài)序列。
其中,tk和st是特征函數(shù),γk和 μt是對(duì)應(yīng)權(quán)重,Z(x)是歸一化因子,tk( )yt-1,yt,x,t 是表示特征轉(zhuǎn)移函數(shù),函數(shù)取值為0或1。通常,特征函數(shù)為0或1,如果滿足特征條件時(shí)候取1,否則取0。
3.2.1 鏈?zhǔn)紺RF模型
CRF是一個(gè)無(wú)向圖上的指數(shù)概率模型,它采用了鏈?zhǔn)綗o(wú)向圖結(jié)構(gòu)計(jì)算給定觀察值條件下輸出狀態(tài)的條件概率[14]。
令X=(x1,x2,…,xn)為可觀測(cè)的輸入序列(例如詞性標(biāo)注中的句子),Y=(y1,y2,…,yn)為待預(yù)測(cè)的標(biāo)記序列(例如詞性標(biāo)注中詞性),其中xi表示X的第i個(gè)分量,yi是xi對(duì)應(yīng)的標(biāo)簽。線性鏈CRF定義標(biāo)記序列Y的條件概率為
其中Z(x)是歸一化因子,是特征函數(shù)。特征函數(shù)分為兩種,一種特征函數(shù)只與當(dāng)前狀態(tài)相關(guān),另一種特征函數(shù)還與當(dāng)前狀態(tài)的前一個(gè)狀態(tài)有關(guān)。對(duì)于離散型特征,函數(shù)的取值通常為0或1。是對(duì)應(yīng)特征函數(shù)的權(quán)重。
特征函數(shù)的權(quán)重可以使用最大似然估計(jì)法通過(guò)模型訓(xùn)練獲得。對(duì)于序列標(biāo)注,給定一個(gè)輸入序列X,模型用Viterbi算法求出以輸入序列X為條件下具有最大條件概率的標(biāo)記序列:
鏈?zhǔn)紺RF的序列標(biāo)注不僅保存了短文本的特征詞,還保存了詞之間的順序關(guān)系,可以提高短文本情感傾向性分析的準(zhǔn)確度。
3.2.2 CRF的圖結(jié)構(gòu)
設(shè)X,Y分別表示待標(biāo)注的觀測(cè)序列和對(duì)應(yīng)的標(biāo)記序列的聯(lián)合分布隨機(jī)變量,則( )X,Y ,就是以X為全局條件的CRF模型。定義G=( )V,E 是一個(gè)無(wú)向圖結(jié)構(gòu),Y={YV|v∈V } 節(jié)點(diǎn)集V由X和Y的構(gòu)成,即 X={Xu|u∈V},y={Yv|v∈V } ,邊集E表示節(jié)點(diǎn)間的關(guān)系集。由于無(wú)向圖G中標(biāo)記序列的每一個(gè)分量都以X為條件,因此,CRF中的聯(lián)合分布可以由條件概率P(y1,…,yn|X ) 來(lái)表示。如果每個(gè)隨機(jī)變量yv都滿足關(guān)于無(wú)向圖的馬爾可夫?qū)傩?,?duì)于給定的X和yv以外的所有隨機(jī)變量Y(W |W≠V,{W ,V}∈v),則隨機(jī)變量 yv的概率為
其中,u~v表示的是結(jié)點(diǎn)u和結(jié)點(diǎn)v相鄰,那么,(X ,Y )是一個(gè)CRF。
在序列標(biāo)記任務(wù)中,通常情況下遇到的圖結(jié)構(gòu)是一個(gè)簡(jiǎn)單的線性結(jié)構(gòu),在這種結(jié)構(gòu)中,觀察序列Y的元素對(duì)應(yīng)的結(jié)點(diǎn)形成了一個(gè)簡(jiǎn)單的鏈?zhǔn)浇Y(jié)構(gòu),稱之為線性鏈CRF,如圖1所示。
圖1 線性鏈CRF的圖模型
因?yàn)橹粚作為觀察序列,因此對(duì)其并沒(méi)有做獨(dú)立性假設(shè),所以X的各元素間并不存在圖結(jié)構(gòu),由此線性鏈CRF的模型也可表示為圖2。
圖2 線性鏈CRF的另一個(gè)圖模型
使用CRF進(jìn)行短文本情感傾向性分析的流程如下:微博測(cè)試集首先進(jìn)行中文分詞和去標(biāo)點(diǎn)工作,然后進(jìn)行序列標(biāo)注,第三步,將微博測(cè)試集分為訓(xùn)練集和測(cè)試集2個(gè)集合,對(duì)訓(xùn)練集使用CRF獲得相關(guān)模型,作用于測(cè)試集,得到測(cè)試結(jié)果。
針對(duì)微博情感分析公開(kāi)評(píng)測(cè)采用2012年NLPCC自然語(yǔ)言處理與中文計(jì)算會(huì)議發(fā)表的《中文微博情感分析評(píng)測(cè)結(jié)果》[15]。評(píng)測(cè)結(jié)果統(tǒng)計(jì)了準(zhǔn)確率、召回率,以及F值。按照微平均和宏平均計(jì)算,微平均以整個(gè)數(shù)據(jù)集為一個(gè)評(píng)價(jià)單元,計(jì)算整體的評(píng)價(jià)指標(biāo)。宏平均以每個(gè)話題為一個(gè)評(píng)價(jià)單元,計(jì)算參評(píng)系統(tǒng)在該話題中的評(píng)價(jià)指標(biāo),最后計(jì)算所有話題上各指標(biāo)的平均值。結(jié)合所有參評(píng)單位及實(shí)驗(yàn)室上報(bào)和公布的實(shí)驗(yàn)數(shù)據(jù),我們查找了各單位使用的不同情感傾向性分析模型,比較結(jié)果形成表1。
經(jīng)過(guò)比較,可以看出CRF算法提交的結(jié)果成績(jī)優(yōu)異,在準(zhǔn)確率,召回率以及F值都獲得了十分高的準(zhǔn)確率。其中,CRF、DUTIR、ME、SVM&ME、uni?gram以及依存分析方法的準(zhǔn)確率P值很接近,SVM&ME模型的準(zhǔn)正確率最高,比CRF高0.034,我們分析其原因是由于該集成分類器結(jié)合了SVM和ME兩個(gè)分類器的長(zhǎng)處,但是在召回率上比CRF少了0.113,導(dǎo)致F值比CRF差。DUTIR模型采用的是基于機(jī)器學(xué)習(xí)的方法進(jìn)行情感傾向性判斷,它的準(zhǔn)確率和CRF接近,但是召回率遠(yuǎn)遠(yuǎn)少于CRF,導(dǎo)致它的F值也低于CRF。其它模型都遠(yuǎn)遠(yuǎn)落后于CRF。從中可以看出CRF算法在短文本情感分析評(píng)測(cè)中效果顯著。通過(guò)查閱資料知道,常用的情感分析都是以句子為單位進(jìn)行微博信息處理和分析,它過(guò)于單一,若是以每一條微博為單位,結(jié)合微博中的句子的上下文關(guān)系,找出觀點(diǎn)微博,則更具有應(yīng)用價(jià)值,在這個(gè)方面,CRF具有很高的研究?jī)r(jià)值與應(yīng)用前景。
表1 NLPCC2012參評(píng)隊(duì)伍不同情感傾向性分析方法與結(jié)果比較[15]
在NLPCC2012評(píng)測(cè)上,文獻(xiàn)[16]提出一種融合ME和SVM模型,用于識(shí)別主觀句和褒貶極性分類問(wèn)題。通過(guò)構(gòu)建一個(gè)高質(zhì)量的情感詞典,將句子拆分為短句并使用一些規(guī)則提取特征,然后利用模型預(yù)測(cè)短句極性,最后用短句極性預(yù)測(cè)長(zhǎng)句極性。我們利用其中的ME模型評(píng)測(cè)數(shù)據(jù)(隊(duì)伍編號(hào)005)與同年CCF自然語(yǔ)言處理中文微博情感分析評(píng)測(cè)中的文獻(xiàn)[17]所采用的CRF模型算法評(píng)測(cè)數(shù)據(jù)(隊(duì)伍編號(hào)013)作對(duì)比,更深入地分析ME模型與CRF模型的特點(diǎn),結(jié)果如圖4所示。
從實(shí)驗(yàn)數(shù)據(jù)可以看到ME在準(zhǔn)確率上能夠達(dá)到較高的識(shí)別性能,比CRF高0.6個(gè)百分點(diǎn),但是在召回率上ME比CRF低12.9個(gè)百分點(diǎn),從而導(dǎo)致ME的F值低于CRF。而CRF模型在保證準(zhǔn)確率的前提下,召回率和F值依舊有良好的表現(xiàn)。分析結(jié)果可知ME存在以下問(wèn)題:
圖4 CRF(013)與ME(005)在情感傾向性分析上的數(shù)據(jù)比較[16~17]
1)ME模型是通過(guò)文本的特征對(duì)微博文本進(jìn)行情感分析,受句子長(zhǎng)度影響較大,所以由于微博文本句子長(zhǎng)度不一,導(dǎo)致ME模型在判斷微博情感上存在不少問(wèn)題。
2)ME模型的瓶頸是需要較大的訓(xùn)練集數(shù)量,由于數(shù)據(jù)稀疏是機(jī)器學(xué)習(xí)方法面臨的一個(gè)普遍問(wèn)題,因此對(duì)于基于ME的情感分析,必須要有巨大數(shù)量的訓(xùn)練集,若是訓(xùn)練集太小,則會(huì)導(dǎo)致結(jié)果不理想,從而影響分析的全面性。
3)ME模型雖然解決了HMM模型中的條件獨(dú)立性假設(shè)問(wèn)題,從而將上下文信息引入到模型的學(xué)習(xí)和識(shí)別過(guò)程中,提高了準(zhǔn)確率,但是在序列標(biāo)記過(guò)程中,ME是逐點(diǎn)判斷,這種局部最優(yōu)解的做法常常使得最終結(jié)果陷入局部最優(yōu)解,在一些情況下出現(xiàn)標(biāo)記偏置問(wèn)題。
而CRF模型除了能融合上下文信息外,還能利用觀察序列中從局部到全局、從低層到高層的各種形式的上下文信息。此外,CRF模型還具有很強(qiáng)的融合利用任意復(fù)雜相關(guān)特征的能力,使得它不需要考慮觀察序列中特征之間的相關(guān)性,不需要花費(fèi)精力考慮如何使用特征,可以靈活地進(jìn)行特征選擇,不需要額外的獨(dú)立性假設(shè)或內(nèi)在約束。
CRF和HMM雖然都是根據(jù)觀察序列特征進(jìn)行序列標(biāo)注,但依據(jù)的數(shù)學(xué)原理、建模的過(guò)程以及產(chǎn)生的結(jié)果都不相同?;趦煞N模型依賴的數(shù)學(xué)基礎(chǔ),文獻(xiàn)[18]認(rèn)為CRF避免了HMM由于理論缺陷所必然存在的問(wèn)題,較HMM更適合解決序列標(biāo)注問(wèn)題;但HMM較之CRF則有數(shù)學(xué)理論簡(jiǎn)單,集成特征少,訓(xùn)練時(shí)間短的特點(diǎn)。通過(guò)HMM與CRF的實(shí)驗(yàn)結(jié)果,可以更直觀地分析兩個(gè)模型的優(yōu)缺點(diǎn),如圖5所示(數(shù)據(jù)來(lái)源于文獻(xiàn)[18])。
圖5 CRF與HMM在人名實(shí)體識(shí)別開(kāi)放性測(cè)試的實(shí)驗(yàn)比較[19]
實(shí)驗(yàn)中數(shù)據(jù)表明,CRF模型在識(shí)別準(zhǔn)確率(P)上明顯優(yōu)于HMM模型,召回率(R)相差不多,CRF比HMM高出2.56個(gè)百分點(diǎn),從而使得CRF的F值比HMM高出了近10個(gè)百分點(diǎn),雖然HMM比CRF更容易發(fā)現(xiàn)人名實(shí)體,但是以犧牲模型的準(zhǔn)確率為代價(jià)的。此外,實(shí)驗(yàn)對(duì)模型的訓(xùn)練時(shí)間進(jìn)行了比較,發(fā)現(xiàn)HMM中3個(gè)詞典的生成僅需要30min,CRF則需要23h進(jìn)行參數(shù)訓(xùn)練,證明CRF模型較復(fù)雜,這也是CRF各項(xiàng)識(shí)別指標(biāo)優(yōu)于HMM的原因之一。HMM數(shù)學(xué)復(fù)雜度低于CRF,特征訓(xùn)練時(shí)間遠(yuǎn)低于CRF,但是在人名實(shí)體抽取應(yīng)用的準(zhǔn)確率、召回率、F值等各項(xiàng)評(píng)測(cè)指標(biāo)上都遠(yuǎn)遠(yuǎn)落后于CRF。
從文獻(xiàn)[18]的實(shí)驗(yàn)中我們可以得到HMM與CRF的比較結(jié)果:
1)CRF比HMM數(shù)學(xué)模型復(fù)雜度高;
2)HMM僅集成了兩個(gè)指定特征,參數(shù)訓(xùn)練僅僅需要統(tǒng)計(jì)三個(gè)頻次值,而CRF能夠在同一個(gè)模型中無(wú)限制集成不同特征,特別是可加入遠(yuǎn)距離約束,更能揭示語(yǔ)言學(xué)特征,但CRF集成多種特征生成了成千上萬(wàn)個(gè)特征函數(shù),導(dǎo)致其權(quán)重訓(xùn)練的計(jì)算量大,這就讓CRF出現(xiàn)了“指數(shù)爆炸(Blow Up)”,訓(xùn)練強(qiáng)度遠(yuǎn)遠(yuǎn)超過(guò)HMM;
3)CRF采用聯(lián)合條件概率P(T |W )建模,避免了HMM的獨(dú)立性假設(shè)和二元假設(shè),從數(shù)學(xué)建模的角度而言,CRF較之HMM具有更可靠更合理的數(shù)學(xué)推導(dǎo);
4)CRF保留了HMM中的之前標(biāo)記的狀態(tài)對(duì)當(dāng)前狀態(tài)標(biāo)記的影響,使特征的選擇更為合理;
5)HMM是有向圖模型,通過(guò)Viterbi算法搜索到當(dāng)前對(duì)象為止的最佳路徑,不考慮之后對(duì)象及其標(biāo)記概率,而CRF則采用無(wú)向圖模型,是對(duì)整個(gè)標(biāo)記序列求解聯(lián)合概率,在整個(gè)序列范圍內(nèi)歸一化,較HMM具有更為合理的數(shù)學(xué)理論基礎(chǔ),同時(shí)也避免了因求解局部觀察值概率所帶來(lái)的標(biāo)記偏置問(wèn)題。
通過(guò)研究可知,CRF模型優(yōu)點(diǎn)有以下幾項(xiàng):首先,CRF模型由于其自身在結(jié)合多種特征方面的優(yōu)勢(shì),使得CRF具有很強(qiáng)的推理能力,并且能夠使用復(fù)雜、有重疊性和非獨(dú)立的特征進(jìn)行訓(xùn)練和推理,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得CRF模型能夠獲取的信息非常豐富。其次,CRF對(duì)特征的融合能力比較強(qiáng),對(duì)于實(shí)例較小的時(shí)間類ME來(lái)說(shuō),CRF的識(shí)別效果明顯高于ME的識(shí)別結(jié)果。第三,CRF是在所有的狀態(tài)上建立了一個(gè)統(tǒng)一的概率模型,在進(jìn)行歸一化時(shí),即使某個(gè)狀態(tài)只有一個(gè)后續(xù)狀態(tài),它到該后續(xù)狀態(tài)的跳轉(zhuǎn)概率也不會(huì)為1,從而解決了標(biāo)記偏置問(wèn)題。
CRF模型也存在不足:首先,在使用CRF的過(guò)程中,特征的選擇和優(yōu)化是影響結(jié)果的關(guān)鍵因素,特征選擇問(wèn)題的好與壞,直接決定了CRF系統(tǒng)性能的高低。其次,CRF訓(xùn)練模型的時(shí)間比ME要更長(zhǎng),且獲得的模型很大,在一般的PC機(jī)上無(wú)法運(yùn)行。
從理論上講,CRF由于合理的數(shù)學(xué)理論、嚴(yán)密的數(shù)學(xué)推理使其比HMM、ME更適合中文的序列標(biāo)注或文本情感分析等應(yīng)用中。
[1]Lawrence,Rabiner L.R.A Tutorial on Hidden Markov Mod?els and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.
[2]Borthwick A.A Maximum Entropy Approach to Named En?tity Recognition[D].New York University.Department of Computer Science,Courant Institute 1999:23-24.
[3]J.Lafferty,A McCallum,F(xiàn).Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of International Confer?ence Machine Learning PP.282-289,2001.
[4]Wang Chao,Lin Jie.Zhang Guangquan.A semantic classi?fication approach for online product reviews[C]//Proceed?ings of the 2005 IEEE/WIC/ACM International Confer?ence on Web Intelligence(WI’5),2005.
[5]王根,趙軍.基于多重冗余標(biāo)記CRF的句子情感分析研究[J].中文信息學(xué)報(bào),2007,13(3):9-17.
WANG Gen,ZHAO Jun.Sentence Sentiment Analysis Based on Multi-redundant-labeled CRFs[J].Journal of Chinese Information Processing,2007,13(3):9-17.
[6]喻琦.中文微博情感分析技術(shù)研究[D].杭州:浙江工商大學(xué),2013:31-33.
YU Qi.The Research of Sentiment Analysis Techniques for Chinese Microblog[D].Hangzhou:Zhejiang Technolo?gy and Business University,2013:31-33.
[7]陳怡疆,徐海波,史曉東,等.基于樹(shù)形CRF的跨語(yǔ)言時(shí)態(tài)標(biāo)注[J].軟件學(xué)報(bào),2015,26(12):3151-3161.
CHEN Yijiang,XU Haibo,SHIXiaodong,et al.Cross-lin?gual Tense Tagging Based on Tree Conditional Random Fields[J].Journal of Software,2015,26(12):3151-3161.
[8]劉康,趙軍.基于層疊CRF模型的句子褒貶度分析研究[J].中文信息學(xué)報(bào),2008,22(1):123-128.
LIU Kang,ZHAO Jun.Sentence Sentiment Analysis Based on Cascade CRFs Model[J].Journal of Chinese Informa?tion Processing,2008,22(1):123-128.
[9]張玉芳,莫凌琳,熊忠陽(yáng),等.基于CRF的科研論文信息分 層 抽 ?。跩].計(jì) 算 機(jī) 應(yīng) 用 研 究 ,2009,26(10):3690-3693.
ZHANG Yufang,MO Linglin,XIONG Zhongyang,et al.Hierarchical Information Extraction from Research Papers Based on Conditional Random Fields[J].Application Re?search of Computers,2009,26(10):3690-3693.
[10]Chen L,Qi L,Wang F.Comparison of feature-level learn?ing methods for mining online consumer reviews[J].Ex?pert System with Applications,2012,39 (10) :9588-9601.
[11]徐冰,趙鐵軍,王山雨.基于淺層句法特征的評(píng)價(jià)對(duì)象抽取研究[J].自動(dòng)化學(xué)報(bào),2011,37(10):1241-1247.
XU Bing,ZHAO Tiejun,WANG Shanyu.Extraction of Opinion Targets Based on Shallow Parsing Features[J].Acta Automatica Sinica,2011,37(10):1241-1247.
[12]王榮洋,鞠久鵬,李壽山,等.基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J].中文信息學(xué)報(bào),2012,26(2):56-61.
WANG Rongjiu,JU Jiupeng,LI Shoushan,et al.Feature Engineering for CRFs Based Opinion Target Extraction[J].Journal of Chinese Information Processing,2012,26(2):56-61.
[13]鄭敏潔,雷志城,廖祥文,等.基于層疊CRFs的中文句子評(píng)價(jià)對(duì)象抽取[J].中文信息學(xué)報(bào),2013,27(3):69-76.
ZHENG Minjie,LEI Zhicheng,LIAO Xiangwen,et al.Identify Sentiment-Objects from Chinese Sentences Based on Cascaded Conditional Random Fields[J].2013,27(3):69-76.
[14]Hanna M.Wallach.Conditional Random Fields:An In?troduction[R]//Technical Reports,Department of Com?puter&Information Science,University of Pennsylva?nia,2004:133-136.
[15][DB/OL].http://tcci.ccf.org.cn/conference/2012/pages/page04_eva.htm l,2016-12-1.
[16][DB/OL]http://tcci.ccf.org.cn/conference/2012/pages/page05_eva.htm l.2016-12-1.
[17][DB/OL]http://tcci.ccf.org.cn/conference/2012/pages/page13_eva.htm l.2016-12-1.
[18]王昊,鄧三鴻.HMM與CRF在信息抽取應(yīng)用中的比較研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(7):158-162.
WANG Hao,DENG Sanhong.Comparative Study on HMM and CRFs Applying in Information Extraction[J].New Technology of Library and Information Service,2007(7):158-162.
Com parative Study of Chinese Emotion Analysis M ethods Based on Conditional Random Fields
WANG Yin1ZHOU Xueguang2LU Jian2
(1.Computer Technology Institute of Navy,Beijing 100841)(2.Department of Information Security,Naval University of Engineering,Wuhan 430033)
TP391.1
10.3969/j.issn.1672-9722.2017.09.004
2017年4月20日,
2017年5月27日
國(guó)家社會(huì)科學(xué)基金軍事學(xué)項(xiàng)目(編號(hào):14GJ003-152)資助。
王茵,女,工程師,研究方向:計(jì)算機(jī)技術(shù)與中文信息處理。周學(xué)廣,男,博士,教授,博士生導(dǎo)師,研究方向:信息安全與密碼學(xué)。陸健,男,研究方向:信息內(nèi)容安全。