劉培玉,荀 靜,費(fèi)紹棟,朱振方
(1. 山東英才學(xué)院 信息工程學(xué)院,山東 濟(jì)南 250104;2. 山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250014;3. 山東交通學(xué)院 信息科學(xué)與電氣工程學(xué)院,山東 濟(jì)南 250357)
基于隱馬爾可夫模型的主觀句識(shí)別
劉培玉1,2,荀 靜2,費(fèi)紹棟2,朱振方3
(1. 山東英才學(xué)院 信息工程學(xué)院,山東 濟(jì)南 250104;2. 山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250014;3. 山東交通學(xué)院 信息科學(xué)與電氣工程學(xué)院,山東 濟(jì)南 250357)
文本情感傾向分析是意見(jiàn)挖掘和情感文摘中的一個(gè)重要環(huán)節(jié),而在情感傾向分析中涉及到的是主觀性文本,這就需要進(jìn)行主客觀文本分類(lèi)。當(dāng)前的主客觀文本分類(lèi)方法主要是基于特征詞典的概率統(tǒng)計(jì)方法,并沒(méi)有考慮特征之間的語(yǔ)法與語(yǔ)義關(guān)系。針對(duì)該問(wèn)題,該文提出一種基于隱馬爾可夫模型(HMM)的主觀句識(shí)別方法。該方法首先從訓(xùn)練語(yǔ)料中抽取具有明顯分類(lèi)效果的七類(lèi)主客觀特征,然后每個(gè)句子應(yīng)用HMM進(jìn)行特征角色類(lèi)別標(biāo)注,并依據(jù)標(biāo)注的結(jié)果計(jì)算句子的權(quán)重,最終識(shí)別主觀句。該方法在第六屆中文傾向性分析評(píng)測(cè)任務(wù)中能夠有效地識(shí)別主觀句。
隱馬爾可夫模型;特征標(biāo)注;主觀句識(shí)別
隨著互聯(lián)網(wǎng)的發(fā)展,在論壇、微博和博客等各個(gè)在線交流平臺(tái)上都存在大量的與當(dāng)前熱點(diǎn)話題或事物及其屬性相關(guān)的評(píng)論信息,在進(jìn)行情感傾向分析之前對(duì)主客觀文本進(jìn)行分類(lèi)不僅可以提高情感分析的準(zhǔn)確率還可以減少算法時(shí)間復(fù)雜度。文本情感傾向分析[1]是意見(jiàn)挖掘和情感文摘中的一個(gè)重要環(huán)節(jié),而在情感傾向分析中涉及到的是主觀性文本,這就需要進(jìn)行主客觀文本分類(lèi),從而提取給定文本中的帶有情感傾向的主觀信息,去除客觀信息。關(guān)于主客觀文本分類(lèi)這一問(wèn)題在文獻(xiàn)[2-4]中均有涉及。
主客觀句分類(lèi)在國(guó)外起步較早,經(jīng)過(guò)以往的研究與發(fā)展已經(jīng)產(chǎn)生了很多優(yōu)秀的分類(lèi)算法。在文獻(xiàn)[5-6]中,作者分別研究了形容詞和名詞兩種不同詞性的詞對(duì)主客觀分類(lèi)的影響。在文獻(xiàn)[7]中,Hatzivassiloglou & Wiebe進(jìn)一步發(fā)現(xiàn)動(dòng)態(tài)形容詞、具有語(yǔ)義傾向的形容詞和修飾程度不同的形容詞對(duì)主客觀分類(lèi)具有很大的影響。在此基礎(chǔ)上,Riloff等[8]使用Bootstrapping算法從訓(xùn)練集中學(xué)習(xí)獲取主觀性句子模式,進(jìn)而識(shí)別主客觀語(yǔ)句。Kamal[9]采用有監(jiān)督的機(jī)器學(xué)習(xí)方法和基于規(guī)則的方法挖掘主觀句中的特征-情感對(duì),并取得很好的分類(lèi)效果。
國(guó)內(nèi)的學(xué)者對(duì)主觀句抽取算法的研究也取得很大進(jìn)展。上海交通大學(xué)的姚天昉等[10]對(duì)中文主客觀文本進(jìn)行了定義和區(qū)別,并且預(yù)選了主客觀文本的分類(lèi)特征。哈爾濱工業(yè)大學(xué)的葉強(qiáng)等[11]提出一種根據(jù)連續(xù)雙詞詞類(lèi)組合模式(2-POS)自動(dòng)判斷句子主觀性程度的方法。福州大學(xué)的林惠恩等[12]分別采用主觀線索和主觀模式的方法來(lái)提取主觀句子,并在此基礎(chǔ)上結(jié)合兩個(gè)方法進(jìn)行主客觀句抽取。實(shí)驗(yàn)結(jié)果表明,這些方法都能有效地對(duì)主客觀句子進(jìn)行分類(lèi)。
可以看到,現(xiàn)在的主客觀文本分類(lèi)方法主要是基于特征詞典的概率統(tǒng)計(jì)方法,并沒(méi)有考慮特征之間的語(yǔ)法與語(yǔ)義關(guān)系。因此,本文提出基于隱馬爾可夫模型的特征角色標(biāo)注的中文主觀句識(shí)別方法,實(shí)驗(yàn)結(jié)果表明,該方法可以有效地識(shí)別給定評(píng)論文本中的主觀句。
在本節(jié)首先給出了基于HMM 的主觀句識(shí)別算法的總體框架,從整體上對(duì)該算法進(jìn)行描述,然后進(jìn)行主客觀特征詞集的抽取,最后詳述該算法的具體實(shí)現(xiàn)過(guò)程。
2.1 總體框架
基于HMM的主觀句識(shí)別算法包括訓(xùn)練階段和識(shí)別階段,主要包含以下幾步: 1)主觀特征提?。?)建立HMM;3)應(yīng)用HMM進(jìn)行角色標(biāo)注;4)提取主觀句。系統(tǒng)總體流程圖如圖1所示。
圖1 系統(tǒng)整體流程圖
2.2 主客觀特征詞集抽取
主客觀特征主要是指既有區(qū)分力度又能代表主客觀句類(lèi)型的特征。該模塊主要是對(duì)這些特征進(jìn)行抽取,組成主客觀特征詞集。本文首先對(duì)已有的常用方法進(jìn)行介紹,進(jìn)而根據(jù)其優(yōu)缺點(diǎn)提出結(jié)合信息增益與卡方統(tǒng)計(jì)的特征抽取方法。
2.2.1 目前常用的特征抽取方法
主觀句在詞、句和句型的使用上都與客觀句有較大的差別,因此在這里提取對(duì)主客觀句最有區(qū)分力度的特征集。特征選擇算法中常用的有文檔頻率(TF-IDF),信息增益(IG)、相對(duì)熵(KL距離)、卡方統(tǒng)計(jì)(CHI)和點(diǎn)互信息(PMI)[13]。這幾種方法針對(duì)不同的語(yǔ)料庫(kù)各有其優(yōu)缺點(diǎn),其中相對(duì)熵和點(diǎn)互信息主要被用在計(jì)算兩個(gè)隨機(jī)變量之間的關(guān)系上,例如,依賴關(guān)系、相似關(guān)系等。
文檔頻率使用特征詞在主觀句中出現(xiàn)的次數(shù)來(lái)表示這個(gè)特征詞與主觀句的相關(guān)度,該方法實(shí)現(xiàn)最簡(jiǎn)單、算法復(fù)雜度最低,但有很多低頻詞帶有很強(qiáng)烈的主觀句類(lèi)別信息,因此不能單單根據(jù)詞頻把它們?nèi)サ簟P畔⒃鲆婵坍?huà)了一個(gè)詞語(yǔ)在主觀句中出現(xiàn)與否對(duì)主客觀文本分類(lèi)的影響,即一個(gè)詞語(yǔ)在句子中出現(xiàn)前后的信息熵之差??ǚ浇y(tǒng)計(jì)是通過(guò)度量候選特征詞和句子之間的相關(guān)度,這種方法的理論基礎(chǔ)是假設(shè)特征詞和句子之間符合具有一階自由度的χ2分布[10]。
2.2.2 結(jié)合信息增益與卡方統(tǒng)計(jì)的特征抽取方法
研究結(jié)果表明,信息增益只能考察特征對(duì)整個(gè)主客觀分類(lèi)系統(tǒng)的貢獻(xiàn),而不能具體到其中一個(gè)類(lèi)別上,通過(guò)它得到的特征是適合全局的特征,而卡方統(tǒng)計(jì)可以針對(duì)具體類(lèi)別進(jìn)行特征提取。由于本文是針對(duì)主客觀句的二分類(lèi)問(wèn)題并且需要獲得能明顯表示主觀句或客觀句的特征,因此根據(jù)信息增益和卡方統(tǒng)計(jì)各自的特點(diǎn),本文將兩者聯(lián)合起來(lái)分層次共同作用于訓(xùn)練集提取出既有區(qū)分力度又能代表主客觀句類(lèi)型的特征。
對(duì)每個(gè)詞匯t判斷其是否為特征以及所屬類(lèi)型具體步驟。
step1 計(jì)算使用詞匯t的進(jìn)行預(yù)分類(lèi)的信息增益IG(t);
step2 若IG(t)大于設(shè)定閾值,則判定其為預(yù)選特征,否則結(jié)束算法,進(jìn)行下一個(gè)詞匯的判斷;
step3 計(jì)算詞匯t的χ2(t,sub);
step4 如果χ2(t,sub)大于設(shè)定閾值,則判斷其為主觀特征,否則,判斷其為客觀特征。算法結(jié)束,進(jìn)行下一個(gè)詞匯的判斷。
經(jīng)過(guò)特征選擇以后,可以得到對(duì)主客觀分類(lèi)較好效果的特征詞集,但是分類(lèi)的最終效果亦受特征維數(shù)的影響。實(shí)驗(yàn)表明,當(dāng)特征維數(shù)最終趨向于一個(gè)相對(duì)穩(wěn)定的范圍時(shí),分類(lèi)效果趨于穩(wěn)定。因此在本文中設(shè)具有最好分類(lèi)效果的特征維數(shù)為K,并選擇候選特征集中的前K個(gè)特征組成特征集,即features={f1,f2,…fi,…,fK}。
2.3 基于HMM的主觀句識(shí)別算法
在本模塊借鑒HMM在詞性標(biāo)注方面的應(yīng)用將待分類(lèi)的句子集合應(yīng)用HMM標(biāo)注特征角色,得到句子中包含的詞匯所對(duì)應(yīng)的特征類(lèi)別。該模塊分為特征類(lèi)別劃分、HMM模型建立、特征角色標(biāo)注和主觀句提取四個(gè)過(guò)程。
2.3.1 特征類(lèi)別劃分
在此,根據(jù)文獻(xiàn)[6]中的特征類(lèi)別及針對(duì)訓(xùn)練語(yǔ)料的所作的分析,將提取的特征詞集分為兩個(gè)大類(lèi)七個(gè)小類(lèi)別,兩個(gè)大類(lèi)為主觀性特征集和客觀性特征集,其中主觀性特征集又分為六個(gè)小類(lèi)別,即指示性動(dòng)詞、指示性副詞、形容詞、情感詞、第一人稱或第二人稱代詞、指示性標(biāo)點(diǎn)符號(hào)。由于分類(lèi)效果明顯的客觀性特征集較少,在這里不做具體分類(lèi)統(tǒng)一將其作為一類(lèi),即客觀性詞。對(duì)其符號(hào)化為F={iv,iadv,adj,st,pro,pun.oj}。
2.3.2 隱馬爾可夫模型建立
HMM是在馬爾可夫模型基礎(chǔ)上發(fā)展起來(lái)的,近些年在自然語(yǔ)言處理等領(lǐng)域獲得了廣泛應(yīng)用。它是關(guān)于時(shí)序的概率模型,描述由一個(gè)隱藏的馬爾科夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)隨機(jī)序列,再由各個(gè)狀態(tài)生成一個(gè)觀測(cè)而產(chǎn)生觀測(cè)隨機(jī)序列的過(guò)程。一個(gè)HMM是不確定的、隨機(jī)的有限狀態(tài)自動(dòng)機(jī),由不可觀測(cè)的狀態(tài)轉(zhuǎn)移過(guò)程(一個(gè)Markov鏈) 和可觀測(cè)的觀察生成過(guò)程組成[14]。本文進(jìn)行特征角色標(biāo)注時(shí)使用HMM的參數(shù)初始化如下所示。
(1)Y為定義的詞匯特征類(lèi)別的數(shù)目,在2.3.1節(jié)定義了特征詞集所屬的七個(gè)特征類(lèi)別。因而,Y的值為7,記為Y={q1,q2,…,q7}={iv,iadv,adj,st,pro,pun.oj}。qi為馬爾可夫鏈在時(shí)刻t時(shí)所處的狀態(tài),其中,qi∈{q1,q2,…,q7}。
(2)X為即將要進(jìn)行特征角色標(biāo)注的詞匯的數(shù)目,在這里令X=features={f1,f2, …fi,…,fK}。每個(gè)句子只選擇這些詞匯序列來(lái)作為其觀測(cè)序列符號(hào),vj為在時(shí)刻t所觀測(cè)到的觀測(cè)值,其中,vj∈{f1,f2,…fi,…,fK}。
(3)π為經(jīng)過(guò)訓(xùn)練集的概率統(tǒng)計(jì)之后每個(gè)特征類(lèi)別所占的初始概率,π=(πi),其中,πi=P(i1=qi),i=1,2,…,7是經(jīng)訓(xùn)練語(yǔ)料中統(tǒng)計(jì)得出的時(shí)刻t=1處于狀態(tài)qi的概率。
(4)A是狀態(tài)轉(zhuǎn)移概率矩陣:A=[aij]7×7。其中,aij=P(it+1=qj|it=qi),i=1,2,…,7;j=1,2,…,7表示在時(shí)刻t處于狀態(tài)qi的條件下在時(shí)刻t+1轉(zhuǎn)移到狀態(tài)qj的概率。
(5)B為觀測(cè)概率矩陣,B=[bj(k)]7×K。其中,bj(k)=P(ot=vk|it=qj),k=1,2,…,7;j=1,2,…,K是在時(shí)刻t處于狀態(tài)qi的條件下生成觀測(cè)vk的概率。
2.3.3 基于HMM模型的特征角色標(biāo)注
建立HMM以后,應(yīng)用其對(duì)每個(gè)預(yù)處理后的句子進(jìn)行特征角色標(biāo)注,并使用維特比[12]算法得到一個(gè)最優(yōu)標(biāo)注序列Q。維特比算法是在給定一個(gè)觀測(cè)序列的基礎(chǔ)上,根據(jù)已有的HMM找到一個(gè)概率最大的狀態(tài)序列。
對(duì)一個(gè)已知句子s觀測(cè)序列V={v1,v2,…,vT},應(yīng)用維特比算法計(jì)算相應(yīng)的最優(yōu)標(biāo)注狀態(tài)序列Q={q1,q2,…,qT},T是句子s中的詞序個(gè)數(shù)。
(1) 初始化δ(i)=πibi(v1),i=1,2,…,7
ψ1(i)=0,i=1,2,…,7
(2) 遞推,對(duì)t=2,3,…,T
(3) 終止P*=max1≤i≤7δT(i)qT=arg max1≤i≤7[δT(i)]
(4) 最優(yōu)特征狀態(tài)序列回溯,對(duì)t=T-1,T-2,…,1得到qt=ψt+1(qt+1),最終求得最優(yōu)特征狀態(tài)序列Q={q1,q2,…,qT}。
2.3.4 主觀句提取
在本文中最后提取主觀句衡量其句子的權(quán)重大小,計(jì)算的方法是考慮句子中已標(biāo)注特征角色的詞匯的類(lèi)別權(quán)重和句法類(lèi)型的權(quán)重兩方面的因素得到最終句子的權(quán)重,計(jì)算過(guò)程如下。
1) 特征詞類(lèi)的權(quán)重
(1)
其中,L是特征詞類(lèi)Fj中特征詞的個(gè)數(shù),sub是特征詞fi在主觀句中出現(xiàn)的頻數(shù),obj是特征詞fi在客觀句中出現(xiàn)的頻數(shù),num=sub+obj表示特征詞fi在訓(xùn)練語(yǔ)料中出現(xiàn)的總頻數(shù)。
2) 句法類(lèi)型的權(quán)重
本文認(rèn)為組成一個(gè)句子的特征詞匯越重要?jiǎng)t該句子被判別為主觀句的可能性會(huì)相應(yīng)的越高。此外,從訓(xùn)練語(yǔ)料中可以得到句子的類(lèi)型不同,成為主觀句的可能性也不同。句子從語(yǔ)氣上分,可分為陳述句、疑問(wèn)句、祈使句、感嘆句。疑問(wèn)句是用來(lái)向別人提出問(wèn)題的句子。感嘆句是用來(lái)表示某種感情的句子,因而疑問(wèn)句和感嘆句是主觀句的可能性要比陳述句要大得多。祈使句是用來(lái)要求別人做什么或不做什么的句子,往往表達(dá)的客觀事實(shí),從而祈使句是客觀句的可能性要強(qiáng)與其他三類(lèi)句子。
綜合特征詞和句法類(lèi)型的句子s的權(quán)重計(jì)算方法如公式(2)所示。
(2)
其中,qi∈Qi=1,2,…,T是句子s經(jīng)過(guò)HMM標(biāo)注后的最優(yōu)特征狀態(tài)序列,η是變量調(diào)節(jié)參數(shù),其取值通過(guò)訓(xùn)練語(yǔ)料獲得。
用type表示待分類(lèi)句子的句法類(lèi)型,其具體賦值如公式(3)所示。
(3)
3.1 實(shí)驗(yàn)語(yǔ)料
本文的實(shí)驗(yàn)語(yǔ)料為第六屆中文傾向性分析評(píng)測(cè)給出的任務(wù)一面向新聞的情感關(guān)鍵句抽取與判定中的10 000篇文本。該任務(wù)要求抽取出給定文本的情感關(guān)鍵句,因需要對(duì)文本中的句子進(jìn)行傾向性分析,故首先要進(jìn)行主觀句識(shí)別。本文選取給定的前6 000篇文本,總共包含141 024個(gè)句子作為訓(xùn)練集,剩余4 000篇文本含有的106 350個(gè)句子作為測(cè)試集。
3.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)將由本文所提出的算法提取出的主觀句同Baseline方法進(jìn)行比較,使用準(zhǔn)確率、召回率和F值來(lái)反映主觀句識(shí)別能力表示為式(4)~(5)。
(4)
(5)
(6)
其中a為算法識(shí)別出的主觀句集合中準(zhǔn)確的句子數(shù),即在主觀句集合和扔標(biāo)注集合中都出現(xiàn)的句子的個(gè)數(shù),b為算法識(shí)別出的主觀句集合中的句子數(shù),c為人工標(biāo)注集合的句子數(shù)。
3.3 實(shí)驗(yàn)及結(jié)果分析
在本文中抽取主客觀特征使用的是結(jié)合信息增益和卡方統(tǒng)計(jì)的方法,因此在實(shí)驗(yàn)一中分別采用文檔頻率、信息增益、卡方統(tǒng)計(jì)和本文方法這四種方法進(jìn)行特征提取,并通過(guò)準(zhǔn)確率和召回率反映每種方法的優(yōu)劣。此外,在具體的主觀句識(shí)別系統(tǒng)中需要有明確的K值,因此通過(guò)實(shí)驗(yàn)二來(lái)確定K最終的取值。實(shí)驗(yàn)三主要是對(duì)抽取出的特征類(lèi)別在主觀句中分布情況的展示。應(yīng)用HMM標(biāo)注特征角色時(shí)對(duì)每個(gè)類(lèi)別的識(shí)別效率不近相同,因此本文在實(shí)驗(yàn)四中分別驗(yàn)證了HMM對(duì)每個(gè)特征類(lèi)別的識(shí)別率。本文提出的方法與Baseline方法的比較實(shí)驗(yàn)在實(shí)驗(yàn)五中給出。
實(shí)驗(yàn)一 特征選擇方法
本文分別應(yīng)用文檔頻率、信息增益、卡方統(tǒng)計(jì)和本文方法分別進(jìn)行特征選擇的結(jié)果如圖2所示。
圖2 特征選擇方法對(duì)比
由圖2可以看出,本文使用的信息增益和卡方統(tǒng)計(jì)聯(lián)合分層次特征選擇方法對(duì)主客觀文本這個(gè)二分類(lèi)問(wèn)題具有更好的效果。
實(shí)驗(yàn)二 確定特征維數(shù) K
為了確定具有最好分類(lèi)效果的特征維數(shù),在這里對(duì)K取不同的值對(duì)最后主客觀句子分類(lèi)的準(zhǔn)確度進(jìn)行驗(yàn)證,分別測(cè)試了K為200,400,600,1 000,1 200,1 400,1 600,1 800,2 000,2 200,2 400,2 600,2 800,3 000時(shí)主客觀句子分類(lèi)的準(zhǔn)確度。
圖3 主客觀句分類(lèi)的準(zhǔn)確度隨特征維數(shù)K的變化趨勢(shì)
其中橫坐標(biāo)代表特征維數(shù),縱坐標(biāo)代表主客觀句分類(lèi)的準(zhǔn)確度,圖中的折線表示主客觀句分類(lèi)的準(zhǔn)確度隨特征維數(shù)變化的趨勢(shì)??梢钥闯?,當(dāng)K=2 200時(shí),主客觀句分類(lèi)的準(zhǔn)確度最高并且趨于平衡,因此,對(duì)于本文所采用的語(yǔ)料庫(kù)來(lái)說(shuō),特征維數(shù)K的取值為2 200。
實(shí)驗(yàn)三 主觀特征集提取
應(yīng)用本文特征提取方法總共獲得七類(lèi)2 200個(gè)主客觀特征,其中每一類(lèi)所包含的特征詞的個(gè)數(shù)如表2所示。
表1 人工標(biāo)注的主客觀句分類(lèi)結(jié)果
表2 主觀句中的特征分布情況
續(xù)表
實(shí)驗(yàn)四 HMM對(duì)各個(gè)特征類(lèi)別的識(shí)別效果
應(yīng)用HMM識(shí)別句子中的七類(lèi)特征結(jié)果如圖4所示。
圖4 各個(gè)特征類(lèi)別的識(shí)別效率的變化趨勢(shì)
從圖4可以看出,HMM對(duì)特征類(lèi)別的識(shí)別效率隨著訓(xùn)練語(yǔ)料的增加維持在一個(gè)較穩(wěn)定的水平,其中平均識(shí)別率為0.751。從而當(dāng)語(yǔ)料庫(kù)覆蓋面足夠大時(shí),HMM特征角色標(biāo)注方法可以很好的對(duì)句子的詞匯序列進(jìn)行標(biāo)注。
實(shí)驗(yàn)五 對(duì)比實(shí)驗(yàn)
本文采用的Baseline方法為文獻(xiàn)[15]和文獻(xiàn)[16]中的方法。其中文獻(xiàn)[7]中的方法是連續(xù)雙詞詞類(lèi)組合模式(2-POS)方法,文獻(xiàn)[16]中的方法是基于特征詞典匹配主觀線索詞的方法。接下來(lái)分別采用以上兩種方法和本文方法對(duì)本文的測(cè)試語(yǔ)料進(jìn)行主觀句識(shí)別。由于最后抽取的結(jié)果受不同的η取值的影響,因此在這里首先對(duì)η取不同的參數(shù)值對(duì)系統(tǒng)的準(zhǔn)確度進(jìn)行驗(yàn)證,分別測(cè)試了η為2,4,6,8,10,12,14,16,18,20時(shí)系統(tǒng)的性能。
圖5 系統(tǒng)的性能隨調(diào)節(jié)參數(shù) η的變化趨勢(shì)
圖6 三種主觀句識(shí)別方法對(duì)比
其中,在圖5中橫坐標(biāo)代表調(diào)節(jié)參數(shù)η的取值,縱坐標(biāo)代表系統(tǒng)的性能,圖中的折線表示系統(tǒng)的性能隨調(diào)節(jié)參數(shù)η的變化趨勢(shì)??梢钥闯霎?dāng)η的取值為12時(shí),系統(tǒng)抽取出的主觀句的準(zhǔn)確度最好,因此本文中η=12。從圖6中可以得到,應(yīng)用基于HMM模型標(biāo)注的識(shí)別主觀句的方法查準(zhǔn)率和F值均高于Baseline方法,查全率方面需要進(jìn)一步的提高。由此可見(jiàn),本文提出的基于HMM模型的主觀句識(shí)別方法是可行的。
本文主要包括主觀特征詞集提取、基于HMM模型的特征角色標(biāo)注和主觀句提取三個(gè)基本的模塊。與傳統(tǒng)的基于特征詞典的概率統(tǒng)計(jì)方法相比,應(yīng)用HMM模型標(biāo)注特征角色可以考慮特征之間的語(yǔ)法與語(yǔ)義關(guān)系,從而提高特征識(shí)別的準(zhǔn)確性,通過(guò)實(shí)驗(yàn)證明,該方法能夠有效地識(shí)別給定文本中的主觀句。本文只在特征詞這一層面上進(jìn)行分析,并沒(méi)有分析短語(yǔ)和句子級(jí)別的關(guān)系,今后將往這方面做進(jìn)一步的努力。
[1] 徐琳宏, 林鴻飛, 楊志豪. 基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J]. 中文信息學(xué)報(bào), 2007, 21(1): 96-100.
[2] 李綱, 程洋洋, 寇廣增. 句子情感分析及其關(guān)鍵問(wèn)題[J]. 圖書(shū)情報(bào)工作, 2010, 54(11): 104-107.
[3] 徐軍, 丁宇新, 王曉龍. 使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類(lèi)[J]. 中文信息學(xué)報(bào),2007,21(6): 95-100.
[4] 婁德成, 姚天叻. 漢語(yǔ)語(yǔ)句主題語(yǔ)義傾向分析方法的研究[J]. 中文信息學(xué)報(bào),2007,21(5):73-79.
[5]BruceRF,WiebeJM.Recognizingsubjectivity:acasestudyinmanualtagging[J].NaturalLanguageEngineering, 1999, 5(2): 187-205.
[6]RiloffE,WiebeJ,WilsonT.Learningsubjectivenounsusingextractionpatternbootstrapping[C]//Proceedingsofthe7thConferenceonNaturalLanguageLearningatHLT-NAACL2003-Volume4.AssociationforComputationalLinguistics, 2003: 25-32.
[7]HatzivassiloglouV,WiebeJM.Effectsofadjectiveorientationandgradabilityonsentencesubjectivity[C]//Proceedingsofthe18thConferenceonComputationalLinguistics-Volume1.AssociationforComputationalLinguistics, 2000: 299-305.
[8]RiloffE,WiebeJ.Learningextractionpatternsforsubjectiveexpressions[C]//Proceedingsofthe2003ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics, 2003: 105-112.
[9]KamalA.SubjectivityClassificationusingMachineLearningTechniquesforMiningFeature-OpinionPairsfromWebOpinionSources[J].InternationalJournalofComputerScienceIssues(IJCSI), 2013, 10(5).
[10] 姚天昉, 彭思崴. 漢語(yǔ)主客觀文本分類(lèi)方法的研究[C]//第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集. 2007.
[11] 葉強(qiáng), 張紫瓊, 羅振雄. 面向互聯(lián)網(wǎng)評(píng)論情感分析的中文主觀性自動(dòng)判別方法研究[J]. 信息系統(tǒng)學(xué)報(bào),2007,1(1):79-91.
[12] 林慧恩, 林世平. 中文情感傾向分析中主觀句子抽取方法的研究[C]//全國(guó)第 20 屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009) 暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集 (上冊(cè)). 廣西 南寧. 2009.
[13]YangYiming,PedersenJO.Acomparativestudyonfeatureselectionintextcategorization[C]//Proceedingsof14thConferenceonMachineLearning.Nashville:MorganKaufmannPublishers, 1997: 414-420.
[14] 郭葉. 中文句子情感傾向分析[D]. 北京郵電大學(xué), 2010.
[15] 楊健, 汪海航. 基于隱馬爾可夫模型的文本分類(lèi)算法[J]. 計(jì)算機(jī)應(yīng)用, 2010 (9): 2348-2350.
[16] 朱穎. 基于HMM的漢語(yǔ)詞性標(biāo)注及其改進(jìn)[D]. 太原理工大學(xué), 2011.
Subjective Sentence Recognition Based on Hidden Markov Model
LIU Peiyu1, 2, XUN Jing2, FEI Shaodong2, ZHU Zhenfang3
(1. School of Information Engineering, Shandong Yingcai University, Jinan, Shandong 250104, China;2. School of Information Science and Engineering, Shandong Normal University, Jinan, Shandong 250014, China;3. School of Information Science and Electric Engineering, Shandong Jiaotong University, Jinan, Shandong 250357, China)
The current subjective and objective text classification methods are mainly based on statistical model over the feature lexicon, which didn’t take into account the syntax and semantic relationships between features. The paper proposes a Chinese subjective sentence recognition based on Hidden Markov Model. In this method, seven kinds of subjective and objective features for classification are extracted tagged among each sentence by HMM. The subjective sentences are decided by the importance of features and syntactic structure of sentences. The method is examined in the task of COAE2014 for its effeiciency.
Hidden Markov Model; feature tagging; subjective sentence recognition
劉培玉(1960-),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)信息安全、自然語(yǔ)言處理。E-mail:liupy@sdnu.edu.cn荀靜(1989-),碩士,主要研究領(lǐng)域?yàn)槲谋菊?、中文傾向性分析。E-mail:xunjing311416@163.com費(fèi)紹棟(1984-),博士,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)輿情分析#中文傾向性分析。E-mail:124659865@qq.com
1003-0077(2016)04-0206-07
2014-09-10 定稿日期: 2015-03-20
國(guó)家自然科學(xué)基金(61373148);國(guó)家社會(huì)科學(xué)基金(12BXW040);山東省自然科學(xué)基金(ZR2012FM038, ZR2011FM030);山東省優(yōu)秀中青年科學(xué)家獎(jiǎng)勵(lì)基金(BS2013DX033)
TP391
A