段 玲,郭軍軍,余正濤,相 艷
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點實驗室,云南 昆明 650500)
近年來網(wǎng)民對于法律案件的關(guān)注度增加,特別是特大重大案件的評審工作,已經(jīng)成為互聯(lián)網(wǎng)關(guān)注的熱點,微博媒體對此類案件的報道愈加頻繁,并且有很多網(wǎng)民對此發(fā)表評論。目前這類新聞的文本較多,面對龐大的數(shù)據(jù),通過人工閱讀大量評論來把握輿論動向是不現(xiàn)實的,而且民眾和司法機關(guān)往往關(guān)注案件的不同方面。因此,面向微博涉案數(shù)據(jù)的方面識別研究對迅速掌握互聯(lián)網(wǎng)態(tài)勢具有重要的研究意義。
但是,微博數(shù)據(jù)形式和表述方式通常靈活多變,基于傳統(tǒng)自然語言處理技術(shù)的方法進行微博案件觀點所涉方面的判別較為困難。事實上,微博正文是對案件事實的陳述,包括對案件各方面的描述,微博評論大都是圍繞正文內(nèi)容展開的討論,因此結(jié)合正文的信息能夠?qū)ι姘肝谋镜睦斫馓峁椭?。例如,“麗江反殺案”的微博文本示例如?所示。
Table 1 Microblog case text
對于刑事案件,民眾關(guān)注的焦點一般聚焦在:嫌疑人、被害人、案由和其他四個方面,并且通過分析微博案件數(shù)據(jù),證實了以上四個方面的可靠性。以“麗江反殺案”為例,評論1中提到兩個“誰”,僅憑此條評論識別所包含的方面,并且明確這兩個“誰”分別指代哪個對象是有困難的。根據(jù)正文中“李某湘持刀砸門,90后退伍女兵唐雪將其反殺”,可以明確第一個“誰”指代李某湘,第二個“誰”指代唐雪,評論中包含嫌疑人和被害人兩個方面。根據(jù)正文中“唐雪開門,被掙扎中的李某湘踹了一腳,唐雪便撲上來,兩人扭打到了一起”,可以知道評論2描述的是案發(fā)的過程和原因,除了嫌疑人和被害人,還包含案由共三個方面。根據(jù)正文中“檢察院通知律師說以故意傷害防衛(wèi)過當(dāng)起訴”,可以知道評論3提及的是其他的方面。
微博案件的方面識別就是將網(wǎng)民對司法案件的評論映射到上述四個不同的方面,但是由于評論中包含一方面或者多方面的信息,所以微博案件方面識別通常歸類為文本多標(biāo)簽分類問題。然而,社交新聞媒體通常形式和內(nèi)容都靈活多變,給文本語義理解帶來極大的困難,本文針對涉案微博文本觀點所含方面的識別問題開展研究,提出一種基于案件相關(guān)微博正文和評論交互注意的案件方面識別方法。首先基于Transformer框架對正文和評論分別進行編碼;然后基于交互注意力機制,實現(xiàn)正文信息和評論信息的融合;最后基于融合后的特征實現(xiàn)對評論文本案件方面的識別。其具體內(nèi)容性為:
(1) 提出一種文本多標(biāo)簽分類的模型,解決了微博案件的方面識別問題;
(2) 提出了融合正文信息和評論信息的交互注意力機制,提升和增強了評論的語義表征;
(3) 構(gòu)建了一個刑事案件微博數(shù)據(jù)集,并基于該數(shù)據(jù)集驗證了所提評論交互注意力機制的有效性。
方面識別就是要自動識別出一條特定文本評論中粒度最細(xì)的評價對象。根據(jù)目前的研究工作,可以將方面識別的方法分為傳統(tǒng)機器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法。
傳統(tǒng)機器學(xué)習(xí)方法中,Hu等[1]融合評論文本詞性信息,基于Apriori算法實現(xiàn)評論文本高頻名詞和名詞短語的自動挖掘。其他典型的機器學(xué)習(xí)方法有隱馬爾可夫模型HMM(Hidden Markov Model)、條件隨機場模型CRF(Conditional Random Field)等。如Jin等[2]采用一種編入詞匯的HMM模型來提取顯式方面;Zhang等[3]在帶監(jiān)督學(xué)習(xí)的條件隨機場模型中引入詞性等特征進行訓(xùn)練,并構(gòu)建相應(yīng)領(lǐng)域詞典,利用該詞典識別產(chǎn)品方面。上述的研究工作多為有監(jiān)督的學(xué)習(xí)方法,大多數(shù)無監(jiān)督方法基于LDA(Latent Dirichlet Allocation)及其變體,例如,文獻[4,5]將主題信息作為方面詞項,實現(xiàn)方面信息的挖掘。然而,LDA并不能很好地從短評論中找到連貫的主題,而且,即使主題和方面可能重疊,也不能保證它們是相同的。
近年來,深度學(xué)習(xí)方法在方面識別任務(wù)中取得了不錯的成績。He等[6]提出了一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)ABAE(Attention-based Aspect Extraction),利用預(yù)先訓(xùn)練好的詞嵌入來增強主題的連貫性,通過重構(gòu)損失從詞嵌入空間中學(xué)習(xí)各個方面的嵌入。Angelidis等[7]提出了MATE(Multi-Seed Aspect Extractor),它使用一些與方面相關(guān)的種子詞的嵌入來確定ABAE中的方面嵌入。Zhao等[8]借用方面嵌入和種子詞的想法,提出了一個生成模型,能自動地從外部信息中收集種子詞。除此之外,有部分學(xué)者將方面識別當(dāng)作一個文本序列標(biāo)注問題,如Poria等[9]提出一種基于七層深度卷積網(wǎng)絡(luò)的模型來對句子進行標(biāo)記訓(xùn)練,從而識別方面。也有學(xué)者將方面識別轉(zhuǎn)化為文本分類問題,如Liu等[10]提出一種文本分類模型,用于識別產(chǎn)品評論中所包含的方面,并且取得了不錯的效果?;诰矸e神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)在社交媒體文本分類任務(wù)中效果顯著,但不足之處是不夠直觀,解釋性不好。而注意力機制[11]能夠很直觀地給出每個詞對結(jié)果的貢獻,如Yang等[12]提出的分層注意網(wǎng)絡(luò)(Hierarchical Attention Network)。Transformer[13]僅依靠注意力機制,能夠比神經(jīng)網(wǎng)絡(luò)更快速地獲取文本特征表達。近年來,有部分學(xué)者結(jié)合更為豐富的信息對文本進行分類,如Chai等[14]將標(biāo)簽類別與類別描述相關(guān)聯(lián),類別描述由手工制作的模板或使用從強化學(xué)習(xí)中所提取的抽象模型生成,使分類模型關(guān)注與標(biāo)簽描述相關(guān)的最顯著文本。Wang等[15]提出了一種標(biāo)簽嵌入注意模型,將詞和標(biāo)簽聯(lián)合嵌入在一潛在空間中,直接利用文本標(biāo)簽的兼容性構(gòu)造文本表示。Sun等[16]在基于方面的情感分析ABSA(Aspect-Based Sentiment Analysis)任務(wù)中使用四種不同的句子模板構(gòu)造輔助句,將ABSA轉(zhuǎn)化為句子對分類任務(wù)。與單標(biāo)簽分類不同,多標(biāo)簽分類給一個數(shù)據(jù)樣本標(biāo)注多個標(biāo)簽,能夠更加準(zhǔn)確、有效地表達多重語義信息。通常一條特定文本評論中包含多個評價對象,因此方面識別任務(wù)更類似于文本多標(biāo)簽分類的問題?;谏疃葘W(xué)習(xí)的多標(biāo)簽分類模型尚處于研究階段。Kurata等[17]使用CNN進行分類,Chen等[18]使用CNN級聯(lián)RNN獲取文章的語義信息。Yang等[19]提出將序列到序列模型應(yīng)用到多標(biāo)簽分類中,序列生成模型SGM(Sequence Generation Model)把標(biāo)簽相關(guān)關(guān)系考慮在內(nèi),并且提出一個新的解碼結(jié)構(gòu)的序列生成模型,能夠捕獲標(biāo)簽之間的相關(guān)關(guān)系,而且在預(yù)測的時候自動選擇信息量最豐富的詞。Yang等[20]基于卷積神經(jīng)網(wǎng)絡(luò)對文本進行表征,并利用自注意力機制實現(xiàn)文本信息的交互及特征提取,以從源文本中提取細(xì)粒度的局部鄰域信息和全局交互信息。 Xiao等[21]提出了一個標(biāo)簽特定注意網(wǎng)絡(luò)LSAN(Label-Specific Attention Network),LSAN利用標(biāo)簽語義信息來確定標(biāo)簽和文檔之間的語義聯(lián)系,同時采用自注意力機制從文檔內(nèi)容信息中識別標(biāo)簽特定的文檔表示形式。
針對微博評論通常包含多方面觀點,微博案件的評論都是圍繞微博正文展開討論,微博正文能給評論的語義理解提供幫助的特點,本文提出一種基于正文和評論交互注意的多標(biāo)簽分類模型,用于識別案件的方面。
本文提出一種基于微博正文和評論交互注意思想的微博案件方面識別方法,通過自注意力機制,實現(xiàn)對正文和評論的編碼,基于交互注意力機制,實現(xiàn)正文和評論的融合。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
Figure 1 Network structure of aspect identification based on the contents and comments interactive attention network圖1 基于正文和評論交互注意力網(wǎng)絡(luò)的案件方面識別網(wǎng)絡(luò)結(jié)構(gòu)
本文融合正文和評論的案件方面識別模型主要由三個部分組成:基于自注意力機制的正文和評論編碼、正文和評論交互注意力編碼網(wǎng)絡(luò)和案件方面識別。(1)基于自注意力機制的正文和評論編碼。微博案件的正文和評論作為模型兩端的輸入,對正文和評論采用同樣的編碼方式,將正文和評論分別進行表征,得到正文和評論的嵌入矩陣;然后采用多頭注意力機制對其編碼,計算句子中的每個詞與所有詞的關(guān)注。(2)正文和評論交互注意力編碼網(wǎng)絡(luò)包括3個模塊:①正文到評論的編碼模塊表示哪些正文詞與每個評論詞最相關(guān);②評論到正文的注意力編碼模塊表示哪些評論詞與每個正文詞最相似;③交互注意融合模塊,通過正文和評論互相關(guān)注,融合正文和評論信息,得到包含有正文信息的評論的表征。(3)案件方面識別。對融合后的特征通過線性變換和sigmoid函數(shù),將評論映射到相應(yīng)的標(biāo)簽,得到案件方面識別的結(jié)果。
正文和評論交互注意力編碼包括兩個模塊:基于自注意力機制的正文和評論編碼、正文和評論交互注意力編碼網(wǎng)絡(luò)。對正文和評論采用自注意力機制的方式進行編碼,得到關(guān)于正文和評論的兩個表征,再通過交互注意力機制對這兩個表征進行融合,得到包含有正文信息的評論語義表征。
3.1.1 基于自注意力機制的正文、評論編碼
正文和評論自注意力編碼將微博案件的正文和評論作為編碼端的兩個輸入。假設(shè)一個句子,其中有n個詞,可以將其用序列來表示,則正文和評論分別用式(1)和式(2)表示:
L=(l1,l2,…,ln)
(1)
K=(k1,k2,…,kn)
(2)
其中,L和K分別表示正文和文本的序列,n為序列長度。
對輸入的句子序列進行詞嵌入,得到詞嵌入序列表示,如式(3)和式(4)所示:
EL=(wl1,wl2,…,wln)
(3)
EK=(wk1,wk2,…,wkn)
(4)
其中,EL和EK是將正文和評論句子表示成一個二維嵌入矩陣的序列,它將句子的所有嵌入連接在一起,其維度大小為n×d,n是詞的個數(shù),d為句子嵌入的維度。序列中的每個元素都是相互獨立的。
使用多頭注意力機制讀取每個文本序列并計算每個詞與所有詞的關(guān)注。將二維嵌入矩陣EL和EK轉(zhuǎn)化為查詢(Q)、鍵(K)和值(V),并對其進行線性變化后輸入到頭數(shù)為8的多頭注意力機制中;然后將所有頭的輸出值進行拼接;最后通過線性變換層轉(zhuǎn)換成和單頭一樣的輸出值,如式(5)和式(6)所示:
AL=Linear(MH(QL,KL,VL))
(5)
AK=Linear(MH(QK,KK,VK))
(6)
其中,矩陣AL和AK分別表示基于多頭注意力網(wǎng)絡(luò)表征后的正文和評論表征向量。
基于多頭注意交互的文本語義表征對每個詞進行詞嵌入得到關(guān)于句子的嵌入矩陣,對嵌入矩陣分別進行線性變換得到相應(yīng)的查詢(Q)、鍵(K)和值(V)。Q、K和V為三個完全相同的語義特征向量,分別經(jīng)過一次線性變換,然后同時并行進行h次點積注意交互運算,也就是所謂的多頭,頭之間參數(shù)不共享,每次Q、K和V進行線性變換的參數(shù)都是不一樣的。然后將h次縮放點積注意的結(jié)果進行拼接,再進行一次線性變換后得到的值是多頭注意力機制的結(jié)果,如式(7)所示:
MH(Q,K,V)=Concat(head1,head2,…,headh)Wo
(7)
(8)
(9)
3.1.2 正文和評論交互注意編碼網(wǎng)絡(luò)
正文和評論交互注意編碼的思想受Seo等[22]在機器閱讀理解任務(wù)上提出的雙向注意力流BiDAF(Bi-Directional Attention Flow)的啟發(fā)。正文和評論交互注意力編碼網(wǎng)絡(luò)負(fù)責(zé)鏈接和融合正文和評論的信息,編碼結(jié)構(gòu)如圖2所示,其中,K={K1,…,Ki,…,KT}表示基于正文加權(quán)后的評論文本表征,i=1,…,T表示文本序列序號。
Figure 2 Structure of the contents and comments interaction attention coding network圖2 正文評論交互注意力編碼網(wǎng)絡(luò)結(jié)構(gòu)
正文和評論交互注意力編碼網(wǎng)絡(luò)包括三個模塊:正文到評論的注意力編碼模塊、評論到正文的注意力編碼模塊和交互注意融合模塊。
交互注意力編碼模塊的輸入是經(jīng)過多頭注意力機制編碼得到的正文和評論的表征。編碼網(wǎng)絡(luò)從兩個方向計算關(guān)注:從評論到正文的關(guān)注和從正文到評論的關(guān)注,這兩個關(guān)注來自于正文和評論的上下文嵌入信息之間的共享相似度矩陣S,相似度矩陣計算如式(10)所示:
Stj=α(AK:t,AL:j)
(10)
其中,Stj表示第t個評論詞和第j個正文詞之間的相似度;α(·)表示可訓(xùn)練標(biāo)量函數(shù),編碼兩個輸入向量之間的相似度;AK:t表示AK的第t列向量,AL:j表示AL的第j列向量。
(1)正文到評論的注意力編碼模塊。正文到評論的關(guān)注表示哪些正文詞與每個評論詞最相關(guān)。令at表示所有的正文詞與第t個評論詞之間的注意力權(quán)重向量,對于所有的t,∑tatj=1。注意力權(quán)重通過at=softmax(St:)計算求得,則每個參與關(guān)注的正文向量表示如式(11)所示:
U=∑jatjAL:j
(11)
其中,U中包含了同所有評論詞計算關(guān)注的正文向量。
(2)評論到正文的注意力編碼模塊。評論到正文的注意力表示哪些評論詞與每個正文詞最相似。通過p=softmax(maxcol(S))來獲得評論詞的注意力權(quán)值,其中求最大值的函數(shù)maxcol(S)是跨列執(zhí)行的。則每個參與關(guān)注的評論向量基于加權(quán)平均后的表示如式(12)所示:
U′=∑tptAK:t
(12)
其中,t為正文文本序列序號,pt表示第t個詞的注意力權(quán)值,U′表示某一時刻與正文最相關(guān)的評論詞的權(quán)重和。
(3)交互注意融合模塊。交互注意融合模塊最后將評論詞嵌入和正文評論交互式注意向量進行拼接,得到的矩陣用G來表示,如式(13)所示:
G=β(K,U,U′)
(13)
其中,G中的每個列向量可以被看作是每個評論詞有正文信息的表征,β(·)是任意可訓(xùn)練的神經(jīng)網(wǎng)絡(luò),它融合了三個輸入向量。
3.2.1 方面識別
通過正文和評論相互關(guān)注的過程,融合正文和評論交互注意信息得到的矩陣G是包含有正文信息的評論表征。將這個表征經(jīng)過一個四層的線性變換和一個非線性激活函數(shù),可得到四個類的向量F。再通過sigmoid函數(shù)對每個類進行二分類,將四個類的向量映射到(0,1),得到類別預(yù)測矩陣P。分類過程如式(14)和式(15)所示:
F=tanh(Linear(G))
(14)
P=sigmoid(F)
(15)
當(dāng)評論的類別預(yù)測結(jié)果Pi,j大于閾值0.47時,則認(rèn)為該評論屬于該類別;反之則不屬于。將每條評論映射到一類或多類,可實現(xiàn)微博案件方面的識別。
3.2.2 損失函數(shù)
本文使用漢明損失HL(Hamming Loss)來評估模型的精度。漢明損失統(tǒng)計了被誤分類的樣本數(shù),即不屬于這個類別的標(biāo)簽被預(yù)測,或者屬于這個類別的標(biāo)簽沒有被預(yù)測。漢明損失的值越小,性能越好。對于一個測試集X={(x1,Y1),(x2,Y2),…,(xn,Yn)},其損失計算如式(16)所示:
(16)
其中,n是樣本的數(shù)量,L是標(biāo)簽的數(shù)量,Yi表示第i個樣本的真實類別標(biāo)簽,Pi表示第i個樣本的類別預(yù)測標(biāo)簽。XOR(·)表示異或運算,且滿足XOR(0,1)=XOR(1,0)=1,XOR(0,0)=XOR(1,1)=0。
本節(jié)首先介紹本文提出的數(shù)據(jù)集、實驗參數(shù)、評價指標(biāo)、實驗細(xì)節(jié)和所有的基線方法;然后,將本文方法與基線方法進行比較,并通過消融實驗驗證文本和評論的雙向交互注意力模塊的有效性;最后,對實驗結(jié)果進行分析和討論。
本文從微博爬取了12個熱點案件的7 000條數(shù)據(jù),每條數(shù)據(jù)均包含一個正文及相應(yīng)的一條評論。在7 000條數(shù)據(jù)中,2 973條數(shù)據(jù)包含對嫌疑人的評價,1 872條數(shù)據(jù)包含對被害人的評價,879條數(shù)據(jù)包含對案由的評價,3 772條數(shù)據(jù)包含對其他方面的評價。大部分的評論數(shù)據(jù)有2個標(biāo)簽,部分?jǐn)?shù)據(jù)有3或4個標(biāo)簽,少部分?jǐn)?shù)據(jù)有1個標(biāo)簽,平均標(biāo)簽數(shù)約為2個。按照8∶1∶1的比例劃分?jǐn)?shù)據(jù)集,訓(xùn)練集、驗證集和測試集中均包含12個案件的數(shù)據(jù),其中訓(xùn)練集5 600條,驗證集和測試集各700條。
本文使用PyTorch深度學(xué)習(xí)框架編碼模型。微博案件文本的詞向量維度為512維,詞表大小為3 076。多頭注意力機制中的dmodel大小為512維,頭數(shù)h為8。交互式注意力機制融合正文和評論信息,對得到的交互注意信息矩陣進行四層線性變換,預(yù)測到四個類別,然后使用sigmoid函數(shù)輸出標(biāo)簽空間上的概率分布。其中每層線性變換的隱藏單元數(shù)為128。模型的學(xué)習(xí)率設(shè)置為0.000 3,隨機失活率設(shè)置為0.5。
針對本文所提出的數(shù)據(jù)集,本文設(shè)置了以下幾個對比實驗?;€方法的對比實驗均不融合案件正文信息。
(1)CNN[17]:使用多個卷積核提取微博案件評論文本特征,輸入到線性變換層,然后輸出標(biāo)簽空間上的概率分布。
(2)CNN-RNN[18]:利用CNN和RNN獲取全局和局部的案件評論文本語義,并對標(biāo)簽相關(guān)性進行建模。
(3)Transformer[13]:在文本分類中只用到Transformer的編碼端,獲取微博案件評論的文本特征,再輸出標(biāo)簽的概率。
(4)ABAE[6]:將詞共現(xiàn)統(tǒng)計數(shù)據(jù)顯式地編碼為詞嵌入,使用降維方法提取評論語料中最重要的方面,并通過方面嵌入的線性組合來重構(gòu)每個句子,使用注意力機制去除不相關(guān)的詞,以進一步提高各方面的連貫性。
4.4.1 評價指標(biāo)
本文采用準(zhǔn)確率P(Precision)、召回率R(Recall)和Weigthed-F1值作為所提方法有效性的評價指標(biāo)。
Weight-F1的計算方法為:先計算出每一個類別的P、R和F1,然后通過求均值得到整個樣本集上的F1值。在此基礎(chǔ)上,再根據(jù)每一類別的數(shù)據(jù)大小進行加權(quán)平均。
4.4.2 對比實驗
在本文所提出的數(shù)據(jù)集上,本文所提方法與不同基線方法進行了對比實驗,實驗結(jié)果如表2所示。
Table 2 Experimental results of different approaches aspects identification
表2的實驗結(jié)果表明,在本文所提出的數(shù)據(jù)集上,相比基線方法,本文所提方法通過交互注意力機制融合正文信息,在主要評價指標(biāo)上性能最好。本文提出的基于正文和評論交互注意的方面識別方法,與最常用的CNN方法相比,準(zhǔn)確率提高了3.83個百分點,召回率提高了3.32個百分點,F(xiàn)1值提高了2.16個百分點。相比于CNN-RNN方法,本文所提方法精確率提高了5.05個百分點,召回率提高了1.51個百分點,F(xiàn)1值提高了2.53個百分點。本文只使用了Transformer模型中的多頭注意力部分,采用Transformer模型的編碼端對評論進行編碼,然后對其進行多標(biāo)簽分類。相比之下,本文所提方面識別方法在準(zhǔn)確率上提高了3.17個百分點,召回率提高了3.76個百分點,F(xiàn)1值提高了3.77個百分點。基于LDA的無監(jiān)督方法難以從評論中獲取連貫的主題。ABAE是方面提取的經(jīng)典方法,對于本文所使用的數(shù)據(jù)集,ABAE模型首先將微博案件的評論數(shù)據(jù)通過word2vec訓(xùn)練成詞向量,使用注意力層關(guān)注句子中最重要的信息,實驗結(jié)果準(zhǔn)確率為73.43%,召回率為87.29%,F(xiàn)1值為79.19%。由表3可知,ABAE沒有融入正文信息,本文所提方法在方面識別性能上優(yōu)于ABAE方法。
由此可見,本文通過融合正文信息的方式,增強了評論的語義表征,使分類的性能得到了提升。
此外,本文構(gòu)建的數(shù)據(jù)集中包含嫌疑人和其他的評論較多,包含案由的評論較少,存在數(shù)據(jù)不均衡的問題,因此還計算了每一類的準(zhǔn)確率、召回率和F1值。各類別的有效性驗證結(jié)果如表3所示。
Table 3 Effectiveness verification results of each category
分析表3可得,嫌疑人、被害人和其他的評論數(shù)量較大,其F1值較高,案由評論數(shù)量較少,其F1值較低,但在加權(quán)平均后對總體的F1值影響較小。
4.4.3 消融實驗
為驗證本文所提方法的有效性,本節(jié)將交互注意力層消去進行比較。
在表4中,“消去交互注意力網(wǎng)絡(luò)”表示去掉正文和評論交互注意力網(wǎng)絡(luò),“消去評論到正文注意力編碼”表示交互注意力網(wǎng)絡(luò)中只保留正文到評論的注意力,“消去正文到評論注意力編碼”表示交互注意力網(wǎng)絡(luò)中只保留評論到正文的注意力。分析表4實驗結(jié)果可知,通過交互注意力的方式融合正文的信息,增強了評論的語義表征,同時,相比于單向的關(guān)注,雙向關(guān)注對評價對象方面識別的性能有明顯的提升。
Table 4 Results of ablation experiment
4.4.4 案例分析
在對不同標(biāo)簽進行預(yù)測時,不同詞語的貢獻也存在差異。表5給出幾個例子的注意力層可視化,表6給出這幾個例子使用不同方法得到的相應(yīng)標(biāo)簽。當(dāng)預(yù)測標(biāo)簽“嫌疑人”時,它可以自動為信息更豐富的詞分配更大的權(quán)重,比如十四歲、男孩和施暴者等。對于標(biāo)簽“被害人”,所選的信息詞為十一歲、女孩和受害者等。對于標(biāo)簽“案由”,所選的信息詞為性侵和殺人等。對于標(biāo)簽“其他”,所選的信息詞為正文中除上述三方面外的關(guān)鍵詞、正文中沒有出現(xiàn)的信息詞等。這表明本文所提方法在預(yù)測不同的標(biāo)簽時,能夠自動在評論中選擇信息最豐富的詞語。
Table 5 Visualization of interactive attention mechanism
Table 6 Examples of label generation
以表5中的3條評論生成的標(biāo)簽序列為例,將本文方法與最常用的基線方法CNN進行了比較,結(jié)果如表6所示。與真實標(biāo)簽相比,CNN模型能夠預(yù)測評論1這樣信息詞比較明顯的相關(guān)標(biāo)簽,然而因為未加入正文信息,CNN在預(yù)測評論2時沒有預(yù)測出完整的標(biāo)簽,在預(yù)測評論3時甚至出現(xiàn)了錯誤。消去交互注意力機制導(dǎo)致方法沒有正文信息,會出現(xiàn)與CNN模型一樣的相關(guān)標(biāo)簽預(yù)測不完整或者錯誤的問題。本文所提方法融合了正文的信息,可以準(zhǔn)確地預(yù)測出評論1和評論2這樣信息詞較為明顯的標(biāo)簽,在預(yù)測評論3時,由于主語不明確,模型預(yù)測出現(xiàn)了錯誤。但是,總體而言,本文所提方法由于融入了正文信息,增強了評論的語義表征,相比于其他方面識別方法,預(yù)測標(biāo)簽的準(zhǔn)確率有明顯的提升。
針對微博案件觀點所涉方面的智能識別問題,本文提出一種基于微博案件正文和評論交互注意力的多標(biāo)簽分類方法,實現(xiàn)對微博案件評論文本中方面的自動識別。通過與基線方法進行比較、消去交互注意力機制各項實驗,結(jié)果表明交互注意力機制融合了正文信息,對評論中方面的自動識別有良好的效果。