榮 歡,馬廷淮
1.南京信息工程大學(xué) 人工智能學(xué)院,南京 210044
2.南京信息工程大學(xué) 計算機與軟件學(xué)院,南京 210044
隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶選擇在網(wǎng)絡(luò)上發(fā)布關(guān)于某一特定對象的評論文本,由此產(chǎn)生了大量的用戶評論。這些評論包含了用戶對特定對象所持有的觀點看法,以及情感態(tài)度,集成評論文本中的關(guān)鍵信息有利于決策制定并鎖定關(guān)鍵用戶群體,具有重要的應(yīng)用價值[1]。評論集成源于眾包數(shù)據(jù)中對數(shù)據(jù)標注結(jié)果的清理。一般而言,標注者會在眾包平臺上對同一對象進行類別標注,不同標注者所提供的類別標簽存在差異,由此需要對標注結(jié)果進行真值推測,即標簽集成[2]。特別的,如圖1 所示,本文將集成對象從離散的數(shù)值標簽轉(zhuǎn)為連續(xù)的文本內(nèi)容,即通過收集關(guān)于同一對象的眾包評論文本,以既定壓縮率K抽取眾包評論文本關(guān)鍵語句形成集成文本以代替原始評論,由此推測出與當前評論對象最為匹配的內(nèi)容描述。此外,區(qū)別于數(shù)值型數(shù)據(jù),評論中蘊含了發(fā)布者所持有的情感態(tài)度,故本文在評論集成過程中重點關(guān)注情感強度較為突出的語句,從而更明顯反映出用戶在評論時的情感狀態(tài)。
Fig.1 General process of crowdsourced comment integration圖1 眾包評論文本集成的一般過程
然而,評論集成所面臨最大困難是缺少真值指導(dǎo)。對于常規(guī)的標簽集成任務(wù)而言,最終集成結(jié)果仍由所標注對象的標簽真值進行評價,故在進行標簽真值推測時可利用真值樣本,通過基于概率統(tǒng)計的相關(guān)方法進行數(shù)據(jù)分析與修正;相反,對于評論集成而言,獲取眾包評論集成真值需投入較高的人力與時間成本,且當文本量較大時,通過分析文本內(nèi)容確定評論集成質(zhì)量的思路不可行。故為了克服上述困難,本文提出一種利用長期收益預(yù)測與策略梯度上升的兩階段眾包評論文本集成方法(two-phase crowdsourced comment integration method,TP_CCI)。該方法構(gòu)建代理,旨在不依賴任何人工提供的真值數(shù)據(jù),僅依靠代理從原始評論中抽取關(guān)鍵語句形成集成文本,由此推測出與當前評論對象最為匹配的內(nèi)容描述。
具體而言,所提出方法TP_CCI 以特定深度神經(jīng)網(wǎng)絡(luò)組件表示代理結(jié)構(gòu)(記為Q),在第一階段從語句相關(guān)性(relevance,Rel)與語句冗余度(redundancy,Red)刻畫集成文本內(nèi)容質(zhì)量并以此作為收益,針對集成文本內(nèi)容質(zhì)量,預(yù)測在當前狀態(tài)s下,選擇特定語句a后,直至文本集成過程結(jié)束時所能夠取得的長期收益,由所預(yù)測長期收益指導(dǎo)代理學(xué)習(xí)出針對文本內(nèi)容質(zhì)量的最優(yōu)選擇策略π*=arg maxaQ(s,a)。此處,s為當前時刻下原始評論文本與集成文本狀態(tài),a為代理從原始評論中抽取的特定語句,Q(s,a)(即Q-值)表示代理在特定狀態(tài)s下選擇語句a直至文本集成過程結(jié)束時,集成文本在內(nèi)容質(zhì)量上所能夠取得的長期收益期望;其次,在第二階段中,所提出方法TP_CCI 以集成文本情感強度作為收益,利用策略梯度(上升)對第一階段最優(yōu)選擇策略π*進一步調(diào)整,使得所產(chǎn)生集成文本從客觀角度最突顯語句情感強度,不論語句情感的正負傾向。
與眾包標簽集成相比,現(xiàn)有眾包評論文本集成所做工作較少[3],且文本摘要與眾包評論文本集成問題最為相似,二者目標均是將較長文檔內(nèi)容按既定壓縮率K整合為較簡短的內(nèi)容總結(jié),其中應(yīng)包含源文檔中的重要語句,且減少語句間的冗余性。
現(xiàn)有文本摘要工作大致可分為抽取型與生成型兩種。典型的抽取型文本摘要工作有:文獻[4]利用語句與標題相似性、詞語TF-IDF(term frequencyinverse document frequency)權(quán)重以及語句位置嵌入作為特征進行語句表示,通過訓(xùn)練深度學(xué)習(xí)分類器,判定當前語句是否應(yīng)被選入文本摘要中;文獻[5]將源文檔中的語句作為節(jié)點,將文檔轉(zhuǎn)為結(jié)構(gòu)化圖,根據(jù)圖中節(jié)點(語句)中心度選取若干關(guān)鍵語句形成摘要文本。生成型文本摘要旨在利用源文檔中已有詞語,組織新的關(guān)鍵短語與語句形成文本摘要,典型工作包括:文獻[6]通過詞向量訓(xùn)練將語句表示為n維句子向量,以此為輸入,利用編碼器與解碼器結(jié)合上下文注意力機制,生成新的語句內(nèi)容形成摘要;類似的,文獻[7]在利用編碼器與解碼器生成文本摘要過程中引入摘要與源文檔在單個詞語、兩個詞語以及最長公共子序列上的重合度,通過最大化三者重合度提高文本摘要質(zhì)量。
文本摘要與眾包評論文本集成的差異性主要集中在兩方面:(1)文本摘要問題較為重視語句一致性與連貫性,即摘要中關(guān)于特定對象的屬性描述應(yīng)在上下文中保持一致,且語句銜接應(yīng)盡可能與人為書寫摘要接近[8];相反,對于眾包評論文本集成而言,其根本目的是使用戶快速知曉眾多購買者對當前物品所持有的主要觀點,如圖1 所示,當既定壓縮率K較大時,集成文本中或包含意見相反的觀點,此類不一致性信息在集成文本中仍為重要信息[9]。(2)現(xiàn)有文本摘要工作主要采用有監(jiān)督方法,即通過人為提供的“金標準”摘要訓(xùn)練模型以處理新文本生成摘要[10],然而對于眾包評論文本集成問題而言,獲取眾包評論集成后的“真值數(shù)據(jù)”成本巨大,利用有監(jiān)督方法進行模型訓(xùn)練較困難。
故為克服眾包評論文本集成在獲取“真值數(shù)據(jù)”上的困難,本文摒棄傳統(tǒng)有監(jiān)督方法,由所構(gòu)建代理的經(jīng)驗收益指導(dǎo)模型訓(xùn)練[11-12],通過經(jīng)驗收益進行模型訓(xùn)練的常用關(guān)鍵技術(shù)包括:Q-值學(xué)習(xí)(Q-learning[13])與策略梯度(policy gradient[14])。具體而言,記狀態(tài)(state,s)為當前所處環(huán)境的抽象表示,給定狀態(tài)s,有若干動作(action,a)可供代理(記為Agent)選擇,當代理在狀態(tài)s下選擇了動作a后,可由當前狀態(tài)s流轉(zhuǎn)至下一狀態(tài)s′,從而獲得收益(reward,r),重復(fù)上述過程即可獲得代理的一次行為經(jīng)驗,記為τ={s1,a1,r1,s2,a2,r2,…,sT-1,aT-1,rT-1,sT},則通過行為經(jīng)驗指導(dǎo)代理進行動作選擇的總體目標如式(1)所示,即最大化其長期收益期望,其中一次行為經(jīng)驗τ由概率分布P產(chǎn)生。
由此,Q-值學(xué)習(xí)旨在根據(jù)時刻i處狀態(tài)s與所選動作a,利用DQN(deep Q-network)神經(jīng)網(wǎng)絡(luò),預(yù)測從時刻i至?xí)r刻T(一次行為經(jīng)驗τ結(jié)束),代理所能夠取得的長期收益期望,由所預(yù)測長期收益期望選擇最優(yōu)動作a,從而間接形成最優(yōu)選擇策略;此處,DQN 神經(jīng)網(wǎng)絡(luò)無固定結(jié)構(gòu)且是該情形下所使用深度神經(jīng)網(wǎng)絡(luò)統(tǒng)稱[15];相反,策略梯度旨在直接學(xué)習(xí)出一個最優(yōu)選擇策略,使得代理所取得的長期收益期望最大化。
綜上所述,本文摒棄傳統(tǒng)有監(jiān)督學(xué)習(xí)方法,不依賴于任何人工提供的真值數(shù)據(jù),以深度神經(jīng)網(wǎng)絡(luò)構(gòu)建代理,借助Q-值學(xué)習(xí)與策略梯度上升,在兩階段分別以文本內(nèi)容質(zhì)量(即語句相關(guān)性與冗余性)以及文本情感強度作為收益,由代理所取得的經(jīng)驗收益分兩階段指導(dǎo)眾包評論文本集成過程。
如圖2 所示,當給定評論對象后,可從眾包平臺收集不同用戶所發(fā)布的評論文本,本文將M個用戶所發(fā)布評論內(nèi)容合并為一個源文檔(記為source_doc)。首先,對每個源文檔進行文本預(yù)處理,具體包括分詞、去除停用詞、詞性標注(僅保留副詞、形容詞、動詞與名詞);之后,采用Skip-2-Gram[16]預(yù)訓(xùn)練詞向量,由此每個詞語可表示為dim維詞向量,且如式(2)所示,源文檔中每個句子可由其所包含詞語的詞向量均值表示為句子向量。
Fig.2 Representation of comment and demonstration of comment integration in extractive way圖2 評論文本表示方法與抽取型集成過程示意
此外,如圖2 所示,各時刻下狀態(tài)(state)可由源文檔及其集成文檔(記為Int_doc)共同表示,記為statei=
如上所述,當代理以圖2 所示過程進行語句選擇時,挑選具有最大長期收益期望的語句a以確保選擇最優(yōu)性。采用Q-值學(xué)習(xí)預(yù)測從當前時刻i處,選擇任意語句動作a后,直至集成過程結(jié)束(時刻T)所產(chǎn)生的長期收益期望;此處,收益針對集成文檔內(nèi)容質(zhì)量(即語句相關(guān)性與冗余性)進行衡量。具體而言,如圖2 所示,記給定狀態(tài)si=
具體而言,如圖3 所示,代理(Agent)首先分析狀態(tài)st的前N個歷史狀態(tài)與動作選擇,通過多次卷積操作,將N個歷史狀態(tài)動作對(s,a)卷積為向量mt-1:t-N。此處,每個狀態(tài)可表示為s=[source_vec,Int_vec],其中source_vec為源文檔句子向量均值,Int_vec為集成文檔句子向量均值,顯然,source_vec值不會改變,但Int_vec值會隨著集成過程推進而不斷改變,圖3 中語句動作a為從源文檔選取的句子向量(sentence_vector)。另一方面,在圖3 底部,從當前狀態(tài)st=[source_vec,Int_vect]出發(fā),經(jīng)過一系列激活函數(shù)變化,最終獲得向量mt:T,該向量是對后續(xù)狀態(tài)流轉(zhuǎn)表示上的預(yù)測,其中Sig 表示Sigmoid,μ表示所預(yù)測均值,δ表示所預(yù)測標準差,Z=[μ+δ·Normal(0,I)],Normal表示正態(tài)分布,ε~clip(Normal(0,I),-c,c)為所引入噪聲以防止過擬合,其取值將大于c或小于-c部分全部截斷,均設(shè)為c與-c。最終,給定當前狀態(tài)st=[source_vec;Int_vect],代理根據(jù)圖3 所示過程,預(yù)測后續(xù)長期收益期望Q(st),具體如式(3)~式(5)所示。
式(3)將兩部分狀態(tài)解析結(jié)果合并,經(jīng)過ReLU激活變化后,引入?yún)?shù)WRel,它用于觀察當前狀態(tài),并刻畫后續(xù)狀態(tài)變化時集成文檔與源文檔的相關(guān)性(Rel);同理,式(4)將兩部分狀態(tài)解析結(jié)果合并,經(jīng)過ReLU 激活變化后,引入?yún)?shù)WRed,它用于觀察當前狀態(tài),并刻畫后續(xù)狀態(tài)變化時集成文檔所具備的冗余性(Red);式(5)以相關(guān)性與冗余性之差預(yù)測當前狀態(tài)st=[source_vec;Int_vect]所能夠產(chǎn)生的長期收益期望,即向量Q(st)∈RA,此處A表示對齊后所有可選動作(語句)數(shù)量,且Q(st)中每個分量表示狀態(tài)動作對(st,ai)的長期收益期望,即Q(st,ai)∈R(Q-值),由此一次性將所有可供選擇語句長期收益期望全部預(yù)測出來。
基于圖3 所示代理結(jié)構(gòu)與式(3)~式(5)所示基于函數(shù)Q(st,ai)(Q-值,針對文檔內(nèi)容質(zhì)量)的長期收益預(yù)測過程,圖4 給出第一階段針對集成文檔內(nèi)容質(zhì)量的最優(yōu)語句選擇策略學(xué)習(xí)過程。
Fig.3 Expected long-term reward of each action(sentence)predicted by agent under state st圖3 代理預(yù)測狀態(tài)st 下各語句動作的長期收益期望
Fig.4 Selection policy based on content quality of integrated comment by Q-value圖4 由Q-值針對集成文檔內(nèi)容質(zhì)量的語句選擇策略
具體而言,圖4 引入兩個代理(即兩套如圖3 所示的神經(jīng)網(wǎng)絡(luò)組件),分別記為Agent_Online(θ1)與Agent_Target(θ2),兩個代理結(jié)構(gòu)完全一致,但使用兩套獨立參數(shù)(如θ1與θ2)。在職責(zé)劃分上,Agent_Online(θ1)為最終所需學(xué)習(xí)的選擇策略(即代理),它根據(jù)當前源文檔與集成文檔狀態(tài),進行一系列語句動作選擇,產(chǎn)生多個形如(st,at,st+1,rt)的記錄,并放入緩存亂序存儲;每條記錄表示代理從當前狀態(tài)st通過采取動作at流轉(zhuǎn)至下一狀態(tài)st+1,由此產(chǎn)生當前時刻收益rt,當前收益rt由式(6)計算,即在當前時刻t處,集成文檔Int_vect自身相關(guān)性由其所包含語句向量與源文檔向量表示source_vec相似性之和決定;集成文檔Int_vect自身冗余性由其內(nèi)部所包含語句向量相似性之和決定,最終當前時刻收益rt為集成文檔自身相關(guān)性與冗余性之差。此外,式(6)中的相似性函數(shù)sim可為任意向量相似度計算方法,本文采用余弦相似度。
其次,如前所述,在訓(xùn)練Agent_Online(θ1)時本文不引入任何人為提供的真值數(shù)據(jù),故Agent_Target(θ2)的唯一職責(zé)是抓取緩存記錄,并重新預(yù)測長期收益,以此作為經(jīng)驗訓(xùn)練Agent_Online (θ1),因而Agent_Target(θ2)不可被訓(xùn)練。兩個代理協(xié)作過程如式(7)~式(11)所示。
首先,在式(7)中,代理Agent_Target(θ2)從緩存中獲取由Agent_Online(θ1)產(chǎn)生的記錄(st,at,st+1,rt),取得其中的下一狀態(tài)st+1,并預(yù)測從st+1起每個語句動作(action,a)所能產(chǎn)生的長期收益,通過選擇最優(yōu)語句動作a′,獲得在下一狀態(tài)st+1,選擇下一語句動作a′ 后,集成文檔所能夠取得的最大長期收益;該值通過式(3)~式(5)從集成文檔語句相關(guān)性與冗余性兩方面計算獲得,故可視為在狀態(tài)st+1下,針對集成文檔內(nèi)容質(zhì)量長期收益的最優(yōu)值;γ表示折扣率。由此,式(7)表示狀態(tài)st所產(chǎn)生當前收益rt,與從狀態(tài)st+1起后續(xù)最大長期收益之和,即從狀態(tài)st出發(fā)所能取得最優(yōu)長期收益的重新預(yù)測,記為;該值是式(8)中所計算收益上限。換言之,式(8)中,表示當代理Agent_Online 從當前狀態(tài)st出發(fā)時,針對集成文檔內(nèi)容質(zhì)量所預(yù)測的長期收益期望(由式(3)~式(5)計算)。
因此,式(7)與式(8)觀察樣本記錄(st,at,st+1,rt),并由代理Agent_Target(θ2) 為Agent_Online (θ1)創(chuàng)建關(guān)于集成文檔內(nèi)容質(zhì)量上的“偽真值”,最終獲得長期收益誤差“error”。接下來,式(9)與式(10)對誤差做0-1 截斷,并獲得標準化后的損失函數(shù)J(θ1),通過最小化該損失函數(shù),即可不依賴于任何人工真值數(shù)據(jù),針對集成文檔內(nèi)容質(zhì)量訓(xùn)練代理Agent_Online(θ1)。最后,式(11)表示在訓(xùn)練若干步后,將代理Agent_Online(θ1)的參數(shù)拷貝至Agent_Target(θ2)中,從而更新Agent_Target中的參數(shù)θ2。
第一階段學(xué)習(xí)完成后,代理Agent_Online(θ)便具備了針對集成文檔內(nèi)容質(zhì)量的相關(guān)參數(shù)取值。第二階段利用策略梯度針對集成文檔情感強度進一步對Agent_Online(θ)進行訓(xùn)練,使其所產(chǎn)生集成文檔具備較強的情感強度,以突顯評論者的情緒態(tài)度,具體流程如圖5 所示。圖5 首先對代理Agent_Online(θ)進行結(jié)構(gòu)調(diào)整,即當圖3 所示組件結(jié)構(gòu)計算出集成文檔相關(guān)性與冗余性后,額外添加神經(jīng)網(wǎng)絡(luò)層計算softmax(φ([Rel;Red]))∈RA,此處A為對齊后的語句總數(shù),φ為激活函數(shù)。該層負責(zé)擬合給定狀態(tài)state=
Fig.5 Phase 2:selection policy training process on sentence sentiment intensity by policy gradient圖5 階段2:基于策略梯度進行針對語句情感強度的選擇策略訓(xùn)練
接下來,由所擬合分布p(a|s)按概率選取語句,并記其下標為Index。為了刻畫語句選擇時的不確定性,此處按概率(而非最大值)選取語句,以確保每個語句都有機會被選中。之后,如圖5 所示,將所選中語句下標轉(zhuǎn)為0-1 編碼。特別的,在第二階段中,代理Agent_Online(θ)每進行一次語句選擇就觀察一次源文檔,確認源文檔可供選擇語句中情感強度最大的語句下標(已選擇語句不再考慮),由此通過觀察源文檔獲得情感強度的“真值”標簽。最終,如圖5 所示,階段2 將語句選擇轉(zhuǎn)化為分類問題,迫使代理Agent_Online (θ)所擬合的概率分布p(a|s)能夠選中情感強度最高的語句。此處,每個語句情感強度由該句所包含詞語的情感強度絕對值(|wsent|)之和計算得到。本文借助情感詞典SenticNet 5.0(https://sentic.net/downloads/)直接獲取詞語情感強度值(wsent∈[-1,1])。第二階段利用策略梯度針對集成文本情感強度方面的訓(xùn)練過程如下所述。
首先,代理Agent_Online(θ)進行多輪語句選擇,獲得N次行為經(jīng)驗,其中a為所選擇語句。顯然,每完成一輪τi,則產(chǎn)生一個集成文檔,且τi的總體收益R(τi) 由式(12)獲得。式(12)以詞語情感強度絕對值(|wsent|)之和表示各時刻下所產(chǎn)生收益rt,在此基礎(chǔ)上計算針對集成文檔情感強度的累計收益R(τi)。此外,式(12)通過N次經(jīng)驗的收益均值對R(τi)做標準化,使得針對情感強度的收益取值存在正負差異。
接下來,如式(13)所示,代理Agent_Online(θ)的優(yōu)化目標為最大化N次經(jīng)驗的總體收益均值(即情感強度)。特別的,在式(13)中利用每次τn的總體收益R(τn)為對應(yīng)的語句選擇概率pθ(a|s)進行加權(quán),意在表明若第n次經(jīng)驗所帶來的總體收益R(τn)(即情感強度)越大,則希望語句a被選中的概率越大,由此獲得最優(yōu)語句選擇策略。pθ(a|s)以交叉熵方式,由圖5中每輪觀察所得的“真值標簽”與代理Agent_Online(θ)選擇所得的下標編碼計算獲得。最后,式(14)對式(13)所示的目標函數(shù)做“策略梯度上升”,由此確保當總體收益R(τn)較大時,提升相應(yīng)參數(shù)梯度,并提高具體參數(shù)值,其中η表示學(xué)習(xí)率。
算法1 給出了兩階段訓(xùn)練代理Agent_Online(θ)的完整過程。首先,第1~3 行做文本表示與必要的數(shù)據(jù)組裝(如statei=
算法1兩階段訓(xùn)練Agent_Online(θ)
最后,值得注意的是,如圖5 所示,第二階段為Agent_Online (θ)添加新的神經(jīng)網(wǎng)絡(luò)層,此時參數(shù)θ包含階段1 針對集成文檔內(nèi)容質(zhì)量訓(xùn)練的參數(shù)取值,以及新添加網(wǎng)絡(luò)層參數(shù)。故在第二階段訓(xùn)練時,僅初始化新網(wǎng)絡(luò)層參數(shù),已有參數(shù)在第一階段取值基礎(chǔ)上做微調(diào)。此外,當代理Agent_Online (θ)完成兩階段訓(xùn)練后,其參數(shù)θ便含有應(yīng)對集成文檔內(nèi)容質(zhì)量與情感強度的具體取值,此時可由訓(xùn)練后的Agent_Online(θ)按圖2 所示過程,以源文檔與集成文檔狀態(tài)為輸入(statei=
本章對所提出方法TP_CCI 進行一系列測試并分析實驗結(jié)果。首先,對于數(shù)據(jù)集而言,本文從亞馬遜(https://www.amazon.cn/)平臺中爬取200 本書的眾包評論,其中每本書包含M=10 個用戶所發(fā)布評論,由此構(gòu)成每本書的眾包評論源文檔(共計200 個,記為Dataset_200)。此外,為了從文檔內(nèi)容質(zhì)量與情感強度兩方面評估集成文檔質(zhì)量,本文為每個源文檔書寫了人工集成文檔(記為Manual_Integration),人工集成文檔由從事自然語言處理的研究人員書寫且經(jīng)過兩輪質(zhì)量檢查。對于TP_CCI 而言,人工集成文檔不參與上文論述的兩階段訓(xùn)練,僅用于實驗結(jié)果評估。
更進一步,對于數(shù)據(jù)集Dataset_200 而言,本文將其隨機分為兩組,分別記為group1 與group2,每組各包含100 個源文檔與100 個人工集成文檔(Manual_Integration)。對于group1 而言,100 個源文檔字節(jié)數(shù)分布于[2 931,11 022]之間,平均大小為6 645 字節(jié),100 個Manual_Integration 的壓縮率K分布 于[20.54%,22.60%]之間,平均壓縮率為21.30%;對于group2 而言,100 個源文檔字節(jié)數(shù)分布于[2 783,10 359]之間,平均大小為6 505 字節(jié),100 個Manual_Integration 的壓縮率K分布于[40.04%,43.98%]之間,平均壓縮率為41.15%,此處壓縮率K指集成文檔字節(jié)與源文檔字節(jié)比率。
在實驗設(shè)置方面,選用dim=128 維詞向量,圖3中歷史狀態(tài)N=5,所引入的ε~clip(Normal(0,I),-c,c),取正態(tài)分布中Normal(0,I=0.1),c=0.2;學(xué)習(xí)率η=0.06;group1 中取折扣率γ=0.95 ;group2 中取折扣率γ=0.9。值得注意的是,此處選用正態(tài)分布的原因為其所擬合的參數(shù)分布與真實場景最為接近,且上述參數(shù)取值均通過網(wǎng)格搜索以確定最優(yōu)值。此外,階段2 中使用詞典SenticNet 5.0 提供詞語的情感強度絕對值(|wsent|∈[0,1]),故與文獻[17]保持一致,僅關(guān)注動詞、形容詞、副詞、名詞以及習(xí)語,以去除虛詞(等停用詞)影響。最后,如算法1 所示,TP_CCI 在階段1與階段2 中各取100 輪迭代訓(xùn)練,且每20 步將Agent_Online 所使用參數(shù)θ1拷貝至Agent_Target 參數(shù)θ2。此外,本文 將TP_CCI 與ASRL[18]、Reaper[19]、MMS_Text[20]、SOSML[21]、SummaRuNNer[22]、DQN_RNN[23]進行對比,其中ASRL、Reaper 與TP_CCI 一致,均不借助人工提供的真值數(shù)據(jù)(即Manual_Integration),僅依靠收益經(jīng)驗進行訓(xùn)練,但ASRL 與Reaper 不采用神經(jīng)網(wǎng)絡(luò)組件,均由差分學(xué)習(xí)[24]實現(xiàn);MMS_Text 與SOSML 為無監(jiān)督方法,二者均將源文檔轉(zhuǎn)為圖結(jié)構(gòu),以節(jié)點表示語句,通過對節(jié)點打分抽取前TopN個語句形成集成文檔;SummaRuNNer 與DQN_RNN 為有監(jiān)督方法,即以Manual_Integration為真值指導(dǎo)訓(xùn)練過程。上述所有方法均以語句為單位,通過抽取語句形成集成文檔(直至滿足壓縮率閾值K后停止),且記上述方法所產(chǎn)生集成文檔為Auto_Integration。本文實驗環(huán)境為GPU,NVIDIA GeForce GTX 1080Ti 11 GB,由Python 2.7 與Tensorflow-1.10實現(xiàn)。
在評價指標方面,本文首先采用ROUGE-1(R-1)、ROUGE-2(R-2)以及ROUGE-L(R-L)[25]評估Auto_Integration 與Manual_Integration 在1 個詞語、2 個詞語以及最長公共子序列上的重合度,并計算三者均值(averaged summary rouge,ASR),以此評價集成文檔內(nèi)容質(zhì)量(即內(nèi)容指標);其次,本文分別使用式(15)與式(16)評估文檔的情感強度(即情感強度指標)。式(15)計算文檔的整體平均情感強度,式(16)計算各文檔情感強度最大值的平均,此處D表示文檔數(shù)量,S表示文檔語句數(shù)量,W表示詞語數(shù)量。此外,式(15)與式(16)均采用詞語情感強度絕對值(|wsent|),旨從客觀角度評估文檔情感強度,不論情感正負傾向。
最后,在實驗過程方面,本文在group1 與group2上,分別取各方法5-折交叉驗證評價指標均值(如內(nèi)容質(zhì)量與情感強度兩方面)為最終結(jié)果,且在group1與group2 上進行文本集成(產(chǎn)生Auto_Integration)時,上述所羅列方法分別取平均壓縮率K=21.30%與平均壓縮率K=41.15%。
表1 給出了在group1 上眾包評論文本集成效果與效率指標(斜體、加粗、下劃線字體表示最優(yōu)結(jié)果,斜體、加粗字體表示次優(yōu)結(jié)果,其他表一樣)。此處,內(nèi)容指標R-1、R-2、R-L 以及ASR 借助人工集成文檔(Manual_Integration)進行計算,使用壓縮率K=21.30%,且“baseline”表示在Manual_Integration上的情感強度取值。通過觀察表1 可以發(fā)現(xiàn),在內(nèi)容指標上(如R-1、R-2、R-L 以及ASR),本文 方法TP_CCI 總體優(yōu)于其他兩個收益指導(dǎo)方法ASRL 與Reaper;與無監(jiān)督方法相比,僅在R-L 上TP_CCI 低于SOSML;與有監(jiān)督方法相比,TP_CCI 所取得內(nèi)容指標與SummaRuNNer 以及DQN_RNN 幾乎接近;在情感強度指標方面(如avg_senti 與avg_senti_max),本文方法TP_CCI產(chǎn)生的集成文檔(Auto_Integration)優(yōu)于人工產(chǎn)生的集成文檔(Manual_Integration),即相比于人工產(chǎn)生的集成文檔,方法TP_CCI 產(chǎn)生的集成文檔具備更高的情感強度,能夠更直觀反映用戶的情感態(tài)度。另一方面,與其他方法產(chǎn)生的集成文檔相比,TP_CCI 取得最優(yōu)情感強度。最后,在效率方面,當Agent_Online 訓(xùn)練完畢后,其產(chǎn)生集成文檔所耗費時長(單位:s)仍在可接受范圍之內(nèi)。
Table 1 Comparison of performance and efficiency of crowdsourced comment integration on group1(compression rate K=21.30%)表1 在group1 上眾包評論文本集成效果與效率比較(壓縮率K=21.30%)
表2 給出了在group2 上眾包評論文本集成效果與效率指標。此處,內(nèi)容指標R-1、R-2、R-L 以及ASR借助人工集成文檔(Manual_Integration)進行計算,使用壓縮率K=41.15%,且“baseline”表示在Manual_Integration 上的情感指標取值。與表1 類似,即便方法TP_CCI 在進行眾包評論文本集成時,未借助任何人工真值(如Manual_Integration),僅由收益經(jīng)驗指導(dǎo)學(xué)習(xí),但在表2 中,方法TP_CCI 所取得內(nèi)容指標幾乎接近于有監(jiān)督方法SummaRuNNer,甚至優(yōu)于有監(jiān)督方法DQN_RNN;此外,在表2 中,方法TP_CCI 所取得情感強度指標仍優(yōu)于人工產(chǎn)生的集成文檔,且優(yōu)于其他對比方法。與此同時,從表2 可以發(fā)現(xiàn),即便group2 中文檔壓縮率有所提高,TP_CCI 的測試效率仍控制在可接受范圍之內(nèi)。表1 與表2 均使用平均壓縮率分別在group1 與group2 上進行眾包評論文本集成,故還需對壓縮率K進行討論,明確其對文本集成的指標影響。
本節(jié)對所提出方法TP_CCI 在兩階段訓(xùn)練結(jié)果上進行比較,即分別僅由階段1、階段2 以及兩階段同時訓(xùn)練代理,之后根據(jù)代理所習(xí)得語句選擇策略,以圖2 所示方式通過既定壓縮率K選擇語句產(chǎn)生集成評論文檔,由此借助上述三類訓(xùn)練方案所產(chǎn)生集成文檔在內(nèi)容質(zhì)量與情感強度指標上的差異,比較方法TP_CCI兩階段訓(xùn)練效果。
具體而言,表3 給出了方法TP_CCI 在group1 上的兩階段訓(xùn)練效果,可以發(fā)現(xiàn)當同時利用Q-值學(xué)習(xí)在階段1 中進行長期收益預(yù)測(以文檔內(nèi)容質(zhì)量為收益)以及利用策略梯度在階段2 中進行梯度上升(以文檔情感強度為收益)所取得的文檔集成效果最優(yōu)。此外,當僅通過階段2(針對文檔情感強度)訓(xùn)練代理時,所產(chǎn)生集成文檔在內(nèi)容質(zhì)量與情感強度指標上表現(xiàn)欠佳;相反,當僅通過階段1(針對文檔內(nèi)容質(zhì)量)訓(xùn)練代理時,所產(chǎn)生集成文檔指標與兩階段訓(xùn)練效果較為接近。該現(xiàn)象可歸因為文檔情感總是通過內(nèi)容體現(xiàn),針對文檔內(nèi)容質(zhì)量進行語句選擇策略學(xué)習(xí)亦可間接提高文檔對情感態(tài)度的表達,該現(xiàn)象也說明了本文對階段1 與階段2 在訓(xùn)練順序上的合理性。表4 給出了方法TP_CCI在group2 上的兩階段訓(xùn)練效果,與表3 類似,同時進行兩階段訓(xùn)練所取得的集成文檔質(zhì)量最優(yōu),僅由階段1 訓(xùn)練所產(chǎn)生的集成文檔質(zhì)量次之。最后,表3 與表4 中三類訓(xùn)練方法產(chǎn)生集成文檔耗費時長均較為接近,該現(xiàn)象可歸因為三類訓(xùn)練方法均以圖2 所示方式,以相同結(jié)構(gòu)代理產(chǎn)生集成文檔。
Table 2 Comparison of performance and efficiency of crowdsourced comment integration on group2(compression rate K=41.15%)表2 在group2 上眾包評論文本集成效果與效率比較(壓縮率K=41.15%)
Table 3 Comparison of performance of two-phase training on group1(compression rate K=21.30%)表3 在group1 上兩階段訓(xùn)練效果比較(壓縮率K=21.30%)
表5 給出了在group1 上,當分別取壓縮率K為10%、20%、30%以及40%時,進行眾包評論文本集成所取得的效果與效率指標。此處,內(nèi)容指標R-1、R-2、R-L 以及ASR 借助人工集成文檔進行計算,且人工集成文檔所使用壓縮率K≈20%。表5 中復(fù)用表1 結(jié)果,記壓縮率K≈20%。值得注意的是,由于group1上壓縮率K分布于[20.54%,22.60%]之間,改變壓縮率會造成Auto_Integration字節(jié)數(shù)低于或高于Manual_Integration,故表5 的情感強度指標不再與人工集成文檔相比較(即省略表1 中的“baseline”)。通過表5可以發(fā)現(xiàn),在內(nèi)容指標方面(如R-1、R-2、R-L 與ASR),本文方法TP_CCI 總體上優(yōu)于同類型收益指導(dǎo)方法,以及兩個無監(jiān)督方法,與有監(jiān)督方法內(nèi)容指標仍較為接近;此外,在情感強度指標上,不論壓縮率K如何變化,方法TP_CCI 所產(chǎn)生集成文檔均具備最優(yōu)情感強度,亦反映出通過圖5 所示由情感強度收益,擬合語句選擇概率分布的思路有效可行。在表5中當壓縮率K從10%增加至40%時,平均情感強度(avg_senti)在K≈20%處取得最高值后逐步下降,即當壓縮率K≈20%時取得最好結(jié)果,壓縮率K增大后文本集成性能受到影響;相反情感強度最大值的平均(avg_senti_max)隨壓縮率增大而提高。最后對于測試效率而言,由表5 可以發(fā)現(xiàn),不論壓縮率K如何變化,方法TP_CCI 所耗費時長仍控制在可接受范圍之內(nèi)。
Table 4 Comparison of performance of two-phase training on group2(compression rate K=41.15%)表4 在group2 上兩階段訓(xùn)練效果比較(壓縮率K=41.15%)
Table 5 Using different compression rates K to conduct crowdsourced comment integration on group1表5 在group1 上以不同壓縮率K 進行眾包評論文本集成
最后,表6 給出了在group2 上,當分別取壓縮率K為10%、20%、30%以及40%時,進行眾包評論文本集成所取得的效果與效率指標。此處,內(nèi)容指標R-1、R-2、R-L 以及ASR 借助人工集成文檔進行計算,且人工集成文檔所使用壓縮率K≈40% 。表6 中復(fù)用表2 結(jié)果,記壓縮率K≈40%。與表5 類似,表6 中方法TP_CCI 的內(nèi)容指標總體上優(yōu)于同類型收益指導(dǎo)方法,但如表6 所示,當壓縮率K取20%、30%與40%時,方法TP_CCI 所取得內(nèi)容指標優(yōu)于有監(jiān)督方法DQN_RNN,可以發(fā)現(xiàn)即便TP_CCI 不依賴于人工真值(即人工集成文檔),依舊能通過收益經(jīng)驗取得較樂觀的內(nèi)容指標。另一方面,表6 中TP_CCI 的情感強度仍在各壓縮率下取得最優(yōu)值,且測試效率仍控制在可接受范圍之內(nèi)。
Table 6 Using different compression rates K to conduct crowdsourced comment integration on group2表6 在group2 上以不同壓縮率K 進行眾包評論文本集成
綜上所述,本文提出利用收益預(yù)測與策略梯度的兩階段眾包評論集成方法(TP_CCI),區(qū)別于常規(guī)有監(jiān)督方法,該方法通過評論文本集成的收益經(jīng)驗,不依賴于任何人工提供的真值數(shù)據(jù),僅通過源評論文檔便可自行完成評論文本集成。此處收益經(jīng)驗由集成文檔內(nèi)容質(zhì)量與情感強度共同構(gòu)成,且通過實驗可以發(fā)現(xiàn),本文方法TP_CCI 的內(nèi)容指標總體優(yōu)于同類型收益指導(dǎo)方法以及無監(jiān)督方法,與有監(jiān)督方法所取得內(nèi)容指標幾乎接近;此外,不論壓縮率K如何變化,方法TP_CCI 所取得的情感強度指標均優(yōu)于其他現(xiàn)有方法,且產(chǎn)生集成文檔所耗費時長仍控制于可接受范圍之內(nèi)。
眾包數(shù)據(jù)中含有大量的隱藏信息,對這些信息進行處理十分重要。目前,大量工作集中于眾包數(shù)據(jù)的標簽集成,即清理標注數(shù)據(jù)以推測出標簽真值,將集成對象從離散標簽轉(zhuǎn)為連續(xù)文本所做工作仍較少。評論文本集成即根據(jù)大眾所書寫的評論內(nèi)容推測出關(guān)于某一特定對象較為匹配的內(nèi)容描述。為了克服有監(jiān)督學(xué)習(xí)在集成文本真值依賴上的束縛,以收益經(jīng)驗指導(dǎo)代理,通過兩階段學(xué)習(xí)針對源眾包評論文檔內(nèi)容質(zhì)量與情感強度的最優(yōu)語句選擇策略,可取得較為可觀的文本集成效果。實驗表明所提出利用收益預(yù)測與策略梯度的兩階段眾包評論集成,能以較少的數(shù)據(jù)成本,在內(nèi)容指標與情感強度兩方面總體上取得最優(yōu),且效率上仍在可接受范圍之內(nèi)。下一步將探討多代理環(huán)境下的眾包評論文本集成方法。