周浩,王莉
(1. 太原理工大學 信息與計算機學院,山西 晉中 030600; 2. 太原理工大學 大數據學院,山西 晉中 030600)
隨著互聯網技術的發(fā)展,用戶在線評論信息 大量涌現。這些評論既包括來自電子商務網站上對于商品的評價,也包括通過自媒體對自己所經歷的事物發(fā)表自己的觀點或看法。依據這些評論可解決多方面的問題,例如:幫助商家優(yōu)化自身產品,輔助用戶進行消費決策,進行互聯網輿情分析等。通常將此類信息挖掘稱為細粒度的情感分析。評價對象提取是將這些評論從非結構化轉為結構化數據,從而為細粒度的情感分析做好鋪墊。因此評價對象提取是細粒度情感分析的關鍵步驟。例如:評論“手機電池很給力,但像素太低,不推薦”,其中“電池”與“像素”是評論主題詞,“給力”與“太低”是評論情感詞,這些都是需要提取的目標。
針對這一任務,早期的工作往往基于句法分析,在特定領域中對大量出現的名詞與名詞短語進行頻率統(tǒng)計,完成對象提取。2009年,Qiu等[1]利用詞間依存關系對情感詞和評價對象進行同步抽取,即雙向傳播算法。之后Zhai等[2]將雙向傳播算法成功應用于中文數據中,但是該方法在大規(guī)模的數據上表現不夠理想。為了解決這一問題,Zhang等[3]利用HITS算法候選屬性詞的相關性,以提高提取精度。但傳統(tǒng)提取方法一般基于詞與詞之間的依賴關系,強調統(tǒng)計信息的作用,但這種方法需要抽取大量的人工特征與語言學基礎,因此造成特征稀疏的問題。孟園等[4]通過考慮評價對象的關聯關系與語義關系構建了置信度排序模型,完成中文信息的提取。廖祥文等[5]通過分析評價對象間的依存句法關系進行置信度計算,對中文評論對象進行了抽取。
近年來,學者廣泛將評價對象提取定義為序列標注任務。丁晟春等[6]通過條件隨機場(CRF)模型在不同方面進行特征選擇,對中文微博的內容進行評價對象的提取。深度學習中的序列標注方法通過網絡模型直接學習特征,避免了人工選取特征的煩瑣。該方法已廣泛應用于文本提取等自然語言處理領域。在此基礎上,語言的字符與詞語信息也受到越來越多學者的關注。2015年Peng等[7]使用詞語建模中文信息,聯合學習中文字符的表示,以識別中文實體;2016年Ma等[8]通過單詞與字符表示的學習和組合,以提高實體識別的效果;2017年Pham等[9]通過預訓練字符模型來增強實體的識別效果。從上述文獻中可以發(fā)現,在深度學習的背景下,考慮語言中詞語的內部信息已經成為了評論對象提取的熱門方法。
但中文與英文的語義表達和語法構成不同,主要體現在詞匯的構成方式不同。目前效果較好的提取模型考慮的信息多為西方語言特征,例如單詞的前綴與后綴信息等,而沒有考慮中文詞語的組成字符內部信息。中文句子由詞語構成,詞語由字符構成,如何利用詞語的內部信息還未得到完美解決。深度學習中常規(guī)的網絡模型嵌入層,會忽略中文的語義與語法信息,從而影響中文的評價對象提取的結果。
針對這些問題,本文將提取問題轉換成序列標注問題。在采用雙向長短期記憶網絡(Bi-LSTM)配合條件隨機場(CRF)基礎上,針對組成評價對象字符的內部信息,提出了融合中文評論的語義與語法信息的評價對象提取。本文是對Jebbara等[10]工作的改進與擴充:1)首先,模型考慮提取對象內部信息,在原始詞向量的基礎上,通過優(yōu)化字符含義策略增強語義特征,彌補了忽略的詞語內部信息;2)深化網絡對語法特征的理解,通過對評論序列詞性標注,訓練生成詞性向量,將語義與語法信息共同作為網絡輸入;3)為了優(yōu)化網絡訓練效果,引入Bi-LSTM捕獲評論上下文信息,并通過CRF層克服標簽偏差問題;4)最后模型考慮了評論信息中的結構特征,通過一種新標注策略(Binary-BIO標注)為標注結果提供了結構化信息,較好地完成了評價對象提取,進一步提高了提取的準確率。
以雙向長短期記憶網絡(Bi-LSTM)配合條件隨機場(CRF)進行建模,提取模型基本可概括為4個層次。1)嵌入層,即embedding層。神經網絡無法直接處理自然語言,因此需要將文字映射成高維向量。本文的提取模型首先在原始字向量的基礎上,通過優(yōu)化字符含義策略強化了語義特征,彌補了忽略的字符與詞語間的內部信息。此外通過詞性序列標注方法,對評論中的詞性信息進行了表征,深化了輸入語法信息。將語義信息與語法信息進行拼接,作為當前字符特征向量表示。2)編碼層。本文使用Bi-LSTM完成網絡訓練,雙向捕獲評論的雙向信息,適合序列標注任務。3)解碼層,即CRF層。通過考慮標簽之間的約束關系,加入轉移概率矩陣,選出分數最高的標注路徑作為標注結果。4)序列標注層。通過解碼層的輸出為每一個字符預測相應的標簽,本文使用BIO標注方法,并在此基礎上增加一位二進制標記為標注結果提供結構化的信息,從另一個角度優(yōu)化標注結果。具體模型如圖 1所示。
圖 1 中文評價對象提取模型Fig. 1 Model of Chinese opinion target extraction
Bi-LSTM-CRF網絡是在長短期記憶網絡的基礎上優(yōu)化后的模型,結合了長短期記憶網絡與條件隨機場的優(yōu)點,是循環(huán)神經網絡的一種,常常用來處理序列數據[11]。網絡的優(yōu)點是:解決長距離依賴問題的同時避免了梯度爆炸或消失,并在標注路徑選擇過程中,克服標注標簽的偏差問題。網絡模型的核心是記憶單元。Bi-LSTM隱藏層的神經元由多個門控制,包括輸入門、輸出門、遺忘門。這些門的設置可以使之前輸入的信息保存在網絡中,并一直向前傳遞。記憶單元簡單的結構如圖 2所示。
圖 2 LSTM神經單元Fig. 2 Structure of LSTM neural unit
設t時刻下,網絡輸入為 Xt,輸入門輸入為 ht,單元狀態(tài)為 Ct,記憶單元內對應的更新與輸出如式(1)~(6):
式中:it為 輸入門;ft為遺忘門; Ot為 輸出門; C ?t為狀態(tài)候選值; W代表權重矩陣;b代表偏置項; σ為sigmoid函數;?代表按元素乘運算。雙向長短期記憶網絡的隱藏層為雙層結構,這樣結合兩個方向的信息進一步提高模型的學習能力,對于序列標注任務非常有效。將輸入字符設為 Xi,先正向計算得到正向隱藏層向量 hfi,再反向計算得到反向隱藏層向量表示 hri,然后進行拼接得到最終的隱藏層向量表示:
模型輸入是由單個字符組成的句子序列W={W1,W2,···,Wk}。中文能夠包含語義的最小單位是詞語,因此使輸入的字符包含所構成詞語的語義信息是本文的優(yōu)化目標之一。中文的某一字符在不同詞語中位置不同從而導致字符含義發(fā)生變化,例如:“泡面”與“電燈泡”這組詞語,由于“泡”字位置不同,含義也完全不同。參考Chen等[12]的思想,設計了優(yōu)化字符含義的策略??紤]某字符因在組成詞中的位置變化導致的含義不同,從而為具備這一特征的字符 Wi={CB,CI}分配兩個向量,對應字符在詞語中的起始與非起始位置。因 此嵌入層中的語義信息表征方法如圖 3所示。
圖 3 字向量選擇方法Fig. 3 Character vector selection method
優(yōu)化字符含義策略以連續(xù)詞袋模型(CBOW)[13]為基礎,根據上下文單元對當前單元進行向量表示。由于處理單元為字符,句子 W={W1,W2,···,Wk}在CBOW模型下訓練目標函數為
式中: K 表示滑動窗口的大?。?M為句子序列的字符個數。使用上下文預測目標字符向量 Xj可表示為
式中: Wj為評價對象的初始化向量表示; Nj為當前評價對象的字符組成個數;k表示當前滑動窗口位于單詞的第 k 個字符;⊕表示向量間的操作。當評價對象組成字符由多個向量表示時,式(9)可改寫為
根據式(9)為字符生成不同的向量表示,得到向量集合 ec,則融合語義信息的輸入字符 Wj的向量 Xj表示為
綜上所述,優(yōu)化含義的字符表示可由式(8)~(10)訓練生成,并由式(11)表示。
詞性是一種重要的語法信息。自然語言中,句子中的固定成分具有固定詞性,通過句子的詞性特征學習可以獲得句子的語法約束[14]。首先通過條件隨機場對中文評論進行詞性標注,得到每條 評論的詞性標注序列 S={s1,s2,···,sm}。標注詞性類別包括形容詞(/a)、動詞(/v)、名詞(/n)、動名詞(/vn)、副詞(/d),再使用word2vec為每一種詞性訓練生成對應的詞性向量序列:wpos={wpos1,wpos2,···,wposk}, 詞性向量由集合 es表示。在式(9)、式(10)的基礎上,融合語義與語法信息的字符向量 Xj可表示為
在式(11)基礎上,最終嵌入層字符可表示為
本文將提取問題轉換為序列標注問題進行處理,根據標注結果識別評價對象范圍。傳統(tǒng)的序列標注不能很好地體現出評價對象及其屬性的匹配關系。因此本文在傳統(tǒng)的BIO標注方法[15]下,添加新的標記,用來優(yōu)化標注結果,實現聯合提取。在BIO標注中,“B”與“I”表示詞語的范圍。“B”為提取對象的起始位置;“I”為提取對象的非起始位置;“O”代表提取對象外部,即無關字符。本文所需識別評價對象可概括為主題詞與情感詞,使用“sub”與“sen”分別表示標注含義。在此基礎上,添加一位二進制標記,用來表示提取對象是否存在匹配關系。聯合提取“1”代表當前評價對象存在匹配情感屬性內容,“0”則反之。例如:“手機電池很給力,但像素太低,不推薦”,評論對象為<電池,給力>,對應標簽{B-sub-1, I-sub-1, B-sen-1, I-sen-1}。從標注結果可以清晰看出,評論的主題詞存在對應情感,以就近原則完成聯合提取。標注實例如表 1所示。
表 1 中文評論標注結果Table 1 Chinese commentary annotation results
Bi-LSTM網絡的隱藏層輸出為標簽的概率分布,使用softmax分類器完成標注時,每個字符的標注結果互不影響,從而忽略了相鄰標簽之間的依賴關系。由標注規(guī)則可知,標簽I無法成為序列的第一個標簽;標簽B-sub的下一個標簽也僅僅可能是I-sub或O。因此在CRF層中,引入標簽轉移概率,使用Viterbi算法完成最優(yōu)標注序列的選擇,克服標簽偏差問題[16]。已知輸入句子的字符序列為 W={W1,W2,···,Wk},則對應的標簽序列為 t ={t1,t2,···,tK},?t 為真實路徑,t?={t1?,t2?,···,tK?}為 W可能輸出的標簽序列。因此給定字符序列W在所有可能標注序列t?下的條件概率為
式中 Θi(ti-1,ti,W)為潛在的增益函數,目的是使標注的真實路徑在所有可能路徑中的得分最高。因此在所有的標簽序列找到條件概率最高? t的序列為
綜上,通過神經網絡訓練輸入標簽的概率矩陣后,根據式(14)、式(15)可選擇出得分最高的標注序列。訓練模型時給定一組已完成標記的訓練數據T ,并定義 L2正則化損失似然函數為
式中: λ為正則化系數; Θ為模型的參數集合;(λ/2)‖Θ‖2為 L2范數正則化。模型使用反向傳播算法訓練隨機梯度下降(GSD)算法進行優(yōu)化。
為了驗證語義與語法信息對中文評價對象提取的積極作用,體現提出的語義信息與語法信息的有效性與優(yōu)勢,進行了以下實驗。并在此基礎上,討論了不同網絡模型對于評價對象提取的影響,論證了Binary-BIO標注策略對提取結果結構化影響,驗證了本文的優(yōu)勢。
本文采用2017年CCF大數據與計算智能大賽(BDCI2017)所提供的中文電商商品評論數據集,共包含17 652條真實中文評論信息。經統(tǒng)計,評論中共有情感詞43 041個,主題詞22 017個。每條中文評論中存在多個(對)評價對象,按照主題詞與情感詞對應排序。
由于數據來源于真實的電商平臺,存在數據結構松散,存在大量無具體含義評論的情況,需進行數據清洗。例如:表情符號、錯誤的標點符號以及無需提取的短評論。清洗完畢后,將數據集劃分為訓練集與測試集,并使用新標注策略進行標注,生成訓練數據。具體劃分情況如表 2所示。
表 2 數據分配表Table 2 Data allocation table
對于評價對象提取評價,使用綜合性能作為最終的評測標準。評價指標包括準確率、召回率和 F1值。計算公式如下:
式中: TPi為第i類關系中被正確分類的實例個數;FPi為被錯誤的分為第i 類的實例數; FNi為本屬于第i類實例被分為其他類別的實例數。
神經網絡在訓練過程中,超參數的設置具有重要的意義。實驗結果證明,學習率、迭代次數對識別效果有很大影響。在網絡模型訓練過程中,迭代次數超過60次時,評論對象提取結果的準確率、召回率、 F1值均開始下降??梢姷螖挡⒎窃蕉嘣胶?,過度迭代可能導致模型過擬合,影響模型效果。在同一個模型下,以網絡的學習率為自變量,迭代相同次數后,模型在學習率為0.001時表現更好。可見,學習率對網絡訓練效果影響同樣很大,學習率過大模型無法收斂,導致訓練結果不理想。迭代次數和學習率的影響實驗結果如圖4、圖5所示。
圖 5 學習率影響Fig. 5 Effect of learning rate
綜上,模型的學習率設為0.001,迭代次數為60次,字符的向量維度設為300維,其中,包含語義信息部分為250維,語法信息部分為50維。并采用Hinton等提出的dropout方法將隱含層的節(jié)點以0.5的概率隨機忽略。具體的超參數設置如表 3所示。
表 3 模型超參數Table 3 Model hyperparameter
為了驗證本文提出的語義與語法信息對中文評價對象提取的積極作用,實驗依據表 3設置超參數,依次進行以下實驗。
實驗1 在Bi-LSTM-CRF網絡基礎上,對比融合語義信息的向量表示與隨機初始化的向量表示對中文評價對象提取的影響。由3.1節(jié)論述可知,模型需要為部分字符根據其在評價對象詞語內的位置為其分配不同向量表示,因此從數據集中選取了300個具備可拆分特征的字符,例如“泡面”與“燈泡”、“差不多”與“不錯”等,使用CBOW模型進行訓練。實驗結果如表 4所示。
表 4 融合語義信息與隨機表示提取效果對比Table 4 Convergence semantics and random representation extraction
融合語義信息后的向量在識別評價對象時準確率更高,效果更好。與通用的字符向量與詞語向量拼接相比,本文根據位置為字符分配向量的訓練方法更加科學,尤其是在中文領域??紤]策略也明顯區(qū)別于英文。此外,情感詞的識別效果要好于主題詞:情感詞的訓練樣本要比情感詞豐富,情感詞的類型數相對于主題詞的類型數要小很多。直觀來看,情感類型數量要遠小于商品屬性數量,故在標注情感詞時正確率也更高。但這也導致優(yōu)化后的提取與字詞向量直接拼接的提取效果相差不大,實驗結果驗證了這一點。并從聯合提取的角度驗證了該結論。聯合提取的實驗結果 如表 5所示。
表 5 融合語義信息與隨機表示聯合提取效果對比Table 5 Convergence semantics and random representation
實驗2 在Bi-LSTM-CRF網絡的基礎上,對比融合語法信息的向量表示對評價對象提取的影響。其中字符向量化方法為隨機初始化,實驗結果如表 6所示。
表 6 融合詞性信息與隨機表示提取對比Table 6 Convergence of convergence vectors and randomized initialization vectors
從實驗結果可以看出,通過詞性標注,訓練生成的詞性向量對于評價對象的提取準確率有一定的影響,但效果并不顯著,融合語法信息后,主題詞的提取準確率有所下降,情感詞的準確率有所提升,達到了85.46%,兩者F1值都得到了提高。分析數據特點,由于數據來自真實電商評論,語法結構薄弱,多數情況下句子成分不完整,導致模型沒有學習出句子詞性序列的特征,語法信息挖掘不夠充分。當從訓練數據中選擇語法結構較強的中文評論進行實驗時,準確率明顯提升。因此,處理語法信息薄弱的中文句子時,可以通過補全信息的手段對數據樣本進行處理,再進行評價對象提取的任務。
實驗3 以CRF與Bi-LSTM網絡為基礎,驗證Bi-LSTM-CRF網絡的優(yōu)勢。由于數據集不同,通過參考相關的提取模型進行仿真實驗,并對模型輸入添加不同信息進行對比實驗。CRF模型引入詞語位置與規(guī)則信息,Bi-LSTM模型[17]引入語義與語法信息。并與融合語義與語法信息的Bi-LSTM-CRF模型進行比較,論證Bi-LSTM-CRF網絡的優(yōu)勢,實驗結果如表 7所示。
對比CRF與Bi-LSTM-CRF模型,后者的提取效果更好,情感詞提取準確率達到了90.42%。更重要的是,啟發(fā)式規(guī)則需要人工干預,而語義與語法信息無需人工干預即可訓練完成。對比Bi-LSTM與本模型,融合信息相同但CRF層可以克服標簽偏差,有更好的提取結果。從引入特征角度分析,英文單詞通過模型學習通??梢詫W習到單詞的前后綴信息,而中文不具備這一特點。而優(yōu)化語義策略充分考慮了詞語含義,因而融入語義與語法信息后結果明顯。但模型處理語法特征不夠明顯的中文句子時,語法信息的作用不夠明 顯。
表 7 不同模型下的實驗結果Table 7 Experimental results under different models
實驗4 驗證本文提出的Binary-BIO標注策略對評價對象聯合提取的有效性。在提出的模型框架下,以BIO策略進行標注,順序匹配得到聯合提取結果。與Binary-BIO策略進行標注的結果比較,先判斷情感詞是否存在匹配主題詞,再進行聯合提取。實驗4結果如表 8所示。
表 8 聯合提取效果Table 8 Emotional word recognition effect %
通過改變標簽結構的Binary-BIO標注方法可以提高聯合提取效果。該方法不但提高了準確率,更重要的是為標注結果提供了結構化信息,而不需要額外的模型訓練。此外,聯合提取與單獨提取相比,準確率有所下降。其主要原因是:數據集中普遍存在僅有情感詞而缺少主題詞的情況,這導致匹配信息訓練得不夠充分,沒有很好地挖掘出存在匹配情況的評價對象的特點。
以上實驗充分說明了,本文所考慮的中文語義與語法信息對提高評價對象提取的準確率有積極意義,且新的標注策略對聯合提取具有實際價值。
點考慮中文語義與語法特征,充分利用中文詞語組成字符的內部信息,完成提取任務。最終,主題詞準確率達到77.51%,情感詞準確率達到90.42%。通過提出的新標注策略完成了評價對象聯合提取,準確率達到77.16%。中文評價對象提取達到了理想效果。
本模型優(yōu)點明顯:輸入信息考慮了詞語內部的相關性,較好地解決了中文邊界不易判斷的情況;此外,新的標注策略可以直接顯示標注結果的結構化信息。但特征選擇多種多樣。通過考慮中文句子中的其他特征,進一步豐富嵌入層的信息。此外結合中文評價對象提取任務的特點,在本文的基礎上引入注意力機制也是筆者未來研究的方向。