王麗亞 陳哲
摘要: 提出一種基于中文BERT-wwm-ext嵌入的BIGRU網(wǎng)絡(luò)模型。利用中文BERT-wwm-ext得到字向量,加強了模型對深層次語言表征的學(xué)習(xí)能力。將得到的字向量輸入到BIGRU網(wǎng)絡(luò)中,進一步學(xué)習(xí)上下文語義特征。將模型預(yù)測的邊界分數(shù)向量利用解碼算法轉(zhuǎn)化成最終的答案。在多組數(shù)據(jù)集上做對比實驗表明,所提模型能有效地提高中文意見目標(biāo)提取的準(zhǔn)確率。
關(guān)鍵詞: BERT-wwm-ext; BiGRU; 邊界預(yù)測; 中文意見目標(biāo)提取
中圖分類號:TP391? ? ? ? ? 文獻標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)05-94-05
Chinese opinion target extraction based on BERT_BiGRUboundary prediction
Wang Liya1, Chen Zhe2
(1. College of artificial intelligence,Zhejiang Industry & Trade Vocational College, Wenzhou, Zhejiang 325003, China;
2. College of Computer Science and Engineering, Wuhan Institute of Technology)
Abstract: In this paper, a BIGRU network model based on Chinese BERT-wwm-ext embedding is proposed. First, the word vectors are obtained by using Chinese BERT-wwm-ext, which strengthens the learning ability of the model for deep level language representation. Then, the obtained word vectors are input into the BIGRU network to further learn the context semantic features. Finally, the boundary score vectors predicted by the model are converted into the final answers using the decoding algorithm. The experimental results show that the proposed model can effectively improve the accuracy of Chinese opinion target extraction.
Key words: BERT-wwm-ext; BiGRU; boundary prediction; Chinese opinion target extraction
0 引言
意見目標(biāo)提?。∣TE)[1]是意見挖掘和情感分析的基本任務(wù),是自然語言處理(NLP)領(lǐng)域的研究熱點。意見目標(biāo)提取主要是對文本中表達意見的主體進行抽取。例如文本“煙臺最好吃的烤翅尖就在所城里阿宋燒烤。滿墻都是老煙臺的剪貼畫,招牌菜就是烤翅尖?!笔菍δ繕?biāo)“阿宋燒烤”表達建議。OTE任務(wù)就是對文本中意見目標(biāo)“阿宋燒烤”的提取。傳統(tǒng)方法將意見目標(biāo)提取建模為序列標(biāo)簽任務(wù)。意見目標(biāo)提取任務(wù)要求從文本中定位出意見表達的目標(biāo),目標(biāo)片段由文本中的一個片段組成的情況,因此,本文把該任務(wù)重新建模為邊界預(yù)測任務(wù),預(yù)測出文本中兩個位置索引去指示答案的起始和結(jié)束位置。在抽取過程中避免了繁瑣的序列標(biāo)記操作。
1 相關(guān)研究
傳統(tǒng)的意見目標(biāo)提取方法可分為三類:基于規(guī)則[2]、基于統(tǒng)計[3]、基于規(guī)則和統(tǒng)計相結(jié)合[4]。但是這三種方法具有很強的局限性,過于依賴人工制定的規(guī)則,過程復(fù)雜。而基于深度學(xué)習(xí)的方法不再依賴于人工特征,減少了人力代價,提高了工作效率。
Liu等人[5]利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和單詞嵌入來提取意見目標(biāo)。Poria等人[6]引入深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)并結(jié)合語言模式以實現(xiàn)更好的性能。Wang等人[7]2016年提出RNCRF模型,由遞歸神經(jīng)網(wǎng)絡(luò)和CRF組成。Li等人[8]2018年提出基于字符的BILSTM-CRF結(jié)合POS和字典用于中文意見目標(biāo)提取。在3組共10萬條數(shù)據(jù)上進行實驗,并與最流行的抽取框架BILSTM_CRF模型比較,證明其方法是最佳的。
但是以上基于深度學(xué)習(xí)的方法將OTE任務(wù)建模為序列標(biāo)記任務(wù),且文本表示利用單詞嵌入或字嵌入,對語言表征學(xué)習(xí)深度不夠。
Devlin等人[9-10]受神經(jīng)概率語言模型[11]思想的啟發(fā)提出BERT(Bidirectional Encoder Representations from Transformers)模型。BERT刷新了11項NLP任務(wù)的性能記錄??梢灶A(yù)見的是,BERT將為NLP帶來里程碑式的改變,也是NLP領(lǐng)域近期最重要的進展。針對中文文本,Sun等人[12-13]2019年提出ERNIE模型,是BERT在中文NLP任務(wù)上的改進。提出了命名實體級遮罩的概念,對BERT的遮罩語言模型在遮罩方式上進行了修改。近期,Cui等人[14]提出BERT-wwm模型,緊跟谷歌在2019年5月31日發(fā)布的一項BERT的升級版本,利用全詞覆蓋(Whold Word Masking,WWM)技術(shù),更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略,針對中文文本使用了WWM技術(shù),在中文維基百科(包括簡體和繁體)進行訓(xùn)練。
預(yù)訓(xùn)練語言模型會直接影響方法的效果。所以本文針對中文短文本,將OTE任務(wù)重新建模為邊界預(yù)測任務(wù),使OTE任務(wù)不依賴于序列標(biāo)記。引入中文版BERT對語言表征進行預(yù)訓(xùn)練,加強了模型的語言表征學(xué)習(xí)能力。在此基礎(chǔ)上添加BIGRU網(wǎng)絡(luò),進一步學(xué)習(xí)文本的語義特征。最后將模型預(yù)測的邊界分數(shù)向量利用解碼算法轉(zhuǎn)化成最終的答案輸出。實驗使用Li等人[8]相同的數(shù)據(jù)集,在三組共10萬條數(shù)據(jù)上實驗結(jié)果表明,針對本文數(shù)據(jù)集,將OTE任務(wù)重新建模為邊界預(yù)測任務(wù),BERT_BIGRU邊界預(yù)測方法在不依賴序列標(biāo)記的基礎(chǔ)上,能有效的提高OTE任務(wù)的準(zhǔn)確度。
2 BERT_BIGRU邊界預(yù)測
針對中文短文本將OTE任務(wù)重新建模為邊界預(yù)測任務(wù)。主要分為三部分:一是BERT預(yù)訓(xùn)練語言模型,二是BIGRU模型,三是邊界預(yù)測。模型結(jié)構(gòu)如圖1所示。
2.1 BERT預(yù)訓(xùn)練語言模型
BERT模型使用多層Transformer的編碼器來作為語言模型,在語言模型預(yù)訓(xùn)練的時候,提出了兩個新的目標(biāo)任務(wù),即遮擋語言模型(Masked Language Model,MLM)和預(yù)測下一個句子的任務(wù)。
本文采用的是哈工大訊飛聯(lián)合發(fā)布的全詞覆蓋中文BERT預(yù)訓(xùn)練模型(BERT-wwm-ext)。此模型也采用了WWM技術(shù),主要更改了原預(yù)訓(xùn)練階段的訓(xùn)練樣本生成策略,如果一個完整的詞的部分字被Mask,則同屬該詞的其他部分也會被Mask,即全詞覆蓋。但較之前的BERT-wwm模型,BERT-wwm-ext模型使用了更大規(guī)模的數(shù)據(jù)中文維基百科數(shù)據(jù)和通用數(shù)據(jù)訓(xùn)練而成,進一步提升了預(yù)訓(xùn)練語言模型的性能。WWM的生成樣例如表1所示。
BERT-wwm-ext模型中預(yù)測下一個句子的任務(wù),即生成句子嵌入(segmentembedding)。每個序列的第一個標(biāo)記始終是一個特殊的分類標(biāo)記[CLS]。對應(yīng)于該token的最終隱藏狀態(tài)(Transformer的輸出)被用作分類任務(wù)的聚合序列表示。用特殊標(biāo)記[SEP]將它們分開。這樣句子對被打包成一個帶有兩標(biāo)記的序列。在每個標(biāo)記上,添加一個學(xué)習(xí)嵌入,指示它是否屬于句子A或句子B。
BERT-wwm-ext模型使用12層Transformer編碼器。對于給定的字,BERT-wwm-ext模型通過深層Transformer編碼器獲得字嵌入(token embeddings)、句子嵌入(segment embeddings)和位置嵌入(position embeddings),然后將三者相加作為該字的輸入嵌入(input embedding)。具體結(jié)構(gòu)可視化如圖2所示。
2.2 BIGRU網(wǎng)絡(luò)
BERT_BIGRU模型直接使用BERT層的輸出作為BIGRU層的輸入。若記t時刻正向GRU輸出的隱藏狀態(tài)為[ht],反向GRU輸出的隱藏狀態(tài)為[ht],則BiGRU輸出的隱藏狀態(tài)[ht],具體計算過程如下:
[ht=GRU(ht-1,Ut)] ⑴
[ht=GRU(ht-1,Ut)] ⑵
[ht=wtht+vtht-1+bt] ⑶
其中,[wt,vt]是權(quán)值矩陣,GRU:GRU函數(shù),[Ut]:t時刻的GRU輸入,[bt]:偏置向量。
2.3 邊界預(yù)測
邊界預(yù)測模塊對意見目標(biāo)的邊界進行建模。文本通過BERT_BIGRU網(wǎng)絡(luò)被表示為一個矩陣[H=h+h]。通過兩個全連接層(Dense Layer)得到文本中每個字的兩個分數(shù)向量,[starti]代表文本的第i個字作為意見目標(biāo)項起始的概率,[endi]表示文本的第i個字作為意見目標(biāo)項結(jié)束的概率,start和end通過相同結(jié)構(gòu)不同參數(shù)計算得出。本文采用交叉熵損失函數(shù),用來評估當(dāng)前訓(xùn)練得到的邊界概率分布與真實目標(biāo)邊界分布的差異情況,對模型進行優(yōu)化訓(xùn)練。過程如下:
[Losss=-1Ni[ysilnstarti+(1-ysi)ln(1-starti)]]? ⑷
[Losse=-1Ni[yeilnendi+(1-yei)ln(1-endi)]]? ⑸
[Loss=Losss+Losse] ? ⑹
其中,[ysi]和[yei]是真實意見目標(biāo)邊界的指示。
將OTE任務(wù)重新建模為邊界預(yù)測任務(wù)。由于OTE任務(wù)需要輸出的是具體目標(biāo)實體片段,而BERT_BIGRU模型的預(yù)測結(jié)果是兩個分數(shù)向量,則需要解碼算法將分數(shù)向量轉(zhuǎn)化成最終的目標(biāo)實體輸出。
利用兩個softmax分別預(yù)測結(jié)果首尾,選擇概率最大的片段。softmax函數(shù)如下:
[softmaxx=exp(x-max(x))/sum(exp(x-max(x)))] ⑺
3 實驗
3.1 實驗數(shù)據(jù)
數(shù)據(jù)[16]來自百度(baidu)、點評(dianping)、馬蜂窩(mafengwo)這三個互聯(lián)網(wǎng)公司,具體數(shù)據(jù)集設(shè)置如表2所示。
3.2 評價指標(biāo)
實驗所用評價指標(biāo)為Accuracy、Precision、Recall、F1,其值越高,代表模型分類能力越好。定義TP:為模型識別完全正確的實體個數(shù),F(xiàn)P:為模型識別出的結(jié)果包含正確的實體,但邊界判定出現(xiàn)錯誤的個數(shù),F(xiàn)N:識別錯誤的個數(shù)。評價指標(biāo)公式如下:
[Accuracy=TP/(TP+FP+FN)]? ⑻
[Precision=TP/(TP+FP)]? ⑼
[Recall=TP/(TP+FN)]? ⑽
[F1=2*(Precision*Recall)/(Precision+Recall)]? ⑾
經(jīng)觀察抽取結(jié)果,本文模型在實驗過程中不存在抽取為空的情況,在計算FP時注意了抽取結(jié)果不存在原句,且容錯字符個數(shù)小于10,為避免指標(biāo)計算理解差別,這里給出具體的打分代碼算法。見表3。
3.3 實驗結(jié)果與分析
文獻[8]中的工作,已針對相同數(shù)據(jù)集設(shè)置了多組詳細的對比實驗,其中包括了最流行的抽取框架BILSTM_CRF模型。并證明其方法是最佳的。所以,本文直接與其對比。
⑴ BILSTM_CRF[8]:建模為序列標(biāo)記任務(wù)。首先生成字符位置信息特征([CP-POS]@C)并構(gòu)建字典特征(DictFeature),最后將[CP-POS]@C和DictFeature整合到基于Word2vec字符嵌入的BILSTM_CRF模型中。
⑵ BERT:建模為邊界預(yù)測任務(wù)。與本文唯一差別是神經(jīng)網(wǎng)絡(luò)模型為BERT-wwm-ext模型加普通Dense層。
⑶ BERT_BIGRU:建模為邊界預(yù)測任務(wù)。本文方法。
為了測試模型的有效性,在實驗過程中,所有模型都執(zhí)行相同的數(shù)據(jù)預(yù)處理和分類器。測試集的實驗結(jié)果如表4所示。
表4顯示了3組模型在測試集上的對比結(jié)果。從綜合評測指標(biāo)Accuracy、F1上來看。第一組與第二組的比較可知,對意見目標(biāo)提取任務(wù)重新建模為邊界預(yù)測任務(wù)的方法更優(yōu)?;贐ERT邊界預(yù)測的方法引入BERT-wwm-ext模型進行語言表征學(xué)習(xí),再結(jié)合線性網(wǎng)絡(luò)層,得到邊界預(yù)測的分數(shù)向量,最后利用兩個softmax分別預(yù)測結(jié)果首尾,選擇概率最大的片段。相對第一組實驗,減少了預(yù)處理部分對生成字符位置信息特征([CP-POS]@C)和構(gòu)建字典特征(DictFeature)的工作,即很大程度上減少了繁瑣的特征生成工程。
第三組與第二組的比較,三個數(shù)據(jù)集,BERT_BIGRU模型在點評數(shù)據(jù)集上稍低,即Accuracy值低0.0007、F1值低0.0004。但在百度、馬蜂窩兩個數(shù)據(jù)集上均高于BERT模型,所以在一定程度上,添加BIGRU網(wǎng)絡(luò)學(xué)習(xí)文本上下文語義特征有利于提高模型對文本邊界預(yù)測的準(zhǔn)確度。綜上,本文提出的BERT_BIGRU模型比其余二組模型更優(yōu)。
為了量化模型的優(yōu)劣,本文在測試集上進行預(yù)測。預(yù)測值統(tǒng)計結(jié)果如表5所示。Right為模型提取完全正確的樣本總數(shù),Wrong為模型提取錯誤的樣本總數(shù)。另外,本文實驗結(jié)果及模型最優(yōu)的權(quán)重已分享至谷歌云盤[17]。
4 總結(jié)
本文提出了一種基于BERT_BIGRU邊界預(yù)測的中文意見目標(biāo)提取方法。將意見目標(biāo)提取任務(wù)建模為邊界預(yù)測任務(wù),并引入BERT-wwm-ext模型進行語言預(yù)訓(xùn)練,且添加BIGRU網(wǎng)絡(luò)學(xué)習(xí)文本上下文語義特征,有利于提高模型對目標(biāo)實體邊界預(yù)測的準(zhǔn)確度。實驗在百度、點評、馬蜂窩三個共10萬條數(shù)據(jù)集上進行訓(xùn)練和測試,結(jié)果表明BERT_BIGRU邊界預(yù)測方法在不依賴數(shù)據(jù)序列標(biāo)記的基礎(chǔ)上,將準(zhǔn)確度提高近8%,能有效地提高中文意見目標(biāo)提取的準(zhǔn)確率,但由于BERT模型的復(fù)雜化,一定程度上增加了模型時間代價。今后研究如何提高抽取工作的準(zhǔn)確率且時間代價更小的模型,是下一步工作的目標(biāo)。
參考文獻(References):
[1] Kang Liu, Liheng Xu, and Jun Zhao. Opinion target
extraction using word-based translation model. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, EMNLP-CoNLL 2012, July 12-14, 2012, Jeju Island, Korea,2012:1346-1356
[2] Feng Chunsheng, Hao Aimin. Automaric Recognition of
Natural Language Based on Pattern matching[J]. Computer Engineering and Applications,2006,42(19):144-146
[3] Liu Zhiqiang, Du Yuncheng, Shi Shuicai. Extraction of Key
Information in Web News Based on Improved Hidden Markov Model[J].Data Analysis and Knowledge Discovery,2019(3):120-128
[4] Cheng Zhigang. Research on Chinese Named Entity
Recognition Based on Rules and Conditions Random Fields[D]. Central China Normal University,2015
[5] Pengfei Liu, Shafiq R. Joty, and Helen M. Meng. Fine-
grained opinion mining with recurrent neural networks and word embeddings. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015,Lisbon, Portugal, September 17-21,2015:1433-1443
[6] Soujanya Poria, Erik Cambria, and Alexander F. Gelbukh.
Aspect extraction for opinion mining with a deep convolutional neural network. Knowl.-Based Syst.,2016,108:42-49
[7] Wenya Wang, Sinno Jialin Pan, Daniel Dahlmeier, and
Xiaokui Xiao. Recursive neural conditional random fields for aspect-based sentiment analysis.In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA, November 1-4,2016:616-626
[8] Yanzeng Li, Tingwen Liu, Diying Li, et al. Character-
based BiLSTM-CRF Incorporating POS and Dictionaries for Chinese Opinion Target Extraction. Asian Conference on Machine Learning,ACML,2018:518-533
[9] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of
deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805,2018
[10] https://github.com/google-research/bert.
[11] Bengio Y, Ducharme R, Vincent P. A neural probabilistic
language model[J]. Journal of machine learning research,2003,3:1137-1155
[12] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced
Representation through Knowledge Integration[J]. arXiv preprint arXiv:1904.09223,2019
[13] https://github.com/PaddlePaddle/ERNIE.
[14] Yiming Cui, Wanxiang Che, Ting Liu, et al. Pre-Training
with Whole Word Masking for Chinese BERT[J]. arXiv preprint arXiv:1906.08101,2019
[15] https://github.com/ymcui/Chinese-BERT-wwm.
[16] https://github.com/kdsec/chinese-opinion-target-
extraction
[17] https://drive.google.com/drive/folders/1t7jFhO2T_-
UfmBzcXCHU2QLDnRvo4QIj?usp=sharing