周權(quán) 陳永生 郭玉臣
摘要:針對中文口語短文本缺少上下文信息、語法不規(guī)范和噪聲較大等特征造成語義模糊,進(jìn)而導(dǎo)致用戶意圖識別準(zhǔn)確率不高的問題,提出了一種基于多特征融合的意圖識別算法。算法對傳統(tǒng)Bi-LSTM(Bi-directional Long Shot-Term Memory)文本分類算法進(jìn)行改進(jìn),將原始文本的字向量、詞向量、詞性向量和實(shí)體知識庫向量進(jìn)行融合,結(jié)合字級別的意圖識別模型,在人工標(biāo)注的實(shí)際場景下的用戶意圖數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的用戶意圖識別算法在實(shí)際場景中準(zhǔn)確率等評價(jià)指標(biāo)有明顯提高。
關(guān)鍵詞:意圖識別;短文本分類;多特征融合;詞嵌入;深度學(xué)習(xí);Bi-LSTM
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)21-0028-04
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 引言
近年來,隨著“AI賦能”“智能+”等概念的不斷提出,人工智能技術(shù)推動傳統(tǒng)產(chǎn)業(yè)向數(shù)字化、智能化方向升級,使人們的生活方式發(fā)生了翻天覆地的變化。即時(shí)通訊、智能客服、語音助理等應(yīng)用應(yīng)運(yùn)而生,極大地方便了人們的生活,在這些人機(jī)交互系統(tǒng)中,能夠正確識別用戶意圖是做出合理回應(yīng)的基礎(chǔ),一旦用戶意圖判斷錯(cuò)誤,那么機(jī)器回應(yīng)就會出現(xiàn)答非所問的情況,十分影響用戶體驗(yàn)。針對中文字符缺少空格來分割語義,口語語法靈活多變等特點(diǎn),本文提出了一種基于多特征融合的意圖識別算法。該算法主要針對文本向量化表示和意圖分類模型兩方面進(jìn)行改進(jìn),實(shí)現(xiàn)更高精度的短文本分類算法,從而準(zhǔn)確識別用戶意圖。
2 相關(guān)工作
意圖識別的一般流程是將輸入的文本轉(zhuǎn)換成結(jié)構(gòu)化的向量表示,再通過機(jī)器學(xué)習(xí)或深度學(xué)習(xí)等算法給出句子X對應(yīng)的最佳意圖Z,通常作為標(biāo)準(zhǔn)的多分類問題進(jìn)行處理。如對問句“東方衛(wèi)視這周天有什么節(jié)目”進(jìn)行分類,得到意圖識別結(jié)果“影視領(lǐng)域一節(jié)目單意圖”。
2.1 文本表示
文本表示是自然語言處理領(lǐng)域中一個(gè)很基礎(chǔ)的研究工作。只有先將文本表示成計(jì)算機(jī)可以理解的形式,才能使用機(jī)器學(xué)習(xí)等方法進(jìn)行后續(xù)的處理。常見的文本表示方法分為離散表示和分布式表示兩種。從分詞粒度角度來看,又可以分為詞向量和字向量兩種類型。
NLP中最常用、最傳統(tǒng)的此特征表示方式是采用One-Hot編碼[1],即每一個(gè)特征詞都被表示成一個(gè)很長的向量,其長度等于詞表大小,當(dāng)前詞對應(yīng)位置為1,其他位置為0。當(dāng)時(shí)One-Hot編碼這種表示方式會導(dǎo)致不同次之間總是正交的,無法衡量不同詞之間的相似關(guān)系,而且只能反映每個(gè)詞是否出現(xiàn),無法突出詞之間重要性的區(qū)別,丟失了很多語義上的信息。
分布式表示也被稱為詞嵌入(Word Embedding),1986年由Hinton提出[2]。分布式表示把信息分布式的存儲在指定維度的向量的各個(gè)維度中,區(qū)別于傳統(tǒng)的離散表示方法,由于在模型訓(xùn)練過程中考慮了單詞的上下文語義信息和語義環(huán)境等,因此生成的詞向量包含豐富的潛在語義信息。常用的模型有2013年Google開源的Word2Vec[3]、2014年Jeffrey Pennington等人提的GIoVe[4]和2016年Facebook開源的FastText[5]等。
2.2 意圖識別
用戶意圖識別是人機(jī)交互系統(tǒng)中關(guān)鍵性技術(shù)之一[6],意圖識別的結(jié)果直接影響到交互系統(tǒng)做出回復(fù)的合理性[7]。意圖識別本身也是一個(gè)文本分類問題,其方法和模型與文本分類大同小異,常用的有基于詞典模板的規(guī)則分類、基于機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的文本分類。
傳統(tǒng)的意圖識別方法,一般通過樸素貝葉斯、支持向量機(jī)(SVM)、隱馬爾科夫(HMM)和決策樹(DT)等機(jī)器學(xué)習(xí)方法,在有標(biāo)簽的意圖文本上訓(xùn)練分類模型,進(jìn)行意圖識別。在簡單的意圖識別任務(wù)中取得了一定的效果,但隨著意圖類別的增加,這類基于人工特征的分類模型并不能有效提取文本的深層語義信息,尤其是在口語短文本這類意圖識別問題上,數(shù)據(jù)表示更為稀疏,使得算法準(zhǔn)確率難以提高。
近年來,深度學(xué)習(xí)模型在計(jì)算機(jī)視覺和語音識別中取得了顯著的成果。在自然語言處理中,使用CNN、LSTM、RCNN等深度學(xué)習(xí)算法來學(xué)習(xí)單詞向量表示,進(jìn)行文本特征提取,在意圖識別任務(wù)中取得了不錯(cuò)的效果。2014年Yoom Kim提出TextCNN[8],使用預(yù)先訓(xùn)練好的詞向量作為Embedding Layer,通過不同尺寸的卷積核提取文本的局部相關(guān)性信息,在進(jìn)行分類。TextCNN對文本的淺層特征抽取能力強(qiáng),且速度很快,但由于主要依靠Filter窗口來抽取特征,在長距離建模方面能力受限,且對語序不敏感。同年,Chung J等人提出TextRNN[9],RNN模型由于具有短期記憶功能,因此天然就比較適合處理自然語言的序列問題,尤其是引入門控制機(jī)制后的LSTM,能夠解決長期依賴問題,捕獲輸入樣本之間的長距離聯(lián)系,但在狀態(tài)轉(zhuǎn)移過程中,容易遺忘位置相對靠前的詞。2015年Tex-tRCNN[10],將CNN的卷積層替換為雙向RNN,結(jié)合了CNN對重要特征的提取能力和RNN對句子上下文信息的捕獲能力,在文本分類任務(wù)上取得了不錯(cuò)的效果。
近兩年Attention Model在自然語言處理領(lǐng)域大放異彩,Peng Zhou等人在Bi-LSTM的模型上加入Attention層[11],先計(jì)算每個(gè)時(shí)序的權(quán)重,然后將所有時(shí)序的向量的加權(quán)和作為特征向量,再進(jìn)行softmax分類,實(shí)驗(yàn)的評測結(jié)果表明,Attention能夠提高模型的性能表現(xiàn)。
綜上所述,國內(nèi)外學(xué)者在文本表示與意圖識別方面已經(jīng)做了大量的研究工作,并取得了一些進(jìn)展。但是對于用戶意圖識別這類中文短文本分類任務(wù),由于中文不同于英文,缺少顯式的單詞分割和專有名詞標(biāo)識;而且口語化的文本一般長度較短,噪聲較大,不完全符合語法規(guī)范等,這些特點(diǎn)導(dǎo)致在某些領(lǐng)域上使用傳統(tǒng)短文本分類算法的用戶意圖識別效果較差。因此,本文在傳統(tǒng)Bi-LSTM短文本分類算法的基礎(chǔ)上,從豐富文本特征信息和增強(qiáng)分類模型魯棒性兩個(gè)角度,提出了一種基于多特征融合的意圖識別算法,使用戶意圖分類算法更具有判別性。
3 基于多特征融合的意圖識別模型
在本部分中,我們將介紹本文提出的針對中文短文本意圖分類問題的深度學(xué)習(xí)模型,以及多特征融合的具體方式。整個(gè)模型由Input Layer、Embedding Layer、Bi-LSTM Layer、Token-level Intent Detection Layer和Intent Detection Layer五部分組成,下圖1展示了模型的整體結(jié)構(gòu)。
3.1 Word Embedding多特征融合
對于基于深度學(xué)習(xí)的自然語言處理任務(wù),Word Embedding是最基本的輸入組成之一。針對字向量和詞向量的局限性,將字向量、詞向量和詞性向量進(jìn)行拼接,組成字一詞向量,在不丟失詞特征的同時(shí),降低由分詞錯(cuò)誤對意圖識別帶來的嚴(yán)重影響。在字一詞向量的基礎(chǔ)上,再拼接實(shí)體知識庫向量,組成多特征融合向量,作為Word Embedding輸入模型,為模型提供了一定的先驗(yàn)知識。各向量的拼接方式如下圖2所示:
其中實(shí)體知識庫部分,我們維護(hù)了一個(gè)包括影視劇名、地名和人名等信息的實(shí)體字典,采用5 -gram的方式構(gòu)造實(shí)體知識庫向量。以“播放澳門風(fēng)云”這個(gè)句子為例,分別判斷每一個(gè)字符、字符所在詞及左右5-Gram的字符串是否在實(shí)體知識庫中,若存在,則在向量對應(yīng)位置上給予標(biāo)記,最終生成一個(gè)長度為10的實(shí)體知識庫向量,下圖3具體展示了“澳”字的實(shí)體知識庫向量構(gòu)成。
3.2 意圖識別
在Bi-LSTM模型的每一個(gè)隱層狀態(tài)中都融合了整個(gè)句子的信息,我們不僅將最后一個(gè)隱層狀態(tài)作為模型輸出向量進(jìn)行分類,而是綜合利用每一個(gè)隱層狀態(tài)的輸出,對每個(gè)單詞分類,得到每個(gè)單詞的意圖分類結(jié)果。
對一個(gè)含有m個(gè)字符的句子,給定其編碼表示E,經(jīng)過雙向LSTM進(jìn)行編碼,得到隱層狀態(tài):
4 實(shí)驗(yàn)及結(jié)果分析
4.1實(shí)驗(yàn)環(huán)境
硬件環(huán)境,如下表1所示:主要軟件環(huán)境,如下表2所示:
4.2 實(shí)驗(yàn)數(shù)據(jù)
本實(shí)驗(yàn)數(shù)據(jù)來源于某影視公司語音助手業(yè)務(wù)非公開數(shù)據(jù),共計(jì)62438條記錄,包括影視搜索、節(jié)目單查詢、控制指令、影視信息查詢、明星關(guān)系查詢、生活技能等20個(gè)意圖。
4.3 實(shí)驗(yàn)過程與結(jié)果分析
本項(xiàng)目訓(xùn)練集、驗(yàn)證集和測試集按照7:2:1比例進(jìn)行劃分,采用十折交叉驗(yàn)證的方式選擇合適的超參數(shù)。本實(shí)驗(yàn)測試結(jié)果如下表4所示:
最終結(jié)果表明,我們提出的模型在宏平均準(zhǔn)確率,宏平均召回率和準(zhǔn)確率上相比Bi-LSTM和Char-CNN等基準(zhǔn)模型有明顯的提高,充分證明了模型的有效性。
5 總結(jié)
針對用戶意圖識別任務(wù),本文提出了一種基于多特征融合的意圖分類模型。該模型通過融合字向量、詞向量、詞性向量和實(shí)體知識庫向量等豐富了Word Embedding的語義信息。同時(shí)對每一個(gè)字符均進(jìn)行意圖識別,最后使用投票機(jī)制確定整個(gè)句子的最終意圖,增強(qiáng)了模型的泛化能力。但從算法的推理時(shí)間來看,還需進(jìn)一步優(yōu)化,以應(yīng)用于實(shí)際業(yè)務(wù)場景。
參考文獻(xiàn):
[1] Turian J,Ratinov L,Bengio Y.Word representations:a simpleand general method for semi-supervised learning[C]. Proceed-ings of the 48th Annual Meeting of the Association for Compu-tational Linguistics, Uppsala, Sweden, Association for Compu-tational Linguistics: Uppsala, Sweden. 2010:384 394.
[2] Hinton G E.Learning distributed representations of concepts[C]. Proceedings of the eighth annual conference of the cogni-tive science society, Amherst, Mass: 1986:1-12.
[3] Mikolov T,Chen K,Corrado G,et aI.Efficient estimation of wordrepresentations in vector space[EB/OL].2013: arXiv:1301.3781[cs.CL].
https ://arxiv.org/abs/ 1301.3 7 81
[4] Pennington J,Socher R,Manning C D. Glove: Global vectors forword representation[C]. Proceedings of the 2014 conference onempirical methods in natural language processing (EMNLP),2014; pp 1532-1543.
[5] Joulin A,Grave E,Bojanowski P,et aI.Bag of tricks for efficienttext classification[EB/OL]. 2016: arXiv: 1607.01759[cs. CL].https://arxiv.org/ab s/ 1607.0175 9
[6] Liu, B.; Lane, l. Attention-based recurrent neural networkmodels for joint intent detection and slot filling[J]. arXiv pre-print arXiv:1609.01454 2016.
[7]靳小波.文本分類綜述[J].自動化博覽,2006,23(z1):24-29.
[8] Sarikaya R,Hinton G E.Ramabhadran B. Deep belief nets fornatural language call-routing[C]. 2011 IEEE International con-ference on acoustics, speech and signal processing (lCASSP),lEEE: 2011:5680-5683.
[9] Reinforcement Learning[C]. The Thirty-Second AAAI Confer-ence on Artificial Intelligence (AAAI-18), 2018:6053-6060.
[10] Lai S,Xu L,Liu K,et al. Recurrent Convolutional Neural Net-works for Text Classification[C]. the Twenty-Ninth AAAI Con-ference on Artificial Intelligence, 2015:2267-2273.
[11] Zhou P, Shi W, Tian J, et al. Attention-based bidirectionallong short-term memory networks for relation classification[C].Proceedings of the 54th annual meeting of the association forcomputational linguistics (volume 2: Short papers), 2016:207-212.
作者簡介:周權(quán)(1995-),男,山東濱州人,學(xué)生,研究生,主要研究方向?yàn)樽匀徽Z言處理。