馬天宇,覃 俊,劉 晶,帖 軍,后 琦
(1. 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,湖北 武漢 430074;2. 湖北省制造企業(yè)智能管理工程技術(shù)研究中心,湖北 武漢 430074)
隨著人工智能時(shí)代的到來,越來越多的虛擬助手應(yīng)用于我們的生活之中,如百度的小度、蘋果的Siri、小米的小愛同學(xué)和微軟的Cortana,人機(jī)對話系統(tǒng)已經(jīng)成為人工智能和人機(jī)交互中的核心技術(shù)??谡Z理解(SLU)是讓計(jì)算機(jī)能夠正確理解人類的自然語言,進(jìn)而為用戶反饋正確信息的關(guān)鍵環(huán)節(jié)。口語理解通常涉及意圖分類和槽填充兩個(gè)子任務(wù),在人機(jī)對話系統(tǒng)中發(fā)揮著重要作用。意圖分類側(cè)重于從話語中自動(dòng)檢測用戶的意圖,可以將其視為預(yù)測用戶意圖的句子分類問題。早期的意圖分類主要依靠規(guī)則進(jìn)行[1],隨后,機(jī)器學(xué)習(xí)技術(shù)被引入意圖分類任務(wù)[2-3]。隨著深度學(xué)習(xí)的方法越來越多樣和成熟,各種深度學(xué)習(xí)的網(wǎng)絡(luò)[3-4]被應(yīng)用到意圖分類任務(wù)中。與傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法相比,深度學(xué)習(xí)體系結(jié)構(gòu)可以捕獲遠(yuǎn)程依賴關(guān)系以及單詞之間的關(guān)聯(lián),在分類性能上有了顯著提升。槽填充是指從輸入文本中提取語義成分,并在語義框架中為一組預(yù)定義的槽來填充值,為話語中的每個(gè)單詞分配語義標(biāo)簽,該任務(wù)通常被認(rèn)為是序列標(biāo)注問題。通常采用BIO標(biāo)注的方式來進(jìn)行標(biāo)注,即,將每個(gè)元素標(biāo)注為“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭,“I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置,“O”表示此元素不屬于任何類型。如表1所示,從ATIS語料庫中抽取的句子“what time zone is denver in”,從表中可以看出,句子中的每一個(gè)單詞對應(yīng)一個(gè)槽標(biāo)簽,無關(guān)單詞標(biāo)注為O,不屬于任何類型,而目的城市單詞“denver”作為片段起始被標(biāo)注為“B-city name”,并且每一個(gè)句子會(huì)為其分類一個(gè)意圖。
表1 槽注釋示例
在早期的研究中,兩項(xiàng)任務(wù)通常是分開進(jìn)行處理的,Liu等人[5]引入的RNN-LSTM模型,只應(yīng)用了一個(gè)聯(lián)合損失函數(shù)來隱式地將兩個(gè)任務(wù)聯(lián)系起來,其中意圖和槽之間沒有建立明確的關(guān)系,而且這些方法都是從小規(guī)模的人類標(biāo)記訓(xùn)練數(shù)據(jù)中提取的,因而泛化能力較差。Hakkani等人[6]提出了一個(gè)基于注意力的RNN模型,應(yīng)用了一個(gè)聯(lián)合損失函數(shù)來連接這兩個(gè)任務(wù);Zhang[7]等人提出了一種基于膠囊網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型,該模型通過動(dòng)態(tài)路由協(xié)議模式來完成槽填充和意圖分類。本文提出了一種基于BERT的意圖分類和槽填充聯(lián)合學(xué)習(xí)模型ANBC(Associated Network on BERT with CRF),利用意圖和槽之間的關(guān)聯(lián)性為意圖分類和槽填充任務(wù)建立一個(gè)關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,在槽填充任務(wù)中根據(jù)關(guān)系因子結(jié)合意圖信息來生成槽信息,在意圖分類任務(wù)中根據(jù)關(guān)系向量結(jié)合槽信息來生成意圖信息,以此來提升任務(wù)效果。
意圖分類傳統(tǒng)的方法是使用N-gram[8]作為例如位置和日期等通用的實(shí)體的特征,但這種方法由于輸入空間維數(shù)的限制,無法達(dá)到一個(gè)明顯的效果。隨后,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[9]和長短時(shí)記憶(LSTM)[10]網(wǎng)絡(luò)也被廣泛應(yīng)用于意圖分類任務(wù)中。
近年來,一些聯(lián)合模型被提出和使用,候麗仙等人[11]提出了一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型Attention-BiLSTM用于聯(lián)合意圖分類和槽填充。但這只是克服了傳統(tǒng)方法帶來的誤差傳播問題,只采用共享參數(shù)的方式來隱式地連接兩個(gè)任務(wù),并沒有對它們的相關(guān)性進(jìn)行建模。Goo等人[12]提出了一個(gè)slot-gated模型,該模型將意圖信息應(yīng)用于槽填充任務(wù),并獲得了優(yōu)異的性能。但是在意圖分類任務(wù)中沒有使用槽信息,沒有建立雙向直接連接。
Yao等人[13]為此任務(wù)引入了LSTM體系結(jié)構(gòu),在RNN的基礎(chǔ)上利用轉(zhuǎn)移特征和CRF的序列級(jí)優(yōu)化來改進(jìn)RNN,從而顯式地建模輸出標(biāo)簽的依賴關(guān)系。然而這些方法生成的槽標(biāo)記的數(shù)量卻與話語中的單詞數(shù)量不同。為了克服這個(gè)限制,另一種方法是使用兩個(gè)RNN模型作為輸入編碼器和輸出解碼器[14]來構(gòu)建的一個(gè)編碼器-解碼器模型。這種方法的優(yōu)點(diǎn)是不需要在輸入語句和輸出槽標(biāo)記之間對齊。
最近,預(yù)訓(xùn)練語言模型在利用大量未標(biāo)記數(shù)據(jù)學(xué)習(xí)通用語言表征方面取得了顯著的效果。一些預(yù)訓(xùn)練語言模型,如ELMO、GPT和BERT,在解決一些自然語言處理問題上取得了巨大的成功,如語篇分析[15]、語義相似度計(jì)算[16]、閱讀理解和問答[17]。ELMo使用雙向LSTM結(jié)構(gòu),GPT使用從左到右的Transformer結(jié)構(gòu),BERT使用雙向Transformer結(jié)構(gòu)。雖然這樣的預(yù)訓(xùn)練模型在語言表征方面會(huì)有顯著的性能提升,但對于兩個(gè)任務(wù)間的相互促進(jìn)作用并沒有得到很好的利用。Wang[18]、Hardalov[19]等人也使用了預(yù)訓(xùn)練模型BERT進(jìn)行意圖分類和槽填充任務(wù)的聯(lián)合建模,但采用的是單方向的線性交互建模,將意圖分類的結(jié)果傳遞到槽填充任務(wù),指導(dǎo)槽的預(yù)測,或者反之,未考慮到兩者信息的相互影響。
本節(jié)介紹一種基于BERT的意圖分類和槽填充的聯(lián)合任務(wù)模型ANBC,模型的體系結(jié)構(gòu)如圖1所示。該模型包含三個(gè)部分: BERT層、關(guān)聯(lián)網(wǎng)絡(luò)層、輸出層。首先使用BERT對輸入序列進(jìn)行編碼,然后將得到的意圖向量和槽向量輸入到關(guān)聯(lián)網(wǎng)絡(luò)層進(jìn)行直接聯(lián)系;在關(guān)聯(lián)網(wǎng)絡(luò)層中,槽填充任務(wù)結(jié)合關(guān)系因子與意圖信息來生成槽信息,意圖分類任務(wù)結(jié)合關(guān)系向量與槽信息來生成意圖信息,形成進(jìn)一步的促進(jìn)作用,最后通過softmax函數(shù)和條件隨機(jī)場(CRF)獲取最終的分類結(jié)果和標(biāo)簽鏈。
圖1 聯(lián)合學(xué)習(xí)模型ANBC體系結(jié)構(gòu)
BERT(Bidirectional Transformer Encoder)即雙向Transformer編碼器,由多個(gè)雙向Transformer編碼器組成[20],每一層包含一個(gè)多頭自注意力子層,并且?guī)в幸粋€(gè)線性變換和殘差連接子層。模型的輸入為三個(gè)部分的總和,基于WordPiece的字向量[21]、文本向量和位置向量。在大規(guī)模無標(biāo)記文本上,預(yù)訓(xùn)練的BERT模型提供了一個(gè)強(qiáng)大的上下文相關(guān)的句子表示,可用于各種目標(biāo)任務(wù),對于文本分類任務(wù),BERT模型在文本前插入一個(gè)[CLS]符號(hào),并將該符號(hào)對應(yīng)的輸出向量作為整篇文本的語義表示,還對輸入的兩句話用一個(gè)[SEP]符號(hào)做分割,并分別對兩句話附加兩個(gè)不同的文本向量做區(qū)分。對于序列標(biāo)注任務(wù),BERT模型利用文本中每個(gè)字對應(yīng)的輸出向量對該字進(jìn)行標(biāo)注。通過BERT的多頭自注意力機(jī)制,可以獲得文本中每個(gè)字在不同語義空間下的增強(qiáng)語義向量,并將每個(gè)字的多個(gè)增強(qiáng)語義向量進(jìn)行線性組合,從而獲得一個(gè)最終的與原始字向量長度相同的增強(qiáng)語義向量。
在本文中,給定BERT編碼器的一個(gè)輸入序列X={x1,x2,…,xi},其通過式(1)計(jì)算句子的語義表示,得到隱藏狀態(tài)輸出序列H={h1,h2,…,hi}。槽上下文向量由隱藏狀態(tài)的加權(quán)和計(jì)算得出,如式(2)所示。
其中,權(quán)重α計(jì)算如式(3)、式(4)所示。
這里的α用來評估當(dāng)前預(yù)測詞與輸入的每一個(gè)詞的相關(guān)度。g代表一個(gè)前反饋神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的輸入就是上一個(gè)輸出序列隱狀態(tài)si-1和輸入序列隱狀態(tài)hj。意圖上下文向量Cintent的計(jì)算方法與Cslot相同,不同的是,整個(gè)句子只生成一個(gè)意圖標(biāo)簽。最后將槽上下文向量和意圖上下文向量輸入到關(guān)聯(lián)網(wǎng)絡(luò)層。
關(guān)聯(lián)網(wǎng)絡(luò)層由意圖分類網(wǎng)絡(luò)和槽填充網(wǎng)絡(luò)組成,如圖2所示。在槽填充網(wǎng)絡(luò)中,通過一個(gè)關(guān)系因子f結(jié)合槽向量和意圖向量生成關(guān)聯(lián)槽向量輸入到意圖分類網(wǎng)絡(luò)中。在意圖分類網(wǎng)絡(luò)中根據(jù)關(guān)聯(lián)槽向量生成第三方關(guān)系向量rintent,再由關(guān)系向量r結(jié)合意圖向量eintent生成關(guān)聯(lián)意圖向量eintent輸回槽填充網(wǎng)絡(luò),以此形成一次關(guān)聯(lián)迭代過程,流程如圖3所示。
在槽填充網(wǎng)絡(luò)中,通過意圖和槽向量來計(jì)算關(guān)系因子f,關(guān)系因子f通過式(5)得出:
(5)
通過關(guān)系因子f結(jié)合槽向量和意圖向量根據(jù)式(6)計(jì)算得出關(guān)聯(lián)槽向量eslot,然后將關(guān)聯(lián)槽向量輸入到意圖分類網(wǎng)絡(luò)中。
圖2 關(guān)聯(lián)網(wǎng)絡(luò)示意圖
圖3 迭代流程圖
(6)
在意圖分類網(wǎng)絡(luò)中,槽向量通過式(7)生成關(guān)系向量r,并結(jié)合關(guān)系向量和意圖向量,通過式(8)生成關(guān)聯(lián)意圖向量eintent,再輸入到槽填充網(wǎng)絡(luò)中,此時(shí)槽填充網(wǎng)絡(luò)在接受到關(guān)聯(lián)意圖向量時(shí)會(huì)更新關(guān)系因子,關(guān)系因子根據(jù)關(guān)聯(lián)意圖向量結(jié)合權(quán)重矩陣W,計(jì)算方法更新如式(9)所示。
在關(guān)系因子更新之后,槽填充網(wǎng)絡(luò)會(huì)繼續(xù)產(chǎn)生一個(gè)新的關(guān)聯(lián)槽向量,意圖分類網(wǎng)絡(luò)在接受到新的關(guān)聯(lián)槽向量之后會(huì)對應(yīng)產(chǎn)生一個(gè)新的關(guān)聯(lián)意圖向量。至此,一次完整的關(guān)聯(lián)迭代過程完成。
在關(guān)聯(lián)迭代之后,最終的意圖分類和槽填充任務(wù)由關(guān)聯(lián)意圖向量eintent和關(guān)聯(lián)槽向量eslot分別完成。使用eintent和BERT整句文本的輸出hT進(jìn)行最終意圖分類,如式(10)所示。
(10)
(11)
Softmax函數(shù),又稱歸一化指數(shù)函數(shù),其函數(shù)表達(dá)式如式(12)所示。
(12)
意圖分類本質(zhì)上是一個(gè)分類任務(wù)。而softmax函數(shù)是二分類函數(shù)Sigmoid在多分類上的推廣,目的是將多分類的結(jié)果以概率的形式展現(xiàn)出來,在最后選取輸出結(jié)點(diǎn)的時(shí)候就可以選取值最大的結(jié)點(diǎn)作為的預(yù)測目標(biāo)。softmax函數(shù)以較強(qiáng)的數(shù)學(xué)性和優(yōu)良的效果被應(yīng)用于自然語言處理領(lǐng)域的各大分類任務(wù)中,故在最后的輸出層中,采用softmax作為分類器對意圖進(jìn)行最終的預(yù)測。
槽填充本質(zhì)上來講是一個(gè)序列標(biāo)記任務(wù)。對于序列標(biāo)記任務(wù),就要考慮到鄰域中標(biāo)記之間的相關(guān)性。在很多情況下,相鄰標(biāo)記的相關(guān)性是非常強(qiáng)的。人類的語言是事先規(guī)定了語法,然后人類再根據(jù)語法進(jìn)行語言表達(dá),所以,語法特征非常重要,例如,介詞后面跟名詞概率很高,之后再跟介詞概率就很小。條件隨機(jī)場(CRF)中的狀態(tài)轉(zhuǎn)移函數(shù)就可以很好地學(xué)習(xí)到這一特征。Zhou和Xu[22]通過為BiLSTM編碼器添加CRF層改進(jìn)了語義角色標(biāo)記,表明了CRF的結(jié)構(gòu)化預(yù)測模型可以改善槽填充性能,能利用標(biāo)簽序列的全局信息,更好地對標(biāo)簽進(jìn)行預(yù)測。核心內(nèi)容如下:
給定一個(gè)句子s,通過把句子中所有單詞的特征加權(quán)求和,得到句子s的標(biāo)簽l的分?jǐn)?shù)如式(13)所示。
(13)
其中,i用來表示句子s中第i個(gè)單詞;l1表示要評分的標(biāo)注序列給第i個(gè)單詞標(biāo)注的詞性;li-1表示要評分的標(biāo)注序列給第ii-1個(gè)單詞標(biāo)注的詞性。
fi為特征函數(shù),是一種序列與標(biāo)簽位置關(guān)系的規(guī)定,序列標(biāo)注任務(wù)通過特征函數(shù)來定義: 對于一個(gè)序列來說,如果前一個(gè)詞的標(biāo)簽為動(dòng)詞,那么后面一個(gè)詞的標(biāo)簽就是名詞,也就是說定義了一個(gè)規(guī)則: 動(dòng)詞后面跟名詞,同時(shí),這個(gè)規(guī)則作為一個(gè)函數(shù),其輸出的內(nèi)容最簡單的就是滿足規(guī)則輸出1,否則輸出0,特征函數(shù)的數(shù)量根據(jù)標(biāo)簽種類的不同而有所變化。
λj表示為不同特征函數(shù)對應(yīng)的權(quán)重。不同特征函數(shù)對于模型價(jià)值是不一樣的??赡茉谟?xùn)練結(jié)束后,某個(gè)特征函數(shù)只有一次輸出為1,而另一個(gè)特征函數(shù)多次輸出為1,那么前一個(gè)特征函數(shù)對模型的價(jià)值和后一個(gè)特征函數(shù)對模型的價(jià)值就是不同的,我們有理由根據(jù)特征函數(shù)在訓(xùn)練過程中的表現(xiàn)對其重要性進(jìn)行評測,從而最終得到每個(gè)特征函數(shù)的合適權(quán)重,然后與特征函數(shù)相乘??梢钥闯?,在訓(xùn)練過程中,權(quán)重是在不斷變化的,而權(quán)重也就是CRF作為一種傳統(tǒng)機(jī)器學(xué)習(xí)算法所需要訓(xùn)練的參數(shù)。
第一個(gè)積分表示每個(gè)單詞在所有特征函數(shù)的求和,共有m個(gè)特征函數(shù);第二個(gè)積分表示對句子的每個(gè)單詞求和,共有n個(gè)單詞。定義好一組特征函數(shù)后,我們要給每個(gè)特征函數(shù)fi賦予一個(gè)權(quán)重λj?,F(xiàn)在,只要有一個(gè)句子s,有一個(gè)標(biāo)注序列l(wèi),我們就可以利用前面定義的特征函數(shù)集來對l評分。
對這個(gè)分?jǐn)?shù)進(jìn)行指數(shù)化和標(biāo)準(zhǔn)化,我們就可以得到標(biāo)注序列l(wèi)的概率值p(l|s),如式(14)所示。
(14)
由式(14)可知,給定一個(gè)句子s,標(biāo)注序列l(wèi)的分?jǐn)?shù)越高,則相應(yīng)的條件概率也越大,選擇條件概率最大的標(biāo)注序列l(wèi)為句子s的標(biāo)注序列。
本文在兩個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn): 航空公司旅行信息系統(tǒng)數(shù)據(jù)集(ATIS)和Snips。ATIS包含預(yù)訂航班的人員的錄音文本,訓(xùn)練集包含4 478個(gè)語音文本,測試集包含893個(gè)語音文本。訓(xùn)練集中有120種槽標(biāo)簽和21種意圖類型。Snips數(shù)據(jù)集是Snips語音助手收集的對話數(shù)據(jù)集。訓(xùn)練集包含13 084個(gè)語音文本,測試集包含700個(gè)語音文本。有72個(gè)槽標(biāo)簽和7種意圖類型。
ATIS和Snips都是英文數(shù)據(jù)集,其中ATIS是關(guān)于航班信息的數(shù)據(jù)集。而Snips比ATIS更復(fù)雜,具有更多類型的意圖和更豐富的數(shù)據(jù),包括天氣、預(yù)訂餐廳和播放音樂。統(tǒng)計(jì)數(shù)據(jù)如表2所示。
表2 ATIS和Snips數(shù)據(jù)集的統(tǒng)計(jì)信息
我們使用三個(gè)評估指標(biāo)來評估我們的模型。對于槽填充任務(wù),應(yīng)用F1分?jǐn)?shù)。對于意圖分類任務(wù),使用準(zhǔn)確度(Intent Accuracy)。此外,句子級(jí)的語義框架準(zhǔn)確度(Sentence Accuracy,句子準(zhǔn)確度)用來表示兩個(gè)任務(wù)的總體表現(xiàn),即句子在整個(gè)語料庫中的位置和意圖都被正確預(yù)測的句子所占的比例。
本文實(shí)驗(yàn)中使用的是Google發(fā)布的BERT Base版本,該模型采用12層的Transformer,隱藏大小為768,自注意力的multi-head為12,模型的所有參數(shù)為110M。在訓(xùn)練過程中,采用了Adam優(yōu)化[23]。初始學(xué)習(xí)率設(shè)置為0.001,衰減指數(shù)為0.9。Epochs如表3所示,選取效果最好的Epochs,即40。
表3 Snips數(shù)據(jù)集上的Epochs對比
在本節(jié)中,我們將ANBC與現(xiàn)有的基線進(jìn)行比較,包括:
(1) CAPSULE-NLU[7]: 該模型采用基于膠囊的神經(jīng)網(wǎng)絡(luò)模型,利用語義層次進(jìn)行建模,并通過動(dòng)態(tài)路由協(xié)議模式實(shí)現(xiàn)槽填充和意圖分類。
(2) AttentionBiRNN[24]: 該模型引入了一種基于RNN的聯(lián)合槽填充和意圖分類的編解碼模型,將槽填充任務(wù)視為生成任務(wù),應(yīng)用序列到序列RNN來標(biāo)記輸入。此外,使用編碼器隱藏狀態(tài)上的注意力加權(quán)和來分類意圖。
(3) Slot-Gated Full Atten[25]: 該模型引入了槽選通機(jī)制作為一種特殊的選通函數(shù),用于集成全局意圖信息以改進(jìn)槽預(yù)測,使用意圖上下文向量用于意圖分類。
(4) Joint Seq[26]: 使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)獲取槽填充序列中每個(gè)標(biāo)記的隱藏狀態(tài),并使用最后一個(gè)狀態(tài)預(yù)測意圖。
(5) Joint BERT[27]: 采用標(biāo)準(zhǔn)的BERT分類和序列標(biāo)注分類來共同建模槽和意圖。
(6) SASGBC[28]: 采用預(yù)訓(xùn)練BERT模型來解決泛化問題,并通過選通機(jī)制來利用槽和意圖之間的語義關(guān)聯(lián)。
(7) BERT-Cap[29]: 一種基于預(yù)訓(xùn)練BERT和膠囊網(wǎng)絡(luò)的具有焦點(diǎn)損失的BERT-Cap混合模型。
從表4中可以看出,本文提出的模型ANBC很大程度上優(yōu)于所有的基線模型,該模型在槽填充(F1)、意圖分類(Acc)和句子準(zhǔn)確性(Sentence)三個(gè)方面取得了比其他模型更好的效果。在ATIS數(shù)據(jù)集上,模型ANBC在槽填充F1得分、意圖分類準(zhǔn)確率(Acc)、句子級(jí)語義框架準(zhǔn)確率(Sentence)三個(gè)評價(jià)指標(biāo)上的得分分別為97.89、98.1和92.9的,比當(dāng)前效果最好的基線模型中對應(yīng)的三個(gè)評價(jià)指標(biāo)分別提高了1.2、0.49和1.3。在Snips數(shù)據(jù)集上,模型ANBC在槽填充F1得分、意圖分類準(zhǔn)確率(Acc)、句子級(jí)語義框架準(zhǔn)確率(Sentence)三個(gè)評價(jià)指標(biāo)上的得分分別為98.04、99.14和91.71,其中槽填充F1得分和意圖分類準(zhǔn)確率比當(dāng)前效果最好的基線模型得分提高了1.04和0.28。實(shí)驗(yàn)結(jié)果表明,模型ANBC可以通過在BERT層上建立關(guān)聯(lián)機(jī)制來提高SLU任務(wù)性能,并且從表中可以看出,CRF層對模型性能有積極影響。這是因?yàn)镃RF層可以在句子級(jí)別上獲得最大可能的標(biāo)簽序列。然而,CRF層主要關(guān)注序列標(biāo)記問題,因此,槽填充任務(wù)的改進(jìn)明顯超過了意圖分類任務(wù)。
表4 ATIS和Snips數(shù)據(jù)集上不同聯(lián)合模型訓(xùn)練結(jié)果
本文提出了一種基于BERT的意圖分類和槽填充聯(lián)合模型ANBC,該模型引入了預(yù)訓(xùn)練語言模型來更好地獲取語義信息,有效解決了長距離上下文信息依賴以及傳統(tǒng)模型泛化能力差的問題,并且,該模型利用意圖和槽之間的關(guān)聯(lián)性,通過構(gòu)建關(guān)系因子和關(guān)系向量,結(jié)合槽向量和意圖向量生成各自的關(guān)聯(lián)向量,以此方式為意圖分類和槽填充任務(wù)建立雙向聯(lián)系,使最終的槽信息和意圖信息都是由二者相互參與并相互影響而生成的,兩項(xiàng)任務(wù)的結(jié)果也得到了共同提升,并且輸出層采用CRF作為輔助工具,很好地解決了槽填充任務(wù)中標(biāo)簽獨(dú)立性的問題。在ATIS和Snips數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了我們模型的有效性,實(shí)現(xiàn)了意圖分類精度、槽填充F1精度的顯著提高,可以推廣到不同的數(shù)據(jù)集。在未來工作中,我們計(jì)劃在其他大規(guī)模和更復(fù)雜的自然語言理解數(shù)據(jù)集上評估所提出的方法。并且計(jì)劃在我們提出模型的基礎(chǔ)上引入強(qiáng)化學(xué)習(xí),嘗試?yán)脧?qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)機(jī)制來提高模型的性能。