胥心心 朱全銀 孫紀(jì)舟 王文川
(淮陰工學(xué)院計(jì)算機(jī)與軟件工程學(xué)院 淮安 223001)
由于工業(yè)的飛速發(fā)展,?;肥鹿识喟l(fā),造成重大人員傷亡以及嚴(yán)重的社會后果。例如,2015年的“8.12天津?yàn)I海新區(qū)爆炸事故”傷亡慘重,直接經(jīng)濟(jì)損失巨大,是近年來中國代價(jià)最高的災(zāi)難事件之一。經(jīng)調(diào)查組認(rèn)定瑞海公司違法建設(shè)危險(xiǎn)貨物堆場,違規(guī)存儲危險(xiǎn)貨物,安全管理混亂。2018 年北京交通大學(xué)實(shí)驗(yàn)室發(fā)生鎂粉粉塵云爆炸事故,造成現(xiàn)場3 名學(xué)生死亡。而經(jīng)事故調(diào)查組認(rèn)定北京交通大學(xué)相關(guān)人員違規(guī)開展試驗(yàn)、冒險(xiǎn)作業(yè),違法存儲危險(xiǎn)化學(xué)品。因此,危險(xiǎn)化學(xué)品的監(jiān)管意義重大,加強(qiáng)對?;返陌踩O(jiān)管是一項(xiàng)非常緊迫的任務(wù)。?;沸畔柎鹣到y(tǒng)輔助相關(guān)工作人員對于?;返纳a(chǎn)、存儲等環(huán)節(jié)進(jìn)行監(jiān)管,從而強(qiáng)化相關(guān)人員的操作安全行為和安全意識。
信息檢索可以定位包含相關(guān)信息的文檔,用戶需要從有序列表中提取有用信息[1]。與信息檢索系統(tǒng)不同,問答系統(tǒng)直接根據(jù)用戶的問題提供精確的答案[2],而不是整篇文檔。而整篇文檔需用戶選擇有效信息,用戶搜索相關(guān)答案效率較低。典型的問答系統(tǒng)主要由問題處理、文檔處理、答案處理[3]三個(gè)階段組成,每個(gè)階段都有特定的挑戰(zhàn)和問題。
問題處理是問答系統(tǒng)的重要環(huán)節(jié),問句分類[4]作為問題處理中最基礎(chǔ)的任務(wù),為問答系統(tǒng)答案處理環(huán)節(jié)提供重要支撐。問句分類是根據(jù)給定問題將其映射到相應(yīng)類別中,以確定問句所屬類型,從而有效縮小候選答案范圍[5]。同時(shí)問句分類也是答案抽取制定策略的關(guān)鍵因素[6]。
每日用戶在?;飞鐓^(qū)問答中提問達(dá)千余條,而目前主要依賴人工和淺層學(xué)習(xí)模型篩選特征對問答數(shù)據(jù)進(jìn)行管理。人工處理需要耗費(fèi)大量人力物力而且響應(yīng)時(shí)間長,淺層學(xué)習(xí)模型不能很好的理解語義信息,且危化品問句語義復(fù)雜、文本長度較短,導(dǎo)致文本特征信息提取、語義理解困難,進(jìn)而影響?;穯柧浞诸悳?zhǔn)確度,進(jìn)一步影響?;穯柎鹣到y(tǒng)答案抽取準(zhǔn)確度。本文使用人工構(gòu)建專業(yè)詞典用于Bert(Bidirectional Encoder Representations from Transformers)模型[7]預(yù)訓(xùn)練,再利用訓(xùn)練好的Bert語言模型處理問句文本,得到的輸出作為雙層BiLSTM+Attention[8~9]和卷積神經(jīng)網(wǎng)絡(luò)[10]的輸入來提取問句文本特征,再將融合后的特征輸入softmax 層分類。融合?;穼I(yè)詞匯表的Bert 模型可以增強(qiáng)專業(yè)詞匯的語義表達(dá)能力。使用雙層BiLSTM 更好地捕捉長期依賴關(guān)系,提取全局特征信息,同時(shí)加入注意力機(jī)制為特征添加權(quán)重,降低噪聲干擾。而卷積神經(jīng)網(wǎng)絡(luò)能更好地提取文本的局部特征,從不同語義空間增強(qiáng)關(guān)鍵特征和語義信息表達(dá)。通過該模型能更好地抽取出危化品問句的語義信息以及關(guān)鍵特征。
中文問句分類是文本分類任務(wù)之一。問句分類的準(zhǔn)確性對問答系統(tǒng)答案處理有重要作用,問句分類準(zhǔn)確度越高,問答系統(tǒng)整體性能越好。1960年,Maron 和Kuhns[11]根據(jù)關(guān)鍵詞對文本進(jìn)行分類。早期的文本分類都是基于規(guī)則的思想對文本進(jìn)行分類,遷移性差,具有很大的局限性。90 年代,基于規(guī)則的分類方法已經(jīng)不適用于處理大量復(fù)雜的文本數(shù)據(jù)。隨著機(jī)器學(xué)習(xí)算法的流行,Wu等[12]提出將自然語言處理技術(shù)應(yīng)用于問答系統(tǒng)以獲得性能優(yōu)良的問答系統(tǒng)。問答系統(tǒng)的問句分類問題開始受到越來越多學(xué)者關(guān)注,Cortes 等[13]提出支持向量機(jī)模型(Support Vector Machine,SVM)解決了線性分類器的線性不可分問題。Hasan 等[14]提出了一種基于支持向量機(jī)和模式匹配的問句分類方法,將問題分類三大類,即“誰”“哪里”和“什么”。引入五種模式分析“什么”問題,并用“定義”“人”“位置”或“對象”標(biāo)記問題,在數(shù)據(jù)集Sahih Al-Bukhari上實(shí)驗(yàn)結(jié)果較佳。Yin 等[15]提出了一種位置隱私保護(hù)方法,利用信息樹模型解決了位置信息由于高稀疏性的特點(diǎn)而難以表達(dá)的問題,同時(shí)引入噪聲信息覆蓋原軌跡和位置信息。Barigou 等[16]從分類精度、分類效率等方面分析基于KNN(K-Nearest Neighbor,K 最近鄰)算法對文本分類的影響。
機(jī)器學(xué)習(xí)方法在文本分類上取得良好的效果,但是問句分類主要是通過線性或淺層非線性模型。當(dāng)面對大量復(fù)雜的文本時(shí),機(jī)器學(xué)習(xí)算法效果較差并且人工處理大量文本效率較低。隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域嶄露頭角,研究者提出了許多應(yīng)用于文本分類的深度學(xué)習(xí)模型,在文本分類數(shù)據(jù)集上取得很好的表現(xiàn)。Bengio 等[17]首次使用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù),解決維度爆炸問題。Collobert等[18]提出利用訓(xùn)練好的詞向量來解決自然語言處理中的任務(wù),首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)用于自然語言處理任務(wù)。Kalchbrenner等[19]將卷積神經(jīng)網(wǎng)絡(luò)用于問句分類和情感分類。Dachapally等[20]提出了一種擴(kuò)展的CNN結(jié)構(gòu),提升了小類預(yù)測的準(zhǔn)確度。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrtent Neural Network,RNN)能更好地捕捉上下文依賴。Wang 等[21]提出一種堆疊式雙向長短期記憶網(wǎng)絡(luò)從問句中順序讀取單詞,然后輸出相關(guān)性系數(shù)。Rozental 等[22]將GRU(Gate Recurrent Unit,門循環(huán)單元)與CNN 結(jié)合訓(xùn)練每個(gè)子任務(wù)的堆疊模型,在情感分類上取得較好的分類結(jié)果。王輝等[23]提出一種改進(jìn)的加權(quán)連續(xù)詞袋與注意力雙向長短期記憶網(wǎng)絡(luò)的文本分類模型,在復(fù)旦大學(xué)語料分類任務(wù)中分類效果提升明顯。Ruder 等[24]使用分層雙向LSTM 對評論中句子的相互依賴性建模,實(shí)驗(yàn)結(jié)果表明分層模型優(yōu)于兩個(gè)非分層基線。
隨著注意力機(jī)制(Attention)的提出,研究人員開始將其應(yīng)用到問題分類中。Yang 等[25]使用注意力機(jī)制來關(guān)注每個(gè)單詞和句子的重要性。Yu 等[26]提出一種用于問題分類的多級注意力卷積LSTM神經(jīng)網(wǎng)絡(luò)(Mutil-level Attention Convolutional-Long Short-Term Memory,MAC-LSTM)。該模型利用疑問詞注意機(jī)制來關(guān)注問題語境中的疑問詞特征,同時(shí)利用混合網(wǎng)絡(luò)的有點(diǎn)捕獲全局特征、局部特征以及時(shí)間序列特征。實(shí)驗(yàn)表明比傳統(tǒng)的機(jī)器學(xué)習(xí)方法具有更好的性能。
現(xiàn)有的危化品問句文本較短,而使用傳統(tǒng)分類方法無法解決特征信息提取以及語義理解困難的問題,從而導(dǎo)致問句文本分類效果較差,進(jìn)一步影響?;穯柎鸫鸢赋槿?zhǔn)確度。上述研究都不是針對?;穯柎痤I(lǐng)域進(jìn)行的研究,所以文本有必要在這方面進(jìn)行一些研究。因此,本文提出了一種基于多特征融合的ATT-BiLSTM-CNN ?;穯柧浞诸惙椒▽ξ;奉I(lǐng)域的問答系統(tǒng)中的問句分類問題進(jìn)行研究來提升危化品問句分類模型的準(zhǔn)確度。
本文提出了一種基于多特征融合的ATT-BiLSTM-CNN 危化品問句分類的模型,以下將該模型簡稱為QCBCA(Question Classification based on BiLSTM-CNN-Attention Network)模型。QCBCA 模型主要由三個(gè)部部分組成,包括文本表示層、特征提取層和輸出層。文本表示層利用Bert 模型增強(qiáng)語義表達(dá)。特征提取層利用CNN 更好地提取局部特征信息,而使用雙層BiLSTM 模型提高特征提取能力以及彌補(bǔ)CNN 在時(shí)序上特征提取的劣勢。在雙層BiLSTM 模型中引入Attention機(jī)制增強(qiáng)關(guān)鍵特征降低非關(guān)鍵特征噪聲。模型具體結(jié)構(gòu)如圖1 所示。
圖1 模型整體框架圖
首先構(gòu)建危化品專業(yè)詞匯表,其次對?;穯柧湮谋具M(jìn)行處理,包括數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理等操作,然后將處理后的文本作為Bert 模型的輸入,得到向量化文本。接著,將向量化文本分別作為雙層BiLSTM+Attention 和CNN 的輸入,進(jìn)行特征提取操作。最后融合提取到的特征并將其作為softmax 層的輸入得到類別輸出。
?;穯柧渲械幕ぴ~匯專業(yè)性強(qiáng),造成問句文本的語義表達(dá)困難。傳統(tǒng)的深度學(xué)習(xí)方法是基于非動態(tài)字符或詞向量作為輸入,一個(gè)詞只有一個(gè)詞向量,這種相對就簡單的信息覆蓋不能很好地區(qū)分歧義并為后續(xù)步驟提供更深層次的語義信息。
為了解決上述問題,本文通過人工收集并構(gòu)建危化品專業(yè)詞匯表,并利用專業(yè)詞匯訓(xùn)練Bert 模型。將處理后的?;穯柧湮谋咀鳛橛?xùn)練好的Bert 語言模型輸入,進(jìn)行訓(xùn)練得到問句詞向量表示。Bert輸入部分是一個(gè)線性序列,嵌入層包含三種embedding,如圖2所示。
圖2 Bert模型嵌入層
Token embeddings 將輸入的句子詞向量化,第一個(gè)單詞是CLS,用于Segmentation embeddings 層的分類任務(wù)。Segmentation embeddings 用來區(qū)別兩個(gè)句子,涉及預(yù)訓(xùn)練任務(wù)中對下一句的預(yù)測。Position embeddings 表示位置信息,使模型反映句子的順序信息。
3.3.1 BiLSTM
LSTM(Long Short-Term Memory Network,長短期記憶網(wǎng)絡(luò))是一種循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)利用遺忘門和輸入們不斷更新記憶信息,從而有效解決梯度消失和梯度爆炸問題。LSTM結(jié)構(gòu)如圖3所示。
圖3 LSTM結(jié)構(gòu)圖
如圖3 所示的水平線表示LSTM 的單元狀態(tài),而單元狀態(tài)是LSTM 的關(guān)鍵。LSTM 首先通過遺忘門的sigmoid 層決定丟棄哪種信息。以ht-1和xt為輸入,在Ct-1單元輸出一個(gè)介于0 和1 之間的數(shù)。其中1 代表完全保留,0 代表完全遺忘。tanh 層創(chuàng)建一個(gè)新的候選向量。再將舊單元狀態(tài)Ct-1更新為Ct。tanh 將狀態(tài)值映射到-1~1 之間,再將其與sigmoid門輸出值相乘,得到最終輸出結(jié)果。
由圖1 可知,將Bert 模型處理后得到的中文問句的詞向量作為BiLSTM(Bi-directional Long Short-Term Memory Network,雙向長短期記憶網(wǎng)絡(luò))的輸入。BiLSTM 是對長期記憶網(wǎng)絡(luò)的改進(jìn),有兩層LSTM,分別從正反兩個(gè)方向讀取詞向量,然后計(jì)算輸出一個(gè)固定維度的向量。BiLSTM 包含前向LSTM 和 后向LSTM 分別 讀取的特征序列。BiLSTM的輸出如下所示:
為能更好地提取文本特征,本文在BiLSTM 結(jié)構(gòu)基礎(chǔ)上增加了一層雙向的LSTM。雙層BiLSTM按時(shí)序展開結(jié)構(gòu)如圖4所示。
圖4 雙層BiLSTM結(jié)構(gòu)圖
雙層BiLSTM將第一層的每個(gè)時(shí)間步的輸出作為第二層的時(shí)間步的輸入,最后將向量進(jìn)行拼接。每層的LSTM 將上文信息與下文信息進(jìn)行拼接作為當(dāng)前向量。第一層的雙向LSTM 學(xué)習(xí)句法特征,第二層的雙向LSTM 學(xué)習(xí)詞義特征。最后將句法特征與詞義特征融合作為softmax 層的輸入,計(jì)算得到問句最終所屬類別。雙層雙向LSTM 可以根據(jù)上下文動態(tài)調(diào)整word embedding,從而解決一詞多義問題。雙層BiLSTM可以更深層次地提取問句文本特征,解決梯度爆炸問題,并且能夠很好地處理時(shí)序預(yù)測問題。
3.3.2 Attention
?;穯柧湮谋驹谔卣魈崛∵^程中會存在一些非關(guān)鍵特征的干擾從而影響分類效果,所以本文在雙層BiLSTM 模型中引入Attention為特征分配權(quán)重。注意力機(jī)制中的注意力模塊自動學(xué)習(xí)注意力權(quán)重αij,自動捕獲編碼器隱藏在狀態(tài)?i和解碼器隱藏狀態(tài)si之間的相關(guān)性。注意力權(quán)重用于構(gòu)建內(nèi)容向量C并且將該向量作為輸入傳遞給解碼器。內(nèi)容向量Cj是編碼器所有隱藏狀態(tài)即相應(yīng)的注意力權(quán)重的加權(quán)和,公式如下:
其中,αij表示注意力權(quán)重,?i為候選狀態(tài),Cj表示每個(gè)解碼位置j的內(nèi)容向量C。
Attention 為雙層BiLSTM 層的每個(gè)輸出分配權(quán)重,而權(quán)重的分配大小將會影響問句分類的最終結(jié)果。注意力機(jī)制可以為不同的特征表示分配權(quán)重,增強(qiáng)最相關(guān)特征表示,忽略噪聲和冗余。因此本文在BiLSTM 網(wǎng)絡(luò)中加入注意力模型,通過檢查權(quán)重來評估首選嵌入下游任務(wù)的嵌入,提高可解釋性以及更深入地了解BiLSTM神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作。雙層BiLSTM+Attention 在進(jìn)行特征提取時(shí)忽略無關(guān)的特征。融合Attenion 的雙層BiLSTM 結(jié)構(gòu)如圖5所示。
圖5 雙層BiLSTM+Attention結(jié)構(gòu)圖
圖5 使用Bert 模型的輸出作為輸入訓(xùn)練雙層BiLSTM+Attention 模型,問句分類操作后能夠得到相關(guān)問句類型,而答案候選類型應(yīng)與問句類型一致,因此在答案抽取階段就會將無關(guān)的候選答案過濾,從而縮小答案候選范圍,提升?;穯柧浞诸惸P偷臏?zhǔn)確度。
3.3.3 CNN
卷積神經(jīng)網(wǎng)絡(luò)是由卷積層和池化層兩部分組成。CNN是一種前饋神經(jīng)網(wǎng)絡(luò),卷積層和池化層交錯。卷積層由計(jì)算單元組成,每個(gè)計(jì)算單元對應(yīng)輸入的一個(gè)小區(qū)域,而這些小區(qū)域覆蓋整個(gè)數(shù)據(jù)。RNN 具有循環(huán)連接,可以一次讀取單詞以及前一個(gè)單詞的輸出,但在并行處理上效果較差。雖然RNN 和CNN 都可以使用詞序,但是CNN 的并行處理能力在面臨大量的文本訓(xùn)練數(shù)據(jù)計(jì)算時(shí)效果更好并且CNN 可以有效提取局部特征,充分利用關(guān)鍵信息提升?;穯柧浞诸愋Ч?。本文使用尺寸為5*5 的卷積核對輸入分別進(jìn)行卷積計(jì)算,接著對所有輸出部分的通道進(jìn)行時(shí)序最大池化操作,再將池化后的結(jié)果向量進(jìn)行拼接,最后將拼接后的向量輸出。
在輸出層,將CNN 卷積神經(jīng)網(wǎng)絡(luò)和雙層BiLSTM+Attention 模型提取到的特征進(jìn)行融合,將融合后的特征作為softmax 層的輸入得到分類結(jié)果。softmax 層計(jì)算每個(gè)分類的概率,根據(jù)計(jì)算得到概率最大的問句分類類別作為輸出。sofmax 將多個(gè)神經(jīng)元的輸出映射到(0,1)區(qū)間從而進(jìn)行分類。公式如下:
其中,z表示上一層輸出,zi表示上一層輸出Z 中的第i個(gè)元素,維度為C,s(z)i表示預(yù)測對象屬于第C類的概率。
本文使用公用數(shù)據(jù)集THCNEWS 和自采集數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。THCNEWS 是清華大學(xué)自然語言處理組根據(jù)新浪新聞2005-2011 年間的歷史數(shù)據(jù)篩選過濾生成的,從中抽取5 萬條作為實(shí)驗(yàn)數(shù)據(jù)。本文使用網(wǎng)絡(luò)爬蟲技術(shù)采集?;废嚓P(guān)網(wǎng)站的問答文本作為自采集實(shí)驗(yàn)數(shù)據(jù),共52146 條?;穯柎鹞谋緮?shù)據(jù)。首先對采集到的數(shù)據(jù)進(jìn)行清洗、預(yù)處理,再以7∶3 的比例劃分?jǐn)?shù)據(jù)為訓(xùn)練集、測試集用于實(shí)驗(yàn)。自采集實(shí)驗(yàn)數(shù)據(jù)分布如表1所示。
表1 ?;穯柧漕悇e分布
根據(jù)國家技術(shù)監(jiān)督局發(fā)布的文件《常用危險(xiǎn)化學(xué)品的分類及標(biāo)志》將化學(xué)品分類分為9 類,第一類:爆炸品;第二類:壓縮氣體和液化氣體;第三類:易燃液體;第四類:易燃固體、自燃物品和遇濕易燃物品;第五類:氧化劑和有機(jī)過氧化物;第六類:有毒品;第七類:放射性物品;第八類:腐蝕品;第九類:非危險(xiǎn)化學(xué)品。因此,本文實(shí)驗(yàn)將以此標(biāo)準(zhǔn)進(jìn)行分類類別實(shí)驗(yàn)。
本文首先對爬取到的?;穯柧湮谋緮?shù)據(jù)進(jìn)行清洗、預(yù)處理,接著對問句文本進(jìn)行人工標(biāo)注。隨機(jī)抽取36503 條用于模型訓(xùn)練,15643 條用于驗(yàn)證模型效果。
在模型訓(xùn)練過程中,使用的模型參數(shù)設(shè)置如表2所示。
表2 訓(xùn)練參數(shù)
為了驗(yàn)證本文問句分類模型的有效性,將其與CNN、BiLSTM、BiLSTM+CNN、BiLSTM+Attention+CNN 進(jìn)行對比測試。本文采用準(zhǔn)確率(Precision)、召回率(Recall)、F1 值作為實(shí)驗(yàn)評價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表3所示。
實(shí)驗(yàn)結(jié)果可以看出BCAQC 模型比其他模型效果好,表明該模型的優(yōu)越性。由實(shí)驗(yàn)結(jié)果可見混合模型的準(zhǔn)確度比單模型的準(zhǔn)確度高,驗(yàn)證了混合模型增強(qiáng)特征提取的能力。加入Attention 的混合模型比未引入Attention 的模型準(zhǔn)確度分別提高了1.45%、1.53%、1.45%,可見Attention 能夠增強(qiáng)關(guān)鍵特征,進(jìn)而提高問句分類的準(zhǔn)確度。表3 使用雙層BiLSTM 模型的效果分別提高了0.9%、0.89%、0.88%,可見雙層BiLSTM 特征提取能力優(yōu)于BiLSTM。使用了Bert 模型可以增強(qiáng)語義表征,提高模型分類性能。由于危化品詞匯專業(yè)性較強(qiáng),對于特征提取、語義理解效果較差,而融合危化品專業(yè)詞匯表后的Bert模型在?;穯柧浞诸愔斜憩F(xiàn)較佳,可以更好地提高專業(yè)詞匯的語義表達(dá)。
表4 是使用BCAQC 模型對危化品問句文本進(jìn)行處理,在爆炸品;壓縮氣體和液化氣體;易燃液體;易燃固體、自燃物品和遇濕易燃物品;氧化劑和有機(jī)過氧化物;有毒品;放射性物品;腐蝕品;非危險(xiǎn)化學(xué)品9 個(gè)類別的分類精確率、召回率和F1 值。平均精確率94.79%,平均召回率95.27%,平均F1值94.67%,在?;穯柧浞诸惾蝿?wù)中表現(xiàn)良好。由于易燃固體、自燃物品和遇濕易燃物品是常見問題,文本數(shù)據(jù)量最多,而深度學(xué)習(xí)模型需要大量數(shù)據(jù)支撐,由表4 可見在第八類中精確率、召回率和F1值分別達(dá)到了97.81%、98.13%、97.85%。第二類文本數(shù)據(jù)量最少,與其他類別相比效果較弱,因此數(shù)據(jù)量會影響模型分類效果。
表4 模型類別分類結(jié)果/%
本文將THCNEWS 數(shù)據(jù)集劃分為14 個(gè)分類類別,包括財(cái)經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會、時(shí)尚、時(shí)政、體育、星座、游戲、娛樂。利用THCNEWS 數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證本文問句分類模型的有效性,實(shí)驗(yàn)結(jié)果如表5所示。
表5 模型分類結(jié)果/%
由表5 可以看出本文提出的QCBCA 模型分類效果最佳。該模型與CNN、BiLSTM、BiLSTM+CNN、BiLSTM+Attention+CNN 等算法相比精確率、召回率和F1 值分別提高了7.05%~10.2%、8.09%~11.38%、9.28%~15.28%。
綜上,本文提出的模型可以有效提取問句特征并且增強(qiáng)關(guān)鍵特征,進(jìn)一步提高問句文本的語義理解能力,在?;分形膯柧浞诸惾蝿?wù)上表現(xiàn)出了優(yōu)越的性能。
在自然語言處理任務(wù)上,與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)抽象了文本之間的聯(lián)系。問句分類作為問答系統(tǒng)的關(guān)鍵部分,問句分類的準(zhǔn)確度影響問答系統(tǒng)中的答案抽取的準(zhǔn)確度。針對?;穯柧湮谋镜奶攸c(diǎn),本文提出了一種基于多特征融合的ATT-BiLSTM-CNN 問句分類模型,增強(qiáng)?;穯柧湮谋镜年P(guān)鍵特征、語義理解,滿足?;沸畔柎鹣到y(tǒng)的實(shí)際需求。實(shí)驗(yàn)結(jié)果表明該問句分類模型的F1 值、準(zhǔn)確率、召回率均有提升。將多種不同類型的特征進(jìn)行組合以及在更深層次的分類任務(wù)中進(jìn)一步優(yōu)化危化品問句分類模型將是未來研究的主要方向。