袁野,廖薇
上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海201620
隨著醫(yī)療信息化的發(fā)展,網(wǎng)絡(luò)問診逐漸成為了人們獲取疾病癥狀、用藥、治療方案等信息的主要渠道。到醫(yī)院就診前或者沒有必要去醫(yī)院時(shí),通過搜索引擎和網(wǎng)絡(luò)問診平臺(tái)查找和咨詢健康問題成為了大多數(shù)人的首要選擇,互聯(lián)網(wǎng)醫(yī)療已成為重要的補(bǔ)充醫(yī)療服務(wù)。目前的網(wǎng)絡(luò)問診形式大多需要患者首先選擇咨詢的科室,然后輸入詢問內(nèi)容,最后平臺(tái)匹配醫(yī)生與患者進(jìn)行交流。在此過程中,科室如何選擇依賴于患者的知識(shí)和經(jīng)驗(yàn),對(duì)于不了解的疾病和癥狀,會(huì)出現(xiàn)科室選擇錯(cuò)誤的情況。因此,如何自動(dòng)將健康咨詢內(nèi)容分門別類,自動(dòng)分析疾病文本并給出對(duì)應(yīng)的科室或者類別是目前研究的重點(diǎn)。
文本分類是自然語言處理中的一個(gè)經(jīng)典問題[1],主要是為了解決句子、段落、文檔等文本的標(biāo)簽分配問題。良好的文本分類模型有助于提高信息的提取效率,方便用戶迅速檢索目的信息,在問答系統(tǒng)[2]、情感分析[3]、新聞分類[4]、用戶意圖分類等領(lǐng)域都有廣泛的應(yīng)用。
在疾病文本分類方面,傳統(tǒng)的方法是基于機(jī)器學(xué)習(xí)的方法,通過人工篩選文本特征訓(xùn)練分類器。柏挺等[5]研究了樸素貝葉斯和貝葉斯網(wǎng)絡(luò)在遠(yuǎn)程醫(yī)療文本分類任務(wù)上的性能,在特征詞選擇正確的情況下,增加其數(shù)量可以提高分類性能。文獻(xiàn)[6]考慮了多種特征選擇方法,考慮將問題轉(zhuǎn)換方法與不同特征結(jié)合起來。Campillos等[7]提出設(shè)計(jì)一個(gè)通過詞語或者句子匹配實(shí)現(xiàn)醫(yī)療健康文本分類的系統(tǒng),對(duì)麻醉、心臟病和肺部疾病領(lǐng)域的文本能夠進(jìn)行有效分類。傳統(tǒng)機(jī)器學(xué)習(xí)方法主要是特征工程,對(duì)于特征選擇、規(guī)則制定需要大量的專業(yè)人員投入其中,且往往只適用于特定的疾病垂直領(lǐng)域,通用性和擴(kuò)展性較差。
隨著Mikolov等[8-9]引入了詞向量模型Word2vec,深度學(xué)習(xí)在疾病文本分類任務(wù)中開始快速地發(fā)展。Word2vec使用神經(jīng)網(wǎng)絡(luò)將詞語映射到維度較低的向量空間中,使得向量能夠表達(dá)語義信息[10]。文獻(xiàn)[11]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在句子粒度對(duì)臨床文本進(jìn)行分類,多層CNN可以學(xué)習(xí)到更多的語義特征。文獻(xiàn)[12]對(duì)多個(gè)機(jī)器學(xué)習(xí)方法在中醫(yī)病歷分類中的應(yīng)用進(jìn)行了實(shí)驗(yàn),并且提出一種結(jié)合深度學(xué)習(xí)的中醫(yī)病歷文本的表示方法。Chen等[13]提出一種基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory Network,BiLSTM)模型,實(shí)現(xiàn)根據(jù)文本內(nèi)容進(jìn)行門診類別分類的功能。在現(xiàn)有的基于深度學(xué)習(xí)的疾病文本分類方法中,使用CNN網(wǎng)絡(luò)缺乏對(duì)于文本序列特征的學(xué)習(xí)能力,使用LSTM網(wǎng)絡(luò)只能對(duì)序列的單個(gè)方向進(jìn)行特征提取,單一模型所考慮的特征存在一定的局限性,難以覆蓋疾病文本所有重要的特征層面。
針對(duì)上述問題,為了探索疾病文本與類別的潛在關(guān)聯(lián)特征,本文提出一種基于雙通道神經(jīng)網(wǎng)絡(luò)的疾病文本分類模型(Text Classification Model for Dis‐ease,TCMD),使用詞向量進(jìn)行文本表示,解決短文本的特征稀疏性;將詞嵌入后的文本并行輸入結(jié)合自注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和CNN中,進(jìn)行不同層面的特征提取,增強(qiáng)了句子的整體序列特征以及局部詞序特征。實(shí)驗(yàn)結(jié)果表明,TCMD比現(xiàn)有方法具有更好的分類性能。
本文提出的TCMD模型結(jié)構(gòu)圖如圖1所示,將疾病文本并行輸入到兩種學(xué)習(xí)網(wǎng)絡(luò)中學(xué)習(xí)不同的特征,最后將兩個(gè)通道的特征進(jìn)行拼接融合,共同決定分類結(jié)果。TCMD模型主要由以下幾部分組成:(1)詞嵌入層將文本詞向量表示;(2)CNN通道使用3個(gè)窗口大小不同的卷積核提取文本局部特征,通過最大池化獲取其中最顯著的特征;(3)BiLSTM_Attent‐tion通道提取疾病文本上下文語義信息,引入自注意力機(jī)制對(duì)重要詞語賦予更高的權(quán)重,加強(qiáng)局部關(guān)注度;(4)拼接以上兩部分的輸出作為最終的疾病文本特征;(5)最后通過Softmax預(yù)測(cè)分類結(jié)果。
圖1 TCMD模型Fig.1 Text classification model for disease(TCMD)
對(duì)于原始文本需要進(jìn)行預(yù)處理操作,過程如下:(1)首先對(duì)文本進(jìn)行分詞處理,去除對(duì)文本中出現(xiàn)的標(biāo)點(diǎn)符號(hào)、停用詞以及特殊字符等。(2)建立字典,將詞語進(jìn)行統(tǒng)計(jì)和編碼。(3)統(tǒng)一文本的最大長(zhǎng)度L,若文本詞語數(shù)大于L則進(jìn)行截?cái)?,若文本詞語數(shù)小于L或者出現(xiàn)了未登錄詞語時(shí)使用0進(jìn)行向量填充,使長(zhǎng)度達(dá)到L。由于本文使用文本數(shù)據(jù)長(zhǎng)度平均值為78,故本文L設(shè)為80。(4)最后進(jìn)行文本向量化,將文本序列s=(w1,w2,…,wL)中每一個(gè)詞語wi轉(zhuǎn)化為預(yù)先使用Word2vec訓(xùn)練好的N維詞向量vi,得到維度為L(zhǎng)×N的文本矩陣表示,如式(1)所示:
Word2vec是詞嵌入的一種表示,從大量文本語料中學(xué)習(xí)詞語語義信息,通過一個(gè)低維的嵌入空間使得語義上相似的單詞在該空間內(nèi)距離很近,擁有很好的計(jì)算特性,避免了使用詞袋模型表達(dá)文本時(shí)的維度災(zāi)難和語義信息缺失的缺點(diǎn)。Word2vec提出了兩個(gè)神經(jīng)網(wǎng)絡(luò)語言模型:連續(xù)詞袋模型Continuous Bag of Words(CBOW)和Skip-gram模型。CBOW模型和Skip-gram模型都屬于淺層神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層和輸出層,在對(duì)語言模型進(jìn)行建模的同時(shí)獲得詞在向量空間上的詞向量表示。
對(duì)于文本s=(w1,w2,…,wL),Skip-gram模型使得式(2)取到最大值:
其中,c表示訓(xùn)練窗口的大小,即當(dāng)前詞wt的前面c個(gè)詞和后面的c個(gè)詞。
CNN通道主要由輸入層、卷積層、池化層組成,整體框架如圖2所示。
圖2 多尺度卷積CNN通道Fig.2 Multi-scale convolutional neural network channels
將向量化后的文本序列(式(1))作為CNN通道的輸入層,通過設(shè)計(jì)多個(gè)尺寸不同的卷積核增加特征多樣性,得到各尺寸下的特征信息,每個(gè)窗口對(duì)輸入進(jìn)行卷積計(jì)算的公式為:
其中,g為激活函數(shù),本文采用ReLU激活函數(shù),Wh∈Rh×N表示卷積核的權(quán)重矩陣,v m:m+h-1表示m至m+h-1窗口內(nèi)的詞向量矩陣,bh為偏置,m代表卷積核滑動(dòng)窗口的位置,將上述所有輸出特征連接起來就得到了卷積層的輸出Yh,如式(4)所示:
其中,yhi表示第i個(gè)大小為h的卷積核提取的文本特征。
池化層對(duì)卷積的輸出進(jìn)行冗余特征過濾,將高維特征進(jìn)行降維,防止模型過擬合。本文使用最大池化(Max-pooling),對(duì)于每一個(gè)特征向量,保留Yh中的最大值作為對(duì)應(yīng)的文本特征max(yh)。
TCMD模型使用2×N、3×N、4×N大小的卷積核對(duì)文本矩陣s進(jìn)行卷積操作,每個(gè)尺寸的卷積核數(shù)目為128個(gè),步長(zhǎng)為1從上往下滑動(dòng),則3種尺寸的卷積核卷積后得到的特征輸出分別為:
3個(gè)卷積核的輸出直接進(jìn)行拼接操作,得到CNN多尺度特征提取通道的向量輸出為C=Y2⊕Y3⊕Y4,特征維度為384。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)擅長(zhǎng)處理序列數(shù)據(jù),但隨著序列長(zhǎng)度的增加,會(huì)產(chǎn)生訓(xùn)練時(shí)梯度消失、梯度爆炸以及長(zhǎng)期依賴的問題。LSTM作為RNN的一種變體,通過增加輸入門it、遺忘門ot、輸出門ft以及記憶狀態(tài)細(xì)胞ct來解決上述問題,使用門機(jī)制控制信息的保留、遺忘以及狀態(tài)更新,其計(jì)算公式如下:
其中,σ表示非線性激活函數(shù),W為權(quán)重矩陣,b為偏置,xt為t時(shí)刻的輸入向量,ht-1為前一時(shí)刻的輸出,ct-1為前一時(shí)刻的隱藏狀態(tài),ct和ht分別為當(dāng)前時(shí)刻的狀態(tài)和輸出。
LSTM只能學(xué)習(xí)文本的下文信息,而不能學(xué)習(xí)文本的上文信息。決定疾病文本類別的詞語可能分布在句子的任意位置,其語義同時(shí)受到上下文信息的影響,因此TCMD通過BiLSTM結(jié)構(gòu)使用兩個(gè)方向相反的LSTM來捕捉過去和未來的語義信息,并引入自注意力機(jī)制對(duì)語義信息賦予不同的權(quán)重,整體結(jié)構(gòu)如圖3所示。
圖3 結(jié)合自注意力機(jī)制的BiLSTM通道Fig.3 BiLSTM channel combined with self-attention mechanism
本文通過BiLSTM來表示疾病文本的深層信息。BiLSTM對(duì)每個(gè)時(shí)刻輸入的句子嵌入進(jìn)行編碼,得到相應(yīng)的隱層向量,具體過程如下:
其中,和分別表示LSTM從左往右和從右往左讀取句子。以及分別表示前向與后向兩個(gè)隱層輸出,均為128維。Ht為最終隱藏層的輸出,維度為256。
TCMD模型使用BiLSTM對(duì)文本原始的詞向量進(jìn)行編碼,分析詞語之間的相關(guān)性,保留完整的上文和下文信息,同等地考慮兩種特征,彌補(bǔ)了CNN只能獲得局部信息的不足。
疾病文本中不是每個(gè)詞都對(duì)句子有重要意義,往往包含了大量口語化詞語,更需要捕捉哪些詞語對(duì)分類結(jié)果的影響較大。為了區(qū)分輸入疾病文本中每個(gè)詞語的重要程度,本文采用自注意力(self-atten‐tion)對(duì)BiLSTM的輸出進(jìn)行全局性的學(xué)習(xí),更加關(guān)注重點(diǎn)詞語,并且將學(xué)習(xí)結(jié)果與輸出序列融合,這樣能突出文本的重要信息,建立句子中局部與全局之間的關(guān)系,從而更好地表征文本信息。
自注意力模塊的輸入由Q(Query)、K(Key)和V(value)構(gòu)成,如式(16)所示。輸出是帶有權(quán)重和的V向量,具體算法步驟如下。
(1)將Q、K和V進(jìn)行線性變換:
其中,WQ、WK、WV分別為Q、K和V的權(quán)重矩陣。
(2)將步驟(1)中的K'T與Q'進(jìn)行點(diǎn)積運(yùn)算,打分函數(shù)采用縮放點(diǎn)積函數(shù),通過除以K的維度進(jìn)行縮放,使內(nèi)積不會(huì)過大。再通過softmax歸一化為概率分布,輸出自注意力權(quán)重向量S:
(3)將步驟(2)得到的自注意力權(quán)重向量S與V相乘,形成句子自注意力模塊的最終加權(quán)輸出AB,其維度為256:
自注意力機(jī)制的增加改變了BiLSTM輸出的隱藏狀態(tài),對(duì)于編碼的結(jié)果加入了權(quán)重的影響,能夠突出重要特征。
為使文本序列特征與局部特征建立聯(lián)系,將雙通道輸出的特征表示進(jìn)行拼接得到維度為640的最終特征向量U=[Y2⊕Y3⊕Y4⊕AB],令其作為soft‐max分類器的輸入,共同決定文本的類別結(jié)果,計(jì)算公式為:
最后,通過最小化交叉熵來優(yōu)化模型,如式(21)所示:
其中,T表示訓(xùn)練數(shù)據(jù)集,C為文本類別數(shù),yi為文本實(shí)際類別,λ為正則,θ為設(shè)置的參數(shù)。
本文實(shí)驗(yàn)數(shù)據(jù)集來自網(wǎng)絡(luò)問診平臺(tái),共九大類疾病文本,分別是呼吸科(C1)、內(nèi)分泌科(C2)、神經(jīng)科(C3)、內(nèi)科(C4)、消化科(C5)、心血管科(C6)、耳鼻喉科(C7)、營(yíng)養(yǎng)保健科(C8)以及神經(jīng)腦外科(C9),每個(gè)類別的數(shù)據(jù)量為1萬條,數(shù)據(jù)總量9萬條,其中70%為訓(xùn)練集,10%為驗(yàn)證集,剩余20%為測(cè)試集。
本文評(píng)估指標(biāo)采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F-score)、ROC以及ROC曲線下的面積(Area Under Curve,AUC)[14]。精確率用于檢驗(yàn)結(jié)果的有效性,召回率檢查結(jié)果的完整性,F(xiàn)1值調(diào)和平均準(zhǔn)確率與召回率。ROC曲線的橫縱坐標(biāo)分別為特異性(FPR)和敏感度(TPR),綜合衡量模型的有效性和可靠性;AUC反映了模型的分類性能,其值越接近于1,模型分類性能越好。
本文實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)Win10,CPU型號(hào)為Intel Core i5-9400F,GPU為GeForce GTX 1660s,內(nèi)存大小16 G,深度學(xué)習(xí)框架TensorFlow1.15.0,編程語言Python3。
本文使用Word2vec預(yù)訓(xùn)練詞向量,維度為64,詞典大小為5 000;CNN卷積窗口大小分別為2、3、4,卷積核數(shù)量為128個(gè);正向和反向的LSTM單元大小均設(shè)置為128,共享詞嵌入輸入;采用ReLU激活函數(shù);dropout設(shè)置為0.5以防止過擬合;訓(xùn)練批次batch_size設(shè)置為128;使用交叉熵作為損失函數(shù);優(yōu)化器使用Adam;初始學(xué)習(xí)率設(shè)置為0.001,網(wǎng)絡(luò)迭代次數(shù)epoch設(shè)置為20。
2.4.1 模型性能分析為了驗(yàn)證TCMD模型在疾病文本分類任務(wù)上的性能,設(shè)置實(shí)驗(yàn)參數(shù),使用訓(xùn)練集進(jìn)行模型訓(xùn)練,使用測(cè)試集對(duì)模型進(jìn)行分類性能評(píng)估,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 TCMD模型分類測(cè)試結(jié)果Fig.4 Classification test results of TCMD
由于數(shù)據(jù)集中包含許多領(lǐng)域?qū)I(yè)詞匯以及罕見詞,模型對(duì)于部分類別的疾病文本不能充分學(xué)習(xí);另一方面,數(shù)據(jù)集中的描述文本包含了大量的非正式語言,一定程度上會(huì)導(dǎo)致模型學(xué)習(xí)到語義混亂的文本特征。由圖4可知,整體來看,TCMD模型取得了不錯(cuò)的分類效果,F(xiàn)1值均超過了85%,其中類別C7的精確率與F1值最高。類別C3與C6的指標(biāo)評(píng)分較其他類別略低,是因?yàn)樵诒疚脑O(shè)置的文本序列長(zhǎng)度為80,且其他7個(gè)類別的平均文本長(zhǎng)度達(dá)到78的情況下,C3與C6的文本平均長(zhǎng)度都沒有超過70,所以這兩類文本在預(yù)處理時(shí)增加了許多空白位,對(duì)模型提取語義特征產(chǎn)生影響,從而影響模型的分類性能。
圖5展示了TCMD模型在9種疾病文本分類上的ROC曲線。各類別疾病文本的AUC波動(dòng)較小,平均AUC值為0.989 1,說明模型在各類別上都能達(dá)到很好的分類效果。
圖5 TCMD模型的ROC曲線Fig.5 ROC curve of TCMD
2.4.2 對(duì)比實(shí)驗(yàn)分析為進(jìn)一步驗(yàn)證TCMD模型的分類性能,本節(jié)設(shè)置多個(gè)分類模型對(duì)比實(shí)驗(yàn),包括傳統(tǒng)的分類模型支持向量機(jī)(SVM)、樸素貝葉斯(Bayes)以及深度學(xué)習(xí)中的FastText、CNN、LSTM、RCNN[15]分類模型,所有模型在同一數(shù)據(jù)集上進(jìn)行訓(xùn)練以及測(cè)試,對(duì)比傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法在疾病文本分類任務(wù)上的優(yōu)劣。各模型設(shè)置參數(shù)如下:(1)傳統(tǒng)機(jī)器學(xué)習(xí)方法:SVM和樸素貝葉斯。(2)FastText,此方法中上下文窗口大小設(shè)置為5,語言模型為2-gram。(3)CNN,此方法為本文模型中CNN通道采用的方法,超參數(shù)與TCMD中的CNN相同。(4)LSTM,此方法使用詞嵌入方式,利用單向LSTM網(wǎng)絡(luò)提取序列特征,超參數(shù)與TCMD中LSTM一致。(5)RCNN,RCNN結(jié)合RNN與CNN,將CNN網(wǎng)絡(luò)中卷積層替換為雙向RNN,隱藏層個(gè)數(shù)設(shè)置為128。對(duì)比實(shí)驗(yàn)的性能評(píng)估指標(biāo)為分類精確率、召回率以及F1值,結(jié)果如表1所示。
表1 疾病文本分類模型實(shí)驗(yàn)結(jié)果(%)Tab.1 Experimental results of different text classification models for diseases(%)
從表1可以看出,深度學(xué)習(xí)模型性能均要優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型SVM和Bayes,原因是深度學(xué)習(xí)能夠提取到更豐富的分類特征。其中,SVM模型通過組合多個(gè)二分類器來構(gòu)建SVM多分類器,雖然該模型有著較好的分類精準(zhǔn)率,但召回率遠(yuǎn)遠(yuǎn)低于其他模型,從而導(dǎo)致F1值的降低,分類性能不佳。
另一方面,由表1中性能數(shù)據(jù)可知,TCMD的精確率、召回率和F1值分別為90.61%、90.48%、90.51%,相比FastText各指標(biāo)提升了5.26%、5.49%以及5.40%,TCMD模型能夠提取長(zhǎng)期上下文依賴特征,而FastText模型對(duì)輸入文本進(jìn)行N-gram處理,只能夠獲取局部詞向量特征以及詞序順序,故評(píng)估指標(biāo)較低于TCMD。相比于RCNN模型,TCMD不僅能夠?qū)ι舷挛奶卣鬟M(jìn)行學(xué)習(xí),通過自注意力機(jī)制還加強(qiáng)了重要詞語的特征信息,故性能略有提升,精確率和F1值分別均提高了1.50%。相比于CNN與LSTM單模型,TCMD的F1值分別提高了1.33%、2.70%,主要原因是CNN單模型、LSTM單模型分別只考慮了文本局部特征、下文信息特征對(duì)分類結(jié)果的影響,切入面單一。而TCMD能夠充分考慮兩個(gè)特征層面,通過結(jié)合CNN與BiLSTM的優(yōu)點(diǎn),積極提取對(duì)文本分類起到正面作用的特征,發(fā)揮出CNN局部特征提取的優(yōu)勢(shì)以及BiLSTM對(duì)不同距離的雙向語義信息的保留和篩選能力。在此基礎(chǔ)上,注意力對(duì)語義信息進(jìn)行權(quán)重分配,學(xué)習(xí)了句子中不同詞語對(duì)于文本分類結(jié)果的重要程度,故分類效果有所提高。
綜上,TCMD模型各項(xiàng)評(píng)估指標(biāo)優(yōu)于其他分類模型,說明了基于雙通道神經(jīng)網(wǎng)絡(luò)的方法能夠有效提升疾病文本的分類性能。
在深度學(xué)習(xí)模型訓(xùn)練方面,訓(xùn)練數(shù)據(jù)量的改變會(huì)對(duì)模型的分類性能產(chǎn)生顯著的影響。通過改變訓(xùn)練數(shù)據(jù)集的大小來分析數(shù)據(jù)量與模型的分類準(zhǔn)確率的關(guān)系。以數(shù)據(jù)總量的10%為步長(zhǎng)設(shè)置訓(xùn)練數(shù)據(jù)集大小,各模型訓(xùn)練結(jié)果如圖6所示。由圖可知,隨著數(shù)據(jù)量的增加,5種模型的準(zhǔn)確率呈上升趨勢(shì),但在數(shù)據(jù)量最少時(shí)(10%),TCMD模型的訓(xùn)練準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于其他模型,說明對(duì)于小數(shù)據(jù)集TCMD模型仍有著較好的分類性能。CNN和LSTM的準(zhǔn)確率需要訓(xùn)練數(shù)據(jù)量分別達(dá)到60%和70%之后才保持在90%以上,而TCMD模型在數(shù)據(jù)量達(dá)到40%之后即可達(dá)到相同的性能指標(biāo),表現(xiàn)出良好的分類能力。
圖6 各模型在不同數(shù)據(jù)量下的準(zhǔn)確率Fig.6 Accuracy of each model under different data volumes
以往的疾病分類研究受到疾病文本數(shù)據(jù)庫的限制,只能處理極少數(shù)疾病文本的分類任務(wù);或者分類模型考慮到的特征粒度較為單一,性能尚有較大提升空間。本研究在數(shù)據(jù)集方面使用了充足的多類別疾病文本數(shù)據(jù),在模型上兼顧文本的局部特征和上下文語義特征,同時(shí)在BiLSTM層后加入自注意力機(jī)制,用以提取句子的全局信息特征,能夠區(qū)分詞語對(duì)結(jié)果的重要程度,實(shí)驗(yàn)結(jié)果表明本文模型的分類精度更高、性能更穩(wěn)定。
本文提出的TCMD模型面向的是疾病文本,可以應(yīng)用于網(wǎng)絡(luò)問診、醫(yī)院智能導(dǎo)診、醫(yī)療文本數(shù)據(jù)挖掘處理等方面。在下一階段的工作中,對(duì)于本文模型訓(xùn)練時(shí)間較長(zhǎng)的不足需要加以改進(jìn)。未來的研究重點(diǎn)是融合疾病文本的其他特征,如將文本長(zhǎng)度、醫(yī)療文本詞典等特征融入模型,構(gòu)建更好的分類模型。