一種針對成分樹的混合神經(jīng)網(wǎng)絡(luò)模型

2019-04-17 05:44:02薛瑤環(huán)黃君揚金軒城鄒依婷

中文信息學(xué)報 2019年3期

霍歡，薛瑤環(huán)，黃君揚，金軒城，鄒依婷

(1. 上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院，上海 200093；2. 復(fù)旦大學(xué) 上海市數(shù)據(jù)科學(xué)重點實驗室，上海 201203)

0 引言

現(xiàn)有的文本處理模型大致可以分為三類: BOW(bag-of-words)模型、基于序列結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型和基于樹結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。與BOW模型[1]中詞與詞間的獨立性假設(shè)相比，基于序列結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型[2-3]將詞序信息納入文本的表示學(xué)習(xí)，并因其突出性能被廣泛使用。但是這兩種模型均未考慮文本自身存在的句法結(jié)構(gòu)，而句法結(jié)構(gòu)對獲取文本的語義特征非常重要。因此，學(xué)者們將序列結(jié)構(gòu)擴(kuò)展為樹結(jié)構(gòu)，將句法結(jié)構(gòu)特征納入文本的表示學(xué)習(xí)中，在各類自然語言處理任務(wù)上取得了很好的效果[4-6]?，F(xiàn)有的針對成分樹(constituent tree)的LSTM[7]模型有三種: Zhu等提出的S-LSTM[8]，Tai等提出的Constituency Tree-LSTMs[9]和Le等提出的LSTM-RNN[10]，這類模型對序列LSTM的擴(kuò)展方式基本相同，都是將順序處理的LSTM單元按成分樹遞歸排布，將句法結(jié)構(gòu)納入文本的表示學(xué)習(xí)中，大大改善了文本表達(dá)的質(zhì)量。本文將這類模型統(tǒng)稱為C-TreeLSTM。

但C-TreeLSTM模型的缺點也顯而易見: 模型將文本句子解析成成分樹，其中葉子節(jié)點對應(yīng)于輸入單詞，內(nèi)部節(jié)點表示句法成分。由于模型只在葉子節(jié)點直接使用輸入單詞的語義信息，內(nèi)部節(jié)點的隱藏狀態(tài)僅由左右子節(jié)點的隱藏狀態(tài)和記憶單元決定，與輸入詞之間沒有直接關(guān)聯(lián)[11]。這種計算方式在文本的長距離編碼過程中對單詞語義信息的記憶越來越少，影響了文本建模的準(zhǔn)確度，尤其是對于序列較長的復(fù)雜任務(wù)，準(zhǔn)確度不高。

為了解決這個問題，本文提出一種針對成分樹的混合神經(jīng)網(wǎng)絡(luò)模型。該模型借助BiLSTM[12]的編碼方法計算文本成分樹各內(nèi)部節(jié)點所覆蓋短語的語義向量，然后將語義向量注入相應(yīng)內(nèi)部節(jié)點進(jìn)行節(jié)點的編碼，增強節(jié)點對文本語義信息的記憶，故將此模型命名為Sementic C-TreeLSTM(SC-TreeLSTM)。模型包含短語向量計算模塊和節(jié)點編碼模塊兩個子模塊。前者完成內(nèi)部節(jié)點所覆蓋的短語語義向量的計算，后者進(jìn)行節(jié)點成分的編碼。本文在情感分類和機(jī)器閱讀理解兩種自然語言處理任務(wù)上對模型進(jìn)行測試，實驗結(jié)果表明SC-TreeLSTM的表現(xiàn)普遍優(yōu)于C-TreeLSTM。

本文結(jié)構(gòu)安排如下: 第1節(jié)對C-TreeLSTM進(jìn)行概述，第2節(jié)闡述了SC-TreeLSTM模型的詳細(xì)設(shè)計，第3節(jié)介紹實驗設(shè)置并分析實驗結(jié)果，第4節(jié)介紹相關(guān)工作，最后為總結(jié)全文。

1 背景知識

1.1 BiLSTM

BiLSTM網(wǎng)絡(luò)以LSTM網(wǎng)絡(luò)為基礎(chǔ)，對每個訓(xùn)練序列按照向前和向后分別訓(xùn)練正向和反向兩個LSTM網(wǎng)絡(luò)，則序列中的每個元素為正向LSTM的隱藏狀態(tài)和反向LSTM的隱藏狀態(tài)的拼接。LSTM網(wǎng)絡(luò)包括以下幾個部分: 輸入序列、輸入門ij、輸出門oj和遺忘門fj，記憶單元cj控制并調(diào)整長期的記憶單元記憶和遺忘哪些信息，給定輸入序列X:x1,x2,…,xl，當(dāng)前時刻的記憶單元cj計算如式(1)所示。

(1)

其中，

j為當(dāng)前輸入的索引，1≤j≤l；?為Hadamard乘積操作；輸入門ij控制新內(nèi)容的輸入，遺忘門fj控制舊內(nèi)容的遺忘；σ為對應(yīng)元素相乘的函數(shù)，如雙曲正切函數(shù)或邏輯S形函數(shù)。最后，根據(jù)當(dāng)前時刻的記憶單元cj和相應(yīng)輸出門oj計算當(dāng)前輸入的隱藏狀態(tài)hj，如式(5)、式(6)所示。

1.2 針對成分樹建模的C-TreeLSTM

本節(jié)將對C-TreeLSTM模型進(jìn)行概述。圖1展示了將John visited Mary this afternoon進(jìn)行解析后的成分樹。

圖1 成分樹示例

(7)

其中，

(8)

(9)

(10)

(11)

圖2 節(jié)點隱藏狀態(tài)計算

最后，根據(jù)當(dāng)前節(jié)點的記憶單元ct和相應(yīng)輸出門ot計算每個節(jié)點的隱藏狀態(tài)ht，如式(12)、式(13)所示。

(12)

ht=ot?tanh(ct)

(13)

2 混合神經(jīng)網(wǎng)絡(luò)模型SC-TreeLSTM

本文提出一種針對成分樹的SC-TreeLSTM模型，該模型借助BiLSTM網(wǎng)絡(luò)的單詞編碼方法計算各內(nèi)部節(jié)點所覆蓋短語的語義向量，然后將短語向量注入相應(yīng)內(nèi)部節(jié)點進(jìn)行樹節(jié)點的編碼，增強節(jié)點對文本語義信息的記憶，提高文本建模的準(zhǔn)確度。

2.1 短語向量計算模塊

圖3展示了短語語義向量的計算過程。對于文本句子X:x1,x2,…,xl，首先，將一系列單詞輸入BiLSTM網(wǎng)絡(luò)進(jìn)行編碼，獲得包含單詞本身詞義和上下文信息的語義向量，如式(14)～式(16)所示。

(14)

(15)

(16)

圖3 短語語義向量計算過程

然后，計算文本的短語語義向量。對于句子中的任意短語Vm,n，其短語語義向量如式(17)所示。

γm,n=g(hm,…,hn)

(17)

(18)

2.2 節(jié)點編碼模塊

圖4展示了文本節(jié)點的編碼過程。首先，本文將序列解析成成分樹；然后，提取各內(nèi)部節(jié)點所覆蓋的短語，將上節(jié)計算出的短語語義向量γm,n注入相應(yīng)的內(nèi)部節(jié)點。以John visited Mary this afternoon的成分樹為例(圖1)，第2層的內(nèi)部節(jié)點ADVP(副詞短語)覆蓋的短語是this afternoon，因此在計算此節(jié)點記憶單元的時候注入短語this afternoon的語義向量γ4,5，第3層的節(jié)點VP(動詞短語)為第2層節(jié)點ADVP與VP的父節(jié)點，覆蓋短語visited Mary this afternoon，因此在計算此節(jié)點記憶單元的時候注入短語visited Mary this afternoon的語義向量γ2,5。

圖4 節(jié)點編碼模塊

最后，將式(7)～式(13)在成分樹的結(jié)構(gòu)上根據(jù)短語語義向量γm,n的輸入進(jìn)行改進(jìn)，則內(nèi)部節(jié)點的記憶單元ct為計算如式(19)所示。

(19)

其中:

此處的t表示文本句子在成分樹上的節(jié)點索引。

最后，根據(jù)當(dāng)前節(jié)點的記憶單元ct和相應(yīng)的輸出ot計算每個內(nèi)部節(jié)點的隱藏狀態(tài)ht，如式(24)、式(25)所示。

(24)

ht=ot?tanh(ct)

(25)

2.3 訓(xùn)練目標(biāo)

(26)

其中，S是訓(xùn)練樣本中的節(jié)點數(shù)目，λ是L2正則化超參數(shù)。

機(jī)器閱讀理解任務(wù)是通過閱讀和理解一段文本，在文本中選擇一個連續(xù)的片段來回答與文本相關(guān)的問題，任務(wù)涉及文本和問題兩個輸入序列，需要構(gòu)建兩棵樹并分別用一個SC-TreeLSTM進(jìn)行編碼，輸出是文本的兩個單詞索引。本任務(wù)的目標(biāo)函數(shù)如式(27)所示。

(27)

3 實驗分析

實驗選擇情感分類和機(jī)器閱讀理解兩個自然語言處理任務(wù)來測試本文提出的SC-TreeLSTM模型的性能: ①情感分類，分析一萬多條帶標(biāo)簽的電影評論的情感傾向； ②機(jī)器閱讀理解，根據(jù)文本與問題的句法及語義關(guān)系，從文本中抽取問題答案。

3.1 情感分類

數(shù)據(jù)集介紹對于情感分類任務(wù)，本實驗使用與Zhu等相同的數(shù)據(jù)集Stanford Sentiment Treebank(SST)[18]，該數(shù)據(jù)集包含從電影評論中收集的一萬多條句子，每個句子都被解析成成分樹結(jié)構(gòu)，句子中的每個內(nèi)部節(jié)點都對應(yīng)一個短語并帶有一個人工標(biāo)記的情感標(biāo)簽，分別對應(yīng)5種情緒類別: 非常消極、消極、中立、積極和非常積極，根節(jié)點的標(biāo)簽表示整個句子的情感標(biāo)簽。本文在五分類(細(xì)粒度分類)和二分類兩種設(shè)置上進(jìn)行實驗: 對五分類任務(wù)，按8 544/1 101/2 210的比例將數(shù)據(jù)集劃分為訓(xùn)練集/驗證集/測試集；對二分類任務(wù)，實驗中不考慮標(biāo)記為中立的樣本，將非常消極和消極歸為一類，積極和非常積極歸為另外一類，且訓(xùn)練集/驗證集/測試集按6 920/872/1 821的比例劃分。

實驗設(shè)置機(jī)器硬件配置為Intel/Xeon E5-2683V3 14核28線程，NVIDIA GTX1080顯卡，32GB內(nèi)存，模型均使用Tensorflow 深度學(xué)習(xí)框架實現(xiàn)，使用Stanford PCFG Parser[19]解析輸入的序列。

本文在驗證集上對模型進(jìn)行超參數(shù)調(diào)優(yōu)，得到如下訓(xùn)練參數(shù): 模型選擇預(yù)先訓(xùn)練好的GloVe方法[14]來初始化詞向量，詞向量的維度設(shè)置為300，若遇到Unknown words則賦予300維正態(tài)分布的隨機(jī)向量。模型的隱藏層維度設(shè)置為150，Embedding層和output層使用的dropout(keep probability)分別設(shè)置為0.6和0.8。優(yōu)化器為Adam[20]，初始學(xué)習(xí)率為0.01，batch size為25，L2正則化系數(shù)為0.000 1。

實驗結(jié)果表1展示了C-TreeLSTM模型在五分類和二分類兩個情感分類任務(wù)上分別訓(xùn)練10個epochs后的結(jié)果。模型對句子根節(jié)點(root)標(biāo)簽和短語(phrase)標(biāo)簽的準(zhǔn)確度都進(jìn)行了評估。其中，BiLSTM是基于順序結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型，S-LSTM 、LSTM-RNN和Constituency Tree-LSTMs均為針對成分樹的LSTM。經(jīng)過細(xì)致的調(diào)優(yōu)過程，本文對以上模型的實現(xiàn)在準(zhǔn)確度上與各自在原始文獻(xiàn)中給出的結(jié)果相似。因此，參照本文對各模型的實驗結(jié)果來評估模型的性能，將各模型與經(jīng)過改進(jìn)的SC-TreeLSTM模型進(jìn)行比較。

表1 C-TreeLSTM在SST上的測試結(jié)果

整體而言，相比于BiLSTM、S-LSTM 、LSTM-RNN和Constituency Tree-LSTMs的準(zhǔn)確度均有所提升，說明樹形結(jié)構(gòu)在情感分類任務(wù)上起到了一定的作用，且在S-LSTM模型下的準(zhǔn)確度最高。將短語語義向量加入S-LSTM后，五分類和二分類測試集的準(zhǔn)確度得到了普遍提高。對于五分類任務(wù)，根節(jié)點標(biāo)簽的準(zhǔn)確度提高了0.5%，短語標(biāo)簽的準(zhǔn)確度提高了0.7%，這表明在注入節(jié)點所覆蓋的短語語義向量后，短語標(biāo)簽預(yù)測的準(zhǔn)確度得到了更為明顯的提升。對于二分類任務(wù)，根節(jié)點標(biāo)簽的準(zhǔn)確度提高了1.0%，短語標(biāo)簽的準(zhǔn)確度提高了0.8%，說明短語語義信息對提高二分類任務(wù)的準(zhǔn)確度作用更大，這是由于二分類任務(wù)的短語級別的標(biāo)注不夠豐富，只有消極和積極兩種，導(dǎo)致S-LSTM、LSTM-RNN和Constituency Tree-LSTMs模型在長距離的學(xué)習(xí)中丟失了學(xué)習(xí)到的情感信息，本文的SC-TreeLSTM增強了節(jié)點對文本語義的記憶，提高了標(biāo)簽預(yù)測的準(zhǔn)確度。

另外，本文還進(jìn)一步對比了情感分類任務(wù)在其他模型上的實驗結(jié)果，記錄了各模型對根節(jié)點標(biāo)簽準(zhǔn)確度的評估及在兩個訓(xùn)練任務(wù)上每個epoch的平均消耗時間，如表2所示。與LCT-LSTM模型相比，本文的SC-TreeLSTM模型在五分類任務(wù)上的準(zhǔn)確度提高了0.3%，在二分類任務(wù)上的準(zhǔn)確度提高了0.7%；與Lexicalized TreeLSTM模型相比，本文的SC-TreeLSTM模型在五分類任務(wù)上的準(zhǔn)確度并未提升，但訓(xùn)練耗時減少了3.9s，在二分類任務(wù)上的準(zhǔn)確度有所提升，且訓(xùn)練耗時減少了3.1s，這是由于Lexicalized TreeLSTM模型需要處理兩個方向的節(jié)點編碼過程且無法并行化，導(dǎo)致訓(xùn)練時間較長，效率不高，而本文的SC-TreeLSTM能夠更加快速地訓(xùn)練迭代并獲得較好的結(jié)果。

表2 其他模型在SST上的測試結(jié)果

3.2 機(jī)器閱讀理解

BiDAF本實驗在開源問答系統(tǒng)BiDAF模型[23]的框架下測試本文提出的SC-TreeLSTM模型。BiDAF模型引入了雙向注意流機(jī)制來進(jìn)行文本和問題間的信息交互。該框架由六個部分組成: ①Character Embedding Layer, ②Word Embedding Layer, ③Contextual Layer, ④Attention Flow Layer, ⑤Modeling Layer, ⑥Output Layer。其中，三個部分包含BiLSTM網(wǎng)絡(luò): Contextual Layer使用具有相同權(quán)重的兩個BiLSTM對文本和問題進(jìn)行編碼；Modeling Layer進(jìn)一步采用雙層BiLSTM來提取文本中單詞的高階特征；Output Layer使用另外一個BiLSTM來生成用于預(yù)測答案片段結(jié)束的特征。實驗用S-LSTM 、LSTM-RNN、Constituency Tree-LSTMs、LCT-LSTM 、Lexicalized TreeLSTM 和SC-TreeLSTM分別替換這三個部分的BiLSTM進(jìn)行BiDAF模型的構(gòu)建，其余部分的操作保持不變，將改進(jìn)后的BiDAF模型分別稱為S-BiDAF、LR-BiDAF、CT-BiDAF、LCT-BiDAF、Lex-BiDAF和SC-BiDAF。

數(shù)據(jù)集介紹本實驗使用斯坦福大學(xué)開發(fā)的問答數(shù)據(jù)集SQuAD[24]。SQuAD數(shù)據(jù)集包含10萬多個問答對，被劃分為10 570個驗證樣本，87 599個訓(xùn)練樣本和大量隱藏的測試樣本。問答對的答案均為相應(yīng)文本段落的一部分，從單個單詞到多單詞文本片段，是可變長度的短語或從句。數(shù)據(jù)集同時提供幾個人工答案，只要模型輸出的答案與人工答案之一相符合，模型就被給予一個置信分。實驗用兩個指標(biāo)來評估模型: 精確匹配(exact match，EM)和模糊匹配(F1 score)[24]，分別用于表示精確率及精確率和召回率的加權(quán)平均值。

實驗設(shè)置機(jī)器配置與情感分類實驗相同。實驗使用斯坦福大學(xué)的CoreNLP工具[25]對文本和問題單詞進(jìn)行預(yù)處理。對于詞向量的構(gòu)建，選擇預(yù)先訓(xùn)練好的GloVe方法[13]和卷積神經(jīng)網(wǎng)絡(luò)CNN[15]來映射，詞向量的維度設(shè)置為300，且在訓(xùn)練期間是固定不變的，Unknown words同樣賦予300維正態(tài)分布的隨機(jī)向量。本實驗的網(wǎng)絡(luò)參數(shù)如下: 模型的隱藏層維度設(shè)置為150，dropout比例為0.2。在訓(xùn)練過程中，實驗設(shè)置batch size為32，并使用Adam優(yōu)化器來更新參數(shù)；同時，初始學(xué)習(xí)率設(shè)置為0.2。

實驗結(jié)果表3展示了所有對比模型在SQuAD驗證集上訓(xùn)練12個epochs后的實驗結(jié)果。與BiDAF相比，LR-BiDAF模型的EM值提升了0.3%，F(xiàn)1值提升了0.5%；CT-BiDAF模型的EM值提升了0.4%，F(xiàn)1值提升了0.9%；S-BiDAF模型的EM值提升了0.6%，F(xiàn)1值提升了1.1%；LCT-BiDAF模型的EM值提升了1.2%，F(xiàn)1值提升了2.2%；Lex-BiDAF模型的EM值提升了1.4%，F(xiàn)1值提升了2.2%，這是由于S-BiDAF、LR-BiDAF、CT-BiDAF、LCT-BiDAF和Lex-BiDAF將句法結(jié)構(gòu)特征納入了文本與問題的表示學(xué)習(xí)中，改善了文本表達(dá)的質(zhì)量。在內(nèi)部節(jié)點中注入短語語義向量后，本文的SC-TreeLSTM模型使得BiDAF的準(zhǔn)確度得到了更大的提高，相比于LR-BiDAF，SC-BiDAF模型的EM值提升了1.5%，F(xiàn)1值提升了2.2%；相比于CT-BiDAF，SC-BiDAF模型的EM值提升了1.4%，F(xiàn)1值提升了1.8%；相比于S-BiDAF，SC-BiDAF模型的EM值提升了1.2%，F(xiàn)1值提升了1.6%；相比于LCT-BiDAF和Lex-BiDAF，SC-BiDAF模型的EM值分別提升了0.6%和0.4%，F(xiàn)1值均提升了0.5%。

表3 SQuAD驗證集上的實驗結(jié)果

為了更好地理解模型的性能，實驗還在驗證集上分析了文本的句子長度對EM值和F1值的影響，如表4所示?？梢钥闯?，當(dāng)句子長度為5時，短語信息的注入使得S-BiDAF的EM提升了0.9%，F(xiàn)1值提升了1.2%，隨著句子長度的增加，EM和F1值的提升幅度增大，當(dāng)句子長度為25時，SC-BiDAF的EM值提升了2.2%，F(xiàn)1值提升了2.5%，這說明對于擁有大量長序列的更為復(fù)雜的自然語言處理任務(wù)，短語語義信息的輸入作用更大，對文本建模的輔助更為有效。

表4 模型準(zhǔn)確度隨句子長度的變化

續(xù)表

圖5展示了S-BiDAF和SC-BiDAF模型的準(zhǔn)確度隨答案長度的變化。隨著答案長度的增加，EM和F1值均有所下降，但速度不同。當(dāng)答案為多個單詞的時候，本模型的準(zhǔn)確度仍然較高。相比于S-BiDAF模型，加入短語語義向量的SC-BiDAF模型的EM和F1值得到普遍提升，且F1值的提升幅度更大。

圖5 模型準(zhǔn)確度隨答案長度的變化

圖6 模型準(zhǔn)確度隨問題類型的變化

圖6對比了BiDAF，S-BiDAF和SC-BiDAF模型在7類問題上的準(zhǔn)確度。與BiDAF及S-BiDAF模型相比，本文的SC-BiDAF模型在每種問題上的準(zhǔn)確度都有所提高。與BiDAF模型相比，S-BiDAF和SC-BiDAF模型在“How”“What”“Why”三種類型上的改進(jìn)尤為顯著，這是由于與其他四種答案大多為實體的類型相比，這三類問題的答案通常較長，句法結(jié)構(gòu)更加復(fù)雜，因此S-BiDAF和SC-BiDAF模型的句法感知特性使其性能優(yōu)于BiDAF模型。與S-BiDAF模型相比，SC-BiDAF模型在“How”和“Which”兩種問題上的準(zhǔn)確度有較大的提高，這是由于SC-TreeLSTM在節(jié)點編碼時加入了短語的語義信息，降低了答案檢索的模糊性和不確定性。

4 相關(guān)工作

目前，針對樹結(jié)構(gòu)建模的模型大致可以分為兩類: 基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在樹結(jié)構(gòu)上建模[8,26]和基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在樹結(jié)構(gòu)上建模[27]。

基于循環(huán)神經(jīng)網(wǎng)絡(luò)在樹結(jié)構(gòu)上構(gòu)建的模型，除了C-TreeLSTM模型外，Chen等提出了TreeGRU模型[28]，該模型同樣在句子的成分樹上建模，具有控制單元內(nèi)部信息流的門控機(jī)制。TreeGRU模型用GRU單元代替LSTM單元，簡化了TreeLSTM的網(wǎng)絡(luò)結(jié)構(gòu)。此外，模型將樹結(jié)構(gòu)自底向上節(jié)點的隱藏狀態(tài)作為成分樹的信息交給根節(jié)點，并沿著成分樹自頂向下傳播到子節(jié)點，形成雙向TreeGRU網(wǎng)絡(luò)，使得每個節(jié)點的編碼向量包含其上下文節(jié)點的句法信息，但由于該模型無法并行化地處理兩個方向的節(jié)點編碼過程，導(dǎo)致訓(xùn)練時間較長，效率不高。

TBCNN[29-30]是基于卷積神經(jīng)網(wǎng)絡(luò)在樹結(jié)構(gòu)上構(gòu)建的典型模型，該模型的樹卷積方法能夠在句法樹上并行化地提取特征。與基于RNN在樹結(jié)構(gòu)上構(gòu)建的模型相比，該模型的訓(xùn)練效率有很大的提升，但由于池化操作的空間不變性假設(shè)，TBCNN模型無法在節(jié)點間對特征進(jìn)行組合，因此模型無法充分利用輸入序列的結(jié)構(gòu)信息。

目前存在很多將CNN與RNN相結(jié)合的混合神經(jīng)網(wǎng)絡(luò)模型。Wang等提出了regional CNN-LSTM[31]模型，該模型將CNN和LSTM相結(jié)合，利用CNN來提取各子句有價值的局部信息并進(jìn)行加權(quán)，同時利用LSTM來捕捉句子之間的長距離依賴關(guān)系。Xiao等提出的混合模型[32]將卷積層與BiLSTM結(jié)合，使用卷積層來處理輸入文本，并通過池化函數(shù)減小序列的長度，然后將生成的特征提供給BiLSTM網(wǎng)絡(luò)用于后續(xù)處理。但上述兩種模型都是基于順序結(jié)構(gòu)來處理輸入序列的，因此計算得到的文本表示只包含了序列的順序信息。

5 結(jié)論

本文提出了一種針對成分樹的混合神經(jīng)網(wǎng)絡(luò)模型SC-TreeLSTM，該模型將BiLSTM和C-TreeLSTM結(jié)合，在文本成分樹的內(nèi)部節(jié)點中注入由BiLSTM計算出的相應(yīng)短語語義向量，解決了C-TreeLSTM模型內(nèi)部節(jié)點信息來源缺失的問題，增強了節(jié)點在長距離編碼過程中對文本語義的記憶。本文最后在情感分類和機(jī)器閱讀理解兩種自然語言處理任務(wù)上對SC-TreeLSTM模型進(jìn)行了測試，通過實驗結(jié)果可以看出，本文提出的SC-TreeLSTM的表現(xiàn)普遍優(yōu)于C-TreeLSTM模型。今后的工作將研究SC-TreeLSTM模型在更復(fù)雜自然語言處理任務(wù)上的適用性。