曹春萍,武 婷
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200082)
近年來,隨著社交網(wǎng)絡(luò)愈來愈繁榮,如何從海量文本中進(jìn)行信息提取受到越來越多的關(guān)注。文本過濾作為更多文本分析的前序工作,成為了自然語(yǔ)言處理工作的研究熱點(diǎn)之一[1]。隨著互聯(lián)網(wǎng)進(jìn)入Web 2.0時(shí)代,互聯(lián)網(wǎng)用戶使用網(wǎng)絡(luò)分享知識(shí)、經(jīng)驗(yàn)、意見、感受等,越來越多的主觀性評(píng)論文章充斥網(wǎng)絡(luò)。與科學(xué)性文章不同,評(píng)論性文章不僅包含多個(gè)主題而且含有很多與主題無關(guān)的句子,過濾掉這些句子可以提高后續(xù)文本分析的效率,所以對(duì)評(píng)論性文章內(nèi)容進(jìn)行文本過濾是進(jìn)行文本分析中很重要的一步。目前對(duì)文本過濾的研究已經(jīng)有很多,但是在長(zhǎng)文本過濾方面仍存在一些亟待解決的問題,如多主題、句子間語(yǔ)義關(guān)聯(lián)等問題造成長(zhǎng)文本過濾困難。因此,對(duì)評(píng)論性文章進(jìn)行文本過濾依然具有很大的研究?jī)r(jià)值。
為了從文本中篩選出有用的信息,越來越多的學(xué)者采用自然語(yǔ)言處理技術(shù)進(jìn)行文本過濾。傳統(tǒng)的基于規(guī)則的過濾方法,性能好壞依賴于復(fù)雜的人工規(guī)則和特征工程[2]。評(píng)論性文章內(nèi)容冗長(zhǎng)雜亂,領(lǐng)域性不強(qiáng)等特點(diǎn)使得設(shè)計(jì)規(guī)則和提取特征都非常困難。此外,每個(gè)文本都有對(duì)應(yīng)的主題,利用主題模型可以提取文本主題,根據(jù)文本主題進(jìn)行過濾,雖然采用機(jī)器學(xué)習(xí)的方法能在主題分類達(dá)到很好的效果,但是仍然依賴人工抽取特征,對(duì)專家經(jīng)驗(yàn)要求較高[3]。深度神經(jīng)網(wǎng)絡(luò)模型在自然語(yǔ)言處理方面的巨大成功,使得研究人員將其應(yīng)用于文本過濾。深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征學(xué)習(xí)能力,能夠克服人工特征抽取的困難[4]。但是對(duì)于評(píng)論性長(zhǎng)文本過濾,不同的模型和數(shù)據(jù)處理方法會(huì)對(duì)過濾效果產(chǎn)生不同的影響。
文中主要針對(duì)的是評(píng)論性文章多主題且句子語(yǔ)義關(guān)聯(lián)造成的長(zhǎng)文本過濾困難的問題。多主題是指一篇文章中涉及到多個(gè)主題,如游記中通常會(huì)有景色、住宿、美食和交通等多個(gè)主題;如果使用傳統(tǒng)主題模型進(jìn)行過濾,可能會(huì)把具有語(yǔ)義關(guān)聯(lián)的句子篩選掉,這樣會(huì)影響后續(xù)的方面級(jí)情感分析工作。因此,需要采用新方法來提高長(zhǎng)文本過濾的準(zhǔn)確率。對(duì)此,文中提出結(jié)合單層神經(jīng)網(wǎng)絡(luò)和具有兩個(gè)隱藏層的長(zhǎng)短記憶網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型(A-HLSTM)用于長(zhǎng)文本過濾任務(wù)中,利用其可以進(jìn)行多主題分類及上下文語(yǔ)義分析的能力,完成評(píng)論性文章的過濾。
傳統(tǒng)的文本過濾方法主要分為兩大類,基于規(guī)則的過濾方法和基于統(tǒng)計(jì)的過濾方法[5]。其中基于規(guī)則的過濾方法是專家根據(jù)需求設(shè)置匹配規(guī)則,然后通過實(shí)驗(yàn)反饋的信息完善規(guī)則[6]?;诮y(tǒng)計(jì)的方法利用人工標(biāo)注的語(yǔ)料庫(kù),通過統(tǒng)計(jì)經(jīng)驗(yàn)的理論進(jìn)行文本過濾[7]。早期的方法存在很多缺點(diǎn),例如規(guī)則的制定需要依靠很多專家的經(jīng)驗(yàn),且有的特征可能考慮的并不全面,另外這些模型計(jì)算和語(yǔ)料庫(kù)的規(guī)模成正比,計(jì)算量很大,效率很低。
隨著機(jī)器學(xué)習(xí)在自然語(yǔ)言中的廣泛應(yīng)用,許多學(xué)者將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于文本過濾。一些學(xué)者將此問題看作多分類問題,通常使用支持向量機(jī)(SVM)、k近鄰分類算法等。文獻(xiàn)[8]在涉恐信息文本的研究中將文本過濾視為分類問題,采用k近鄰分類算法進(jìn)行過濾;文獻(xiàn)[9]提出基于主題分類的文本過濾方法,篩選出文本內(nèi)容的最優(yōu)特征項(xiàng)集合,利用SVM分類技術(shù)過濾。文獻(xiàn)[1]利用文本分類系統(tǒng)創(chuàng)建特定領(lǐng)域過濾器,減少了手動(dòng)注釋的訓(xùn)練數(shù)據(jù)量。以上幾種方法都不能體現(xiàn)語(yǔ)義,導(dǎo)致文本相似度計(jì)算一直很低,因此,一些學(xué)者又提出了基于語(yǔ)義的文本過濾方法。文獻(xiàn)[10]提出了多詞-貝葉斯分類算法,將詞與詞之間的關(guān)系作為重要參考項(xiàng),克服了傳統(tǒng)分類器對(duì)語(yǔ)義分析的忽視;文獻(xiàn)[11]提出基于多謂詞語(yǔ)義框架文本過濾算法,利用文本依存句法分析進(jìn)行語(yǔ)義分析,提高了文本過濾的準(zhǔn)確率。這些方法雖然對(duì)文本過濾的準(zhǔn)確率有所提高,但不能發(fā)現(xiàn)深層次特征并且算法計(jì)算量較大,計(jì)算時(shí)間很長(zhǎng),導(dǎo)致算法的計(jì)算效率很低。
最近,深度學(xué)習(xí)在自然語(yǔ)言處理方面的巨大成功使得研究人員將其應(yīng)用于文本過濾,因?yàn)樗梢詮拇罅繑?shù)據(jù)訓(xùn)練中學(xué)習(xí)并判別特征,并且可以考慮到整體上下文信息。然而,對(duì)于深度學(xué)習(xí)在評(píng)論性文章這類長(zhǎng)文本過濾的研究很少,但深度學(xué)習(xí)在其他自然語(yǔ)言處理中的應(yīng)用給了筆者很大的啟發(fā)。眾所周知,好的詞向量作為輸入可以改善神經(jīng)網(wǎng)絡(luò)模型,Pennington等提出的GloVe詞向量構(gòu)造了一個(gè)全局的詞共現(xiàn)矩陣,能夠融合文本的全局信息和局部上下文信息[12]。目前,用于自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)模型主要是RNN和LSTM,RNN可以考慮序列的上下文信息,但RNN在訓(xùn)練過程中梯度向量的分量可能會(huì)在長(zhǎng)序列上指數(shù)增長(zhǎng)或消失[13]。LSTM可以解決RNN的梯度問題,但仍然會(huì)忘記距離當(dāng)前序列較遠(yuǎn)的信息,尤其在處理長(zhǎng)文本任務(wù)中這個(gè)問題更加明顯[14]。為了能存儲(chǔ)更遠(yuǎn)距離的信息,各種模型被用來提高LSTM存儲(chǔ)遠(yuǎn)程信息的能力。例如,文獻(xiàn)[15]提出將外部存儲(chǔ)器加入LSTM中,但外部存儲(chǔ)器矩陣龐大,性能不佳;文獻(xiàn)[16]提出基于注意力機(jī)制的雙向LSTM來處理文檔級(jí)情感分析任務(wù);文獻(xiàn)[17]提出了緩存長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)(CLSTM)模型,引入緩存機(jī)制來捕獲長(zhǎng)文本中的整體語(yǔ)義信息。
綜上所述,這些都是基于一層LSTM并對(duì)其結(jié)構(gòu)稍加改變。受這些研究的啟發(fā),文中提出結(jié)合單層神經(jīng)網(wǎng)絡(luò)和分層長(zhǎng)短記憶網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型用于長(zhǎng)文本過濾任務(wù)中。利用詞語(yǔ)層LSTM網(wǎng)絡(luò)模型可以得到具有語(yǔ)義的句向量,第二層主題依賴度計(jì)算模型、句子層LSTM網(wǎng)絡(luò)以第一層得到的句向量作為輸入,既可以獲得句子與各主題類別的依賴度,同時(shí)也通過句子層LSTM網(wǎng)絡(luò)挖掘整個(gè)文章中的長(zhǎng)距離依賴關(guān)系,有效提高長(zhǎng)文本過濾的性能。
評(píng)論性長(zhǎng)文本過濾問題主要是在評(píng)論性文章中將無主題且與其他句子語(yǔ)義關(guān)聯(lián)低的句子過濾掉。文中旨在研究如何能更好地對(duì)長(zhǎng)文本進(jìn)行過濾,主要用LSTM模型提取詞語(yǔ)間的語(yǔ)義形成句向量,然后進(jìn)行主題判斷和語(yǔ)義關(guān)聯(lián)。模型的整體框架如圖1所示。
圖1 長(zhǎng)文本過濾結(jié)構(gòu)
數(shù)據(jù)處理的第一步是將預(yù)處理后的全部數(shù)據(jù)進(jìn)行分詞,然后用GloVe進(jìn)行詞向量訓(xùn)練,將訓(xùn)練好的詞向量作為第一層LSTM模塊的輸入;接著將詞向量經(jīng)過LSTM模型進(jìn)行訓(xùn)練,得到具有語(yǔ)義的句向量,并將此句向量分別作為主題依賴度計(jì)算模型和句子層LSTM的輸入;然后通過主題依賴度模型計(jì)算,得到句子于主題類別的概率;經(jīng)過句子層LSTM進(jìn)一步得到完整的句子語(yǔ)義關(guān)系表示;最后綜合考慮主題依賴和語(yǔ)義關(guān)聯(lián)兩個(gè)因素實(shí)現(xiàn)長(zhǎng)文本過濾。
模型的第一層是LSTM模塊,該層主要用來接收最初的詞向量數(shù)據(jù),將游記文本語(yǔ)料庫(kù)中的詞語(yǔ)用GloVe訓(xùn)練得到詞向量表示,通過LSTM模型訓(xùn)練后得到連續(xù)的句向量。如圖2所示,LSTM主要包含三個(gè)門單元(輸入門、輸出門、遺忘門)和一個(gè)記憶單元。
圖2 LSTM標(biāo)準(zhǔn)結(jié)構(gòu)
一般地,每個(gè)LSTM單元的計(jì)算公式如下:
ft=σ(Wfxt+Ufht-1+bf)
(1)
it=σ(Wixt+Uiht-1+bi)
(2)
ot=σ(Woxt+Uoht-1+bo)
(3)
(4)
(5)
ht=ottanh(ct)
(6)
其中,σ表示sigmod激活函數(shù);tanh表示雙曲正切激活函數(shù);Wf、Wi、Wo、Uf、Ui、Uo分別表示輸入門、忘記門、輸出門的權(quán)重矩陣;bf、bi、bo表示輸入門、忘記門、輸出門的偏置向量;ht表示t時(shí)刻的輸出。
詞語(yǔ)層LSTM接收一個(gè)以詞語(yǔ)為單位的句子作為網(wǎng)絡(luò)的序列化輸入,每個(gè)LSTM單元的輸入由上個(gè)單元隱藏層的輸出和本次輸入的詞向量組成,詞語(yǔ)層LSTM可以得到句子內(nèi)部詞語(yǔ)之間的相互關(guān)系。文中提出的詞語(yǔ)層LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 詞語(yǔ)層LSTM結(jié)構(gòu)
模型的第二層的第一部分是主題依賴度計(jì)算層,用來將句子與其所屬主題類別以加權(quán)的形式聯(lián)接,再通過softmax函數(shù)得到句子對(duì)于類別的概率分布,即句子的主題依賴度向量。
圖4所示的主題依賴度計(jì)算模型實(shí)際上是基于單層神經(jīng)網(wǎng)絡(luò)的softmax分類器,輸入為句向量,輸出是句向量對(duì)于主題類別的概率。圖模型的輸入為詞語(yǔ)層LSTM訓(xùn)練得到的句向量,輸出Y是一維實(shí)向量,Y的計(jì)算公式為
Y=W·si+b
(7)
其中,W是權(quán)重矩陣,b為偏置項(xiàng)。
圖4 主題依賴度計(jì)算模型
輸出Y經(jīng)過sigmoid及softmax函數(shù),得到屬于各類別的概率。softmax的輸出公式為:
(8)
模型第二層的另一部分是句子層LSTM網(wǎng)絡(luò),用來對(duì)句子關(guān)系進(jìn)行編碼。詞語(yǔ)層LSTM網(wǎng)絡(luò)可以有效獲取句子內(nèi)部詞語(yǔ)之間的關(guān)系,但對(duì)于評(píng)論性文檔長(zhǎng)距離語(yǔ)義關(guān)聯(lián)的問題,僅僅依靠詞語(yǔ)層LSTM網(wǎng)絡(luò)難以正確識(shí)別句子間的語(yǔ)義關(guān)系,因此,文中使用句子層LSTM來進(jìn)一步挖掘句子之間的依賴關(guān)系。將詞語(yǔ)層LSTM輸出的句向量作為句子層LSTM的輸入,得到的隱藏層輸出矩陣作為文檔表示,文檔表示被用作文檔級(jí)語(yǔ)義關(guān)聯(lián)的特征,將其饋送到輸出長(zhǎng)度為關(guān)聯(lián)等級(jí)的線性層,并添加softmax層輸出語(yǔ)義強(qiáng)關(guān)聯(lián)、弱關(guān)聯(lián)、不關(guān)聯(lián)的概率。softmax函數(shù)計(jì)算如式9所示,其中C是語(yǔ)義關(guān)聯(lián)程度劃分。
(9)
句子的過濾度值綜合考慮句子屬于主題類別的概率值和語(yǔ)義關(guān)聯(lián)度,過濾度越低,這類句子對(duì)后續(xù)文本分析任務(wù)的貢獻(xiàn)度也較低。為了提高后續(xù)文本分析任務(wù)的效率,因此需要過濾掉過濾度值低的句子。經(jīng)過前兩個(gè)模塊的訓(xùn)練,已經(jīng)得到了每個(gè)句子主題依賴度和語(yǔ)義關(guān)聯(lián)度,文中提出將主題依賴度向量的均方差與語(yǔ)義關(guān)聯(lián)度之和作為過濾度,對(duì)于句子s,其過濾度計(jì)算如下:
(10)
其中,k為主題類別數(shù);atti[r]為si對(duì)主題類別r的依賴度;a為主題依賴度均值,為1/k;di為句子語(yǔ)義關(guān)聯(lián)度。
文中設(shè)置超參數(shù)threshold來控制過濾度,在實(shí)驗(yàn)中使用交叉驗(yàn)證法來更新threshold對(duì)比其對(duì)過濾效果的影響。
文中通過隨機(jī)梯度下降進(jìn)行模型訓(xùn)練,其中損失函數(shù)是監(jiān)督交叉熵誤差。要避免出現(xiàn)過度擬合,過度擬合意味著模型將訓(xùn)練數(shù)據(jù)(包括噪聲數(shù)據(jù))進(jìn)行超分割,從而獲得最低成本。但是,總體規(guī)律會(huì)被忽略,對(duì)于未知數(shù)據(jù),如測(cè)試數(shù)據(jù),該模型不能很好地執(zhí)行。為了克服這一問題,文中在所有參數(shù)中加入L2正則化,用于限制權(quán)重的大小,使得模型不能隨機(jī)擬合訓(xùn)練數(shù)據(jù)中的隨機(jī)噪聲。設(shè)y是待過濾句子的預(yù)測(cè)類別,z是待過濾句子的實(shí)際類別。訓(xùn)練目標(biāo)是盡量減少所有訓(xùn)練文本中y和z之間的交叉熵誤差。
(11)
通過使用網(wǎng)絡(luò)爬蟲軟件在馬蜂窩上采集了關(guān)于上海的游記2 000篇,并使用Stanford CoreNLP進(jìn)行標(biāo)記和分詞,并將數(shù)據(jù)集分為80/10/10用于訓(xùn)練、驗(yàn)證和測(cè)試。訓(xùn)練集主要用于訓(xùn)練模型、避免過度擬合,使用驗(yàn)證數(shù)據(jù)集來進(jìn)一步確定模型的參數(shù)并在不同的參數(shù)下評(píng)估模型過濾效果,不能根據(jù)測(cè)試集的結(jié)果調(diào)整參數(shù)。
對(duì)于參數(shù)配置,使用GloVe詞向量來初始化實(shí)驗(yàn)數(shù)據(jù)中的詞向量,其中每個(gè)詞向量為300維的連續(xù)值。對(duì)于模型初始化,從均勻分布[-0.1,0.1]之間隨機(jī)采樣初始化所有矩陣,并使用隨機(jī)梯度下降法來更新所有參數(shù)。文中使用Adagrad作為優(yōu)化器,其初始學(xué)習(xí)率設(shè)置為0.01。
將文中方法和機(jī)器學(xué)習(xí)算法以及典型的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了對(duì)比實(shí)驗(yàn):
(1)NB(Na?ve Bayesian,樸素貝葉斯):樸素貝葉斯是一種常見的機(jī)器學(xué)習(xí)分類算法,使用詞袋模型收集特征。
(2)SVM(Support Vector Machine,支持向量機(jī)):文中對(duì)文獻(xiàn)[9]提出的SVM算法加以修改,使用詞袋模型收集特征并且使用LibLinear訓(xùn)練SVM分類器。
(3)RNN:文獻(xiàn)[13]提出的RNN是對(duì)連續(xù)文本進(jìn)行建模的基本方法。
(4)LSTM:文獻(xiàn)[14]提出的LSTM是具有存儲(chǔ)單元和三個(gè)門機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò)。
(5)2-layer LSTM:文獻(xiàn)[16]提出的2-layer LSTM模型中,為了讓第二層LSTM捕獲輸入序列的長(zhǎng)期依賴關(guān)系,第一層LSTM單元的隱藏層輸出矩陣在同一時(shí)間步驟中輸入第二層LSTM中。
(6)CLSTM:文獻(xiàn)[17]提出的CLSTM旨在通過緩存機(jī)制捕獲遠(yuǎn)程信息,它將存儲(chǔ)器分為若干組,并且不同的遺忘率(過濾器)分成不同的組。
3.4.1 不同模型對(duì)比實(shí)驗(yàn)結(jié)果分析
文中使用準(zhǔn)確度和MSE(mean square error,均方誤差)來評(píng)估模型,其中準(zhǔn)確度是衡量文本過濾的標(biāo)準(zhǔn)指標(biāo)。MSE是一種測(cè)量平均誤差的便捷方法。由此,通過評(píng)估數(shù)據(jù)的變化度,MSE值越小,表明實(shí)驗(yàn)?zāi)P偷目煽啃栽礁摺?/p>
(12)
文中對(duì)比了不同模型下長(zhǎng)文本過濾的準(zhǔn)確度和MSE,結(jié)果如表1所示。
表1 不同模型下長(zhǎng)文本過濾的準(zhǔn)確度和MSE
從表1可以發(fā)現(xiàn):
(1)對(duì)比了兩種機(jī)器學(xué)習(xí)算法(NB和SVM),可以發(fā)現(xiàn)SVM比NB有更好的過濾效果。機(jī)器學(xué)習(xí)方法幾乎能達(dá)到LSTM相同的效果,但它需要大量的特征工程。標(biāo)記有效特征是一項(xiàng)非?;A(chǔ)的工作,機(jī)器學(xué)習(xí)分類器的性能很大程度上取決于數(shù)據(jù)表示和特征的選擇,但神經(jīng)網(wǎng)絡(luò)模型可以根據(jù)數(shù)據(jù)的特征自動(dòng)學(xué)習(xí),這是它被廣泛應(yīng)用的原因。
(2)在循環(huán)神經(jīng)網(wǎng)絡(luò)中,由于梯度消失問題,RNN在長(zhǎng)文本建模方面表現(xiàn)最差。相比而言,LSTM有更好的性能,這表明內(nèi)部存儲(chǔ)器和三個(gè)門的結(jié)構(gòu)在長(zhǎng)文本建模中的作用很關(guān)鍵。
(3)提出的A-HLSTM深度分層網(wǎng)絡(luò)模型具有最佳性能,比Bi-LSTM提升了1.4%。
(4)在雙向體系結(jié)構(gòu)中,長(zhǎng)文本模型可以向前和向后捕獲特征,因此,Bi-LSTM比單向模型具有更好的性能。在雙向模型中,文中模型具有良好的性能,準(zhǔn)確度達(dá)到46.3%。
(5)在時(shí)間復(fù)雜度和參數(shù)數(shù)量方面,A-HLSTM和2-layer LSTM都有兩個(gè)隱藏層,但A-HLSTM比2-layer LSTM需要更少的計(jì)算資源,卻達(dá)到了更高的準(zhǔn)確率。與完全連通層比,該模型僅使用第一層輸出的句子向量作為第二層的輸入,因此該模型具有較少的參數(shù)和計(jì)算時(shí)間。
3.4.2 threshold值對(duì)文本過濾的影響
圖5是用文中算法進(jìn)行過濾后的文本長(zhǎng)度、句子數(shù)占過濾前文本的比例隨threshold的變化情況。實(shí)驗(yàn)結(jié)果表明,當(dāng)threshold為3.1×10-4時(shí),沒有任何句子被過濾;當(dāng)threshold為5.0×10-4時(shí),過濾后的文本長(zhǎng)度是過濾前的42.13%,過濾后的句子數(shù)是過濾前的42.49%,并且文本長(zhǎng)度變化和句子數(shù)變化趨勢(shì)基本一致,說明文中算法過濾質(zhì)量較好,沒有出現(xiàn)集中過濾短句或者長(zhǎng)句的現(xiàn)象。
圖5 threshold值對(duì)文本過濾的影響
3.4.3 詞向量的影響
眾所周知,神經(jīng)網(wǎng)絡(luò)的輸入是詞向量,詞向量的選擇對(duì)優(yōu)秀的文檔表示至關(guān)重要。為了了解不同詞向量對(duì)模型的影響,文中選擇隨機(jī)初始化向量,word2vec模型(CBOW和Skipgram)和GolVe在兩種模型(LSTM和A-HLSTM)上做了對(duì)比實(shí)驗(yàn)。所有詞向量都是300維,結(jié)果見表2
表2 不同詞向量下LSTM,A-HLSTM的文本過濾準(zhǔn)確率
從表2中可以發(fā)現(xiàn),word2vec和GloVe比隨機(jī)初始化向量表現(xiàn)更優(yōu)。這表明上下文信息對(duì)詞向量學(xué)習(xí)的重要性。此外,還可以看出GloVe在這兩個(gè)模型上的準(zhǔn)確度略有提高,這充分說明一個(gè)好的詞向量需要考慮全局上下文信息。
文中還對(duì)比了不同維度的GloVe向量(50/100/200/300)。表3和表4分別給出文本過濾準(zhǔn)確度和時(shí)間成本,可以發(fā)現(xiàn)200維詞向量比50和100維表現(xiàn)更好,而300維詞向量沒有顯著改進(jìn)。此外,A-HLSTM比LSTM花費(fèi)更多的時(shí)間,因?yàn)锳-HLSTM的參數(shù)數(shù)量更多,但它們有更高的準(zhǔn)確率。
表3 不同維度GloVe詞向量下LSTM、A-HLSTM的文本過濾準(zhǔn)確率
表4 不同維度GloVe詞向量下LSTM、A-HLSTM的訓(xùn)練時(shí)間成本(單位:分鐘)
社交網(wǎng)絡(luò)上存在大量的分享個(gè)人經(jīng)驗(yàn)的長(zhǎng)文本,如游記等,這些長(zhǎng)文本與專業(yè)文獻(xiàn)不同,主題類別多且語(yǔ)義間的關(guān)聯(lián)性強(qiáng)。因此,為了更好地進(jìn)行下一步的方面級(jí)情感分析工作,先對(duì)其進(jìn)行文本過濾。首先通過詞語(yǔ)層LSTM網(wǎng)絡(luò)獲得句子內(nèi)部詞語(yǔ)之間的關(guān)系并得到具有語(yǔ)義的句向量,然后將句向量輸入主題依賴度計(jì)算模型和句子層LSTM網(wǎng)絡(luò)模型,進(jìn)而得到句子與各主題類別的依賴度以及待過濾句子與其他句子之間的關(guān)聯(lián)。最后在游記數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了文中模型的有效性。