曹衛(wèi)東 潘紅坤
(中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)
隨著社交媒體的迅速發(fā)展,在線提供、搜索或共享意見已成為我們?nèi)粘I钪械囊豁?xiàng)普遍活動(dòng)。如此龐大的數(shù)據(jù)包含了對(duì)于內(nèi)容提供商、社會(huì)機(jī)構(gòu)和賣家等而言非常有價(jià)值的信息。例如,消費(fèi)者在確定要預(yù)訂某家酒店之前,可以查看許多在線評(píng)論,從而做出合適的選擇。公司還可以直接從網(wǎng)絡(luò)收集大量的公開信息,而不用對(duì)其服務(wù)或產(chǎn)品進(jìn)行民意調(diào)查。因此,從此類數(shù)據(jù)中提取意見至關(guān)重要,這將有助于更多地了解用戶的偏好或意圖。
情感分析作為一種提取觀點(diǎn)的技術(shù),包含著許多相關(guān)任務(wù),例如情感詞典構(gòu)建[1]、文檔級(jí)情感分類[2]、方面級(jí)情感分類[3]和細(xì)粒度情感分析[4]。在這些任務(wù)中,細(xì)粒度情感分析是主要的和有價(jià)值的,因?yàn)樗梢詾樵S多下游任務(wù)提供感性短語(yǔ)的先驗(yàn)知識(shí),例如,“酒店的環(huán)境真的不錯(cuò),從室內(nèi)的陳列到窗外的景色,以及酒店內(nèi)花園都顯得華貴而清幽”是積極短句,“門面特別小而且差,很不起眼。到前臺(tái)辦手續(xù)又發(fā)現(xiàn)態(tài)度特別差,房間也很一般”是消極短句,因此,細(xì)粒度情感分析對(duì)于評(píng)價(jià)的分析以及情感態(tài)度的分類具有較高的研究?jī)r(jià)值。
細(xì)粒度情感分析在建設(shè)智能化城市中(如聊天機(jī)器人[5])起著至關(guān)重要的作用。然而計(jì)算機(jī)只能處理數(shù)字信息,要想完成情感分類的任務(wù),首先需要將文本向量化。與傳統(tǒng)的one-hot表示法不同,低維分布式詞表示法(如Word2vec[6])能夠更好地捕獲自然語(yǔ)言詞的語(yǔ)義。鑒于漢字和漢字的內(nèi)部結(jié)構(gòu)豐富,每個(gè)中文字符通常比英文單詞傳達(dá)更多的語(yǔ)義信息,設(shè)計(jì)并學(xué)習(xí)中文單詞的表示方法是至關(guān)重要的。Chen等[7]提出了利用字符級(jí)別信息的方法來學(xué)習(xí)漢字嵌入。除了某些自定義的規(guī)則用于提取信息(偏旁部首[8]、組件[9]),還有基于像素學(xué)習(xí)字符的模型[10]。這些針對(duì)中文字符進(jìn)行向量化的方法雖然比原始Word2vec效果好,但仍存在著字符語(yǔ)義信息提取不準(zhǔn)確的問題。為更好地建模單詞的語(yǔ)義,Cao等[11]提出基于漢字筆畫的Cw2vec模型,此模型能夠自動(dòng)獲取中文單詞間潛在的語(yǔ)義表示,為下游任務(wù)(情感分析)提供語(yǔ)義豐富的詞向量。
作為句子分類的典型子問題,情感分類不僅需要理解單個(gè)話語(yǔ)的句子,還需要從整個(gè)會(huì)話中獲取上下文信息。Pang等[12]運(yùn)用這些機(jī)器學(xué)習(xí)的方法在對(duì)英文電影評(píng)論的情感分析中取得較好的效果。Tripathy等[13]在影評(píng)數(shù)據(jù)集上分別使用NB(Naive Bayesian)、SVM(Support Vector Machine)方法,實(shí)驗(yàn)結(jié)果表明,SVM的效果好于NB。Srujan等[14]通過人工構(gòu)造文本特性如詞性、情感,運(yùn)用機(jī)器學(xué)習(xí)的方法來完成情感分析的任務(wù),雖然取得了不錯(cuò)的成績(jī),但太多的人工標(biāo)注文本特征,使得模型的實(shí)時(shí)性比較差。Kim[15]第一次將CNN卷積神經(jīng)網(wǎng)絡(luò)用在處理英文短文本情感分析,實(shí)現(xiàn)了句子級(jí)的分類任務(wù),驗(yàn)證了深度學(xué)習(xí)網(wǎng)絡(luò)在情感分析中的可靠性。但CNN在文本處理過程中并沒有考慮上下文信息,針對(duì)一些具有時(shí)序信息的句子,效果不佳。Vania等[16]使用卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)文本進(jìn)行分析,使用預(yù)訓(xùn)練好的單詞級(jí)別詞向量和字符級(jí)別詞向量作為特征輸入,并證明字符級(jí)別詞向量能夠比詞級(jí)別詞向量學(xué)習(xí)到更好的特征。Zhang等[17]使用RNN對(duì)中文的微博語(yǔ)料進(jìn)行情感分析,訓(xùn)練帶有詞語(yǔ)信息和句子信息向量特征,最終證明計(jì)算句子向量的方式可以幫助學(xué)習(xí)句子的深層結(jié)構(gòu)。Liang等[18]將長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)用于中文微博文本情感分析,解決了RNN梯度彌散問題。為了獲取更加全面的句子特征,Xiao等[19]提出雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)的中文情感分析方法,把單向的LSTM網(wǎng)絡(luò)反方向擴(kuò)展,能夠更好地利用文本前后的信息。無論是CNN還是RNN,對(duì)文本的特征提取都是不全面的,無法區(qū)分不同的詞,不同的句子對(duì)情感傾向的不同作用?;诖耍ǔ?huì)在這些網(wǎng)絡(luò)之上構(gòu)建額外的注意力層[20],以便將更多的注意力放在最相關(guān)的單詞上,從而更好地理解句子。
傳統(tǒng)的注意力機(jī)制關(guān)注每個(gè)單詞與整個(gè)文本的聯(lián)系,單詞對(duì)全部序列具有依賴性,計(jì)算量較大。例如Transformer[21]中的Self-Attention包含兩次序列自身的矩陣乘法、計(jì)算量和顯存占用量都為(N2)級(jí)別的(N代表句子的長(zhǎng)度)。如果處理的序列較長(zhǎng)(N),就會(huì)浪費(fèi)太多的時(shí)間和內(nèi)存開銷(N2)。Huang等[22]提出一種交織稀疏自注意力機(jī)制,該機(jī)制的主要?jiǎng)?chuàng)新之處就是把緊密相似矩陣拆分成兩個(gè)稀疏相似矩陣的乘積,用這兩個(gè)連續(xù)的稀疏矩陣分別估算出一個(gè)相似的矩陣,第一個(gè)注意力機(jī)制用來估算長(zhǎng)距離的相似性,第二個(gè)注意力機(jī)制用來估算短距離的相似性。類似于局部注意力機(jī)制,計(jì)算單詞的權(quán)重時(shí)分別考慮不同的長(zhǎng)度,該機(jī)制雖然節(jié)省了大量的內(nèi)存和計(jì)算,但對(duì)于一些特長(zhǎng)距離依賴的句子,效果不是很理想??紤]到長(zhǎng)距離的依賴性,Child等[23]提出一種跳躍式的注意力機(jī)制(StrideSelf-Attention),即每個(gè)單詞只考慮與它距離為倍數(shù)的單詞的關(guān)系,該方法雖然能大大縮短計(jì)算時(shí)間,降低內(nèi)存消耗,但對(duì)一些近距離相關(guān)性較強(qiáng)的情感分類任務(wù),準(zhǔn)確率卻相比自注意力機(jī)制低了的許多?;诖?,本文對(duì)稠密的自注意力機(jī)制進(jìn)行分解得到Sparse Self-attention,使用Cw2vec預(yù)訓(xùn)練好的詞向量作為輸入,BiLSTM+Sparse Self-Attention對(duì)文本進(jìn)行特征提取。實(shí)驗(yàn)證明Cw2vec+BiLSTM+SparseSelf-Attention的組合模型(CBSA)在情感分析的任務(wù)中,不僅準(zhǔn)確率較高,而且占用更少的內(nèi)存,大大減低了神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,實(shí)現(xiàn)了語(yǔ)句的局部緊密和遠(yuǎn)程相關(guān)的特性。本文的創(chuàng)新點(diǎn)主要有:
(1) 創(chuàng)新地使用Cw2vec訓(xùn)練詞向量,獲取中文的語(yǔ)義信息。
(2) 使用BiLSTM提取語(yǔ)句的上下文信息,獲取全面的文本特征。
(3) 對(duì)稠密的Self-Attention進(jìn)行分解,并發(fā)運(yùn)行多個(gè)注意力機(jī)制,節(jié)省內(nèi)存,降低模型收斂時(shí)間。
本文設(shè)計(jì)的CBSA模型結(jié)構(gòu)如圖1所示,模型的整體計(jì)算流程為:
步驟1首先對(duì)評(píng)論數(shù)據(jù)集進(jìn)行預(yù)處理,去除標(biāo)點(diǎn)符號(hào)、無意義的高頻詞。
步驟2獲取基于Cw2vec的詞向量。
步驟3將得到的詞向量作為BiLSTM的輸入,獲取語(yǔ)句上下文相關(guān)特征。
步驟4SparseSelf-Attention對(duì)BiLSTM得到的特征重新進(jìn)行權(quán)重分配。
步驟5最后由Softmax實(shí)現(xiàn)對(duì)情感極性的判斷。
圖1 CBSA模型結(jié)構(gòu)圖
現(xiàn)有的詞向量模型主要集中在英語(yǔ)、西班牙語(yǔ)和德語(yǔ)等歐洲語(yǔ)言上,這些語(yǔ)種在書寫系統(tǒng)中采用的拉丁文字,與中文字符結(jié)構(gòu)完全不同。而單個(gè)中文字符都包含著豐富的語(yǔ)義信息,使用Word2vec預(yù)訓(xùn)練中文詞向量往往不能夠全面地捕獲語(yǔ)義信息?;诖耍疚牟捎肅w2vec預(yù)訓(xùn)練詞向量。
Cw2vec是一種學(xué)習(xí)漢語(yǔ)單詞嵌入的新方法,通過使用筆畫N-gram設(shè)計(jì)了一種極簡(jiǎn)方式來學(xué)習(xí)文本特征,該筆畫可以來獲取漢字的語(yǔ)義和層次信息。中文向量化的過程如下:
(1) 語(yǔ)句的切分?;谧址?jí)別切分成單個(gè)中文漢字。例如:“位置”切分成“位”“置”。
(2) 字符筆畫信息的獲取。從每個(gè)字符獲取筆畫信息并把它們拼接起來。
位:撇、豎、點(diǎn)、橫、點(diǎn)、撇、橫。
置:豎、橫折、豎、豎、橫、橫、豎、豎、橫折、橫、橫、橫、橫。
位置:撇、豎、點(diǎn)、橫、點(diǎn)、撇、橫、豎、橫折、豎、豎、橫、橫、豎、豎、橫折、橫、橫、橫、橫。
(3) 筆畫序列數(shù)字化:為每個(gè)筆畫分配一個(gè)整數(shù)ID,分別為1到5,如表1所示。
表1 筆畫和ID的對(duì)應(yīng)關(guān)系
(4) 設(shè)置滑動(dòng)窗口大小為n,生成筆畫N-gram特征,如圖2所示。以“地理位置方便”為例,分詞結(jié)果為“地理”、“位置”和“方便”。中心詞為“位置”,上下文單詞為“地理”,“方便”。
圖2 N-gram特征圖
Cw2Vec模型考慮到單詞與上下文之間的相關(guān)性,相似性定義為:
(1)
損失函數(shù)為:
(2)
最后使用Softmax函數(shù)對(duì)給定w的c預(yù)測(cè)模型進(jìn)行建模:
(3)
假設(shè)輸入文本用X表示,由L個(gè)單詞組成。使用Cw2vec進(jìn)行訓(xùn)練,得到詞嵌入表示特征{v1,v2,…,vL},其中vi為每個(gè)單詞的向量屬于Rk,k表示每個(gè)詞的維度,在本文中與訓(xùn)練的詞向量維度為300。則一條評(píng)論的向量化為:
X={v1,v2,…,vL}
(4)
循環(huán)神經(jīng)網(wǎng)絡(luò)在處理時(shí)序信息的問題上相比于卷積神經(jīng)網(wǎng)絡(luò)具有很好的優(yōu)勢(shì)。RNN利用激活函數(shù)序列輸入特征表示Xt和前一時(shí)段的隱藏層輸入值ht-1,并轉(zhuǎn)化為當(dāng)前隱藏狀態(tài)的輸出值ht-1:
ht=f(ht-1,Xt)
(5)
LSTM則可以解決RNN梯度彌散問題。LSTM的優(yōu)勢(shì)在于具有三種特殊的門函數(shù),即輸入門、遺忘門、輸出門,如圖3所示[18]。
圖3 單個(gè)LSTM計(jì)算過程示意圖
遺忘門:
ft=σ(Wf·[ht-1,xt]+bf)
(6)
輸入門:
it=σ(Wi·[ht-1,xt]+bt)
(7)
(8)
(9)
輸出門:
ot=σ(Wo·[ht-1,xt]+bo)
(10)
ht=ot×tanh(Ct)
(11)
考慮到文本分析要用到上下文信息,本文模型選用雙向LSTM(BiLSTM)為基礎(chǔ)建模,雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)由正向和反向的LSTM組成,計(jì)算過程如下:
(12)
(13)
(14)
Google在2017年提出一種新的注意力機(jī)制——多頭自注意力[24]。相比于單一的注意力機(jī)制而言,多頭機(jī)制能夠從多方面捕獲序列的關(guān)鍵信息。每個(gè)頭通過向量點(diǎn)積進(jìn)行相似度運(yùn)算,得到Attention值,結(jié)構(gòu)如圖4所示。
圖4 縮放點(diǎn)積運(yùn)算(SDA)
(15)
多頭自注意力機(jī)制就是將(Q、K、V)通過線性轉(zhuǎn)換送入到SDA,再重復(fù)運(yùn)算h次,最后拼接所有的Attention,縮小每個(gè)head的尺寸,其計(jì)算成本和具有全維度的單個(gè)Attention機(jī)制相當(dāng)。結(jié)構(gòu)示意圖如圖5所示。
headi=SDA(QWiQ,KWiK,VWiV)
(16)
Head=MultiHead(Q,K,V)=
Concat(head1,head2,…,headh)WO
(17)
圖5 Multi-head Attention結(jié)構(gòu)
多頭注意力機(jī)制關(guān)注每個(gè)元素對(duì)短語(yǔ)的影響,圖6所示為xi與X序列中的每個(gè)單詞計(jì)算相關(guān)度,其計(jì)算量為O(n2),其中n為輸入短語(yǔ)的長(zhǎng)度。
圖6 Self-Attention
可以看出Self-Attention無論是內(nèi)存消耗量還是計(jì)算量上都是十分龐大的。為改善這一狀況,一個(gè)基本的思想就是減少語(yǔ)句相關(guān)性的計(jì)算,設(shè)定每個(gè)元素只跟短語(yǔ)中的一部分元素有關(guān)。常見的有Local Self-Attention,即放棄全局關(guān)聯(lián),規(guī)定每個(gè)元素只與前后c個(gè)元素以及自身有關(guān),相對(duì)距離超過c的注意力直接設(shè)為0,如圖7所示(其中c被設(shè)置為2的情況)。
圖7 Local Attention
局部注意力機(jī)制(Local Self-Attention)雖然節(jié)約了內(nèi)存,縮短計(jì)算時(shí)間,但忽略了遠(yuǎn)程的相關(guān)性。為獲取長(zhǎng)程關(guān)聯(lián)性,本文提出新稀疏自注意力機(jī)制(Sparse Self-Attention),該注意力機(jī)制擁有p個(gè)獨(dú)立的注意力頭,每個(gè)獨(dú)立的注意力只關(guān)注于特定位置的元素。設(shè)想每個(gè)元素只與它局部相當(dāng)距離不超過c的,且遠(yuǎn)程距離為k,2k,3k,…的元素相關(guān)(c、k為提前設(shè)置好的參數(shù)),強(qiáng)行設(shè)置其他位置的元素注意力為0。如圖8所示(c、k分別被設(shè)置為2、5的情況)。
圖8 Sparse SelfAttention
稀疏自注意力機(jī)制(Sparse Self-Attention)將BiLSTM輸出的ht矩陣映射為輸出矩陣,并由全連接模式S={S1,S2,…,Sn}參數(shù)化,其中Si為第i個(gè)輸入向量參與其中的索引值,n為輸出序列的長(zhǎng)度。
Attend(ht,S)=(a(hti,Si))i∈{1,…,n}
(18)
(19)
(20)
(21)
attention(ht)=Wp(attend(ht,A)(i))i∈{1,2,…,p}
(22)
(23)
為了防止過擬合,在Softmax之前添加了Dropout[24],隨機(jī)丟棄一些網(wǎng)絡(luò)節(jié)點(diǎn),能夠顯著地提高模型的泛化能力。使用反向傳播算法,采用的交叉熵?fù)p失函數(shù)為:
(24)
本文實(shí)驗(yàn)測(cè)試為64位Ubuntu操作系統(tǒng),開發(fā)環(huán)境為Python3.7,Keras 2.3.1,后端為TensorFlow 2.0,開發(fā)工具為PyCharm。
本文實(shí)驗(yàn)室數(shù)據(jù)集為中國(guó)科學(xué)院譚松波博士整理的中文酒店評(píng)論數(shù)據(jù)集,共有10 000條評(píng)論組成,包含著7 000條積極情感和3 000條消極情感。情感標(biāo)簽分為兩類[0,1],消極情感為0,積極情感為1,為平衡數(shù)據(jù)集,實(shí)驗(yàn)選取6 000條數(shù)據(jù)集,正負(fù)樣本各3 000條。本文使用sklearn中的train_test_split隨機(jī)抽取90%作為訓(xùn)練集,10%作為測(cè)試集,進(jìn)行多次實(shí)驗(yàn),選取平均值作為實(shí)驗(yàn)的結(jié)果。實(shí)驗(yàn)數(shù)據(jù)集如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)集
本文評(píng)估指標(biāo)主要有這三個(gè):準(zhǔn)確率(Precision)、召回率(Recall)和F1-Score。
(25)
(26)
(27)
深度學(xué)習(xí)模型不同的參數(shù)設(shè)置會(huì)直接影響整個(gè)實(shí)驗(yàn)的分類效果,對(duì)情感分析是特別重要的。本文實(shí)驗(yàn)中,與Child[23]處理長(zhǎng)文本序列設(shè)置的c=32,k=128的情況不相同,處理的文本信息長(zhǎng)度絕大部分都在100個(gè)以內(nèi),所以c、k按照相同的倍數(shù)縮小設(shè)置為4、16。注意力頭數(shù)的設(shè)置選取最優(yōu)的4個(gè)注意力頭,通過多次對(duì)比實(shí)驗(yàn),選取效果最好的參數(shù),詳細(xì)設(shè)置如表3所示。
表3 模型參數(shù)設(shè)置
3.4.1中文詞向量的嵌入
本實(shí)驗(yàn)使用Cw2vec對(duì)文本進(jìn)行詞向量的訓(xùn)練,往往能夠更好地獲得中文字符間聯(lián)系。如表4所示,分別以Cw2vec和Word2vec作比較。其中余弦相似度越大,單詞間關(guān)系越緊密,余弦相似度越小,單詞間相關(guān)性越小。
表4 詞向量余弦相似度比較
從表4中可以明顯看出基于筆畫預(yù)訓(xùn)練Cw2vec向量更能獲取單詞之間的相關(guān)性,特別是對(duì)一些字符結(jié)構(gòu)相似的,例如“霧霾”“雷雪”能夠更好地獲取字符特征,相比Word2vec預(yù)訓(xùn)練詞向量的余弦相似度提高了2%。
實(shí)驗(yàn)整體效果而言,分別使用Word2vec和Cw2vec預(yù)訓(xùn)練的詞向量作為BiLSTM+Sparse Self-Attention組合模型的輸入。觀察表5可以發(fā)現(xiàn),基于Cw2vec的詞嵌入比基于Word2vec的詞嵌入整體效果F1-Score大約提高0.3%,驗(yàn)證了基于筆畫Cw2vec訓(xùn)練詞向量作為輸入的可靠性。
表5 詞向量對(duì)整個(gè)實(shí)驗(yàn)的影響(%)
3.4.2單一模型比較
為了驗(yàn)證本文提出的模型的有效性,筆者選取以下幾種模型作為對(duì)照實(shí)驗(yàn),全部使用預(yù)訓(xùn)練好的Cw2vec詞向量作為輸入,如表6所示。
表6 酒店數(shù)據(jù)分析結(jié)果(%)
觀察表6可以發(fā)現(xiàn),在細(xì)粒度情感分類任務(wù)中,深度學(xué)習(xí)算法(CNN、LSTM和BiLSTM)明顯比傳統(tǒng)的機(jī)器學(xué)習(xí)算法SVM效果要好,這是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)能夠深層次、多維度的自動(dòng)提取文本特征,在細(xì)粒度情感分析任務(wù)中,深度學(xué)習(xí)算法(CNN、LSTM、BiLSTM)明顯比傳統(tǒng)的機(jī)器學(xué)習(xí)算法SVM效果要好,這是因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)能夠深層次、多維度地自動(dòng)提取文本特征,有效地避免了機(jī)器學(xué)習(xí)方法中人工提取特征的缺陷。對(duì)比CNN、LSTM和BiLSTM可以發(fā)現(xiàn),BiLSTM不僅可以捕獲長(zhǎng)距離文本的依賴關(guān)系,而且還能夠獲取文本從后往前的信息。而添加注意機(jī)制的CBSA網(wǎng)絡(luò)模型則能夠更好地給不同的詞賦予不同的權(quán)重,克服了特征無差別提取的缺點(diǎn),在準(zhǔn)確率、召回率和F1-Score都有著明顯的提高。實(shí)驗(yàn)結(jié)果表明,添加注意力機(jī)制后的效果大約提高5%,相比較其他模型在情感分析任務(wù)上更有優(yōu)勢(shì)。
3.4.3分解多頭自注意力機(jī)制的影響
表7為分解自注意力機(jī)制的實(shí)驗(yàn)結(jié)果對(duì)比,可以看出分解后的稀疏自注意力機(jī)制在F1值幾乎沒下降,并未影響實(shí)驗(yàn)分類精度。觀察圖9和圖10可以發(fā)現(xiàn)本文的模型相比未分解的自注意力機(jī)制,占用更少的內(nèi)存開銷,減少了大約200 MB,訓(xùn)練時(shí)間降低了210 s,綜上可以驗(yàn)證本文提出的稀疏自注意力機(jī)制不僅僅能夠得到較高的分類結(jié)果,而且占用更少的內(nèi)存開銷、降低模型的訓(xùn)練時(shí)間。
表7 分解自注意力機(jī)制的結(jié)果(%)
圖9 內(nèi)存使用量
圖10 模型完成20輪迭代的訓(xùn)練時(shí)間
3.4.4多頭自注意力機(jī)制參數(shù)的影響
表8 注意力頭數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
本文提出一種新的CBSA網(wǎng)絡(luò)模型來進(jìn)行細(xì)粒度情感分析。一方面,使用基于Cw2vec預(yù)訓(xùn)練的詞向量,能夠更好地獲取語(yǔ)義特征。另一方面,通過對(duì)自注意力機(jī)制進(jìn)行分解,實(shí)現(xiàn)了局部緊密性、遠(yuǎn)程稀疏性的特性。實(shí)驗(yàn)表明,本文提出的模型能夠挖掘豐富的隱藏情感信息,占用更少的內(nèi)存、時(shí)間開銷,更加準(zhǔn)確地完成情感分析任務(wù)。
然而Cw2vec基于筆畫訓(xùn)練詞向量,是一個(gè)固定的靜態(tài)編碼表示,例如:“大夫”和“丈夫”的筆畫是一樣的,這樣就會(huì)導(dǎo)致語(yǔ)義理解的偏差。未來的工作計(jì)劃準(zhǔn)備采用大語(yǔ)料下預(yù)訓(xùn)練的BERT模型,每個(gè)單詞的詞向量根據(jù)不同的上下文信息動(dòng)態(tài)地表示,這樣才能消除Cw2vec一詞多義的問題。