方正云,楊 政,李麗敏,李天驕
(1. 昆明理工大學(xué) 國(guó)土資源工程學(xué)院,云南 昆明 650093;2. 云南電網(wǎng)有限責(zé)任公司,云南 昆明 650051;3. 云南電網(wǎng)有限責(zé)任公司 電力科學(xué)研究院,云南 昆明 650217;4. 西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 西安 710049)
文本分類[1](Text Categorization)是根據(jù)文本內(nèi)容將文本劃分為預(yù)先定義好的類別,可節(jié)省大量人力物力,在信息檢索和信息存儲(chǔ)上發(fā)揮著重要作用。通過(guò)從大量的科研項(xiàng)目文本獲取重要的信息對(duì)項(xiàng)目進(jìn)行分類,可以實(shí)現(xiàn)對(duì)科技項(xiàng)目的系統(tǒng)管理,加快自動(dòng)化管理進(jìn)程。對(duì)科研項(xiàng)目進(jìn)行準(zhǔn)確的分類,可以在科研項(xiàng)目審核的時(shí)候?yàn)橥扑]審核專家提供依據(jù)。
一般的文本分類方法首先對(duì)文本提取有效的特征表示,之后再利用提取得到的特征表示來(lái)進(jìn)行匹配分類。傳統(tǒng)的文本分類方法通過(guò)One-Hot編碼或者TF-IDF模型[2]等方法將文本轉(zhuǎn)為向量表示,然后通過(guò)一些機(jī)器學(xué)習(xí)的分類方法將向量進(jìn)行分類,例如,樸素貝葉斯(Naive Bayes,NB)[3]、支持向量機(jī)(Support Vector Machine, SVM)[4]等。
隨著文本向量化技術(shù)的進(jìn)步和詞向量模型Word2Vec[5]的推廣應(yīng)用,深度學(xué)習(xí)算法給文本分類帶來(lái)了新的機(jī)遇和挑戰(zhàn)。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM[6]通過(guò)鏈?zhǔn)竭B接的網(wǎng)絡(luò)結(jié)構(gòu)以及三個(gè)“門”對(duì)信息的控制,可以有效獲取較長(zhǎng)語(yǔ)句的特征。TextCNN模型[7]在文本分類任務(wù)中利用卷積神經(jīng)網(wǎng)絡(luò)的卷積核的局部感受野特性[8]在當(dāng)時(shí)的文本分類任務(wù)中達(dá)到了較好的效果。但是,當(dāng)文本的長(zhǎng)度較長(zhǎng)時(shí),僅使用LTSM和TextCNN模型提取到的特征無(wú)法進(jìn)行全文本的表示,尤其科研項(xiàng)目文本一般包括6個(gè)章節(jié),每個(gè)章節(jié)都是一個(gè)長(zhǎng)文本。因此針對(duì)結(jié)構(gòu)化的科研項(xiàng)目文本,本文提出了基于交叉注意力機(jī)制的多視圖項(xiàng)目文本分類模型(Multi-View Cross Attention Classification,MVCA)。根據(jù)電力科技項(xiàng)目的科研文本結(jié)構(gòu)將其劃分為項(xiàng)目摘要、項(xiàng)目研究?jī)?nèi)容、項(xiàng)目的目的和意義等視圖,之后對(duì)每個(gè)視圖使用BERT等預(yù)訓(xùn)練模型來(lái)提取對(duì)應(yīng)的特征,最后使用交叉注意力機(jī)制將幾個(gè)視圖的特征融合,得到整個(gè)科研項(xiàng)目文本的特征,并基于此特征進(jìn)行文本分類。
特征提取是文本分類最為關(guān)鍵的環(huán)節(jié),常見(jiàn)的特征提取方法有TF-IDF、Word2Vec、BERT[9]等。通過(guò)TF-IDF模型得到的特征是由詞頻TF和逆向文件頻率IDF構(gòu)成的,詞頻(TF)是指給定的詞語(yǔ)在該文件中出現(xiàn)的頻率,逆向文件頻率(IDF)是指一個(gè)詞語(yǔ)的普遍重要性,最終TF和IDF相乘得到詞語(yǔ)的TF-IDF特征。Word2Vec是使用機(jī)器學(xué)習(xí)的方式將語(yǔ)料庫(kù)中的詞轉(zhuǎn)化為向量,以便后續(xù)在詞向量的基礎(chǔ)上進(jìn)行各種計(jì)算。Word2Vec實(shí)現(xiàn)主要有兩種方式: CBOW 和Skip-Gram。CBOW用上下文推導(dǎo)當(dāng)前詞,Skip-Gram通過(guò)具體的中心單詞預(yù)測(cè)上下文。
深度學(xué)習(xí)的發(fā)展對(duì)詞語(yǔ)特征提取的發(fā)展造成了很大的影響。Google在2018年提出了建立在Transformer[10]基礎(chǔ)上的預(yù)訓(xùn)練模型BERT,其實(shí)質(zhì)是采用無(wú)監(jiān)督方法在海量語(yǔ)料庫(kù)的基礎(chǔ)上學(xué)習(xí)語(yǔ)義特征表示。由于其在自然語(yǔ)言處理任務(wù)中的良好表現(xiàn),被認(rèn)為是目前最為有效的語(yǔ)義特征提取方法。BERT性能優(yōu)異的原因主要有兩點(diǎn): ①Transformer中編碼器Encoder的網(wǎng)絡(luò)結(jié)構(gòu)中自注意力機(jī)制(Self Attention)、殘差連接機(jī)制(Residual Block)[11]和層歸一化(Layer Normalization)[12]的機(jī)制。②結(jié)合MLM(Masked Language Model)&NSP(Next Sentence Prediction)的學(xué)習(xí)任務(wù)在超大規(guī)模數(shù)據(jù)集上進(jìn)行無(wú)監(jiān)督的預(yù)訓(xùn)練。MLM針對(duì)Token級(jí)別的任務(wù),對(duì)輸入的單詞序列,隨機(jī)掩蓋15%的單詞,然后去預(yù)測(cè)被掩蓋的單詞。BERT同時(shí)對(duì)兩個(gè)任務(wù)進(jìn)行訓(xùn)練,以獲得在Token層面和語(yǔ)句層面上都取得優(yōu)異性能的模型。而在中文文本中上述MASK策略訓(xùn)練的是型補(bǔ)全字的能力,無(wú)法捕捉完整的句義信息,訓(xùn)練效率不高。BERT-WWM[13]在隨機(jī)MASK時(shí),最小的操作單位是語(yǔ)義完整的詞,這樣的策略可以增強(qiáng)模型對(duì)句意信息的解讀能力。RoBERTa[14]在BERT-WWM的基礎(chǔ)上使用了更多訓(xùn)練數(shù)據(jù)和動(dòng)態(tài)的MASK機(jī)制來(lái)得到更好的結(jié)果。
文本分類方法在提取語(yǔ)義特征后還需要構(gòu)造穩(wěn)健的分類器。常用的分類方法包括樸素貝葉斯(Naive Bayes,NB)[3]、支持向量機(jī)(Support Vector Machine, SVM)[4]、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等。
在實(shí)際問(wèn)題中,同一事物可以有不同視角的描述,這多種描述就構(gòu)成事物的多個(gè)視圖(Multi View)[15]。多視圖數(shù)據(jù)在現(xiàn)實(shí)生活中廣泛存在,如網(wǎng)頁(yè)可以由內(nèi)容信息和超鏈接兩個(gè)視圖所表示,同一語(yǔ)義對(duì)象可以用不同的語(yǔ)言來(lái)描述。在這復(fù)雜多樣的多視圖特征描述中,很難找到統(tǒng)一的方法高效去處理所有特征,如電視片段的視頻數(shù)據(jù)和音頻數(shù)據(jù)。多視圖數(shù)據(jù),由于是對(duì)同一對(duì)象的不同描述,所以其特征具有一致性,但視角不同,側(cè)重點(diǎn)不同,會(huì)造成視圖之間的差異性,從而導(dǎo)致信息之間的互補(bǔ)。多視圖學(xué)習(xí)方法通過(guò)多視圖數(shù)據(jù)的一致性和互補(bǔ)性融合多視圖信息,往往比單視圖學(xué)習(xí)更具有優(yōu)勢(shì)。
多視圖學(xué)習(xí)一般可以分為特征視圖融合和決策視圖融合。特征視圖融合是指首先將訓(xùn)練數(shù)據(jù)的多個(gè)視圖提取到的特征融合為一個(gè)特征表示,之后再利用融合后的特征構(gòu)建分類模型進(jìn)行分類。子空間學(xué)習(xí)就是一種特征視圖融合的方法,其通過(guò)挖掘不同視圖之間的關(guān)聯(lián)信息學(xué)習(xí)到一個(gè)多視圖共享的子空間。
決策視圖融合是對(duì)于分類結(jié)果的融合,它首先在各個(gè)視圖數(shù)據(jù)上通過(guò)分類器得到每個(gè)視圖的分類結(jié)果,之后將所有視圖的分類融合,得到最后的分類結(jié)果[16]。Mitchell T和Blum A提出的協(xié)同訓(xùn)練算法[17](Co-training)就是一種決策視圖融合算法。協(xié)同訓(xùn)練算法假設(shè)有兩個(gè)視圖: 視圖A和視圖B,在A、B視圖上利用標(biāo)記數(shù)據(jù)訓(xùn)練分類器Classifier A、Classifier B,然后分類器分別對(duì)無(wú)標(biāo)簽數(shù)據(jù)計(jì)算置信度,并且對(duì)預(yù)測(cè)置信度較高的數(shù)據(jù)進(jìn)行標(biāo)記,并將新標(biāo)記的數(shù)據(jù)加入另外一方的標(biāo)記數(shù)據(jù)集中,以便對(duì)方利用這些新標(biāo)記的數(shù)據(jù)更新分類器,此過(guò)程往復(fù)進(jìn)行,直到滿足某個(gè)停止條件。協(xié)同訓(xùn)練算法正是基于數(shù)據(jù)在不同視圖間的分布差異來(lái)發(fā)揮互補(bǔ)作用。
本節(jié)先介紹注意力機(jī)制以及LSTM,然后以此為基礎(chǔ)提出基于單個(gè)交叉注意力機(jī)制的兩視圖項(xiàng)目文本分類方法,以及基于雙交叉注意力機(jī)制的多視圖項(xiàng)目文本分類方法。
(1)
其中,qi、ki、vi為query、key、value向量,d為key向量的維數(shù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其被廣泛應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別、文本生成、人名識(shí)別等任務(wù)。時(shí)序性數(shù)據(jù)一般是不定長(zhǎng)度的,且上下文相互關(guān)聯(lián)。傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)的輸入維度是固定的,網(wǎng)絡(luò)結(jié)構(gòu)忽略了這種上下文關(guān)系。在RNN的網(wǎng)絡(luò)結(jié)構(gòu)中,每一個(gè)時(shí)刻的輸出不僅依賴于當(dāng)前的輸入,還和以前的輸入相關(guān),即St=f(St-1,xt,θ)。由于RNN在訓(xùn)練的時(shí)候存在梯度消失等問(wèn)題,導(dǎo)致模型難以學(xué)到遠(yuǎn)距離的依賴關(guān)系。為解決此問(wèn)題,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM在RNN的基礎(chǔ)上,增加了細(xì)胞狀態(tài)Cell State,同時(shí)增加門結(jié)構(gòu)控制信息的流動(dòng)。遺忘門ft決定細(xì)胞狀態(tài)丟棄的信息,輸入門it決定細(xì)胞狀態(tài)中加入的新信息,輸出門ot決定細(xì)胞狀態(tài)輸出的信息。
由于本文在提取特征的時(shí)候使用RoBERTa將項(xiàng)目文本編碼成多個(gè)有語(yǔ)義順序的特征向量,分類時(shí)應(yīng)該考慮到這種內(nèi)在聯(lián)系,所以本文采用LSTM處理文本的語(yǔ)義特征,主要目的在于減少信息的損失。
我們基于項(xiàng)目文本中的主要視圖(main view)和輔助視圖(side view),提出基于交叉注意力機(jī)制的兩視圖項(xiàng)目文本分類方法(Two View Attention, TVCA)。TVCA模型的結(jié)構(gòu)如圖1所示,由一個(gè)特征編碼器(Encoder)、一個(gè)交叉注意力機(jī)制模塊(Cross Attention Module)、一個(gè)殘差模塊(Residual Module)和一個(gè)分類器(Classifier)構(gòu)成。特征編碼器Encoder由RoBERTa構(gòu)成,用以提取主要視圖(main view)和輔助視圖(side view)的文本字符串的語(yǔ)義特征,并用向量表示主要視圖特征(main view feature)和輔助視圖特征(side view feature)。Encoder在處理長(zhǎng)文本的時(shí)候,將長(zhǎng)文本以句號(hào)劃分,對(duì)劃分后的語(yǔ)句進(jìn)行特征提取,所以主要視圖特征和輔助視圖特征的維數(shù)為nm×d和ns×d,其中nm和ns是主要視圖和輔助視圖中文本的語(yǔ)句數(shù),d為預(yù)訓(xùn)練模型提取的特征的維數(shù)。
圖1 基于單個(gè)交叉注意力機(jī)制的兩視圖項(xiàng)目文本分類方法TVCA結(jié)構(gòu)
交叉注意力機(jī)制模塊(Cross Attention Module)由放縮點(diǎn)積注意力構(gòu)成,是TVCA的主要部分。這個(gè)模塊將主要視圖的特征(main view feature)作為放縮點(diǎn)積注意力中的查詢(query)矩陣,將輔助視圖的特征(side view feature)作為鍵值(key value)矩陣,通過(guò)放縮點(diǎn)積注意力得到交叉注意力特征,然后將交叉注意力特征與主要視圖特征共同輸入到殘差模塊得到交叉特征,殘差模塊由殘差連接、層歸一化(Layer Norm)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)構(gòu)成。交叉注意力機(jī)制模塊和殘差模塊的整體結(jié)構(gòu)如圖2所示,計(jì)算如式(2)所示。
圖2 殘差模塊與殘差模塊的整體結(jié)構(gòu)
(2)
其中,WQ,WK,WV均為參數(shù)矩陣,dK是Q,K的列數(shù),zm,zs,zc分別為主要視圖特征,輔助視圖特征,交叉特征,fc為交叉注意力機(jī)制模塊網(wǎng)絡(luò)。
分類器Classifier由兩個(gè)全連接層組成,第一個(gè)全連接層使用ReLU激活函數(shù),第二個(gè)全連接層根據(jù)分類問(wèn)題確定激活函數(shù)。多分類問(wèn)題使用Softmax激活函數(shù),多標(biāo)簽分類問(wèn)題使用Sigmoid激活函數(shù)。分類器Classifier的計(jì)算如式(3)所示。
(3)
其中,W1,W2是待學(xué)習(xí)的參數(shù)矩陣;b1,b2是偏置項(xiàng),zc為交叉特征。
最終模型的損失函數(shù)如式(4)所示。
(4)
MVCA的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。MVCA模型由一個(gè)特征編碼器(Encoder)、兩個(gè)交叉注意力機(jī)制模塊(Cross Attention Module)和一個(gè)分類器(Classifier)構(gòu)成。MVCA的特征編碼器、交叉注意力機(jī)制模塊結(jié)構(gòu)與TVCA的特征編碼器、交叉注意力機(jī)制模塊結(jié)構(gòu)相同。不同的是,MVCA通過(guò)兩個(gè)交叉注意力機(jī)制模塊將主要視圖特征,輔助視圖1特征和輔助視圖2特征融合為兩個(gè)特征交叉特征1和交叉特征2。Classifier模塊先將交叉特征1和交叉特征2進(jìn)行加和,然后經(jīng)過(guò)兩個(gè)全連接層進(jìn)行分類,其中第一個(gè)全連接層使用ReLU激活函數(shù),第二個(gè)全連接層使用Sigmoid激活函數(shù),計(jì)算如式(5)所示。
圖3 基于雙交叉注意力機(jī)制的多視圖項(xiàng)目文本分類方法MVCA的網(wǎng)絡(luò)結(jié)構(gòu)
Classifier(zc1,zc2)=
Sigmoid(ReLU((zc1+zc2)W1+b1)W2+b2)
(5)
其中,W1,W2是待學(xué)習(xí)的參數(shù)矩陣;b1,b2是偏置項(xiàng),zc1為交叉特征1,zc2為交叉特征2。
本文采用兩組文本數(shù)據(jù)集驗(yàn)證所提出的基于交叉注意力機(jī)制的文本分類方法TVCA和MVCA。
Web of Science Meta-data: Mendeley Data提供的公開(kāi)論文數(shù)據(jù)集Web of Science Meta-data[22]包含來(lái)自7個(gè)類別的46 985篇英文論文的部分信息,包括Label、Domain、Area、Keywords、Abstract等幾部分組成。我們將摘要作為主要視圖(main view),每個(gè)句子提取一個(gè)特征向量,將關(guān)鍵詞作為輔助視圖(side view),每個(gè)關(guān)鍵詞提取一個(gè)語(yǔ)義特征向量,同時(shí)分別將語(yǔ)義特征向量數(shù)量設(shè)為8和6。我們將數(shù)據(jù)集分割為70%的訓(xùn)練集和30%的測(cè)試集,用以驗(yàn)證基于單交叉注意力機(jī)制的兩視圖文本分類方法TCVA的有效性。
南方電網(wǎng)電力科技項(xiàng)目文本: 該數(shù)據(jù)集包含2 082篇南方電網(wǎng)電力科技項(xiàng)目文本,其類型包括發(fā)電技術(shù)、配電技術(shù)、輸電技術(shù)等共計(jì)12類,每類文本數(shù)量為100~200 篇。由于一個(gè)電力科技項(xiàng)目可以研究多項(xiàng)技術(shù),電力科技項(xiàng)目文本的分類屬于多標(biāo)簽分類問(wèn)題。本文分別從項(xiàng)目摘要、目的和意義以及研究?jī)?nèi)容三個(gè)視角來(lái)刻畫項(xiàng)目文本,將項(xiàng)目摘要作為主要視圖(main view),其余兩個(gè)章節(jié)作為輔助視圖(side view1和side view2)。我們將數(shù)據(jù)集分割為70%的訓(xùn)練集和30%的測(cè)試集。本文基于RoBERTa對(duì)三個(gè)視圖的每句話提取一個(gè)語(yǔ)義特征向量,分別將項(xiàng)目摘要、目的和意義以及研究?jī)?nèi)容語(yǔ)義特征數(shù)量設(shè)為10、20、30(超出設(shè)定數(shù)量的語(yǔ)句被裁剪,數(shù)量不夠時(shí)補(bǔ)充為0向量)。
我們?cè)诰W(wǎng)絡(luò)訓(xùn)練中采用Adam優(yōu)化器,其學(xué)習(xí)速率初始值設(shè)為5×10-4,并采用階梯函數(shù)方式遞減。所使用的分類器由兩個(gè)全連接層組成,第一個(gè)全連接層使用ReLU激活函數(shù),第二個(gè)全連接層使用Sigmoid激活函數(shù)。
機(jī)器學(xué)習(xí)中的多標(biāo)簽分類問(wèn)題一般使用精確率(Precision),召回率(Recall)和F1值進(jìn)行評(píng)價(jià)。一個(gè)多標(biāo)簽分類問(wèn)題可以看作是多個(gè)二分類問(wèn)題的組合。二分類問(wèn)題的精確率P(Precision)、召回率R(Recall)和F1值如式(6)所示。
(6)
其中,TP表示將實(shí)際類別為正的樣本預(yù)測(cè)為正例樣本的數(shù)量; FP表示將實(shí)際類別為負(fù)的樣本預(yù)測(cè)為正例樣本的數(shù)量;FN表示將實(shí)際類別為正的樣本預(yù)測(cè)為負(fù)例樣本的數(shù)量。
(7)
除微平均精確率(Micro Precision)、召回率(Micro Recall)和MicroF1值指標(biāo)之外,我們還引入了漢明損失(Hamming-Loss)來(lái)對(duì)本文方法進(jìn)行評(píng)價(jià)。漢明損失用來(lái)確認(rèn)分類結(jié)果中錯(cuò)誤分類的標(biāo)簽的比例。錯(cuò)誤分類的標(biāo)簽包括實(shí)際類別為負(fù)的樣本預(yù)測(cè)為正例樣本和實(shí)際類別為正的樣本預(yù)測(cè)為負(fù)例樣本兩類。計(jì)算如式(8)所示。
(8)
其中,N表示樣本的數(shù)量,K表示分類中標(biāo)簽的數(shù)量,Yi,j表示第i個(gè)真實(shí)分類標(biāo)簽向量中第j個(gè)標(biāo)簽的值,Pi,j表示第i個(gè)預(yù)測(cè)分類標(biāo)簽向量中第j個(gè)標(biāo)簽的值,XOR是異或的表示,即XOR(0,0)=XOR(1,1)=0,XOR(1,0)=XOR(0,1)=1。
本文分別與神經(jīng)網(wǎng)絡(luò)(NN)、預(yù)訓(xùn)練模型的微調(diào)Bert Fine Training (BFT)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)、文本分類的卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)、分層注意力網(wǎng)絡(luò)(HAN)[24],使用對(duì)抗樣本增強(qiáng)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Adversarial LSTM, ALSTM)[25],使用自注意力機(jī)制的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Self Attention LSTM, SALSTM)[26]的方法進(jìn)行比較。其中LSTM相當(dāng)于TVCA和MVCA的消融實(shí)驗(yàn),即在TVCA和MVCA中去掉交叉注意力機(jī)制的單角度方法。
神經(jīng)網(wǎng)絡(luò)(NN)方法對(duì)項(xiàng)目文本語(yǔ)義特征進(jìn)行變換,沒(méi)有考慮特征向量之間的時(shí)序關(guān)系;BFT方法處理文本語(yǔ)義特征時(shí),由于其輸入長(zhǎng)度受到嚴(yán)格的限制(最長(zhǎng)長(zhǎng)度為512字符),會(huì)大概率造成信息提取的缺失;TextCNN方法使用Conv2d-ReLu-MaxPooled結(jié)構(gòu)來(lái)處理項(xiàng)目文本語(yǔ)義特征,其只考慮相鄰語(yǔ)句的上下文關(guān)系,沒(méi)有考慮文本長(zhǎng)距離的依賴關(guān)系;LSTM和HAN相對(duì)于TextCNN能捕捉到長(zhǎng)距離依賴關(guān)系,更加符合客觀情況;SALSTM方法首先通過(guò)自注意力機(jī)制捕捉上下文關(guān)系,而后采用LSTM方法壓縮特征向量;盡管LSTM和HAN能比較好地處理文本上下文信息,但其無(wú)法很好地融合多個(gè)視圖的信息,MVCA和TVCA在LSTM的基礎(chǔ)上加入交叉注意力機(jī)制,能更加準(zhǔn)確地提取文本語(yǔ)義特征。
我們?cè)谡撐臄?shù)據(jù)集Web of Science Meta-data上,比較所提出的TVCA方法和其他方法,結(jié)果如表1所示。可以看出,在各個(gè)評(píng)價(jià)指標(biāo)上,TVCA可以獲得最佳(黑體)或者次佳(下劃線)的實(shí)驗(yàn)結(jié)果。特別地,在加上了關(guān)鍵詞的信息之后,TVCA通過(guò)交叉注意力機(jī)制大幅提高了僅使用摘要的LSTM方法,驗(yàn)證了TVCA融合兩個(gè)視圖進(jìn)行分類的有效性。
表1 Web of Science Meta-data分類實(shí)驗(yàn)結(jié)果
我們?cè)谀戏诫娋W(wǎng)科研項(xiàng)目文本數(shù)據(jù)上,比較使用項(xiàng)目摘要和項(xiàng)目研究?jī)?nèi)容兩個(gè)視圖的交叉注意力方法TVCA(項(xiàng)目摘要為主視圖)和使用項(xiàng)目摘要、項(xiàng)目研究?jī)?nèi)容和目的與意義三個(gè)視圖的交叉注意力方法MVCA(項(xiàng)目摘要為主視圖),實(shí)驗(yàn)結(jié)果如表2所示。
從表2的實(shí)驗(yàn)結(jié)果可以看到,在綜合評(píng)價(jià)指標(biāo)F1上,LSTM方法優(yōu)于BFT和TextCNN,原因在于BFT會(huì)造成信息缺失,NN和Text CNN沒(méi)有充分考慮上下文信息。MVCA、TVCA方法不僅在F1指標(biāo)上明顯優(yōu)于LSTM和HAN,而且精確率和召回率都有很大的提升,MVCA相對(duì)于LSTM,精確率提升4.9%,召回率提升了5.4%;TVCA相對(duì)于LSTM,精確率提升4.5%,召回率提升了4.3%。我們的多視圖融合方法TVCA和MVCA,在漢明損失指標(biāo)上都優(yōu)于其它方法。實(shí)驗(yàn)結(jié)果表明,不同的視圖通常包含不同的信息,多視圖信息融合有助于提取到更豐富的語(yǔ)義特征。進(jìn)一步可以看出,相較于兩視圖的TVCA,三視圖的MVCA方法在微平均F1值,微平均精確率,微平均召回率以及漢明損失四項(xiàng)指標(biāo)上都有所提升。這說(shuō)明融合更多視圖可以提取出更具有代表性的文本特征,更有助于項(xiàng)目文本分類。
表2 南方電網(wǎng)科研項(xiàng)目文本多標(biāo)簽分類實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證TVCA和MVCA的收斂速度,我們繪制了各方法在南方電網(wǎng)測(cè)試集上的微平均F1值隨迭代步數(shù)的變化曲線,如圖4所示??梢钥闯觯琓VCA和MVCA方法收斂最快,在50步以內(nèi)可以達(dá)到穩(wěn)定的測(cè)試精度。這說(shuō)明不同視圖之間互補(bǔ)信息的融合可以提高算法的學(xué)習(xí)效率,加快收斂速度。
圖4 各方法在測(cè)試集上Micro F1值變化曲線
本文提出基于交叉注意力機(jī)制的多視圖項(xiàng)目文本分類方法,其中包括單注意力機(jī)制的兩視圖方法TVCA和雙注意力機(jī)制的多視圖方法MVCA,融合項(xiàng)目文本中的主要部分和輔助部分信息。在南方電網(wǎng)科研項(xiàng)目文本分類上的實(shí)驗(yàn)表明,TVCA和MVCA不僅在分類效果上明顯優(yōu)于其他比較方法LSTM,TextCNN等,而且在收斂速度上也有明顯優(yōu)勢(shì)。因此,TVCA和MVCA通過(guò)項(xiàng)目文本各組成部分之間的交叉注意力機(jī)制,融合不同視圖上的互補(bǔ)信息,提取到更加豐富的語(yǔ)義特征,從而達(dá)到更精確的分類效果。