邵小東 高松 劉帥 狄濤 梅雨婷 施旭 李禎壽 侯秋強(qiáng) 單雙呂
摘? 要:為了解消費(fèi)者對(duì)卷煙產(chǎn)品不同屬性的情感信息,幫助煙草企業(yè)了解消費(fèi)者評(píng)價(jià)及情感傾向,指導(dǎo)產(chǎn)品開(kāi)發(fā)和市場(chǎng)營(yíng)銷決策,該文利用爬蟲(chóng)采集2010—2022年共18 205條卷煙消費(fèi)者評(píng)價(jià)數(shù)據(jù),基于預(yù)訓(xùn)練模型(BERT)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)對(duì)文本進(jìn)行特征提取,結(jié)合句法依賴樹(shù)獲取語(yǔ)義間關(guān)系,建立融合情感增強(qiáng)和句法特征的方面級(jí)情感分類模型BAGCN,將BAGCN模型的分類結(jié)果與其他4種方法進(jìn)行對(duì)比。結(jié)果顯示,BAGCN模型在方面級(jí)情感分類效果最優(yōu),準(zhǔn)確率和F1值達(dá)到79.49%和75.26%,BAGCN的各模塊對(duì)最終的分類效果均有貢獻(xiàn)。通過(guò)方面級(jí)情感分析發(fā)現(xiàn),消費(fèi)者更關(guān)注卷煙產(chǎn)品的價(jià)格和口感屬性,對(duì)價(jià)格方面的評(píng)價(jià)多為消極情感,而口感方面的情感分布較為均衡,消費(fèi)者對(duì)外觀和品控方面的評(píng)價(jià)相對(duì)積極。
關(guān)鍵詞:卷煙;消費(fèi)者評(píng)價(jià);方面級(jí)情感;預(yù)訓(xùn)練模型;SVM算法
中圖分類號(hào):TP391.1? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號(hào):2095-2945(2024)19-0001-07
Abstract: In order to understand consumers' emotional information about different attributes of cigarette products, help tobacco enterprises understand consumer evaluation and emotional tendency, and guide product development and marketing decisions, this paper uses crawlers to collect a total of 18 205 cigarette consumer evaluation data from 2010 to 2022, extracts the features of the text based on a pre-training model (BERT) and Bidirectional Long Short-Term Memory (Bi-LSTM) network, and combines syntactic dependency tree to obtain semantic relations. An aspect-level emotion classification model BAGCN which combines affective enhancement and syntactic features is established, and the classification results of BAGCN model are compared with the other four methods. The results show that BAGCN model has the best effect in aspect-level emotion classification, and the accuracy and F1 value reach 79.49% and 75.26% BAGCN. Through the aspect-level emotion analysis, it is found that consumers pay more attention to the price and taste attributes of cigarette products, and the evaluation of price is mostly negative emotion, while the emotional distribution of taste is more balanced. Consumers' evaluation on appearance and quality control is relatively positive.
Keywords: cigarette; consumer evaluation; aspect-level emotion; pre-training model; SVM algorithm
方面級(jí)情感分析(Aspect-Based Sentiment Analysis,ABSA)是一種細(xì)粒度的情感分類任務(wù),目的在于預(yù)測(cè)文本中某個(gè)特定方面的情感極性[1]。近年來(lái),隨著電子商務(wù)的快速發(fā)展,互聯(lián)網(wǎng)中產(chǎn)生了大量消費(fèi)者對(duì)產(chǎn)品的評(píng)論數(shù)據(jù),這些評(píng)論蘊(yùn)含著用戶的情感傾向和態(tài)度信息。通過(guò)對(duì)這些評(píng)論進(jìn)行分析和進(jìn)一步挖掘,有利于深入地剖析消費(fèi)者對(duì)產(chǎn)品的消費(fèi)偏好和潛在需求。周法國(guó)等[2]提出一種基于情感詞典和深度學(xué)習(xí)結(jié)合的中文方面級(jí)情感模型。潘芳等[3]利用Transformer對(duì)中文在線課程評(píng)論方面情感分析進(jìn)行研究。商容軒等[4]利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)政務(wù)APP中的評(píng)論進(jìn)行傾向識(shí)別。王萍等[5]結(jié)合方面詞的位置權(quán)重和條件隨機(jī)場(chǎng)對(duì)醫(yī)療文本信息的方面級(jí)情感進(jìn)行分析。方面級(jí)情感分析在各行業(yè)的市場(chǎng)營(yíng)銷和品牌管理中應(yīng)用越來(lái)越廣泛,對(duì)企業(yè)進(jìn)行目標(biāo)市場(chǎng)定位、產(chǎn)品改進(jìn)及品牌管理等方面具有重要意義。
隨著我國(guó)卷煙市場(chǎng)競(jìng)爭(zhēng)加劇和經(jīng)濟(jì)水平的提高,消費(fèi)者對(duì)卷煙產(chǎn)品需求逐漸呈高端化、個(gè)性化、多元化發(fā)展,相關(guān)煙草部門(mén)也開(kāi)展了面向卷煙消費(fèi)者評(píng)價(jià)的情感分類研究。金吉瓊等[6]利用向量空間和TF-IDF對(duì)電子煙市場(chǎng)的消費(fèi)熱點(diǎn)進(jìn)行挖掘。蘇凱等[7]利用關(guān)聯(lián)規(guī)則的方法分析了消費(fèi)者斗煙產(chǎn)品市場(chǎng)的偏好性。楊春曉等[8]構(gòu)建了卷煙在線評(píng)論情感詞典,并基于指數(shù)表達(dá)式挖掘卷煙在線評(píng)論中的情感表達(dá)。王銳等[9]提取煙草領(lǐng)域的專有詞匯,并構(gòu)建了融合Bi-LSTM和注意力機(jī)制的卷煙評(píng)價(jià)情感分析模型。上述研究多采用基于統(tǒng)計(jì)學(xué)習(xí)或 Word2vec的方法構(gòu)建領(lǐng)域詞典和向量表示,尚存在以下問(wèn)題:①基于統(tǒng)計(jì)學(xué)習(xí)或Word2vec無(wú)法解決詞語(yǔ)歧義問(wèn)題。在卷煙的命名中,為強(qiáng)化當(dāng)?shù)孛癖姷钠放谱院栏泻托判?,品牌商通常?huì)用地名命名。例如,“玉溪”“泰山”等,這類詞語(yǔ)在不同語(yǔ)境下的含義不同,對(duì)詞向量表示有很大影響。②上述方法僅對(duì)整個(gè)卷煙消費(fèi)評(píng)論句子預(yù)測(cè)整體情感極性,無(wú)法進(jìn)行方面級(jí)的情感分析。以“軟中華口感很好,但價(jià)格實(shí)在太貴了”為例,該句包含“口感”和“價(jià)格”2個(gè)方面,具有不同的情感極性,僅僅預(yù)測(cè)整個(gè)句子的情感極性,顯然無(wú)法滿足煙草企業(yè)全面分析消費(fèi)者情感的需求。
與上述研究的情感分析不同,方面級(jí)情感分析要求模型對(duì)同一事物的不同方面分別進(jìn)行情感分類。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于預(yù)訓(xùn)練BERT模型[10]進(jìn)行文本表示,再利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,Bi-LSTM)等模型進(jìn)行特征提取,成為當(dāng)下廣泛使用的情感分類方法。在此基礎(chǔ)上,注意力機(jī)制[11]常被用于獲取詞語(yǔ)權(quán)重,作為Bi-LSTM模型的補(bǔ)充。但注意力機(jī)制不能捕捉方面詞與上下文之間的句法依賴關(guān)系,導(dǎo)致為方面詞分配錯(cuò)誤的情感信息。為了緩解這個(gè)問(wèn)題,一些基于依存樹(shù)的圖卷積網(wǎng)絡(luò)(Graph Convolution Network, GCN)[12]的方法被提出,其使用句法依賴樹(shù)對(duì)句子進(jìn)行建模,并通過(guò)圖卷積計(jì)算來(lái)捕獲長(zhǎng)距離的句法依賴關(guān)系。為此,通過(guò)爬蟲(chóng)收集卷煙消費(fèi)者評(píng)價(jià)方面級(jí)情感數(shù)據(jù),利用預(yù)訓(xùn)練BERT和Bi-LSTM對(duì)評(píng)價(jià)文本上下文進(jìn)行特征提取,結(jié)合句法依賴樹(shù)和GCN建模句間關(guān)系,構(gòu)建卷煙消費(fèi)者評(píng)價(jià)方面級(jí)情感分析模型。旨在幫助煙草企業(yè)了解消費(fèi)者對(duì)產(chǎn)品不同方面的情感傾向,進(jìn)一步改善產(chǎn)品質(zhì)量以滿足消費(fèi)者的需求。
1? 數(shù)據(jù)與方法
1.1? 數(shù)據(jù)集構(gòu)建
本文通過(guò)Python爬蟲(chóng)采集煙悅網(wǎng)2010—2022年消費(fèi)者的評(píng)論數(shù)據(jù),共計(jì)56 724條。對(duì)評(píng)論數(shù)據(jù)進(jìn)行編碼轉(zhuǎn)換、去除HTML標(biāo)簽和無(wú)效符號(hào),構(gòu)建初始的卷煙消費(fèi)者評(píng)論語(yǔ)料。為了解消費(fèi)者對(duì)卷煙不同方面的情感傾向,在卷煙領(lǐng)域情感詞典[8]基礎(chǔ)上,采用Jieba分詞對(duì)所有的評(píng)論語(yǔ)料進(jìn)行分詞和詞頻統(tǒng)計(jì),并結(jié)合專家意見(jiàn)構(gòu)建了卷煙消費(fèi)者評(píng)價(jià)方面級(jí)和方面詞表,不同方面級(jí)包含的詞匯見(jiàn)表1。
采用字符串匹配的方式從初始語(yǔ)料中抽取包含方面詞的評(píng)論句,分別對(duì)方面詞的情感極性進(jìn)行人工標(biāo)注,標(biāo)注樣例見(jiàn)表2。
為了確保人工標(biāo)注的準(zhǔn)確性和一致性,使用Kappa系數(shù)[13]檢驗(yàn)評(píng)估不同標(biāo)注者之間的標(biāo)注差異,對(duì)標(biāo)注差異較大的樣本進(jìn)行重新標(biāo)注或剔除。最后構(gòu)建含18 205條包含方面詞的卷煙消費(fèi)者評(píng)價(jià)數(shù)據(jù)集,將數(shù)據(jù)集按8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。各評(píng)價(jià)方面級(jí)情感的標(biāo)注分布見(jiàn)表3。
1.2? 模型構(gòu)建
本文提出的BAGCN模型框架如圖1所示。BAGCN模型由BERT編碼層、特征提取層、特征融合層和分類層組成。
1.2.1? 問(wèn)題定義
給定包含m個(gè)字符的卷煙消費(fèi)者評(píng)論Sc={e, e,…,e}和包含n個(gè)方面詞集合St={e,e,…,et},其中St是Sc的子序列。方面級(jí)情感分析的任務(wù)是預(yù)測(cè)給定方面詞的情感極性et∈{Positive,Negetive,O},其中Positive,Negetive,O分別表示“積極”“消極”和“中性”情感。
1.2.2? 詞嵌入和Bi-LSTM特征提取層
本文采用預(yù)訓(xùn)練模型BERT獲得評(píng)論文本和方面詞中的語(yǔ)義表示,根據(jù)公式(1)將評(píng)論上下文和方面詞結(jié)合,輸入BERT模型得到表達(dá)式為E∈Rn×d,可以有效解決卷煙品牌一詞多義的問(wèn)題。
E=BERT([CLS]? 評(píng)論文本? [SEP]? 方面詞? [SEP])。 (1)
為捕獲文本的上下文特征,將詞嵌入矩陣E∈Rn×d輸入Bi-LSTM提取語(yǔ)義信息。LSTM引入了特殊的門(mén)控機(jī)制,通過(guò)門(mén)結(jié)構(gòu)保留或丟棄信息,解決了傳統(tǒng)RNN存在的梯度消失或爆炸問(wèn)題。LSTM結(jié)構(gòu)如圖2所示。
圖2中ft為遺忘門(mén),決定前一時(shí)刻細(xì)胞中有多少信息需要傳遞到當(dāng)前時(shí)刻;it為輸入門(mén),用來(lái)控制當(dāng)前時(shí)刻的信息保存到細(xì)胞單元的程度;Ct為記憶單元,用來(lái)記錄不同門(mén)結(jié)構(gòu)情況下細(xì)胞的狀態(tài);Ct和輸出門(mén)Ot計(jì)算得到當(dāng)前時(shí)刻的輸出ht。具體計(jì)算過(guò)程如下
1.2.3? 注意力機(jī)制層
注意力機(jī)制可以根據(jù)詞語(yǔ)對(duì)情感表達(dá)的權(quán)重衡量不同詞語(yǔ)在情感分類中的重要性,從而進(jìn)一步提高分類準(zhǔn)確率。本文將Bi-LSTM 輸出層的上下文矩陣ht 通過(guò)注意力機(jī)制計(jì)算權(quán)重,如式(8)所示
同樣的,計(jì)算Bi-LSTM輸出層方面詞的特征矩陣注意力權(quán)重,得到Bi,j。最終將上下文注意力和方面詞注意力權(quán)重矩陣拼接作為該層輸入AttGCN網(wǎng)絡(luò),如式(9)所示
將處理后的注意力矩陣A作為輸入,根據(jù)其相鄰的隱藏表示更新AttGCN第l層中的每個(gè)節(jié)點(diǎn)。
1.2.4? 句法特征和情感增強(qiáng)層
在方面級(jí)情感分析任務(wù)中,判斷方面詞的情感極性關(guān)鍵在于捕獲文本中方面詞的修飾和描述。本文在考慮上下文特征的基礎(chǔ)上,結(jié)合句法結(jié)構(gòu)信息和方面詞增強(qiáng)特征,以提高文本的特征表達(dá)能力。
首先,使用 HanLP獲得句法依賴樹(shù)(圖3),并根據(jù)句法依賴樹(shù)構(gòu)建鄰接矩陣D∈Rn×n。構(gòu)建規(guī)則為:若任意節(jié)點(diǎn)i,j之間句法有著依存關(guān)系,則Dij=Dji=1,否則 Dij=Dji=0。同時(shí)將單詞自身的依存關(guān)系設(shè)置為 Dij=1。
在此基礎(chǔ)上,選擇BosonNLP[14]作為情感詞典,構(gòu)建情感增強(qiáng)矩陣S∈Rn×n。如式(12)所示
Si,j=|BosonNLP(wi)|+|BosonNLP(wj)| , (12)
式中:BosonNLP(wi)∈[-1,1]表示詞語(yǔ)在BosonNLP詞典經(jīng)過(guò)歸一化后的情感分?jǐn)?shù)。同理,根據(jù)wi是否為方面詞構(gòu)建方面詞增強(qiáng)矩陣T∈Rn×n,將情感增強(qiáng)和方面詞增強(qiáng)的矩陣與鄰接矩陣D相結(jié)合,得到最終的 DepGCN輸入矩陣Gij為
Gij=Dij×(Sij+Tij+1) 。 (13)
1.2.5? Biaffine模塊和分類層
為了提高AttGCN和DepGCN的交互學(xué)習(xí)效率,本文采用Biaffine模塊[15]計(jì)算AttGCN和DepGCN間的特征表示,將最后一層的輸出進(jìn)行平均池化和拼接后,得到最終的情感特征表示F。如式(14)所示
最后,將情感特征F輸入全連接層進(jìn)行分類
p=softmax(WF+b), (15)
式中:W、b分別為全連接層的權(quán)重矩陣和偏置項(xiàng);p為情感概率分布,概率分布最大的值即為最終的情感分類結(jié)果。
1.3? 模型環(huán)境與參數(shù)
基于Ubuntu18.06系統(tǒng)搭建Python3.6編程環(huán)境,選擇Pytorch1.10構(gòu)建網(wǎng)絡(luò)模型,顯卡為 GeForce RTX 3080。詞嵌入模型選擇BERT-base-chinese,詞向量維度為768;使用學(xué)習(xí)率為 2×10-5的Adam優(yōu)化器進(jìn)行優(yōu)化;GCN層數(shù)設(shè)置為2;L2正則化系數(shù)設(shè)置為10-5;訓(xùn)練樣本批次大小為32;Dropout丟棄率為0.3;訓(xùn)練輪數(shù)為20;選擇交叉熵?fù)p失作為損失函數(shù)。
1.4? 模型評(píng)估
通過(guò)調(diào)整參數(shù)設(shè)置使模型達(dá)到最佳分類效果,選擇準(zhǔn)確率(Accuracy)和F1值作為評(píng)價(jià)指標(biāo)評(píng)估模型的性能。同時(shí),為了更好地對(duì)比本文模型的算法性能,選擇與情感詞典法、經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)模型SVM、深度學(xué)習(xí)模型Bi-LSTM-Attention和SSGCN進(jìn)行結(jié)果比較。
1)SVM算法[16]:一種經(jīng)典的機(jī)器學(xué)習(xí)算法,通過(guò)設(shè)定核函數(shù)尋找分類超平面,將不同類別的樣本分開(kāi),在早期情感分類領(lǐng)域得到了廣泛的應(yīng)用。
2)Bi-LSTM-Attention模型[17]:采用Word2vec詞嵌入,通過(guò)雙向LSTM來(lái)捕捉文本中的上下文信息,并利用注意力機(jī)制獲得方面詞上下文信息權(quán)重,具有很好的文本建模和特征提取能力。
3)SSGCN模型[18]:在句法依賴樹(shù)的基礎(chǔ)上,增強(qiáng)特定上下文詞與方面詞之間的關(guān)聯(lián),并作為外部特征輸入GCN網(wǎng)絡(luò),提高模型情感分類效果。
2? 結(jié)果與分析
2.1? 情感分類結(jié)果對(duì)比
BAGCN模型與對(duì)比模型的結(jié)果見(jiàn)表4。從表4可以看出,BAGCN模型在準(zhǔn)確率和F1值上均高于其他對(duì)比模型。情感詞典法的F1值最低,說(shuō)明通過(guò)情感詞典匹配的方式在泛化能力和語(yǔ)義理解中存在一定的局限性。Bi-LSTM-Attention和SSGCN模型在F1值上均高于SVM模型,表明深度學(xué)習(xí)方法可以更好地建模文本序列中的長(zhǎng)距離依賴關(guān)系和關(guān)鍵信息,從而在情感分類任務(wù)上取得更好的性能。BAGCN相比Bi-LSTM-Attention、SSGCN模型的F1值分別提升了1.82%和1.23%,表明預(yù)訓(xùn)練BERT詞向量具有更好的文本表征能力,而圖卷積網(wǎng)絡(luò)則可以捕捉句法結(jié)構(gòu)信息,有利于提升方面級(jí)情感分類效果。
方面級(jí)情感的分類結(jié)果見(jiàn)表5。由表5可知,在標(biāo)注樣本更少的情況下,外觀和品控方面的分類準(zhǔn)確率和F1值均優(yōu)于口感和價(jià)格方面,推測(cè)是因?yàn)橥庥^和品控維度的情感描述和修飾比較簡(jiǎn)單,比如“盒子很漂亮”“煙嘴細(xì)膩”等,這些修飾詞相對(duì)明確和直觀,更容易被模型識(shí)別。相比之下,口感和價(jià)格通常包含更多口語(yǔ)化的評(píng)價(jià),比如“價(jià)格親民”“口感很順”等,這些修飾詞更加復(fù)雜和主觀,也容易受到煙民的個(gè)人口味偏好和評(píng)價(jià)標(biāo)準(zhǔn)的影響,導(dǎo)致分類準(zhǔn)確率出現(xiàn)下降。
2.2? 消融實(shí)驗(yàn)結(jié)果對(duì)比
針對(duì)Attention、Bi-LSTM、BERT和DepGCN模塊的消融實(shí)驗(yàn)的結(jié)果見(jiàn)表6。由表6可知,在不同消融模塊下,模型的準(zhǔn)確率和F1值均有所下降,證明了BAGCN中每個(gè)部分對(duì)情感分類結(jié)果均有貢獻(xiàn)。其中DepGCN、BERT、Bi-LSTM對(duì)模型性能的影響最為顯著,注意力機(jī)制可以更好地捕捉不同詞語(yǔ)之間的重要性,對(duì)模型的性能提升也有一定貢獻(xiàn)。
2.3? 消費(fèi)者方面級(jí)情感分析
不同價(jià)位下消費(fèi)者情感關(guān)注程度如圖4所示,圖4中價(jià)位-方面級(jí)對(duì)應(yīng)區(qū)域顏色代表消費(fèi)者評(píng)論中出現(xiàn)的頻率占比,顏色越深代表消費(fèi)者對(duì)該方面的關(guān)注度越高??梢?jiàn),在低價(jià)位的卷煙市場(chǎng)中,價(jià)格是消費(fèi)者最關(guān)注的因素,而對(duì)外觀和品控方面關(guān)注明顯較少。但隨著價(jià)位的提高,消費(fèi)者對(duì)價(jià)格的關(guān)注度相對(duì)減少,口感、外觀、品控方面得到的關(guān)注度持續(xù)提升,說(shuō)明消費(fèi)者在購(gòu)買高價(jià)位的卷煙品牌時(shí)對(duì)產(chǎn)品的整體品質(zhì)和形象均有著較高的期望。
消費(fèi)者在不同方面級(jí)的情感分布隨價(jià)格變化情況如圖5所示,圖5中的數(shù)字代表該情感評(píng)價(jià)占整體情感的比例??梢?jiàn),在低端價(jià)位的卷煙評(píng)價(jià)中,消費(fèi)者在價(jià)格方面表達(dá)出的消極情感多于積極情感??诟蟹矫鎰t因個(gè)人喜好不同,并未呈現(xiàn)出明顯的情感差異。在整個(gè)價(jià)格范圍內(nèi),消費(fèi)者對(duì)于卷煙產(chǎn)品的外觀和品控方面都是相對(duì)穩(wěn)定且積極的評(píng)價(jià)。因此,煙草企業(yè)在高價(jià)位的卷煙市場(chǎng)中應(yīng)該注重產(chǎn)品質(zhì)量和口感的提升,以滿足消費(fèi)者的需求。同時(shí),在低價(jià)位市場(chǎng)中,降低價(jià)格可以減少消費(fèi)者對(duì)價(jià)格的負(fù)面情感,但企業(yè)也應(yīng)該注重提升產(chǎn)品的口感和外觀質(zhì)量,以提高消費(fèi)者多方面滿意度。
根據(jù)消費(fèi)者評(píng)論中不同方面修飾詞的頻率占比,利用Python中的Wordcloud庫(kù)生成的方面級(jí)評(píng)價(jià)詞云如圖6所示。可見(jiàn),在價(jià)格方面,“不值”“漲價(jià)”“溢價(jià)”“貴”等消極的評(píng)價(jià)詞出現(xiàn)頻率更高。在口感方面,“清新”“柔順”“醇厚”“微甜”是常見(jiàn)的積極評(píng)價(jià)詞,而“苦”“沒(méi)勁”“干”代表大部分負(fù)面評(píng)價(jià)。在外觀方面,“精美”“上檔次”“好看”等積極評(píng)價(jià)詞詞頻明顯多于“垃圾”“老氣”等消極評(píng)價(jià)詞。在品控方面,“柔軟”“舒適”“滿意”等積極評(píng)價(jià)詞占主導(dǎo)地位,“太硬”“沒(méi)感覺(jué)”“差評(píng)”等消極詞匯出現(xiàn)的頻率較低。消費(fèi)者在不同方面級(jí)修飾詞的頻率占比與本文模型識(shí)別的情感分布基本一致。
3? 結(jié)論
通過(guò)采集2010—2022年卷煙消費(fèi)者評(píng)論數(shù)據(jù),構(gòu)建卷煙消費(fèi)者評(píng)價(jià)方面級(jí)數(shù)據(jù)集,建立融合情感增強(qiáng)和句法特征的方面級(jí)情感分類模型BAGCN,并與主流的SVM、 Bi-LSTM-Attention、SGCN等模型進(jìn)行對(duì)比。研究結(jié)果表明,BAGCN模型在準(zhǔn)確率和F1值上均高于其他對(duì)比模型,BAGCN模型在 F1值上相比SVM、BiLSTM-Attention和SGCN分別提高了5.91%、 1.82%和1.23%。其中,Attention、Bi-LSTM、BERT和DepGCN模塊均證明有利于提升情感分類效果。消費(fèi)者情感分析結(jié)果表明,當(dāng)購(gòu)買低價(jià)位的卷煙時(shí),消費(fèi)者往往更加關(guān)注價(jià)格的變動(dòng),其表達(dá)出的消極情感多于積極情感。然而,消費(fèi)者對(duì)于口感的要求因個(gè)人喜好不同而沒(méi)有明顯的情感差異。在外觀和品控方面,消費(fèi)者的評(píng)價(jià)在整個(gè)價(jià)格范圍內(nèi)都相對(duì)穩(wěn)定,且評(píng)價(jià)大多數(shù)是積極的。本文模型可以幫助煙草企業(yè)了解消費(fèi)者對(duì)產(chǎn)品的評(píng)價(jià)和情感傾向,有助于企業(yè)在產(chǎn)品開(kāi)發(fā)和市場(chǎng)營(yíng)銷方面做出更好的決策。
參考文獻(xiàn):
[1] PONTIKI M, GALANIS D, PAPAGEORGIOU H, et al. Semeval-2016 task 5: Aspect based sentiment analysis[C]//ProWorkshop on Semantic Evaluation(SemEval-2016). Association for Computational Linguistics,2016:19-30.
[2] 周法國(guó),孫冬雪.融入情感和話題信息的中文方面級(jí)情感分析[J].計(jì)算機(jī)應(yīng)用研究,2022,39(12):3614-3619,3625.
[3] 潘芳,張會(huì)兵,董俊超,等.基于高效Transformer的中文在線課程評(píng)論方面情感分析[J].計(jì)算機(jī)科學(xué),2021,48(S1):264-269.
[4] 商容軒,張斌,米加寧.基于BRNN的政務(wù)APP評(píng)論端到端方面級(jí)情感分析方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2022,6(Z1):364-375.
[5] 王萍,李璋寅,郭茹燕,等.面向醫(yī)療文本信息的方面級(jí)情感分析[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2023,69(1):60-68.
[6] 金吉瓊,劉鴻,鄭賽晶.基于在線評(píng)論文本挖掘技術(shù)的電子煙市場(chǎng)消費(fèi)熱點(diǎn)分析[J].煙草科技,2019,52(12):106-114.
[7] 蘇凱,付博,楊永鋒,等.基于互聯(lián)網(wǎng)數(shù)據(jù)的斗煙市場(chǎng)偏好性分析[J].煙草科技,2019,52(8):106-113.
[8] 楊春曉,張鶴馨,黃家雯,等.卷煙在線評(píng)論的文本情感分析[J].中國(guó)煙草學(xué)報(bào),2020,26(2):92-100.
[9] 王銳,鄭新章,宗國(guó)浩,等.融合BiLSTM和注意力機(jī)制的卷煙消費(fèi)者評(píng)價(jià)情感分類方法[J].煙草科技,2022,55(11):106-112.
[10] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[D]. arXiv,2018.
[11] MA D,LI S,ZHANG X,et al.Interactiv eattention networks for aspect-level sentiment classification[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.2017: 4068-4074.
[12] ZHANG C, LI Q, SONG D. Aspect-based sentiment classification with aspect-specific graph convolutional networks[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing andthe 9th International Joint Conferenceon Natural Language Processing(EMNLP-IJCNLP),2019:4568-4578.
[13] COHEN J. A coefficient of agreement for nominal scales[J]. Educational and psychological measurement, 1960,20(1):37-46.
[14] MIN K, MA C, ZHAO T, et al. BosonNLP:An ensemble approach for word segmentation and POS tagging[C]//Natural Language Processing and Chinese Computing: 4th CCF Conference, NLPCC 2015, Nanchang, China, October 9-13,2015,Proceedings 4. Springer International Publishing, 2015:520-526.
[15] DOZAT T, MANNING C D. Deep biaffine attention for neural dependency parsing[D].arXiv,2016.
[16] JIANG L, YU M, ZHOU M, et al. Target-dependent twitter sentiment classification[C]//Proceedings of the 49th annual meeting of the association for computational linguistics:human language technologies,2011:151-160.
[17] WANG Y, HUANG M, ZHU X, et al. Attention-based LSTM for aspect-level sentiment classification[C]//Proceedings of the 2016 conference on empirical methods in natural language processing,2016:606-615.
[18] 李帥,徐彬,韓祎珂,等.SS-GCN:情感增強(qiáng)和句法增強(qiáng)的方面級(jí)情感分析模型[J].計(jì)算機(jī)科學(xué),2023,50(3):3-11.