劉飛生 魏超
摘要:知乎平臺(tái)作為中國(guó)主要的知識(shí)共享社區(qū),承載著海量信息,因此對(duì)其進(jìn)行情感分析具有重要的現(xiàn)實(shí)意義。本研究旨在結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN) 與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM) 技術(shù),實(shí)現(xiàn)對(duì)知乎平臺(tái)上大量文本數(shù)據(jù)的情感分析。本文研究并驗(yàn)證了CNN和LSTM技術(shù)在文本情感分析中的性能,通過(guò)融合兩種技術(shù)有效地提升了情感分類(lèi)的精度。實(shí)驗(yàn)結(jié)果表明,融合了CNN與LSTM的模型在在多個(gè)領(lǐng)域中情感分類(lèi)方面呈現(xiàn)出更優(yōu)異的表現(xiàn),從而驗(yàn)證了其顯著的有效性和潛力。
關(guān)鍵詞:文本情感分析;知乎;卷積神經(jīng)網(wǎng)絡(luò);長(zhǎng)短時(shí)記憶;循環(huán)神經(jīng)網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)35-0020-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
在信息時(shí)代的浪潮下,社交媒體和網(wǎng)絡(luò)平臺(tái)扮演著不可或缺的角色,為人們提供了一個(gè)廣泛的信息交流和表達(dá)平臺(tái)。知乎作為中國(guó)領(lǐng)先的知識(shí)分享社區(qū),吸引了4億多的注冊(cè)用戶(hù),涵蓋了廣泛的話(huà)題、問(wèn)題和觀(guān)點(diǎn)。隨著用戶(hù)規(guī)模的不斷擴(kuò)大,知乎平臺(tái)所積累的海量文本信息數(shù)據(jù)變得豐富和多樣。這些文本數(shù)據(jù)承載著用戶(hù)對(duì)于各類(lèi)話(huà)題的觀(guān)點(diǎn)、情感以及態(tài)度,其深層次的情感信息對(duì)于理解用戶(hù)需求、產(chǎn)品改進(jìn)以及輿情分析具有重要意義。
隨著社交媒體信息的爆炸性增長(zhǎng),對(duì)于海量文本數(shù)據(jù)的高效處理和情感分類(lèi)需求變得更加迫切[1]。傳統(tǒng)的文本分析方法往往受限于特征工程的復(fù)雜性和規(guī)模效應(yīng),難以滿(mǎn)足大規(guī)模數(shù)據(jù)的處理要求。近年來(lái),深度學(xué)習(xí)技術(shù)的興起為文本情感分析帶來(lái)了嶄新的可能性。通過(guò)構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),深度學(xué)習(xí)能夠自動(dòng)地從原始文本數(shù)據(jù)中提取高層次的語(yǔ)義特征,從而實(shí)現(xiàn)高效準(zhǔn)確的情感分類(lèi)[2]。
深度學(xué)習(xí)在文本情感分析領(lǐng)域的應(yīng)用已經(jīng)取得了顯著的成果,其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN) 和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM) 等技術(shù)在文本分類(lèi)任務(wù)中表現(xiàn)出色。CNN在圖像處理中的成功應(yīng)用啟發(fā)了研究人員將其擴(kuò)展到文本領(lǐng)域,其卓越的特征提取能力對(duì)于捕捉文本的局部特征非常有效[3];LSTM作為一種適用于序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠捕捉文本的時(shí)序信息,對(duì)于情感分析尤為重要[4]。
本文旨在借助深度學(xué)習(xí)技術(shù),通過(guò)CNN和LSTM技術(shù)進(jìn)行融合來(lái)探索并解決知乎平臺(tái)上海量文本數(shù)據(jù)的情感分類(lèi)問(wèn)題。本文將深入研究并驗(yàn)證CNN和LSTM技術(shù)在文本情感分析中的表現(xiàn),進(jìn)一步探討它們?nèi)诤系膬?yōu)勢(shì)和潛力,以期為社交媒體情感分析領(lǐng)域的研究和應(yīng)用提供有力的支持。
1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)處理
1.1 實(shí)驗(yàn)環(huán)境
本文的實(shí)驗(yàn)環(huán)境如下所示:
l 操作系統(tǒng):CentOS Linux 7.0;
l 開(kāi)發(fā)環(huán)境:TensorFlow;
l 通用庫(kù):numpy、scikit-learn、scipy、nltk。
TensorFlow作為深度學(xué)習(xí)框架,為本文的實(shí)驗(yàn)提供了穩(wěn)健的基礎(chǔ)。通過(guò)numpy、scikit-learn、scipy和nltk等通用庫(kù)的支持,我們能夠方便地進(jìn)行數(shù)據(jù)處理、特征提取和模型評(píng)估。
1.2 實(shí)驗(yàn)數(shù)據(jù)集
本文實(shí)驗(yàn)數(shù)據(jù)集分為2個(gè)主要部分:
1) 知乎網(wǎng)站數(shù)據(jù)集
通過(guò)Python爬蟲(chóng)技術(shù),筆者采集了豐富的知乎用戶(hù)評(píng)論和帖子數(shù)據(jù),作為情感分析的基礎(chǔ)數(shù)據(jù)集。這些數(shù)據(jù)涵蓋了多個(gè)領(lǐng)域和話(huà)題,涉及科技、文化、娛樂(lè)等多個(gè)領(lǐng)域,為我們的研究提供了豐富多樣的文本素材。
2) 新華社新聞數(shù)據(jù)集
引用中文新聞數(shù)據(jù)集,通常被稱(chēng)為“新華社”數(shù)據(jù)集,作為補(bǔ)充實(shí)驗(yàn)數(shù)據(jù)。這個(gè)數(shù)據(jù)集包含了大量的中文新聞文本,覆蓋了不同的新聞?lì)I(lǐng)域和主題。這樣的數(shù)據(jù)集在情感分析任務(wù)中能夠提供更多的文本樣本,豐富了研究數(shù)據(jù)。
1.3 數(shù)據(jù)預(yù)處理
為了準(zhǔn)備數(shù)據(jù),采取以下步驟進(jìn)行數(shù)據(jù)預(yù)處理:
1) 中文分詞
使用中國(guó)科學(xué)院計(jì)算所開(kāi)發(fā)的中文分詞軟件包NLPIR進(jìn)行中文分詞。NLPIR不僅提供了高效準(zhǔn)確的中文分詞功能,還能進(jìn)行詞性標(biāo)注、命名實(shí)體識(shí)別以及用戶(hù)詞典的支持。這有助于將文本數(shù)據(jù)轉(zhuǎn)化為更加適合模型處理的詞匯序列。
2) 文本清洗與停用詞去除
在分詞完成后,筆者進(jìn)行了文本清洗,包括去除特殊字符、標(biāo)點(diǎn)符號(hào)和無(wú)意義的空白符。此外,還剔除了停用詞,這些停用詞通常不攜帶太多情感信息,但會(huì)占據(jù)文本中的空間。
經(jīng)過(guò)以上數(shù)據(jù)預(yù)處理步驟,得到了分詞、清洗且剔除了停用詞之后的文本數(shù)據(jù),為接下來(lái)的特征提取和模型訓(xùn)練做好了準(zhǔn)備。
2 融合模型設(shè)置
為了充分發(fā)揮CNN和LSTM的優(yōu)勢(shì),在參考Ombabi[5]的研究成果基礎(chǔ)上,本文針對(duì)中文語(yǔ)境提出了一種融合方法,將它們結(jié)合起來(lái)進(jìn)行知乎平臺(tái)文本情感分析。以下是該融合方法的詳細(xì)步驟:
2.1 文本表示
首先,利用預(yù)訓(xùn)練的詞向量模型(如Word2Vec或GloVe) 將原始文本轉(zhuǎn)換為詞向量表示。這些詞向量能夠有效地捕捉詞匯之間的語(yǔ)義關(guān)系,為后續(xù)的模型提供有意義的輸入。
2.2 卷積操作
將詞向量表示輸入一層卷積神經(jīng)網(wǎng)絡(luò)中,該網(wǎng)絡(luò)由多個(gè)卷積核和池化操作構(gòu)成。卷積核在捕捉不同大小的局部特征方面表現(xiàn)出色,而池化操作則有助于減少數(shù)據(jù)的維度,同時(shí)提取關(guān)鍵特征。
2.3 LSTM建模
卷積層的輸出被饋送至一個(gè)雙向LSTM層。雙向LSTM能夠同時(shí)捕捉文本的前向和后向信息,從而更好地理解文本的上下文語(yǔ)境。LSTM層的輸出被連接在一起,并通過(guò)全連接層進(jìn)行情感分類(lèi)。
2.4 融合模型的訓(xùn)練優(yōu)化
在模型訓(xùn)練過(guò)程中,使用以下實(shí)驗(yàn)參數(shù)設(shè)置來(lái)優(yōu)化融合模型:
l 優(yōu)化算法:選用常用的Adam優(yōu)化算法,以最小化交叉熵?fù)p失函數(shù)。
l 學(xué)習(xí)率:初試學(xué)習(xí)率設(shè)定為一個(gè)較小的值0.001,通過(guò)實(shí)驗(yàn)驗(yàn)證找到合適的學(xué)習(xí)率調(diào)度策略,如學(xué)習(xí)率衰減。
l 批大小:批處理大小對(duì)模型訓(xùn)練速度和穩(wěn)定性具有影響,進(jìn)行批大小的調(diào)整和實(shí)驗(yàn)。
l Dropout:在全連接層和LSTM層中引入Dropout層,以減少過(guò)擬合風(fēng)險(xiǎn)。
l Epochs:設(shè)置合適的訓(xùn)練迭代次數(shù),避免過(guò)擬合或欠擬合情況的出現(xiàn)。
2.5 實(shí)驗(yàn)參數(shù)設(shè)置
為了驗(yàn)證模型性能,筆者設(shè)計(jì)了一系列實(shí)驗(yàn),包括單獨(dú)使用CNN、單獨(dú)使用LSTM以及融合CNN與LSTM模型的情況,最終參數(shù)如表1所示。
通過(guò)對(duì)不同模型的參數(shù)設(shè)置進(jìn)行調(diào)整,旨在獲得最佳性能,以便在知乎平臺(tái)文本情感分析任務(wù)中取得更準(zhǔn)確的結(jié)果。
3 模型訓(xùn)練及評(píng)估
3.1 對(duì)比實(shí)驗(yàn)
在基于單獨(dú)使用CNN、LSTM以及融合CNN與LSTM三種方法的基礎(chǔ)上,筆者選擇了知乎平臺(tái)上不同領(lǐng)域內(nèi)容,包括“美食”“臺(tái)風(fēng)”和“科技”,進(jìn)行了模型訓(xùn)練及評(píng)估,其中涉及80%的訓(xùn)練數(shù)據(jù)和20%的測(cè)試數(shù)據(jù)。
3.2 實(shí)驗(yàn)評(píng)估指標(biāo)
在評(píng)估性能時(shí)使用標(biāo)準(zhǔn)評(píng)估指標(biāo)進(jìn)行驗(yàn)證,使用accuracy準(zhǔn)確度、precision精密度(又稱(chēng)精度)、sensitivity靈敏度(又稱(chēng)召回率)、specificity特異性、F-Score 綜合評(píng)估指標(biāo)這5個(gè)參數(shù)進(jìn)行性能評(píng)估,其值可以使用混淆矩陣及對(duì)應(yīng)公式來(lái)確定。
[準(zhǔn)確度Accuracy=TP+TNTP+TN+FP+FN]? ?(1)
[精度Precision=TPTP+FP] (2)
[召回率Sensitity=TPTP+FN] (3)
[特異性Specificity=TNTN+FP] (4)
[F1=P*RP+R] (5)
3.3 實(shí)驗(yàn)結(jié)果與分析
作者對(duì)知乎數(shù)據(jù)集和新華社數(shù)據(jù)集上進(jìn)行了一系列的實(shí)驗(yàn),針對(duì)“美食”“臺(tái)風(fēng)”“科技”三個(gè)特定領(lǐng)域進(jìn)行了情感分類(lèi)性能評(píng)估。實(shí)驗(yàn)結(jié)果如表3所示。
通過(guò)對(duì)表3中的美食研究領(lǐng)域進(jìn)行數(shù)據(jù)分析,評(píng)估性能如圖1所示。經(jīng)過(guò)對(duì)比結(jié)果可知,本文采用的CNN與LSTM融合模型的準(zhǔn)確度、精度、召回率、特異性、F-1分別為0.90、? 0.91、0.89、0.92、0.90,要比單獨(dú)的CNN模型和單獨(dú)的LSTM模型取得的評(píng)估性能更好。說(shuō)明CNN與LSTM融合模型在知乎平臺(tái)的“美食”領(lǐng)域上的評(píng)估預(yù)測(cè)率更好。
通過(guò)對(duì)表3中的臺(tái)風(fēng)研究領(lǐng)域進(jìn)行數(shù)據(jù)分析,評(píng)估性能如圖2所示。經(jīng)過(guò)對(duì)比結(jié)果可知,本文采用的CNN與LSTM融合模型的準(zhǔn)確度、精度、召回率、特異性、F-1分別為0.82、0.85、0.8、0.87、0.82,要比單獨(dú)的CNN模型和單獨(dú)的LSTM模型取得的評(píng)估性能要好。說(shuō)明CNN與LSTM融合模型在知乎平臺(tái)的“臺(tái)風(fēng)”領(lǐng)域上的評(píng)估預(yù)測(cè)率更好。
通過(guò)對(duì)表3中的科技研究領(lǐng)域進(jìn)行數(shù)據(jù)分析,評(píng)估性能如圖3所示。經(jīng)過(guò)對(duì)比結(jié)果可知,本文采用的CNN與LSTM融合模型的準(zhǔn)確度、精度、召回率、特異性、F-1分別為0.93、0.92、0.94、0.95、0.93,要比單獨(dú)的CNN模型和單獨(dú)的LSTM模型取得的評(píng)估性能更好。說(shuō)明CNN與LSTM融合模型在知乎平臺(tái)的“科技”領(lǐng)域上的評(píng)估預(yù)測(cè)率更好。
綜合以上可知,在3個(gè)不同領(lǐng)域中,融合了CNN與LSTM的模型在情感分類(lèi)上表現(xiàn)出了更高的準(zhǔn)確率。這表明通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)相融合,能夠更好地捕捉文本中的特征和上下文信息,從而提高情感分類(lèi)的準(zhǔn)確性。
4 結(jié)束語(yǔ)
本文以知乎這個(gè)信息豐富的社交平臺(tái)為對(duì)象,探索了一種有效的文本情感分析方法。通過(guò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN) 和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM) 的融合模型,在不同領(lǐng)域的情感分類(lèi)任務(wù)中取得了令人滿(mǎn)意的成果,證實(shí)了融合模型在情感分析任務(wù)中的潛力。然而,鑒于實(shí)驗(yàn)設(shè)備條件的限制,本文未能在深層次上探索CNN與LSTM的融合,未來(lái)的研究可以考慮利用更強(qiáng)大的計(jì)算資源,進(jìn)一步挖掘模型的潛力。
參考文獻(xiàn):
[1] 杜昌順.面向細(xì)分領(lǐng)域的輿情情感分析關(guān)鍵技術(shù)研究[D].北京:北京交通大學(xué),2019.
[2] 鄧鈺.面向短文本的情感分析關(guān)鍵技術(shù)研究[D].成都:電子科技大學(xué),2021.
[3] KIM Y.Convolutional neural networks for sentence classification[EB/OL].2014:arXiv:1408.5882.https://arxiv.org/abs/1408.5882.pdf
[4] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[5] OMBABI A H,OUARDA W,ALIMI A M.Deep learning CNN–LSTM framework for Arabic sentiment analysis using textual information shared in social networks[J].Social Network Analysis and Mining,2020,10(1):1-13.
【通聯(lián)編輯:唐一東】