黃靜玉 李彤彤 李坦 郭栩?qū)? 葛慧欣
摘? ?要:對(duì)大學(xué)生特定時(shí)間的社交媒體評(píng)論文本進(jìn)行情感傾向分析,不僅可以幫助教師更好地了解該群體的情感特點(diǎn),還可以為有關(guān)部門針對(duì)該群體的決策提供科學(xué)參考。文章采用SVM、KNN、DT和NB四種機(jī)器學(xué)習(xí)算法分別構(gòu)建情感分類模型,同時(shí)采用查準(zhǔn)率P、召回率R和F值作為評(píng)估指標(biāo)對(duì)情感分類模型進(jìn)行對(duì)比,最終選擇SVM模型對(duì)157名大學(xué)生2019年1月至2020年2月期間的13048條微博文本數(shù)據(jù)進(jìn)行了情感分析。研究結(jié)果表明,負(fù)向情感出現(xiàn)的時(shí)間段集中在2019年11月和2020年1至2月。在這兩個(gè)時(shí)間段內(nèi),研究群體更關(guān)注“軍訓(xùn)”“期末”“疫情”等事件,由此,學(xué)校管理者可針對(duì)這些話題或事件進(jìn)行有針對(duì)性的干預(yù),從而在一定程度上緩解學(xué)生的負(fù)向情緒,保障大學(xué)生的心理健康。
關(guān)鍵詞:大學(xué)生;情感分析;社交媒體;大數(shù)據(jù)
中圖分類號(hào):G434 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2021)03-0052-05
一、引言
隨著互聯(lián)網(wǎng)的普及,微博、朋友圈、知乎等社交媒體平臺(tái)為廣大網(wǎng)民獲取信息、發(fā)表觀點(diǎn)提供了新的途徑。人們會(huì)對(duì)事件、人物、產(chǎn)品等相關(guān)內(nèi)容發(fā)表帶有個(gè)人情感傾向與情感色彩的文本評(píng)論信息,這些主觀性的文本信息往往蘊(yùn)含著巨大的價(jià)值。企業(yè)通過(guò)挖掘并分析購(gòu)物網(wǎng)站上商品客戶評(píng)論中蘊(yùn)含的情感傾向和態(tài)度,不斷調(diào)整和改善自己的銷售策略以優(yōu)化消費(fèi)者的購(gòu)物體驗(yàn),從而提升企業(yè)實(shí)力。通過(guò)對(duì)此類文本信息進(jìn)行情感傾向分析,可以及時(shí)獲取公眾對(duì)特定事件的價(jià)值觀點(diǎn)與情感傾向,幫助有關(guān)部門準(zhǔn)確把握輿論發(fā)展趨勢(shì)并輔助其進(jìn)行決策分析,從而更有效地干預(yù)和引導(dǎo)輿論方向。
2019年發(fā)布的《第44次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,受過(guò)大學(xué)???、大學(xué)本科及以上教育的網(wǎng)民群體占比分別為10.5%、9.7%。大學(xué)生是網(wǎng)民群體的重要組成部分,并且大學(xué)生們熱衷于在社交媒體平臺(tái)發(fā)布自己的意見(jiàn)、看法[1]。通過(guò)對(duì)特定時(shí)間大學(xué)生的社交媒體評(píng)論文本進(jìn)行情感分析,不僅可以幫助我們更好地了解該群體的情感特點(diǎn),情感分析結(jié)果也可以為有關(guān)部門針對(duì)該群體的決策提供參考。
本研究基于SVM、KNN、DT和NB四種算法,分別構(gòu)建情感分類模型。采用查準(zhǔn)率、召回率和F值作為評(píng)估指標(biāo)對(duì)情感分類模型進(jìn)行評(píng)估,發(fā)現(xiàn)基于SVM算法的情感分類模型表現(xiàn)優(yōu)于其他三種算法模型。本研究采用SVM算法構(gòu)建的情感分類模型,對(duì)天津某大學(xué)學(xué)生2019年1月至2020年2月發(fā)布的微博文本進(jìn)行情感分析,關(guān)注不同時(shí)間段、不同事件背景下用戶的情緒反映,以期為相關(guān)高校管理部門提供及時(shí)有效的反饋。
二、研究設(shè)計(jì)
1.概念界定
(1)社交媒體
社交媒體,也被稱為社會(huì)媒體,是能夠支持人們寫作、分享、評(píng)論、討論和交流的網(wǎng)站和技術(shù)[2]。社交媒體是建立在互聯(lián)網(wǎng)技術(shù),特別Web2.0技術(shù)基礎(chǔ)之上的互動(dòng)社區(qū)。社交媒體賦予每個(gè)人創(chuàng)造并傳播內(nèi)容的能力,是用來(lái)進(jìn)行社會(huì)互動(dòng)的媒體,是一種通過(guò)無(wú)處不在的交流工具進(jìn)行社會(huì)交往的方式。它能夠給予用戶極大的參與空間,不僅能夠滿足網(wǎng)民個(gè)人基礎(chǔ)資料存放的需求,更重要的是能夠滿足用戶“被人發(fā)現(xiàn)”和“受到崇拜”的心理感受需求,以及用戶“關(guān)系建立”和“發(fā)揮影響”的需求[3]。大學(xué)生熱衷于在社交媒體平臺(tái)發(fā)布自己的意見(jiàn)、看法[1],社交媒體上的文本數(shù)據(jù)一定程度上能夠真實(shí)地反映大學(xué)生的情感狀態(tài)。社交媒體種類繁多,本研究以社交媒體中的主流媒體“微博”為例展開研究。
(2)文本情感分析
文本情感分析,又被稱為觀點(diǎn)識(shí)別、意見(jiàn)挖掘等,是指對(duì)文本中的觀點(diǎn)、情感極性、主客觀性進(jìn)行識(shí)別、提取、分類、歸納及推理的分析過(guò)程[4]。其中,情感分類應(yīng)用最為普遍,其主要任務(wù)是對(duì)主觀性文本進(jìn)行情感分類[5]。
國(guó)內(nèi)外對(duì)于情感的劃分較為普遍的觀點(diǎn)有以下幾種:有些研究將情感分為積極情感、消極情感兩類;有些研究將情感劃分為積極、消極和中立三個(gè)類別[6];有些研究為了表達(dá)情感的強(qiáng)度將情感分為五級(jí),0為最大消極情感,4為最大積極情感[7];也有研究根據(jù)人們的情緒表達(dá)將情感劃分為“快樂(lè)、悲哀、褒揚(yáng)、貶斥、信心和意外”等類型[8]。本研究采用了二維分類:正向情感與負(fù)向情感。正向情感指代積極情感,負(fù)向情感指代消極情感。
情感分析最常用的方法是機(jī)器學(xué)習(xí)方法和情感詞典法。相較于情感詞典法,機(jī)器學(xué)習(xí)方法不需要過(guò)多人工干預(yù)和成本投入,偏差更小[9],并且在更新速度上占據(jù)一定優(yōu)勢(shì)[10]。本研究采取機(jī)器學(xué)習(xí)的有監(jiān)督算法構(gòu)建情感分類模型,對(duì)微博文本進(jìn)行情感傾向分析。
2.研究思路
本研究實(shí)驗(yàn)思路如圖1所示,主要分為兩個(gè)部分。第一部分是情感分類模型的構(gòu)建,是將公開語(yǔ)料庫(kù)劃分為訓(xùn)練集與測(cè)試集,對(duì)測(cè)試集部分進(jìn)行文本預(yù)處理、文本向量化,然后調(diào)用算法函數(shù)訓(xùn)練情感分類模型。通過(guò)對(duì)當(dāng)前機(jī)器學(xué)習(xí)的主流算法進(jìn)行模型查準(zhǔn)率、召回率和F值比較,選取分類效果最佳的模型。第二部分是大數(shù)據(jù)的采集與分析,通過(guò)爬蟲技術(shù)爬取微博中相關(guān)用戶的信息數(shù)據(jù)并依次進(jìn)行文本預(yù)處理和文本向量化,然后運(yùn)用情感分類模型對(duì)信息數(shù)據(jù)進(jìn)行分析。
三、情感分類模型構(gòu)建
1.實(shí)驗(yàn)數(shù)據(jù)集
本實(shí)驗(yàn)采用代碼托管平臺(tái)“github”上的公開語(yǔ)料庫(kù)進(jìn)行模型訓(xùn)練。該語(yǔ)料庫(kù)是對(duì)一些評(píng)論進(jìn)行正負(fù)情感標(biāo)注的數(shù)據(jù)集合,其建設(shè)時(shí)間較新,在數(shù)據(jù)標(biāo)注期間采取多人核驗(yàn)保證數(shù)據(jù)質(zhì)量。將該語(yǔ)料庫(kù)劃分為訓(xùn)練集和測(cè)試集兩個(gè)部分。訓(xùn)練集用于對(duì)情感分類模型的訓(xùn)練評(píng)估;測(cè)試集用于檢驗(yàn)構(gòu)建的模型能否準(zhǔn)確得出正確分類標(biāo)簽。公開語(yǔ)料庫(kù)的具體情況如表1所示。
2.預(yù)處理
對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,使計(jì)算機(jī)識(shí)別自然語(yǔ)言形式的語(yǔ)料[11]。常見(jiàn)的預(yù)處理包括以下內(nèi)容:①信息抽取,去除文本含有的“噪聲”。②將提取出來(lái)的有用數(shù)據(jù)借助已有的分詞工具進(jìn)行中文分詞。③借助已有的停用詞詞典,過(guò)濾掉文本中的停用詞,降低停用詞對(duì)分析結(jié)果的影響[12]。本研究主要使用預(yù)處理技術(shù)的分詞處理與去停用詞處理。使用北京理工大學(xué)研發(fā)的分詞工具“NLPIR”對(duì)采集到的微博文本數(shù)據(jù)進(jìn)行分詞處理;使用哈爾濱工業(yè)大學(xué)停用詞詞庫(kù)去除干擾實(shí)驗(yàn)的停用詞。
3.文本向量化
文本向量化即通過(guò)算法模型將文本轉(zhuǎn)化為一系列能夠表示文本的語(yǔ)義向量,研究中通常是以詞為基本單位進(jìn)行文本向量化。數(shù)據(jù)容量的大小能夠直接影響算法模型的準(zhǔn)確性、計(jì)算效率、計(jì)算時(shí)間等多個(gè)方面性能。文本向量化不僅在提高模型效率、減少計(jì)算時(shí)間、減少空間維度發(fā)揮著重要作用,同時(shí)也是提高算法性能至關(guān)重要的一環(huán)。
本研究使用了Google公司2013年提出的生成詞向量的神經(jīng)網(wǎng)絡(luò)算法“Word2vec”[13]。該算法通過(guò)給定對(duì)語(yǔ)料庫(kù)的學(xué)習(xí),可以生成維度不同的詞向量空間。該算法是基于上下文對(duì)詞語(yǔ)進(jìn)行分析處理,因而能夠達(dá)到本文需要達(dá)到的情感傾向性分類目的。這些詞向量可被放置于各類 NLP的計(jì)算任務(wù)中[14]?!癢ord2vec”采用的模型有CBOW和Skip-gram兩種,如圖2所示。兩者的組成部分均有輸入層、投影層和輸出層。CBOW模型的原理是根據(jù)位于當(dāng)前詞前后的詞語(yǔ)來(lái)預(yù)測(cè)出當(dāng)前詞語(yǔ),而Skip-gram模型是以詞向量空間中的當(dāng)前詞語(yǔ)來(lái)預(yù)測(cè)位于其前后的詞語(yǔ)。
在此基礎(chǔ)上,采用“Word2vec”中的Skip-gram方法對(duì)訓(xùn)練集中的文本數(shù)據(jù)進(jìn)行詞語(yǔ)向量化,使得每個(gè)詞都有特定的數(shù)值來(lái)代表其特征,構(gòu)建了特征空間。Skip-gram方法主要是以詞向量空間中的當(dāng)前詞語(yǔ)來(lái)預(yù)測(cè)位于其前后的詞語(yǔ),為模型訓(xùn)練打下基礎(chǔ)。
4.模型構(gòu)建
當(dāng)前機(jī)器學(xué)習(xí)的主流算法有支持向量機(jī)算法(SVM)、K臨近算法(KNN)、決策樹算法(DT)、樸素貝葉斯法(NB)等。
SVM算法一般來(lái)說(shuō)可用于線性分類與非線性分類,其最重要的任務(wù)是選擇最優(yōu)的決策邊界,能夠?qū)崿F(xiàn)得到的兩類數(shù)據(jù)點(diǎn)之間距離最大化分割的直線。在二維空間中,決策邊界就是一條直線,將特征空間劃分正類與負(fù)類。但現(xiàn)實(shí)中很多數(shù)據(jù)分布是非線性的,可以借助核函數(shù)將二維數(shù)據(jù)空間向高維轉(zhuǎn)化,從而可以找到一個(gè)決策平面將不同類別的數(shù)據(jù)點(diǎn)距離最大化分割[15]。SVM最大的優(yōu)勢(shì)是能夠在計(jì)算機(jī)性能欠缺、樣本數(shù)不高的情況下取得不錯(cuò)的結(jié)果。
KNN算法是經(jīng)典的文本分類算法,其基本過(guò)程是將訓(xùn)練樣本映射成空間中的點(diǎn),再計(jì)算相似度,按照計(jì)算結(jié)果進(jìn)行排序,找出訓(xùn)練集D中與待分類文本x相似度最高或距離最近的k個(gè)文本。根據(jù)找出的k個(gè)文本的分類結(jié)果來(lái)對(duì)待分類文本x進(jìn)行判定[16]。在樣本數(shù)據(jù)集大或訓(xùn)練樣本分布不均勻的情況下,分類的準(zhǔn)確度會(huì)受到影響[17]。
DT算法所用的DP矩陣可以基于抽象層次的結(jié)果及統(tǒng)計(jì)意義的度量層次結(jié)果來(lái)建立。但是當(dāng)面臨樣本類別較多或訓(xùn)練樣本數(shù)量較少的情況時(shí),通常很難做出準(zhǔn)確的估計(jì)。
NB算法由概率論中的貝葉斯公式得來(lái),具有實(shí)現(xiàn)簡(jiǎn)單、計(jì)算高效等優(yōu)勢(shì)。貝葉斯算法本身具有增量學(xué)習(xí)的特性,可有效降低學(xué)習(xí)算法的復(fù)雜性。但數(shù)據(jù)增長(zhǎng)的爆炸式趨勢(shì)限制了該算法的可擴(kuò)展性和泛化性[18]。
將經(jīng)過(guò)預(yù)處理及文本向量化的訓(xùn)練集數(shù)據(jù),分別使用前文介紹的SVM、KNN、DT、NB算法調(diào)用已有庫(kù)函數(shù)編寫相應(yīng)的算法程序,逐條讀取訓(xùn)練集中的數(shù)據(jù),對(duì)數(shù)據(jù)及其蘊(yùn)含的情感傾向進(jìn)行學(xué)習(xí),分別構(gòu)建了四種算法所對(duì)應(yīng)的情感分類模型。
5.模型選擇
本研究采用的模型需要通用評(píng)估標(biāo)準(zhǔn)評(píng)價(jià)和衡量其效率。目前通用的文本分類評(píng)估標(biāo)準(zhǔn)有查準(zhǔn)率、召回率(也叫查全率)和F值等。
(1)查準(zhǔn)率P
準(zhǔn)確分類的測(cè)試組與該類數(shù)據(jù)總和之比的百分化,具體計(jì)算方法如公式1。
p=■公式1
其中,x代表某類一個(gè)測(cè)試組分類正確的樣本個(gè)數(shù);C代表某類數(shù)據(jù)總和;P代表查準(zhǔn)率 Precision。
(2)召回率R
從被分類領(lǐng)域中,召回目標(biāo)類別的比例,具體計(jì)算方法如公式2。
R=■公式2
其中,m代表標(biāo)簽“1”數(shù)據(jù)的總數(shù);x代表分類器預(yù)測(cè)標(biāo)簽為“1”的正確樣本個(gè)數(shù);R代表查全率 Recall。
(3)F值
P和R指標(biāo)有時(shí)候會(huì)出現(xiàn)互相制約的情況。P值和R值不可能同時(shí)正增長(zhǎng),這樣就需要綜合考慮它們。最常見(jiàn)的方法就是F-Measure(又稱為F-Score,簡(jiǎn)稱F值)。F值綜合反映整體的指標(biāo),由上面得到的 P 與 R 進(jìn)行加權(quán)調(diào)和,具體計(jì)算方法如公式3。
F1=■公式3
在具體評(píng)估過(guò)程中,查準(zhǔn)率與召回率有一定的制約關(guān)系。查準(zhǔn)率、召回率和F值的值越高,模型越有效。
本研究構(gòu)建的四種模型分別對(duì)經(jīng)過(guò)文本預(yù)處理及文本向量化的測(cè)試集進(jìn)行情感傾向判定,即正向情感標(biāo)記為“1”,負(fù)向情感標(biāo)記為“-1”。使用程序分別統(tǒng)計(jì)分類器將輸入文本正確地分類到某個(gè)類別的個(gè)數(shù)、錯(cuò)誤地分類到某個(gè)類別的個(gè)數(shù)、錯(cuò)誤地排除在某個(gè)類別之外的個(gè)數(shù)、正確地排除在某個(gè)類別之外的個(gè)數(shù)。采用查準(zhǔn)率、召回率和F值等評(píng)估標(biāo)準(zhǔn)對(duì)構(gòu)建的情感分類模型進(jìn)行評(píng)估,結(jié)果如表2所示??梢园l(fā)現(xiàn),SVM、KNN、DT、NB等四種算法構(gòu)建的分類模型分析效率相對(duì)較高,其中SVM算法的P、R、F三個(gè)標(biāo)準(zhǔn)的值均為最高。因此,本研究最終選擇SVM算法構(gòu)建的情感分類模型進(jìn)行情感傾向分析。
四、基于微博文本大數(shù)據(jù)的情感分析
1.數(shù)據(jù)采集
本研究追蹤了半年內(nèi)曾定位在天津師范大學(xué)的賬戶204個(gè),并人工篩選獲取157名學(xué)生的ID。使用“github”上公開的新浪微博爬蟲程序,通過(guò)不斷更新config.json中的學(xué)生ID列表,再利用Spyder執(zhí)行weiboSpider.py程序來(lái)爬取已知微博ID學(xué)生2019年1月1日至2020年2月29日的微博文本。
本次爬取微博數(shù)據(jù)取得了較好的結(jié)果。共計(jì)爬取157名學(xué)生的13048條數(shù)據(jù),分別存放在157個(gè)CSV文件中。其格式如表3所示,主要由微博ID、正文、發(fā)布時(shí)間、位置、點(diǎn)贊數(shù)等組成。文本及發(fā)布時(shí)間作為本文主要的實(shí)驗(yàn)數(shù)據(jù)。
2. 數(shù)據(jù)分析
本研究對(duì)2019年1月至2020年2月期間157名學(xué)生的13048條文本數(shù)據(jù)進(jìn)行分詞、去停用詞等文本預(yù)處理及文本向量化,選擇基于SVM算法的情感分類模型對(duì)其情感極性進(jìn)行了分類。本研究使用SVM算法構(gòu)建的情感分類模型對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行情感傾向判定。輸出判定結(jié)果為“-1”的文本,即負(fù)向情感文本;輸出判定結(jié)果為“1”的文本,即正向情感文本。統(tǒng)計(jì)結(jié)果如下。
(1)正負(fù)向情感文本數(shù)量統(tǒng)計(jì)
首先,本研究對(duì)正負(fù)情感的文本以月份為單位進(jìn)行了數(shù)量統(tǒng)計(jì),結(jié)果如表4所示??梢?jiàn),每個(gè)月份正向文本的數(shù)量均明顯多于負(fù)向文本,表明該校學(xué)生在微博社交媒體平臺(tái)上發(fā)布的文本在情感傾向上相對(duì)偏正向。
(2)負(fù)向情感文本比例分布情況
其次,本研究對(duì)每個(gè)月份負(fù)向情感所占比例進(jìn)行了分析,結(jié)果如圖3所示??梢园l(fā)現(xiàn),2019年1月的群體負(fù)向情感比重最小,2019年9月的群體負(fù)向情感比重最大。
(3)負(fù)向情感文本時(shí)間序列分布情況
再次,本研究對(duì)負(fù)向情感文本的時(shí)間序列分布情況進(jìn)行了分析,以時(shí)間為橫軸,負(fù)向情感文本數(shù)目為縱軸,繪制出負(fù)向情感文本數(shù)量時(shí)間序列分布圖,如圖4所示。2019年9月至2020年2月時(shí)間段的負(fù)向情感文本數(shù)量相對(duì)于2019年1至8月時(shí)間段更高,尤其是在2019年9月及2020年1至2月負(fù)向情感文本數(shù)目急劇增長(zhǎng)。因此,本研究推測(cè)研究群體的負(fù)向情感與相應(yīng)時(shí)間段發(fā)生的社會(huì)事件存在某些關(guān)聯(lián)。
(4)負(fù)向文本內(nèi)容分析
本研究按照時(shí)間段對(duì)負(fù)向文本內(nèi)容進(jìn)行了分析與討論。在2019年9月期間,負(fù)向情感和正向情感文本內(nèi)容中,“軍訓(xùn)”出現(xiàn)的頻率都比較高,推測(cè)研究群體在這個(gè)時(shí)間段對(duì)“軍訓(xùn)”的關(guān)注度較高。2019年11月,負(fù)向情感文本內(nèi)容中,“課業(yè)”“考研”“學(xué)生會(huì)”三個(gè)話題出現(xiàn)的頻率較高,說(shuō)明這三個(gè)話題可能與研究群體在這一階段的負(fù)向情緒有關(guān)聯(lián)。相比之下,“課業(yè)”“考研”“學(xué)生會(huì)”在同一時(shí)間段正向文本中出現(xiàn)的頻率較低。由此推測(cè),在這個(gè)時(shí)間段內(nèi),“課業(yè)”“考研”“學(xué)生會(huì)”對(duì)于研究群體的負(fù)向情感有直接影響。2020年初的負(fù)向文本內(nèi)容中,“期末”“疫情”這兩個(gè)話題出現(xiàn)的頻率較高,話題與學(xué)生負(fù)向情緒出現(xiàn)的時(shí)間段基本吻合,推測(cè)研究群體在這個(gè)時(shí)間段的負(fù)向情緒與“期末”及“疫情”事件有一定程度的關(guān)聯(lián)。
研究群體在社交媒體上表現(xiàn)出的情感傾向整體偏于正向,而負(fù)向情感傾向所占比例較小。負(fù)向情感比較集中的時(shí)間段主要有兩個(gè),即2019年9月與2020年初(1月和2月)。在這兩個(gè)時(shí)間段中,學(xué)生比較關(guān)心的事件分別是“軍訓(xùn)”“期末”“疫情”。其中“疫情”為突發(fā)事件,而“軍訓(xùn)”“期末”是該群體比較普遍的話題。這表明該群體除日常生活以外,也會(huì)關(guān)注社會(huì)事件。
五、結(jié)語(yǔ)
本研究構(gòu)建了基于SVM算法的情感分類模型。利用該模型對(duì)采集到的文本數(shù)據(jù)進(jìn)行情感分類,得出負(fù)向情感出現(xiàn)比較集中的時(shí)間段及期間發(fā)生的相關(guān)事件。針對(duì)產(chǎn)生負(fù)向情感的話題,學(xué)校相關(guān)管理部門可以針對(duì)性地采取一些措施來(lái)緩解學(xué)生的負(fù)向情緒。例如:一方面,針對(duì)該群體的軍訓(xùn)和期末考試等日常生活,可以適度組織心理培訓(xùn),培養(yǎng)學(xué)生應(yīng)對(duì)大學(xué)生活的積極心態(tài);組織關(guān)于專業(yè)學(xué)習(xí)的講座,增強(qiáng)該群體的學(xué)習(xí)興趣和專業(yè)信心;開展具有積極意義的團(tuán)日活動(dòng),幫助該群體樹立理想信念;積極開展體育鍛煉活動(dòng),幫助學(xué)生增強(qiáng)體魄等。另一方面,面對(duì)類似“疫情”等突發(fā)社會(huì)事件,有關(guān)管理部門應(yīng)該高度關(guān)注學(xué)生群體的心理狀況,積極開展心理健康教育培訓(xùn),提升學(xué)生心理抗壓能力;針對(duì)突發(fā)事件,加大相應(yīng)的防控知識(shí)普及力度。
參考文獻(xiàn):
[1]劉世權(quán).中華優(yōu)秀傳統(tǒng)文化在高校中的傳播路徑研究——基于社交媒體大數(shù)據(jù)視角[J].重慶科技學(xué)院學(xué)(社會(huì)科學(xué)版),2018(6):104-106.
[2]孟恒玥,閆水華,尹永奎.移動(dòng)互聯(lián)網(wǎng)社交媒體使用行為對(duì)大學(xué)生社會(huì)化行為的影響及策略研究[J].中國(guó)市場(chǎng),2020(11):190-191.
[3]曹博林.社交媒體:概念、發(fā)展歷程、特征與未來(lái)——兼談當(dāng)下對(duì)社交媒體認(rèn)識(shí)的模糊之處[J].湖南廣播電視大學(xué)學(xué)報(bào),2011(3):65-69.
[4]楊鑫,楊云帆,焦維等.基于領(lǐng)域詞典的民宿評(píng)論情感分析[J].科學(xué)技術(shù)與工程,2020,20(7):2794-2800.
[5]楊立公,朱儉,湯世平.文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1574-1607.
[6]Li S T, Tsai F C. A Fuzzy Conceptualization Model for Text Mining with Application in Opinion Polarity Classification[J].Knowledge-Based Systems,2013(39):23-33.
[7]Socher R, Perelygin A, Wu J Y, et al. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank[C].Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,2013:1631-1642.
[8]楊小平,張中夏,王良等.基于Word2Vec的情感詞典自動(dòng)構(gòu)建與優(yōu)化[J].計(jì)算機(jī)科學(xué),2017,44(1):42-47.
[9]V. Ha-Thu, J. Renders. Large-scale hierarchical text classification without labeled data[C].Proceedings of the fourth ACM international conference on Web search and data mining. ACM, New York, USA,2011:685-694.
[10]A. Kennedy, D. Inkpen. Sentiment classification of movie reviews using contextual valence shifters[J].Computational intelligence,2006,22(2):110-125.
[11]沈芬.基于SVM的電商評(píng)論文本情感傾向性分析[D].秦皇島:燕山大學(xué),2019.
[12]劉家鋒,趙巍,朱海龍.模式識(shí)別[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2014:51-55.
[13]Mikolov T,Chen K, Corrado G,et al. Efficient estimation of word representations in vector space[J].Computer Science,2013(1):47-61.
[14]Zhang D,Xu H,Su Z,et al.Chinese comments sentiment classification based on word2vec and SVMperf[J].Expert Systems with Applications,2015,42(4):1857-1863.
[15]李蒼柏,肖克炎,李楠等.支持向量機(jī)、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法在地球化學(xué)異常信息提取中的對(duì)比研究[J].地球?qū)W報(bào),2020(2):309-319.
[16]劉述昌,張忠林.基于中心向量的多級(jí)分類KNN算法研究[J].計(jì)算機(jī)工程與科學(xué),2017,39(9):1758-1764.
[17]王志華,劉紹廷,羅齊.基于改進(jìn)K-modes聚類的KNN分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(8):2228-2234.
[18]韓素青,成慧雯,王寶麗.三支決策樸素貝葉斯增量學(xué)習(xí)算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2020(3):15-16.
(編輯:王曉明)