來能燁
(上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620)
通常情況下,大多數(shù)網(wǎng)民會(huì)在各種社交網(wǎng)絡(luò)上表達(dá)出對(duì)社會(huì)熱點(diǎn)事件的不同看法。因此,如何有效識(shí)別其態(tài)度、行為和情感偏好程度成為被廣泛關(guān)注的研究熱點(diǎn)。情感偏好是情感強(qiáng)度的另一種表達(dá)形式,在根本上決定著人的思想、行為和生理活動(dòng),制約著情感的動(dòng)力特性。
基于此,諸多學(xué)者及專業(yè)人士從各方面對(duì)該問題進(jìn)行了研究并提出各自觀點(diǎn)。Pablo C等人[1]指出,社交網(wǎng)絡(luò)領(lǐng)域的主要研究方向之一,是尋找和分析用戶之間可能存在的聯(lián)系。這些發(fā)展允許用戶在其聯(lián)系人網(wǎng)絡(luò)上進(jìn)行擴(kuò)展,而不必在全部用戶中進(jìn)行搜索;?avdar,A B等[2]研究挖掘社交和交互數(shù)據(jù),將這些信息與當(dāng)前的數(shù)據(jù)分析模型結(jié)合起來,得出其結(jié)合程度是有限的的結(jié)論??墒褂每蛻舻纳缃痪W(wǎng)絡(luò)信息來增強(qiáng)這個(gè)基本模型,以包含客戶所做的間接貢獻(xiàn);Daniela F E等[3]描述了如何將Twitter上的性別識(shí)別作為一種智能的商業(yè)工具,來確定用戶之間的隱私問題,并最終為更有可能積極響應(yīng)目標(biāo)廣告的客戶提供更個(gè)性化的服務(wù);Ran X[4]研究網(wǎng)絡(luò)傳播效應(yīng),也被稱為同伴效應(yīng)或社會(huì)影響過程,并提出了幾種替代估計(jì)方法,當(dāng)存在共同決定影響和選擇的未觀察特征時(shí),這些方法有可能正確識(shí)別傳染效應(yīng)。采用蒙特卡羅模擬結(jié)果,設(shè)計(jì)了一種網(wǎng)絡(luò)空間調(diào)整估計(jì)器;杜永萍等人[5]提出了一種CNNLSTM模型下短文本情感分類方法,該方法以卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),構(gòu)建大小不同的卷積窗口,對(duì)文本的譜義特征進(jìn)行提取,采用長短時(shí)記憶模型,預(yù)測文本的情感傾向。通過在不同文本中進(jìn)行驗(yàn)證,證明方法有效提高了網(wǎng)絡(luò)文本情感識(shí)別的召回率,但是其準(zhǔn)確率相對(duì)較低。穆永利等人[6]提出了一種基于E-CNN的情緒原因識(shí)別方法。該方法首先對(duì)本文進(jìn)行卷積、池化等操作來融合句子中的語義信息,通過CNN集成降低數(shù)據(jù)不平衡性對(duì)識(shí)別效果的影響,解決了傳統(tǒng)識(shí)別方法規(guī)則制定繁瑣、需要對(duì)文本進(jìn)行空間降維等問題。該方法可以從所有信息中有效識(shí)別全局信息,但是沒有給出一個(gè)能夠判斷句子中真正情感的子句的合理度量,使得最終識(shí)別結(jié)果不夠準(zhǔn)確。
為提高情感偏好識(shí)別的準(zhǔn)確率和識(shí)別效率,本文提出了一種考慮情感強(qiáng)度的加權(quán)社會(huì)網(wǎng)絡(luò)偏好信息識(shí)別算法。該算法的優(yōu)越之處在于將網(wǎng)絡(luò)文本語句中不同程度的副詞賦予不同的權(quán)重值,通過本身定義的權(quán)重值與句中的副詞權(quán)值相乘來獲得文本的總體情感強(qiáng)度。通過GMM算法進(jìn)行情感偏好狀態(tài)測定,完成識(shí)別全過程,總體識(shí)別效果更好,具有較好的應(yīng)用價(jià)值。
文本挖掘以語言學(xué)、統(tǒng)計(jì)梳理分析等作為主要理論依據(jù),在信息檢索技術(shù)的基礎(chǔ)上,從網(wǎng)絡(luò)繁雜的用戶信息中,將能夠表現(xiàn)出各類特征的獨(dú)立信息提取出來。在文本挖掘過程中,文本分詞是很重要的一部分,其關(guān)鍵部分在于歧義切分。在英文文本中,因其單詞之間有空格能夠被視為分隔符,所以歧義切分過程較為方便,但是中文文本中每句話的字詞都是相互聯(lián)系的,沒有明顯的分隔標(biāo)記,相對(duì)英文文本來說,中文文本的歧義切分較為復(fù)雜。
為了使分詞具有較好效率的同時(shí)也能充分保證分詞的準(zhǔn)確性,使用詞典與互信息相結(jié)合的分詞方法,對(duì)文本進(jìn)行分詞處理。將M I(x,y)定義為詞x和詞y的互信息,則有:
式中,當(dāng)M I(x,y)≥0時(shí),表明二者經(jīng)常同時(shí)出現(xiàn),同時(shí)證明兩個(gè)詞的關(guān)聯(lián)性很強(qiáng);當(dāng)M I(x,y)≈0,則代表x和y同時(shí)出現(xiàn)的次數(shù)極少,從而證明二者的關(guān)聯(lián)性較弱;當(dāng)M I(x,y)≤0時(shí),則表明x和y不會(huì)同時(shí)出現(xiàn),二者之間沒有關(guān)聯(lián)性,為互補(bǔ)分布。
通過對(duì)詞語互信息的計(jì)算,原詞典中信息就會(huì)隨之豐富,從而獲得詞與詞之間的互信息矩陣為:
在進(jìn)行文本分詞時(shí),為豐富詞典信息,使用雙向匹配分詞法對(duì)網(wǎng)絡(luò)文本語句進(jìn)行切分處理。在處理過程中,當(dāng)正向和逆向切分的最終呈現(xiàn)效果不同時(shí),通過互信息選出最適合整體的分詞結(jié)果,同時(shí)計(jì)算切分后詞語的整體平均互信息以減少詞語個(gè)數(shù)對(duì)切分結(jié)果的影響。其計(jì)算方法如式(3):
式中,n表示被切分詞語數(shù)量,Wi表示第i個(gè)切分詞語。
由于中文文本中的語言表達(dá)形式較為復(fù)雜,直接挖掘分析切分后的語句尤為困難。因此需要將分詞處理的文本整合成更適合定量研究的文本情感形式。首先,提取各網(wǎng)絡(luò)文本內(nèi)的情感特征項(xiàng),然后對(duì)提取后的情感特征項(xiàng)做文本系統(tǒng)結(jié)構(gòu)化,并將其作為中間狀態(tài)依次對(duì)文本信息進(jìn)行描述。在文本系統(tǒng)中,文本之間是相互不發(fā)生聯(lián)系的,因此從數(shù)據(jù)整體來看文件之間數(shù)據(jù)是沒有結(jié)構(gòu)關(guān)系的,而結(jié)構(gòu)化就是將程序中逐漸積累出的內(nèi)容和數(shù)據(jù)進(jìn)行歸納整理,使程序數(shù)據(jù)條理化,更易于后期的處理。
文本通常能夠通過詞語來表達(dá)特征,如關(guān)鍵詞、主題詞、短語等。一般情況下,文本特征大致可以劃分為語義特征和描述特征兩類,通過處理特征項(xiàng)就可以實(shí)現(xiàn)文本分析。提取語義特征中的評(píng)價(jià)對(duì)象主要過程如下:
(1)采用中分詞方法對(duì)文本進(jìn)行分詞處理。
(2)對(duì)切分后的名詞進(jìn)行比對(duì),得到評(píng)價(jià)對(duì)象。
(3)選出文本中含有評(píng)價(jià)對(duì)象的句子。
(4)將修飾評(píng)價(jià)對(duì)象的詞語進(jìn)行篩選,將其視為情感詞,并且將修飾情感詞的副詞定義為修飾詞。
(5)記錄情感詞及修飾詞的相對(duì)位置。
在文本中,句中的一些副詞往往可以表達(dá)出這個(gè)句子的情感強(qiáng)度,不同程度的副詞賦予不同的權(quán)重值。整個(gè)句子的最終情感權(quán)值,可以通過自身定義的權(quán)值與句中的副詞權(quán)值相乘而獲得。
本文選擇219個(gè)程度副詞,根據(jù)其強(qiáng)度分為5個(gè)等級(jí)(W1,W2,W3,W4,W5),分別賦予不同的權(quán)重值見表1,構(gòu)建的文本情感見表2。
表1 程度副詞權(quán)重Tab.1 Weight of degree adverbs
表2 情感詞表Tab.2 Sentiment word table
將文本D分解成句子S的集合,則D={S1,S2,···,Sn},每個(gè)句子的情感權(quán)值(Si)為:
式中,Swi表示每個(gè)句子中副詞的權(quán)重值;如果F(S)>0,則可以判定該文本為正向情感;如果F(S)<0,則可以判定該文本為負(fù)向情感;如果F(S)=0,則可以判定該文本為中性情感。
計(jì)算情感詞W的值Swi如下式:
式中,Np表示正向詞的數(shù)目,Nn表示負(fù)向的詞匯數(shù)目。
考慮到文本中句型對(duì)情感強(qiáng)度判定的影響,根據(jù)不同句型歸納出句子的情感值如下:
疑問句:F'(Si)=F(Si)×(-0.2)+(-0.5)
反問句:F'(Si)=F(Si)×(-0.6)+(-0.5)
感嘆句:F'(Si)=F(Si)×(1.5)
假設(shè)句:F'(Si)=F(Si)×(-0.2)
通過句子的情感值可以獲得文本的情感權(quán)重值為[7]:
當(dāng)F'(S)>0時(shí),則表示為正向情感[8-9],F(xiàn)'(S)<0時(shí),則可以定義為負(fù)向情感,F(xiàn)'(S)=0時(shí),則文本可以定義為中性情感。
再次加入程度副詞進(jìn)行計(jì)算如下:
式中,Ne為否定系數(shù),*為調(diào)節(jié)過程。
若感情詞與否定詞相鄰,則可以判斷該文本為負(fù)偏好情感,因此將其否定系數(shù)Ne設(shè)置為-1。σ表示調(diào)節(jié)系數(shù),如果篩選出的情感詞與程度副詞“非?!?、“極其”等相鄰時(shí),則可以判定其為正偏好情感,其表達(dá)式如下:
如果情感詞與“一般”、“還可以”等程度副詞相鄰時(shí)[10],則可以將該文本定義為中偏好情感。則其情感得分如下式:
通過計(jì)算用戶對(duì)目標(biāo)個(gè)體的情感偏好指數(shù),可以了解用戶對(duì)任意事物的選擇傾向,并能反映出相對(duì)于他人的不同價(jià)值取向,即價(jià)值取向表現(xiàn)的優(yōu)劣程度足以直接反映出個(gè)人的情緒偏好。
語篇情感偏好識(shí)別主要是通過語篇中句子的情感權(quán)重來判斷??紤]情感強(qiáng)度的社會(huì)網(wǎng)絡(luò)偏好信息加權(quán)識(shí)別,是在文本挖掘和情感強(qiáng)度模型建立的基礎(chǔ)上,通過GMM算法進(jìn)行特征提取和向量轉(zhuǎn)換,確定情感偏好狀態(tài),完成識(shí)別過程。具體流程如圖1所示。
圖1 識(shí)別流程Fig.1 Identification flow chart
為了更有效的識(shí)別文本情感偏好,需對(duì)文本進(jìn)行預(yù)處理。文本處理包括:命名實(shí)體及過濾停用詞等。本文在Windows操作系統(tǒng)下,獲取相關(guān)文本數(shù)據(jù),并對(duì)文本中表情符號(hào)、網(wǎng)址等無意義的文本進(jìn)行清理。
采用GMM算法識(shí)別情感詞。其具體數(shù)學(xué)表達(dá)形式如下:
式中,∑i表示協(xié)方差矩陣,μi表示均值矢量。協(xié)方差矩陣可以用滿矩陣,也可以使用簡化后的對(duì)角矩陣。高斯分布密度如下式:
似然度直接決定分類器的置信度,更直接的表現(xiàn)是似然度的分散程度。置信度越高,則判定結(jié)果越準(zhǔn)確。完成識(shí)別全過程步驟如下:
(1)將文本輸入分類器,做詞法和語法分析,獲得更易識(shí)別的文本結(jié)構(gòu)。
(2)對(duì)獲得的結(jié)構(gòu)化文本進(jìn)一步分析,將其與相應(yīng)的情感規(guī)則進(jìn)行匹配。結(jié)合情感強(qiáng)度模型,做情感劃分,得到情感值。
(3)輸出情感值。將判斷用戶偏好的情感值反饋給機(jī)器。
(4)抽取反饋中有價(jià)值的信息,更新詞典。
為了驗(yàn)證考慮情感強(qiáng)度的網(wǎng)絡(luò)評(píng)論情感偏好識(shí)別方法的有效性,本文使用了八爪魚采集器,爬取了新浪微博上關(guān)于“新冠肺炎疫情”爆發(fā)期間的熱門評(píng)論,共計(jì)2 943條作為數(shù)據(jù)來源進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)所用情感詞主要來源于《知網(wǎng)》的情感分析用語詞集,并且加入了一些最新出現(xiàn)的網(wǎng)絡(luò)情感用詞,對(duì)詞語進(jìn)行去重處理后,獲得的主要情感詞。
為驗(yàn)證本文算法的準(zhǔn)確性,將文獻(xiàn)[4-6]中提出的方法與本文算法進(jìn)行比較。利用各算法的準(zhǔn)確率Pre、召回率Rec和F值作為評(píng)判項(xiàng)。Pre其表達(dá)式為:
在識(shí)別過程中,往往不能夠使準(zhǔn)確度和召回率同時(shí)具有較好的表現(xiàn),因此常使用F值來對(duì)識(shí)別的整體效果做評(píng)估。F值的常用表達(dá)式如下:
其中,各參數(shù)含義見表3。
表3 分類評(píng)價(jià)標(biāo)準(zhǔn)參數(shù)含義表Tab.3 Meanings of parameters for classification evaluation criteria
各算法的各項(xiàng)指標(biāo)值如下圖2所示。
圖2 不同方法的準(zhǔn)確率對(duì)比圖Fig.2 Comparison of precision of each method
由圖2可見,在7次迭代下,本文方法對(duì)網(wǎng)絡(luò)偏好數(shù)據(jù)的分析與識(shí)別準(zhǔn)確率較高,說明在進(jìn)行語篇情感偏好識(shí)別時(shí),對(duì)語篇中句子的情感權(quán)重判斷效果較好。在文本挖掘和情感強(qiáng)度模型建立的基礎(chǔ)上,考慮情感強(qiáng)度的社會(huì)網(wǎng)絡(luò)偏好信息加權(quán)識(shí)別方法實(shí)際應(yīng)用效果較強(qiáng)。
應(yīng)用情感分析用語詞集,在系統(tǒng)查全率即召回率方面進(jìn)行對(duì)比結(jié)果如圖3所示。
圖3 不同方法的系統(tǒng)數(shù)據(jù)召回率對(duì)比圖Fig.3 Comparison of recall of each method
由圖3可知,在進(jìn)行系統(tǒng)召回率測試時(shí),本文方法的召回效果對(duì)比結(jié)果魯棒性較強(qiáng),說明本文方法對(duì)文本中表情符號(hào)、網(wǎng)址等無意義的文本進(jìn)行清理后,實(shí)際有用的數(shù)據(jù)能夠被系統(tǒng)查全即有效召回。
將以上兩次實(shí)驗(yàn)數(shù)據(jù)進(jìn)行二次擬合,使用F值進(jìn)行整體效果評(píng)估。評(píng)估結(jié)果如圖4所示。
圖4 不同方法的F值對(duì)比結(jié)果Fig.4 Comparison of F values of each method
從圖4中可以看出,在情感識(shí)別的過程中,文獻(xiàn)[4]算法整體效果最差,本文算法要優(yōu)于其它文獻(xiàn)方法。最終獲得的召回率、準(zhǔn)確率和F值的數(shù)值都高于前兩者。因此,證明本文算法是可行的,并且識(shí)別效果更優(yōu)。
用戶對(duì)網(wǎng)絡(luò)使用體驗(yàn)感要求增高,情感強(qiáng)度能夠有效獲取用戶對(duì)某種屬性喜愛程度。本文提出的考慮情感強(qiáng)度的加權(quán)社會(huì)網(wǎng)絡(luò)偏好信息識(shí)別算法,經(jīng)對(duì)比試驗(yàn)得出如下結(jié)論:
(1)通過將其本身定義的權(quán)重值與句中的副詞權(quán)值相乘來獲得文本的總體情感強(qiáng)度,優(yōu)化語句情感權(quán)重,實(shí)現(xiàn)語句的整體閾值。
(2)在排除無意義文本信息后,對(duì)文本進(jìn)行特征提取及向量轉(zhuǎn)化,通過GMM算法進(jìn)行情感偏好狀態(tài)測定,總體識(shí)別效果更好。