基于詞向量技術(shù)與主題詞特征的微博立場檢測①

2018-09-17 08:49:12鄭海洋高俊波

計算機(jī)系統(tǒng)應(yīng)用 2018年9期

鄭海洋,高俊波,邱杰,焦鳳

(上海海事大學(xué) 信息工程學(xué)院,上海 201306)

1 引言

據(jù)統(tǒng)計,微博客戶端日活躍用戶數(shù)達(dá)1.54億,用戶不僅可以在微博平臺上上傳圖片記錄自己的生活,也可以通過轉(zhuǎn)發(fā)、點(diǎn)贊、評論等與其他用戶進(jìn)行互動,或針對某一話題公開發(fā)表自己的立場及觀點(diǎn).立場檢測(stance detection)是通過微博作者針對某一話題發(fā)表的評論,檢測微博作者對該話題的立場是支持、反對或中立,這一檢測結(jié)果不僅可以幫助政府了解民情、完善法律法規(guī),而且可以幫助商業(yè)公司對產(chǎn)品功能進(jìn)行改進(jìn),提高用戶體驗(yàn).近年來,這一課題吸引了眾多學(xué)術(shù)界及工業(yè)界的關(guān)注和研究,并成為自然語言處理(Natual Language Processing,NLP)中的一個新興熱門研究領(lǐng)域[1,2].

微博話題的立場檢測與傳統(tǒng)的文本情感分析非常相似,但又有著明顯的區(qū)別.單純的使用微博的情感信息并不能把握微博作者的立場,如微博“這些騎電車橫沖直撞的人太可惡了,上次就差點(diǎn)被撞到,太危險了”,此微博所抒發(fā)的是負(fù)面情緒,但針對“深圳禁摩限電”這個話題表明的態(tài)度卻是支持的.通常微博作者在表達(dá)某個話題的立場傾向時,往往會說出自己支持或反對的理由,如針對上述話題,支持者所表達(dá)的核心一般都是以交通安全為主題,而反對者的理由通常是一些普通老百姓出行不方便所帶來的一系列問題,如果在該話題下能提取出到網(wǎng)民支持或反對的核心理由,就能準(zhǔn)確地判斷發(fā)言人的立場傾向.

隨著Bengio等人提出了神經(jīng)網(wǎng)絡(luò)語義模型之后,文本詞向量技術(shù)受到了廣泛關(guān)注.對于機(jī)器學(xué)習(xí)而言,特征表示將直接影響模型性能的好壞,Word2Vec模型可以根據(jù)文本中詞的關(guān)聯(lián)性有效地學(xué)習(xí)語義特征.本文結(jié)合話題文本構(gòu)建出主題詞集,在詞向量下根據(jù)主題詞和情感詞篩選出有價值的特征信息,最后使用SVM(Support Vector Machine)對話題語料進(jìn)行訓(xùn)練得到最終的立場檢測模型.

2 相關(guān)工作

微博立場的檢測屬于文本傾向性分析的研究領(lǐng)域,文本傾向性分析又主要分為情感分析和立場分析.常見的情感分析方法也可以適用于立場分析,目前針對微博文本的情感分析,近年來已取得了非常出色的研究成果.2011年,Lu等人[3]提出了一種基于統(tǒng)一規(guī)則的自動化構(gòu)建情感詞典的方法,該方法針對情感分析表現(xiàn)不錯,但不能提取到文本的隱含語義信息.針對立場分析,Ebrahimi等[4]將情感極性融入到對象和立場中,并對三者進(jìn)行對數(shù)線性聯(lián)合建模.Chen等[5]通過話題風(fēng)格和微博文本進(jìn)行特征提取,建立了基于CNN的立場檢測模型.Liu等[6]提出了一種以情感加權(quán)算法和樸素貝葉斯算法相結(jié)合的組合分類模型,該模型雖有較好的立場判別精度,但并不能處理復(fù)雜的中文句式及上下文語境等情況.Dian等[7]通過探究不同的特征提取方法,之后使用支持向量機(jī)、隨機(jī)森林和梯度提升決策樹對上述特征進(jìn)行立場檢測,最后結(jié)合所有的特征分類器進(jìn)行后期融合,在2016年自然語言處理與中文計算會議(NLPCC2016)中文微博立場檢測評測任務(wù)中取得了第一名的成績.隨著以Word2Vec為代表的詞向量廣泛應(yīng)用,本文基于詞向量技術(shù)并構(gòu)建主題詞集作為立場特征完成微博話題的立場檢測.

3 基于主題詞特征的微博話題立場檢測

3.1 模型框架

如圖1所示,本文主要使用Word2Vec和立場特征對微博進(jìn)行立場檢測.首先對數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,同時構(gòu)建當(dāng)前話題的主題詞集.然后使用詞向量技術(shù)對所有詞匯進(jìn)行學(xué)習(xí)獲得其詞向量表示,接著使用三種方法對每條微博做特征選擇,之后將篩選后的詞向量求平均值作為每條微博的最終特征向量,最后采用SVM算法對上述特征向量進(jìn)行訓(xùn)練和預(yù)測得到最終立場檢測模型.

圖1 微博話題立場檢測模型

3.2 文本預(yù)處理

文本預(yù)處理[8]包括數(shù)據(jù)清洗、分詞、去停用詞.數(shù)據(jù)清洗主要過濾掉微博的文本噪音,其中主要去除以“#”包圍的字段、url網(wǎng)址、表情符號、轉(zhuǎn)發(fā)符號,本文采用正則表達(dá)式去除上述噪音.之后對文本進(jìn)行分詞,分詞工具采用的是中文開源分詞工具jieba分詞.最后去除停用詞,去除停用詞可以對文本進(jìn)一步降噪,停用詞主要包含一些標(biāo)點(diǎn)符號、代詞、助詞,如“他”、“要”、“也”、“?！钡?

3.3 主題詞集

常用的主題詞集構(gòu)建方法有TF-IDF詞頻逆文檔頻率和TextRank算法[9].TF-IDF是基于詞袋模型(Bag-of-Words),通常把文章表示成詞匯的集合,而不考慮句子中詞匯的順序關(guān)系,不能有效地反應(yīng)文章的內(nèi)部組織結(jié)構(gòu).TextRank算法類似于PageRank算法,它是基于網(wǎng)絡(luò)模型(graph model),該模型將文章表示成網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)中各個節(jié)點(diǎn)表示單個詞匯,節(jié)點(diǎn)之間的邊表示文章中詞匯之間的鄰近關(guān)系,該方法能聯(lián)系到句子中詞匯的位置關(guān)系.由于微博句式簡單,結(jié)構(gòu)相似,為了獲取話題的核心關(guān)鍵詞,本文采取TextRank算法構(gòu)建主題詞集.如表1所示,列舉了TextRank提取的部分主題詞.

表1 TextRank提取的部分主題詞

3.4 詞向量模型

在文本分類中,特征抽取通常根據(jù)某個特征評估函數(shù)計算每個特征的評分值,并以此作為權(quán)重按評分值進(jìn)行排序,然后選取若干個評分最高的作為特征詞.這種類型的算法有詞袋模型(Bag-of-Words-BOW)算法,N-Gram算法,但這類算法無法提取詞匯的深度語義信息.Bengio等人基于n-gram思想提出了神經(jīng)網(wǎng)絡(luò)語言模型[10],采用三層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞向量[11],其核心思想是常用的神經(jīng)網(wǎng)絡(luò)算法,該模型能有效地提取文本的深度特征,近年來已經(jīng)有很多學(xué)者使用該技術(shù)做情感分析[12],并取得了非常出色的實(shí)驗(yàn)效果.

Word2Vec根據(jù)語料庫的詞匯順序關(guān)系,利用CBOW模型或Skip-Gram模型將詞匯轉(zhuǎn)換為K維空間的向量表示(distributed representation)[13],模型包含輸入層、投影層和輸出層.其中CBOW模型是根據(jù)當(dāng)前詞wt?2,wt?1,wt+1,wt+2的前提下預(yù)測wt,而Skip-Gram模型恰恰相反.本文采用的是CBOW詞向量模型,其基于神經(jīng)網(wǎng)絡(luò)語言模型的目標(biāo)函數(shù)通常取如下對數(shù)似然函數(shù):

如圖2所示,CBOW詞向量模型由三層神經(jīng)網(wǎng)絡(luò)構(gòu)成,其中輸入層包含Context(w)中 2c個詞向量,v(Context(w)1),···,v(Context(w)2c)∈Rm,由詞w前后各c個詞構(gòu)成,m表示詞向量的長度,投影層將輸入層 2c個詞向量做求和運(yùn)算,公式如下:

輸出層根據(jù)每個詞在語料庫中出現(xiàn)次數(shù)構(gòu)造一顆Huffman樹,葉子節(jié)點(diǎn)分別為詞典D中的每個詞,一共有N個,非葉子結(jié)點(diǎn)有N–1個.Word2vec將Huffman編碼為0的節(jié)點(diǎn)定義為正類,編碼為1的節(jié)點(diǎn)定義為負(fù)類,這樣對于詞典D中任意一個詞w,Huffman樹一定有一條從根結(jié)點(diǎn)到詞w對應(yīng)結(jié)點(diǎn)的唯一路徑pw.路徑pw上存在lw?1個分支,每個分支上對應(yīng)一個二元分類的概率,將這些概率連乘的結(jié)果就是最后所需的條件概率p(w|Context(w)),計算公式如下:

圖2 CBOW詞向量模型

本文利用Gensim[14]工具對語料中的詞匯做Word2Vec訓(xùn)練,詞向量維數(shù)設(shè)置500維,訓(xùn)練完后得到最終詞向量CBOW模型.詞向量的相似性通常選取余弦距離來衡量,兩個詞向量的余弦距離表示其在空間上的向量夾角,余弦值越接近于1表明其夾角越接近0度,也說明兩個詞向量越相似,余弦距離計算公式如下:

如表2所示,在話題“春節(jié)放鞭炮”下訓(xùn)練的詞向量模型得與詞“放鞭炮”余弦距離最近的5個詞語.由余弦距離可以看出較近的詞語通常代表的立場也相似,其表明了微博作者持該立場的理由,如“放鞭炮”與“環(huán)境”、“污染”、“霧霾”相近,說明該話題下針對“放鞭炮”談?wù)摰暮诵氖桥c環(huán)境相關(guān)的問題.

表2 與“放鞭炮”詞向量相近的詞語

3.5 特征選擇

情感詞和主題詞通常決定微博作者的情感傾向和立場傾向,更能表明微博作者的觀點(diǎn).本文分別采用情感詞和主題詞的特征選擇方法提取其立場特征,情感詞典綜合采用中國知網(wǎng)情感詞典、清華大學(xué)李軍中文褒貶義詞典和臺灣大學(xué)NTUSD簡體中文情感詞典,主題詞集由TextRank算法在該話題下提取的250個名詞構(gòu)成.如表3所示,對預(yù)處理后微博分別采用主題詞和情感詞做特征選擇之后的結(jié)果.

表3 對微博文本分別采用兩種特征選擇的結(jié)果

3.6 模型的訓(xùn)練與預(yù)測

根據(jù)以往實(shí)驗(yàn)表明對于文本分類支持向量機(jī)與其他分類算法相比在處理非線性及高維分類中有著較好的分類效果[15].本文首先根據(jù)情感詞典和主題詞集從訓(xùn)練文本中獲取其特征詞語,并利用詞向量模型將其轉(zhuǎn)換為500維的空間向量,然后對其求平均值并做歸一化處理作為最終的文本向量,最后由SVM分類器根據(jù)訓(xùn)練集中的文本向量和相對應(yīng)的正負(fù)標(biāo)簽訓(xùn)練出立場檢測模型,并利用生成后的模型對測試數(shù)據(jù)進(jìn)行正負(fù)性的立場預(yù)測.

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文采用的數(shù)據(jù)集來自NLPCC2016中文微博立場檢測的評測任務(wù),選取的話題是任務(wù)中第二個話題“春節(jié)放鞭炮”,該話題一共有500條微博,其中持支持和反對立場的各有250條微博數(shù)據(jù),訓(xùn)練集與測試集比例為8:2,數(shù)據(jù)格式為微博ID,話題,微博文本,

立場標(biāo)簽,例如:

4.2 評價標(biāo)準(zhǔn)

常用的評價標(biāo)準(zhǔn)通常選取準(zhǔn)確率、召回率和F1值,本文針對立場檢測為了綜合考慮分類效果增加了正負(fù)類的F1評價均值Favg作為綜合評價指標(biāo),Favg計算公式如公式(6)所示,其中Ffavor 和Fagainst分別表示支持立場和反對立場的F1值,本文實(shí)驗(yàn)中選取的話題“春節(jié)放鞭炮”在NLPCC2016比賽中最好的成績Favg是77.61%.

4.3 實(shí)驗(yàn)結(jié)果與分析

為了獲取更多的立場特征,本文在對微博文本基于主題詞和情感詞特征選擇后,還將兩種特征選擇方法結(jié)合起來實(shí)驗(yàn),最后將篩選后的特征詞轉(zhuǎn)換為詞向量求均值由SVM支持向量機(jī)對其訓(xùn)練及預(yù)測得到該話題下的最終立場檢測模型,實(shí)驗(yàn)結(jié)果如表4所示,其中正類表示支持傾向,負(fù)類表示反對傾向.

表4 三種特征選擇方法對對比實(shí)驗(yàn)效果

由表4所示,在以F1均值這項評價指標(biāo)下,以情感詞典作為篩選特征在三種分類模型中表現(xiàn)最差,說明傳統(tǒng)的情感詞典方法并不完全適合立場檢測.因?yàn)橛脩敉ǔＴ诒磉_(dá)立場時,有時會包含自己的主觀情緒,但這種情緒具有兩面性,針對的可能是話題的正面,也可能是話題的對立面,所以情緒并不能準(zhǔn)確地反映作者的立場傾向.而基于主題詞集的特征選擇方法效果更好,因?yàn)樵谠掝}中這些主題詞代表的是該話題的核心關(guān)鍵詞,也是微博作者支持或反對理由的主要理由,更能反映發(fā)言人的論點(diǎn)和立場信息.

在使用主題詞和情感詞兩種特征結(jié)合實(shí)驗(yàn),分類效果達(dá)到最好.這是因?yàn)橐恍┒涛⒉┩鶡o法提取到主題詞,但是它們多數(shù)含有一些情感詞,如果結(jié)合情感詞做特征選擇可以彌補(bǔ)主題詞特征選擇方法的弊端.其次,本文還針對主題詞的數(shù)量做了定性實(shí)驗(yàn),在區(qū)間[100,600]分別設(shè)置7種不同的主題詞數(shù)量完成優(yōu)化實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示.

圖3 不同主題詞個數(shù)的實(shí)驗(yàn)效果

從圖3中可以看出選取500個主題詞可以達(dá)到最好的立場檢測效果,因?yàn)楫?dāng)主題詞較少時,相對的立場特征就少.相反,當(dāng)主題詞過多時,便會產(chǎn)生一些噪聲干擾檢測.本文在選取500個主題詞同時結(jié)合情感詞典做輔助特征選擇,為了獲得最好的分類效果,通過調(diào)整SVM算法的懲罰系數(shù)C,實(shí)驗(yàn)結(jié)果顯示在C=5時正負(fù)F1均值可以達(dá)到83%,相比該話題最好的成績提高了5個百分點(diǎn),證明本文方法的有效性.

從實(shí)驗(yàn)可以看出,基于詞向量技術(shù)和主題詞特征在中文微博立場檢測中可以獲得不錯的分類效果,主要原因是Word2Vec訓(xùn)練出的詞向量包含了詞匯之間的語義信息,其相對于詞頻特征更能表明詞語的實(shí)際意義.同時基于主題詞特征的特征選擇方法可以獲取更多有價值的立場特征,針對一些較短的微博,結(jié)合情感詞進(jìn)一步提升了模型的性能.

5 結(jié)束語

本文通過使用NLPCC2016中文微博立場檢測的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),首先將文本進(jìn)行預(yù)處理并使用詞向量技術(shù)將詞匯轉(zhuǎn)換為高維空間的向量表示,然后使用TextRank提取話題的關(guān)鍵詞作為話題的主題詞集,提出了基于主題詞的特征選擇方法,同時融入情感詞典做輔助特征選擇,并使用支持向量機(jī)對話題微博進(jìn)行訓(xùn)練及預(yù)測.實(shí)驗(yàn)結(jié)果表明,本文的方法在中文微博話題下具有較好的立場檢測效果.

鑒于微博平臺下話題眾多,如果進(jìn)一步考慮話題的類別,本文的研究方法還需做進(jìn)一步擴(kuò)展.其次,本文最后使用的文本向量是由特征選擇后的詞向量求均值所得,這種方法雖然可行但丟失了詞向量的順序信息.但是,詞向量隱含地包含了詞匯間的順序關(guān)系,本文最后輸入到SVM的特征向量是由特征選擇后的詞向量求均值所得,它綜合了當(dāng)前微博的所有立場特征信息,是當(dāng)前微博立場的一般特征表示,對微博立場檢測的結(jié)果影響不大,但具有研究價值.在今后的研究中,針對話題類別和如何獲取句子的結(jié)構(gòu)化信息是本文的研究重點(diǎn).