• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度表示學(xué)習(xí)和高斯過(guò)程遷移學(xué)習(xí)的情感分析方法

      2017-04-25 07:32:05吳冬茵徐睿峰
      中文信息學(xué)報(bào) 2017年1期
      關(guān)鍵詞:測(cè)試數(shù)據(jù)高斯分類(lèi)

      吳冬茵,桂 林,陳 釗,徐睿峰

      (1.哈爾濱工業(yè)大學(xué)深圳研究生院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;2.騰訊科技(深圳)有限公司,廣東 深圳 518055)

      基于深度表示學(xué)習(xí)和高斯過(guò)程遷移學(xué)習(xí)的情感分析方法

      吳冬茵1,桂 林1,陳 釗2,徐睿峰1

      (1.哈爾濱工業(yè)大學(xué)深圳研究生院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;2.騰訊科技(深圳)有限公司,廣東 深圳 518055)

      情感分析是自然語(yǔ)言處理領(lǐng)域的重要研究問(wèn)題?,F(xiàn)有方法往往難以克服樣本偏置與領(lǐng)域依賴(lài)問(wèn)題,嚴(yán)重制約了情感分析的發(fā)展和應(yīng)用。為此,該文提出了一種基于深度表示學(xué)習(xí)和高斯過(guò)程知識(shí)遷移學(xué)習(xí)的情感分析方法。該方法首先利用深度神經(jīng)網(wǎng)絡(luò)獲得文本樣本的分布式表示,而后基于深度高斯過(guò)程,從輔助數(shù)據(jù)中遷移與測(cè)試集數(shù)據(jù)分布相符的高質(zhì)量樣例擴(kuò)充訓(xùn)練數(shù)據(jù)集用于分類(lèi)器訓(xùn)練,以此提高文本情感分類(lèi)系統(tǒng)性能。在COAE2014文本情感分類(lèi)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果顯示,該文提出的方法可以有效提高文本情感分類(lèi)性能,同時(shí)可以有效緩解訓(xùn)練數(shù)據(jù)的樣本偏置以及領(lǐng)域依賴(lài)問(wèn)題的影響。

      情感分析;深度表示學(xué)習(xí);高斯過(guò)程;遷移學(xué)習(xí)

      1 引言

      互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,吸引了大量用戶(hù)在網(wǎng)絡(luò)平臺(tái)上分享生活、表達(dá)觀點(diǎn)。隨著海量用戶(hù)生成文本的不斷積累,對(duì)文本中包含的情感進(jìn)行分析,獲取用戶(hù)對(duì)特定事件、人物或產(chǎn)品的評(píng)價(jià)與態(tài)度的文本情感分析研究,正在成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。

      傳統(tǒng)的文本情感分析技術(shù)主要分為基于規(guī)則的方法和基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。前者依托語(yǔ)言學(xué)研究成果,主要利用人工構(gòu)建規(guī)則和情感詞典,對(duì)文本的情感傾向性進(jìn)行分析[1];后者主要利用人工標(biāo)注的訓(xùn)練語(yǔ)料,提取文本特征并建立統(tǒng)計(jì)模型,實(shí)現(xiàn)文本情感傾向性的分類(lèi)。近年來(lái),基于深度表示學(xué)習(xí)的方法在文本情感分析任務(wù)中也得到很大發(fā)展。目前主流的基于有監(jiān)督學(xué)習(xí)的方法需要大量人工標(biāo)注的訓(xùn)練語(yǔ)料,來(lái)提高模型的學(xué)習(xí)能力和泛化能力,但人工標(biāo)注代價(jià)往往偏高,面向?qū)嶋H應(yīng)用的大量標(biāo)注數(shù)據(jù)也很難獲得。另外,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法通常假設(shè)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料是獨(dú)立同分布的,然而這個(gè)假設(shè)在實(shí)際應(yīng)用中往往難以得到滿(mǎn)足。這就意味著這些方法難以克服樣本偏置和領(lǐng)域依賴(lài)的問(wèn)題。

      針對(duì)這些問(wèn)題,本文提出了一種基于深度表示學(xué)習(xí)和高斯遷移過(guò)程的文本情感分析方法。該方法首先利用詞向量模型和卷積神經(jīng)網(wǎng)絡(luò)獲得文本樣本的分布式表示。而后,基于k近鄰的深度高斯過(guò)程設(shè)計(jì)了一種非對(duì)稱(chēng)遷移學(xué)習(xí)方法,通過(guò)從輔助數(shù)據(jù)中遷移與測(cè)試集數(shù)據(jù)分布相符的高質(zhì)量樣例擴(kuò)充訓(xùn)練數(shù)據(jù)集,實(shí)現(xiàn)遷移學(xué)習(xí)用于分類(lèi)器訓(xùn)練。由于這一方法不需要滿(mǎn)足獨(dú)立同分布假設(shè),可以使用從一個(gè)領(lǐng)域?qū)W習(xí)到的知識(shí)幫助學(xué)習(xí)新領(lǐng)域的知識(shí),因此有望提高文本情感分類(lèi)的性能。在2014中文觀點(diǎn)傾向性分析評(píng)測(cè)(Chinese Opinion Analysis Evaluation,COAE2014)數(shù)據(jù)集上的實(shí)驗(yàn)顯示,本文提出的方法性能優(yōu)于目前主流的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN[2])和基線(xiàn)的樸素貝葉斯支持向量機(jī)(Na?ve Bayes Support Vector Machines,NBSVM[3])方法,顯示出本文提出的思路可以有效提高文本情感分類(lèi)性能,同時(shí)可以緩解訓(xùn)練數(shù)據(jù)樣本偏置以及領(lǐng)域依賴(lài)的影響。

      本文的內(nèi)容組織如下:第二節(jié)簡(jiǎn)單回顧情感分析以及遷移學(xué)習(xí)的相關(guān)研究工作;第三節(jié)介紹本文提出的基于深度表示學(xué)習(xí)和高斯過(guò)程遷移學(xué)習(xí)的情感分析方法;第四節(jié)通過(guò)實(shí)驗(yàn)評(píng)估本文提出的方法的有效性;第五節(jié)給出本文的總結(jié)和展望。

      2 相關(guān)工作

      文本情感分析研究旨在通過(guò)分析文本的語(yǔ)義傾向性特征,識(shí)別出文本所包含的情感傾向。目前,文本情感分析技術(shù)大體分為基于規(guī)則的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。前者主要利用語(yǔ)言學(xué)知識(shí),如語(yǔ)言表達(dá)規(guī)則和情感詞典進(jìn)行分析。Taboada[4]利用情感詞典及詞性定義情感詞的語(yǔ)義傾向得分,并將其按特定規(guī)則組合計(jì)算,以此判斷文本的情感傾向性。Fu[5]等根據(jù)模糊集合和量化情感詞典解決情感分類(lèi)及詞語(yǔ)極性強(qiáng)烈程度分級(jí)。Bollegala[6]等人利用不同領(lǐng)域情感表達(dá)方式的共性來(lái)構(gòu)建領(lǐng)域相關(guān)的情感詞典,擴(kuò)充文本特征,以此提高跨領(lǐng)域情感分類(lèi)的效果?;谝?guī)則的方法可以直觀地給出文本情感傾向性的計(jì)算方法,但其性能受限于人工規(guī)則的完備程度和情感詞典的覆蓋率限制,難以快速處理新類(lèi)型的文本數(shù)據(jù)。

      基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的情感分析方法利用人工標(biāo)注的訓(xùn)練語(yǔ)料,提取文本情感傾向性特征并建立統(tǒng)計(jì)模型,從而自動(dòng)判別未知數(shù)據(jù)的文本情感傾向性。Pang[7]采用基于N-gram的詞語(yǔ)特征和詞性特征,將樸素貝葉斯(Naive Bayesian,NB)、最大熵(Maximum Entropy,ME)和支持向量機(jī)(Support Vector Machines,SVMs)三個(gè)機(jī)器學(xué)習(xí)模型應(yīng)用到文本情感分類(lèi),為后續(xù)的研究提供了參考。Zhao[8]提出利用句子上下文信息和添加冗余標(biāo)簽來(lái)建立基于條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)的三層分類(lèi)模型,有效降低了分類(lèi)錯(cuò)誤在不同層級(jí)間的傳播。近幾年,基于深度神經(jīng)網(wǎng)絡(luò)和表示學(xué)習(xí)的方法在文本情感分析研究中得到了較多應(yīng)用。Socher[9]在句法分析樹(shù)的基礎(chǔ)上,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)電影評(píng)論文本進(jìn)行情感傾向性分類(lèi),分別在細(xì)粒度情感分析數(shù)據(jù)集和正負(fù)情感傾向性分析數(shù)據(jù)集上取得了顯著的效果。Kim[2]利用word2vec訓(xùn)練得到的詞向量,將文本數(shù)據(jù)映射到文本特征矩陣,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)文本的情感傾向性分類(lèi)。Sun[10]使用微博評(píng)論擴(kuò)展原微博文本,結(jié)合多層限制玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)與深度神經(jīng)網(wǎng)絡(luò)模型對(duì)短文本進(jìn)行情感分析?;诮y(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,其學(xué)習(xí)能力和泛化能力的提升需要大量人工標(biāo)注的訓(xùn)練語(yǔ)料,這在實(shí)際應(yīng)用中往往難以獲得,導(dǎo)致其性能受到影響。另一個(gè)問(wèn)題是訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)難以滿(mǎn)足獨(dú)立同分布假設(shè)。對(duì)于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)來(lái)自不同領(lǐng)域,或來(lái)自同一領(lǐng)域但訓(xùn)練數(shù)據(jù)無(wú)法覆蓋整個(gè)特征空間的情況,從訓(xùn)練數(shù)據(jù)中的得到的模型有偏差,無(wú)法準(zhǔn)確預(yù)測(cè)未知數(shù)據(jù)。

      考慮到遷移學(xué)習(xí)不需要假設(shè)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)符合獨(dú)立同分布的要求,而是用從一個(gè)領(lǐng)域?qū)W習(xí)到的知識(shí)來(lái)幫助學(xué)習(xí)新領(lǐng)域的知識(shí)。通過(guò)遷移學(xué)習(xí),可以將從已有數(shù)據(jù)學(xué)習(xí)到的知識(shí)遷移應(yīng)用到新的領(lǐng)域來(lái)彌補(bǔ)新領(lǐng)域訓(xùn)練數(shù)據(jù)不足的缺陷。因此,遷移學(xué)習(xí)方法得到了廣泛重視。目前大部分針對(duì)遷移學(xué)習(xí)的研究主要集中在什么知識(shí)可以遷移以及如何遷移。遷移學(xué)習(xí)大致可以分為三類(lèi):歸納式遷移學(xué)習(xí)、轉(zhuǎn)換式遷移學(xué)習(xí)和無(wú)監(jiān)督遷移學(xué)習(xí)[11]。歸納式遷移學(xué)習(xí)從訓(xùn)練數(shù)據(jù)提取適合測(cè)試數(shù)據(jù)的樣例或特征進(jìn)行知識(shí)遷移,如從訓(xùn)練數(shù)據(jù)中抽取與測(cè)試數(shù)據(jù)相似的訓(xùn)練實(shí)例或者提取兩者共有的特征。Dai[12]假設(shè)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)在同一特征空間中,然后基于提升方法的思想不斷調(diào)整訓(xùn)練數(shù)據(jù)中有效樣本的權(quán)重,同時(shí)降低噪音數(shù)據(jù)的影響。Argyriou[13]則提出針對(duì)多任務(wù)遷移學(xué)習(xí)的稀疏特征學(xué)習(xí)算法以解決在多任務(wù)之間的遷移學(xué)習(xí)問(wèn)題。轉(zhuǎn)換式遷移學(xué)習(xí)要求模型訓(xùn)練期間能夠利用來(lái)自不同領(lǐng)域測(cè)試數(shù)據(jù)。受到重要性采樣思想的啟發(fā),轉(zhuǎn)換式遷移學(xué)習(xí)集中研究如何估計(jì)訓(xùn)練數(shù)據(jù)中每個(gè)樣例的權(quán)重,以此實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。Zadrozny[14]通過(guò)定義簡(jiǎn)單分類(lèi)問(wèn)題來(lái)估計(jì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的先驗(yàn)分布比值,以此衡量每個(gè)訓(xùn)練樣本的權(quán)重。Fan[15]則進(jìn)一步分析了多種分類(lèi)器對(duì)估計(jì)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的先驗(yàn)分布比值的實(shí)現(xiàn)效果。無(wú)監(jiān)督遷移學(xué)習(xí)則在沒(méi)有標(biāo)注數(shù)據(jù)的前提下,從訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中學(xué)習(xí)能夠表示訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的共有特征。

      在文本情感分析領(lǐng)域可以應(yīng)用遷移學(xué)習(xí)解決單一領(lǐng)域人工標(biāo)注數(shù)據(jù)不足、樣本選擇偏置、跨語(yǔ)言情感分析等問(wèn)題。考慮到文本數(shù)據(jù)具有領(lǐng)域相關(guān)性,不同領(lǐng)域的情感表達(dá)具有不同的方式,主要體現(xiàn)在相同的情感詞、評(píng)價(jià)詞在不同領(lǐng)域可能表達(dá)不同的情感傾向性,所以在利用不同領(lǐng)域的數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)時(shí)如何選擇合適的特征和樣本進(jìn)行遷移成為研究的重點(diǎn)。Blitzer[16]利用少量標(biāo)注的目標(biāo)領(lǐng)域數(shù)據(jù)來(lái)修正結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)方法(Structural Correspondence Learning,SCL)在源數(shù)據(jù)和目標(biāo)數(shù)據(jù)上的不重合問(wèn)題,并采用無(wú)監(jiān)督的樣本相似度度量方法來(lái)從源數(shù)據(jù)中選擇最佳樣本。Xu[17]在處理跨語(yǔ)言文本情感分析的時(shí)候,提出基于實(shí)例的遷移學(xué)習(xí),將大量含有標(biāo)注的源語(yǔ)料翻譯成為目標(biāo)語(yǔ)言,并從中篩選出有效樣例來(lái)擴(kuò)充目標(biāo)語(yǔ)料數(shù)據(jù)集。Gui[18-19]則通過(guò)檢測(cè)遷移學(xué)習(xí)中出現(xiàn)的噪音數(shù)據(jù)來(lái)降低遷移學(xué)習(xí)帶來(lái)的負(fù)面影響,從而獲得跨語(yǔ)言情感分析的效果提升。

      3 基于深度表示學(xué)習(xí)和高斯過(guò)程遷移學(xué)習(xí)的文本情感分析方法

      3.1 基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的文本深度表示學(xué)習(xí)

      傳統(tǒng)的基于詞袋模型的文本表示存在維度過(guò)高、數(shù)據(jù)稀疏、分布不連續(xù)的缺陷,相對(duì)不適合對(duì)文本樣本進(jìn)行表示,本文采用了基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的文本深度表示學(xué)習(xí)方法。

      卷積神經(jīng)網(wǎng)絡(luò)模型是一種有監(jiān)督學(xué)習(xí)的模型,根據(jù)輸入數(shù)據(jù)類(lèi)型的不同,可以由不同數(shù)量的卷積層和下采樣層疊加組成,并最終將特征輸出到全連接層。卷積層可以提取輸入數(shù)據(jù)的抽象特征,包含多個(gè)神經(jīng)元,這些神經(jīng)元之間共享權(quán)值,從而減少了模型的參數(shù)。下采樣層屬于特征映射層,由多個(gè)卷積層產(chǎn)生的特征圖組成,通過(guò)對(duì)固定大小的區(qū)域上不同位置的特征進(jìn)行聚合計(jì)算,如平均值計(jì)算或者最大值計(jì)算,輸出局部區(qū)域內(nèi)的最優(yōu)特征。經(jīng)過(guò)下采樣的池化處理,不僅降低了卷積特征層的特征維度,而且還保留了最有效的特征。全連接層由普通神經(jīng)網(wǎng)絡(luò)構(gòu)成,利用反向傳播算法實(shí)現(xiàn)模型參數(shù)的更新。

      卷積神經(jīng)網(wǎng)絡(luò)模型的輸入數(shù)據(jù)為二維特征矩陣,因此像圖像等二維數(shù)據(jù)可以直接作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。而文本數(shù)據(jù)往往被表示為一維特征向量,需要將其擴(kuò)展為二維特征矩陣的表示形式。以word2vec為代表的分布式詞向量的出現(xiàn),為文本數(shù)據(jù)映射到二維特征矩陣提供了可行的方案。本文借鑒Kim[2]提出的基于word2vec訓(xùn)練的詞向量的CNN模型(下文標(biāo)記為W2VCNN),將文本數(shù)據(jù)映射到序列特征。以word2vec模型的分布式詞向量為輸入的文本數(shù)據(jù),將文本數(shù)據(jù)轉(zhuǎn)化為特征向量,實(shí)現(xiàn)了文本的分布式表示學(xué)習(xí)。利用上述特征,可以分類(lèi)器進(jìn)行特征學(xué)習(xí),構(gòu)建分類(lèi)模型。

      3.2 基于深度高斯過(guò)程的非對(duì)稱(chēng)遷移學(xué)習(xí)

      高斯過(guò)程又被稱(chēng)作正態(tài)隨機(jī)過(guò)程,滿(mǎn)足正態(tài)分布,屬于自然界普遍存在的一種隨機(jī)過(guò)程。高斯過(guò)程在處理高維度、非線(xiàn)性等復(fù)雜問(wèn)題上,不僅具有良好的適應(yīng)性,而且具有較強(qiáng)的模型泛化能力。在分類(lèi)預(yù)測(cè)模型上,可以將高斯過(guò)程回歸模型的輸出映射到一個(gè)概率值上,表示對(duì)應(yīng)輸出類(lèi)別的概率。Kandemir[20]提出了一種基于深度高斯過(guò)程的非對(duì)稱(chēng)遷移學(xué)習(xí)模型(Asymmetric Transfer Learning with Deep Gaussian Processes,ATL-DGP),并在圖像分類(lèi)領(lǐng)域取得了應(yīng)用。圖1為Kandemir提出的ATL-DGP模型的示意圖。本文首先在該模型的基礎(chǔ)上進(jìn)行擴(kuò)展,實(shí)現(xiàn)該模型在文本情感分析上的應(yīng)用。

      圖1 基于深度高斯過(guò)程的非對(duì)稱(chēng)遷移學(xué)習(xí)模型

      設(shè)源數(shù)據(jù)集為Dsource={Xs,Ys},輔助數(shù)據(jù)集為Dextra={Xe,Ye},目標(biāo)數(shù)據(jù)集為Dtarget={Xt,Yt}。分別以源數(shù)據(jù)集Dsource和輔助數(shù)據(jù)集Dextra為訓(xùn)練數(shù)據(jù),建立兩個(gè)高斯過(guò)程分類(lèi)模型F={Fs,Fe}。

      根據(jù)高斯過(guò)程模型的定義,對(duì)于高斯過(guò)程分類(lèi)模型Fe有公式(1)和(2)。

      其中p(·)表示密度函數(shù),N(x|μ,Σ)表示具有均值μ和協(xié)方差Σ的高斯分布。式(1)和下文中α,β和λ為高斯分布的參數(shù)。Be為輔助數(shù)據(jù)Xe在高斯過(guò)程分類(lèi)模型Fe的第一層高斯過(guò)程中產(chǎn)生的非線(xiàn)性特征映射,De表示Be在高斯過(guò)程分類(lèi)模型Fe的隱含特征空間的表示。KDeDe為高斯過(guò)程分類(lèi)模型Fe在第二層高斯過(guò)程模型中基于隱含特征向量De產(chǎn)生的協(xié)方差矩陣。那么,根據(jù)高斯過(guò)程分類(lèi)模型Fe的第一層高斯過(guò)程,可以得到式(3)和(4):

      KXeXe是基于第一層高斯過(guò)程的核函數(shù)在輔助數(shù)據(jù)Xe生成的協(xié)方差矩陣。R為隱含節(jié)點(diǎn)數(shù)量。

      利用源數(shù)據(jù)集{Xs,Ys}可以構(gòu)建類(lèi)似的高斯過(guò)程分類(lèi)模型Fs,如式(5)~(10)所示。

      p(Ys|Fs)=N(Ys|Fs,β-1Ι)

      (5)

      p(Fs|Ds)=N(Fs|0,KDsDs)

      (6)

      p(Ds|Bs,Be→s,π)=

      (7)

      p(π)=Beta(π|e,f)

      (8)

      P([Be→s⊕Bs]|Xe,Xs)=

      (9)

      (10)

      根據(jù)上述推導(dǎo)公式,可以發(fā)現(xiàn),高斯過(guò)程分類(lèi)模型Fs與高斯過(guò)程分類(lèi)模型Fe不同在于隱含特征空間Ds的計(jì)算。在高斯過(guò)程分類(lèi)模型Fs中,Be->s由模型Fe的第一層高斯過(guò)程對(duì)源數(shù)據(jù)進(jìn)行非線(xiàn)性映射產(chǎn)生。模型Fs的隱含特征表示Ds由Be->s和Bs進(jìn)行線(xiàn)性加權(quán)組合產(chǎn)生。權(quán)重系數(shù)π服從Beta分布。上述過(guò)程實(shí)現(xiàn)了知識(shí)遷移,是整個(gè)基于深度高斯過(guò)程的非對(duì)稱(chēng)知識(shí)遷移學(xué)習(xí)的核心部分。

      高斯過(guò)程模型在處理大規(guī)模訓(xùn)練數(shù)據(jù)時(shí),求解協(xié)方差矩陣的逆將成為整個(gè)模型的計(jì)算瓶頸,基于深度高斯過(guò)程的非對(duì)稱(chēng)遷移學(xué)習(xí)模型在模型訓(xùn)練過(guò)程中同樣會(huì)面臨該問(wèn)題。Kandemir在ATL-DGP模型中采用了Snelson[21]提出的基于偽輸入數(shù)據(jù)的稀疏高斯過(guò)程求解方法。該方法假定輸入數(shù)據(jù)滿(mǎn)足獨(dú)立同分布條件,因此可以通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行隨機(jī)采樣,獲得輸入數(shù)據(jù)的子集,并構(gòu)建低階矩陣來(lái)近似完全數(shù)據(jù)高斯過(guò)程計(jì)算的結(jié)果。

      3.3 基于k近鄰的深度高斯過(guò)程的非對(duì)稱(chēng)遷移學(xué)習(xí)

      在文本的情感分析領(lǐng)域,由于訓(xùn)練數(shù)據(jù)有限,文本數(shù)據(jù)映射到特征空間后,有限的訓(xùn)練樣本無(wú)法涵蓋整個(gè)文本數(shù)據(jù)的特征空間,出現(xiàn)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布不一致的現(xiàn)象,產(chǎn)生樣本選擇偏置的問(wèn)題。在訓(xùn)練數(shù)據(jù)集上得到的最優(yōu)分類(lèi)器并不一定能夠很好地預(yù)測(cè)未知數(shù)據(jù)。如圖2所示,黑色圖形代表訓(xùn)練數(shù)據(jù)集上的實(shí)例,白色圖形代表測(cè)試數(shù)據(jù)集上的實(shí)例,斜線(xiàn)為以訓(xùn)練數(shù)據(jù)集為基礎(chǔ)構(gòu)建的分類(lèi)器的分類(lèi)決策面。

      圖2 在有偏置訓(xùn)練數(shù)據(jù)集上的數(shù)據(jù)分類(lèi)示意圖

      從圖2中可以看出,以訓(xùn)練數(shù)據(jù)集為基礎(chǔ)構(gòu)建的最優(yōu)分類(lèi)器往往可以在訓(xùn)練數(shù)據(jù)集上取得最好效果。但是當(dāng)分類(lèi)器應(yīng)用到測(cè)試數(shù)據(jù)的時(shí)候,數(shù)據(jù)分布不一致帶來(lái)的問(wèn)題就凸顯出來(lái)。因此,通過(guò)隨機(jī)采樣方法獲取的數(shù)據(jù)子集的分布不一定符合測(cè)試數(shù)據(jù)的分布。如果先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,篩選出符合測(cè)試數(shù)據(jù)分布的實(shí)例集,再?gòu)倪@個(gè)實(shí)例集里面去采樣得到一個(gè)可以近似求解高斯過(guò)程的子集,就可以盡可能地降低噪音數(shù)據(jù)對(duì)模型影響,從而提高模型的分類(lèi)效果。基于上述假設(shè),本文在ATL-DGP模型的基礎(chǔ)上,設(shè)計(jì)一個(gè)基于k近鄰(k-Nearest Neighbor,kNN)方法應(yīng)用于偽數(shù)據(jù)子集的選取過(guò)程,從而將偽數(shù)據(jù)子集的選擇范圍限制在符合測(cè)試數(shù)據(jù)分布的訓(xùn)練實(shí)例上,保證了偽數(shù)據(jù)子集的質(zhì)量,避免隨機(jī)選擇帶來(lái)的負(fù)面影響。

      對(duì)于離線(xiàn)學(xué)習(xí)問(wèn)題,我們雖然不知道測(cè)試數(shù)據(jù)的具體的類(lèi)別標(biāo)簽,但是可以得到測(cè)試數(shù)據(jù)的分布信息。利用測(cè)試數(shù)據(jù)的分布信息,從訓(xùn)練數(shù)據(jù)中挑選符合測(cè)試數(shù)據(jù)分布的實(shí)例,并基于這些實(shí)例構(gòu)建分類(lèi)器,以此得到近似滿(mǎn)足測(cè)試數(shù)據(jù)分布的最優(yōu)分類(lèi)器。因此,本文提出結(jié)合k近鄰的方法,從訓(xùn)練樣本中,挑選近似滿(mǎn)足測(cè)試數(shù)據(jù)分布的樣本構(gòu)成新的訓(xùn)練數(shù)據(jù)集。具體過(guò)程見(jiàn)算法1所示。

      算法1. 基于k近鄰的樣本選擇算法輸入:訓(xùn)練樣本集Dtrain,測(cè)試樣本集Dtest,文本特征映射模型,近鄰數(shù)k;輸出:新的訓(xùn)練樣本集Dnew。1.根據(jù)文本特征映射模型將訓(xùn)練樣本和測(cè)試樣本映射為特征向量集2.基于Dtrain構(gòu)建kNN分類(lèi)器C13.新訓(xùn)練數(shù)據(jù)集Dnew4.Foreachinstancev∈Dtest5. 根據(jù)kNN分類(lèi)器C1獲取v的k近鄰實(shí)例v1…vk∈Dtrain6. Dnew=Dnew∪{v1…vk}7.Endfor

      圖3示意了經(jīng)過(guò)實(shí)例選擇后訓(xùn)練得到的分類(lèi)模型的最優(yōu)分界面。虛線(xiàn)為樣本選擇前的最優(yōu)分界面。可以看到經(jīng)過(guò)k近鄰樣本選擇后,與測(cè)試樣本相似的訓(xùn)練樣例得以保留,不相似的視為噪音被去除,對(duì)應(yīng)地最優(yōu)分界面移到實(shí)線(xiàn)位置,有望得到更好的分類(lèi)效果。

      結(jié)合ATL-DGP模型,我們使用kNN樣本選擇算法對(duì)其擴(kuò)展以消除部分樣本選擇偏置。擴(kuò)展后的算法標(biāo)記為基于k近鄰的深度高斯過(guò)程的非對(duì)稱(chēng)遷移學(xué)習(xí)方法(k-nearest Neighbors Asymmetric Transfer Learning with Deep Gaussian Processes,kATL-DGP)。

      圖3 在相似數(shù)據(jù)集上的分類(lèi)效果示意圖

      算法2. 基于k近鄰的深度高斯過(guò)程的非對(duì)稱(chēng)遷移學(xué)習(xí)模型算法輸入:源數(shù)據(jù)集Dsource,輔助數(shù)據(jù)集Dextra,目標(biāo)數(shù)據(jù)集Dtarget,文本特征映射模型,k近鄰樣本選擇算法參數(shù)k,隱含節(jié)點(diǎn)個(gè)數(shù)R;輸出:目標(biāo)數(shù)據(jù)集Dtarget的類(lèi)別標(biāo)簽。1.利用源數(shù)據(jù)集Dsource和輔助數(shù)據(jù)集Dextra訓(xùn)練得到文本特征映射模型M2.根據(jù)文本特征映射模型M將源數(shù)據(jù)集Dsource、輔助數(shù)據(jù)集Dextra和目標(biāo)數(shù)據(jù)集Dtarget映射為特征向量3.利用k近鄰樣本選擇算法分別從Dsource和Dextra中得到偽數(shù)據(jù)集Psource和Pextra4.利用數(shù)據(jù)集Dsource、Dextra、Psource、Pextra訓(xùn)練得到ATL-DGP模型5.利用ATL-DGP模型預(yù)測(cè)目標(biāo)數(shù)據(jù)集Dtarget并輸出分類(lèi)標(biāo)簽

      4 實(shí)驗(yàn)結(jié)果及分析

      為評(píng)估本文提出方法的性能,本節(jié)以2014中文觀點(diǎn)傾向性分析評(píng)測(cè)(COAE2014)數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集作為源數(shù)據(jù)集,測(cè)試數(shù)據(jù)集作為目標(biāo)數(shù)據(jù)集,同時(shí)引入2014年自然語(yǔ)言處理與中文計(jì)算會(huì)議(Natural Language Processing & Chinese Computing,NLPCC2014)基于深度學(xué)習(xí)的情感分類(lèi)評(píng)測(cè)的訓(xùn)練數(shù)據(jù)集作為輔助數(shù)據(jù)集。

      COAE2014微博數(shù)據(jù)集來(lái)源于第六屆中文傾向性分析評(píng)測(cè)之微博觀點(diǎn)句識(shí)別子任務(wù),分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)來(lái)自同一話(huà)題,總共2 174條,其中有1 003條帶有正面情緒,1 171條帶有負(fù)面情緒。測(cè)試數(shù)據(jù)分別選自手機(jī)、保險(xiǎn)、翡翠三個(gè)不同話(huà)題,總共7 000條,其中帶有正面情感的有3 776條,帶有負(fù)面情感的有3 224條。

      NLPCC2014情感分類(lèi)評(píng)測(cè)數(shù)據(jù)集的數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)評(píng)論數(shù)據(jù),涵蓋數(shù)字影音、手機(jī)數(shù)碼、圖書(shū)等領(lǐng)域。其訓(xùn)練數(shù)據(jù)集包含5 000條正面評(píng)論數(shù)據(jù)和5 000條負(fù)面評(píng)論數(shù)據(jù)。

      4.1 實(shí)驗(yàn)數(shù)據(jù)預(yù)處理與參數(shù)設(shè)置

      在數(shù)據(jù)預(yù)處理方面,首先去除文本中數(shù)據(jù)中的噪音信息,如表情符號(hào)、電子郵件地址、用戶(hù)昵稱(chēng)等。然后利用ICTCLAS*http://ictclas.nlpir.org/分詞工具對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。在文本特征映射過(guò)程中,使用Google開(kāi)源的word2vec*http://word2vec.googlecode.com/svn/trunk/中Skip-gram模型訓(xùn)練W2VCNN的分布式詞向量,以2000萬(wàn)條無(wú)標(biāo)注的微博數(shù)據(jù)作為訓(xùn)練語(yǔ)料,生成包含33萬(wàn)個(gè)詞匯的分布式詞向量模型。對(duì)于分布式詞向量模型中不包含的詞語(yǔ),采用隨機(jī)生成分布式詞向量的方式來(lái)產(chǎn)生未登錄詞語(yǔ)的分布式詞向量。具體參數(shù)見(jiàn)表1。

      基于高斯過(guò)程的知識(shí)遷移學(xué)習(xí)分別為源數(shù)據(jù)和輔助數(shù)據(jù)構(gòu)建一個(gè)兩層的高斯過(guò)程分類(lèi)模型,通過(guò)對(duì)層與層之間的隱含特征的線(xiàn)性組合實(shí)現(xiàn)輔助數(shù)據(jù)到源數(shù)據(jù)的知識(shí)遷移。其中kATL-DGP模型采用表2所示的參數(shù)設(shè)置。

      表1 W2VCNN模型的參數(shù)設(shè)置

      表2 kATL-DGP模型參數(shù)設(shè)置

      4.2 實(shí)驗(yàn)結(jié)果及分析

      本節(jié)分別評(píng)估了基于非遷移學(xué)習(xí)方法包括NBSVM、W2VCNN1、W2VCNN2、RBMDNN,以及結(jié)合遷移學(xué)習(xí)方法ATL-DGP、kATL-DGP的性能。其中NBSVM由Wang[3]提出,采用Unigram和Bigram語(yǔ)言模型構(gòu)建文本特征向量,并采用線(xiàn)性支持向量機(jī)作為模型分類(lèi)器。RBMDNN[10]方法結(jié)合了限制玻爾茲曼機(jī)和深度神經(jīng)網(wǎng)絡(luò),在短文本分類(lèi)上獲得了很好的效果。實(shí)驗(yàn)中,NBSVM、W2VCNN1僅使用COAE2014訓(xùn)練數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),W2VCNN2使用COAE2014訓(xùn)練數(shù)據(jù)集和NLPCC2014情感分類(lèi)評(píng)測(cè)數(shù)據(jù)集訓(xùn)練CNN模型,遷移學(xué)習(xí)方法ATL-DGP、kATL-DGP均采用COAE2014訓(xùn)練數(shù)據(jù)集作為源訓(xùn)練數(shù)據(jù)集、NLPCC2014情感分類(lèi)評(píng)測(cè)數(shù)據(jù)集作為輔助數(shù)據(jù)集。實(shí)驗(yàn)所用測(cè)試數(shù)據(jù)集均為COAE2014測(cè)試數(shù)據(jù)集。

      實(shí)驗(yàn)結(jié)果如表3所示,可以看到對(duì)比于非遷移學(xué)習(xí)方法NBSVM、W2VCNN1和RBMDNN,結(jié)合了遷移學(xué)習(xí)的方法ATL-DGP和kATL-DGP達(dá)到了更高的性能。此外,雖然遷移學(xué)習(xí)方法使用了輔助數(shù)據(jù)集,但同樣加入了NLPCC訓(xùn)練集的W2VCNN2模型的實(shí)驗(yàn)結(jié)果表明,訓(xùn)練數(shù)據(jù)規(guī)模的增大并不是性能提高的主要原因。相反,W2VCNN2對(duì)比W2VCNN1僅在負(fù)面情緒識(shí)別時(shí)F值上升1.9%,而正面情緒識(shí)別性能F值下降4.0%,說(shuō)明由于輔助數(shù)據(jù)集和源訓(xùn)練數(shù)據(jù)集不同源,可能引入了噪音反而造成訓(xùn)練數(shù)據(jù)質(zhì)量下降。在實(shí)驗(yàn)中,引入輔助數(shù)據(jù)的遷移學(xué)習(xí)方法ATL-DGP和kATL-DGP表現(xiàn)出對(duì)樣本選擇偏置的較強(qiáng)的處理能力。

      表3 情感分類(lèi)算法在COAE2014數(shù)據(jù)集上的性能對(duì)比

      (※所用實(shí)驗(yàn)設(shè)置與本文不同,采用COAE2014任務(wù)4部分訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,其余數(shù)據(jù)為測(cè)試集。)

      與W2VCNN1對(duì)比,ATL-DGP在非同源的NLPCC數(shù)據(jù)集的輔助下,遷移學(xué)習(xí)策略顯示出一定成效,其正面情緒識(shí)別的F值提升1.01%,負(fù)面情緒識(shí)別的F值提升較大,達(dá)到4.84%。此外,本文提出的kATL-DGP,相較于ATL-DGP,在改進(jìn)了隨機(jī)采樣帶來(lái)的偏置后,在正負(fù)情緒識(shí)別效果上均有進(jìn)一步提高,F(xiàn)值分別提高了0.14%和0.37%。

      實(shí)驗(yàn)表明,若簡(jiǎn)單地將不同訓(xùn)練數(shù)據(jù)糅合在一起使用,對(duì)情感分類(lèi)性能反而可能有損失,因此有必要實(shí)施遷移學(xué)習(xí)方法。對(duì)比現(xiàn)有的方法,本文的方法超過(guò)了其他非遷移學(xué)習(xí)方法,達(dá)到了最佳性能,表明該方法通過(guò)引入輔助數(shù)據(jù)集,有效提升了文本情感分析的效果。

      5 結(jié)論

      針對(duì)文本情感分析中存在的領(lǐng)域相關(guān)性和樣本偏置問(wèn)題,本文提出在基于深度表示學(xué)習(xí)獲得樣本分布式表示基礎(chǔ)上,引入基于k近鄰高斯過(guò)程遷移學(xué)習(xí)的思想,以測(cè)試集為指導(dǎo),從輔助數(shù)據(jù)中提取額外數(shù)據(jù)和信息提高情感分類(lèi)器的性能。在COAE2014微博情感傾向性識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)顯示,本文方法可以有效降低領(lǐng)域相關(guān)性和樣本偏置的影響,有效提高情感分類(lèi)性能。

      [1] Xu R F,Wong K F,Xia Y.Coarse-Fine Opinion Mining-WIA in NTCIR-7 MOAT Task[C]//Proceedings of NTCIR 2008:307-313.

      [2] Kim Y.Convolutional Neural Networks for Sentence Classification[C]//Proceedings of EMNLP 2014:1746-1751.

      [3] Wang S,Manning C D.Baselines and Bigrams:Simple,Good Sentiment and Topic Classification[C]//Proceedings of ACL 2012:90-94.

      [4] Taboada M,Brooke J,Tofiloski M,et al.Lexicon-based Methods for Sentiment Analysis[J].Computational Linguistics,2011,37(2):267-307.

      [5] Fu G,Wang X.Chinese Sentence-level Sentiment Classification Based on Fuzzy Sets[C]//Proceedings of ACL 2010:312-319.

      [6] Bollegala D,Weir D,Carroll J.Cross-domain Sentiment Classification Using a Sentiment Sensitive Thesaurus[J].IEEE TKDE,2013,25(8):1719-1731.

      [7] Pang B,Lee L,Vaithyanathan S.Thumbs up?:Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of ACL 2002:79-86.

      [8] Zhao J,Liu K,Wang G.Adding Redundant Features for CRFs-based Sentence Sentiment Classification[C]//Proceedings of ACL 2008:117-126.

      [9] Socher R,Perelygin A,Wu J Y.,et al.Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank[C]//Proceedings of EMNLP 2013:1631-1642.

      [10] Xiao S,Chengcheng L,Fuji R.Sentiment Analysis for Chinese Microblog based on Deep Neural Networks with Convolutional Extension Features[J].Neurocomputing,2016,210:227-236.

      [11] Pan S J,Yang Q.A Survey on Transfer Learning[J].IEEE TKDE,2010,22(10):1345-1359.

      [12] Dai W,Yang Q,Xue G.R,et al.Boosting for Transfer Learning[C]//Proceedings of ICML 2007:193-200.

      [13] Argyriou A,Evgeniou T,Pontil M.Convex Multi-task Feature Learning[C]//Proceedings of NIPS 2007:19-41

      [14] Zadrozny B.Learning and Evaluating Classifiers under Sample Selection Bias[C]//Proceedings of ICML 2004:114-121.

      [15] Fan W,Davidson I,Zadrozny B,et al.An Improved Categorization of Classifier’s Sensitivity on Sample Selection Bias[C]//Proceedings of ICDM 2005:605-608

      [16] Blitzer J,McDonald R,Pereira F.Domain Adaptation with Structural Correspondence Learning[C]//Proceedings of ACL 2006:120-128.

      [17] Xu R F,Xu J,Wang X.Instance Level Transfer Learning for Cross Lingual Opinion Analysis[C]//Proceedings of ACL 2011:182-188.

      [18] Gui L,Xu R.F,Lu Q,et al.Cross-lingual Opinion Analysis via Negative Transfer Detection[C]//Proceedings of ACL 2014:860-865.

      [19] Gui L,Lu Q,Xu R.F,et al.A Novel Class Noise Estimation Method and Application in Classification[C]//Proceedings of CIKM 2015:1081-1090.

      [20] Kandemir M.Asymmetric Transfer Learning with Deep Gaussian Processes[C]//Proceedings of ICML 2015:730-738.

      [21] Snelson E.,Ghahramani Z.Sparse Gaussian Processes Using Pseudo-inputs[C]//Proceedings of NIPS 2005:1257-1264.

      Sentiment Analysis Based on Deep Representation Learning and Gaussian Processes Transfer Learning

      WU Dongyin1,GUI Lin1,CHEN Zhao2,XU Ruifeng1

      (1.School of Computer Science and Technology,Harbin Institute of Technology Shenzhen Graduate School,Shenzhen,Guangdong 518055,China;2.Tencent Technology (Shenzhen) Ltd.,Shenzhen,Guangdong 518055,China)

      Sentiment analysis is an important topic in natural language processing research.Most existing sentiment analysis techniques are difficult to handle the domain dependent and sample bias issues,which restrain the development and application of sentiment analysis.To address these issues,this paper presents a sentiment analysis approach based on deep representation learning and Gaussian Processes transfer learning.Firstly,the distributed representations of text samples are learned based on deep neural network.Next,based on deep Gaussian processes,this approach selects quality samples with the distribution similar to testing dataset from additional dataset to expand the training dataset.The sentiment classifier trained on the expanded dataset is expected to achieve higher performance.The experimental results on COAE2014 dataset show that the proposed approach improved the sentiment classification performance.Meanwhile,this approach alleviates the influences of training sample bias and domain dependence.

      sentiment analysis; deep representation learning; Gaussian processes; transfer learning

      吳冬茵(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、文本情緒計(jì)算。E-mail:wudongyinhit@gmail.com桂林(1988—),博士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、情感分析。E-mail:guilin.nlp@gmail.com陳釗(1990—),碩士,助理工程師,主要研究領(lǐng)域?yàn)閺?fù)雜網(wǎng)絡(luò)、信息傳播、自然語(yǔ)言處理、文本情緒計(jì)算。E-mail:gilbertchen@126.com

      1003-0077(2017)01-0169-08

      2016-09-15 定稿日期:2016-11-20

      國(guó)家自然科學(xué)基金(61370165);國(guó)家863計(jì)劃(2015AA015405);深圳市孔雀計(jì)劃技術(shù)創(chuàng)新項(xiàng)目(KQCX20140521144507925);深圳市基礎(chǔ)研究項(xiàng)目(JCYJ20150625142543470);廣東省數(shù)據(jù)科學(xué)工程技術(shù)研究中心開(kāi)放課題(2016KF09)

      TP391

      A

      猜你喜歡
      測(cè)試數(shù)據(jù)高斯分類(lèi)
      小高斯的大發(fā)現(xiàn)
      分類(lèi)算一算
      天才數(shù)學(xué)家——高斯
      分類(lèi)討論求坐標(biāo)
      測(cè)試數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      數(shù)據(jù)分析中的分類(lèi)討論
      教你一招:數(shù)的分類(lèi)
      基于自適應(yīng)粒子群優(yōu)化算法的測(cè)試數(shù)據(jù)擴(kuò)增方法
      空間co-location挖掘模式在學(xué)生體能測(cè)試數(shù)據(jù)中的應(yīng)用
      體育科技(2016年2期)2016-02-28 17:06:21
      有限域上高斯正規(guī)基的一個(gè)注記
      宜川县| 湖州市| 泾源县| 林芝县| 湘西| 汉川市| 南乐县| 中西区| 昌平区| 永城市| 托克逊县| 丹东市| 句容市| 互助| 什邡市| 即墨市| 烟台市| 绥宁县| 左权县| 定结县| 错那县| 达拉特旗| 定襄县| 中方县| 芷江| 巴楚县| 涞水县| 清远市| 城口县| 闽清县| 平阴县| 繁昌县| 永胜县| 澄迈县| 栾城县| 平阳县| 称多县| 海盐县| 珠海市| 茂名市| 准格尔旗|