• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于公共特征空間的自適應(yīng)情感分類

    2019-04-13 03:23:20洪文興杞堅(jiān)瑋王瑋瑋鄭曉晴
    關(guān)鍵詞:卷積閾值分類

    洪文興,杞堅(jiān)瑋,王瑋瑋,鄭曉晴,翁?洋

    ?

    基于公共特征空間的自適應(yīng)情感分類

    洪文興1,杞堅(jiān)瑋1,王瑋瑋1,鄭曉晴1,翁?洋2

    (1. 廈門大學(xué)航空航天學(xué)院,廈門 361005;2. 四川大學(xué)數(shù)學(xué)學(xué)院,成都 610064)

    針對(duì)情感分類這一項(xiàng)從文章或句子中得到觀點(diǎn)態(tài)度的任務(wù),常規(guī)情感分類模型大多需要耗費(fèi)大量人力獲取標(biāo)注數(shù)據(jù).為解決某些領(lǐng)域缺乏標(biāo)注數(shù)據(jù),且其他領(lǐng)域分類器無法在目標(biāo)領(lǐng)域直接使用的現(xiàn)狀,設(shè)計(jì)了一種新穎的基于構(gòu)建公共特征空間方法,使分類模型可從有標(biāo)注領(lǐng)域向無標(biāo)注領(lǐng)域進(jìn)行遷移適應(yīng),減少人工標(biāo)注的成本開銷,實(shí)現(xiàn)情感分類的領(lǐng)域自適應(yīng).該方法以大規(guī)模語料下預(yù)訓(xùn)練的詞向量信息作為以詞為元素的特征,在同種語言中表達(dá)情感所采用的句法結(jié)構(gòu)相似這一假設(shè)前提下,通過對(duì)領(lǐng)域內(nèi)特有的領(lǐng)域特征詞進(jìn)行替換的方式構(gòu)建有標(biāo)注數(shù)據(jù)集與無標(biāo)注數(shù)據(jù)集基本共有的公共特征空間,使有標(biāo)注數(shù)據(jù)集與無標(biāo)注數(shù)據(jù)集實(shí)現(xiàn)信息共享.以此為基礎(chǔ)借助深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)采用不同尺寸卷積核對(duì)詞語不同范圍的上下文特征進(jìn)行抽取學(xué)習(xí),進(jìn)而采用半監(jiān)督學(xué)習(xí)與微調(diào)學(xué)習(xí)相結(jié)合的方式從有標(biāo)注數(shù)據(jù)集向未標(biāo)注數(shù)據(jù)集開展領(lǐng)域自適應(yīng).在來自京東與攜程共5個(gè)領(lǐng)域的真實(shí)電商數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別研究了領(lǐng)域特征詞選擇方法及其詞性約束對(duì)領(lǐng)域間適應(yīng)能力的影響,結(jié)果表明:相較于不采用領(lǐng)域適應(yīng)的模型,可提升平均2.7%的準(zhǔn)確率;且在來自亞馬遜電商的公開數(shù)據(jù)集實(shí)驗(yàn)中,通過與現(xiàn)有方法進(jìn)行對(duì)比,驗(yàn)證了該方法的有效性.

    情感分類;領(lǐng)域自適應(yīng);半監(jiān)督學(xué)習(xí);特征重構(gòu)

    隨著互聯(lián)網(wǎng)上情感文本的爆炸式增長(zhǎng),情感分析任務(wù)愈發(fā)受到重視.自動(dòng)化的情感分類模型可以有效地幫助政府或企業(yè)監(jiān)測(cè)公眾反饋并收集市場(chǎng)輿情.

    情感分類的傳統(tǒng)方法中,研究者需要收集并整理大量的標(biāo)注數(shù)據(jù),在此基礎(chǔ)上訓(xùn)練他們所關(guān)注領(lǐng)域的情感分類模型.然而現(xiàn)實(shí)生活中某些領(lǐng)域缺少標(biāo)注數(shù)據(jù)是十分常見的現(xiàn)象,因此在成本有限的條件下,在這些領(lǐng)域訓(xùn)練一個(gè)可接受的分類模型是一件困難的工作.為解決這一問題,筆者采用了領(lǐng)域自適應(yīng)的思想.研究者可在一個(gè)有高質(zhì)量標(biāo)注數(shù)據(jù)的領(lǐng)域訓(xùn)練分類模型,并將該模型應(yīng)用在無標(biāo)注數(shù)據(jù)的領(lǐng)域中.但要實(shí)現(xiàn)這一過程,有兩個(gè)問題亟待解決:其一,需要確定數(shù)據(jù)中什么信息需要進(jìn)行領(lǐng)域自適應(yīng);其二,需要知道如何將這些信息從源領(lǐng)域適應(yīng)至目標(biāo)?領(lǐng)域.

    本文提出了兩個(gè)方案來分別解決上述問題.在源領(lǐng)域與目標(biāo)領(lǐng)域之間重構(gòu)一個(gè)公共的特征空間,該特征空間所包含的信息被兩個(gè)領(lǐng)域所共享,即為希望進(jìn)行領(lǐng)域適應(yīng)的信息.利用卷積神經(jīng)網(wǎng)絡(luò)中不同尺寸的卷積核抽取并增強(qiáng)這其中有價(jià)值的信息,并通過半監(jiān)督學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)微調(diào)的方式將這些信息從公共特征空間向目標(biāo)領(lǐng)域適應(yīng).在此基礎(chǔ)上,該模型可以逐步學(xué)習(xí)目標(biāo)領(lǐng)域中的特征信息,并最終應(yīng)用在目標(biāo)領(lǐng)域中.

    綜上所述,本文實(shí)現(xiàn)了一個(gè)可在不同領(lǐng)域之間開展領(lǐng)域自適應(yīng)過程的模型訓(xùn)練方法,解決了某些領(lǐng)域缺乏訓(xùn)練數(shù)據(jù)的問題.在來自京東、攜程與亞馬遜的電商數(shù)據(jù)集上進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果證明了該方法的有效性.

    1?研究現(xiàn)狀

    機(jī)器學(xué)習(xí)領(lǐng)域已有大量關(guān)于情感分類的研究,其中最著名是Pang等[1]基于詞語的unigram、bigram及詞性特征,采用樸素貝葉斯、支持向量機(jī)與最大熵模型進(jìn)行的對(duì)比分析.在Pang等[2]另一項(xiàng)工作中將分類問題轉(zhuǎn)換為排序問題,取得了良好的效果.在這些情感分類問題的研究中,可從網(wǎng)絡(luò)博客[3]、新聞[4]與社交軟件[5]上獲取高質(zhì)量的訓(xùn)練數(shù)據(jù),然而在另一些實(shí)際領(lǐng)域訓(xùn)練數(shù)據(jù)十分匱乏.

    解決方案之一是遷移學(xué)習(xí)中的領(lǐng)域自適應(yīng)方法,其普遍方法是采用樣例加權(quán)[6],大多數(shù)以樣例加權(quán)為基礎(chǔ)的方法都有一個(gè)假設(shè),雖然源領(lǐng)域與目標(biāo)領(lǐng)域的邊際概率()可能不同,但其邊際條件概率(|)是相同的[7-9].另一些方法依賴領(lǐng)域中數(shù)據(jù)特征表達(dá)的轉(zhuǎn)換[10-11],這些以特征表達(dá)為基礎(chǔ)的方法通過構(gòu)建一個(gè)可觀測(cè)的共同聯(lián)合分布來對(duì)數(shù)據(jù)表達(dá)進(jìn)行映射,從而實(shí)現(xiàn)領(lǐng)域自適應(yīng)[12-15].

    情感分類中特征表達(dá)重構(gòu)的直觀方案是構(gòu)建一個(gè)情感詞典作為公共特征并在此基礎(chǔ)上進(jìn)行領(lǐng)域自適應(yīng)[16].結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)則依靠選取支點(diǎn)特征,從句法結(jié)構(gòu)角度尋找特征映射[11].而基于譜特征對(duì)齊是將不同領(lǐng)域的詞語經(jīng)過聚合對(duì)齊獲取共同特征,從而完成領(lǐng)域自適應(yīng)[17].上述方法以及本文所提出的方法均為詞語級(jí)別的特征重構(gòu)方法,所以在實(shí)驗(yàn)中將分別進(jìn)行對(duì)比.

    近年來,卷積神經(jīng)網(wǎng)絡(luò)模型在自然語言處理任務(wù)中也表現(xiàn)非常優(yōu)秀,在語言建模[18]、句子匹配[19]、句子分類[20]以及許多自然語言處理任務(wù)中都有不俗的表現(xiàn)[21].深度學(xué)習(xí)方法在特征抽取中是無監(jiān)督的過程,使得其更適合解決領(lǐng)域自適應(yīng)問題[22].

    半監(jiān)督學(xué)習(xí)是領(lǐng)域自適應(yīng)的一種常用方法[23-24],分類器可在一個(gè)小規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)集上初始化,并從未標(biāo)注數(shù)據(jù)集中不斷獲得標(biāo)注數(shù)據(jù),通過重復(fù)訓(xùn)練改善模型在目標(biāo)領(lǐng)域的表現(xiàn)[25].在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)通過微調(diào)應(yīng)用在新的領(lǐng)域已在圖像識(shí)別領(lǐng)域得到了驗(yàn)證[26].

    2?模型與方法

    為實(shí)現(xiàn)上述兩個(gè)解決方案,筆者構(gòu)建了以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的分類器,設(shè)計(jì)了基于特征表達(dá)重構(gòu)的領(lǐng)域自適應(yīng)方法.模型結(jié)構(gòu)將在第2.1節(jié)闡述,第2.2節(jié)闡述重構(gòu)特征表達(dá)的過程,在第2.3節(jié)以偽代碼的形式闡述半監(jiān)督學(xué)習(xí)過程.

    2.1?模型架構(gòu)

    本文將句子級(jí)別的情感分類任務(wù)看作詞語級(jí)別序列分類問題,借鑒Kim等[20]提出的多尺寸卷積核模型,如圖1所示,在其基礎(chǔ)上添加一層隱藏層作為半監(jiān)督學(xué)習(xí)的特征映射.

    如圖所示,詞典中第個(gè)詞語w被嵌入為一個(gè)維的向量.每個(gè)句子被表達(dá)為詞向量構(gòu)成的序列,通過截長(zhǎng)補(bǔ)短使每個(gè)句子序列的長(zhǎng)度保持一致.

    在卷積神經(jīng)網(wǎng)絡(luò)中,設(shè)計(jì)了多種尺寸的卷積核.卷積核的尺寸代表著取詞窗口的寬度,例如當(dāng)=3時(shí),卷積核從每3個(gè)詞中抽取1個(gè)特征.模型中有種卷積核尺寸,每種尺寸有個(gè)卷積核,通過卷積可得到×個(gè)特征.在池化過程中,采用了最大池化的操作[21],即每個(gè)特征序列中保留最顯著的特征.

    圖1?分類模型架構(gòu)

    上述卷積與池化的過程可稱為特征抽取過程,其后的隱藏層作為特征映射層.模型依照句子的特征向量對(duì)其進(jìn)行分類.

    2.2?公共特征空間

    不同領(lǐng)域的語料可看作是從一個(gè)公共詞典里基于不同概率分布進(jìn)行采樣.筆者認(rèn)為在同一種語言中,構(gòu)建公共特征空間的基礎(chǔ)在于表達(dá)情感時(shí)所采用的句法是類似的,它們的不同之處主要在于領(lǐng)域特征詞匯的組成.領(lǐng)域特征詞匯是個(gè)相對(duì)的概念,當(dāng)選定源領(lǐng)域和目標(biāo)領(lǐng)域后,一些詞語在目標(biāo)領(lǐng)域中出現(xiàn)非常頻繁而在源領(lǐng)域中幾乎不出現(xiàn),即為目標(biāo)領(lǐng)域中的特征詞匯,反之亦然.表1中列出了服裝評(píng)論與酒店評(píng)論中的兩個(gè)例子,其中“褲子”與“面料”即為服裝評(píng)論領(lǐng)域相對(duì)于酒店評(píng)論領(lǐng)域的特征詞匯.如上文所述,這兩條例句在表達(dá)對(duì)所消費(fèi)商品的認(rèn)可時(shí),所使用的句法結(jié)構(gòu)是相似的,即“名詞-動(dòng)詞-形容詞”的形式.

    表1?領(lǐng)域特征詞匯示例

    Tab.1?Example of domain words

    筆者將領(lǐng)域特征詞匯定義為:在源領(lǐng)域中出現(xiàn)頻次與目標(biāo)領(lǐng)域中出現(xiàn)頻次之比大于特征詞匯閾值w的詞匯.這樣的定義可簡(jiǎn)單地理解為在一個(gè)領(lǐng)域中大量出現(xiàn)的詞匯,通常含有有價(jià)值的信息,而在另一個(gè)領(lǐng)域中幾乎不出現(xiàn),則證明該詞匯所含有的信息是前者所特有的,排除了每個(gè)領(lǐng)域中都大量出現(xiàn)的助詞性詞匯.每個(gè)句子中的詞匯可看作是該樣本的一個(gè)特征,若將在源領(lǐng)域訓(xùn)練的模型直接應(yīng)用到目標(biāo)領(lǐng)域上,大量的獨(dú)有特征會(huì)誤導(dǎo)模型的分類效果.

    因此筆者提出了一種方法,首先選取無意義的符號(hào)替換原有句子中的領(lǐng)域特征詞,對(duì)領(lǐng)域信息先進(jìn)行弱化,待模型訓(xùn)練完成再?gòu)?qiáng)化.在領(lǐng)域弱化的過程中,通過對(duì)特征詞的替換,可構(gòu)建一個(gè)公共的特征空間.為更直觀地觀察領(lǐng)域弱化的作用,圖2(a)、2(b)中利用T-SNE算法將源領(lǐng)域與目標(biāo)領(lǐng)域的高維詞向量空間轉(zhuǎn)變?yōu)槎S分布[27].在可視化圖形中可發(fā)現(xiàn),領(lǐng)域弱化前源領(lǐng)域與目標(biāo)領(lǐng)域的向量空間重合度較小,經(jīng)過領(lǐng)域弱化兩個(gè)領(lǐng)域的向量空間基本重合,即領(lǐng)域弱化過程使源領(lǐng)域與目標(biāo)領(lǐng)域的向量空間更加相似.

    圖2?領(lǐng)域弱化前后的特征分布變化

    借助預(yù)訓(xùn)練的詞向量模型,通過計(jì)算詞向量序列間的余弦距離可判斷兩個(gè)句子的相似性.如表2所示,經(jīng)過領(lǐng)域弱化后兩個(gè)句子趨于相同,因此可利用該公共特征空間構(gòu)建訓(xùn)練數(shù)據(jù)集,以此初始化分類模型,并逐步學(xué)習(xí)目標(biāo)領(lǐng)域的獨(dú)有特征.

    表2?領(lǐng)域弱化示例

    Tab.2?Example of weakening of domain

    該過程的關(guān)鍵點(diǎn)在于如何選取領(lǐng)域特征詞.本文中采用基于統(tǒng)計(jì)詞頻的方式衡量詞語在領(lǐng)域語料中的獨(dú)特程度,若詞語在源領(lǐng)域中出現(xiàn)頻次與其在目標(biāo)領(lǐng)域中出現(xiàn)頻次的比值大于實(shí)驗(yàn)設(shè)定的領(lǐng)域詞發(fā)現(xiàn)閾值,即認(rèn)為該詞語是源領(lǐng)域的特征詞,反之亦然.為更精確選取特征詞,本文采用詞性約束的方式對(duì)特征詞加以限制,分別以最為常見的名詞性約束與形容詞性約束選擇特征詞.在添加詞性約束時(shí),詞語在滿足頻次比值高于閾值,且屬于目標(biāo)詞性的條件下,被選取為特征詞.

    2.3?半監(jiān)督學(xué)習(xí)過程

    綜上所述,基于公共特征空間可構(gòu)建弱化后的源領(lǐng)域數(shù)據(jù)集,記為w,弱化后的目標(biāo)領(lǐng)域數(shù)據(jù)集,記為w,原本的目標(biāo)領(lǐng)域數(shù)據(jù)集記為,新樣本置信度閾值為s.如下用偽代碼闡述半監(jiān)督學(xué)習(xí)的過程.

    Semi-supervised Learning(w,w,,s)

    輸入:weakened source datasetw,weakened target datasetw,original target dataset,thresholds

    輸出:classifier for target dataset

    1.?初始化

    2.?Trainonw

    3.?for sentence_w,sentence inw,:

    4.?label,conf=Predict(,sentence_w)

    5.?if conf>s

    6.?add(sentence,label)to

    7.?remove sentence from

    8.?Fine-tune

    9.?whileincrease

    10.Trainon

    11.for sentence in

    12.label,conf=Predict(,sentence)

    14.add(sentence,label)to

    15.remove sentence from

    16.return

    在1、2行,初始化模型并利用經(jīng)過弱化的源領(lǐng)域進(jìn)行訓(xùn)練.3~7行模型對(duì)目標(biāo)領(lǐng)域經(jīng)過弱化的句子進(jìn)行分類標(biāo)注,置信度高于閾值的樣本則將其未經(jīng)弱化句子與標(biāo)簽一同加入新的訓(xùn)練集中,同時(shí)從目標(biāo)領(lǐng)域數(shù)據(jù)集中去除該樣本.8行對(duì)模型進(jìn)行微調(diào)初始化,即固定神經(jīng)網(wǎng)絡(luò)中特征抽取部分神經(jīng)節(jié)點(diǎn)參數(shù),將特征映射部分節(jié)點(diǎn)設(shè)為可訓(xùn)練狀態(tài).9~15行在新訓(xùn)練集的基礎(chǔ)上重復(fù)訓(xùn)練模型,并不斷從中獲取新的高置信度數(shù)據(jù),不斷擴(kuò)充模型訓(xùn)練集.當(dāng)不再擴(kuò)增時(shí)即停止訓(xùn)練過程,此時(shí)的模型即為由源領(lǐng)域自適應(yīng)至目標(biāo)領(lǐng)域的分類器.

    3?實(shí)驗(yàn)與討論

    在構(gòu)建分類器與半監(jiān)督自適應(yīng)過程的基礎(chǔ)上,本節(jié)通過一系列對(duì)比實(shí)驗(yàn)驗(yàn)證該方法的有效性.

    第3.1節(jié)簡(jiǎn)要闡述實(shí)驗(yàn)所使用的數(shù)據(jù)集與部分超參數(shù)設(shè)置.第3.2節(jié)展示實(shí)驗(yàn)結(jié)果,而第3.3節(jié)筆者對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了討論,第3.4節(jié)中筆者在公開數(shù)據(jù)集上實(shí)驗(yàn)該方法并與現(xiàn)有方法進(jìn)行比較.

    3.1?數(shù)據(jù)集與參數(shù)設(shè)定

    表3中列舉了實(shí)驗(yàn)中所使用的數(shù)據(jù)集概況.

    新型的多功能護(hù)理型輪椅組合床和傳統(tǒng)的護(hù)理床相比,多功能輪椅組合床安裝了電動(dòng)千斤頂裝置,通過遙控器控制可以實(shí)現(xiàn)病人在病床上翻身的需求.同時(shí)在頭部位置安裝有扭簧裝置,可以輕松地實(shí)現(xiàn)病人不同角度坐臥的功能.該床屬于可拆卸式病床,能夠?qū)崿F(xiàn)病床與輪椅的分離,避免病人在病床和輪椅之間的移動(dòng),如果病人需要外出時(shí),輪椅就可以從床上拆卸下來,輕松實(shí)現(xiàn)病人的代步功能.

    表3?數(shù)據(jù)集概況

    Tab.3?Information of data sets

    上述數(shù)據(jù)均來自京東與攜程電商平臺(tái),參照通用電商評(píng)論標(biāo)注方式,其標(biāo)簽以評(píng)論附加的星數(shù)確定,4、5星為正樣本,1、2星為負(fù)樣本,3星默認(rèn)為不具有情感極性的評(píng)價(jià)故而舍棄,數(shù)據(jù)集中每個(gè)領(lǐng)域正負(fù)樣本各5000條.實(shí)驗(yàn)中采用十折交叉驗(yàn)證的方式對(duì)模型進(jìn)行驗(yàn)證,最終結(jié)果為各次實(shí)驗(yàn)的平均表現(xiàn).

    卷積核尺寸設(shè)置為={3,4,5},每個(gè)尺寸設(shè)置卷積核數(shù)=100,即共計(jì)300個(gè)卷積核.隱藏層節(jié)點(diǎn)數(shù)量為100,網(wǎng)絡(luò)節(jié)點(diǎn)中dropout概率設(shè)為0.4[28],且添加0.001的L2正則約束以避免過擬合.在訓(xùn)練集中隨機(jī)抽取10%數(shù)據(jù)作為驗(yàn)證集,在訓(xùn)練過程中以驗(yàn)證集上模型的表現(xiàn)調(diào)整學(xué)習(xí)速率.詞嵌入所使用的預(yù)訓(xùn)練詞向量是以中文維基百科所訓(xùn)練的50維?向量[29].

    3.2?實(shí)驗(yàn)結(jié)果

    為確定模型訓(xùn)練過程中的若干超參數(shù),如領(lǐng)域詞發(fā)現(xiàn)閾值、新樣本置信度閾值、領(lǐng)域詞的詞性約束,筆者以服裝領(lǐng)域評(píng)論與水果領(lǐng)域評(píng)論進(jìn)行了一系列先導(dǎo)實(shí)驗(yàn).

    如圖3所示,在多組領(lǐng)域詞發(fā)現(xiàn)閾值的實(shí)驗(yàn)中,模型在閾值為10時(shí)達(dá)到最好效果.

    圖3?模型在不同領(lǐng)域詞發(fā)現(xiàn)閾值下的表現(xiàn)

    圖4中,在不同置信度閾值的作用下,模型的表現(xiàn)在0.999達(dá)到最優(yōu).

    圖4?模型在不同新樣本置信度閾值下的表現(xiàn)

    在正式對(duì)比實(shí)驗(yàn)中,以無領(lǐng)域自適應(yīng)訓(xùn)練的結(jié)果為基線,以在目標(biāo)領(lǐng)域內(nèi)訓(xùn)練的結(jié)果為最優(yōu)表現(xiàn),在表4中展示了不同詞性約束下模型的準(zhǔn)確率表現(xiàn)情況,均為十折交叉驗(yàn)證平均結(jié)果.

    表4?模型在不同詞性約束下的準(zhǔn)確率表現(xiàn)

    Tab.4?Model accuray under different constraints

    表中C、F、H、P、S分別代表服裝、水果、酒店、掌上電腦、洗發(fā)露各個(gè)領(lǐng)域,C-F即為以服裝為源領(lǐng)域、F為目標(biāo)領(lǐng)域進(jìn)行實(shí)驗(yàn).以紅色字體標(biāo)出了每組實(shí)驗(yàn)中效果最好的約束條件,從結(jié)果中可以看出,以名詞為約束條件所訓(xùn)練的模型取得了最佳的效果.與無自適應(yīng)的實(shí)驗(yàn)過程相對(duì)比,在名詞約束下的特征變換模型準(zhǔn)確率平均提升2.7%,證明該模型能從一定程度上改善跨領(lǐng)域的自適應(yīng)過程.

    3.3?討?論

    在第1個(gè)先導(dǎo)實(shí)驗(yàn)中,通過比較模型在不同領(lǐng)域詞發(fā)現(xiàn)閾值下的表現(xiàn)可看出,隨著閾值增大,領(lǐng)域詞數(shù)量逐步減少,模型準(zhǔn)確率先增大后減?。陂撝递^小時(shí),過多領(lǐng)域詞被替換導(dǎo)致模型沒有學(xué)習(xí)足夠的特征;而當(dāng)閾值較大時(shí),由于幾乎沒有領(lǐng)域詞被替換,此時(shí)類似無自適應(yīng)過程.

    第2個(gè)先導(dǎo)實(shí)驗(yàn)中,隨著新樣本置信度閾值的增大,迭代次數(shù)與模型準(zhǔn)確率均先增大后減小.當(dāng)閾值較小時(shí),對(duì)新樣本的選取較為寬松,目標(biāo)數(shù)據(jù)集中的樣本快速進(jìn)入新訓(xùn)練數(shù)據(jù)集,此時(shí)訓(xùn)練集中數(shù)據(jù)質(zhì)量較低導(dǎo)致模型準(zhǔn)確度較差;而當(dāng)閾值較大時(shí),訓(xùn)練數(shù)據(jù)集很難獲取新的訓(xùn)練樣本,導(dǎo)致訓(xùn)練集較早停止擴(kuò)增,模型迭代訓(xùn)練次數(shù)較少,故而準(zhǔn)確率較低.

    在對(duì)比實(shí)驗(yàn)中,對(duì)比不同組實(shí)驗(yàn)的結(jié)果可發(fā)現(xiàn)下列現(xiàn)象.

    掌上電腦領(lǐng)域的模型表現(xiàn)均不甚理想.筆者認(rèn)為原因在于該領(lǐng)域與其他日常生活領(lǐng)域相差較遠(yuǎn),用戶重疊較少,電子產(chǎn)品的評(píng)價(jià)主要針對(duì)其性能而非給人的感受,不適用第2.2節(jié)所述在表達(dá)情感時(shí)所用句法大致相近的前提,故而模型訓(xùn)練結(jié)果較差.

    服裝、酒店、水果領(lǐng)域的自適應(yīng)效果較好.筆者認(rèn)為這源于這些領(lǐng)域均側(cè)重于商品給人的直觀感受,感受的表述上大致相近.

    名詞性約束在大多數(shù)領(lǐng)域取得了較好的結(jié)果.筆者認(rèn)為這得益于在預(yù)訓(xùn)練詞向量的基礎(chǔ)上,相近的形容詞類屬性特征的聚合程度更好,所以模型訓(xùn)練效果更好.

    綜上,該方法所需的成本較小,在訓(xùn)練情感分類器的同時(shí)能得到領(lǐng)域的特征詞典.神經(jīng)網(wǎng)絡(luò)的表現(xiàn)與訓(xùn)練數(shù)據(jù)量有直接關(guān)系,筆者相信該模型在大規(guī)模數(shù)據(jù)集下有取得更好表現(xiàn)的潛力.

    該實(shí)驗(yàn)過程運(yùn)行于GTX1080 8G GPU,每次實(shí)驗(yàn)的時(shí)間開銷約為2h.實(shí)驗(yàn)中模型通常需要在半監(jiān)督學(xué)習(xí)過程迭代10次以上才能取得較好的效果.

    3.4?公開數(shù)據(jù)集實(shí)驗(yàn)

    該實(shí)驗(yàn)數(shù)據(jù)集來自亞馬遜電商評(píng)論數(shù)據(jù)[11],涵蓋書籍、DVD影像、電器與廚房用具4個(gè)領(lǐng)域.其中數(shù)據(jù)處理方式同上,評(píng)分4、5星為正樣本,1、2星為負(fù)樣本,每個(gè)領(lǐng)域分別包含正負(fù)樣本各1000條.

    該實(shí)驗(yàn)中采用基于谷歌新聞數(shù)據(jù)集預(yù)訓(xùn)練的300維英文詞向量模型進(jìn)行向量嵌入,網(wǎng)絡(luò)結(jié)構(gòu)與超參數(shù)設(shè)置均采用上述中文數(shù)據(jù)集實(shí)驗(yàn)中最優(yōu)條件,以名詞性約束抽取領(lǐng)域特征詞.

    如表5所示,模型在書籍與DVD影像、電器與廚房用具領(lǐng)域間的適應(yīng)效果較好,這一現(xiàn)象與中文數(shù)據(jù)集中屬性詞相近的領(lǐng)域在經(jīng)過領(lǐng)域弱化后更加相似是一致的.

    表5?模型在英文數(shù)據(jù)集的準(zhǔn)確率表現(xiàn)

    Tab.5?Model accuracy on English data set

    同時(shí),參照前期研究者的實(shí)驗(yàn)方法,選擇其中一個(gè)領(lǐng)域作為目標(biāo)領(lǐng)域,其余3個(gè)領(lǐng)域作為源領(lǐng)域進(jìn)行實(shí)驗(yàn),可得到模型準(zhǔn)確率如表6所示.

    表6?模型準(zhǔn)確率對(duì)比

    Tab.6?Comparison of model accuracy

    可發(fā)現(xiàn)在擁有更大訓(xùn)練集的情況下,模型的準(zhǔn)確率得到進(jìn)一步提高.筆者分析認(rèn)為原因在于一方面,源數(shù)據(jù)集更加具有普適性,在領(lǐng)域弱化過程中與目標(biāo)領(lǐng)域會(huì)更加相似;另一方面,神經(jīng)網(wǎng)絡(luò)在大規(guī)模數(shù)據(jù)集上能更有效率地抽取特征.與現(xiàn)有方法相比,該方法所需的開銷更小,且能取得較好的效果.

    4?結(jié)?語

    本文中,筆者致力于研究多領(lǐng)域中情感分類問題的領(lǐng)域自適應(yīng).設(shè)計(jì)了一套基于公共特征空間重構(gòu)的方法進(jìn)行領(lǐng)域自適應(yīng).以卷積神經(jīng)網(wǎng)絡(luò)抽取特征,半監(jiān)督學(xué)習(xí)過程進(jìn)行特征映射,從而節(jié)約大量人力解決了某些領(lǐng)域無標(biāo)注數(shù)據(jù)、無法訓(xùn)練有效分類器的問題.實(shí)驗(yàn)結(jié)果表明,該方法在多領(lǐng)域情感分類問題中能取得良好的表現(xiàn).

    [1] Pang B,Lee L,Vaithyanathan S. Thumbs up?:Sentiment classification using machine learning techniques[C]// Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Philadelphia,USA,2002:79-86.

    [2] Pang B,Lee L. Seeing stars:Exploiting class relationships for sentiment categorization with respect to rating scales[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Ann Arbor,USA,2005:115-124.

    [3] Yang Changhua,Lin K,Chen H. Emotion classification using web blog corpora[C]// IEEE/WIC/ACM International Conference on Web Intelligence. California,USA,2007:275-278.

    [4] Read J. Using emoticons to reduce dependency in machine learning techniques for sentiment classification[C]//Proceedings of the ACL Student Research Workshop. Ann Arbor,USA,2005:43-48.

    [5] Hassan A,Abbasi A,Zeng D. Twitter sentiment analysis:A bootstrap ensemble framework[C]// 2013 International Conference on Social Computing. Washington,DC,USA,2013:357-364.

    [6] Jiang Jing,Zhai Chengxiang. Instance weighting for domain adaptation in nlp[C]// Proceedings of the 45th Annual Meeting on Association for Computational Linguistics. Prague,Czech Republic,2007:264-271.

    [7] Dai Wenyuan,Yang Qiang,Xue Guirong,et al. Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis,USA,2007:193-200.

    [8] Huang Jiayuan,Gretton A,Borgwardt K M,et al. Correcting sample selection bias by unlabeled data[C]// Advances in Neural Information Processing Systems. Vancouver,Canada,2007:601-608.

    [9] Sugiyama M,Nakajima S,Kashima H,et al. Direct importance estimation with model selection and its application to covariate shift adaptation[C]// Advances in Neural Information Processing Systems. Vancouver,Canada,2008:1433-1440.

    [10] Bendavid S,Blitzer J,Crammer K,et al. Analysis of representations for domain adaptation[C]// Advances in Neural Information Processing Systems. Vancouver,Canada,2007:137-144.

    [11] Blitzer J,Dredze M,Pereira F. Biographies,bollywood,boom-boxes and blenders:Domain adaptation for sentiment classification[C]// Proceedings of the 45th Annual Meeting on Association for Computational Linguistics. Prague,Czech Republic,2007:440-447.

    [12] Ando R K,Zhang T. A framework for learning predictive structures from multiple tasks and unlabeled data[J]. Journal of Machine Learning Research,2005(6):1817-1853.

    [13] Argyriou A,Evgeniou T,Pontil M. Multi-task feature learning[C]//Advances in Neural Information Processing Systems. Vancouver,Canada,2007:41-48.

    [14] Raina R,Battle A,Lee H,et al. Self-taught learning:Transfer learning from unlabeled data[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis,USA,2007:759-766.

    [15] Pan S J,Kwok J T,Yang Q. Transfer learning via dimensionality reduction[C]//AAAI Conference on Artificial Intelligence. Chicago,USA,2008:677-682.

    [16] Bollegala D,Weir D,Carroll J. Cross-domain sentiment classification using a sentiment sensitive thesaurus[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(8):1719-1731.

    [17] Pan S J,Ni Xiaochuan,Sun JT,et al. Cross-domain sentiment classification via spectral feature alignment[C]//Proceedings of the 19th International Conference on World Wide Web. Montreal,Canada,2010:751-760.

    [18] Kalchbrenner N,Grefenstette E,Blunsom P. A convolutional neural network for modelling sentences[C]//the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore,USA,2014:655-665.

    [19] Hu Baotian,Lu Zhengdong,Li Hang,et al. Convolutional neural network architectures for matching natural language sentences[C]//Advances in Neural Information Processing Systems. Montreal,Canada,2014:2042-2050.

    [20] Kim Y. Convolutional neural networks for sentence classification[J]. Empirical Methods in Natural Language Processing,2014:1746-1751.

    [21] Collobert R,Weston J,Bottou L,et al.,Natural language processing(almost)from scratch[J]. Journal of Machine Learning Research,2011,12(8):2493-2537.

    [22] Glorot X,Bordes A,Bengio Y. Domain adaptation for large-scale sentiment classification:A deep learning approach[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue,USA,2011:513-520.

    [23] Blum A,Mitchell T M. Combining labeled and unlabeled data with co-training[C]// Proceedings of the 11th Annual Conference on Computational Learning Theory. Madison,USA,1998:92-100.

    [24] Joachims T. Transductive inference for text classification using support vector machines[C]//16th International Conference on Machine Learning. San Francisco,USA,1999:200-209.

    [25] Nigam K,Mccallum A,Thrun S,et al.Text classification from labeled and unlabeled documents using em[J]. Machine Learning,2000,39:103-134.

    [26] Tajbakhsh N,Shin J Y,Gurudu S R,et al.Convolutional neural networks for medical image analysis:Full training or fine tuning?[J]. IEEE Transactions on Medical Imaging,2016,35(5):1299-1312.

    [27] Van derMaaten L,Hinton G. Visualizing data using t-sne[J]. Journal of Machine Learning Research,2008,9(11):2579-2605.

    [28] Srivastava N,Hinton G E,Krizhevsky A,et al.Dropout:A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research,2014,15(1):1929-1958.

    [29] Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their compositionality[C]//Advances in Neural Information Processing Systems. Lake Tahoe,USA,2013:3111-3119.

    Domain Adaptation with Common Feature Space for Sentiment Classification

    Hong Wenxing1,Qi Jianwei1,Wang Weiwei1,Zheng Xiaoqing1,Weng Yang2

    (1. School of Aerospace Engineering,Xiamen University,Xiamen 361005,China; 2. School of Mathematics,Sichuan University,Chengdu 610064,China)

    Sentiment classification, which extracts the opinions from sentences/documents,has been extensively studied. Most of the conventional sentiment classification models require a lot of cost to obtain the labeled data. In order to solve the problem that a trained classifier from other domain cannot be used directly on the target domain which lack labeled data,we proposed a novel domain adaptation model with reconstructing a common feature representation. This model makes the classifier from the labeled domain adapt to the unlabeled domain,reduces the cost of manual labeling and achieves the domain adaptation of sentiment classification. This model utilizes the pre-trained word vectors as the feature of the words. With the premise that the syntactic structure used to express sentiment in the same language is similar,a common feature space shared by the labeled and unlabeled data set is reconstructed by replacing the special domain words that unique to the domain. Therefore,the information sharing between the labeled and unlabeled data sets is realized. Based on this,the convolutional neural network in the model uses different size of convolution kernels to extract the context features of different range of words. With semi-supervised learning and fine-tuning learning,the model can be domain adapted from the labeled domain to the unlabeled domain. In experiments based on real data from Jingdong and Xiecheng, we separately compared the influence of different domain words selection and different POS constraints on the performance of our model,and found our model can improve the accuracy by about 2.7% compared to our baseline. In addition,we compared our model with related works on the public data from Amazon,and verified the effectiveness of our model.

    sentiment classification;domain adaptation;semi-supervised learning;feature reconstructing

    10.11784/tdxbz201810048

    TK448.21

    A

    0493-2137(2019)06-0631-07

    2018-10-29;

    2018-11-13.

    洪文興(1980—),男,博士,副教授,hwx@xmu.edu.cn.

    翁?洋,wengyang@scu.edu.cn.

    國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2018YFC0830300);福建省科技計(jì)劃資助項(xiàng)目(2018H0035);廈門市科技計(jì)劃資助項(xiàng)目(3502Z20183011);掌數(shù)金融科技研發(fā)基金資助項(xiàng)目.

    the National Key R&D Program of China(No.2018YFC0830300),the Science and Technology Program of Fujian,China(No.2018H0035),the Science and Technology Program of Xiamen,China(No.3502Z20183011),the Fund of XMU-ZhangShu Fintech Joint Lab.

    (責(zé)任編輯:王曉燕)

    猜你喜歡
    卷積閾值分類
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    分類算一算
    小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    分類討論求坐標(biāo)
    基于自適應(yīng)閾值和連通域的隧道裂縫提取
    數(shù)據(jù)分析中的分類討論
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    教你一招:數(shù)的分類
    比值遙感蝕變信息提取及閾值確定(插圖)
    河北遙感(2017年2期)2017-08-07 14:49:00
    古田县| 公安县| 和政县| 贡山| 页游| 郑州市| 柳江县| 英超| 乌海市| 满城县| 平安县| 浪卡子县| 郴州市| 云林县| 射洪县| 平泉县| 垫江县| 基隆市| 江源县| 濮阳县| 富锦市| 封丘县| 铁力市| 武夷山市| 杂多县| 尼勒克县| 股票| 桂阳县| 乌海市| 西平县| 宜兰县| 特克斯县| 新沂市| 偏关县| 乐东| 佛坪县| 天等县| 新平| 巧家县| 桂平市| 武清区|