• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    采用生成對抗網(wǎng)絡(luò)的金融文本情感分類方法

    2019-12-21 02:45:48沈翠芝
    關(guān)鍵詞:分類器分類領(lǐng)域

    沈翠芝

    (福建師范大學(xué)協(xié)和學(xué)院,福建 福州 350117)

    0 引言

    隨著互聯(lián)網(wǎng)和金融產(chǎn)業(yè)的迅速發(fā)展,網(wǎng)絡(luò)中的金融信息日益豐富,用戶對金融信息的需求也不斷增長[1],因此,對海量金融數(shù)據(jù)進行挖掘和研究,學(xué)習(xí)金融文本的情感傾向已成為一個重要課題.但是,目前金融領(lǐng)域有標(biāo)注的文本語料極為匱乏,難以直接用于訓(xùn)練模型.跨領(lǐng)域情感分類(cross-domain sentiment classification)[2],旨在利用源領(lǐng)域與目標(biāo)領(lǐng)域的有用知識,對目標(biāo)領(lǐng)域的文本進行情感分析,從而有效解決目標(biāo)領(lǐng)域標(biāo)注資源匱乏的問題.跨領(lǐng)域情感分類在消費者意見反饋[3]、金融風(fēng)險監(jiān)控[4]和金融股票推薦[5]等典型場景,具有重要研究和應(yīng)用價值.

    目前將跨領(lǐng)域情感分類的研究分為兩大類.第一類為基于特征選擇的跨領(lǐng)域情感分類,該方法主要是應(yīng)用源領(lǐng)域和目標(biāo)領(lǐng)域之間的不變特征構(gòu)建共享特征空間,并在此基礎(chǔ)上進行情感傾向性分析.文獻[6]為了更高效挑選樞軸特征結(jié)合源領(lǐng)域標(biāo)簽的互信息,通過將不同領(lǐng)域和樞軸特征的相關(guān)性進行建模,實現(xiàn)特征間對應(yīng)關(guān)系的識別.文獻[7]構(gòu)建一個將結(jié)構(gòu)對應(yīng)學(xué)習(xí)和自編碼器結(jié)合的三層神經(jīng)網(wǎng)絡(luò)模型,該方法有效提升了情感分類性能.第二類為基于特征表示學(xué)習(xí)的跨領(lǐng)域情感分類,該方法通過采用遷移學(xué)習(xí)的方法來學(xué)習(xí)領(lǐng)域適應(yīng)的共享特征空間,減少領(lǐng)域之間的特征差異.文獻[8]建立一個邊緣堆疊降噪自編碼器模型,通過大量無標(biāo)注數(shù)據(jù)得到魯棒的特征表示,該模型具有計算量少和高維數(shù)據(jù)可擴展性的優(yōu)勢.文獻[9]提出領(lǐng)域?qū)咕W(wǎng)絡(luò),通過梯度反轉(zhuǎn)模塊讓情感標(biāo)簽分類器和域分類器進行對抗學(xué)習(xí),從而學(xué)習(xí)領(lǐng)域適應(yīng)的特征表示.

    鑒于此,本研究提出一種基于生成對抗網(wǎng)絡(luò)的跨領(lǐng)域情感分類方法,將生成網(wǎng)絡(luò)中產(chǎn)生的隨機噪聲和文本表示向量進行結(jié)合,并利用判別網(wǎng)絡(luò)模塊來區(qū)分真實源領(lǐng)域樣本、生成樣本和情感傾向性,進而學(xué)習(xí)領(lǐng)域適應(yīng)的特征表示.

    1 基于生成對抗網(wǎng)絡(luò)的跨領(lǐng)域情感分類

    1.1 基于生成對抗網(wǎng)絡(luò)的跨領(lǐng)域情感分類模型

    在跨領(lǐng)域文本情感分類任務(wù)中,生成對抗網(wǎng)絡(luò)學(xué)習(xí)到源領(lǐng)域和目標(biāo)領(lǐng)域共享的特征表示,若模型無法對樣本數(shù)據(jù)隸屬于哪個領(lǐng)域做出判別,那么可認(rèn)為該模型學(xué)習(xí)到了兩個領(lǐng)域共享的特征表示,利用該特征表示來構(gòu)建情感分類器,提高跨領(lǐng)域情感分類器的性能.受文獻[10]啟發(fā),本節(jié)提出的基于生成對抗網(wǎng)絡(luò)的跨領(lǐng)域情感分類模型主要由4個部分構(gòu)成:表示學(xué)習(xí)網(wǎng)絡(luò)Nf、情感標(biāo)簽分類器Ny、生成網(wǎng)絡(luò)Ng以及判別網(wǎng)絡(luò)Nd,如圖1所示.

    圖1 基于生成對抗網(wǎng)絡(luò)的跨領(lǐng)域文本情感分類模型Fig.1 Cross-domain sentiment classification model based on generative adversarial network

    1.1.1表示學(xué)習(xí)網(wǎng)絡(luò)Nf模塊

    該模塊將輸入樣本x進行一個線性變換,映射成一個D維度的文本特征向量,即:

    Nf(x)=ReLU(Wfx+bf)

    (1)

    其中:激活函數(shù)ReLU為修正線性單元;Wf為權(quán)值,bf為偏置值,二者均為模型需要學(xué)習(xí)的參數(shù).

    1.1.2情感標(biāo)簽分類器Ny模塊

    該模塊是將從表示學(xué)習(xí)網(wǎng)絡(luò)Nf模塊得到的文本特征向量作為輸入,進行線性變換后,通過Softmax函數(shù)計算Nf對不同極性標(biāo)簽的概率,即:

    Ny(Nf(x))=Softmax(WyNf(x)+by)

    (2)

    其中:Wy為權(quán)值,by為偏置值,二者均為模型需要學(xué)習(xí)的參數(shù).

    1.1.3生成網(wǎng)絡(luò)Ng模塊

    在本研究所提模型中為了能夠更充分地利用文本上下文信息,讓生成的樣本更加接近真實樣本,通過長短時記憶網(wǎng)絡(luò)[11-12]來得到一個新生成的文本表示:

    (3)

    (4)

    (5)

    (6)

    1.1.4判別網(wǎng)絡(luò)Nd模塊

    該模塊旨在判斷出真實樣本和生成樣本,在該模塊中設(shè)計了兩個輸出,其中一個是判斷樣本是否為源領(lǐng)域的真實樣本,另一個是判斷樣本的情感傾向性.該模塊主要實現(xiàn)方式如下:

    (7)

    (8)

    (9)

    1.2 損失函數(shù)

    在模型優(yōu)化階段,本研究是通過交替的方式更新模型各個模塊的參數(shù).利用生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的對抗學(xué)習(xí)生成與源領(lǐng)域數(shù)據(jù)分布相似的樣本,通過這種方式來優(yōu)化特征表示學(xué)習(xí).

    ① 判別網(wǎng)絡(luò)Nd的優(yōu)化目標(biāo)是最大化k個兩兩樣本的判別損失總和Ed,如下式所示:

    (2)隨著社會經(jīng)濟與科學(xué)技術(shù)的發(fā)展,海洋的利用率也越來越高,轄區(qū)各類航標(biāo)的數(shù)量也越來越多,但一些淺灘和暗礁水域設(shè)置的航標(biāo),巡檢船舶難以靠近,給航標(biāo)的巡檢工作帶來比較多的困難;

    (10)

    (11)

    (12)

    (13)

    ② 生成網(wǎng)絡(luò)Ng優(yōu)化目標(biāo)為Eg:

    (14)

    ③ 表示學(xué)習(xí)網(wǎng)絡(luò)Nf和情感標(biāo)簽分類器Ny的優(yōu)化目標(biāo)為Ef,c:

    (15)

    (16)

    (17)

    (18)

    (19)

    2 實驗及結(jié)果分析

    2.1 實驗數(shù)據(jù)集

    表1 Amazon數(shù)據(jù)集的統(tǒng)計信息Tab.1 Amazon dataset statistics

    本研究采用亞馬遜數(shù)據(jù)集,包括四種不同類型的產(chǎn)品評論:Book(B)、DVD(D)、Electronics(E)、Kitchen(K).具體情況如表1所示.

    2.2 基準(zhǔn)實驗

    為了證明該模型的有效性,本研究采用如下幾種基準(zhǔn)實驗.

    1)No-DA[7].該方法未進行領(lǐng)域適應(yīng),使用源領(lǐng)域標(biāo)注數(shù)據(jù)構(gòu)建情感分類器,并將其應(yīng)用于目標(biāo)領(lǐng)域測試數(shù)據(jù)集進行情感分類.

    2)mSDA[8].邊緣堆疊降噪自編碼器對源領(lǐng)域標(biāo)注數(shù)據(jù)和目標(biāo)領(lǐng)域未標(biāo)注數(shù)據(jù)的所有特征統(tǒng)一進行邊緣化降噪處理,將獲得的隱層特征和原始數(shù)據(jù)作為特征空間,然后在此特征空間上構(gòu)建分類器,對目標(biāo)領(lǐng)域特征表示進行情感分類.

    3)mSDA-DANN[9].將由邊緣堆疊去噪自動編碼器(mSDA)生成的特征表示應(yīng)用到領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)(DANN)中.每個例子都被編碼為30 000維的向量.

    4)AE-SCL-SR[7].使用word2vec預(yù)訓(xùn)練的詞向量作為模型的輸入,將自編碼器與結(jié)構(gòu)對應(yīng)學(xué)習(xí)相結(jié)合,獲得低緯度的樞軸特征表示,并應(yīng)用于目標(biāo)領(lǐng)域的情感分類.

    2.3 參數(shù)設(shè)置

    表2 生成對抗網(wǎng)絡(luò)模型的主要參數(shù)設(shè)置Tab.2 Main parameter settings for generating adversarial network model

    本研究聯(lián)合生成對抗四個組建網(wǎng)絡(luò)共同進行模型參數(shù)訓(xùn)練,以交替的方式進行參數(shù)更新,以期獲得具有最好分類性能的模型,主要參數(shù)設(shè)置如表2所示.

    2.4 實驗結(jié)果及分析

    為了驗證本研究方法(記為GAN)在跨領(lǐng)域情感分類任務(wù)上的有效性,在亞馬遜四個領(lǐng)域數(shù)據(jù)集中進行了12組實驗,并將該方法與前述的基準(zhǔn)實驗進行對比.以準(zhǔn)確率作為評價指標(biāo),本研究方法與基準(zhǔn)方法在測試集上的預(yù)測準(zhǔn)確率計算結(jié)果如表3所示.

    表3 跨領(lǐng)域情感分類實驗結(jié)果Tab.3 Cross-domain sentiment classification experiment results

    從表3中可以看出,本研究方法在大部分的實驗組上均取得了最好的結(jié)果,特別在D→B及E→D兩組實驗上均提高了2.00%以上,總體平均精度上提高了1.00%.分析原因如下:本研究方法與基準(zhǔn)方法相比,更注重噪聲特征對于文本表示的影響,該方法首先應(yīng)用邊緣堆疊降噪自編碼器(mSDA)生成更具有魯棒性的特征表示作為輸入,初步降低了噪聲對于實驗性能的影響,在生成對抗學(xué)習(xí)網(wǎng)絡(luò)中,進一步加入隨機噪聲向量,強化共享特征,減少了領(lǐng)域間數(shù)據(jù)分布的差異.由此可見本研究提出的生成對抗網(wǎng)絡(luò)對文本表示中的噪聲特征進行優(yōu)化,有助于提高跨領(lǐng)域情感分類的預(yù)測精度.

    2.5 金融領(lǐng)域應(yīng)用分析

    本研究方法在金融領(lǐng)域進行了拓展,收集了SemEval-2017任務(wù)5中StockTwits信息,該消息由微博消息構(gòu)成,主要關(guān)注股票市場事件以及投資者和交易者的評估.使用StockTwits信息共計2 500條,其中2 000條為無標(biāo)記數(shù)據(jù),500為標(biāo)注數(shù)據(jù).結(jié)合亞馬遜4個領(lǐng)域數(shù)據(jù)集進行了4組拓展實驗,實驗結(jié)果如表4所示.

    實驗結(jié)果表明,通過將源領(lǐng)域的標(biāo)注數(shù)據(jù)和目標(biāo)領(lǐng)域未標(biāo)注數(shù)據(jù)相結(jié)合,可以構(gòu)建較好的情感分類模型應(yīng)用于目標(biāo)領(lǐng)域的情感分析.在金融領(lǐng)域的拓展實驗,也有相對較好的情感準(zhǔn)確率,根據(jù)分析提升該金融領(lǐng)域分類準(zhǔn)確率存在以下幾方面挑戰(zhàn).

    表5 各領(lǐng)域數(shù)據(jù)集統(tǒng)計信息Tab.5 Dataset statistics for each domain

    1)StockTwits消息組成的Microblog數(shù)據(jù)集,屬于短文本,如表5所示,與亞馬遜4個領(lǐng)域數(shù)據(jù)集相比,最長文本長度和平均文本長度均遠小于后者,這樣提取的共享特征較少,進而影響文本的分類性能.

    2)金融領(lǐng)域相關(guān)的文本,其特定領(lǐng)域特征相對于其他領(lǐng)域而言,更具獨有性,與其他領(lǐng)域進行聯(lián)合訓(xùn)練領(lǐng)域適應(yīng)特征時,相對不易訓(xùn)練出較好的共享特征,從而影響情感分類器分類性能.例如:flop would just get everyone running to the fences.該文本整體情感傾向為負(fù)面,而文中翻牌(flop)一詞,在其他領(lǐng)域相對較少出現(xiàn),且情感傾向往往與金融領(lǐng)域表示不一致.

    在金融領(lǐng)域的文本情感分類,有助于用戶時刻了解某只股票或者公司的相關(guān)信息,這樣有助于用戶采取相應(yīng)的措施,同樣地,企業(yè)也可采取相應(yīng)的公關(guān)策略.

    3 結(jié)論

    在面向金融領(lǐng)域的文本情感分類研究中,針對跨領(lǐng)域情感分析未能充分考慮文本表示中的噪聲特征的問題,提出一種基于生成對抗網(wǎng)絡(luò)的跨領(lǐng)域文本情感分類方法.首先將源領(lǐng)域和目標(biāo)領(lǐng)域無標(biāo)注數(shù)據(jù)集應(yīng)用邊緣堆疊降噪自編碼器生成特征表示;然后在生成對抗的跨領(lǐng)域情感分類中,通過在文本表示向量中加入噪聲向量生成新樣本,利用判別網(wǎng)絡(luò)與生成網(wǎng)絡(luò)的對抗學(xué)習(xí)優(yōu)化文本表示.在亞馬遜4個領(lǐng)域數(shù)據(jù)集上進行的實驗結(jié)果表明,本研究提出的方法可以有效的提高跨領(lǐng)域文本情感分類性能.

    猜你喜歡
    分類器分類領(lǐng)域
    分類算一算
    領(lǐng)域·對峙
    青年生活(2019年23期)2019-09-10 12:55:43
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    BP-GA光照分類器在車道線識別中的應(yīng)用
    電子測試(2018年1期)2018-04-18 11:52:35
    教你一招:數(shù)的分類
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
    新常態(tài)下推動多層次多領(lǐng)域依法治理初探
    基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
    周宁县| 万山特区| 顺义区| 达日县| 若尔盖县| 成武县| 神农架林区| 洛川县| 繁昌县| 页游| 宜兴市| 哈巴河县| 商丘市| 许昌市| 南城县| 长岛县| 平邑县| 康平县| 洞头县| 邢台县| 宁陵县| 公安县| 九寨沟县| 阳城县| 体育| 万山特区| 南通市| 绥中县| 东源县| 巴林右旗| 青岛市| 元阳县| 阿尔山市| 毕节市| 大余县| 阿合奇县| 万源市| 霍林郭勒市| 赣州市| 敖汉旗| 威宁|