• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于語(yǔ)言學(xué)特征與層次注意力機(jī)制的幽默識(shí)別

    2020-08-19 07:00:56鄒艷波樊小超
    計(jì)算機(jī)工程 2020年8期
    關(guān)鍵詞:歧義語(yǔ)句注意力

    楊 勇,楊 亮,鄒艷波,任 鴿,樊小超,

    (1.新疆師范大學(xué) a.計(jì)算機(jī)科學(xué)技術(shù)學(xué)院; b.物理與電子工程學(xué)院,烏魯木齊 830054;2.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

    0 概述

    幽默普遍存在于日常用語(yǔ)中,是人們溝通交流的重要組成部分。幽默一詞來(lái)源于英文單詞“Humor”,由林語(yǔ)堂先生于1924年引入中國(guó),有可笑、有趣而意味深長(zhǎng)之義[1]。近年來(lái),隨著人工智能的快速發(fā)展,幽默識(shí)別受到了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。幽默識(shí)別任務(wù)通常是識(shí)別某個(gè)語(yǔ)句或段落是否包含幽默的語(yǔ)義表達(dá)[2-3]。幽默數(shù)據(jù)集有多種類型[3],包括笑話、One-liner形式的幽默、對(duì)話幽默等,本文的研究重點(diǎn)為One-liner形式的幽默。

    One-liner形式的幽默通常是一個(gè)簡(jiǎn)短的句子,使用少量詞匯傳達(dá)幽默的語(yǔ)義。與其他形式的幽默相比,One-liner形式的幽默缺乏上下文信息,多數(shù)采用語(yǔ)音、語(yǔ)言歧義或疊字等手段產(chǎn)生預(yù)期的幽默效果。針對(duì)One-liner形式的幽默,目前的幽默識(shí)別方法主要分為基于特征工程的機(jī)器學(xué)習(xí)方法[4-5]和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法[6-7]。前者需要領(lǐng)域?qū)<覙?gòu)建特征,且耗時(shí)耗力,泛化能力較差。后者網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建通常缺乏幽默理論的驅(qū)動(dòng),可解釋性較差。為解決以上問(wèn)題,本文提出基于語(yǔ)音、字形和語(yǔ)義的層次注意力神經(jīng)網(wǎng)絡(luò)模型(PFSHAN)進(jìn)行幽默識(shí)別。

    1 相關(guān)工作

    隨著幽默在互聯(lián)網(wǎng)中的廣泛應(yīng)用以及文本情感分析問(wèn)題的深入研究,越來(lái)越多的學(xué)者對(duì)幽默識(shí)別產(chǎn)生了很大興趣,幽默識(shí)別成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)研究問(wèn)題之一。對(duì)于幽默識(shí)別研究,根據(jù)使用方法的不同,本文從基于特征工程的機(jī)器學(xué)習(xí)方法和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法兩個(gè)方面對(duì)現(xiàn)有工作進(jìn)行概述。

    基于特征工程的機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于幽默識(shí)別領(lǐng)域。文獻(xiàn)[8]構(gòu)建大規(guī)模的笑話語(yǔ)料庫(kù),并利用n-gram特征對(duì)幽默段落進(jìn)行識(shí)別。文獻(xiàn)[5]定義3種類型的幽默特征,包括頭韻、反義詞和成人俚語(yǔ),并通過(guò)實(shí)驗(yàn)證明了其在幽默識(shí)別中的有效性。文獻(xiàn)[9]基于幽默的不一致性理論和語(yǔ)言學(xué)特點(diǎn),設(shè)計(jì)5個(gè)類別多達(dá)50多種幽默特征。文獻(xiàn)[4]對(duì)幽默的潛在語(yǔ)義特征進(jìn)行系統(tǒng)闡述并構(gòu)建包括語(yǔ)音特征、歧義特征、不一致性特征和情感特征在內(nèi)的4種類型的幽默特征。在此基礎(chǔ)上,文獻(xiàn)[10]將語(yǔ)義分析和情感分析相結(jié)合,對(duì)情感關(guān)聯(lián)模式進(jìn)行建模并用于幽默識(shí)別。文獻(xiàn)[11]通過(guò)成分分析和依賴關(guān)系分析得到幽默的句法特征來(lái)提升幽默識(shí)別的性能。文獻(xiàn)[12]基于幽默的歧義性和語(yǔ)音特性提出一系列幽默特征。文獻(xiàn)[13]由喜劇電視節(jié)目中的對(duì)話構(gòu)造了幽默數(shù)據(jù)集,并采用多模態(tài)的分析方法,結(jié)合聲音特征與語(yǔ)義特征進(jìn)行幽默識(shí)別。

    近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在幽默識(shí)別領(lǐng)域取得了許多研究成果。文獻(xiàn)[14]提取《生活大爆炸》中的對(duì)話文本,利用幽默情景劇中特有的背景笑聲自動(dòng)標(biāo)注笑點(diǎn),并采用長(zhǎng)短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)提取語(yǔ)義特征和聲音特征識(shí)別笑點(diǎn)。文獻(xiàn)[15]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和LSTM提取幽默特征并識(shí)別對(duì)話中的笑點(diǎn)。文獻(xiàn)[7]比較CNN與傳統(tǒng)機(jī)器學(xué)習(xí)方法的性能。文獻(xiàn)[16]采用LSTM和注意力機(jī)制在幽默評(píng)測(cè)中取得了較好的結(jié)果。文獻(xiàn)[17]結(jié)合人工特征和神經(jīng)網(wǎng)絡(luò)自動(dòng)提取的特征,對(duì)西班牙語(yǔ)的推特文本進(jìn)行幽默識(shí)別。文獻(xiàn)[18]構(gòu)建了一個(gè)大型的俄語(yǔ)幽默數(shù)據(jù)集,并使用調(diào)優(yōu)的預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行幽默識(shí)別。文獻(xiàn)[19]提出基于張量的幽默識(shí)別方法,能夠有效提取幽默語(yǔ)句的詞匯特征。

    對(duì)于現(xiàn)有工作的研究結(jié)果表明,語(yǔ)音特征和歧義性特征能夠有效提高幽默識(shí)別的性能,然而人工構(gòu)造的特征成本較高且泛化能力較差。相比于基于特征工程的機(jī)器學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法能夠自動(dòng)提取幽默的高維語(yǔ)義特征且性能較好。然而,現(xiàn)有基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法缺乏幽默理論的驅(qū)動(dòng),實(shí)驗(yàn)結(jié)果難以給出令人信服的解釋。本文提出PFSHAN模型識(shí)別幽默語(yǔ)句,PFSHAN模型基于幽默的語(yǔ)言學(xué)特征,分別從文本的語(yǔ)音、字形和語(yǔ)義3個(gè)維度提取幽默特征,并采用層次注意力機(jī)制,使得模型能夠提取更有效的幽默特征。

    2 基于音形義的幽默識(shí)別方法

    如圖1所示,本文提出基于音形義的層次注意力神經(jīng)網(wǎng)絡(luò)模型進(jìn)行幽默識(shí)別的主要步驟為:1)將文本內(nèi)容表示成對(duì)應(yīng)的音素形式,采用卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)句的語(yǔ)音特征;2)將文本表示成字符形式,采用雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,Bi-GRU)和注意力機(jī)制提取文本的字形特征;3)引入單詞歧義性等級(jí)信息,更好地提取幽默語(yǔ)句的語(yǔ)義特征。為更好地區(qū)分不同幽默特征在幽默識(shí)別過(guò)程中的貢獻(xiàn)程度,本文采用層級(jí)注意力機(jī)制來(lái)調(diào)節(jié)幽默語(yǔ)言學(xué)特征和幽默語(yǔ)句的關(guān)聯(lián)程度。

    圖1 基于音形義的層次注意力神經(jīng)網(wǎng)絡(luò)模型Fig.1 Hierarchical attention neural network model based on pronunciation,font and semantics

    2.1 基于語(yǔ)音的幽默特征提取

    許多幽默由語(yǔ)音引起,文本內(nèi)容中不協(xié)調(diào)的發(fā)音產(chǎn)生了幽默[20]。文獻(xiàn)[5]指出幽默文本的語(yǔ)音特征與其語(yǔ)義內(nèi)容一樣重要。語(yǔ)音是引發(fā)幽默的重要手段,其通常通過(guò)押頭韻或尾韻的形式進(jìn)行表現(xiàn)[4]。

    例1You can tune a piano,but you can’t tuna fish.

    在例1中,句子的語(yǔ)義并不有趣,但是句子中單詞“tune”和“tuna”有相似的發(fā)音,這使得句子的幽默效果得到了加強(qiáng)。在許多幽默文本中,即使文本內(nèi)容不幽默,也經(jīng)常使用頭韻、尾韻等語(yǔ)音特點(diǎn)引發(fā)或增強(qiáng)幽默效果。

    由于單詞的發(fā)音和拼寫并不完全一致,因此無(wú)法從字符來(lái)直接獲取句子的語(yǔ)音表示。為獲得單詞的語(yǔ)音表示,本文使用卡內(nèi)基梅隆大學(xué)(CMU)的發(fā)音詞典將文本表示成其對(duì)應(yīng)的語(yǔ)音形式。相比于含有重音標(biāo)識(shí)的版本,包含39個(gè)音素的無(wú)重音標(biāo)識(shí)的CMU發(fā)音詞典更加準(zhǔn)確。因此,本文采用無(wú)重音標(biāo)識(shí)的CMU發(fā)音詞典將幽默語(yǔ)句中的單詞轉(zhuǎn)換成對(duì)應(yīng)的音素表示。例如,單詞“word”的音素表示為[“W”,“ER”,“D”]。卷積神經(jīng)網(wǎng)絡(luò)能夠更好地提取數(shù)據(jù)的局部特征且速度較快,因此本文采用卷積神經(jīng)網(wǎng)絡(luò)提取幽默語(yǔ)句中頭韻、尾韻等語(yǔ)音特征。

    2)變換層。本文的目標(biāo)是發(fā)現(xiàn)單詞間的頭韻、尾韻等語(yǔ)音特征,因此采用變換層對(duì)輸入張量進(jìn)行變換,使得卷積神經(jīng)網(wǎng)絡(luò)的滑動(dòng)窗口能夠提取多個(gè)單詞對(duì)應(yīng)位置上的語(yǔ)音信息。

    3)卷積層。卷積層利用一個(gè)窗口大小為h的卷積核提取局部的語(yǔ)音特征,其計(jì)算公式如下:

    ci=f(wpi:i+h-1+b)

    (1)

    其中,ci為輸出的特征向量,f為非線性激活函數(shù)ReLU,w為參數(shù),pi:i+h-1代表p中的第i列到第i+h-1列,b為偏置項(xiàng)。在實(shí)驗(yàn)中使用二維卷積神經(jīng)網(wǎng)絡(luò)及多個(gè)卷積核。

    4)池化層。該層主要用于文本語(yǔ)音特征的降維,壓縮參數(shù)數(shù)量,緩解過(guò)擬合現(xiàn)象,提高模型的容錯(cuò)能力。常用的池化操作有平均池化和最大池化兩種策略,本文采用最大池化策略獲取固定長(zhǎng)度的語(yǔ)音特征向量:

    (2)

    對(duì)池化后的特征向量進(jìn)行拼接后,得到語(yǔ)句的語(yǔ)音特征表示為:

    (3)

    2.2 基于字形的幽默特征提取

    幽默是一種文體,通常有其獨(dú)特的表達(dá)方式,在很多情況下,正是字形的特征產(chǎn)生了幽默效果[21]。文獻(xiàn)[22]指出反復(fù)出現(xiàn)的文本元素序列使得文本表現(xiàn)出相對(duì)穩(wěn)定的特征。幽默語(yǔ)句常采用重復(fù)的字符或重復(fù)的標(biāo)點(diǎn)符號(hào)等方法表達(dá)出幽默的效果。

    例2I used to be a coyote,but I’m alright noooooooooooow!!!

    例2是一個(gè)幽默的語(yǔ)句,該句采用字符重復(fù)的方式表現(xiàn)出幽默的效果。語(yǔ)句中的單詞“now”是一個(gè)不規(guī)范的拼寫形式,字符“o”被重復(fù)了多次,同時(shí)為了表達(dá)強(qiáng)調(diào)的效果,“!”也被重復(fù)了多次。這種刻意的字符重復(fù)是幽默語(yǔ)句的重要特征。

    對(duì)于例2中“now”的不規(guī)范拼寫形式,常規(guī)的詞向量表示會(huì)將其作為未登錄詞處理,模型無(wú)法關(guān)注到該類單詞對(duì)幽默識(shí)別性能的影響。為使模型能夠捕獲幽默語(yǔ)句的字形特征,本文對(duì)幽默語(yǔ)句的字符進(jìn)行建模,將句子表示成字符的序列,句子的字符序列的向量表示作為模型輸入。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠更好地處理序列信息,因此本文采用RNN提取語(yǔ)句中的重復(fù)字符、符號(hào)等字形特征。

    在字形特征提取層中,為緩解RNN的梯度爆炸、梯度消失及長(zhǎng)期依賴等問(wèn)題,研究人員提出LSTM網(wǎng)絡(luò)和門控循環(huán)單元(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)。GRU相比LSTM參數(shù)更少,訓(xùn)練速度更快,而兩者性能相當(dāng)?;谝陨咸匦?本文采用GRU提取字形特征。GRU利用重置門和更新門控制序列的狀態(tài)更新。在t時(shí)刻GRU的狀態(tài)可以形式化表示為:

    zt=σ(Wzxt+Uzht-1+bz)

    (4)

    rt=σ(Wrxt+Urht-1+br)

    (5)

    (6)

    (7)

    GRU能夠提取每個(gè)時(shí)間步長(zhǎng)t之前的信息,但是忽略了t之后的文本信息。Bi-GRU包含兩個(gè)相互獨(dú)立的隱藏狀態(tài),可以同時(shí)從前向和后向提取文本信息,然后對(duì)兩部分信息進(jìn)行整合,從而更好地利用文本的上下文信息。本文采用Bi-GRU提取文本的字形特征,其形式化表示如下:

    (8)

    (9)

    (10)

    在字符特征注意力層中,為能夠?qū)y帶顯著語(yǔ)義信息的字符給予更多的關(guān)注,在提取字形特征時(shí),引入注意力機(jī)制,其形式化表示如下:

    wij=tanh(WT[hj·Hc]+b)

    (11)

    (12)

    (13)

    其中,W為權(quán)重矩陣,b為偏置項(xiàng),tanh為激活函數(shù),aij為注意力權(quán)重,所有參數(shù)采用隨機(jī)初始化并在訓(xùn)練中動(dòng)態(tài)更新,qc為字符特征注意力層的輸出向量。

    2.3 基于語(yǔ)義的幽默特征提取

    句子本身的語(yǔ)義特征將為幽默識(shí)別提供直接的線索。文獻(xiàn)[23]指出語(yǔ)義的歧義性會(huì)引發(fā)幽默,歧義性是幽默產(chǎn)生的重要因素。幽默語(yǔ)句中的歧義性是指句子中的某些單詞包含多個(gè)語(yǔ)義,使得句子存在多種不同的理解方式[24]。

    例3Did you hear about the guy whose whole left side was cut off? He’s all right now.

    例3是一個(gè)典型的由于歧義性引起幽默的語(yǔ)句。單詞“right”包含多個(gè)語(yǔ)義,它既可以被理解為“右側(cè)”,又可以被理解為“恢復(fù)”。由于單詞的多個(gè)語(yǔ)義造成了句子理解的偏差,因此使該語(yǔ)句顯得十分有趣。句子中單詞包含的同義詞的個(gè)數(shù)與語(yǔ)句是否幽默具有一定的相關(guān)性。

    基于特征工程的機(jī)器學(xué)習(xí)方法將單詞包含的同義詞的個(gè)數(shù)作為特征來(lái)識(shí)別幽默[4]。為使神經(jīng)網(wǎng)絡(luò)模型能夠?qū)W習(xí)到包含不同同義詞數(shù)量的單詞,本文根據(jù)同義詞的個(gè)數(shù)對(duì)單詞進(jìn)行分類,將類別信息進(jìn)行向量表示并和單詞的向量表示進(jìn)行融合,最后采用Bi-GRU和注意力機(jī)制提取攜帶歧義性信息的潛在語(yǔ)義特征。

    在語(yǔ)義特征提取層中,Bi-GRU能夠有效處理文本序列數(shù)據(jù)并能夠更好地提取上下文信息。因此,本文采用Bi-GRU提取文本的語(yǔ)義特征,攜帶歧義性等級(jí)信息的語(yǔ)義特征可表示為Hu=Bi-GRU(x′i,ht-1)。

    在語(yǔ)義特征注意力層中,為使模型能夠關(guān)注攜帶顯著語(yǔ)義信息的單詞,在提取語(yǔ)義特征時(shí),引入注意力機(jī)制,其中qu為語(yǔ)義特征注意力層的輸出向量。

    2.4 層次注意力機(jī)制

    由于不同幽默語(yǔ)言學(xué)特征和幽默語(yǔ)句的關(guān)聯(lián)程度不同,因此本文采用層次注意力機(jī)制調(diào)整不同語(yǔ)言學(xué)特征對(duì)于幽默識(shí)別性能的影響,其形式化表示如下:

    wj=tanh(WTVj+b)

    (14)

    (15)

    (16)

    其中,W為權(quán)重矩陣,b為偏置項(xiàng),Hp為語(yǔ)音特征表示,qc為字形特征表示,qu為語(yǔ)義特征表示,Vj為不同句子的表示,βj為注意力權(quán)重,所有參數(shù)采用隨機(jī)初始化并在訓(xùn)練中動(dòng)態(tài)更新,q為句子的最終特征表示。

    2.5 幽默分類

    本文提取文本的語(yǔ)音、字形和語(yǔ)義特征,采用softmax函數(shù)進(jìn)行幽默識(shí)別,其形式化表示如下:

    v=tanh(Wpq+bp)

    (17)

    (18)

    本文模型基于反向傳播算法與端到端的方式進(jìn)行訓(xùn)練,并采用期望交叉熵作為損失函數(shù)。

    (19)

    其中,y為真實(shí)標(biāo)簽,i、j分別為句子的編號(hào)和類別編號(hào),λ為正則化參數(shù),θ為超參數(shù)。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

    Puns數(shù)據(jù)集[4]中的幽默語(yǔ)句來(lái)自同名網(wǎng)站,非幽默文本來(lái)自美聯(lián)社新聞、紐約時(shí)報(bào)、雅虎新聞和諺語(yǔ)。Puns數(shù)據(jù)集包含幽默語(yǔ)句2 423條,非幽默語(yǔ)句2 403條,句子平均長(zhǎng)度為13.5。Oliner數(shù)據(jù)集[5]中的幽默語(yǔ)句來(lái)自多個(gè)著名的幽默網(wǎng)站,非幽默語(yǔ)句來(lái)自路透社新聞標(biāo)題。Oliner包含幽默、非幽默語(yǔ)句各16 000條,句子平均長(zhǎng)度為12.6。為便于和基線方法進(jìn)行比較,本文采用精確率、準(zhǔn)確率、查全率和F1值作為評(píng)價(jià)指標(biāo)。

    3.2 實(shí)驗(yàn)設(shè)置

    在訓(xùn)練過(guò)程中,詞向量采用GloVe進(jìn)行初始化,維度為300。語(yǔ)音向量采用高斯分布U(-0.1,0.1)進(jìn)行隨機(jī)初始化,維度為100。字符向量采用隨機(jī)初始化,維度為100。單詞被劃分為4個(gè)歧義性類別,歧義性等級(jí)采用隨機(jī)初始化,維度為10。卷積神經(jīng)網(wǎng)絡(luò)采用2D卷積和池化層,卷積核數(shù)量為128,卷積核大小為2、3、4。Bi-GRU的神經(jīng)元個(gè)數(shù)為150,優(yōu)化方法為Adadelta[26]。Batch大小為64,dropout為0.5。同時(shí),在訓(xùn)練過(guò)程中使用學(xué)習(xí)率衰減和早停機(jī)制防止過(guò)度擬合,并使用五倍交叉驗(yàn)證法減少數(shù)據(jù)集劃分的影響。

    3.3 對(duì)比方法

    實(shí)驗(yàn)對(duì)比方法具體如下:

    1)支持向量機(jī)(Support Vector Machine,SVM)。該方法[4]使用人工構(gòu)造的語(yǔ)音特征、歧義特征、不一致特征和情感特征,采用支持向量機(jī)模型。

    2)HCFW2V。該方法[4]同時(shí)使用上述4類特征和詞向量作為幽默特征,采用隨機(jī)森林模型。

    3)ST。該方法[10]同時(shí)使用上述4類特征以及人工構(gòu)造的情感沖突和情感轉(zhuǎn)換特征,采用隨機(jī)森林模型。

    4)Syn。該模型[11]同時(shí)使用上述4類特征以及人工構(gòu)造的句法結(jié)構(gòu)特征,采用隨機(jī)森林模型。

    5)CNN。該模型[7]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行幽默識(shí)別。

    6)Bi-GRU。該模型采用Bi-GRU提取幽默文本的潛在語(yǔ)義特征并進(jìn)行幽默識(shí)別。

    7)Bi-GRU+Att。該模型采用Bi-GRU和注意力機(jī)制提取語(yǔ)義特征并進(jìn)行幽默識(shí)別。

    8)CNN+HN。該模型[27]采用CNN和Highway網(wǎng)絡(luò)架構(gòu)。

    9)PFSHAN。本文提出的一種基于語(yǔ)音、字形和語(yǔ)義的層次注意力神經(jīng)網(wǎng)絡(luò)模型。

    表1和表2列出了不同幽默識(shí)別方法與模型的性能對(duì)比,其中最佳結(jié)果加粗顯示,實(shí)驗(yàn)結(jié)果表明:

    表1 Puns數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results on Puns dataset %

    表2 Oliner數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results on Oliner datasets %

    1)基于特征工程的機(jī)器學(xué)習(xí)方法的性能低于基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。對(duì)于相同的人工特征集合,基于特征工程的機(jī)器學(xué)習(xí)方法在兩個(gè)數(shù)據(jù)集上性能有所差別。HCFW2V在Puns數(shù)據(jù)集上性能較好,而SVM在Oliner數(shù)據(jù)集上性能較好。這也說(shuō)明了基于特征工程的機(jī)器學(xué)習(xí)方法依賴于人工特征的構(gòu)造,其泛化能力較差。此外,引入句法信息后,幽默識(shí)別的性能有了一定幅度的提升。

    2)基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法能夠自動(dòng)學(xué)習(xí)幽默語(yǔ)句的潛在語(yǔ)義特征,在兩個(gè)數(shù)據(jù)集上均表現(xiàn)出較好的性能。Bi-GRU能夠更好地利用上下文信息與長(zhǎng)距離的依賴關(guān)系,其性能優(yōu)于CNN。引入Highway后,CNN的性能有了較大幅度的提升。

    3)PFSHAN模型在兩個(gè)數(shù)據(jù)集上均取得了最佳的性能。PFSHAN模型能夠提取語(yǔ)句的語(yǔ)音、字形和語(yǔ)義信息,而且在提取語(yǔ)義特征時(shí),其能夠捕獲單詞的歧義性信息,從多個(gè)維度提取幽默特征。此外,PFSHAN模型采用層級(jí)注意力機(jī)制,不僅能夠調(diào)節(jié)不同輸入對(duì)提取特征的影響,而且能夠調(diào)節(jié)不同語(yǔ)言學(xué)特征對(duì)幽默識(shí)別的影響。

    3.4 歧義性等級(jí)信息對(duì)模型性能的影響

    為驗(yàn)證歧義性等級(jí)信息對(duì)幽默識(shí)別的影響,本文對(duì)比僅使用語(yǔ)義信息的Bi-GRU和加入歧義性等級(jí)信息的Bi-GRU的PFSHAN模型幽默識(shí)別性能。如圖2所示,加入了歧義性等級(jí)信息后,PFSHAN模型F1值均有所提高,在Puns數(shù)據(jù)集上F1值提高了0.8%,在Oliner數(shù)據(jù)集上提高了1.14%。實(shí)驗(yàn)結(jié)果表明,單詞的歧義性等級(jí)信息能夠有效提高PFSHAN模型的幽默識(shí)別性能。

    圖2 歧義性等級(jí)信息對(duì)幽默識(shí)別性能的影響Fig.2 Impact of ambiguous level information on performance of humor recognition

    3.5 語(yǔ)音、字形和語(yǔ)義特征對(duì)模型性能的影響

    本文對(duì)比語(yǔ)音、字形和語(yǔ)義特征對(duì)PFSHAN模型性能的影響,PFSHAN-pro、PFSHAN-font、PFSHAN-sem分別表示未使用語(yǔ)音、字形和語(yǔ)義信息的PFSHAN模型。如表3所示,當(dāng)PFSHAN模型未使用語(yǔ)義信息時(shí),模型性能受到的影響最大。這表明模型能夠從文本的潛在語(yǔ)義信息中學(xué)習(xí)到與幽默關(guān)聯(lián)較強(qiáng)的信息,如果僅從語(yǔ)音和字形特征對(duì)幽默進(jìn)行識(shí)別,則模型性能較差。當(dāng)PFSHAN模型未使用字形信息時(shí),對(duì)模型性能影響較小。這可能是因?yàn)樵跇?gòu)造數(shù)據(jù)時(shí)對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,其不規(guī)范的拼寫等字形特征較少。語(yǔ)音特征對(duì)模型有一定的影響,說(shuō)明文本中一部分幽默是由語(yǔ)音特征引起。當(dāng)同時(shí)引入音形義特征時(shí),PFSHAN模型取得了最佳的性能,這表明語(yǔ)音、字形和語(yǔ)義特征能夠更加有效地對(duì)幽默文本進(jìn)行表征,從而提高幽默識(shí)別性能。

    表3 語(yǔ)音、字形和語(yǔ)義特征對(duì)幽默識(shí)別性能的影響Table 3 Impact of pronunciation,font and semantics on performance of humor recognition %

    3.6 層次注意力機(jī)制對(duì)模型性能的影響

    本文對(duì)比了不同注意力機(jī)制對(duì)幽默識(shí)別性能的影響。PFSHAN-Hyp表示提取字形和語(yǔ)義特征后,采用注意力機(jī)制得到字形和語(yǔ)義信息的表示,然后直接和語(yǔ)音信息進(jìn)行拼接并識(shí)別幽默。PFSHAN-Lin-Hyp表示只使用Bi-GRU提取字形和語(yǔ)義特征,并使用CNN提取語(yǔ)音特征,然后拼接3類特征進(jìn)行幽默識(shí)別。

    如表4所示,采用層次注意力機(jī)制能夠有效提高幽默識(shí)別的性能,相比不使用注意力機(jī)制的模型,PFSHAN在兩個(gè)數(shù)據(jù)集上的F1值分別提高了1.19%和0.97%。實(shí)驗(yàn)結(jié)果表明,層次注意力機(jī)制不但能夠調(diào)整不同字符或單詞對(duì)于不同幽默特征的權(quán)重,而且能夠調(diào)節(jié)不同幽默語(yǔ)言學(xué)特征和幽默語(yǔ)句的關(guān)聯(lián)程度,從而提高幽默識(shí)別性能。

    表4 層次注意力機(jī)制對(duì)幽默識(shí)別性能的影響Table 4 Impact of hierarchical attention mechanism on performance of humor recognition %

    3.7 錯(cuò)誤樣例分析

    為更好地研究并提升PFSHAN模型在幽默識(shí)別任務(wù)中的性能,對(duì)其錯(cuò)誤樣例進(jìn)行分析。以下是兩個(gè)PFSHAN模型不能正確識(shí)別的樣例:

    例4The one who invented the door knocker got a no bell prize.

    例5A clean house is a sure sign of a broken computer.

    例4和例5均為幽默樣例,但是PFSHAN模型卻把它們視為非幽默的語(yǔ)句。在例4中,“no bell prize”的發(fā)音和“nobel prize”發(fā)音十分類似,所以引發(fā)了幽默的效果。顯然,該句的幽默效果是語(yǔ)音所致,但是“nobel prize”沒有出現(xiàn)在原文中,PFSHAN模型無(wú)法捕獲相關(guān)的語(yǔ)音特征。此外,背景知識(shí)也是判斷該語(yǔ)句是否是幽默的重要因素。在例5中,“clean house”和“broken computer”形成了語(yǔ)義上的對(duì)比,這種不協(xié)調(diào)、不一致使得句子產(chǎn)生了幽默的效果,因此如何捕獲文本語(yǔ)義的不一致性將是未來(lái)幽默識(shí)別中的重要研究方向。

    4 結(jié)束語(yǔ)

    本文提出基于語(yǔ)音、字形和語(yǔ)義的層次注意力神經(jīng)網(wǎng)絡(luò)模型(PFSHAN)進(jìn)行幽默識(shí)別。基于幽默文本的語(yǔ)言學(xué)特點(diǎn),采用CNN和Bi-GRU捕獲幽默語(yǔ)句的語(yǔ)音、字符和語(yǔ)義特征,同時(shí)利用層次注意力機(jī)制調(diào)節(jié)不同語(yǔ)言學(xué)特征對(duì)幽默識(shí)別的影響。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效獲取幽默語(yǔ)句的音形義特征,提高幽默識(shí)別性能。但由于PFSHAN模型僅適用于英文文本的幽默識(shí)別,而中英文表達(dá)在很多方面存在差異,因此下一步將構(gòu)建中文幽默數(shù)據(jù)集及模型進(jìn)行中文幽默文本識(shí)別。此外,如何利用自注意力機(jī)制與預(yù)訓(xùn)練模型捕獲文本語(yǔ)義的不一致特征也將是今后研究的重點(diǎn)。

    猜你喜歡
    歧義語(yǔ)句注意力
    讓注意力“飛”回來(lái)
    重點(diǎn):語(yǔ)句銜接
    eUCP條款歧義剖析
    精彩語(yǔ)句
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    English Jokes: Homonyms
    A Beautiful Way Of Looking At Things
    “那么大”的語(yǔ)義模糊與歧義分析
    如何搞定語(yǔ)句銜接題
    尋求歧義研究的解釋力度:從認(rèn)知視角到社會(huì)視角——兼評(píng)《現(xiàn)代漢語(yǔ)歧義識(shí)別與消解的認(rèn)知研究》
    碌曲县| 临泉县| 九江县| 宝应县| 平谷区| 兰坪| 崇信县| 瑞金市| 嘉黎县| 广水市| 义马市| 宁夏| 化州市| 平湖市| 溧水县| 那曲县| 肥东县| 两当县| 兴文县| 六枝特区| 永宁县| 中江县| 尖扎县| 阳山县| 大化| 广西| 当涂县| 闽清县| 石景山区| 修文县| 宜良县| 泰州市| 前郭尔| 宜州市| 通河县| 高陵县| 怀远县| 封丘县| 名山县| 祁连县| 贡觉县|