• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合排序?qū)W習(xí)的趣味成語生成模型

      2019-03-13 05:14:34徐琳宏林鴻飛
      關(guān)鍵詞:排序成語趣味

      徐琳宏,林鴻飛,楊 亮,徐 博

      1(大連外國語大學(xué) 軟件學(xué)院,遼寧 大連 116044) 2(大連理工大學(xué) 計(jì)算機(jī)系,遼寧 大連 116024)

      1 引 言

      成語作為中華民族悠久歷史文化的一部分,一般來自于歷史典故,是古代人智慧的結(jié)晶.成語大多具有豐富的歷史底蘊(yùn),包含了漢語言文化的精華.在使用過程中,成語有較強(qiáng)的修辭效果,一個(gè)成語可以抵上多個(gè)形容詞,形象生動(dòng),內(nèi)涵深刻,簡(jiǎn)短精辟.成語的定義有多種,《現(xiàn)代漢語》中定義為:“一種相沿習(xí)用具有書面語色彩的固定短語”[1].《新華成語詞典》中定義為:“相沿習(xí)用的固定詞組或短語,能獨(dú)立表意,形式短小,一般為四字格式”[2].無論哪種定義,都可以看出成語是人們長期以來習(xí)用的、簡(jiǎn)潔精辟的定型詞組或短句,有固定的結(jié)構(gòu)形式和固定的用法.

      趣味成語就是將原有成語本身經(jīng)單字和多字替換后的成語應(yīng)用于一個(gè)新的場(chǎng)景,產(chǎn)生幽默的效果.因其具有趣味性,常常引人發(fā)笑和深思,被廣泛接受.有時(shí),僅僅一字的差異能出現(xiàn)多種理解和含義,也是漢語言博大精深所在.如,“默默無聞”中的“聞”經(jīng)替換后變?yōu)椤澳瑹o蚊”,指沒有蚊子的嗡嗡聲,周圍很安靜,體現(xiàn)了一定幽默風(fēng)趣的色彩.這種諧音的趣味成語可以用于廣告、諷刺或幽默,能生動(dòng)地表現(xiàn)產(chǎn)品的特色,有效地影響消費(fèi)者.

      2 相關(guān)工作

      本文研究目標(biāo)是以現(xiàn)代成語為基礎(chǔ),自動(dòng)生成趣味成語,使其在某一固定場(chǎng)景中產(chǎn)生幽默的效果,而趣味成語大多是通過諧音替換得到,很多成語具有諧音雙關(guān)的含義.因此,下面分別從幽默生成、雙關(guān)語和成語三個(gè)方面介紹相關(guān)的研究工作.

      近些年國內(nèi)外有很多幽默生成方面的研究,2012年,Igor Labutov等人基于SSTH理論做幽默語句生成的研究,采用人工打分的方式評(píng)測(cè)生成語句的效果[3].2013年,Alessandro Valitutti等人通過詞語替換,生成幽默文本,采用人工評(píng)估的方式評(píng)估幽默等級(jí)[4].國內(nèi)研究者也在幽默研究方面進(jìn)行了一定的探討.2015年張冬瑜等人構(gòu)建了情感隱喻語料庫,這為幽默的識(shí)別提供了可以借鑒的方法[5].2016年林鴻飛等人回顧了幽默研究的發(fā)展歷史,詳細(xì)闡述了幽默計(jì)算中的多種基本理論和應(yīng)用,對(duì)于諧音幽默的處理也給出了相應(yīng)的討論[6].

      雙關(guān)語作為幽默的一個(gè)重要分支,近些年也有很多的相關(guān)研究工作.2011年,Valitutti等又提出一種計(jì)算幽默程度的方法,評(píng)估生成的諧音雙關(guān)語.首先利用音素距離、音節(jié)距離、單詞距離和熟悉用語等多個(gè)特征生成諧音雙關(guān)語,最后采用人工評(píng)估的方法檢驗(yàn)生成系統(tǒng)的效果[7].2012年,Pawel Dybala等人生成日文的雙關(guān)語,通過高頻詞匯統(tǒng)計(jì)的方式過濾候選詞匯,降低雙關(guān)語生成系統(tǒng)的時(shí)間代價(jià).Valitutti等人也在2013年通過對(duì)普通文本的替換產(chǎn)生諧音幽默的句子,替換過程中主要考慮單詞的聲音相似性、拼寫和可替換性三個(gè)特征,使幽默生成變?yōu)樵~語選擇問題,最后通過人工打分的方式評(píng)估諧音文本的幽默性[3].

      成語是中華傳統(tǒng)文化的璀璨明珠,語言學(xué)方面關(guān)于成語典故、結(jié)構(gòu)和釋義有許多研究工作.曾小兵等提出成語的穩(wěn)定度高于習(xí)語,將成語定為語言中的高穩(wěn)態(tài)的部分[8].徐耀民等認(rèn)為成語的整體意義同字面意義往往不一致,使人產(chǎn)生聯(lián)想,因而運(yùn)用起來容易收到生動(dòng)、形象、耐人尋味和言簡(jiǎn)意賅的效果[9].倪寶元指出由于表達(dá)需要而臨時(shí)產(chǎn)生的成語語素變換的形式成為套式.語言的演變依據(jù)“從俗、從簡(jiǎn)和義明”等規(guī)范[10].成語大多是約定俗成的四字結(jié)構(gòu),在漢語書面或者日常會(huì)話中經(jīng)常出現(xiàn),特別是在文學(xué)作品中尤為頻繁,而在新聞?lì)I(lǐng)域中成語的使用頻率相對(duì)較低[11].以上是語言學(xué)方面對(duì)成語的部分研究.因?yàn)槌烧Z具有字?jǐn)?shù)少,含義豐富的特點(diǎn),機(jī)器理解困難較大,所以自然語言處理中關(guān)于成語方面的研究工作較少.冉婕等將成語的典故信息以本體的方式存儲(chǔ),分別從類、子類、屬性、個(gè)體及關(guān)系幾個(gè)方面進(jìn)行了詳細(xì)分析,為成語典故相關(guān)知識(shí)的查詢奠定基礎(chǔ)[12].楊雪松等提出了一種基于成語典故本體的信息檢索模型,以問題模式和答案模式為基礎(chǔ),提高成語的語義檢索效率[13].以上是國內(nèi)外幽默生成、雙關(guān)語和成語方面的研究進(jìn)展,從成語的字形及語義角度出發(fā),生成幽默成語的研究目前還很少見.

      本文在大家使用頻率較高的成語基礎(chǔ)上,生成諧音趣味成語,主要的貢獻(xiàn)如下:1.根據(jù)一定的語音替換策略,生成候選成語集合,并提取成語中包含的字形和幽默等特征;2.將成語的生成問題轉(zhuǎn)化為查詢檢索問題,基于排序?qū)W習(xí)算法生成趣味成語;3.在多個(gè)維度中采用人工評(píng)估和機(jī)器評(píng)估相結(jié)合的方式,評(píng)測(cè)趣味成語的質(zhì)量.

      3 趣味成語特征集

      趣味成語的生成首先是利用豐富的成語資源,在一定的語音替換策略基礎(chǔ)上,抽取諧音成語集合.然后提取成語集合中每條成語的特征集,融合到排序?qū)W習(xí)的算法中,生成幽默性較強(qiáng)的趣味成語.最終建立一個(gè)多場(chǎng)景自適應(yīng)的趣味成語生成模型,該模型的基本流程如圖1所示.

      輸入層包含查詢的關(guān)鍵字和場(chǎng)景詞兩部分,其中查詢關(guān)鍵字是生成的趣味成語中包含的漢字,場(chǎng)景詞是指趣味成語的應(yīng)用場(chǎng)景.成語的幽默程度大多與應(yīng)用的場(chǎng)景密切相關(guān),如趣味成語“終身無汗”,查詢的關(guān)鍵字為“汗”,生成的成語本身幽默性不強(qiáng),但如果和場(chǎng)景詞“空調(diào)”關(guān)聯(lián)時(shí),很容易理解,“無汗”是強(qiáng)調(diào)空調(diào)的制冷效果,“終身”夸張了空調(diào)的功能,兩者結(jié)合呈現(xiàn)出一定的幽默色彩.可見,幽默特性通過與固定的場(chǎng)景詞關(guān)聯(lián)體現(xiàn)出來.因此本模型的輸入為查詢關(guān)鍵字和場(chǎng)景詞兩部分.以語音替換策略為基礎(chǔ),根據(jù)輸入的查詢關(guān)鍵字在現(xiàn)代成語語料庫中生成候選成語集合.然后提取每條候選成語的特征集,利用排序?qū)W習(xí)算法,為候選成語集排序,輸出排名靠前的趣味成語以及它與場(chǎng)景詞關(guān)聯(lián)的幽默程度.生成和檢索算法的流程如下:

      input={key,Q}//key為查詢關(guān)鍵字,Q為場(chǎng)景詞idioms=語音匹配(key)//idioms為候選成語集合

      for idiom in idioms:

      FVector=提取特征_11(idiom)

      FMatrix=FMatrix.add(FVector)

      indices=LambdaMart(FMatrix)

      根據(jù)上述的流程可知,模型的輸入為查詢關(guān)鍵字key,輸出是若干成語,關(guān)鍵問題是如何將生成的成語按其與場(chǎng)景詞Q的相關(guān)度和幽默程度排序.這與信息檢索的問題很相似,其中查詢關(guān)鍵字相當(dāng)于檢索中用戶輸入的查詢條件,場(chǎng)景詞為查詢的擴(kuò)展部分,每個(gè)候選成語可以看作一個(gè)查詢返回的文檔,提取成語中的語義和幽默特征矩陣FMatrix,融入到排序?qū)W習(xí)的算法中,訓(xùn)練排序模型,返回候選成語集合中成語幽默程度的排序indices.這樣可以把一個(gè)幽默成語的生成問題轉(zhuǎn)化為信息檢索問題,進(jìn)而利用檢索的相關(guān)技術(shù)生成和評(píng)估幽默成語.信息檢索的核心問題是排序,趣味成語的核心問題也是如何將候選成語按其幽默程度排序.因此,本文在提取成語特征時(shí),既考慮候選成語與查詢的相關(guān)性,也考慮成語本身的重要程度和幽默特性.

      圖1 趣味成語生成模型Fig.1 Model of interesting idioms generation

      為了全方位、多層次的體現(xiàn)成語的查詢相關(guān)度和幽默程度,本文在候選成語集合中提取語音、幽默、語義、情感和形態(tài)五個(gè)維度的特性,共11個(gè)特征.將上述特征融入到排序?qū)W習(xí)算法中,輸出每個(gè)候選成語的重要性.因此,圖1中的成語生成型可以進(jìn)一步細(xì)化為特征集提取和檢索模型兩部分,其中提取的特征集如圖2所示.

      首先,為候選成語集中的每條成語計(jì)算五個(gè)維度的特征集合,將生成的特征矩陣作為排序算法的輸入,經(jīng)排序算法訓(xùn)練和學(xué)習(xí)后,使趣味性較強(qiáng)的成語盡量排名靠前,最后利用信息檢索領(lǐng)域常見的平均準(zhǔn)確率(MAP)和前N個(gè)結(jié)果的準(zhǔn)確率(P@N)等指標(biāo)評(píng)估算法的有效性.由圖2可知,選取特征的質(zhì)量直接影響排序算法的輸出結(jié)果,它們是成語選擇的重要原始數(shù)據(jù),下面將詳細(xì)介紹該模型的五個(gè)維度的特征.

      3.1 語音替換策略

      利用給定的查詢字在成語集合中查找發(fā)音相同和相似的成語,可以生成候選的成語集合.語音替換策略是指在進(jìn)行上述語音替換時(shí)的原則,替換策略寬松,損失生成成語的語音特性,且生成的候選成語數(shù)量龐大,會(huì)增加趣味成語的挑選難度.反之,替換策略過于嚴(yán)格,生成的成語數(shù)量較少,很多幽默性強(qiáng)的趣味成語不能進(jìn)入候選成語集.為保證候選成語集合的數(shù)量適中,本文選擇的替換策略是“嚴(yán)格匹配聲母和韻母,寬松匹配聲調(diào)”的原則.即替換字與查詢字的聲母和韻母必須完全相同,而聲調(diào)可以不同.其中聲母23個(gè),韻母35個(gè).需要注意的是這里的韻母是嚴(yán)格區(qū)分單韻母、雙韻母、三韻母和組合韻母.例如,韻母“àn”和組合韻母“iàn”屬于發(fā)音不同.

      圖2 成語特征集Fig.2 Features of idioms

      語音距離:查詢字與被替換字發(fā)音相同還是相似.因?yàn)檎Z音替換策略中放寬了聲調(diào)的匹配,發(fā)音完全相同比發(fā)音相似語音距離小,讀起來更流暢,語感更強(qiáng).語感是一種綜合的語言直覺能力.它包括對(duì)語音、語法、語義和語用等許多方面的敏感的直覺能力.雖然,人與人之間的語感有差別,但每種語言都存在共同的語感稱為“共同語感”[14].語音距離近,語感強(qiáng),則該成語更可能語義通順,趣味性強(qiáng).

      3.2 語義特征

      成語作為一個(gè)語義單元,不像語句和篇章可以包含更多的詞匯和漢字,體現(xiàn)更大的信息量.而成語大多只包含四個(gè)漢字,卻能夠體現(xiàn)較為豐富和生動(dòng)的語義.為了讓機(jī)器能更全面的了解成語的豐富含義,需要在四個(gè)漢字的字面含義基礎(chǔ)上,多層次多角度的擴(kuò)展語義.本文從兩個(gè)方向擴(kuò)展關(guān)聯(lián)的語義:一個(gè)是向外擴(kuò)展,通過大規(guī)模語料完成,另一個(gè)是向內(nèi)擴(kuò)展,將成語中四個(gè)漢字拆分計(jì)算.因此我們的語義特征包含查詢擴(kuò)展字和成語內(nèi)聚度兩個(gè)方面.

      3.2.1 查詢擴(kuò)展字

      該特征首先通過大規(guī)模語料擴(kuò)展查詢場(chǎng)景詞,將擴(kuò)展后的關(guān)鍵字與成語匹配.匹配度越高,說明候選成語與查詢的關(guān)聯(lián)越大,語義上也就越相關(guān).本文選擇2G的微博語料做查詢擴(kuò)展,因?yàn)槲⒉┱Z料相對(duì)于新聞等語料更生活化、也更貼近人們?nèi)粘5谋磉_(dá)方式.一個(gè)用戶發(fā)表的一段微博一般較短,可以將其看作一個(gè)文檔,計(jì)算查詢擴(kuò)展詞出現(xiàn)的文檔編號(hào),則該文檔中的所有詞匯都可以作為查詢?cè)~的共現(xiàn)詞匯,選擇排名靠前的共現(xiàn)詞匯作為該查詢的擴(kuò)展詞.計(jì)算的公式如式(1):

      (1)

      其中,qk代表第k個(gè)查詢的場(chǎng)景詞,Corrence函數(shù)表示第i個(gè)文檔中場(chǎng)景詞qk與詞匯wj的共現(xiàn)次數(shù).因此,Cj代表語料中第j個(gè)詞匯與場(chǎng)景詞qk共現(xiàn)的頻率.當(dāng)前場(chǎng)景詞qk與所有單詞的共現(xiàn)矩陣為(C1,C2,…,Cm-1,Cm),選擇其中共現(xiàn)頻率較高的詞匯作為場(chǎng)景詞qk的查詢擴(kuò)展詞,最后在qk的候選成語中匹配是否存在查詢擴(kuò)展詞,將其作為查詢擴(kuò)展詞的特征值.

      3.2.2 成語內(nèi)聚度

      成語內(nèi)聚度是指成語中每個(gè)漢字之間結(jié)合的緊密程度.結(jié)合越緊密,內(nèi)聚度越高,說明該成語中每個(gè)漢字經(jīng)常搭配使用,表達(dá)含義更容易被人們理解.四字格成語一般為二二結(jié)構(gòu)[15],如“千山萬水”、“畫蛇添足”等,因此本文計(jì)算的成語內(nèi)聚程度并不是將成語中每?jī)蓚€(gè)漢字組合計(jì)算,而是分為前后兩部分,即先計(jì)算前兩個(gè)字的內(nèi)聚度,再計(jì)算后兩個(gè),最后將兩者加和,內(nèi)聚度是通過漢字的Ngram值表示.見公式(2).

      (2)

      其中,Coh(idiomi)為第i個(gè)成語的內(nèi)聚度,由前后兩部分相加得到.ngram函數(shù)計(jì)算相鄰兩個(gè)漢字的ngram值,本文集成KenLM Toolkit[22]工具包,在1G的中文維基百科語料中按字訓(xùn)練Ngram語言模型.

      3.3 幽默特征

      幽默具有 “戲謔”的特征,因此“有趣,可笑”可以作為判斷幽默的廣義標(biāo)準(zhǔn)[6].趣味成語中“趣”就是指具有幽默的含義,而幽默的表現(xiàn)形式多種多樣.本文的幽默特性包含夸張?zhí)匦?、成語流通度和極性差值三個(gè)方面.

      3.3.1 夸張?zhí)匦?/p>

      幽默有時(shí)與一定的修辭手法關(guān)聯(lián),例如,國內(nèi)外很多學(xué)者認(rèn)為夸張常常有幽默的效果[16],作為情緒的宣泄方式,夸張、反語都能達(dá)到幽默的作用[17].夸張是作者把描述事物的本質(zhì)特征極力地夸大或縮小,從而使話語產(chǎn)生幽默效果.而夸張的表現(xiàn)手法是多種多樣的,歸納起來就是利用多種語言資源,增強(qiáng)或降低事物的某些方面.包含語勢(shì)和語焦兩個(gè)方向.語勢(shì) 可以擴(kuò)大或縮小,語焦可以銳化或柔化[18].語勢(shì)最經(jīng)常使用的是數(shù)量上的夸張,如經(jīng)典夸張表達(dá)“白發(fā)三千丈”[19].根據(jù)以上語言學(xué)中關(guān)于夸張的理論,我們提取成語中的數(shù)詞及表示數(shù)量規(guī)模的量詞等表示夸張?zhí)匦?

      3.3.2 成語流通度

      “流通度” 是一種語言事實(shí)在社會(huì)交際中的流行通用的程度.詞匯流行通用程度高,表明人們的熟悉程度高,也就是更多的人能夠理解詞匯的含義.幽默言語是說話者在某一特定情景下說出來的,聽者利用自己的語言知識(shí)和常識(shí)去理解,在這種人的交際與認(rèn)知中獲取.如果一個(gè)成語的流通度較低,含義比較晦澀難懂,就很難在理解語義的基礎(chǔ)上產(chǎn)生幽默.為了客觀公正的在大規(guī)模語料中獲取成語的流通度,我們利用百度搜索引擎,將原始成語作為查詢關(guān)鍵字,獲取該成語返回的相關(guān)結(jié)果個(gè)數(shù),然后對(duì)生成流通度向量做歸一化處理,得到成語對(duì)應(yīng)的流通度數(shù)值.流通度數(shù)值越高,說明該成語在生活中越常見,其含義也被大多數(shù)人熟知,進(jìn)而其幽默的含義也更容易被理解.反之,如果一個(gè)成語流通度較低,則說明大部分人對(duì)它表達(dá)的含義或者成語的典故出處不太了解,這樣的成語生成候選成語后,即使其中包含一定的幽默含義,也很難被人解析和認(rèn)知.

      3.3.3 極性差值

      極性差值是指計(jì)算查詢字與被替換字之間的極性差值.因?yàn)橛哪哉Z大多來自于交際過程中最大關(guān)聯(lián)與最佳關(guān)聯(lián)之間意義的反差[20],語義信息有限的成語中,情感極性的差值從一個(gè)側(cè)面體現(xiàn)了這種反差,造成一種意料之外的效果.本文計(jì)算極性差值的方法是:首先,在大連理工大學(xué)的情感詞匯本體[21]基礎(chǔ)上,根據(jù)每個(gè)字出現(xiàn)在褒貶義詞匯中的次數(shù)計(jì)算單個(gè)漢字的褒貶義;然后根據(jù)漢字的褒貶義,計(jì)算替換前后成語的褒貶義變化,計(jì)算公式如式(3):

      polarDiff(idiomi)=polar(zori)-polar(znew)

      (3)

      其中,zori表示成語中的原始字,znew表示替換zori的查詢字.polarDiff(idiomi)代表替換前后成語中漢字的極性變化,它的絕對(duì)值越高說明替換前后情感的反差越大,則越可能含有幽默色彩.

      3.4 情感特征

      成語和習(xí)語中通常包含豐富的情感信息,對(duì)情感識(shí)別作用較大[22].從情感的角度出發(fā),趣味成語分為兩種類型,大部分是褒義成語轉(zhuǎn)化而來,少部分成語原始是貶義成語,但替換后不再具有貶義色彩.本文的情感特征包含成語褒貶性和單字褒貶性,分別針對(duì)兩種類型的趣味成語.成語褒貶性主要處理大部分趣味成語是褒義成語轉(zhuǎn)化而來的情況,而單字褒貶性主要處理少部分成語的去貶義化問題.

      3.4.1 成語褒貶性

      本文使用的成語來源于《成語大詞典》[23],詞典中具有情感極性的成語標(biāo)注為褒義、貶義.我們手工錄入詞典中的情感標(biāo)注,作為成語褒貶性的特征值.貶義值為1,中性值為2,褒義為3,需要說明的是詞典中明確標(biāo)注了具有褒義和貶義的詞語,未標(biāo)注褒貶極性的成語劃分到中性類別中.從情感極性的角度看,由褒義成語替換成的候選成語成為趣味成語的概率更大.

      3.4.2 單字褒貶性

      單字褒貶性是判斷候選成語中是否包含褒義字.包含褒義字的成語其貶義被去除的概率加大,即更可能為去貶義化的成語.這主要是針對(duì)一些貶義成語具有趣味性,它們通常是通過單字替換后,原來的貶義傾向性消失的現(xiàn)象.例如,“口蜜腹健”,原始成語中的“劍”字被“健”替換后,原始的貶義消失,帶有一定褒義色彩.

      3.5 形態(tài)特征

      漢字是象形文字發(fā)展而來,能通過字形表達(dá)豐富的語義,因此外在形態(tài)包含了語義表示的重要信息.本文選擇的形態(tài)特征包括成語通透性、單字常見度和場(chǎng)景重疊字.

      3.5.1 成語通透性

      成語的通透性是將組成成語的每個(gè)漢字的通透性疊加.1999年,曾捷英等提出漢字空間通透性的概念,它是衡量漢字筆畫之間離散程度的可量化指標(biāo),漢字空間的通透性和筆畫間的離散程度成正比[24].因此,可以將筆畫數(shù)作為衡量通透性的一個(gè)標(biāo)準(zhǔn).現(xiàn)代漢字學(xué)把筆畫看作是“構(gòu)成漢字字形的最小單位”[25].目前廣泛采用的筆畫是1965年文化部和中國文字改革委員會(huì)頒布了《印刷通用漢字字形表》.筆畫數(shù)的多少標(biāo)志著字的繁簡(jiǎn)[26].曹傳詠等[27]也肯定了漢字識(shí)別中的筆畫數(shù)效應(yīng).因此,本文中成語的通透性通過構(gòu)成成語的每個(gè)漢字筆畫數(shù)的加和來計(jì)算.通透性越好,說明成語被人們識(shí)別和理解的概率越大,也就更可能成為趣味成語.

      3.5.2 單字常見度

      漢字的常見度反映了漢字在人們生活中的使用頻率.越常見的漢字,其語義越易被大多數(shù)人理解,在充分理解語義的前提下,也就越容易理解其中的幽默等含義.本文的常用漢字是選擇國家語委漢字處1988年制定的《現(xiàn)代漢語常用字表》中的常用漢字.判斷成語的漢字是否為常用字,計(jì)算公式見公式(4).

      (4)

      其中,T(zj)表示漢字zj是否為常見字,是值為1,否則為0.T(idiomi)表示成語i中漢字的常見度,如果候選成語中除查詢字外每個(gè)漢字都為常見字,值為1,否則值為0.

      3.5.3 場(chǎng)景重疊字

      場(chǎng)景重疊字特征是判斷生成的候選成語中是否包含場(chǎng)景詞中漢字.每個(gè)查詢字都配有一個(gè)場(chǎng)景詞,因?yàn)槌烧Z的幽默程度大多與應(yīng)用的場(chǎng)景密切相關(guān),在具體場(chǎng)景下才能體現(xiàn)幽默.如果候選成語與場(chǎng)景詞高度相關(guān),則產(chǎn)生幽默的可能性會(huì)變大.例如,趣味成語“聞‘機(jī)’起舞”中的“舞”與場(chǎng)景詞“跳舞機(jī)”重疊,兩者的語義相近.反之,如果候選成語與指定的場(chǎng)景語義距離較遠(yuǎn),很難產(chǎn)生幽默的聯(lián)想,那么成為趣味成語的概率會(huì)變小.場(chǎng)景重疊字特征計(jì)算候選成語有多少個(gè)字與場(chǎng)景詞重疊,字?jǐn)?shù)越多,兩者語義越相近.

      4 趣味成語檢索模型

      依據(jù)語音替換模板和查詢字,生成了候選成語集,通常一個(gè)查詢字可以生成幾百甚至幾千個(gè)候選成語,這些成語中哪些與規(guī)定的場(chǎng)景詞更相關(guān),哪些更具有幽默特性是下一步需要解決的問題.即我們需要根據(jù)選擇的5大類特征,將生成的多個(gè)候選成語排名,使語義更相關(guān)、幽默性更高的成語排名靠前.這與信息檢索的問題非常相似,在信息檢索中用戶搜索一個(gè)查詢關(guān)鍵字,可能返回多個(gè)相關(guān)的文檔,提取特征后通過合適的排序?qū)W習(xí)算法,將相關(guān)度大的文檔排在前面.信息檢索的核心問題是排序,就是把用戶最需要的信息排在返回列表的最前面.而趣味成語的檢索模型也是要解決排序問題,將趣味性強(qiáng)的成語排在候選成語集的最前面.因此,本文采用信息檢索領(lǐng)域應(yīng)用廣泛的排序?qū)W習(xí)算法和相關(guān)評(píng)測(cè)方法,實(shí)現(xiàn)趣味成語的檢索模型.該檢索模型的主要結(jié)構(gòu)如圖3所示.

      圖3 趣味成語的檢索模型Fig.3 Model of interesting idioms retrieval

      首先,在已標(biāo)注的訓(xùn)練集中提取5個(gè)維度的11個(gè)特征值,使用排序?qū)W習(xí)算法訓(xùn)練,利用開發(fā)集調(diào)整參數(shù)后,得到效果較好的排序模型.然后利用排序模型分別排序已標(biāo)注的測(cè)試數(shù)據(jù)和未標(biāo)注的用戶需求兩個(gè)數(shù)據(jù)集.最后評(píng)估階段,已標(biāo)注的數(shù)據(jù)采用機(jī)器評(píng)估,未標(biāo)注的數(shù)據(jù)采用人工評(píng)估,以更全面、客觀地評(píng)價(jià)趣味成語的生成質(zhì)量.

      4.1 檢索模型

      排序?qū)W習(xí)的思想是將排序問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題,利用機(jī)器學(xué)習(xí)的相關(guān)方法,以排序特征為依據(jù)構(gòu)建合適的排序模型.它的主要目標(biāo)是利用排序函數(shù)計(jì)算文檔和查詢的相關(guān)度,然后根據(jù)相關(guān)度進(jìn)行排序.參照信息檢索的定義,本文的趣味成語檢索模型任務(wù)定義為:對(duì)于給定的候選成語集合C,其中每個(gè)候選成語表示為三元組形式,q為查詢,c為該成語的特征集合{f1,f2,…,fn},r為成語與查詢的相關(guān)程度.因此,構(gòu)造一個(gè)函數(shù)反映候選成語與查詢的相關(guān)度是排序?qū)W習(xí)的核心任務(wù).

      排序?qū)W習(xí)中列表級(jí)[28]方法因?yàn)椴辉賹⑴判騿栴}直接轉(zhuǎn)化為分類問題,而是對(duì)整個(gè)候選文檔列表進(jìn)行優(yōu)化,是目前研究的重點(diǎn).本文采用列表級(jí)方法中效果較好,使用范圍較廣的LambdaMart算法訓(xùn)練模型,以位置信息敏感的MAP為評(píng)價(jià)準(zhǔn)則,評(píng)估候選成語的排序效果.

      (5)

      其中,I表示某查詢下的所有候選對(duì)象.LambdaMart方法在眾多檢索任務(wù)中都獲得了較好的效果.

      4.2 評(píng)估方法

      信息檢索的評(píng)價(jià)指標(biāo)很多,如F值、E值、AP值、MAP、P@K、NDCG和MRR等.為了客觀公正地評(píng)估趣味成語的質(zhì)量,本文選擇通用的MAP和P@K作為評(píng)價(jià)指標(biāo).AP(Average Precision)值是計(jì)算單個(gè)查詢中每篇相關(guān)文檔的平均準(zhǔn)確率.而MAP(Mean average Precision)是計(jì)算集合中多個(gè)查詢的平均AP值,具體方法如式(6).

      (6)

      其中,Pi(r)指查全率為r時(shí)的平均查準(zhǔn)率,N為查詢的個(gè)數(shù).MAP是反映全部相關(guān)文檔性能的指標(biāo),相關(guān)文檔排名越高,MAP的值越高.

      5 實(shí)驗(yàn)結(jié)果

      生成的候選成語經(jīng)檢索模型排序后,生成趣味成語集合.采用機(jī)器評(píng)估和人工評(píng)估相結(jié)合的方法評(píng)估生成趣味成語的質(zhì)量.本節(jié)主要介紹使用的語料、實(shí)驗(yàn)方案及結(jié)果.

      5.1 實(shí)驗(yàn)數(shù)據(jù)集

      成語生成模型中需要成語語料庫,現(xiàn)代漢語中到底有多少條成語,很難有一個(gè)具體、明確的數(shù)字[30].因?yàn)檗o書常常設(shè)有主條、副條或主條、附見條,如果這種單位也被視為成語,則成語的總數(shù) 可能達(dá)到兩三萬條,如果將其排除在外,那么成語的總數(shù)可能為 10000 條左右[31].四字格是成語最典型的格式,數(shù)量也是最多的,體現(xiàn)了漢民族追求和諧、崇尚對(duì)偶的審美觀.據(jù)許肇本的統(tǒng)計(jì),在不下萬條的成語中,四字格約占 97%[32].因此,本文采用商務(wù)印書館的《現(xiàn)代成語大詞典》為基本的成語語料庫,選擇四字格成語10604個(gè),其中褒義成語1981個(gè),貶義成語1840,中性成語6783.趣味成語的已標(biāo)注數(shù)據(jù)集是從互聯(lián)網(wǎng)上收集,包含72個(gè)查詢,82個(gè)趣味成語,查詢涉及生活用品、電器、保健品和住房等多個(gè)領(lǐng)域.72個(gè)查詢中12個(gè)作為測(cè)試集,50個(gè)訓(xùn)練集,10個(gè)開發(fā)集.除了這些已標(biāo)注的數(shù)據(jù)集,我們還準(zhǔn)備了25個(gè)用戶查詢構(gòu)成未標(biāo)注的數(shù)據(jù)集,利用人工評(píng)估的方法檢測(cè)趣味成語的生成質(zhì)量.為了全面地評(píng)測(cè)該模型的質(zhì)量,上述25個(gè)用戶查詢來源于國家統(tǒng)計(jì)局2013年發(fā)布的《居民消費(fèi)支出分類》表,從衣、食、住、用和行5個(gè)大類中,每個(gè)類別分別隨機(jī)選擇5個(gè)產(chǎn)品作為查詢字的場(chǎng)景詞,總計(jì)25個(gè)查詢.

      5.2 實(shí)驗(yàn)結(jié)果及分析

      本文主要完成兩大類實(shí)驗(yàn):已標(biāo)注數(shù)據(jù)集上的機(jī)器評(píng)估和未標(biāo)注數(shù)據(jù)集上的人工評(píng)估.排序算法采用LambdaMart,使用開發(fā)集調(diào)整參數(shù),將排序模型應(yīng)用到上述兩類測(cè)試集,分別采用MAP和P@K兩種評(píng)價(jià)指標(biāo).

      5.2.1 機(jī)器評(píng)估結(jié)果

      72個(gè)查詢中12個(gè)作為測(cè)試集,采用交叉驗(yàn)證的方式,單獨(dú)使用各維特征及所有特征疊加的實(shí)驗(yàn)結(jié)果如表1所示.

      表1 各維特征對(duì)MAP值的影響
      Table 1 Features′ impaction in MAP

      特征MAP情感特征6.13%形態(tài)特征6.78%語音特征13.60%語義特征13.94%幽默特征17.07%所有特征27.47%

      從表1可以看出,將5個(gè)維度的11個(gè)特征都加入到模型中,效果最好,MAP值達(dá)到27.47%.如果一個(gè)查詢只有一個(gè)趣味成語,則該趣味成語平均排名在3到4名左右.在排序模型中單獨(dú)使用各維特征,幽默特征作用最大,MAP值為17.07%,而情感特征的作用最小,只有6.13%.這是因?yàn)榍楦刑卣髦饕罁?jù)成語的褒貶性來區(qū)分,而10604個(gè)成語集合中具有明顯褒貶義的成語數(shù)量較少,只有3821個(gè),因此影響范圍不大.幽默特征的作用最大,因?yàn)楹饬咳の冻烧Z好壞的關(guān)鍵指標(biāo)是趣味性,即幽默.為了細(xì)化幽默特征的作用,本文分別在所有特征中刪除每個(gè)幽默特性,以MAP值的提升程度表示各個(gè)幽默特性的效果,結(jié)果如表2所示.

      由表2可以看出,三個(gè)幽默特性中極性差值作用最小,夸張?zhí)匦宰饔米畲?在特征集中加入夸張?zhí)匦?整體的MAP值能提高7.37%.可見,夸張是幽默的一種重要體現(xiàn)形式,能夠幫助識(shí)別部分趣味成語中的幽默效果.成語流通度特性能提高6.54%,說明人們?cè)绞煜さ某烧Z替換后越容易產(chǎn)生幽默色彩.極性差值的提升幅度為2.73%,與其他兩個(gè)特性比效果較小,這是因?yàn)樽值陌H義本身與其在實(shí)際上下文中的含義可能有一定的誤差.

      表2 幽默特性對(duì)MAP值的影響
      Table 2 Humor features′impaction in MAP

      特征MAP提升幅度所有特征-極性差值24.74%2.73%所有特征-成語流通度20.93%6.54%所有特征-夸張?zhí)匦?0.10%7.37%

      5.2.2 人工評(píng)估結(jié)果

      考慮到目前機(jī)器對(duì)幽默等隱式情感的理解不足,在高級(jí)情感的鑒別和解析中人的感受更為準(zhǔn)確和具體.因此,本文針對(duì)25個(gè)查詢字及場(chǎng)景詞采用人工評(píng)估的方法,進(jìn)一步評(píng)價(jià)趣味成語生成模型的效果.每個(gè)查詢生成的候選成語數(shù)量龐大,對(duì)每一條候選成語進(jìn)行人工評(píng)估,人力成本較大.因此,對(duì)于每個(gè)查詢,我們選擇排名在前10的成語人工評(píng)估,每名評(píng)測(cè)員完成250個(gè)成語的評(píng)估工作.評(píng)測(cè)員為每條成語打分,分為“不相關(guān)”、“一般相關(guān)”和“非常相關(guān)”.“不相關(guān)”的成語還需要細(xì)化不相關(guān)的原因,如語義不通,或者與場(chǎng)景詞關(guān)聯(lián)度較小等,這主要是為后續(xù)改進(jìn)模型提供依據(jù).“非常相關(guān)”是指成語趣味性較強(qiáng),與查詢場(chǎng)景比較貼合的成語.“一般相關(guān)”是指與查詢場(chǎng)景語義相關(guān),但趣味性稍弱的成語.人工評(píng)估的結(jié)果如表3所示.

      表3 人工評(píng)估的P@10結(jié)果
      Table 3 P@10 values of artificial assessment

      評(píng)測(cè)標(biāo)準(zhǔn)平均P1P2P3P4P5非常相關(guān)34%27%30%42%34%39%相關(guān)60%55%69%63%56%57%

      表3中給出了趣味成語p@10的評(píng)測(cè)結(jié)果,“相關(guān)”是指“非常相關(guān)”和“一般相關(guān)”的疊加.從結(jié)果可以看出,排名靠前的10個(gè)成語中平均有6個(gè)成語是相關(guān)的,其中有3個(gè)是非常相關(guān)的.這從人工的角度驗(yàn)證了趣味成語生成模型的效果,基本能夠滿足大部分查詢的實(shí)際需求.此外,5人評(píng)測(cè)組中,組員評(píng)分的方差為0.003,方差較小,也說明評(píng)測(cè)員的評(píng)測(cè)結(jié)果一致性較好,結(jié)果的可靠程度較高.25個(gè)查詢分別來自衣、食、住、用和行5大類別,各類別趣味成語的生成質(zhì)量如圖4所示.

      圖4 各個(gè)類別人工評(píng)估的p@10值Fig.4 P@10 values of each category through artificial assessment

      由圖4可以看出,食品類和服飾類查詢生成趣味成語的質(zhì)量較高,相關(guān)成語的平均值為68%,而交通出行類查詢的生成質(zhì)量最低,非常相關(guān)的成語15%,相關(guān)成語也只有46%.這是因?yàn)槌烧Z多來源于古代的典故,而出行類的查詢場(chǎng)景詞多為出租車和飛機(jī)等現(xiàn)代詞匯,兩者的語義相關(guān)度較小,所以趣味成語的生成質(zhì)量最低.

      表4 部分趣味成語
      Table 4 Examples of facetious idioms

      查詢字場(chǎng)景詞趣味成語羽羽絨服“羽”眾不同無“羽”倫比巾圍巾情不自“巾”“巾巾”有味鞋皮鞋一“鞋”千里齊心“鞋”力麥小麥一“麥”相傳含情“麥麥”甜巧克力巧奪“甜”工“甜”下第一

      表4給出了生成的部分趣味成語,從結(jié)果可以看出大部分成語趣味性較強(qiáng),與場(chǎng)景詞的語義相關(guān)度較大,趣味成語的質(zhì)量較好.

      6 結(jié)論及不足

      本文依據(jù)語音替換規(guī)則生成候選成語集合,從中提取語音、幽默、語義、情感和形態(tài)五個(gè)維度11個(gè)特征,并以此為基礎(chǔ),利用排序?qū)W習(xí)的相關(guān)算法,從候選成語集合中檢索趣味成語,進(jìn)而構(gòu)建趣味成語的生成模型.該模型將成語生成問題映射到信息檢索領(lǐng)域,以查詢及相關(guān)反饋的技術(shù)解決生成問題.經(jīng)機(jī)器和人工的雙重評(píng)估,實(shí)驗(yàn)結(jié)果表明五個(gè)維度的特征能夠細(xì)致刻畫趣味成語,區(qū)分度較好,生成質(zhì)量較高.

      但我們的研究工作也存在一些不足,如很多近現(xiàn)代出現(xiàn)的查詢?cè)~與古代成語的相關(guān)度較低,生成質(zhì)量有待提高.另一方面,能否理解幽默與人類的常識(shí)高度相關(guān),而這部分幽默特征表示困難,還需要進(jìn)一步加強(qiáng).

      猜你喜歡
      排序成語趣味
      排序不等式
      恐怖排序
      節(jié)日排序
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      午睡的趣味
      特別文摘(2016年24期)2016-12-29 21:03:08
      拼成語
      意林(2016年21期)2016-11-30 17:32:21
      妙趣橫生的趣味創(chuàng)意
      趣味型男
      讓你HOLD不住的趣味創(chuàng)意
      猜成語
      旬邑县| 石棉县| 福安市| 海安县| 阿克苏市| 潜山县| 新邵县| 冷水江市| 汉源县| 蚌埠市| 太白县| 朝阳市| 荃湾区| 鄢陵县| 盐边县| 兴化市| 古交市| 大宁县| 绩溪县| 新乡县| 陆丰市| 凌云县| 肇东市| 石嘴山市| 含山县| 宜春市| 灌云县| 辽宁省| 威远县| 资中县| 通化市| 绿春县| 健康| 福海县| 桐乡市| 沙湾县| 西乌珠穆沁旗| 富锦市| 涪陵区| 肇庆市| 万安县|