• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CSL學(xué)習(xí)者認(rèn)知的情感詞匯計(jì)量與統(tǒng)計(jì)分析

      2021-06-10 07:20:16張易揚(yáng)王治敏
      中文信息學(xué)報(bào) 2021年5期
      關(guān)鍵詞:本體詞匯學(xué)習(xí)者

      張易揚(yáng),王治敏,吳 迪,張 璇

      (1. 北京語言大學(xué) 漢語國際教育研究院,北京 100083;2. 北京語言大學(xué) 速成學(xué)院,北京 100083;3. 清華大學(xué) 自動化系,北京 100084)

      0 引言

      隨著人工智能研究的發(fā)展,自然語言處理領(lǐng)域的情感分析、情感計(jì)算的研究逐漸火熱起來。漢語情感詞匯相關(guān)的詞表、詞典的構(gòu)建也逐漸發(fā)展起來。有清華大學(xué)李軍中文褒貶義詞典[1]、中國臺灣大學(xué)NTUSD簡體中文情感詞典、知網(wǎng)Hownet情感詞典、大連理工大學(xué)的中文情感詞匯本體庫、湖南工業(yè)大學(xué)的中文基礎(chǔ)情感詞典等。情感詞匯研究常常被用于情感分析、數(shù)據(jù)挖掘、文本分類等,例如微博情感分析、電影評論情感分析、網(wǎng)絡(luò)商品評論情感分析等,但國內(nèi)利用情感詞匯詞典進(jìn)行語言學(xué)本體研究還是較少。例如,從計(jì)量風(fēng)格學(xué)的角度進(jìn)行的考察[2]。在對外漢語教學(xué)領(lǐng)域,漢語作為第二語言(Chinese as a second language,CSL)學(xué)習(xí)者的情感詞匯研究相對薄弱。相關(guān)研究有利用語料庫進(jìn)行CSL學(xué)習(xí)者的情感類詞偏誤研究[3],有對CSL學(xué)習(xí)者褒貶義詞習(xí)得研究[4]等。目前還未見到直接利用情感詞典對CSL學(xué)習(xí)者進(jìn)行詞匯方面的研究。

      因此,本文以情感詞匯詞典為依托,對中文文本中情感詞匯的提取進(jìn)行統(tǒng)計(jì)分析,以此為基礎(chǔ)采用問卷調(diào)查的方式對CSL學(xué)習(xí)者“接受性詞匯”[5]和“產(chǎn)出性詞匯”進(jìn)行考察。旨在研究CSL學(xué)習(xí)者對“接受性詞匯”的情感詞匯熟悉度測量表現(xiàn)和“產(chǎn)出性詞匯”的情感詞匯輸出表現(xiàn),并對CSL學(xué)習(xí)者情感詞匯認(rèn)知結(jié)果進(jìn)行描述,提出針對性的建議。

      1 中文情感詞匯文本反映

      1.1 中文情感詞匯本體庫

      中文情感詞匯本體庫是大連理工大學(xué)信息檢索研究室林鴻飛教授所帶團(tuán)隊(duì)整理和標(biāo)注的一個中文本體資源。[6]該資源從不同角度描述一個中文詞匯或者短語,包括詞語詞性種類、情感類別、情感強(qiáng)度及極性等信息,共含有情感詞共計(jì)27 466個[7]。通過對比引言中提到的各類情感詞典,發(fā)現(xiàn)該情感詞匯知識庫標(biāo)注較為系統(tǒng)、屬性信息相對豐富,適合本研究之用。中文情感詞匯本體庫中,一般的格式如表1所示。

      表1 情感詞匯本體格式舉例

      在標(biāo)注中,詞性種類一共分為7類,分別是名詞(noun)、動詞(verb)、形容詞(adj)、副詞(adv)、網(wǎng)絡(luò)詞語(nw)、成語(idiom)、介詞短語(prep)。情感強(qiáng)度分為1、3、5、7、9五檔,9表示強(qiáng)度最大,1表示強(qiáng)度最小。極性標(biāo)注為: 0代表中性,1代表褒義,2代表貶義,3代表兼有褒貶兩性。詞匯本體中的情感共分為7大類21小類,如表2所示。

      表2 情感詞匯分類及示例

      續(xù)表

      中文情感詞匯本體庫中,有名詞(noun)3 404個,動詞(verb)3 460個,形容詞(adj)5 261個,副詞(adv)49個,網(wǎng)絡(luò)詞語(nw)140個,成語(idiom)14 986個,介詞短語(prep)166個。我們無法從庫中直接選取可以用以考察CSL學(xué)習(xí)者認(rèn)知的詞匯,而需要借助中文小說文本提取出漢語母語者所產(chǎn)出(即作者寫作)和經(jīng)常輸入(即讀者閱讀)的情感詞匯,以便與CSL學(xué)習(xí)者進(jìn)行對比。所以,我們需要選擇合適的中文文本進(jìn)行分析,以查看中文情感詞匯的文本反映。

      1.2 四部長篇小說統(tǒng)計(jì)分析

      我們選取的四部現(xiàn)代漢語長篇小說為: 《平凡的世界》、《三體》系列三本、《小時(shí)代》、沈石溪動物小說三本,題材涵蓋當(dāng)代城鄉(xiāng)社會、科幻、軍事、現(xiàn)代都市、校園青春、言情、兒童文學(xué)等,如表3所示。

      表3 四部長篇小說基本信息

      四部小說題材涵蓋較廣、社會影響較大、銷量較高,閱讀受眾從幼兒到老年人基本能夠涵蓋。我們認(rèn)為所提取出情感詞匯的交集,在一定程度上能夠反映現(xiàn)代漢語小說情感詞匯用詞面貌。

      本文對這四部小說語料進(jìn)行分詞、詞性標(biāo)注(使用語料分詞和詞性標(biāo)注軟件CorpusWordParser(1)肖航.教育部語言文字應(yīng)用研究所,email: exiaohang@sina.com,website: www.cncorpus.org)、統(tǒng)計(jì)詞頻(使用語料字詞頻率統(tǒng)計(jì)工具CorpusWordFrequencyApp(2)肖航.教育部語言文字應(yīng)用研究所,email: exiaohang@sina.com,website: www.cncorpus.org)、刪除重復(fù)詞匯,最后與“情感詞匯本體庫”取交集抽取情感詞匯,從情感分類、詞性種類、極性、強(qiáng)度四個角度進(jìn)行統(tǒng)計(jì),觀察其特點(diǎn)以待進(jìn)一步研究。以所抽取的共同情感詞匯為測量材料,對CSL學(xué)習(xí)者認(rèn)知表現(xiàn)進(jìn)行對比研究。

      四部小說情感詞匯的情感分類統(tǒng)計(jì)結(jié)果如表4所示。就情感詞匯的21類情感分類來看,四部小說在各類情感詞匯的使用比例上較為相似,其中贊揚(yáng)類(PH)的詞匯占比最高,比例均值為27.6%,貶責(zé)類(NN)次之,比例均值為22.3%。這兩類情感詞占比接近50%。快樂類(PA)比例均值為7.3%,悲傷類(NB)比例均值為5.65%,分別排第三和第四。雖然四部小說作者不同、題材不同,但各情感類用詞差異較小。

      表4 四部小說情感詞匯情感分類

      本文對四部小說情感詞匯詞性種類的統(tǒng)計(jì)結(jié)果如表5所示。四部小說在情感詞匯詞性種類上較為相似。其中形容詞最多,比例均值為41.95%;動詞次之,比例均值為23.95%;名詞再次之,比例均值為17.73%。三者相對比例基本符合情感詞匯庫中的分布。就本次研究而言,形容詞將作為考察的重點(diǎn)。

      表5 四部小說情感詞匯詞性種類

      本文對四部小說情感詞匯極性的統(tǒng)計(jì)結(jié)果如表6所示。在極性方面,四本小說不同極性的用詞比例依舊相似。其中,態(tài)度積極的詞最多,中性詞和態(tài)度消極的詞數(shù)量接近,褒貶兼有的詞相對偏少。

      表6 四部小說情感詞匯極性

      在詞匯強(qiáng)度方面,5級強(qiáng)度的詞(如: 悲傷、粗魯、端莊、歡樂)最多,比例均值為40.9%。1級(如: 安靜、遲緩、單一、荒涼)和9級(如: 暴怒、荒唐、完美、心花怒放)強(qiáng)度的詞最少,比例均值分別為9.43%和6.7%。四部小說情感詞匯的強(qiáng)度分布基本上符合正態(tài)分布,如表7所示。

      表7 四部小說情感詞匯強(qiáng)度

      總體來看,我們發(fā)現(xiàn)雖然四部小說題材不同、作者不同,但在用詞上非常相近。即使字?jǐn)?shù)相差懸殊的小說,在情感分類、詞性種類、極性和強(qiáng)度的各項(xiàng)用詞比例仍然相近。由此可以推斷出,現(xiàn)代漢語長篇小說在情感詞匯的使用上,并不會因?yàn)樽髡卟煌a(chǎn)生較大差異。這一結(jié)論可以為計(jì)量風(fēng)格學(xué)的文本分析提供參考。

      四部小說的情感詞匯用詞占比非常接近,是否因?yàn)槭苤朴谇楦性~匯本體庫的因素限制呢?為此本文統(tǒng)計(jì)了四部小說的總字?jǐn)?shù)、總用詞量和詞性占比,發(fā)現(xiàn)結(jié)果同情感詞匯統(tǒng)計(jì)的結(jié)果相似,四部小說總用詞比例相近,不存在外部因素影響。

      1.3 四部小說共同情感詞匯提取

      為了深入了解四部小說情感詞語的情況,以便考察CSL學(xué)習(xí)者的認(rèn)知,本文對四部小說共同情感詞匯進(jìn)行了提取,共得到784個詞,在考察CSL學(xué)習(xí)者接受性詞匯時(shí),考慮到測量效果和情感詞匯的特點(diǎn),我們只選取形容詞作為測量對象。共有409個形容詞。在考察CSL學(xué)習(xí)者產(chǎn)出性詞匯時(shí),我們將做詳細(xì)對比。

      2 CSL學(xué)習(xí)者接受性情感詞匯考察

      上文中四部小說提取出的情感詞匯是漢語母語者所產(chǎn)出(作者寫作)和經(jīng)常輸入(即讀者閱讀)的詞匯,是漢語母語者非常熟悉的詞匯。但對于CSL學(xué)習(xí)者來說是否熟悉,有待于進(jìn)一步考察。

      針對這一問題,我們將測量材料(即從四部小說中提取的情感詞匯)制作成測試詞表,對CSL學(xué)習(xí)者進(jìn)行熟悉度測試,并對熟悉度結(jié)果進(jìn)行檢驗(yàn)。

      首先是詞表制作。我們將上文提到的四部小說所抽取的409個形容詞,按照頻率排序,等比提取30個詞(等比間距為13,例如,取第1個、第14個、第27個……),如表8所示。

      表8 情感詞匯形容詞按比例抽取30詞詞表

      針對這30個詞,我們設(shè)計(jì)了六級量表,熟悉度從1到6,1表示最熟悉,6表示最不熟悉。表頭信息為: 國籍、性別、年級、HSK等級。其中,年級和HSK等級共同作為被試漢語水平的評判標(biāo)準(zhǔn)。我們在北京語言大學(xué)范圍內(nèi)進(jìn)行問卷調(diào)查,共收集到來自14個國家的有效問卷30份,其中高級5份,中級20份,低級5份。CSL中級水平學(xué)習(xí)者是本次實(shí)驗(yàn)重點(diǎn)考察的對象,因?yàn)樗麄兡軌蚧痉从矯SL學(xué)習(xí)者對漢語詞匯的認(rèn)知特點(diǎn),能夠反映從初級向中級過渡、中級向高級過渡時(shí)詞匯學(xué)習(xí)的問題,符合本次實(shí)驗(yàn)預(yù)期考察的目的。

      接下來,我們進(jìn)行熟悉度測量,并對測量結(jié)果進(jìn)行檢驗(yàn)。

      科勒-拉普假設(shè)認(rèn)為,人們對某些詞的熟悉程度和其出現(xiàn)的頻率之間存在某種關(guān)系,可以假設(shè): 人們越熟悉一個詞,其出現(xiàn)頻率就越高。那是否對于CSL學(xué)習(xí)者也是如此?所以,我們針對CSL學(xué)習(xí)者檢驗(yàn)科勒-拉普假設(shè),如式(1)所示。

      (1)

      其中,V表示數(shù)據(jù)中最大熟悉度的值,x表示詞的頻率,A、B是函數(shù)的參數(shù)。[8]

      考慮到初級CSL學(xué)習(xí)者和高級CSL學(xué)習(xí)者的水平特點(diǎn),不適合列入熟悉度計(jì)算,所以我們只對其進(jìn)行描述,不進(jìn)行計(jì)算。

      我們用提取出的這30個詞語在四部小說中的頻率x,對20名中級CSL學(xué)習(xí)者問卷熟悉度進(jìn)行統(tǒng)計(jì),計(jì)算出熟悉度均值為y。y值為1是最熟悉,y值為6是最不熟悉。V值最大值為6。結(jié)果如表9所示。

      表9 測量詞表頻率與20名中級CSL學(xué)習(xí)者熟悉度

      觀察結(jié)果可以看到,按熟悉度降序排列后,熟悉度最高的前15個詞,有10個詞頻率降序排列在前15,5個詞頻率降序排列在后15。

      為了更精確地得出結(jié)論,我們繼續(xù)進(jìn)行科勒-拉普假設(shè)檢驗(yàn)。使用MATLAB中inline自定義函數(shù)模型,與數(shù)據(jù)擬合后求得參數(shù)A、B(其中V=6):

      (1) 使用inline函數(shù)定義模型,三個參數(shù)分別為: 函數(shù)模型、待定系數(shù)、自變量。在MATLAB中表達(dá)式為: myfunc=inline('6./(1+beta(1).*x.^beta(2))','beta','x');

      (2) 待定系數(shù)的預(yù)估值: beta0=[0.1,0.1]';

      (3) 數(shù)據(jù)集和函數(shù)模型進(jìn)行擬合: beta=nlinfit(x,y,myfunc,beta0)。

      其中beta(1)=10.359 1,beta(2)=0.456 6,則A=10.359 1,B=0.456 6。

      將所得結(jié)果可視化,顯示數(shù)據(jù)散點(diǎn)圖及擬合曲線(見圖1),計(jì)算函數(shù)模型的擬合優(yōu)度R2,對比分析得出結(jié)果。R2=0.294 6。

      圖1 數(shù)據(jù)擬合圖

      結(jié)果顯示,擬合優(yōu)度R2=0.294 6,結(jié)果較差,因此科勒-拉普假設(shè)針對CSL學(xué)習(xí)者在情感詞匯方面的假設(shè)不成立,即CSL學(xué)習(xí)者越熟悉一個情感詞匯,其出現(xiàn)的頻率不一定越高。也就是說母語學(xué)習(xí)者最熟悉的詞,不一定CSL學(xué)習(xí)者也熟悉。

      究其原因,CSL學(xué)習(xí)者的詞匯大部分來源于教材和教師的詞匯教學(xué),其情感詞匯的學(xué)習(xí)和使用也受制于教材和教師。CSL學(xué)習(xí)者對頻率高的情感詞匯熟悉度不夠,將會使CSL學(xué)習(xí)者在閱讀現(xiàn)代漢語小說時(shí)具有更大的困難。在對外漢語教材的編寫上,尤其是閱讀課,應(yīng)該關(guān)注現(xiàn)代漢語小說中高頻的情感詞匯。這對提升CSL學(xué)習(xí)者在閱讀和對話時(shí)的情感判斷有重要幫助,進(jìn)而使其在語義理解上更快、更準(zhǔn)確。

      3 CSL學(xué)習(xí)者產(chǎn)出詞匯統(tǒng)計(jì)分析

      上文利用情感詞典和文本對CSL學(xué)習(xí)者接受性情感詞匯進(jìn)行了測試性考察,接下來我們從CSL學(xué)習(xí)者產(chǎn)出的角度進(jìn)行情感詞匯輸出考察。一般而言,接受性詞匯和產(chǎn)出性詞匯之間存在巨大差距,也就是所謂“產(chǎn)出性詞匯門檻”,CSL學(xué)習(xí)者的產(chǎn)出性詞匯量遠(yuǎn)遠(yuǎn)小于接受性詞匯量[9]。但是否在情感詞匯上也是如此?CSL學(xué)習(xí)者在產(chǎn)出性詞匯以及產(chǎn)出情感詞匯上有什么特點(diǎn)?這些特點(diǎn)對對外漢語教學(xué)有什么啟發(fā)?我們設(shè)計(jì)了問卷進(jìn)行調(diào)查研究。

      考慮到CSL學(xué)習(xí)者產(chǎn)出詞匯的難度和我們預(yù)期產(chǎn)出詞匯的廣度,本文不將CSL初級和準(zhǔn)中級學(xué)習(xí)者列入考察范圍。我們認(rèn)為對CSL中高級學(xué)習(xí)者的考察能夠反映出CSL學(xué)習(xí)者產(chǎn)出詞匯時(shí)的特點(diǎn)和問題的全貌。

      CSL學(xué)習(xí)者產(chǎn)出詞匯表問卷調(diào)查對象為北京語言大學(xué)留學(xué)生,HSK等級4級以上,學(xué)習(xí)漢語時(shí)間4年到6年,整體水平為中高級。共收集到有效問卷32份,來自韓國、日本、塞爾維亞、葡萄牙、埃及等多個國家。產(chǎn)出詞匯表采取閉卷方式,CSL學(xué)習(xí)者自由輸出300個詞。我們將其校對、電子化,進(jìn)行描述,并抽取其中的情感詞匯進(jìn)行統(tǒng)計(jì)分析。

      據(jù)統(tǒng)計(jì),除去無法識別的錯別字和生造詞,共收集到有效詞匯9 674個,刪除重復(fù)項(xiàng)后為3 549個。對CSL學(xué)習(xí)者產(chǎn)出情感詞匯進(jìn)行抽取,共取得詞語372個。

      考慮到情感詞匯的特點(diǎn),我們同樣重點(diǎn)觀察形容詞的產(chǎn)出情況。

      (1) 按情感分類(見表10)

      表10 CSL學(xué)習(xí)者產(chǎn)出情感詞匯情感分類分布

      根據(jù)表10的數(shù)據(jù),我們發(fā)現(xiàn)兩方都沒有嫉妒(NK)這一類,這類詞在情感詞匯本體庫中也只有43個,例如“眼饞”“寵兒”“醋意”等。

      根據(jù)上文我們對四部小說的情感類別的考察發(fā)現(xiàn),贊揚(yáng)類(PH)和貶責(zé)類(NN)占比最高,這兩類情感詞占比接近50%,第三和第四分別為快樂類(PA)和悲傷類(NB),比例均值分別為7.3%和5.65%。在CSL學(xué)習(xí)者產(chǎn)出的情感詞匯中,我們可以看到,不同情感分類按照數(shù)量排序,前九種為贊揚(yáng)(PH)、貶責(zé)(NN)、快樂(PA)、喜愛(PB)、尊敬(PD)、相信(PG)、煩悶(NE)、安心(PE)、悲傷(NB)。兩者相比大體相近,不同在于CSL學(xué)習(xí)者對悲傷類的詞語產(chǎn)出較少。在實(shí)驗(yàn)結(jié)果反饋和分析時(shí),我們認(rèn)為其受外部因素影響,如漢語教學(xué)中教師和教材積極樂觀的態(tài)度、填寫問卷時(shí)輕松愉快的心情等,所以CSL學(xué)習(xí)者在產(chǎn)出詞匯過程中對悲傷(NB)類詞匯輸出較少,可能并不是因?yàn)橄嚓P(guān)詞匯量小的原因。針對這類詞(悲傷類)的二語教學(xué)是否應(yīng)該以母語者的掌握水平為標(biāo)準(zhǔn)?這一點(diǎn)值得繼續(xù)深入研究。

      (2) 極性(見表11)

      表11 CSL學(xué)習(xí)者產(chǎn)出情感詞匯極性分布

      表11中,CSL學(xué)習(xí)者與四部小說共同情感詞匯極性占比相近,中性詞和褒義詞占比較大,貶義詞占比較小。在四部小說共同情感詞匯中,褒貶兼有的詞為“好事”“解除”“迷戀”“天真”。這類詞由于數(shù)量較少,對情感判斷影響較大。在實(shí)際對外漢語教學(xué)中,我們建議重點(diǎn)強(qiáng)調(diào)其不同用法。

      (3) 強(qiáng)度(見表12)

      表12 CSL學(xué)習(xí)者產(chǎn)出情感詞匯強(qiáng)度分布

      在強(qiáng)度方面,CSL學(xué)習(xí)者產(chǎn)出的強(qiáng)度和四部小說共同情感詞匯相似。在5級強(qiáng)度上,CSL學(xué)習(xí)者占比高于四部小說共同情感詞匯,但9級強(qiáng)度上,CSL學(xué)習(xí)者占比低于四部小說共同情感詞匯。這說明CSL學(xué)習(xí)者對表達(dá)強(qiáng)烈感情的詞匯掌握得還不夠多。

      4 結(jié)語

      通過利用中文情感詞匯本體庫對文學(xué)文本和CSL學(xué)習(xí)者產(chǎn)出性詞匯的對比分析,我們發(fā)現(xiàn),現(xiàn)代漢語長篇小說在情感詞匯的使用上,并不會因?yàn)樽髡?、題材、內(nèi)容不同而產(chǎn)生較大差異。這一結(jié)論可以為計(jì)量風(fēng)格學(xué)的文本分析提供參考。就文本中情感詞匯的情感分類來看,贊揚(yáng)類和貶責(zé)類兩類情感詞占總詞數(shù)的一半,其他19類情感詞占一半,而且積極正向的詞數(shù)量多于消極負(fù)向的詞。

      另外,我們發(fā)現(xiàn)CSL學(xué)習(xí)者對頻率高的情感詞匯熟悉度不夠,解決這個問題對他們在文本閱讀和對話時(shí)的情感判斷有很大幫助。中高級CSL學(xué)習(xí)者在產(chǎn)出性詞匯中,CSL學(xué)習(xí)者對表達(dá)強(qiáng)烈感情的詞匯掌握得不夠多。

      因此我們建議,在對外漢語教材的編寫上,尤其是閱讀課,應(yīng)該關(guān)注現(xiàn)代漢語小說中高頻的情感詞匯。這對提升CSL學(xué)習(xí)者在閱讀和對話時(shí)的情感判斷有一定幫助,進(jìn)而使其在語義理解上更快、更準(zhǔn)確。在具體的教學(xué)中,我們可以強(qiáng)化他們在閱讀現(xiàn)代漢語小說時(shí)對詞的情感理解的訓(xùn)練,從而更加熟悉現(xiàn)代漢語中的詞語使用特點(diǎn)和中國人的情感表達(dá)方式,以便突破漢語水平由“高級”到“地道”的瓶頸期。同時(shí),我們也應(yīng)該注意加強(qiáng)CSL學(xué)習(xí)者褒貶兼有詞語的學(xué)習(xí),在表達(dá)情感方面加強(qiáng)對表達(dá)強(qiáng)烈感情詞語的使用。

      猜你喜歡
      本體詞匯學(xué)習(xí)者
      Abstracts and Key Words
      本刊可直接用縮寫的常用詞匯
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      一些常用詞匯可直接用縮寫
      你是哪種類型的學(xué)習(xí)者
      十二星座是什么類型的學(xué)習(xí)者
      本刊可直接用縮寫的常用詞匯
      漢語學(xué)習(xí)自主學(xué)習(xí)者特征初探
      《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
      論遠(yuǎn)程學(xué)習(xí)者的歸屬感及其培養(yǎng)
      呼伦贝尔市| 新兴县| 定日县| 平昌县| 湟源县| 苍山县| 黄浦区| 铜陵市| 贵定县| 商洛市| 赞皇县| 佳木斯市| 鸡东县| 泰安市| 襄城县| 汝阳县| 阜平县| 新营市| 青海省| 光泽县| 开原市| 唐山市| 濮阳县| 绍兴市| 黄浦区| 乐山市| 芦溪县| 无极县| 罗源县| 铜山县| 永靖县| 龙海市| 类乌齐县| 嘉善县| 遂川县| 宜章县| 璧山县| 五常市| 泰兴市| 元江| 伊吾县|