• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語義角色和句法標(biāo)注的新詞語語義類識(shí)別研究

      2016-04-07 08:55:12張晨
      安徽文學(xué)·下半月 2016年3期

      張晨

      摘 要:對(duì)語義的理解能幫助我們更好地理解某個(gè)詞語、整句話乃至整個(gè)篇章或整個(gè)對(duì)話的含義,而找出語義識(shí)別則就是幫助計(jì)算機(jī)“理解”詞語、句子和篇章含義的前提性工作。其中,詞語的語義識(shí)別是基礎(chǔ)。新詞語的增長(zhǎng)早已是一個(gè)不可忽視的趨勢(shì),中文信息處理作為應(yīng)用語言學(xué)的一大觸手,面對(duì)這樣的形勢(shì)當(dāng)然也要邁出自己的步伐。本文以語料的句法成分和語義角色的標(biāo)注為基礎(chǔ),研究滿足某句法成分和語義角色條件的詞語的義類傾向,以期能夠?qū)⒀芯砍晒糜谥形男畔⑻幚碇行略~語義類的推測(cè)研究,來幫助推進(jìn)中文信息處理早日實(shí)現(xiàn)“智能化”。

      關(guān)鍵詞:中文信息處理 語義角色標(biāo)注 句法成分標(biāo)注 義類識(shí)別

      一、引言

      在信息處理中,若能讓計(jì)算機(jī)對(duì)語義做出分析、判斷、預(yù)測(cè),讓計(jì)算機(jī)能夠識(shí)別和理解人類自然語言,這將是信息處理的一項(xiàng)重大舉措,也是讓計(jì)算機(jī)真正實(shí)現(xiàn)“智能化”的重要前提。其中,詞語的語義識(shí)別是基礎(chǔ),也是信息抽取、機(jī)器翻譯等應(yīng)用領(lǐng)域的基礎(chǔ)問題。本文的研究重點(diǎn)就是詞語的語義識(shí)別。

      在句法與語義對(duì)應(yīng)關(guān)系的接口問題的研究上,我們認(rèn)為是詞匯語義在這條鎖鏈中起著決定性作用,它決定著語義角色,進(jìn)而影響到句法成分,部分研究也正是選用了從詞匯語義到語義角色、句法成分的研究方向。結(jié)合阿普列相的語言整合描寫理論,本文采取了與上述研究方向相反的逆向研究方向,以語義角色和句法成分為抓手,反推詞匯語義,以期用于中文信息處理的新詞語處理工作中。

      二、本研究思路

      詞語組成句子,句子進(jìn)而構(gòu)成篇章,這是人類自然語言通常的構(gòu)成層次,我們也可以據(jù)此將語義識(shí)別分為詞語語義識(shí)別、句子語義識(shí)別和文本(篇章)語義識(shí)別。對(duì)于中文信息處理來說,對(duì)詞語的識(shí)別是一系列后續(xù)工作的基礎(chǔ)。目前,新詞語的增長(zhǎng)早已是一個(gè)不能忽視的事實(shí),又加上漢語的博大精深,這些都無疑不給中文信息處理帶來巨大的挑戰(zhàn)。同時(shí),阿普列相在他的語言整合描寫理論中主張將詞匯和語法這兩個(gè)不同意義層面的概念結(jié)合起來,融為一體。綜合以上三點(diǎn),作者以語料的句法成分和語義角色的標(biāo)注為基礎(chǔ),研究滿足某句法成分和語義角色條件的詞語的義類傾向,結(jié)合當(dāng)前新詞語增長(zhǎng)給中文信息處理帶來重重困難的漢語真實(shí)現(xiàn)狀,以期能夠?qū)⒀芯砍晒糜谛略~語義類的推測(cè)研究,來幫助推進(jìn)中文信息處理進(jìn)一步實(shí)現(xiàn)“智能化”。

      (一)語料庫(kù)的建設(shè)

      整個(gè)實(shí)驗(yàn)研究分析是以語料庫(kù)為依托的,本文研究需要兩個(gè)語料庫(kù),分別為《中小學(xué)語文課本標(biāo)注語料庫(kù)》和《義類傾向信息庫(kù)》。下文將分別介紹這兩個(gè)語料庫(kù)的構(gòu)建步驟和方法。

      一、《中小學(xué)語文課本標(biāo)注語料庫(kù)》的建設(shè)

      《中小學(xué)語文課本標(biāo)注語料庫(kù)》是以人民教育出版社的語文課本為基礎(chǔ),然后進(jìn)行擴(kuò)充形成的。我們選用其中全日制普通高級(jí)中學(xué)教科書部分為母庫(kù),語料總計(jì)約40萬字左右。

      我們將目標(biāo)語料通過分詞系統(tǒng)進(jìn)行分詞,并做詞性標(biāo)注,在一定的人工檢查后進(jìn)行語義角色和句法成分的標(biāo)注。需要注意的是,在標(biāo)注語義角色和句法成分時(shí),是以語塊為單位的,而并不是單個(gè)的詞。在做句法成分的標(biāo)注時(shí),我們這里把語塊分為主語語塊(S)、謂語/述語語塊(P)、賓語語塊(O)、定語語塊(A)、狀語語塊(D)、補(bǔ)語語塊(C)、兼語語塊(J)和獨(dú)立語語塊(T)。在做語義角色的標(biāo)注時(shí),我們選用以下幾個(gè)語義角色:施事(S)、當(dāng)事(D)、領(lǐng)事(L)、共事(Y)、受事(O)、客事(K)、致事(Z)、結(jié)果(R)、與事(T)、系事(X)、分事(F)、同源(B)、材料(H)、方式(Q)、依據(jù)(W)、原因(C)、目的(G)、時(shí)間(H)、處所(P)、數(shù)量(N)、基準(zhǔn)(J)、雜類(U)。同時(shí),還需要注意的是,我們雖然在同一句語料上同時(shí)標(biāo)注句法成分和語義角色,但這兩個(gè)工作是互相獨(dú)立的,互不干擾。因?yàn)榫浞ǔ煞趾驼Z義角色是不同的兩個(gè)概念,不在同一個(gè)層面上,語義角色是更深層次的概念,并且兩者各有一套完整的標(biāo)注標(biāo)記,兩者互不牽連。下面用例句來展示標(biāo)注結(jié)果:

      (1)[D在/p 20/m 世紀(jì)/n 的/u 百年/m 中/f]H ,/w [S中華/b 民族/n 的/u 命運(yùn)/n]D [P發(fā)生/v]V 了/u [O歷史性/b 的/u {轉(zhuǎn)折/n}@ 和/c {巨變/n}@]K 。(《在慶祝北京大學(xué)建校一百周年大會(huì)上的講話》)

      (2)[D幾乎/d [S所有/b 可/v 被/p 動(dòng)物/n 用/v 來/v 發(fā)聲/v 的/u 東西/n]D [D都/d 被/u [P用/v]V [C上/v] 了/y(《這個(gè)世界的音樂》)

      (3)[D在/p 文學(xué)/n]E ,/w 無論/c [D{閱讀/vn}@ 或/c {寫作/vn}@]E ,/w [S我們/r]L [D必須/d [P有/v]V [O一字/n 不/d 肯/v 放松/v 的/u 謹(jǐn)嚴(yán)/n]K 。/w(《咬文嚼字》)

      二、《義類傾向信息庫(kù)》的生成

      我們?cè)谝延芯浞ǔ煞趾驼Z義角色標(biāo)記的語料基礎(chǔ)上,設(shè)計(jì)抽取程序,以語義角色和句法成分為經(jīng)緯,兩者兩兩組合形成抽取條件,在《中小學(xué)語文課本標(biāo)注語料庫(kù)》中抽取符合條件的所有中心詞。由于我們?cè)诓樵兞x類時(shí)是參照《同義詞詞林》的義類體系,所以我們?cè)诔槿r(shí)盡量保證中心詞是一個(gè)詞,而不是多個(gè)詞或是短語。另外,為了實(shí)驗(yàn)結(jié)果的準(zhǔn)確,在同一詞語多次出現(xiàn)的情況下,會(huì)將其出現(xiàn)的頻次計(jì)入統(tǒng)計(jì)結(jié)果,用于計(jì)算概率。按照《同義詞詞林》中的語義分類體系和符號(hào)體系給提取出的中心詞打上相應(yīng)的義類標(biāo)記。同時(shí),本文將拋棄單純的新詞語本身研究,在對(duì)提取出的中心詞,特別是中心詞是多義詞的情況下進(jìn)行義類標(biāo)注的時(shí)候結(jié)合其所在上下文語境情況來幫助確定其語義類。

      我們把經(jīng)過上文操過的信息,包括提取出的中心詞及其頻次、義類,錄入到EXCEL表格中,生成《義類標(biāo)注信息庫(kù)》,以用于后續(xù)的研究分析。

      (二)詞語語義類傾向研究

      在以26個(gè)語義角色和8個(gè)句法成分兩兩組合作為提取中心詞條件的框架下,我們對(duì)語料進(jìn)行了窮盡式的排查和統(tǒng)計(jì),由于實(shí)驗(yàn)所用的語料庫(kù)覆蓋面有限,有些語義角色和句法成分的組合在語料中并未出現(xiàn),這種情況并不是說明在語言事實(shí)中絕對(duì)不會(huì)出現(xiàn),但也可以據(jù)此推斷,這些現(xiàn)象在實(shí)際的語言運(yùn)用中大多出現(xiàn)的頻率比較低,甚至是幾乎不出現(xiàn)。

      由于篇幅有限,我們僅以SS施事主語為例做統(tǒng)計(jì)結(jié)果的展示:

      通過統(tǒng)計(jì)可知,處于SS施事主語位置的詞語義類的分布情況,可得其優(yōu)先度不等式:A人(2716)>B物(341)>D抽象事物(168)>E特征(56)>C時(shí)間與空間(39)>K助語(14)>H活動(dòng)(9)>G心理活動(dòng)(8)>I現(xiàn)象與狀態(tài)(3)>J關(guān)聯(lián)(2)>F動(dòng)作(1),沒有出現(xiàn)的是L敬語。其中A類所占比重遠(yuǎn)大于排在第二位的B類,是由于A類中包含指代人稱的代詞,像“你”“我”在語料中出現(xiàn)的頻次非常多。

      由于僅按照義類大類進(jìn)行分析比較粗糙,為了細(xì)化信息顆粒度,得出更加深入、更精確的結(jié)果,我們將義類從大類細(xì)化到中類,可得優(yōu)先度前五名不等式如下:Aa泛稱(2310)>Ah親人眷屬(122)>Ba統(tǒng)稱(116)>Al才識(shí)(55)>Af身份(51)。

      通過上述操作,我們發(fā)現(xiàn)處在SS位置的詞語義類中,Aa類出現(xiàn)的頻次遠(yuǎn)大于處于第二位的Ah類,則SS施事主語位置的詞語義類的顯著性特征為Aa類。

      我們依據(jù)這個(gè)思路,依次考察SO施事賓語、SD施事狀語、SP施事述語、SJ施事兼語等位置的詞語義類情況。發(fā)現(xiàn)以S為綱的幾個(gè)不等式中,大類前幾位保持一致,即A>B>D>C/E,而中類則保持Aa>Ba/Ah的序列。

      按此思路繼續(xù)考察以當(dāng)事D為綱、以領(lǐng)事L為綱、以共事Y為綱、以受事O為綱等等不同語義角色與8個(gè)句法成分兩兩組合位置的詞語義類情況,并得出符合各個(gè)條件的詞語的顯著性特征義類。

      (三)新詞語義類的傾向研究

      我們選用《新詞語大詞典》,選取其中出現(xiàn)的新詞語的例句作為檢測(cè)詞語義類傾向研究效果的測(cè)試語料。限于篇幅,我們還是以SS施事主語位置詞語義類情況為例說明。

      在我們選取的《新詞語大詞典》的新詞語釋義舉例例句中,經(jīng)過分詞、語義角色和句法成分標(biāo)注、提取中心詞等一系列工作,統(tǒng)計(jì)出出現(xiàn)在SS施事主語位置的詞語約有2851個(gè),經(jīng)過義類的標(biāo)注,發(fā)現(xiàn)義類為Aa的約有2365個(gè),占總數(shù)的約83%,符合我們?cè)诘诙焦ぷ髦械贸龅膶?shí)驗(yàn)結(jié)果,因而,此顯著特征可作為中文信息處理在推測(cè)SS位置新詞語義類的一個(gè)依據(jù)。

      其他位置新詞語的義類情況推測(cè)思路與做法與上述一致。

      三、總結(jié)

      本研究將詞類、句法成分、語義角色結(jié)合起來,從句法成分和語義角色反推詞匯意義,進(jìn)一步豐富和完善漢語句法語義理論,為漢語句法語義理論研究提供了一種新的思考方式。同時(shí),本研究是基于大型標(biāo)注語料庫(kù)得出的,可以基本反映漢語的真實(shí)狀況。研究成果可用于新詞語的詞義識(shí)別,為中文信息處理的自動(dòng)分析提供幫助,也可用于機(jī)器翻譯、新詞語詞典的編纂以及信息檢索等有新詞語出現(xiàn)的地方,幫助機(jī)器更好地“理解”新詞語,進(jìn)而更準(zhǔn)確地進(jìn)行語義方面的處理,有助于推動(dòng)中文信息處理的進(jìn)一步發(fā)展,具有一定的實(shí)踐意義。

      本研究的創(chuàng)新之處在于在新詞語的識(shí)別研究上著重在對(duì)其語義類的識(shí)別上。采取了在句法、語義接口方面研究時(shí)不同的研究方向,并將實(shí)驗(yàn)與中文信息處理有機(jī)結(jié)合。而不足之處在于本研究所采用的語料庫(kù)取材有限,覆蓋面有限,因而實(shí)驗(yàn)結(jié)果還有待完善。另外,由于本人專業(yè)知識(shí)有限,疏漏之處還請(qǐng)批評(píng)指正。

      參考文獻(xiàn)

      [1] 于鑫.阿普列相及其語義理論[J].解放軍外國(guó)語學(xué)院學(xué)報(bào),2006(2):29.

      [2] 周明海.核心語義角色句法實(shí)現(xiàn)的詞匯語義制約[D].魯東大學(xué)碩士學(xué)位論文,2011.

      [3] 秦春秀,祝婷,趙捧未,張毅.自然語言語義分析研究進(jìn)展[J].國(guó)家情報(bào)工作,2014(22):58.

      [4]鄒煜,李開拓.漢語新詞語檢測(cè):檢測(cè)的不只是語言——新詞語監(jiān)測(cè)與研究5年回顧[J].北華大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2012(5):13.

      [5] 楊輝.漢語新詞語發(fā)現(xiàn)及其詞性標(biāo)注方法研究[D].上海:復(fù)旦大學(xué),2008.

      [6] 田震.非核心語義角色句法實(shí)現(xiàn)的詞匯語義制約[D].魯東大學(xué)碩士學(xué)位論文,2014.

      [7] 梅家駒,等.同義詞詞林[M].上海:上海辭書出版社,1983.

      陆川县| 德保县| 贡觉县| 江孜县| 马鞍山市| 莱西市| 富锦市| 开阳县| 高淳县| 黄龙县| 土默特左旗| 宿松县| 沙坪坝区| 湟源县| 凤庆县| 五寨县| 凤台县| 罗山县| 宝山区| 建瓯市| 紫金县| 内乡县| 天台县| 太湖县| 梁山县| 余姚市| 团风县| 左云县| 黄骅市| 江华| 德令哈市| 聂拉木县| 凤庆县| 大兴区| 山丹县| 宜良县| 巨野县| 宽甸| 镇康县| 旬阳县| 潍坊市|