• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      韓國語定語從句句法特征分析及其自動識別

      2018-04-16 07:24:18安帥飛畢玉德
      中文信息學(xué)報 2018年2期
      關(guān)鍵詞:韓國語復(fù)句自動識別

      安帥飛,畢玉德,張 婷

      (解放軍外國語學(xué)院,河南 洛陽 471003)

      0 引言

      當(dāng)前,語篇層面上的復(fù)句處理仍是機(jī)器翻譯等應(yīng)用系統(tǒng)面臨的難點之一,如何將復(fù)句自動離析為單句成為許多人研究的重點。吳鋒文[1]回顧了漢語復(fù)句二十年前的研究,概述了邢福義團(tuán)隊的漢語復(fù)句信息工程、張仕仁[2]在復(fù)句“功能結(jié)構(gòu)樹”及胡金柱等[3]在復(fù)句關(guān)系詞提取等的研究工作。韓國語復(fù)句處理方面,劉洋等[4-5]利用連接詞尾對并列類復(fù)句進(jìn)行“解構(gòu)化”處理,提出了對韓漢復(fù)句機(jī)器翻譯的改進(jìn)建議,并有效地實現(xiàn)了接續(xù)復(fù)句的自動提取實驗。定語從句屬于嵌套類復(fù)句,本文從定語從句入手,重點分析如何從嵌套類復(fù)句自動離析出單句的問題。

      1 韓國語定語從句

      韓國語中,僅有一對主謂關(guān)系的句子稱為單句,有兩組或兩組以上主謂關(guān)系的句子稱為復(fù)句[7]。根據(jù)語言的遞歸性,復(fù)句又劃分為嵌套的包孕句與組合的接續(xù)句。韓國語句子分類體系如圖1所示[8]。

      圖1 韓國語句子分類體系圖

      其中,韓國語包孕句下屬的定語從句包孕句即為本文的研究對象*本文僅討論單句作定語從句的情況,暫不討論復(fù)句作定語(“”)和多重定語(“……”)問題。。

      2 韓國語定語從句句法特征及其形式化表示

      韓國語定語從句的基本構(gòu)成為:定語修飾成分、冠形詞形詞尾、被修飾的中心詞??蓪⑵湫问交癁椋篈C→AM+ETM+Head*AC是定語從句(attributive clause)的簡寫;A是定語(attributive)的簡寫,M是modifiers修飾語的簡寫;ETM是冠形詞形詞尾在“韓國語21世紀(jì)世宗計劃”語料標(biāo)注體系的標(biāo)注形式。。

      根據(jù)定語修飾成分AM與中心詞Head的關(guān)系,可將定語從句分為關(guān)系定語從句和同位定語從句[9]。

      關(guān)系定語從句中,中心詞Head充當(dāng)定語修飾成分AM中的主語、賓語等句子成分。

      同位定語從句中,中心詞Head不作為AM的句子成分,與AM為同指關(guān)系。

      另外,分析定語修飾成分AM的內(nèi)部構(gòu)成,可將定語從句分為長定語從句和短定語從句。長定語從句中,定語修飾成分AM是整個句子。短定語從句中,定語修飾成分AM是主語、謂語、賓語、狀語等單句中的句子成分。所有的長定語從句均屬于同位定語從句[10]。

      綜上,定語從句的分類如圖2所示。

      圖2 定語從句分類圖

      按照動詞中心論觀點[11],根據(jù)定語修飾成分AM中謂詞的不同,本文將定語從句分為動詞類AM、形容詞類AM、系詞類AM定語從句分別進(jìn)行說明。

      2.1 動詞類AM定語從句

      在語料觀察實驗中,利用WordSmith軟件的Concord功能,將關(guān)鍵詞設(shè)為ETM,共現(xiàn)詞設(shè)為VV,從處理結(jié)果中選取500句定語從句進(jìn)行人工觀察分析,歸納總結(jié)動詞類AM定語從句的類型*形容詞類、系詞類AM定語從句的觀察實驗與此相同,下文不再贅述。。

      (1) 關(guān)系定語從句

      除動詞之外,動詞類AM中往往還含有主語、賓語、狀語等。根據(jù)語言學(xué)規(guī)律,結(jié)合在語料庫中歸納分析,關(guān)系定語從句的構(gòu)成可擴(kuò)展為以下15種類型。

      ① 【主】+VV(+EP)+ETM+NP

      主語在語料中的標(biāo)記形式為:NP+主格助詞JKS。因此,該類定語從句的形式化表示為“【NP+JKS】+VV(+EP)+ETM+NP”。

      ② 【賓】+VV(+EP)+ETM+NP;

      賓語在語料中的標(biāo)記形式為:NP+賓格助詞JKO。因此,該類定語從句的形式化表示為“【NP+JKO】+VV(+EP)+ETM+NP”。

      ③ 【狀】+VV(+EP)+ETM+NP

      在定語修飾成分AM中,主語、賓語、狀語等會交叉出現(xiàn),且韓國語語序自由,各成分位置并不固定。各成分相互交叉,組合為以下形式。

      ④ 【主賓】+VV(+EP)+ETM+NP*受篇幅所限,組合類從句不再舉例說明。下同。

      在語料中體現(xiàn)為【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。

      ⑤ 【主狀】+VV(+EP)+ETM+NP

      在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

      ⑥ 【狀主】+VV(+EP)+ETM+NP

      在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。

      ⑦ 【賓主】+VV(+EP)+ETM+NP

      在語料中體現(xiàn)為【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。

      ⑧ 【賓狀】+VV(+EP)+ETM+NP

      在語料中體現(xiàn)為【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

      ⑨ 【狀賓】+VV(+EP)+ETM+NP

      在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。

      ⑩ 【主賓狀】+VV(+EP)+ETM+NP

      在語料中體現(xiàn)為【NP+JKS】+【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

      在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。

      在語料中體現(xiàn)為【NP+JKO】+【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。

      在語料中體現(xiàn)為【NP+JKO】+【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。

      在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。

      在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。

      (2) 同位定語從句

      同位定語從句分為長定語從句和短定語從句。

      ② 短定語從句中,定語修飾成分AM中不含終結(jié)詞尾,中心詞Head與長定語從句相同,基本構(gòu)成為“VV(+EP)+ETM+NP”。短定語從句的AM、ETM構(gòu)成與關(guān)系定語相同,同樣可擴(kuò)展出15種組合類型,不再詳述。

      2.2 形容詞類AM定語從句

      (1) 關(guān)系定語從句

      定語修飾成分AM中,除了基本的形容詞之外,往往還含有主語、狀語等。因此,關(guān)系定語從句的構(gòu)成可擴(kuò)展為以下四種類型:

      ① 【主】+VA(+EP)+ETM+NP

      主語在語料中的標(biāo)記形式為“NP+主格助詞JKS”。因此,該類定語從句的形式化表示為“【NP+JKS】+VA(+EP)+ETM+NP”。

      ② 【狀】+VA(+EP)+ETM+NP

      ③ 【主狀】+VA(+EP)+ETM+NP

      該類結(jié)構(gòu)在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+VA(+EP)+ETM+NP。

      ④ 【狀主】+VA(+EP)+ETM+NP

      該類結(jié)構(gòu)在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+VA(+EP)+ETM+NP。

      (2) 同位定語從句

      同位定語從句分為長定語從句和短定語從句。

      ② 短定語從句中,定語修飾成分AM中不含終結(jié)詞尾,中心詞Head與長定語從句相同,基本構(gòu)成為“VA(+EP)+ETM+NP”。短定語從句的AM、ETM構(gòu)成與關(guān)系定語相同,同樣可擴(kuò)展出四種組合類型,不再詳述。

      2.3 系詞類AM定語從句

      (1) 關(guān)系定語從句

      (2) 同位定語從句

      同位定語從句分為長定語從句和短定語從句。

      3 韓國語定語從句自動識別實驗

      實驗時,按照前述定語從句句法結(jié)構(gòu)特征,歸納分析其在語料中的左右邊界規(guī)則和內(nèi)部構(gòu)成間的共現(xiàn)關(guān)系規(guī)則,構(gòu)建定語從句識別規(guī)則集。根據(jù)識別規(guī)則集,對標(biāo)注語料進(jìn)行匹配運(yùn)算,自動識別出定語從句。在此過程中,分析錯誤的識別結(jié)果,迭代完善規(guī)則集,最終自動識別出定語從句。具體流程如圖3所示。

      圖3 韓國語定語從句自動識別實驗流程圖

      3.1 實驗語料及預(yù)處理

      本文所用語料共80萬句,來源于兩處:①韓國政府為推動韓文信息化發(fā)展,自1998年開始實施、2007年建成的“21世紀(jì)世宗計劃”標(biāo)注語料庫。該語料庫涵蓋新聞、小說、雜志等。本文從中選取了50萬句。②網(wǎng)站抓取、后期整理后,獲得政治、軍事、外交、安全、經(jīng)濟(jì)、科技等新聞?wù)Z句,利用UTagger分詞器(標(biāo)注體系與“21世紀(jì)世宗計劃”標(biāo)注語料相同)進(jìn)行分詞處理,得到30萬句標(biāo)注語料。

      本文自動識別的對象是定語從句,其基本結(jié)構(gòu)為“謂詞+ETM+NP”。謂詞分為單一謂詞和復(fù)合謂詞,在所用的標(biāo)注語料中,單一動詞、形容詞被標(biāo)記為VV、VA,派生動詞、派生形容詞的標(biāo)記為“NNG -XSV、NNG -XSA”,合成動詞、合成形容詞的標(biāo)記為VV-EC-VV|VX、VA-EC-VA|VX。為方便后期處理,在實驗之初,使用正則表達(dá)式將復(fù)合動詞、復(fù)合形容詞的標(biāo)記形式統(tǒng)一替換為VV和VA。

      表1 慣用型詞表

      續(xù)表

      3.2 韓國語定語從句的識別規(guī)則

      定語從句的識別規(guī)則包含左右邊界規(guī)則和從句內(nèi)部結(jié)構(gòu)的共現(xiàn)關(guān)系規(guī)則。

      3.2.1韓國語定語從句的左右邊界規(guī)則

      根據(jù)第二節(jié)分析的定語從句句法結(jié)構(gòu)特征,觀察其在語料中的左右邊界特征表現(xiàn),并借此來界定定語從句。

      (1) 左邊界界定

      通過觀察語料及實驗迭代分析,發(fā)現(xiàn)定語從句的左邊界存在以下情況:

      ① 句子以定語從句開頭,左邊緊鄰詞不存在。

      ② 左邊界緊鄰詞為連接詞尾EC

      EC作為連接復(fù)句的標(biāo)志詞,可作為其后定語從句的左邊界。

      ③ 左邊界緊鄰詞為冠形詞形詞尾ETM

      該類定語從句含有雙(多)重定語,本文從基本單元入手,分層級解決嵌套問題。

      ④ 左邊界緊鄰詞為補(bǔ)助詞JX

      句中出現(xiàn)兩個主語,主句的主語出現(xiàn)在從句的主語前,充當(dāng)從句的左邊界。

      ⑤ 左邊界緊鄰詞為主格助詞JKS

      ⑥ 左邊界緊鄰詞為副詞格助詞JKB

      ⑦ 左邊界緊鄰詞為賓格助詞JKO

      ⑧ 左邊界緊鄰詞為逗號SP、括號SS、特殊符號SW等

      (2) 右邊界界定

      ① 關(guān)系定語從句的右邊界界定

      ② 同位定語從句的右邊界界定

      3.2.2韓國語定語從句內(nèi)部構(gòu)成的共現(xiàn)關(guān)系規(guī)則

      根據(jù)3.2.1中的左右邊界規(guī)則,得到了基本的定語從句,但對于含主語、狀語、賓語等修飾成分的句子,無法判斷主語等成分歸屬于主句還是從句。本文輔以定語從句內(nèi)部構(gòu)成間的共現(xiàn)關(guān)系規(guī)則解決這一問題。

      (1) 根據(jù)語言學(xué)特征,結(jié)合在語料中的觀察分析,得到確定的共現(xiàn)關(guān)系規(guī)則有四條:

      ② 根據(jù)左右邊界規(guī)則抽取出的成分中,如含有兩個主語(出現(xiàn)兩個JKS),前一個JKS標(biāo)識的主語歸屬于主句,后一個JKS標(biāo)識的主語歸屬于從句;

      ③ 根據(jù)左右邊界規(guī)則抽取出的成分,如是同位定語從句,主語、狀語、賓語等修飾成分歸屬于從句;

      (2) 對于無法確定歸屬的定語從句,計算內(nèi)部構(gòu)成成分間的共現(xiàn)頻率,根據(jù)頻率值來近似地估計各成分間的緊密關(guān)系,以判斷其歸屬。下面以判斷【NP+JKS】是否歸屬于形容詞類AM定語從句為例進(jìn)行說明。

      在形容詞類AM定語從句中,首先找到主語成分【NP+JKS】,其出現(xiàn)在ETM前,將該NP賦值為a1,然后找到定語從句的中心詞,將該中心詞賦值為a2,將AM中的形容詞賦值為a3。計算并比較共現(xiàn)概率Count(a1,a3)/Count(a1)*Count(a3)與Count(a2,a3)/Count(a2)*Count(a3)。如果Count(a1,a3)/Count(a1)*Count(a3)的值大于Count(a2,a3)/Count(a2)*Count(a3),則認(rèn)定主語成分【NP+JKS】與形容詞的結(jié)合緊密度高于被修飾的中心詞,【NP+JKS】歸屬于定語從句。反之,【NP+JKS】歸屬于主句。實驗時,為解決數(shù)據(jù)稀疏問題,本文采用了加一平滑,對每個統(tǒng)計項都進(jìn)行了加一處理[15]。

      3.3 實驗結(jié)果及評測

      根據(jù)定語從句的識別規(guī)則集,對80萬實驗語料進(jìn)行匹配運(yùn)算,實現(xiàn)了定語從句的自動識別。將其中部分結(jié)果翻譯展示如表2所示。

      表2 定語從句自動識別實驗結(jié)果表

      為驗證規(guī)則的可行性,本文借助了廣泛應(yīng)用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的正確率(P值)、召回率(R值),以及二者的加權(quán)平均F值,用來評價實驗結(jié)果[16]。評測時,另外從新聞、小說、雜志三類語料中分別選取了500句進(jìn)行實驗,然后將人工分析得到的結(jié)果與程序自動識別的結(jié)果相比較,結(jié)果如表3所示。

      表3 實驗結(jié)果比對表

      分別計算P、R、F的值結(jié)果如表4所示。

      表4 實驗評測結(jié)果表

      經(jīng)過比較分析,得到了實驗中錯誤識別的定語從句有以下三個類型。

      (1) 特殊符號(SW)導(dǎo)致的錯誤

      (3) 語料標(biāo)注錯誤

      4 總結(jié)與展望

      本文通過分析定語從句的句法結(jié)構(gòu)特征,對其左右邊界和內(nèi)部構(gòu)成成分的共現(xiàn)關(guān)系進(jìn)行歸納總結(jié),構(gòu)建了定語從句識別規(guī)則集,實現(xiàn)了定語從句的自動識別。從嵌套類復(fù)句中自動離析出定語從句,為提高韓漢機(jī)器翻譯、信息檢索等應(yīng)用系統(tǒng)的效能打下了堅實的基礎(chǔ)。

      本文主要討論了單句作定語從句的情況,針對復(fù)句作定語及多重定語問題,以后將做進(jìn)一步的分析研究。

      [1]吳鋒文.漢語復(fù)句信息處理研究二十年[J].中文信息學(xué)報,2015,29(1):13-18.

      [2]張仕仁.漢語復(fù)句的結(jié)構(gòu)分析[J].中文信息學(xué)報,1994,8(4):43-54.

      [3]胡金柱,舒江波,姚雙云,等.面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J].計算機(jī)工程與科學(xué),2009,37(10):90-93.

      [4]劉洋,畢玉德,李健.基于句法知識的復(fù)句解構(gòu)對韓漢復(fù)句機(jī)器翻譯改進(jìn)芻議[J].洛陽師范學(xué)院學(xué)報,2017,36(2):49-53.

      [5]劉洋,畢玉德,李健.基于語言知識的韓國語復(fù)句自動識別策略及實現(xiàn)[J].東北亞外語研究,2017,17(2):42-49.

      [6]安帥飛,畢玉德.韓國語名詞短語結(jié)構(gòu)特征分析及自動提取[J].中文信息學(xué)報,2013,27(5):205-210.

      [7](韓)李翊燮.韓國語語法[M].郭一誠,譯.北京:世界圖書出版公司,2012:331.

      [9]張光軍,江波,李翊燮.韓國的語言[M].北京:北京大學(xué)出版社,2009:311-312.

      [11]畢玉德.現(xiàn)代韓國語動詞語義組合關(guān)系研究[M].北京:民族出版社,2005:27-28.

      [13]韋旭升,許東振.新編韓國語實用語法[M].北京:外語教學(xué)與研究出版社,2006:613-617.

      [14]李姬子,李鐘禧.韓國語助詞和詞尾詞典[M].張光軍,譯.北京:外語教學(xué)與研究出版社,2010.

      [15]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008:78-79.

      [16]馮志偉,胡鳳國.數(shù)理語言學(xué)[M].北京:商務(wù)印書館,2012:367.

      安帥飛(1991—),博士研究生,主要研究領(lǐng)域為自然語言處理、模塊識別。E-mail:anshuaifei2013@sina.cn

      畢玉德(1967—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理、韓國語句法語義學(xué)。E-mail:biyude@gmail.com

      張婷(1984—),博士研究生,主要研究領(lǐng)域為自然語言處理、領(lǐng)域本體構(gòu)建。E-mail:tinaam@sina.com

      猜你喜歡
      韓國語復(fù)句自動識別
      連動結(jié)構(gòu)“VP1來VP2”的復(fù)句化及新興小句連接詞“來”的形成
      漢語復(fù)句學(xué)說的源流
      韓國語復(fù)句結(jié)構(gòu)的二分說
      韓國語不完全詞特征探析
      自動識別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      金屬垃圾自動識別回收箱
      基于IEC61850的配網(wǎng)終端自動識別技術(shù)
      電測與儀表(2016年6期)2016-04-11 12:06:38
      韓國語教學(xué)中“-??”的話語功能分析
      針對TOPIK評分標(biāo)準(zhǔn)的韓國語寫作教育
      復(fù)句內(nèi)部不應(yīng)當(dāng)用句號
      平舆县| 清原| 茶陵县| 阿荣旗| 桦川县| 扬州市| 灵宝市| 东乌珠穆沁旗| 江都市| 阳原县| 务川| 汉寿县| 石渠县| 通化市| 高要市| 巴南区| 通许县| 高州市| 海安县| 同心县| 大连市| 东乡| 中西区| 元朗区| 玛沁县| 岳西县| 汉川市| 昭苏县| 临沧市| 开封县| 塘沽区| 进贤县| 九江县| 平安县| 陈巴尔虎旗| 太湖县| 紫云| 安福县| 永定县| 兴文县| 四子王旗|