• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      韓國(guó)語(yǔ)句子結(jié)構(gòu)相似度計(jì)算方法研究

      2019-04-17 03:56:24畢玉德姜博文
      中文信息學(xué)報(bào) 2019年3期
      關(guān)鍵詞:詞尾韓國(guó)語(yǔ)助詞

      畢玉德,姜博文

      (1. 復(fù)旦大學(xué) 外國(guó)語(yǔ)言文學(xué)學(xué)院,上海 200433;2. 信息工程大學(xué) 洛陽(yáng)校區(qū),河南 洛陽(yáng) 471003)

      0 引言

      相似度計(jì)算作為自然語(yǔ)言處理領(lǐng)域的一項(xiàng)基礎(chǔ)算法,越來(lái)越受到研究人員的關(guān)注。目前,相似度計(jì)算的方法基本都集中在兩方面: 一種方法是基于表層特征的詞法、句法的相似度計(jì)算,這種方法注重對(duì)句子形式等一些外部特征的研究;另外一種方法是深層的基于語(yǔ)義的相似度計(jì)算,計(jì)算過(guò)程中需要使用語(yǔ)義詞典等對(duì)句子進(jìn)行分析,例如WordNet,最終得到句子的相似度。目前基于語(yǔ)義的相似度計(jì)算方法并沒(méi)有太多的突破,還有很長(zhǎng)的路要走。

      國(guó)內(nèi)外學(xué)者對(duì)相似度計(jì)算的研究已經(jīng)取得了不少成績(jī)。其中,國(guó)外學(xué)者Chris等[1]采用了隱含語(yǔ)義索引(latent semantic indexing)的方法,它是一種自動(dòng)的索引方法,通過(guò)挖掘文本和詞匯之間的隱含關(guān)系來(lái)得出相似度,這種方法效率比較高。國(guó)內(nèi)學(xué)者在研究相似度計(jì)算方面也取得了一定的成績(jī)。晉耀紅[2]提出了一種新的形式化文本模型——語(yǔ)境框架來(lái)計(jì)算文本相似度,這種方法考慮了句子的歧義、多義及語(yǔ)言的褒貶傾向,但是最終效果取決于語(yǔ)義知識(shí)庫(kù)的質(zhì)量;李彬等[3]提出了一種基于語(yǔ)義依存的句子相似度計(jì)算方法,該方法效果優(yōu)于經(jīng)典的TF-IDF算法,其計(jì)算效果受制于句子依存分析的準(zhǔn)確率。劉宏哲[4]提出了一種基于本體的句子相似度計(jì)算方法,利用本體概念與句子中關(guān)鍵詞之間建立的語(yǔ)義索引,構(gòu)建句子與本體間的直接和間接語(yǔ)義聯(lián)系,據(jù)此提取描述句子的語(yǔ)義向量,從而計(jì)算句子間的語(yǔ)義相似度。王榮波等[5]提出了一種漢語(yǔ)句子結(jié)構(gòu)相似性的計(jì)算方法,該方法比較兩個(gè)句子的詞類信息串,通過(guò)最優(yōu)匹配,進(jìn)行結(jié)構(gòu)相似度計(jì)算。孫向東等[6]從圖同構(gòu)角度給出樹(shù)同構(gòu)的性質(zhì),闡述了結(jié)構(gòu)異構(gòu)與結(jié)構(gòu)對(duì)齊之間的關(guān)系,利用對(duì)數(shù)線性模型,提出了基于結(jié)構(gòu)對(duì)齊的統(tǒng)計(jì)機(jī)器翻譯模型。鄧涵等[7]提出了基于句法結(jié)構(gòu)與修飾詞的句子相似度計(jì)算方法,該方法對(duì)本文研究具有借鑒意義。

      鑒于韓國(guó)語(yǔ)的黏著語(yǔ)屬性,其語(yǔ)法功能采用語(yǔ)法標(biāo)記實(shí)現(xiàn),我們嘗試研究句子結(jié)構(gòu)相似度來(lái)為基于實(shí)例的機(jī)器翻譯服務(wù)。待翻譯語(yǔ)言與實(shí)例庫(kù)中實(shí)例句的匹配是基于實(shí)例機(jī)器翻譯的核心過(guò)程,匹配的過(guò)程就是相似度計(jì)算的過(guò)程,匹配的準(zhǔn)確度直接影響最終的譯文質(zhì)量。本文研究目的是提高基于實(shí)例的機(jī)器翻譯效果,句子的相似度計(jì)算是提高翻譯效果的核心問(wèn)題,我們聚焦該過(guò)程的關(guān)鍵環(huán)節(jié)——句子的結(jié)構(gòu)相似度,結(jié)合韓國(guó)語(yǔ)的句法特點(diǎn)提出了一種基于句子結(jié)構(gòu)的相似度計(jì)算方法。通過(guò)在語(yǔ)言教學(xué)及句法研究中的積累形成句法知識(shí)庫(kù),利用知識(shí)庫(kù)制定了句子結(jié)構(gòu)中標(biāo)記轉(zhuǎn)換規(guī)則,那么假設(shè)句子的結(jié)構(gòu)相似,如果兼顧詞形、語(yǔ)義等信息,句子的相似度計(jì)算效果將會(huì)得到提高,特別是隨著句法知識(shí)庫(kù)的不斷豐富,基于實(shí)例的機(jī)器翻譯系統(tǒng)的譯文質(zhì)量也會(huì)更加準(zhǔn)確。

      1 句子結(jié)構(gòu)相似度計(jì)算方法

      1.1 韓國(guó)語(yǔ)語(yǔ)法特點(diǎn)及分詞體系

      韓國(guó)語(yǔ)作為黏著語(yǔ)的一個(gè)顯著特點(diǎn)就是具有種類豐富的助詞和詞尾,它的語(yǔ)法關(guān)系主要依靠助詞、詞尾和語(yǔ)法連語(yǔ)來(lái)實(shí)現(xiàn),其句子成分所在的位置相對(duì)比較自由,基本跟它們的語(yǔ)序無(wú)關(guān)[8]。其中,助詞包括格助詞和補(bǔ)助格助詞,后者是對(duì)前者的意義上的補(bǔ)充。助詞沒(méi)有獨(dú)立的詞匯意義,一般只能加在體詞后面,表示該詞在句中的地位,是其充當(dāng)句子某一句法成分的表現(xiàn)形式。韓國(guó)語(yǔ)的格助詞系統(tǒng)包含主格、賓格、屬格、副詞格、補(bǔ)格、呼格等助詞,分別表示句子的主語(yǔ)、賓語(yǔ)、定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)、獨(dú)立語(yǔ)。詞尾是接在謂詞(包括系詞)詞干后、一起構(gòu)成句子的謂語(yǔ),詞尾分為先句末詞尾和句末詞尾,其中先句末詞尾包括時(shí)間詞尾和尊敬詞尾,句末詞尾包括終結(jié)詞尾、連接詞尾和轉(zhuǎn)成詞尾。結(jié)合韓國(guó)語(yǔ)的形式化特點(diǎn),研究者制定了一套韓國(guó)語(yǔ)分詞體系,共7大類(體詞、謂詞、修飾詞、助詞、依存詞、獨(dú)立詞、符號(hào))、35小類(如普通名詞、代詞、形容詞、輔助謂詞等)。

      本文選取的實(shí)驗(yàn)語(yǔ)料來(lái)自韓國(guó)“21世紀(jì)世宗計(jì)劃”標(biāo)注語(yǔ)料庫(kù)中的單句,該語(yǔ)料庫(kù)是韓國(guó)政府于1998年開(kāi)始建設(shè),一直持續(xù)到2007年,耗費(fèi)十年建立起來(lái)的國(guó)家級(jí)語(yǔ)料庫(kù),其內(nèi)容涵蓋韓國(guó)的政治、經(jīng)濟(jì)、歷史、文化等眾多方面,這些內(nèi)容基本可以代表韓國(guó)語(yǔ)的最普遍特征,使用這個(gè)語(yǔ)料庫(kù)的目的是力圖使結(jié)果更加客觀。

      韓國(guó)“世宗計(jì)劃”開(kāi)發(fā)的標(biāo)注語(yǔ)料庫(kù),正是采用該分詞體系。例如:

      1.2 韓國(guó)語(yǔ)句子結(jié)構(gòu)相似度的計(jì)算方法

      目前,對(duì)句子的相似度并沒(méi)有一個(gè)明確的概念,因?yàn)榫渥拥南嗨贫仁且粋€(gè)主觀性很強(qiáng)的概念,它在不同的領(lǐng)域表示的意義也不盡相同。本文的具體應(yīng)用背景是基于實(shí)例的韓漢機(jī)器翻譯,句子相似度反映更多的是源語(yǔ)言與實(shí)例庫(kù)中實(shí)例的結(jié)構(gòu)相似度。在此給出句子相似度的概念: 兩個(gè)句子的相似度是指兩個(gè)句子在結(jié)構(gòu)以及詞形上的匹配符合程度,相似度取值為[0,1]之間的實(shí)數(shù),相似度越接近于1,說(shuō)明兩個(gè)句子越相似;否則反之。

      發(fā)達(dá)的韓國(guó)語(yǔ)助詞體系對(duì)韓國(guó)語(yǔ)的句子結(jié)構(gòu)以及語(yǔ)義表達(dá)有著直接影響,如果兩個(gè)句子中共同含有的助詞同時(shí)連續(xù)出現(xiàn)且在句子中的位置也相同,那么這兩個(gè)句子就為結(jié)構(gòu)相似,這就降低了翻譯的難度,直接找到已經(jīng)翻譯過(guò)的結(jié)構(gòu)相似的句子就較容易得到譯文。同時(shí),如果再加入詞形信息,那么相似度的計(jì)算結(jié)果將更加精確,本文目前主要研究結(jié)構(gòu)相似,對(duì)于詞形相似暫不做詳細(xì)說(shuō)明。實(shí)驗(yàn)選取“世宗語(yǔ)料庫(kù)”中的單句作為研究對(duì)象,進(jìn)行句子結(jié)構(gòu)的相似度計(jì)算試驗(yàn)。

      1.2.1 骨架結(jié)構(gòu)提取

      1.2.2 句中標(biāo)記轉(zhuǎn)換規(guī)則

      根據(jù)韓國(guó)語(yǔ)句子的語(yǔ)言結(jié)構(gòu)特點(diǎn)以及對(duì)應(yīng)漢語(yǔ)譯文的位置特點(diǎn),制定了以下7條針對(duì)句子結(jié)構(gòu)成分標(biāo)記處理和轉(zhuǎn)換的規(guī)則。

      規(guī)則2在一個(gè)句子中,如果基本結(jié)構(gòu)中主格助詞(JKS)與補(bǔ)助詞(JX)相鄰出現(xiàn),即出現(xiàn)這樣的結(jié)構(gòu)JKS+JX,那么在處理過(guò)程中按照J(rèn)KS單獨(dú)處理;如果出現(xiàn)JKB+JX的結(jié)構(gòu),則按照J(rèn)KB單獨(dú)出現(xiàn)來(lái)處理。這是因?yàn)檠a(bǔ)助格(JX)只是起到對(duì)前面的格助詞的補(bǔ)充作用。

      規(guī)則3當(dāng)句子中出現(xiàn)動(dòng)詞派生結(jié)尾詞(XSV)時(shí),說(shuō)明該句中的動(dòng)詞是派生動(dòng)詞,等同于其他句子中的VV。類似的,當(dāng)出現(xiàn)形容詞派生結(jié)尾詞(XSA)時(shí),等同于其他句子的VA。

      規(guī)則6對(duì)于慣用型,要同時(shí)考慮標(biāo)記和標(biāo)記前的詞匯,按照體、樣式和否定范疇做不同的處理歸類。

      規(guī)則7如果句子1的基本結(jié)構(gòu)有四個(gè)結(jié)構(gòu)性成分A、B、C、D,句子2中與句子1中的基本結(jié)構(gòu)成分是一樣的但是順序不同,是B、A、C、D,那么視為相似;如果句子2中基本結(jié)構(gòu)標(biāo)記是B、C、D,包含于句子1的句子成分中,那么視為一定相似,相似度為75%,這是根據(jù)共同含有的成分計(jì)算得來(lái)的。這個(gè)原則我們稱之為包含相似原則。但是這個(gè)原則中存在一種特殊情況,即第一個(gè)原則中如果含有JKB為標(biāo)記的成分,我們需要考慮與JKB相連接的韓國(guó)語(yǔ)的內(nèi)容,韓國(guó)語(yǔ)內(nèi)容相似了才是完全相似,反之則不相似,在這個(gè)過(guò)程中同時(shí)也兼顧了一定的語(yǔ)序信息,更加符合實(shí)際情況。

      經(jīng)過(guò)7個(gè)轉(zhuǎn)換規(guī)則以后將兩個(gè)句子結(jié)構(gòu)向量進(jìn)行比較,在測(cè)試過(guò)程中,根據(jù)句子成分在句子的地位,我們使VV/VA、JKS、JKO、JKB的權(quán)重依次遞減,分別為5、4、3、2,匹配后得到的結(jié)果就是句子結(jié)構(gòu)相似度。

      1.2.3 相似度比較

      在經(jīng)過(guò)骨架結(jié)構(gòu)提取以后,利用制定的結(jié)構(gòu)轉(zhuǎn)換規(guī)則開(kāi)始計(jì)算結(jié)構(gòu)相似度。首先假設(shè)我們有兩個(gè)韓國(guó)語(yǔ)句子S1和S2的骨架結(jié)構(gòu),利用轉(zhuǎn)換規(guī)則后,生成兩個(gè)結(jié)構(gòu)性成分序列:

      S1:s1s2s3,si,…sn-2sn-1sn.

      S2:w1w2w3,wk,…wm-2wm-1wm.

      其中,si(1≤i≤n)表示句子S1中的第i個(gè)結(jié)構(gòu)性成分,wk(1≤k≤m)表示句子S2中的第k個(gè)結(jié)構(gòu)性成分。為了形象說(shuō)明,我們用有向圖表示兩個(gè)序列的匹配過(guò)程,如圖1所示。

      圖1 序列S1和S2匹配有向圖

      首先是從左到右的正向匹配,對(duì)相同位置的成分進(jìn)行比較,若相同則繼續(xù)下一個(gè)成分的比較,直至其中一個(gè)句子結(jié)束,也就是兩個(gè)句子中相對(duì)較短的句子的對(duì)比結(jié)束。經(jīng)過(guò)最優(yōu)匹配以后,我們可以計(jì)算出句子結(jié)構(gòu)相似度,如式(1)所示。

      (1)

      計(jì)算過(guò)程中我們定義每一個(gè)句子結(jié)構(gòu)標(biāo)記為一個(gè)結(jié)構(gòu)點(diǎn)。式(1)中,C是結(jié)構(gòu)轉(zhuǎn)換后句子與實(shí)例庫(kù)中句子的相同結(jié)構(gòu)點(diǎn)數(shù)量,E是兩個(gè)句子中結(jié)構(gòu)點(diǎn)總量,F(xiàn)i是第i個(gè)相同結(jié)構(gòu)點(diǎn)的權(quán)值,F(xiàn)k是所有結(jié)構(gòu)點(diǎn)中第k個(gè)結(jié)構(gòu)點(diǎn)的權(quán)值,在計(jì)算過(guò)程中根據(jù)詞類標(biāo)記在句子中作用的不同賦予不同的權(quán)值,最后得到相似度計(jì)算結(jié)果。

      2 實(shí)驗(yàn)及結(jié)果分析

      我們以1萬(wàn)句單句為實(shí)驗(yàn)對(duì)象,抽取每個(gè)句子的骨架結(jié)構(gòu),按照上文描述的句子結(jié)構(gòu)相似度計(jì)算方法,使這些句子進(jìn)行兩兩比較,每遍歷到最后一句再繼續(xù)下一次遍歷,下一次遍歷從上一次開(kāi)始遍歷的第2句開(kāi)始。經(jīng)過(guò)運(yùn)算得到句子結(jié)構(gòu)的相似度計(jì)算結(jié)果。圖2是以前10句為例相互比較得到的相似度計(jì)算結(jié)果。

      表中前14句與第83句的相似度值為1,其骨架結(jié)構(gòu)相同,只是有些句子多了時(shí)間、副詞等成分,如

      圖2 句子兩兩比較相似度計(jì)算結(jié)果示例

      表1 相似度值排序結(jié)果示例

      據(jù)此,我們統(tǒng)計(jì)出每句遍歷以后與之相似度結(jié)果大于65%的句子數(shù)量(圖3)。

      圖3 相似句子數(shù)量統(tǒng)計(jì)圖

      我們對(duì)每個(gè)句子對(duì)應(yīng)的相似句數(shù)量統(tǒng)計(jì)以后,人工驗(yàn)證了這種方法的準(zhǔn)確率,如式(2)所示。

      (2)

      這些相似的句子正確率達(dá)到76%以上,因此我們可以得出結(jié)論,通過(guò)轉(zhuǎn)換規(guī)則對(duì)句子的骨架結(jié)構(gòu)轉(zhuǎn)換以后得到的句子結(jié)構(gòu)相似度,基本符合我們的預(yù)期設(shè)想,它們對(duì)應(yīng)的中文句子的結(jié)構(gòu)相似度結(jié)果,也大致與得到的韓國(guó)語(yǔ)句子結(jié)構(gòu)相似度結(jié)果基本吻合,基于句子結(jié)構(gòu)的相似度計(jì)算方法是可行的。對(duì)梯形圖表以及韓漢句子表格分析以后可以看出結(jié)果在65%以上的表明它們的句子結(jié)構(gòu)相似的可信度較高,在這個(gè)結(jié)果以下的基本可以判斷句子結(jié)構(gòu)相似程度不高,那么在構(gòu)建實(shí)例庫(kù)以及別的工作中可以舍棄這些偏低的結(jié)果,有助于為基于實(shí)例的機(jī)器翻譯提供精確匹配。

      需要說(shuō)明的是,系統(tǒng)可以抽取出與源句子結(jié)構(gòu)相似的句子,并且可以計(jì)算出結(jié)果在0到1之間的數(shù)值。但是由于算法過(guò)程中存在不同程度的偏差,計(jì)算出的相似度結(jié)果并不一定完全精確,相似度結(jié)果只是一個(gè)相對(duì)的數(shù)值。數(shù)字越接近1,說(shuō)明與源句子的結(jié)構(gòu)相似度相對(duì)越高,反之說(shuō)明不高。但是在分析實(shí)驗(yàn)數(shù)據(jù)時(shí)也會(huì)出現(xiàn)相似度結(jié)果大于65%,但是兩個(gè)句子實(shí)際上是不相似的,例如:

      這兩個(gè)句子的相似度計(jì)算結(jié)果是1.0,即完全相似,但是兩個(gè)句子實(shí)際上是不相似的,這是由于句子中省略了某些重要成分,影響了相似度結(jié)果。

      3 結(jié)論

      句子相似度在機(jī)器翻譯中發(fā)揮著極其重要的作用,本文從韓國(guó)語(yǔ)特有的句法特性出發(fā),利用簡(jiǎn)單句的結(jié)構(gòu)性成分標(biāo)記,通過(guò)7條語(yǔ)言規(guī)則,提出了韓國(guó)語(yǔ)句子結(jié)構(gòu)相似度計(jì)算方法,通過(guò)實(shí)驗(yàn)證明這種方法是可行的,但是該方法還有很大的改進(jìn)空間。下一步工作主要在以下幾個(gè)方面展開(kāi): ①通過(guò)更大規(guī)模語(yǔ)料的反復(fù)實(shí)驗(yàn),進(jìn)一步豐富影響句子結(jié)構(gòu)的成分和轉(zhuǎn)換規(guī)則,并細(xì)化對(duì)權(quán)值的分配,以期獲得更加理想的結(jié)果; ②把結(jié)構(gòu)相似度和詞形相似度結(jié)合起來(lái),進(jìn)一步提高句子相似度的精度; ③根據(jù)韓國(guó)語(yǔ)復(fù)句的特點(diǎn),基于大規(guī)模標(biāo)注語(yǔ)料庫(kù)統(tǒng)計(jì)歸納各種類型復(fù)句的分布特點(diǎn),有針對(duì)性地開(kāi)展對(duì)不同類型復(fù)句的相似度計(jì)算研究。

      猜你喜歡
      詞尾韓國(guó)語(yǔ)助詞
      韓國(guó)語(yǔ)助詞的連續(xù)構(gòu)成與復(fù)合助詞的區(qū)分
      日語(yǔ)中的“強(qiáng)調(diào)”表達(dá)研究——以助詞為中心
      -CK Sounds
      韓國(guó)語(yǔ)不完全詞特征探析
      詞尾與詞綴的區(qū)別研究
      日語(yǔ)中“間投助詞”與“終助詞”在句中適用位置的對(duì)比考察
      江永桃川土話的助詞
      Playing with “g”
      韓國(guó)語(yǔ)教學(xué)中“-??”的話語(yǔ)功能分析
      針對(duì)TOPIK評(píng)分標(biāo)準(zhǔn)的韓國(guó)語(yǔ)寫(xiě)作教育
      永康市| 德兴市| 连山| 分宜县| 美姑县| 抚顺县| 铁岭县| 长泰县| 永兴县| 新津县| 麻江县| 宾川县| 台北县| 南涧| 若羌县| 屏边| 平安县| 延川县| 新津县| 鄂伦春自治旗| 婺源县| 静宁县| 遵义市| 若羌县| 建湖县| 萝北县| 中宁县| 增城市| 洛宁县| 三明市| 河津市| 达孜县| 浦城县| 那曲县| 三河市| 深圳市| 云南省| 新竹县| 大兴区| 登封市| 密云县|