安帥飛,畢玉德,張 婷
(解放軍外國語學(xué)院,河南 洛陽 471003)
當(dāng)前,語篇層面上的復(fù)句處理仍是機(jī)器翻譯等應(yīng)用系統(tǒng)面臨的難點之一,如何將復(fù)句自動離析為單句成為許多人研究的重點。吳鋒文[1]回顧了漢語復(fù)句二十年前的研究,概述了邢福義團(tuán)隊的漢語復(fù)句信息工程、張仕仁[2]在復(fù)句“功能結(jié)構(gòu)樹”及胡金柱等[3]在復(fù)句關(guān)系詞提取等的研究工作。韓國語復(fù)句處理方面,劉洋等[4-5]利用連接詞尾對并列類復(fù)句進(jìn)行“解構(gòu)化”處理,提出了對韓漢復(fù)句機(jī)器翻譯的改進(jìn)建議,并有效地實現(xiàn)了接續(xù)復(fù)句的自動提取實驗。定語從句屬于嵌套類復(fù)句,本文從定語從句入手,重點分析如何從嵌套類復(fù)句自動離析出單句的問題。
韓國語中,僅有一對主謂關(guān)系的句子稱為單句,有兩組或兩組以上主謂關(guān)系的句子稱為復(fù)句[7]。根據(jù)語言的遞歸性,復(fù)句又劃分為嵌套的包孕句與組合的接續(xù)句。韓國語句子分類體系如圖1所示[8]。
圖1 韓國語句子分類體系圖
其中,韓國語包孕句下屬的定語從句包孕句即為本文的研究對象*本文僅討論單句作定語從句的情況,暫不討論復(fù)句作定語(“”)和多重定語(“……”)問題。。
韓國語定語從句的基本構(gòu)成為:定語修飾成分、冠形詞形詞尾、被修飾的中心詞??蓪⑵湫问交癁椋篈C→AM+ETM+Head*AC是定語從句(attributive clause)的簡寫;A是定語(attributive)的簡寫,M是modifiers修飾語的簡寫;ETM是冠形詞形詞尾在“韓國語21世紀(jì)世宗計劃”語料標(biāo)注體系的標(biāo)注形式。。
根據(jù)定語修飾成分AM與中心詞Head的關(guān)系,可將定語從句分為關(guān)系定語從句和同位定語從句[9]。
關(guān)系定語從句中,中心詞Head充當(dāng)定語修飾成分AM中的主語、賓語等句子成分。
同位定語從句中,中心詞Head不作為AM的句子成分,與AM為同指關(guān)系。
另外,分析定語修飾成分AM的內(nèi)部構(gòu)成,可將定語從句分為長定語從句和短定語從句。長定語從句中,定語修飾成分AM是整個句子。短定語從句中,定語修飾成分AM是主語、謂語、賓語、狀語等單句中的句子成分。所有的長定語從句均屬于同位定語從句[10]。
綜上,定語從句的分類如圖2所示。
圖2 定語從句分類圖
按照動詞中心論觀點[11],根據(jù)定語修飾成分AM中謂詞的不同,本文將定語從句分為動詞類AM、形容詞類AM、系詞類AM定語從句分別進(jìn)行說明。
在語料觀察實驗中,利用WordSmith軟件的Concord功能,將關(guān)鍵詞設(shè)為ETM,共現(xiàn)詞設(shè)為VV,從處理結(jié)果中選取500句定語從句進(jìn)行人工觀察分析,歸納總結(jié)動詞類AM定語從句的類型*形容詞類、系詞類AM定語從句的觀察實驗與此相同,下文不再贅述。。
(1) 關(guān)系定語從句
除動詞之外,動詞類AM中往往還含有主語、賓語、狀語等。根據(jù)語言學(xué)規(guī)律,結(jié)合在語料庫中歸納分析,關(guān)系定語從句的構(gòu)成可擴(kuò)展為以下15種類型。
① 【主】+VV(+EP)+ETM+NP
主語在語料中的標(biāo)記形式為:NP+主格助詞JKS。因此,該類定語從句的形式化表示為“【NP+JKS】+VV(+EP)+ETM+NP”。
② 【賓】+VV(+EP)+ETM+NP;
賓語在語料中的標(biāo)記形式為:NP+賓格助詞JKO。因此,該類定語從句的形式化表示為“【NP+JKO】+VV(+EP)+ETM+NP”。
③ 【狀】+VV(+EP)+ETM+NP
在定語修飾成分AM中,主語、賓語、狀語等會交叉出現(xiàn),且韓國語語序自由,各成分位置并不固定。各成分相互交叉,組合為以下形式。
④ 【主賓】+VV(+EP)+ETM+NP*受篇幅所限,組合類從句不再舉例說明。下同。
在語料中體現(xiàn)為【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。
⑤ 【主狀】+VV(+EP)+ETM+NP
在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
⑥ 【狀主】+VV(+EP)+ETM+NP
在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。
⑦ 【賓主】+VV(+EP)+ETM+NP
在語料中體現(xiàn)為【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。
⑧ 【賓狀】+VV(+EP)+ETM+NP
在語料中體現(xiàn)為【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
⑨ 【狀賓】+VV(+EP)+ETM+NP
在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。
⑩ 【主賓狀】+VV(+EP)+ETM+NP
在語料中體現(xiàn)為【NP+JKS】+【NP+JKO】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+【NP+JKO】+VV(+EP)+ETM+NP。
在語料中體現(xiàn)為【NP+JKO】+【NP+JKS】+【[AVM1—AVM6]】+VV(+EP)+ETM+NP。
在語料中體現(xiàn)為【NP+JKO】+【[AVM1—AVM6]】+【NP+JKS】+VV(+EP)+ETM+NP。
在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+【NP+JKO】+VV(+EP)+ETM+NP。
在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKO】+【NP+JKS】+VV(+EP)+ETM+NP。
(2) 同位定語從句
同位定語從句分為長定語從句和短定語從句。
② 短定語從句中,定語修飾成分AM中不含終結(jié)詞尾,中心詞Head與長定語從句相同,基本構(gòu)成為“VV(+EP)+ETM+NP”。短定語從句的AM、ETM構(gòu)成與關(guān)系定語相同,同樣可擴(kuò)展出15種組合類型,不再詳述。
(1) 關(guān)系定語從句
定語修飾成分AM中,除了基本的形容詞之外,往往還含有主語、狀語等。因此,關(guān)系定語從句的構(gòu)成可擴(kuò)展為以下四種類型:
① 【主】+VA(+EP)+ETM+NP
主語在語料中的標(biāo)記形式為“NP+主格助詞JKS”。因此,該類定語從句的形式化表示為“【NP+JKS】+VA(+EP)+ETM+NP”。
② 【狀】+VA(+EP)+ETM+NP
③ 【主狀】+VA(+EP)+ETM+NP
該類結(jié)構(gòu)在語料中體現(xiàn)為【NP+JKS】+【[AVM1—AVM6]】+VA(+EP)+ETM+NP。
④ 【狀主】+VA(+EP)+ETM+NP
該類結(jié)構(gòu)在語料中體現(xiàn)為【[AVM1—AVM6]】+【NP+JKS】+VA(+EP)+ETM+NP。
(2) 同位定語從句
同位定語從句分為長定語從句和短定語從句。
② 短定語從句中,定語修飾成分AM中不含終結(jié)詞尾,中心詞Head與長定語從句相同,基本構(gòu)成為“VA(+EP)+ETM+NP”。短定語從句的AM、ETM構(gòu)成與關(guān)系定語相同,同樣可擴(kuò)展出四種組合類型,不再詳述。
(1) 關(guān)系定語從句
(2) 同位定語從句
同位定語從句分為長定語從句和短定語從句。
實驗時,按照前述定語從句句法結(jié)構(gòu)特征,歸納分析其在語料中的左右邊界規(guī)則和內(nèi)部構(gòu)成間的共現(xiàn)關(guān)系規(guī)則,構(gòu)建定語從句識別規(guī)則集。根據(jù)識別規(guī)則集,對標(biāo)注語料進(jìn)行匹配運(yùn)算,自動識別出定語從句。在此過程中,分析錯誤的識別結(jié)果,迭代完善規(guī)則集,最終自動識別出定語從句。具體流程如圖3所示。
圖3 韓國語定語從句自動識別實驗流程圖
本文所用語料共80萬句,來源于兩處:①韓國政府為推動韓文信息化發(fā)展,自1998年開始實施、2007年建成的“21世紀(jì)世宗計劃”標(biāo)注語料庫。該語料庫涵蓋新聞、小說、雜志等。本文從中選取了50萬句。②網(wǎng)站抓取、后期整理后,獲得政治、軍事、外交、安全、經(jīng)濟(jì)、科技等新聞?wù)Z句,利用UTagger分詞器(標(biāo)注體系與“21世紀(jì)世宗計劃”標(biāo)注語料相同)進(jìn)行分詞處理,得到30萬句標(biāo)注語料。
本文自動識別的對象是定語從句,其基本結(jié)構(gòu)為“謂詞+ETM+NP”。謂詞分為單一謂詞和復(fù)合謂詞,在所用的標(biāo)注語料中,單一動詞、形容詞被標(biāo)記為VV、VA,派生動詞、派生形容詞的標(biāo)記為“NNG -XSV、NNG -XSA”,合成動詞、合成形容詞的標(biāo)記為VV-EC-VV|VX、VA-EC-VA|VX。為方便后期處理,在實驗之初,使用正則表達(dá)式將復(fù)合動詞、復(fù)合形容詞的標(biāo)記形式統(tǒng)一替換為VV和VA。
表1 慣用型詞表
續(xù)表
定語從句的識別規(guī)則包含左右邊界規(guī)則和從句內(nèi)部結(jié)構(gòu)的共現(xiàn)關(guān)系規(guī)則。
3.2.1韓國語定語從句的左右邊界規(guī)則
根據(jù)第二節(jié)分析的定語從句句法結(jié)構(gòu)特征,觀察其在語料中的左右邊界特征表現(xiàn),并借此來界定定語從句。
(1) 左邊界界定
通過觀察語料及實驗迭代分析,發(fā)現(xiàn)定語從句的左邊界存在以下情況:
① 句子以定語從句開頭,左邊緊鄰詞不存在。
② 左邊界緊鄰詞為連接詞尾EC
EC作為連接復(fù)句的標(biāo)志詞,可作為其后定語從句的左邊界。
③ 左邊界緊鄰詞為冠形詞形詞尾ETM
該類定語從句含有雙(多)重定語,本文從基本單元入手,分層級解決嵌套問題。
④ 左邊界緊鄰詞為補(bǔ)助詞JX
句中出現(xiàn)兩個主語,主句的主語出現(xiàn)在從句的主語前,充當(dāng)從句的左邊界。
⑤ 左邊界緊鄰詞為主格助詞JKS
⑥ 左邊界緊鄰詞為副詞格助詞JKB
⑦ 左邊界緊鄰詞為賓格助詞JKO
⑧ 左邊界緊鄰詞為逗號SP、括號SS、特殊符號SW等
(2) 右邊界界定
① 關(guān)系定語從句的右邊界界定
② 同位定語從句的右邊界界定
3.2.2韓國語定語從句內(nèi)部構(gòu)成的共現(xiàn)關(guān)系規(guī)則
根據(jù)3.2.1中的左右邊界規(guī)則,得到了基本的定語從句,但對于含主語、狀語、賓語等修飾成分的句子,無法判斷主語等成分歸屬于主句還是從句。本文輔以定語從句內(nèi)部構(gòu)成間的共現(xiàn)關(guān)系規(guī)則解決這一問題。
(1) 根據(jù)語言學(xué)特征,結(jié)合在語料中的觀察分析,得到確定的共現(xiàn)關(guān)系規(guī)則有四條:
② 根據(jù)左右邊界規(guī)則抽取出的成分中,如含有兩個主語(出現(xiàn)兩個JKS),前一個JKS標(biāo)識的主語歸屬于主句,后一個JKS標(biāo)識的主語歸屬于從句;
③ 根據(jù)左右邊界規(guī)則抽取出的成分,如是同位定語從句,主語、狀語、賓語等修飾成分歸屬于從句;
(2) 對于無法確定歸屬的定語從句,計算內(nèi)部構(gòu)成成分間的共現(xiàn)頻率,根據(jù)頻率值來近似地估計各成分間的緊密關(guān)系,以判斷其歸屬。下面以判斷【NP+JKS】是否歸屬于形容詞類AM定語從句為例進(jìn)行說明。
在形容詞類AM定語從句中,首先找到主語成分【NP+JKS】,其出現(xiàn)在ETM前,將該NP賦值為a1,然后找到定語從句的中心詞,將該中心詞賦值為a2,將AM中的形容詞賦值為a3。計算并比較共現(xiàn)概率Count(a1,a3)/Count(a1)*Count(a3)與Count(a2,a3)/Count(a2)*Count(a3)。如果Count(a1,a3)/Count(a1)*Count(a3)的值大于Count(a2,a3)/Count(a2)*Count(a3),則認(rèn)定主語成分【NP+JKS】與形容詞的結(jié)合緊密度高于被修飾的中心詞,【NP+JKS】歸屬于定語從句。反之,【NP+JKS】歸屬于主句。實驗時,為解決數(shù)據(jù)稀疏問題,本文采用了加一平滑,對每個統(tǒng)計項都進(jìn)行了加一處理[15]。
根據(jù)定語從句的識別規(guī)則集,對80萬實驗語料進(jìn)行匹配運(yùn)算,實現(xiàn)了定語從句的自動識別。將其中部分結(jié)果翻譯展示如表2所示。
表2 定語從句自動識別實驗結(jié)果表
為驗證規(guī)則的可行性,本文借助了廣泛應(yīng)用于信息檢索和統(tǒng)計學(xué)分類領(lǐng)域的正確率(P值)、召回率(R值),以及二者的加權(quán)平均F值,用來評價實驗結(jié)果[16]。評測時,另外從新聞、小說、雜志三類語料中分別選取了500句進(jìn)行實驗,然后將人工分析得到的結(jié)果與程序自動識別的結(jié)果相比較,結(jié)果如表3所示。
表3 實驗結(jié)果比對表
分別計算P、R、F的值結(jié)果如表4所示。
表4 實驗評測結(jié)果表
經(jīng)過比較分析,得到了實驗中錯誤識別的定語從句有以下三個類型。
(1) 特殊符號(SW)導(dǎo)致的錯誤
(3) 語料標(biāo)注錯誤
本文通過分析定語從句的句法結(jié)構(gòu)特征,對其左右邊界和內(nèi)部構(gòu)成成分的共現(xiàn)關(guān)系進(jìn)行歸納總結(jié),構(gòu)建了定語從句識別規(guī)則集,實現(xiàn)了定語從句的自動識別。從嵌套類復(fù)句中自動離析出定語從句,為提高韓漢機(jī)器翻譯、信息檢索等應(yīng)用系統(tǒng)的效能打下了堅實的基礎(chǔ)。
本文主要討論了單句作定語從句的情況,針對復(fù)句作定語及多重定語問題,以后將做進(jìn)一步的分析研究。
[1]吳鋒文.漢語復(fù)句信息處理研究二十年[J].中文信息學(xué)報,2015,29(1):13-18.
[2]張仕仁.漢語復(fù)句的結(jié)構(gòu)分析[J].中文信息學(xué)報,1994,8(4):43-54.
[3]胡金柱,舒江波,姚雙云,等.面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J].計算機(jī)工程與科學(xué),2009,37(10):90-93.
[4]劉洋,畢玉德,李健.基于句法知識的復(fù)句解構(gòu)對韓漢復(fù)句機(jī)器翻譯改進(jìn)芻議[J].洛陽師范學(xué)院學(xué)報,2017,36(2):49-53.
[5]劉洋,畢玉德,李健.基于語言知識的韓國語復(fù)句自動識別策略及實現(xiàn)[J].東北亞外語研究,2017,17(2):42-49.
[6]安帥飛,畢玉德.韓國語名詞短語結(jié)構(gòu)特征分析及自動提取[J].中文信息學(xué)報,2013,27(5):205-210.
[7](韓)李翊燮.韓國語語法[M].郭一誠,譯.北京:世界圖書出版公司,2012:331.
[9]張光軍,江波,李翊燮.韓國的語言[M].北京:北京大學(xué)出版社,2009:311-312.
[11]畢玉德.現(xiàn)代韓國語動詞語義組合關(guān)系研究[M].北京:民族出版社,2005:27-28.
[13]韋旭升,許東振.新編韓國語實用語法[M].北京:外語教學(xué)與研究出版社,2006:613-617.
[14]李姬子,李鐘禧.韓國語助詞和詞尾詞典[M].張光軍,譯.北京:外語教學(xué)與研究出版社,2010.
[15]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008:78-79.
[16]馮志偉,胡鳳國.數(shù)理語言學(xué)[M].北京:商務(wù)印書館,2012:367.
安帥飛(1991—),博士研究生,主要研究領(lǐng)域為自然語言處理、模塊識別。E-mail:anshuaifei2013@sina.cn
畢玉德(1967—),教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理、韓國語句法語義學(xué)。E-mail:biyude@gmail.com
張婷(1984—),博士研究生,主要研究領(lǐng)域為自然語言處理、領(lǐng)域本體構(gòu)建。E-mail:tinaam@sina.com