• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漢語(yǔ)內(nèi)層最長(zhǎng)名詞短語(yǔ)的識(shí)別研究

      2019-06-10 06:30:52錢(qián)小飛
      關(guān)鍵詞:歧義層級(jí)短語(yǔ)

      錢(qián)小飛

      (上海大學(xué) 文學(xué)院,上海200444)

      一、引言

      漢語(yǔ)信息處理領(lǐng)域所關(guān)注的名詞短語(yǔ)主要包括基本名詞短語(yǔ)和最長(zhǎng)名詞短語(yǔ)。 基本名詞短語(yǔ)內(nèi)部結(jié)構(gòu)相對(duì)簡(jiǎn)單,其識(shí)別(趙軍、黃昌寧 1999b;徐艷華 2008)和分析(趙軍、黃昌寧 1999a;張瑞霞、張蕾 2004)研究都取得了較好的效果。 最長(zhǎng)名詞短語(yǔ)內(nèi)部結(jié)構(gòu)復(fù)雜,20 世紀(jì)90 年代以及2000 年的研究主要集中在識(shí)別上(Chen&Chen 1994;李文捷等 1995;周強(qiáng)等 2000),之后,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的應(yīng)用使得最長(zhǎng)名詞短語(yǔ)識(shí)別的效果得到了很大提升(Baiet al. 2006;馮沖等 2006;代翠等 2008;鑒萍、宗成慶 2009;Zhanget al. 2010)。然而,針對(duì)漢語(yǔ)最長(zhǎng)名詞短語(yǔ)內(nèi)部結(jié)構(gòu)的分析研究還不多見(jiàn)。代翠(2009:42)使用條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱(chēng) CRF)模型對(duì)漢語(yǔ)最長(zhǎng)名詞短語(yǔ)作了完全分析,取得了75.6%的分析正確率,但分析和評(píng)測(cè)都沒(méi)有針對(duì)名詞性成分,而名詞性成分是揭示句法語(yǔ)義結(jié)構(gòu)的重要內(nèi)容,也是句法分析的難點(diǎn)。

      漢語(yǔ)內(nèi)層最長(zhǎng)名詞短語(yǔ)(inner Maximal Noun Phrase,簡(jiǎn)稱(chēng) iMNP)識(shí)別的目標(biāo)是在標(biāo)注了表層最長(zhǎng)名詞短語(yǔ)(surface Maximal Noun Phrase, 簡(jiǎn)稱(chēng) sMNP)的句子中,分析出其內(nèi)部多層次的最長(zhǎng)名詞性成分,即位于最長(zhǎng)名詞短語(yǔ)之中,而又不直接被名詞短語(yǔ)包含的名詞性成分(錢(qián)小飛、侯敏 2017: 131),如例(1)中的“藝術(shù)/n”:

      (1) {藝術(shù)/n 對(duì)象/n}創(chuàng)造/v 出/vB{懂得/v[藝術(shù)/n]和/c 能夠/vM 欣賞/v[藝術(shù)/n]的/u 大眾/n}。 /。①本文例句(包括其中詞性標(biāo)記)均來(lái)自于清華漢語(yǔ)樹(shù)庫(kù)。為了便于讀者區(qū)分內(nèi)層和表層最長(zhǎng)名詞短語(yǔ),筆者使用{ }標(biāo)識(shí)表層最長(zhǎng)名詞短語(yǔ),使用[ ]標(biāo)識(shí)內(nèi)層最長(zhǎng)名詞短語(yǔ)。

      由于 iMNP 數(shù)量相對(duì)較少,邊界成分的鄰接概率較低,本文采用 CRF 模型和基本名詞塊提升規(guī)則相結(jié)合的 iMNP 識(shí)別方法,以緩解數(shù)據(jù)稀疏、結(jié)構(gòu)歧義和邊界歧義等問(wèn)題,改善識(shí)別效果。

      二、iMNP 的層級(jí)分布

      由于漢語(yǔ)名詞短語(yǔ)構(gòu)造復(fù)雜,iMNP 呈現(xiàn)出多層級(jí)分布。 例如,最長(zhǎng)名詞短語(yǔ)“{貫徹/v 落實(shí)/v[ 1鄧小平/nP 同志/n 關(guān)于/p [ 2 建設(shè)/v [ 3 有/v [ 4 中國(guó)/nS 特色/n ] 的/u 社會(huì)主義/n ] 的/u 思想/n ] 和/c十四大/nR 精神/n ] 方面/n}”,其中的阿拉伯?dāng)?shù)字標(biāo)識(shí)了 iMNP 的不同層次。 根據(jù)對(duì)清華漢語(yǔ)樹(shù)庫(kù)(Tsinghua Chinese Treebank,簡(jiǎn)稱(chēng)TCT)的統(tǒng)計(jì),iMNP 共計(jì)28065 例,分布在四個(gè)不同的層次上。

      iMNP 具有明顯的層級(jí)分布傾向性,分布在第一層的iMNP 占95.22%;分布在第二層的 iMNP占4.64%;分布在第三、四層的iMNP 數(shù)量很少,所占比例分別為0.14%和0.01%(錢(qián)小飛、侯敏2017:132)。 因此,第一、二層尤其是第一層是 iMNP 識(shí)別的重點(diǎn)。

      分布在第一層的 iMNP 主要由含“的”名詞短語(yǔ)引入。 而分布在第二、三、四層的 iMNP 不僅可由含“的”名詞短語(yǔ)內(nèi)嵌主謂、動(dòng)賓或介賓等結(jié)構(gòu)構(gòu)造而成,同時(shí)主謂、動(dòng)賓結(jié)構(gòu)直接作定語(yǔ)也是一種重要嵌套因素。

      復(fù)雜短語(yǔ)及其變體參與構(gòu)造最長(zhǎng)名詞短語(yǔ)可使得結(jié)構(gòu)嵌套更深,如例(2):

      (2){上海/nS}在/p{貫徹/v 落實(shí)/v[鄧小平/nP 同志/n 關(guān)于/p[建設(shè)/v[有/v[中國(guó)/nS 特色/n]的/u 社會(huì)主義/n]的/u 思想/n]和/c 十四大/nR 精神/n]方面/n}很/dD 積極/a,/,很/dD 認(rèn)真/a,/,很/dD 有/v{成效/n},/,

      當(dāng)然,一些括號(hào)、引號(hào)等標(biāo)點(diǎn)符號(hào)以及并列結(jié)構(gòu)參與構(gòu)造最長(zhǎng)名詞短語(yǔ),也容易使得結(jié)構(gòu)復(fù)雜化,從而形成深度嵌套。

      三、iMNP 識(shí)別的難點(diǎn)與策略

      (一)識(shí)別難點(diǎn)

      盡管 iMNP 識(shí)別具備一些有利條件,比如其平均長(zhǎng)度(2.21 詞)比 sMNP(3.03 詞)小(錢(qián)小飛、侯敏2017:132), 同時(shí)還具有非常明顯的左鄰接詞類(lèi)特征, 大多數(shù) iMNP 分布在動(dòng)詞和介詞之后, 但是 iMNP 識(shí)別也有其自身的難點(diǎn)。 現(xiàn)擇要例舉如下:

      第一,數(shù)據(jù)相對(duì)稀疏。相較于 sMNP,iMNP 的數(shù)量較少,位于深層次(第二、三、四層)的數(shù)據(jù)尤為稀缺,這增加了統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法和實(shí)例性規(guī)則應(yīng)用的難度。

      第二,iMNP 呈現(xiàn)多層級(jí)結(jié)構(gòu),如何選擇合適的分析策略是一個(gè)重要問(wèn)題。

      第三,從某一層的結(jié)構(gòu)來(lái)看,iMNP 的邊界歧義主要表現(xiàn)為左邊界處的動(dòng)詞介詞內(nèi)含型歧義、名詞邊界歧義和量名邊界歧義。

      具體而言,第三個(gè)難點(diǎn)又包括多種情形,現(xiàn)例舉其中五種:

      1)名詞性成分+動(dòng)詞性成分+De+中心語(yǔ)

      動(dòng)詞介詞內(nèi)含型歧義。常見(jiàn)結(jié)構(gòu)是名詞性成分作動(dòng)詞性成分的主語(yǔ),形成主謂結(jié)構(gòu)作定語(yǔ)。然而,名詞性成分也可以作為其后定中結(jié)構(gòu)的修飾語(yǔ),如“廠(chǎng)房/n 高聳/v 的/u 煙囪/n”。

      2)代詞+名詞短語(yǔ)+方位詞+[謂語(yǔ)]②此處[ ]表示其中成分可出現(xiàn)也可不出現(xiàn)。+De+中心語(yǔ)

      名詞邊界歧義。 代詞和名詞短語(yǔ)之間形成連續(xù)的名詞邊界歧義,如“這/rN [ 實(shí)際/n ] 上/f 虛無(wú)縹緲/iV 的/u 海市/n”。

      3)代詞+主語(yǔ)+謂語(yǔ)+De+中心語(yǔ)

      名詞邊界歧義。 代詞和主語(yǔ)之間形成連續(xù)的名詞邊界歧義,如“那些/rN [ 品質(zhì)/n ] 低劣/a 的/u 藥材/n”。

      4)量詞+名詞短語(yǔ)+ 方位詞+ [謂語(yǔ)]②+ De + 中心語(yǔ)

      量名邊界歧義。 量詞和名詞短語(yǔ)之間形成連續(xù)的量名邊界歧義,如“一/m 顆/qN [ 藥典/n ] 上/f 沒(méi)有/v 的/u 定心丸/n”。

      5)量詞+ 主語(yǔ)+ 謂語(yǔ)+ De + 中心語(yǔ)

      量名邊界歧義。 量詞在 sMNP 中一般不充當(dāng)左鄰接詞, 但在iMNP 中這種歧義現(xiàn)象較為常見(jiàn),如“一/m 杯/n [ 香味/n ] 濃郁/a 的/u 雀巢/nR 咖啡/n”。

      上述歧義類(lèi)型大都是謂詞性結(jié)構(gòu)嵌入名詞短語(yǔ)所形成的線(xiàn)性表現(xiàn),與關(guān)于謂詞性成分是構(gòu)造復(fù)雜最長(zhǎng)名詞短語(yǔ)的重要因素的論斷一致。 相較于 sMNP,iMNP 雖然也存在連續(xù)的動(dòng)詞或介詞邊界歧義,但是比例較低。

      (二)識(shí)別策略

      識(shí)別策略的確定需要著重考慮以下兩個(gè)方面的問(wèn)題:一是如何識(shí)別多層級(jí)結(jié)構(gòu);二是如何降低數(shù)據(jù)稀疏、結(jié)構(gòu)歧義和邊界歧義可能造成的影響。

      多層級(jí)結(jié)構(gòu)的識(shí)別有兩種策略可供選擇:第一種是不分層識(shí)別,一次性識(shí)別所有的邊界位置;第二種是分層識(shí)別,由上至下逐一識(shí)別每一層的iMNP。 我們選擇分層識(shí)別策略,理由如下:

      其一,不分層識(shí)別主要存在兩個(gè)局限性:一是不能保證左右邊界數(shù)量相同,識(shí)別完成后需要對(duì)左右邊界重新匹配;二是iMNP 也存在邊界重疊的現(xiàn)象,比如“是/vC 在/p [ [ 通貨膨脹/n ] 長(zhǎng)期/d 威脅/v的/u 背景/n ] 下/f 發(fā)展/v 起來(lái)/vB 的/u”。 不分層識(shí)別通常只能識(shí)別邊界位置,而不能確定一個(gè)邊界位置上的邊界數(shù)量。

      其二,iMNP 的多層級(jí)結(jié)構(gòu)呈現(xiàn)明顯的傾向性分布特征,分布在第一層的iMNP 達(dá)到95.22%,因此 iMNP 的識(shí)別效果基本取決于第一層結(jié)構(gòu)的識(shí)別效果。 在某種意義上,這對(duì)于解決多層級(jí)識(shí)別中的數(shù)據(jù)稀疏問(wèn)題是一個(gè)有利條件。如果能夠找到其他方式對(duì)深層結(jié)構(gòu)的數(shù)據(jù)進(jìn)行補(bǔ)充,即可通過(guò)多層級(jí)的方式完成 iMNP 的識(shí)別。

      我們發(fā)現(xiàn),iMNP 與基本名詞塊③基本名詞塊是基本塊(Base Chunk)中的名詞塊,包括雙詞或多詞構(gòu)造的基本名詞短語(yǔ)和單個(gè)名詞實(shí)現(xiàn)的基本塊。有著較好的映射關(guān)系,在 TCT 中,約82%的 iMNP 由基本名詞塊直接實(shí)現(xiàn),而基本名詞塊可以在整個(gè)句子范圍內(nèi),而非上一層 iMNP 范圍內(nèi)進(jìn)行訓(xùn)練,數(shù)據(jù)量較為充足。 因此,借助對(duì)基本名詞塊映射為 iMNP 條件的判斷,可以召回部分漏識(shí)的 iMNP,并取消部分錯(cuò)誤識(shí)別的 iMNP 的資格。

      四、多層級(jí) iMNP 識(shí)別

      (一)系統(tǒng)流程

      多層級(jí) iMNP 識(shí)別的基本思路是在識(shí)別上一層 iMNP 的基礎(chǔ)上,識(shí)別當(dāng)前層次的 iMNP,直至達(dá)到規(guī)定的訓(xùn)練深度,或者無(wú)法發(fā)現(xiàn)當(dāng)前層次存在目標(biāo)結(jié)構(gòu)為止,基本流程如圖1 所示:

      圖1 多層級(jí) iMNP 識(shí)別流程圖

      在圖1 左部的訓(xùn)練模塊中,所獲取的“第i 層訓(xùn)練語(yǔ)料”并不是完整的句子,而是標(biāo)注了第i 層iMNP 信息的第i-1 層iMNP。 在圖1 右部的測(cè)試模塊中,“更新測(cè)試語(yǔ)料”是指將已識(shí)別的第i 層iMNP的邊界信息寫(xiě)入測(cè)試語(yǔ)料。

      (二)特征及標(biāo)記集

      在統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型中,支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱(chēng)SVM)和 CRF 模型都能較好地克服數(shù)據(jù)稀疏問(wèn)題。 相較于 sMNP,iMNP 長(zhǎng)度較小,絕大部分 iMNP 的內(nèi)部結(jié)構(gòu)更接近于基本名詞塊。根據(jù)徐昉等(2007)、年洪東(2009)的研究,在基本名詞短語(yǔ)識(shí)別上,相較于 CRF 模型,SVM 沒(méi)有特別的優(yōu)勢(shì)。 因此,本文采用 CRF 模型④本文采用的條件隨機(jī)場(chǎng)工具包是由日本松本實(shí)驗(yàn)室 Taku Kudo 博士開(kāi)發(fā)的CRF++(version 0.51)。,并且為每一層結(jié)構(gòu)設(shè)置獨(dú)立的標(biāo)記集,同時(shí)允許不同的模板設(shè)置。 分層特征選擇如表1 所示:

      表1 分層特征選擇

      表1“標(biāo)記集”列中,B 表示 iMNP 的起始詞位置,I 表示除起始詞位置之外的位置,M 表示除起始詞和結(jié)束詞位置之外的中間位置,E 表示 iMNP 結(jié)束詞位置,O 表示iMNP 外部,S 表示單詞 iMNP。 經(jīng)過(guò)調(diào)試,iMNP 識(shí)別在特征窗口[-2,2]能夠取得較好效果,使用的特征包括詞語(yǔ)和詞類(lèi)。

      五、基于規(guī)則的修正

      iMNP 總量不足sMNP 的1/6(錢(qián)小飛、侯敏 2017:132),數(shù)據(jù)稀疏、結(jié)構(gòu)歧義和邊界歧義可能造成錯(cuò)識(shí)和漏識(shí)問(wèn)題。 鑒于此,我們引入規(guī)則來(lái)修正識(shí)別結(jié)果。

      (一)iMNP 與基本名詞塊

      研究基本名詞塊實(shí)現(xiàn)為 iMNP 的條件有助于將基本名詞塊確認(rèn)為 iMNP,同時(shí)也有助于否決錯(cuò)誤識(shí)別的 iMNP。 我們把基本名詞塊確認(rèn)為 iMNP 的過(guò)程稱(chēng)作基本名詞塊的提升。

      iMNP 與基本名詞塊的關(guān)系可從實(shí)現(xiàn)關(guān)系和層次分布兩個(gè)方面進(jìn)行考察。 從實(shí)現(xiàn)關(guān)系來(lái)看,TCT中由基本名詞塊直接實(shí)現(xiàn)的 iMNP 的比例遠(yuǎn)大于 sMNP(65%)。從層次分布來(lái)看,基本名詞塊可以分布于各個(gè)層次,尤其是第一層和最內(nèi)層。 這使得基本名詞塊具備了提升為各個(gè)層次 iMNP 的可能,從而有望改善發(fā)生在各個(gè)層次上的錯(cuò)識(shí)和漏識(shí)問(wèn)題。 請(qǐng)看例(3):

      (3)當(dāng)/p[[2 川/n]上/f 有/vJY[2 水/n ]澆/v[2 地/n ]的/u 富/a 隊(duì)/n ]來(lái)/v[1 糧站/n ]賣(mài)/v[1 糧/n]的/u 時(shí)候/n

      在例(3)中,第一層有兩個(gè) iMNP 與基本名詞塊重合,第二層有三個(gè)iMNP 與基本名詞塊重合。

      (二)基本名詞塊提升規(guī)則

      1.上下文提升規(guī)則

      為了判斷基本名詞塊是否可以提升為 iMNP,我們根據(jù)經(jīng)驗(yàn)編寫(xiě)了由基本名詞塊的上下文信息組成的 74 條上下文提升規(guī)則,規(guī)則形式可以描述如下:

      (4) [attrib_loc_val]+→judgement

      (4)中箭頭前部分表示條件;箭頭后部分表示如果基本名詞塊符合該條件,應(yīng)該執(zhí)行的動(dòng)作或者判斷;[]+表示該規(guī)則可以有多個(gè)條件。在條件部分,attrib 表示屬性,包括詞形word、詞類(lèi)tag、詞形詞類(lèi)wordtag 三種類(lèi)型;loc 表示上下文相對(duì)于當(dāng)前基本名詞塊的位置,值為 0 時(shí)表示 iMNP 中心詞位置;val表示屬性值。 在動(dòng)作部分,當(dāng)judgement 的值為 MT 時(shí),表示提升該基本名詞塊;當(dāng) judgement 的值為 MF 時(shí),表示否決該基本名詞塊。 請(qǐng)看(5)—(7):

      (5)tag_-1_v tag_1_v →MT

      (6)wordtag_-1_在/p wordtag_1_里邊/f →MT

      (7)tag_-1_、tag_1_c →MF

      (5)表示當(dāng)基本名詞塊前一個(gè)詞和后一個(gè)詞均是動(dòng)詞時(shí),將該基本名詞塊提升為 iMNP。 (6)表示當(dāng)基本名詞塊前一個(gè)詞是介詞“在”,后一個(gè)詞是后置詞(方位詞)“里邊”時(shí),將該基本名詞塊提升為 iMNP。(7)表示當(dāng) iMNP(可與基本名詞塊重合)前一個(gè)詞是頓號(hào),后一個(gè)詞是連詞時(shí),否決該基本名詞塊。

      2.限制性規(guī)則

      盡管上下文提升規(guī)則的設(shè)計(jì)較為可靠,但是仍然無(wú)法完全避免句法歧義等問(wèn)題的影響。 比如,當(dāng)“名詞性成分+動(dòng)詞性成分+De+中心語(yǔ)”結(jié)構(gòu)位于賓語(yǔ)位置時(shí),上下文提升規(guī)則對(duì)于消解歧義顯得力不從心,很容易將其中作修飾語(yǔ)的名詞性成分提升為 iMNP。 因此,我們編制了一個(gè)動(dòng)詞配價(jià)表,收錄了9955 個(gè)動(dòng)詞的配價(jià)信息,并利用這些信息設(shè)計(jì)了3 條限制性規(guī)則,以降低上下文提升規(guī)則的使用風(fēng)險(xiǎn):

      一是當(dāng)loc_-1 位置上的動(dòng)詞為一價(jià)動(dòng)詞,或者不具有帶賓語(yǔ)的能力時(shí),禁止使用上下文提升規(guī)則。

      二是在“名詞性成分+動(dòng)詞性成分+De+中心語(yǔ)”結(jié)構(gòu)中,當(dāng)動(dòng)詞性成分為一價(jià)動(dòng)詞時(shí),禁止使用上下文提升規(guī)則。

      三是在“名詞性成分+任意成分+De+中心語(yǔ)”結(jié)構(gòu)中,當(dāng)“任意成分”不包含動(dòng)詞時(shí),禁止使用上下文提升規(guī)則。

      3.結(jié)構(gòu)化提升規(guī)則

      因?yàn)閕MNP 多由外層含De 最長(zhǎng)名詞短語(yǔ)所包含,所以本文所設(shè)計(jì)的5 條結(jié)構(gòu)化提升規(guī)則主要針對(duì)含De 結(jié)構(gòu)。 當(dāng)“v bnc1De bnc2”“p bnc1De v”“v bnc1De v”結(jié)構(gòu)實(shí)現(xiàn)為最長(zhǎng)名詞短語(yǔ)時(shí),其中的bnc1都可以提升為iMNP。此外,當(dāng)上層iMNP 只包含一個(gè)De,De 前只有一個(gè)動(dòng)詞或介詞時(shí),將位于De 前、動(dòng)詞或介詞后的基本名詞塊提升為iMNP;當(dāng)上層iMNP 只包含一個(gè)De,De 前只有一個(gè)介詞,而沒(méi)有動(dòng)詞和形容詞時(shí),取消介詞前iMNP 的資格。

      (三)識(shí)別算法

      基本名詞塊提升在多層級(jí)iMNP 識(shí)別完成后進(jìn)行,識(shí)別算法如下:

      輸入:多層級(jí)iMNP 識(shí)別結(jié)果、基本名詞短語(yǔ)識(shí)別結(jié)果和基本名詞塊提升規(guī)則庫(kù)

      輸出:iMNP 最終識(shí)別結(jié)果

      1) 順序掃描句子中每一個(gè)基本名詞塊NBCi⑤單詞基本名詞塊在掃描過(guò)程中直接識(shí)別。

      2) 如果NBCi與最長(zhǎng)名詞短語(yǔ)MNPj不重合且不交疊

      3) 在限制性規(guī)則約束下,若匹配上下文提升規(guī)則成功,將NBCi提升為iMNP

      4) 若匹配結(jié)構(gòu)化提升規(guī)則成功,將NBCi提升為iMNP

      5) 輸出識(shí)別結(jié)果

      六、實(shí)驗(yàn)結(jié)果及分析

      (一)多層級(jí)iMNP 識(shí)別效果及分析

      為了檢驗(yàn)識(shí)別系統(tǒng)的性能,我們先采用隨機(jī)抽樣程序?qū)CT 語(yǔ)料進(jìn)行了5 次隨機(jī)抽樣,每個(gè)樣本的容量設(shè)置為2000 句。 然后,將樣本集合中每4 個(gè)樣本合并為訓(xùn)練語(yǔ)料,剩余1 個(gè)樣本作為測(cè)試語(yǔ)料,構(gòu)造5 組訓(xùn)練測(cè)試語(yǔ)料對(duì),在正確標(biāo)注sMNP 的基礎(chǔ)上識(shí)別iMNP,并進(jìn)行5 折交叉驗(yàn)證,結(jié)果如表2 所示:

      表2 多層級(jí)iMNP 識(shí)別結(jié)果

      續(xù)表2

      實(shí)驗(yàn)取得了85.60%的結(jié)構(gòu)正確率(ST_prc)和77.49%的結(jié)構(gòu)召回率(ST_rec),結(jié)構(gòu)F1 值為81.34%。我們發(fā)現(xiàn),相較于數(shù)據(jù)稀疏,結(jié)構(gòu)歧義和邊界歧義才是造成iMNP 識(shí)別錯(cuò)誤的深層次原因,而數(shù)據(jù)稀疏加劇了兩者的影響。 識(shí)別錯(cuò)誤包括以下幾個(gè)方面:

      其一,上層結(jié)構(gòu)識(shí)別錯(cuò)誤對(duì)下層結(jié)構(gòu)造成不利影響,即上層結(jié)構(gòu)的一個(gè)識(shí)別錯(cuò)誤會(huì)影響到多個(gè)下層結(jié)構(gòu)的識(shí)別。

      其二,聯(lián)合結(jié)構(gòu)造成邊界歧義。 iMNP 內(nèi)部聯(lián)合結(jié)構(gòu)較多,識(shí)別錯(cuò)誤主要包括三種情況:一是并列名詞短語(yǔ)被錯(cuò)誤地切開(kāi);二是包含動(dòng)詞性結(jié)構(gòu)的短語(yǔ)和名詞短語(yǔ)并列造成的識(shí)別錯(cuò)誤,如當(dāng)名詞短語(yǔ)和主謂結(jié)構(gòu)并列時(shí),并列項(xiàng)和主語(yǔ)被錯(cuò)誤識(shí)別為iMNP;三是動(dòng)賓結(jié)構(gòu)和主謂結(jié)構(gòu)并列時(shí),賓語(yǔ)和主語(yǔ)被錯(cuò)誤識(shí)別為iMNP。

      其三,“v n n”潛在歧義格式。 “v n n”作名詞短語(yǔ),常常被錯(cuò)誤劃分為“v [ n n ]”,主要包括兩種情況:一種是較為常見(jiàn)的多詞塊,如“反/v [ 腐敗/n 斗爭(zhēng)/n ]”;另一種是特殊句法位置上的臨時(shí)組合,如“那/rN 已/d 被/p 丑化/v 的/u 讀/v [ 書(shū)/n 姑娘/n ]”中的“讀/v [ 書(shū)/n 姑娘/n ]”。

      其四,De 后主謂結(jié)構(gòu)的干擾。 De 后名詞短語(yǔ)作最長(zhǎng)名詞短語(yǔ)的中心語(yǔ),但是諸如“一/m 門(mén)/qN 在/p[ 理論化/vN 和/c 數(shù)量化/vN 基礎(chǔ)/n ] 上/f,/,進(jìn)一步/d 綜合化/v、/、生態(tài)化/v、/、社會(huì)化/v 的/u 理論/n 與/c應(yīng)用/vN 并舉/v 的/u 兩棲/b 科學(xué)/n”的結(jié)構(gòu)使De 后名詞短語(yǔ)的歸屬發(fā)生了歧義。

      其五,iMNP 的特殊歧義序列造成識(shí)別錯(cuò)誤。比如,“名詞性成分+動(dòng)詞性成分+De+中心語(yǔ)”的潛在歧義造成模型無(wú)法判斷名詞性成分什么時(shí)候應(yīng)該被識(shí)別為iMNP,什么時(shí)候不應(yīng)該被識(shí)別為iMNP。當(dāng)然,模型無(wú)法考慮該序列的上下文特征,如左鄰接動(dòng)詞和中心詞的搭配特征,這也是造成識(shí)別錯(cuò)誤的一個(gè)原因。

      (二)基本名詞塊提升規(guī)則的修正效果及分析

      因?yàn)榛久~塊的中心詞構(gòu)成較為封閉,主要為名詞,所以在識(shí)別基本名詞短語(yǔ)的基礎(chǔ)上,其外部的單個(gè)名詞均可作為單詞基本名詞塊。 鑒于此,我們首先采用CRF 分類(lèi)器基于BMEO 標(biāo)記集對(duì)測(cè)試語(yǔ)料中的基本名詞短語(yǔ)進(jìn)行預(yù)標(biāo)注,取得了90.83%的結(jié)構(gòu)正確率和92.63%的結(jié)構(gòu)召回率,結(jié)構(gòu)F1值為91.72%。

      基本名詞塊提升實(shí)驗(yàn)采用自動(dòng)標(biāo)注了iMNP 及基本名詞短語(yǔ),且正確標(biāo)注了sMNP 的5 份測(cè)試語(yǔ)料。實(shí)驗(yàn)采用了82 條修正規(guī)則,其中,上下文提升規(guī)則74 條,限制性規(guī)則3 條,結(jié)構(gòu)化提升規(guī)則5 條。實(shí)驗(yàn)結(jié)果如表3 所示:

      表3 修正實(shí)驗(yàn)結(jié)果

      續(xù)表3

      修正規(guī)則召回了部分漏識(shí)的簡(jiǎn)單結(jié)構(gòu),使得結(jié)構(gòu)召回率提高了1.22%,結(jié)構(gòu)F1 值提高了0.50%。然而,其對(duì)“m qN n v De”等名詞邊界歧義,“n、n v”等名詞短語(yǔ)與動(dòng)詞短語(yǔ)聯(lián)合的結(jié)構(gòu),“v n n”等動(dòng)賓結(jié)構(gòu)作定語(yǔ),還沒(méi)有辨別能力,仍然需要進(jìn)一步改進(jìn)。

      不容忽視的是,修正規(guī)則也導(dǎo)致了部分識(shí)別錯(cuò)誤,造成了結(jié)構(gòu)正確率有所下降。 本文在此僅例舉一種識(shí)別錯(cuò)誤,即限制性規(guī)則仍然無(wú)法完全約束“名詞性成分+動(dòng)詞性成分+De+中心語(yǔ)”結(jié)構(gòu)中“名詞性成分”作定語(yǔ)的條件,如“芬/nP 陰差陽(yáng)錯(cuò)/iV 的/u 婚姻/n”中包含一價(jià)動(dòng)詞,“芬/nP”作定語(yǔ)而非主語(yǔ),又如“范麗/nP 帶/v 著/u 抽泣/v 的/u 回答/vN”中包含二價(jià)動(dòng)詞,“范麗/nP”也是作定語(yǔ)而非主語(yǔ)。 由于限制性規(guī)則是上下文提升規(guī)則的附屬限制性條件,我們對(duì)5 份測(cè)試語(yǔ)料分別計(jì)算“上下文提升規(guī)則+限制性規(guī)則”和“結(jié)構(gòu)化提升規(guī)則”的錯(cuò)誤率⑥錯(cuò)誤率=(執(zhí)行規(guī)則導(dǎo)致的錯(cuò)誤結(jié)構(gòu)數(shù)÷執(zhí)行規(guī)則的總次數(shù))×100%。,結(jié)果如表4 所示:

      表4 修正規(guī)則的錯(cuò)誤率

      我們?cè)趯?shí)驗(yàn)過(guò)程中發(fā)現(xiàn),內(nèi)層名詞性成分的結(jié)構(gòu)并不像我們想象的那樣簡(jiǎn)單,其內(nèi)部仍然存在比較多的歧義,特別是結(jié)構(gòu)歧義和名詞邊界歧義,加之深層結(jié)構(gòu)數(shù)量比較少,導(dǎo)致識(shí)別錯(cuò)誤較多。盡管基本名詞塊提升規(guī)則能在一定程度上提高iMNP 的識(shí)別效果,但是其并不能完全化解所有歧義,因此需要更多句法語(yǔ)義知識(shí)的參與。

      七、結(jié)語(yǔ)

      綜上可知, 本文設(shè)計(jì)的多層級(jí)iMNP 識(shí)別系統(tǒng)借助CRF 模型和基本名詞塊提升規(guī)則, 取得了85.23%的結(jié)構(gòu)正確率和78.71%的結(jié)構(gòu)召回率, 可以為名詞短語(yǔ)理解和內(nèi)部語(yǔ)義角色標(biāo)注等奠定基礎(chǔ)。 然而,因?yàn)橄噍^于sMNP,iMNP 的數(shù)據(jù)更為稀疏,分布具有層級(jí)性,而相較于基本名詞塊,iMNP 的內(nèi)部結(jié)構(gòu)更為復(fù)雜, 所以iMNP 的識(shí)別方法還有待進(jìn)一步改進(jìn)。 除了進(jìn)一步提高分類(lèi)器的識(shí)別正確率,如采取多分類(lèi)器融合的方法提高統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的識(shí)別效果,還有必要在句法分析的過(guò)程中進(jìn)一步引入語(yǔ)言學(xué)規(guī)則,如在詞表中收錄含v 簡(jiǎn)單組塊,運(yùn)用上下文無(wú)關(guān)文法(Context-Free Grammar,簡(jiǎn)稱(chēng)CFG)規(guī)則驗(yàn)證上層iMNP 的識(shí)別結(jié)果,反饋并指導(dǎo)下層iMNP 的識(shí)別。

      感謝清華大學(xué)周強(qiáng)老師為本文研究提供TCT。

      猜你喜歡
      歧義層級(jí)短語(yǔ)
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      eUCP條款歧義剖析
      English Jokes: Homonyms
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      “那么大”的語(yǔ)義模糊與歧義分析
      尋求歧義研究的解釋力度:從認(rèn)知視角到社會(huì)視角——兼評(píng)《現(xiàn)代漢語(yǔ)歧義識(shí)別與消解的認(rèn)知研究》
      吉木乃县| 定陶县| 来宾市| 邯郸市| 连平县| 咸宁市| 涞源县| 青海省| 湾仔区| 蒲江县| 洪雅县| 酉阳| 射阳县| 共和县| 策勒县| 巢湖市| 武冈市| 阿克陶县| 定远县| 若羌县| 繁峙县| 治多县| 永昌县| 修文县| 兖州市| 青浦区| 修文县| 兴宁市| 弥勒县| 彩票| 东乡| 灵璧县| 罗江县| 遂昌县| 曲阜市| 应城市| 乌鲁木齐市| 桃园县| 安顺市| 连平县| 稷山县|