• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于條件隨機(jī)域和語(yǔ)義類(lèi)的中文組塊分析方法

    2011-03-14 06:48:30孫廣路薛一波
    關(guān)鍵詞:組塊語(yǔ)料庫(kù)語(yǔ)義

    孫廣路,郎 非,薛一波

    (1.清華大學(xué)信息技術(shù)研究院,100084北京,guanglu.sun@gmail.com; 2.哈爾濱理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,150080哈爾濱;3.哈爾濱理工大學(xué)外國(guó)語(yǔ)學(xué)院,150080哈爾濱)

    自然語(yǔ)言處理讓計(jì)算機(jī)能夠?qū)θ祟?lèi)語(yǔ)言進(jìn)行處理和結(jié)構(gòu)化,乃至完全理解人類(lèi)語(yǔ)言.其包含一系列關(guān)鍵技術(shù),以字、詞、短語(yǔ)、句子、篇章的順序逐層地對(duì)自然語(yǔ)句進(jìn)行標(biāo)記、分析和處理.這些技術(shù)主要有:字處理技術(shù)、分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、組塊分析、完全句法分析和語(yǔ)義分析等.

    組塊分析(chunking),也稱(chēng)作部分句法分析(partial parsing)或淺層句法分析(shallow parsing),由Abney提出[1].它以句子的詞法信息(包括分詞標(biāo)記和詞性標(biāo)記)為基礎(chǔ),對(duì)句子進(jìn)行句法級(jí)的標(biāo)記.具有良好性能的組塊分析系統(tǒng)可以提供自然語(yǔ)句的淺層句法信息,滿足很多語(yǔ)言信息處理系統(tǒng)的需求,同時(shí)對(duì)更深層的語(yǔ)言分析技術(shù)提供有力的支持.本文提出了基于條件隨機(jī)域模型的中文組塊分析算法,在開(kāi)放測(cè)試中的性能優(yōu)于基于最大熵馬爾科夫模型的組塊分析方法;在條件隨機(jī)域模型中引入了語(yǔ)義類(lèi)特征,進(jìn)一步提升了分析性能.

    1 中文組塊分析的研究現(xiàn)狀

    現(xiàn)有中文組塊分析的研究主要包含2個(gè)方面的內(nèi)容:1)中文組塊的定義及語(yǔ)料庫(kù)的生成;2)分析算法的研究與實(shí)現(xiàn).

    參照CoNLL-2000會(huì)議對(duì)于英文組塊的定義[2],一些學(xué)者建立了中文組塊的定義和相應(yīng)語(yǔ)料庫(kù),具有代表性的主要有2類(lèi):1)沿用中文句法樹(shù)庫(kù)中的句法標(biāo)記和短語(yǔ)劃分,確定若干組塊抽取規(guī)則,在句法樹(shù)庫(kù)中直接抽取非終結(jié)節(jié)點(diǎn)作為組塊[3];2)基于語(yǔ)言學(xué)家對(duì)于組塊的定義和具體語(yǔ)言現(xiàn)象的分析,將中文文檔進(jìn)行人工標(biāo)注組塊標(biāo)記,構(gòu)造獨(dú)立的中文組塊定義及語(yǔ)料庫(kù)[4-5].相對(duì)于第1類(lèi),第2類(lèi)定義方法不與句法樹(shù)相關(guān),不需要定義抽取規(guī)則和保持抽取一致性,更具有組塊定義的獨(dú)立性和完整性.

    組塊分析的算法主要包括3類(lèi):1)基于規(guī)則的方法,如文獻(xiàn)[1]提出的基于有限狀態(tài)自動(dòng)機(jī)的方法、文獻(xiàn)[6]提出的基于錯(cuò)誤驅(qū)動(dòng)的規(guī)則匹配方法;2)基于統(tǒng)計(jì)的方法,如文獻(xiàn)[3]提出的基于最大熵模型的方法、文獻(xiàn)[4]提出的基于最大熵馬爾科夫模型的方法,文獻(xiàn)[7]提出的基于支持向量機(jī)的方法,文獻(xiàn)[8]提出的基于條件隨機(jī)域的方法等;3)規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,如文獻(xiàn)[9]提出的手工規(guī)則和基于實(shí)例學(xué)習(xí)算法相結(jié)合的方法.后2類(lèi)方法是當(dāng)前研究的主流方法,它們都是在統(tǒng)計(jì)方法的基礎(chǔ)上,試圖融合更多的具有描述能力的特征,用以提升組塊分析的性能.在上述基于不同模型的算法中,所采用的特征主要包含詞特征、詞性特征以及詞綴特征.

    本文采用了微軟亞洲研究院(MSRA)建立的組塊定義、標(biāo)記集和語(yǔ)料庫(kù).MSRA中文組塊分析語(yǔ)料庫(kù)是專(zhuān)門(mén)面向組塊分析問(wèn)題定義和標(biāo)注的.語(yǔ)料庫(kù)包含了人工標(biāo)注組塊標(biāo)記的近50萬(wàn)詞中文新聞?wù)Z料,通過(guò)對(duì)自然語(yǔ)言現(xiàn)象的分析,有效地解決了組塊定義的不一致性和復(fù)雜結(jié)構(gòu)的歧義性等問(wèn)題,為中文組塊分析提供了堅(jiān)實(shí)的基礎(chǔ).

    條件隨機(jī)域模型是由Lafferty[10]提出的有指導(dǎo)的機(jī)器學(xué)習(xí)模型.該模型在觀測(cè)序列的條件下對(duì)標(biāo)記序列進(jìn)行建模,是一種典型的條件概率模型,重點(diǎn)解決序列化標(biāo)注的問(wèn)題.條件隨機(jī)域模型既具有條件概率模型的直接對(duì)標(biāo)記問(wèn)題建模,不需要很強(qiáng)的獨(dú)立性假設(shè),可以融合多種特征的特點(diǎn);又具有生成模型(如隱馬爾科夫模型)的考慮到標(biāo)記間的轉(zhuǎn)移概率,以序列化的形式進(jìn)行參數(shù)優(yōu)化和解碼的特點(diǎn),解決了其他條件概率模型(如最大熵馬爾科夫模型)難以避免的標(biāo)記偏置問(wèn)題.由于條件隨機(jī)域模型具有上述特點(diǎn),而且中文組塊分析問(wèn)題可以被轉(zhuǎn)化成基于標(biāo)記間轉(zhuǎn)移的序列化標(biāo)注問(wèn)題,故而其適于解決中文組塊分析的問(wèn)題.

    對(duì)于模型中應(yīng)用特征的選取,在選取詞特征、詞性特征和詞綴特征的基礎(chǔ)上,還通過(guò)對(duì)于語(yǔ)義詞典《同義詞詞林(擴(kuò)展版)》的抽取,定義了語(yǔ)義類(lèi)特征來(lái)幫助提升中文組塊分析的性能.語(yǔ)義詞典根據(jù)詞的語(yǔ)義特征為詞定義了不同的語(yǔ)義類(lèi),其對(duì)于句子的組塊分析有2點(diǎn)幫助:1)利用詞典中詞的規(guī)模及分類(lèi)類(lèi)別解決訓(xùn)練語(yǔ)料庫(kù)中一部份詞的數(shù)據(jù)稀疏問(wèn)題;2)詞的語(yǔ)義信息標(biāo)定可以幫助提升組塊分析的性能[11].

    2 中文組塊的定義和類(lèi)型

    組塊是一個(gè)被標(biāo)記了句法功能標(biāo)記的非遞歸、非嵌套、不重疊的詞序列.英文組塊內(nèi)部一般包含一個(gè)中心成分以及中心成分的前置修飾成分,而不包含后置附屬結(jié)構(gòu).組塊嚴(yán)格按照句法形式定義,而不體現(xiàn)語(yǔ)義性或者功能性.本文定義的中文組塊需要遵循2條基本原則:

    1)組塊不能夠破壞句子固有的短語(yǔ)結(jié)構(gòu),主謂結(jié)構(gòu)和動(dòng)賓結(jié)構(gòu)不能出現(xiàn)在一個(gè)組塊中.

    2)組塊具有一種平整的結(jié)構(gòu),不再劃分組塊內(nèi)部的詞之間以及組塊之間的關(guān)系.

    MSRA中文組塊語(yǔ)料庫(kù)是在北京大學(xué)開(kāi)發(fā)的“1998年1月人民日?qǐng)?bào)分詞和詞性標(biāo)注公開(kāi)語(yǔ)料庫(kù)”[12]的基礎(chǔ)上,人工進(jìn)行組塊標(biāo)記而成的.語(yǔ)料庫(kù)包含了42種詞性標(biāo)記和11種組塊類(lèi)型標(biāo)記.為了便于識(shí)別組塊的邊界,定義了組塊的4種邊界標(biāo)記.其中:“B”為開(kāi)始;“I”為中間;“E”為結(jié)束;“S”為單個(gè)詞組塊.對(duì)于一些特殊的助詞和連詞(例如:“的”,“和”,“與”,“或”),定義了它們不屬于任何組塊,并用“O”來(lái)標(biāo)記它們.本文將11種類(lèi)型標(biāo)記和4種邊界標(biāo)記結(jié)合在一起,再加上“O”標(biāo)記,一共定義了45種標(biāo)記單個(gè)詞的組塊標(biāo)記.

    3 基于條件隨機(jī)域模型的組塊分析算法

    3.1 條件隨機(jī)域模型

    給定一個(gè)觀測(cè)序列X,基于條件隨機(jī)域模型的標(biāo)記序列Y的條件概率為

    fk(yi-1,yi,X,i)是條件隨機(jī)域中通用的特征定義形式,可以被分解為2種具體的特征定義:

    1)邊特征(轉(zhuǎn)移特征)為

    2)頂點(diǎn)特征(狀態(tài)特征)為

    由式(2)~(3),式(1)可以被分解為

    式中μk和ζk分別為轉(zhuǎn)移特征和狀態(tài)特征的權(quán)重參數(shù).基于最大似然估計(jì)原理和L-BFGS算法,模型進(jìn)行參數(shù)訓(xùn)練,使得的對(duì)數(shù)似然度最大化為

    最后利用動(dòng)態(tài)規(guī)劃算法求得最優(yōu)序列Y*為

    3.2 語(yǔ)義類(lèi)特征抽取算法

    《同義詞詞林(擴(kuò)展版)》是一種語(yǔ)義詞典,是語(yǔ)言學(xué)家根據(jù)對(duì)于語(yǔ)言的理解和統(tǒng)計(jì)知識(shí)構(gòu)造的.它利用樹(shù)狀結(jié)構(gòu)將收錄的詞條分為5層,各層包含的詞匯類(lèi)別分別為12、95、1 425、4 223和17 807類(lèi).由于其對(duì)于詞的語(yǔ)義分類(lèi)不唯一,在使用中容易造成分類(lèi)歧義.本文采用投票機(jī)制,根據(jù)歧義詞的詞性特征來(lái)消除分類(lèi)歧義,從而建立語(yǔ)義類(lèi)特征抽取算法,如圖1所示.

    其中,result[]為查詢(xún)到的語(yǔ)義類(lèi)結(jié)果.當(dāng)查詢(xún)結(jié)果為多個(gè)語(yǔ)義類(lèi)標(biāo)記時(shí),F(xiàn)ur-Proc(result)的方法為:

    1)根據(jù){POS},考察result[i]中包含的每個(gè)詞的詞性標(biāo)記,將具有唯一詞性標(biāo)記的詞抽出;

    2)利用抽出詞的詞性投票機(jī)制得到該語(yǔ)義類(lèi)體現(xiàn)的主要詞性特征;

    3)選擇與wi詞性特征相匹配的語(yǔ)義類(lèi)標(biāo)記wi.tag;

    4)若多個(gè)result[i]體現(xiàn)了相同的詞性特征,利用類(lèi)中詞數(shù)平均權(quán)值的方法選擇最好的語(yǔ)義類(lèi)標(biāo)記wi.tag;

    5)若無(wú)語(yǔ)義類(lèi)的詞性特征與當(dāng)前詞相對(duì)應(yīng),則wi.tag=null.

    圖1 語(yǔ)義類(lèi)特征抽取方法

    3.3 特征選擇

    條件隨機(jī)域模型的性能在很大程度上依賴(lài)于特征模板的選取.對(duì)于詞序列W=w1,w2,…,wk,選取寬度為5的窗口,抽取當(dāng)前詞wi和前后各2個(gè)詞的詞特征、詞性標(biāo)記特征和語(yǔ)義類(lèi)特征.另外,還抽取了wi的前后各1個(gè)字的詞綴特征.不同的特征模板的組合也會(huì)影響系統(tǒng)性能的表現(xiàn).系統(tǒng)選取了上述原子特征的Bigram組合作為復(fù)合特征模板.此外,由于低頻特征摻雜了很多的噪聲,其統(tǒng)計(jì)特性比較差,而且條件隨機(jī)域模型訓(xùn)練的時(shí)間復(fù)雜度很高,選擇了原子特征出現(xiàn)次數(shù)>5和復(fù)合特征出現(xiàn)次數(shù)>3的特征作為實(shí)際系統(tǒng)訓(xùn)練中使用的特征.

    通過(guò)語(yǔ)義類(lèi)特征抽取算法中的每個(gè)詞和組塊標(biāo)記的映射關(guān)系,將中文組塊分析轉(zhuǎn)化為序列化分析和標(biāo)記的任務(wù)來(lái)進(jìn)行處理.給定由詞序列W=w1,w2,…,wk組成的句子,其相應(yīng)的詞性序列為P=p1,p2,…,pk,語(yǔ)義類(lèi)標(biāo)記為S=s1,s2,…,sk,句子可以被劃分成若干個(gè)組塊,每個(gè)詞wi被標(biāo)記了組塊標(biāo)記ti,T=t1,t2,…,tk代表組塊標(biāo)記序列.組塊分析的結(jié)果為

    標(biāo)記樣例:

    4 實(shí)驗(yàn)結(jié)果和分析

    4.1 MSRA中文組塊分析語(yǔ)料庫(kù)

    語(yǔ)料庫(kù)包含19 239個(gè)句子,257 860個(gè)中文組塊和501 804個(gè)詞,從語(yǔ)料庫(kù)抽取出的詞典包含34 830個(gè)詞,包含42種詞性標(biāo)記和11種組塊類(lèi)型標(biāo)記.組塊的平均長(zhǎng)度為1.507個(gè)詞.本文將語(yǔ)料庫(kù)分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集,表1列舉了語(yǔ)料庫(kù)中隨機(jī)選取的訓(xùn)練集和測(cè)試集的統(tǒng)計(jì)結(jié)果.

    表1 MSRA中文組塊分析語(yǔ)料庫(kù)統(tǒng)計(jì)

    4.2 算法實(shí)驗(yàn)結(jié)果及分析

    本文采用通用的性能指標(biāo):精確率(P)、召回率(R)和調(diào)和平均值(F)來(lái)評(píng)價(jià)組塊分析的性能.所有的實(shí)驗(yàn)都是在開(kāi)放測(cè)試的條件下進(jìn)行的.為了驗(yàn)證基于條件隨機(jī)域模型的算法的正確性和性能,選擇CoNLL-2000任務(wù)中的英文組塊公開(kāi)語(yǔ)料進(jìn)行了實(shí)驗(yàn),并和性能最好的基于SVM的結(jié)果進(jìn)行比較,得到了可比的實(shí)驗(yàn)結(jié)果,如表2所示.

    表2 CoNLL-2000英文組塊分析語(yǔ)料的實(shí)驗(yàn)結(jié)果%

    在公開(kāi)語(yǔ)料庫(kù)上驗(yàn)證了算法正確的前提下,為了與已有的工作相比較,首先只應(yīng)用了詞、詞性和詞綴特征進(jìn)行實(shí)驗(yàn).且將訓(xùn)練語(yǔ)料分成10等份,采用逐份增加訓(xùn)練語(yǔ)料的方法,發(fā)現(xiàn)組塊分析性能隨著訓(xùn)練語(yǔ)料的增加有不同程度的提升.圖2表明了在相同特征和語(yǔ)料庫(kù)規(guī)模的條件下,基于條件隨機(jī)域模型的算法取得的性能都優(yōu)于基于最大熵馬爾科夫模型的算法.在使用全部訓(xùn)練語(yǔ)料的情況下,基于條件隨機(jī)域模型的組塊分析算法的性能F值是92.0%,比基于最大熵馬爾科夫模型的算法的最優(yōu)性能91.02%的F值提升了約1%.這說(shuō)明條件隨機(jī)域模型在克服了最大熵馬爾科夫模型所具有的標(biāo)記偏置問(wèn)題后,在解決序列化標(biāo)注問(wèn)題時(shí)表現(xiàn)出了非常好的性能.同時(shí)還發(fā)現(xiàn),將訓(xùn)練語(yǔ)料增加至全部訓(xùn)練語(yǔ)料的1/2以上時(shí),性能曲線趨向于平緩,提升不再明顯.這說(shuō)明在組塊分析算法達(dá)到較高性能后,增加訓(xùn)練語(yǔ)料對(duì)性能幫助有限.

    在加入語(yǔ)義類(lèi)特征的情況下,分別利用不同層次的語(yǔ)義類(lèi)特征進(jìn)行組塊分析實(shí)驗(yàn),在利用開(kāi)發(fā)集數(shù)據(jù)調(diào)優(yōu)后,發(fā)現(xiàn)選取4層語(yǔ)義類(lèi)可以得到最優(yōu)結(jié)果.

    圖2 基于條件隨機(jī)域模型和最大熵馬爾科夫模型的組塊分析算法性能比較

    表3分別列舉出了基于第4層語(yǔ)義類(lèi)特征的組塊分析算法對(duì)每一類(lèi)中文組塊進(jìn)行標(biāo)記的結(jié)果,并統(tǒng)計(jì)了每一類(lèi)組塊的平均長(zhǎng)度(以中文詞為基本單位),以及在語(yǔ)料庫(kù)中所占的比例.從這些數(shù)據(jù)中可以看出,名詞性組塊和動(dòng)詞性組塊占語(yǔ)料庫(kù)的75%以上,它們是中文句子的主要組成部分,對(duì)它們的識(shí)別精度很大程度上決定了組塊分析的整體性能.算法對(duì)于平均長(zhǎng)度最長(zhǎng)的插說(shuō)組塊的分析性能非常好,這也證明了條件隨機(jī)域模型可以較充分地考慮到上、下文特征,并對(duì)整個(gè)序列進(jìn)行參數(shù)尋優(yōu),對(duì)于上、下文結(jié)合緊密的序列的分析取得了較好的效果.在加入了語(yǔ)義類(lèi)特征后,整體性能有了明顯的提升,幾乎每類(lèi)組塊分析結(jié)果也都有了不同程度的提升.

    表3 基于第4層語(yǔ)義類(lèi)的中文組塊分析性能

    圖3中的4條曲線分別代表只采用詞特征的模板、只采用詞性特征的模板、采用詞、詞性和詞綴特征模板以及包含所有特征的模板的組塊分析算法性能.本文同樣采用逐漸增加語(yǔ)料庫(kù)規(guī)模的方式來(lái)分析性能的變化.從圖3中可以看出,只采用詞性特征的算法性能明顯優(yōu)于只采用詞特征的算法.由于詞典詞規(guī)模為3萬(wàn)多,而詞性規(guī)模只有42個(gè),數(shù)據(jù)稀疏的問(wèn)題導(dǎo)致了詞特征模型的性能不佳,但是從其性能曲線可以看出,增加語(yǔ)料庫(kù)規(guī)模仍然可以大大提升詞特征模型的性能.詞性特征對(duì)于組塊分析有著較強(qiáng)的預(yù)測(cè)能力,但是利用該特征的模型在訓(xùn)練語(yǔ)料規(guī)模達(dá)到1/2時(shí),性能已經(jīng)達(dá)到最優(yōu)值.綜合了詞和詞性特征的模型取得了較優(yōu)的性能,而增加了語(yǔ)義類(lèi)特征后的算法性能曲線在不同語(yǔ)料規(guī)模下都達(dá)到最優(yōu)值,且性能曲線隨著語(yǔ)料庫(kù)規(guī)模的增大還在緩慢而持續(xù)的上升.增加了語(yǔ)義類(lèi)特征后,即使使用1/10規(guī)模的訓(xùn)練語(yǔ)料,分析性能也能達(dá)到90%以上,證明在語(yǔ)義類(lèi)的幫助下,較小規(guī)模的訓(xùn)練語(yǔ)料也可以達(dá)到很好的性能.由此可見(jiàn),詞性特征和語(yǔ)義類(lèi)特征對(duì)于組塊分析起到了類(lèi)別知識(shí)和數(shù)據(jù)平滑的作用,對(duì)于組塊分析的性能有較強(qiáng)的指示作用;而詞特征對(duì)于組塊分析起到了判別和實(shí)例化的作用.

    圖3 各種特征集和訓(xùn)練語(yǔ)料規(guī)模下基于條件隨機(jī)域模型的組塊分析算法性能

    5 結(jié)論

    1)分析了條件隨機(jī)域模型在序列化標(biāo)記任務(wù)中的優(yōu)勢(shì),將其應(yīng)用到中文組塊分析中,結(jié)合MSRA中文組塊語(yǔ)料庫(kù),取得了F值為92%的分析性能,比基于最大熵馬爾科夫模型的分析算法提升了約1%.

    2)利用語(yǔ)義詞典抽取語(yǔ)義類(lèi)特征,將其加入分析模型,算法性能進(jìn)一步提升,得到92.77%的最優(yōu)性能.

    3)研究了不同類(lèi)型特征對(duì)于組塊分析性能的影響和對(duì)于訓(xùn)練語(yǔ)料規(guī)模的需求.詞性特征和語(yǔ)義類(lèi)特征對(duì)于組塊分析有著較強(qiáng)的預(yù)測(cè)能力,其對(duì)于語(yǔ)料庫(kù)的規(guī)模需求較小;詞特征對(duì)于分析有著判別和實(shí)例化的作用,結(jié)合其他特征共同使用可以進(jìn)一步提升系統(tǒng)性能.

    [1]ABNEY S,ABNEY S P.Parsing by Chunks:Principle-Based Parsing[M].Dordrecht:Kluwer Academic Publishers,1991:257-278.

    [2]TJONG KIM SANG E,BUCHHOLZ S.Introduction to the CoNLL-2000 shared task:Chunking[C]//Proceedings of the 2nd Workshop on Learning Language in Logic and the 4th Conference on Computational Natural Language Learning.Stroudsburg,PA:Association for Computational Linguistics,2000:127-132.

    [3]李素建,劉群,楊志峰.基于最大熵模型的組塊分析[J].計(jì)算機(jī)學(xué)報(bào),2003,25(12):1722-1727.

    [4]SUN G,HUANG C,WANG X,et al.Chinese chunking based on maximum entropy markov models[J].International Journal of Computational Linguistics and Chinese Language Processing,2006,11(2):115-136.

    [5]周強(qiáng),李玉梅.漢語(yǔ)塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24(1):123-128.

    [6]RAMSHAW L A,MARCUS M P.Text chunking using transformation-based learning[C]//Proceedings of the 3rd ACL/SIGDAT Workshop.Cambridge,MA:Association for Computational Linguistics,1995:222-226.

    [7]周俊生,戴新宇,陳家駿,等.基于大間隔方法的漢語(yǔ)組塊分析[J].軟件學(xué)報(bào),2009,20(4):870-877.

    [8]CHEN Wenliang,ZHANG Yujie,ISAHARA H.An empirical study of Chinese chunking[C]//Proceedings of the Coling/ACL on Conference Poster Sessions.Stroudsburg,PA:Association for Computational Linguistics,2006:97-104.

    [9]PARK S B,ZHANG B T.Text chunking by combining hand-crafted rules and memory-based learning[C]// Proceedings of the 41st Annual Meeting ofACL.Stroudsburg,PA:Association for Computational Linguistics,2003:497-504.

    [10] LAFFERTY J,McCALLUM A.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco,CA:Morgan Kaufmann Publishers Inc,2001:282-289.

    [11]XIONG Deyi,LI S,LIU Q,et al.Parsing the penn chinese treebank with semantic knowledge[C]//Proceedings of IJCNLP-2005.Berlin:Lecture Notes in Computer Science,2005:70-81.

    [12]YU S,DUAN H,ZHU X,et al.The basic processing of contemporary chinese corpus at peking university[J].JournalofChinese Information Processing,2002,16(6):58-65.

    猜你喜歡
    組塊語(yǔ)料庫(kù)語(yǔ)義
    橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
    語(yǔ)言與語(yǔ)義
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    陸豐7-2油田導(dǎo)管架平臺(tái)上部組塊低位浮托安裝關(guān)鍵技術(shù)
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    認(rèn)知范疇模糊與語(yǔ)義模糊
    英語(yǔ)詞匯組塊學(xué)習(xí)路徑研究——組塊法
    詞匯組塊層次網(wǎng)絡(luò)
    临洮县| 朝阳县| 彭州市| 淮北市| 陇川县| 汕尾市| 夏邑县| 延寿县| 富源县| 泌阳县| 铜鼓县| 泊头市| 惠安县| 永安市| 福建省| 安阳市| 漳浦县| 鸡西市| 伊金霍洛旗| 新和县| 富民县| 文安县| 玛纳斯县| 洛宁县| 东丰县| 鹿泉市| 比如县| 清新县| 奉节县| 肥乡县| 亳州市| 茂名市| 揭东县| 九江县| 十堰市| 霍山县| 浦江县| 浦县| 黔西| 全椒县| 河南省|