• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      詞位標(biāo)注漢語分詞中特征模板定量研究

      2012-07-25 11:05:42于江德王希杰樊孝忠
      關(guān)鍵詞:分詞語料漢語

      于江德,王希杰,樊孝忠

      (1.安陽師范學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,河南 安陽455002;2.北京理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,北京100081)

      0 引 言

      在中文信息處理領(lǐng)域,漢語分詞是一項(xiàng)基礎(chǔ)性研究課題。它不僅是詞性標(biāo)注、命名實(shí)體識別等其他詞法分析的基礎(chǔ),也是進(jìn)一步句法和語義分析、文本理解等深層中文信息處理任務(wù)的基礎(chǔ),更是信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯和智能信息系統(tǒng)等應(yīng)用的關(guān)鍵環(huán)節(jié)[1-5]。近年來,漢語自動(dòng)分詞技術(shù)取得了長足的發(fā)展[6-9]。其中,基于字的詞位標(biāo)注漢語分詞技術(shù)得到了廣泛關(guān)注。在國際計(jì)算語言學(xué)會(huì)下屬的漢語處理特別興趣研究小組 (special interest group on Chinese language processing,SIGHAN)舉行的一系列評測中性能領(lǐng)先的分詞系統(tǒng)幾乎都采用了類似的思想[10-13]。綜合分析這些文獻(xiàn),都是將漢語分詞的本質(zhì)看作是對一個(gè)字串的序列標(biāo)注問題,借助于統(tǒng)計(jì)語言模型實(shí)現(xiàn)。統(tǒng)計(jì)語言建模中設(shè)定特征模板至關(guān)重要,特征模板集將直接影響模型訓(xùn)練的時(shí)間、訓(xùn)練后模型的大小、訓(xùn)練得到的模型性能等。為了在詞位標(biāo)注漢語分詞中更加準(zhǔn)確地設(shè)定特征模板,本文采用B、M、E、S四詞位標(biāo)注集,使用條件隨機(jī)場(conditional random fields,CRFs)模型從多個(gè)角度定量分析了詞位標(biāo)注漢語分詞中的特征模板。文中首先簡要闡述了詞位標(biāo)注漢語分詞的基本思想,然后對詞位標(biāo)注建模過程中的特征模板作用進(jìn)行了詳細(xì)解析,最后,使用CRF++0.53工具包實(shí)現(xiàn)了字串序列的詞位標(biāo)注,并在國際漢語分詞評測Bakeoff2005的PKU和MSRA兩種語料上進(jìn)行了多組實(shí)驗(yàn),通過對實(shí)驗(yàn)數(shù)據(jù)的分析,從 “量”上揭示出詞位標(biāo)注漢語分詞中設(shè)定特征模板需要遵循的多組規(guī)律,為特征模板對漢語分詞及其他詞法分析任務(wù)的支持作用提供了一個(gè) “量”上的依據(jù)。

      1 詞位標(biāo)注漢語分詞的基本思想

      詞位標(biāo)注漢語分詞方法實(shí)際上是由字構(gòu)詞的方法。漢語中的每個(gè)詞語是由一個(gè)字或多個(gè)字構(gòu)成的,一個(gè)詞語中的每個(gè)漢字又都有一個(gè)固定的構(gòu)詞位置,即該字在詞中的位置,簡稱詞位。本文中我們規(guī)定字只有4種詞位:B表示詞首位置、M表示詞中位置、E表示詞尾位置和S表示單字成詞。而且同一個(gè)漢字在不同的詞語中可以有不同的構(gòu)詞位置,例如,在 “天”、“天空”、“異想天開”、“今天”這4個(gè)詞語中都有漢字 “天”,其詞位依次是:單字成詞S、詞首B、詞中M、詞尾E。詞位標(biāo)注漢語分詞技術(shù)就是把分詞過程轉(zhuǎn)化為一個(gè)字串序列的詞位標(biāo)注問題。要對一個(gè)字串進(jìn)行詞語切分,只要對該字串中每個(gè)字標(biāo)注出詞位就可以了。

      2 詞位標(biāo)注漢語分詞中的特征模板

      2.1 條件隨機(jī)場對詞位標(biāo)注建模

      2.1.1 條件隨機(jī)場簡介

      條件隨機(jī)場是一種判定性模型 (discriminative model),是一種基于無向圖的條件概率模型,由Lafferty等在2001年提出[14]。CRFs能夠融合復(fù)雜的、重疊的特征進(jìn)行訓(xùn)練和推理,通過定義給定觀察序列條件下標(biāo)記序列出現(xiàn)的條件概率P(S|C)來預(yù)測標(biāo)注序列。用于對序列數(shù)據(jù)標(biāo)注建模的條件隨機(jī)場是一個(gè)簡單的鏈狀圖 (如圖1所示),稱為線鏈CRFs。

      設(shè)C= {C1,C2,……,CT}表示可被觀察的有待標(biāo)注詞位的字序列。S= {s1,s2,……,sT}表示被預(yù)測的詞位序列 (例如,詞首B、詞中M等)。在給定一個(gè)可被觀察的字串序列情況下,權(quán)重參數(shù)為Λ= {λ1,λ2,…,λK}的CRFs,其詞位序列的條件概率為

      圖1 線鏈CRFs的圖形結(jié)構(gòu)

      式中:ZC——?dú)w一化因子,公式如下

      式中:fk(st-1,st,C,t)—— 一個(gè)任意的特征函數(shù),通常是一個(gè)二值表征函數(shù),用于表達(dá)上下文可能的語言特征。λk—— 一個(gè)需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的參數(shù),是相應(yīng)的特征函數(shù)fk(st-1,st,C,t)的 權(quán) 重。 特 征 函 數(shù)fk(st-1,st,C,t)能夠整合上下文的任何特征,包括給定的字序列C在時(shí)刻當(dāng)前字位置的所有特征,以及詞位轉(zhuǎn)移st-1→st特征等。

      給定一個(gè)條件隨機(jī)場模型,在給定輸入數(shù)據(jù)字序列C的情況下,待預(yù)測的該字串序列最可能的詞位標(biāo)注序列可以由下式通過類似于隱馬爾科夫模型中的韋特比算法動(dòng)態(tài)規(guī)劃求出

      2.1.2 CRFs對詞位標(biāo)注問題建模

      建立CRFs模型的一個(gè)關(guān)鍵問題是如何針對具體的任務(wù)選擇有效的特征集,用篩選出的特征集來表示復(fù)雜的語言現(xiàn)象,其實(shí)質(zhì)是模型對上下文特征的刻畫,這些特征是通過特征模板從特征空間中擴(kuò)展而來的。

      通常情況下,上下文的選取是基于當(dāng)前位置前后一定范圍進(jìn)行的,這個(gè)固定的范圍稱為 “窗口”。由于語言特征要從該上下文 “窗口”中獲取,所以將該 “窗口”稱為特征空間。圖2示意了詞位標(biāo)注漢語分詞中可能的特征空間。對基于字的詞位標(biāo)注漢語分詞這一具體任務(wù)而言,上下文中可供選擇的特征很少,主要需要考慮的是當(dāng)前字本身及其上下文中的字所構(gòu)成的字特征[6]。黃昌寧等提出了構(gòu)造字特征時(shí) “使用前后各兩個(gè)字是比較理想的”的結(jié)論[6]。此時(shí)的特征空間就是一個(gè) “5字窗口”,該窗口下字特征是指當(dāng)前字本身、以及當(dāng)前字前后各兩個(gè)字所組成的特征。如果選取的字特征是指當(dāng)前字本身、以及當(dāng)前字前后各一個(gè)字所組成的特征,此時(shí)的特征空間就是一個(gè) “3字窗口”, “3字窗口”是文獻(xiàn) [6,11]中配合6詞位標(biāo)注集(B、B2、B3、M、E、S)選取的特征空間。

      2.2 特征模板及其作用

      習(xí)慣上,特征模板可以看作是對一組上下文特征按照共同的屬性進(jìn)行的抽象。在CRFs的訓(xùn)練學(xué)習(xí)中,上下文的每個(gè)特征會(huì)對應(yīng)了一組特征函數(shù),這些特征函數(shù)對條件隨機(jī)場模型的訓(xùn)練和學(xué)習(xí)至關(guān)重要。而每個(gè)特征又都是通過特征模板擴(kuò)展而來,所以,特征模板集的設(shè)定就顯得尤為重要。

      圖2 可能的特征空間

      2.3 詞位標(biāo)注漢語分詞中常用特征模板

      本文使用條件隨機(jī)場工具包進(jìn)行詞位標(biāo)注的時(shí)候,設(shè)定的特征模板有兩大類:①Unigram (一元)特征模板;②Bigram (二元)特征模板。這里劃分 “一元”、 “二元”特征所依據(jù)的是特征函數(shù)中包含的詞位標(biāo)記個(gè)數(shù),而不是依據(jù)特征中的字個(gè)數(shù)來劃分,這種劃分的方法和CRF++工具包中是一致的。在圖2給出的可能特征空間下,根據(jù)特征模板中出現(xiàn)的字與當(dāng)前字的距離屬性可以將常見的字特征設(shè)定為13類,即將字特征設(shè)定為13個(gè)特征模板,這些模板屬于一元特征模板。表1詳細(xì)列出了這些特征模板的類型、特征模板的標(biāo)識及其表征的意義等。從表中可以看到,僅僅有一個(gè)特征模板:T-1T0屬于二元特征模板,該模板用于表征上下文中相鄰兩個(gè)字所對應(yīng)的詞位之間的轉(zhuǎn)移特征st-1→st。在模型的訓(xùn)練中該模板擴(kuò)展出的特征數(shù)是有限的,從實(shí)驗(yàn)數(shù)據(jù)中容易知道:四詞位標(biāo)注漢語分詞中此類特征模板可以擴(kuò)展出16個(gè) (詞位轉(zhuǎn)移)特征。

      表1 特征模板

      為了對詞位標(biāo)注漢語分詞中的特征模板有個(gè) “量”的認(rèn)識,我們從多個(gè)角度進(jìn)行定量分析并設(shè)計(jì)了相關(guān)實(shí)驗(yàn)。表2列出了實(shí)驗(yàn)中用到的幾組特征模板集。其中,TMPT-10是在相關(guān)工作中最常用的一組特征模板,TMPT-10’是本文作者在前期研究中用到的一組特征模板[15],TMPT-6是文獻(xiàn) [6,9,11]中使用的特征模板,它是配合6詞位標(biāo)注集使用的。后綴 “Single”和 “Double”分別表示相應(yīng)特征模板集中的單字或雙字特征模板。例如,T10-Single是指TMPT-10中單字特征模板。另外所有的特征模板集都可以包括詞位轉(zhuǎn)移特征模板T-1T0,由于在特征模板的表示文件中對應(yīng)的特征模板是B,所以,相應(yīng)的特征模板集名稱用 “+B”表示。

      表2 特征模板集

      3 特征模板定量分析實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)數(shù)據(jù)集及性能評估

      本文所有實(shí)驗(yàn)是在實(shí)驗(yàn)室DELL Optiplex 760臺式機(jī)上進(jìn)行,軟硬件環(huán)境主要參數(shù)為:CPU:Intel(R)Core(TM)2Quad CPU Q8200 2.33GHZ;內(nèi)存:4GB;操作系統(tǒng):Microsoft Windows XP Professional 2002Service Pack 3。

      本文實(shí)驗(yàn)所使用的訓(xùn)練語料和測試語料是由國際計(jì)算語言學(xué)會(huì)舉辦的第二屆國際中文分詞評測Bakeoff2005所提供的簡體中文語料,這些語料分別是由北京大學(xué) (PKU)和微軟亞洲研究院 (MSRA)提供的。

      在對漢語分詞性能進(jìn)行評估時(shí),采用了同類評測中常用的5個(gè)評測指標(biāo):準(zhǔn)確率 (P)、召回率 (R)、綜合指標(biāo)F值(F)、未登錄詞召回率 (OOVRR)、詞表詞召回率 (IVRR)。

      3.2 實(shí)驗(yàn)及其結(jié)果分析

      3.2.1 實(shí)驗(yàn)設(shè)計(jì)

      我們設(shè)計(jì)了3組實(shí)驗(yàn),分別從不同的角度對詞位標(biāo)注漢語分詞中特征模板進(jìn)行定量研究。①模型訓(xùn)練過程反映出的 “量”屬性。本組實(shí)驗(yàn)關(guān)注的是不同特征模板對模型訓(xùn)練的影響,主要從不同模板擴(kuò)展出的特征數(shù)、模型訓(xùn)練時(shí)間、迭代次數(shù)、訓(xùn)練出的模型大小等幾個(gè) “量”化指標(biāo)進(jìn)行考察。②不同特征模板對分詞性能的貢獻(xiàn)情況。本組實(shí)驗(yàn)關(guān)注的是使用不同特征模板集訓(xùn)練出的模型的分詞性能情況。③詞位轉(zhuǎn)移特征模板:T-1T0的影響。

      3.2.2 特征模板對模型訓(xùn)練的影響

      我們首先分別使用表2中的9組特征模板集 (都不包含詞位轉(zhuǎn)移特征模板),在PKU和MSRA兩個(gè)語料集上進(jìn)行了漢語分詞的訓(xùn)練,表3給出了訓(xùn)練過程記錄數(shù)據(jù),其中f參數(shù)值是訓(xùn)練過程中特征出現(xiàn)次數(shù)所取的閾值,因?yàn)楸疚乃霉ぞ甙谟?xùn)練語料較大、特征數(shù)較多時(shí)不能完成訓(xùn)練致使部分?jǐn)?shù)據(jù)為空。

      綜合分析表3中的數(shù)據(jù)可以得出如下結(jié)論:①同等條件下,訓(xùn)練出的模型大小與擴(kuò)展出的特征數(shù)成正比。②模型訓(xùn)練的時(shí)間長短和擴(kuò)展出的特征數(shù)并沒有必然聯(lián)系。例如,在MSRA訓(xùn)練語料上,6號特征模板集擴(kuò)展出61 884個(gè)特征,訓(xùn)練時(shí)長為2337.98s。而7號特征模板集擴(kuò)展出的特征數(shù)為6 231 012個(gè),訓(xùn)練時(shí)長僅為1778.14s。③不同的單字特征模板在同一語料中擴(kuò)展出的特征數(shù)基本相同。例如,第4、6、9號特征模板集分別由5個(gè) (C-2,C-1,C0,C1,C2)、3個(gè) (C-1,C0,C1)和1個(gè) (C0)單字特征模板構(gòu)成,不論在MSRA訓(xùn)練語料還是PKU訓(xùn)練語料上,由4號、6號特征模板集擴(kuò)展出的特征數(shù)是由9號特征模板集擴(kuò)展出的特征數(shù)的5倍、3倍。這個(gè)結(jié)論也在其他實(shí)驗(yàn)中得到了進(jìn)一步驗(yàn)證。④雙字特征模板擴(kuò)展出的特征數(shù)要比單字特征模板擴(kuò)展出的特征數(shù)多得多。

      3.2.3 特征模板對分詞性能的影響

      第二組實(shí)驗(yàn)采用第一組實(shí)驗(yàn)訓(xùn)練出的模型對測試語料進(jìn)行分詞,該組實(shí)驗(yàn)關(guān)注的是使用不同特征模板集訓(xùn)練出的模型的分詞性能情況,采用漢語分詞性能評估的5個(gè)評測指標(biāo)進(jìn)行考察。并從更深的層次分析了不同特征模板對分詞性能的貢獻(xiàn)情況。表4給出了這9組特征模板集訓(xùn)練出的模型在PKU和MSRA測試語料上的分詞性能。

      綜合分析表4中的數(shù)據(jù)可以得出如下結(jié)論:①TMPT-10、 TMPT-10 ’、 TMPT-6、 T10-Double、 T6-Double、TMPT-5這些特征模板集分詞性能差別較小,綜合指標(biāo)F值的差別在2個(gè)百分點(diǎn)以內(nèi)。這些特征模板集都包含雙字以上特征模板。②單字特征模板對分詞性能的貢獻(xiàn)要比雙字特征模板小很多。例如,在PKU語料上,從6號特征模板集到4號特征模板集,增加了兩個(gè)單字特征模板:C-2,C2,綜合指標(biāo)F值從78.1%增加到了82.0%。而從6號特征模板集到8號特征模板集,增加了兩個(gè)雙字特征模板:C-1C0,C0C1,F(xiàn)值從78.1%增加到了90.9%。在 MSRA語料上,也有同樣的規(guī)律。③特征空間從 “3字窗口”擴(kuò)大到 “5字窗口”對分詞性能的提高也很有限,綜合指標(biāo)F值的變化在1個(gè)百分點(diǎn)左右。

      表3 PKU和MSRA語料上的訓(xùn)練過程記錄數(shù)據(jù)

      表4 不同特征模板集的分詞結(jié)果

      3.2.4 詞位轉(zhuǎn)移特征模板的影響

      從2.3節(jié)對特征模板的分析可知,所有用于訓(xùn)練的特征模板集都可以包括詞位轉(zhuǎn)移特征模板T-1T0,該模板是唯一的二元特征模板。該組實(shí)驗(yàn)選取了1~7號特征模板集進(jìn)行了包含和不包含詞位轉(zhuǎn)移特征模板對模型訓(xùn)練、分詞性能等方面影響的對比實(shí)驗(yàn)。表5給出了這些特征模板集訓(xùn)練過程的對比數(shù)據(jù),對比實(shí)驗(yàn)過程中除特征模板集包含或不包含B模板的區(qū)別外,其他參數(shù)都相同。

      對比表5中的數(shù)據(jù)可以得出如下結(jié)論:①增加B特征模板之后,訓(xùn)練中擴(kuò)展出的特征數(shù)都增加了16,這也進(jìn)一步驗(yàn)證了在四詞位標(biāo)注漢語分詞中該模板可以擴(kuò)展出16個(gè)(詞位轉(zhuǎn)移)特征。②訓(xùn)練時(shí)間和迭代次數(shù)都大大增加,是相應(yīng)的2倍以上。例如,增加B模板后,訓(xùn)練時(shí)間是相應(yīng)特征模板集訓(xùn)練時(shí)間的2.14~5.59倍。③增加B特征模板基本不改變訓(xùn)練出的模型大小。

      表6給出了1~7號特征模板集包含和不包含B模板的分詞結(jié)果對比數(shù)據(jù)。對比表6中的數(shù)據(jù)可以得出如下結(jié)論:增加B特征模板之后,兩種語料上反映分詞性能的5個(gè)指標(biāo)除了一組數(shù)據(jù) (見斜體加粗部分)之外,其他所有的數(shù)據(jù)都是清一色的增加,雖然增加的幅度不是太大。所以,加入詞位轉(zhuǎn)移特征對分詞性能是有提高的。

      4 結(jié)束語

      漢語分詞作為中文信息處理領(lǐng)域一項(xiàng)基礎(chǔ)研究課題,從首屆國際漢語分詞評測活動(dòng)以來得到了廣泛的關(guān)注,其中基于字的詞位標(biāo)注漢語分詞技術(shù)成為主流。為了在詞位標(biāo)注漢語分詞中更加準(zhǔn)確地設(shè)定特征模板,本文采用B、M、E、S四詞位標(biāo)注集,使用條件隨機(jī)場模型從多個(gè)角度定量分析了詞位標(biāo)注漢語分詞中的特征模板。通過對實(shí)驗(yàn)數(shù)據(jù)的分析,從 “量”上揭示出詞位標(biāo)注漢語分詞中設(shè)定特征模板需要遵循的多組規(guī)律:①同等條件下,訓(xùn)練出的模型大小與擴(kuò)展出的特征數(shù)成正比。②不同的單字特征模板在同一語料中擴(kuò)展出的特征數(shù)基本相同,單字特征模板對分詞性能的貢獻(xiàn)要比雙字特征模板小很多。③增加B特征模板之后,訓(xùn)練時(shí)間大大增加,模型大小基本不變,對分詞性能都是正增長。這些規(guī)律為特征模板對漢語分詞及其他詞法分析任務(wù)的支持作用提供了一個(gè) “量”上的依據(jù)。

      表5 包含和不包含詞位轉(zhuǎn)移特征模板的訓(xùn)練過程對比數(shù)據(jù)

      表6 不同特征模板集的分詞結(jié)果

      [1]JIANG Wei,WANG Xiaolong,GUAN Yi,et al.Research on Chinese lexical analysis system by fusing multiple knowledge sources[J].Chinese Journal of Computers,2007,30 (1):137-145 (in Chinese).[姜維,王曉龍,關(guān)毅,等.基于多知識源的中文詞法分析系統(tǒng) [J].計(jì)算機(jī)學(xué)報(bào),2007,30 (1):137-145.]

      [2]LUO Yanyan,HUANG Degen.Chinese word segmentation based on the marginal probabilities generated by CRFs [J].Journal of Chinese Information Processing,2009,23 (5):3-8(in Chinese).[羅彥彥,黃德根.基于CRFs邊緣概率的中文分詞 [J].中文信息學(xué)報(bào),2009,23 (5):3-8.]

      [3]ZHAO Hai,Chunyu Kit.Unsupervised segmentation helps supervised learning of Character tagging for word segmentation and named entity recognition [C].Proceedings of the Six SIGHAN Workshop on Chinese Language Processing.Hyderabad,India:ACL Press,2008:106-111.

      [4]YANG Erhong,F(xiàn)ANG Ying,LIU Dongming,et al.The evaluation of Chinese word segmentation and POS tagging [J].Journal of Chinese Information Processing,2006,20 (1):44-49 (in Chinese).[楊爾弘,方瑩,劉冬明,等.漢語自動(dòng)分詞和詞性標(biāo)注評測 [J].中文信息學(xué)報(bào),2006,20 (1):44-49.]

      [5]JIANG Wenbin,HUANG Liang,LIU Qun,et al.A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging [C].Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics,2008:897-904.

      [6]HUANG Changning,ZHAO Hai.Chinese word segmentation:A decade review [J].Journal of Chinese Information Processing,2007,21 (3):8-19 (in Chinese). [黃昌寧,趙海.中文分詞十年回顧 [J].中文信息學(xué)報(bào),2007,21 (3):8-19.]

      [7]SONG Yan,CAI Dongfeng,ZHANG Guiping,et al.Approach to Chinese word segmentation based on character-word joint decoding [J].Journal of Software,2009,20 (9):2366-2375(in Chinese).[宋彥,蔡東風(fēng),張桂平,等.一種基于字詞聯(lián)合解碼的中文分詞方法 [J].軟件學(xué)報(bào),2009,20(9):2366-2375.]

      [8]ZHAO Hai,HUANG Changning.Effective tag set selection in Chinese word segmentation via conditional random field modeling[C].Wuhan,China:Proceedings of PACLIC-20,2006:87-94.

      [9]HUANG Changning,ZHAO Hai.Which is essential for Chinese word segmentation:Character versus word [C].Wuhan,China:Proceedings of PACLIC-20,2006:1-12.

      [10]ZHAO Hai,JIE Chunyu.Effective subsequence-based tagging for Chinese word segmentation [J].Journal of Chinese Information Processing,2007,21 (5):8-13 (in Chinese).[趙海,揭春雨.基于有效子串標(biāo)注的中文分詞 [J].中文信息學(xué)報(bào),2007,21 (5):8-13.]

      [11]HUANG Changning,ZHAO Hai.Character-based tagging:A new method for Chinese word segmentation [C].Proceedings of Chinese Information Processing Society 25Annual Conference.Beijing,China:Tsinghua University Press,2006:53-63 (in Chinese). [黃昌寧,趙海.由字構(gòu)詞——中文分詞新方法[C].中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集,北京:清華大學(xué)出版社,2006:53-63.]

      [12]HUANG Degen,JIAO Shidou,ZHOU Huiwei.Dual-layer CRFs based on subword for Chinese word segmentation [J].Journal of Computer Research and Development,2010,47(5):962-968 (in Chinese).[黃德根,焦世斗,周惠巍.基于子詞的雙層CRFs中文分詞 [J].計(jì)算機(jī)研究與發(fā)展,2010,47 (5):962-968.]

      [13]Levow G.The third international Chinese language processing bakeoff:word segmentation and named entity recognition[C].Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.Sydney:ACL Press,2006:108-117.

      [14]Pereira L J,Mccallum F A.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]Proceedings of 18th Int Conf on Machine Learning.San Francisco,USA:AAAI Press,2001:282-289.

      [15]YU Jiangde,SUI Dan,F(xiàn)AN Xiaozhong. Word-positionbased tagging for Chinese word segmentation [J].Journal of Shandong University (Engineering Science),2010,40 (5):117-122(in Chinese). [于江德,睢丹,樊孝忠.基于字的詞位標(biāo)注漢語分詞 [J].山東大學(xué)學(xué)報(bào) (工學(xué)版),2010,40(5):117-122.]

      猜你喜歡
      分詞語料漢語
      學(xué)漢語
      金橋(2022年6期)2022-06-20 01:36:16
      輕輕松松聊漢語 后海
      金橋(2020年11期)2020-12-14 07:52:56
      結(jié)巴分詞在詞云中的應(yīng)用
      追劇宅女教漢語
      漢語不能成為“亂燉”
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      值得重視的分詞的特殊用法
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      米泉市| 辉县市| 义马市| 吉木乃县| 彰化市| 远安县| 石泉县| 宁安市| 广丰县| 棋牌| 武乡县| 白河县| 南丰县| 安塞县| 巴青县| 双江| 顺昌县| 思茅市| 汾阳市| 乐业县| 屏东县| 玉屏| 顺平县| 木兰县| 定襄县| 仪陇县| 保康县| 普定县| 同心县| 包头市| 铁岭市| 封开县| 鄂伦春自治旗| 米泉市| 保山市| 锦州市| 渭源县| 义乌市| 平泉县| 赞皇县| 武功县|