• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于詞頻歧義消解的通用中文分詞法

    2016-05-31 01:43:05朱新華陳意山
    關(guān)鍵詞:詞頻

    彭 琦,朱新華,陳意山

    (1.廣西師范大學(xué)網(wǎng)絡(luò)中心,廣西桂林541004;2.廣西師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,廣西桂林541004;3.廣西師范大學(xué)漓江學(xué)院,廣西桂林541006)

    ?

    一種基于詞頻歧義消解的通用中文分詞法

    彭琦1,朱新華2,陳意山3

    (1.廣西師范大學(xué)網(wǎng)絡(luò)中心,廣西桂林541004;2.廣西師范大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,廣西桂林541004;3.廣西師范大學(xué)漓江學(xué)院,廣西桂林541006)

    摘要:歧義是在基于詞典的分詞方法中常見的問題,以往的基于詞典的分詞方法往往使用雙向最大匹配法獲得分詞結(jié)果后,通過使用上下文信息來進(jìn)行歧義消解,但是對(duì)于沒有上下文信息的單獨(dú)語料無法進(jìn)行歧義消解。本文提出一種通用的基于詞頻的歧義消解法,該方法是與上下文無關(guān)的,能夠消解沒有上下文信息的語料切分后產(chǎn)生的歧義,擴(kuò)大了歧義消解的應(yīng)用范圍,簡(jiǎn)化了歧義消解的處理過程。實(shí)驗(yàn)表明:文本方法與傳統(tǒng)基于詞典的分詞算法相比,具有更強(qiáng)的適用性及更高的可用性。

    關(guān)鍵詞:中文分詞;詞頻;歧義消解

    0引言

    中文分詞被譽(yù)為中文信息處理的“橋頭堡”,不僅因?yàn)榉衷~是自然語言處理中的基礎(chǔ)性任務(wù),也緣于中文分詞在中文信息處理中的重要地位[1]。在以往的研究中,中文分詞算法的主流有基于統(tǒng)計(jì)學(xué)習(xí)的分詞和基于詞典的分詞2種,這2種分詞方法各有所長(zhǎng),也都有不足?;诮y(tǒng)計(jì)學(xué)習(xí)的分詞方法能夠較好地識(shí)別未登錄詞并減少歧義,在分詞精度上勝于基于詞典的分詞方法[2],缺點(diǎn)在于需要大量經(jīng)過人工處理的語料進(jìn)行訓(xùn)練。日常生活中人們常用的語言搭配是隨著時(shí)間不斷變化的,陳舊的語料訓(xùn)練出的基于統(tǒng)計(jì)的分詞方法難以駕馭人們?nèi)找娓碌恼Z言習(xí)慣,且人工進(jìn)行語料庫更新是十分巨大繁瑣的工作,國(guó)內(nèi)沒有能夠獲取并持續(xù)更新的語料庫,這是基于統(tǒng)計(jì)學(xué)習(xí)的分詞方法所遇到的阻礙。在基于詞典的分詞方法中,未登錄詞造成的分詞精度降低和容易產(chǎn)生歧義是它的缺陷所在[3],因此未登陸詞識(shí)別和歧義處理是衡量一個(gè)基于詞典的分詞系統(tǒng)優(yōu)劣的重要標(biāo)準(zhǔn)。

    回顧以往所提出的歧義處理方法,常需上下文信息的統(tǒng)計(jì)進(jìn)行辨別歧義[4],例如使用互信息原理、N元統(tǒng)計(jì)模型、t-測(cè)試原理、HMM模型、字標(biāo)注統(tǒng)計(jì)[5]等方法或模型進(jìn)行上下文信息統(tǒng)計(jì)以實(shí)現(xiàn)歧義消解,無法在沒有上下文信息的情況下進(jìn)行歧義消解,或者上下文信息量少影響歧義消解的質(zhì)量。在現(xiàn)實(shí)生活中需要切分的語料是多種多樣的,并不是所有待切分語料都具有上下文信息,一些需要處理的語料往往是單獨(dú)的,以單個(gè)句子的形式出現(xiàn)并要求切分的。例如在因特網(wǎng)上查詢信息時(shí)輸入的文本、網(wǎng)上聊天和電子郵件中輸入的單句、問答系統(tǒng)中用戶輸入的問句等都沒有上下文信息。由此可見基于上下文信息進(jìn)行歧義消解的方法具有局限性。因此本文提出一種運(yùn)用詞頻信息進(jìn)行歧義消解的方法,試圖使用該方法對(duì)沒有上下文信息的語料進(jìn)行分詞后的歧義消解,擴(kuò)大可處理語料的范圍。

    1中文分詞算法中的歧義類型

    對(duì)中文文本進(jìn)行分詞是中文信息處理系統(tǒng)中的首要工作,能否從分詞算法中提取有效詞語信息是決定該中文信息處理系統(tǒng)優(yōu)劣的關(guān)鍵。在中文分詞過程中,根據(jù)不同的切分方法,可能得到不同的結(jié)果,哪一結(jié)果更趨近于人們理解的范疇,是歧義消解所需進(jìn)行的工作。根據(jù)以往歧義消解領(lǐng)域的工作來看,在中文分詞過程中產(chǎn)生的歧義類型可分為真歧義字段和偽歧義字段2種。

    1.1真歧義字段

    真歧義字段是指對(duì)同一字串,有2種或2種以上的理解或切分,無論是哪種理解或者切分,都認(rèn)為是可行的。例如“在廣州大學(xué)生活豐富多彩”這一字串,可以理解或切分為“在廣州大學(xué)/生活豐富多彩”,也可以理解或切分為“在廣州/大學(xué)生活豐富多彩”;再如“學(xué)生會(huì)寫的文章很多”這一字串,可理解或切分為“學(xué)生會(huì)/寫的文章很多”,也可理解或切分為“學(xué)生/會(huì)寫的文章很多”。對(duì)于這類歧義,任何一種理解或切分方式都是可行的。這類歧義字段難以進(jìn)行歧義消解工作,其占總歧義字段的比例較小,約為6%[6]。因此本文提出的歧義消解方法不對(duì)其進(jìn)行處理。

    1.2偽歧義字段

    偽歧義字段屬于機(jī)器形式上的歧義,即同一文本使用不同的切分方法會(huì)得出不同的切分結(jié)果,但在真實(shí)語言環(huán)境下,只有唯一正確的切分結(jié)果,稱其為偽歧義字段。這類歧義字段占歧義總數(shù)的94%[7]。偽歧義字段的產(chǎn)生,是因文本切分中形成的交集型歧義字段,交集型歧義定義如下:

    定義1在字段ABC中,設(shè)A、B、C為子字串,若子字串AB與BC同時(shí)存在于詞典中,則稱ABC為交集型歧義字段。

    定義1中,子字串A、B、C可以由一個(gè)或多個(gè)漢字組成,由于子字串中所含的漢字個(gè)數(shù)不同,在此引入鏈長(zhǎng)的概念。

    定義2交集型歧義字段含有交集漢字的個(gè)數(shù)稱為交集型歧義鏈長(zhǎng)。

    歧義字段的交集只含有1個(gè)漢字的鏈長(zhǎng)為1,含2個(gè)漢字的鏈長(zhǎng)為2,以此類推,含有n個(gè)交集漢字的鏈長(zhǎng)為n。例如:交集型歧義字段“的確定”,根據(jù)不同的切分順序可切分為“的/確定”或“的確/定”,交集字段為“確”,由1個(gè)漢字成,鏈長(zhǎng)為1。再如,“天安門前”可切分為“天安門/前”或者“天安/門前”,交集字段為“門”,鏈長(zhǎng)也為1。鏈長(zhǎng)為2的交集型歧義字段有:“大學(xué)生會(huì)”,可切分為“大學(xué)生/會(huì)”或“大/學(xué)生會(huì)”,交集字段為“學(xué)生”,鏈長(zhǎng)為2。

    2基于詞頻的歧義消解方法

    在以往的研究中,歧義消解大多采用基于上下文信息統(tǒng)計(jì)的方法進(jìn)行處理。例如N元統(tǒng)計(jì)模型,它是一種考慮上下文語境的統(tǒng)計(jì)語言模型[8],其思想認(rèn)為一個(gè)單詞的出現(xiàn)與上下文環(huán)境中出現(xiàn)的單詞序列緊密相關(guān),第n個(gè)詞的出現(xiàn)與前面的n-1個(gè)詞相關(guān),而與其他任何詞都不相關(guān)。設(shè)W1W2…Wn是長(zhǎng)度為n的字串,那么為了預(yù)測(cè)詞Wn出現(xiàn)的概率,必須知道它前面所有的詞出現(xiàn)的概率,并對(duì)比切分時(shí)產(chǎn)生不同的詞可能出現(xiàn)的概率,來進(jìn)行歧義消解。雖然基于上下文信息的歧義消解方法能夠較好地反映字串在整篇文章中的結(jié)合緊密程度,具有較好的歧義消解性能,但不適用于沒有上下文信息的獨(dú)立語料,具有一定的局限性。為克服基于上下文信息的歧義消解法必須依賴上下文信息的局限性,本文提出一種基于詞頻的歧義消解方法,主要分為以下3步:

    ①從文件中讀取詞典信息、詞頻信息及原始語料,放入內(nèi)存中。使用正、反向最大匹配法分別對(duì)原始語料進(jìn)行切分。正、反向最大匹配法的切分順序:一種是從句子的開始向末尾結(jié)合詞,另一種是從句子的末尾向開始結(jié)合詞,可以有效地判斷出哪些字段是可以成為詞的字段,即對(duì)于字段ABC,如果詞典中同時(shí)存在AB和BC兩個(gè)字段,那么使用正向最大匹配法,得到的切分結(jié)果是AB/C,使用反向最大匹配法得到的切分結(jié)果是A/BC。這樣加大了詞的判斷效果,但是容易產(chǎn)生交集型歧義字段。切分完畢后,將2種切分方法所得到的結(jié)果分別存放在2個(gè)不同的文件中,以便進(jìn)行后續(xù)的對(duì)比處理。

    設(shè)原始語料中的字串為W,使用正向最大匹配法得到的切分字串序列為X,且X=(x1,x2,x3,…,xn);使用反向最大匹配法得到的切分字串序列為Y,且Y=(y1,y2,y3,…,yn)。

    ②將切分序列X、Y分別使用正則表達(dá)式進(jìn)行以切分標(biāo)志為分隔單位的文本匹配,將切分序列放入內(nèi)存中。將X與Y順序進(jìn)行逐項(xiàng)對(duì)比,如果切分結(jié)果一致,即xi=yi,則表示切分中沒有歧義,直接將xi或者yi寫入最終的切分結(jié)果文件中,并將xi與yi分別從序列X、Y中刪除,進(jìn)行下一項(xiàng)的對(duì)比;如果切分的結(jié)果不一致,即xi≠yi,則進(jìn)行歧義處理。

    ③歧義處理。當(dāng)xi≠yi時(shí),設(shè)歧義字段序列A=(a1,a2,…,am)與B=(b1,b2,…,bm),序列A、B分別為序列X、Y的子串,對(duì)于同一原始語料中的字串W,切分成A、B后,其中的漢字總數(shù)是不變的,即序列A與序列B所含的漢字個(gè)數(shù)是一樣的,但是分割的方式不一樣。在確定了歧義字段序列A、B后,將序列A、B中所含詞的詞頻信息f(a1),f(a2),…,f(am)及f(b1),f(b2),…,f(bm)從詞頻庫中取出,進(jìn)行求和并計(jì)算出平均值fv(A)與fv(B),計(jì)算方法如公式(1)所示:

    (1)

    將fv(A)與fv(B)進(jìn)行比較,如果滿足公式(2),則應(yīng)采用序列A作為最終切分結(jié)果;如果將A與B的位置互換,能夠滿足公式(2)則應(yīng)采用序列B作為最終切分結(jié)果,其中T為用戶指定的閾值;如果這2種情況都不滿足,則認(rèn)為該歧義字段為真歧義字段,不作處理。

    (2)

    3系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    本文中的分詞算法使用Perl腳本語言實(shí)現(xiàn)。Perl腳本語言具有較強(qiáng)的文字處理能力,能夠運(yùn)用正則表達(dá)式對(duì)文本文件中的文字進(jìn)行查找、替換、刪除等工作,其數(shù)據(jù)類型也較適合存儲(chǔ)詞表及詞頻文件。

    整個(gè)系統(tǒng)的運(yùn)行過程如圖1所示。

    圖1 系統(tǒng)流程圖Fig.1 System flowchart

    3.1分詞階段

    定義需要進(jìn)行切分的語料為S=C1C2…Cn,長(zhǎng)度為L(zhǎng)enth,最大匹配初始長(zhǎng)度為MaxLen,截取最大匹配初始長(zhǎng)度的字串為Str,依據(jù)正向最大匹配法和反向最大匹配法[9]分別進(jìn)行分詞,將分詞結(jié)果進(jìn)行保存,其中正向最大匹配法分詞流程圖如圖2所示。

    3.2歧義處理階段

    將分詞階段所產(chǎn)生的文本進(jìn)行正則式匹配,將正向最大匹配法分詞后產(chǎn)生的字串序列存入數(shù)組@mmlist,將反向最大匹配法分詞后產(chǎn)生的字串序列存入數(shù)組@fmmlist。

    圖2 正向最大匹配法分詞流程圖Fig.2 Forward maximum matching method flowchart

    每次各從@mmlist和@fmmlist取出第一項(xiàng)進(jìn)行對(duì)比,如相同,直接寫入最終的分詞文件,并刪除@mmlist與@fmmlist的第一項(xiàng);如不相同,即為歧義字串,將歧義字串序列取出,分別計(jì)算出字串序列中含有詞的詞頻均值并進(jìn)行比對(duì),將比值超過閾值的文本存入最終分詞文件。具體流程如圖3所示。

    圖3 歧義判斷流程圖Fig.3 Ambiguity resolution flowchart

    4實(shí)驗(yàn)測(cè)試與結(jié)果分析

    4.1封閉測(cè)試

    封閉測(cè)試是指只使用指定測(cè)試語料中提供的詞表文件,或者只使用指定測(cè)試語料中的訓(xùn)練語料來獲取知識(shí),然后對(duì)指定測(cè)試語料進(jìn)行分詞處理,并用指定測(cè)試語料中提供的正確切分結(jié)果與評(píng)分標(biāo)準(zhǔn)來考評(píng)自己的分詞系統(tǒng)[10]。本系統(tǒng)進(jìn)行的封閉測(cè)試使用國(guó)際計(jì)算語言協(xié)會(huì)中文語言處理小組(SIGHAN)主辦的第二屆國(guó)際中文語言處理競(jìng)賽( Bakeoff2005)所使用的測(cè)試集。

    4.1.1指標(biāo)說明

    本文使用召回率和精準(zhǔn)率這2個(gè)指標(biāo)來評(píng)價(jià)分詞系統(tǒng)。

    召回率的計(jì)算公式如公式(3)所示:

    (3)

    精準(zhǔn)率的計(jì)算公式如公式(4)所示:

    (4)

    調(diào)和均值為召回率與精準(zhǔn)率的平均值。

    4.1.2閾值選取

    在本系統(tǒng)中,閾值的選取能夠直接影響切分結(jié)果的好壞,根據(jù)本系統(tǒng)所需閾值的選取原則,即公式(2)中的分子必須大于分母一定程度后選取分子作為最終結(jié)果,因此閾值的選取應(yīng)從1開始逐漸遞增,如選擇小于1的閾值,則與本文所述系統(tǒng)邏輯相悖。

    選取一組閾值在相同條件下進(jìn)行封閉測(cè)試,得出結(jié)果如表1所示。

    表1 閾值測(cè)試結(jié)果

    表2 封閉測(cè)試結(jié)果對(duì)比

    可以看出,在封閉測(cè)試中,最優(yōu)閾值的取值為1至2.5之間,當(dāng)閾值達(dá)到3時(shí)會(huì)有精準(zhǔn)率上的降低,倘若繼續(xù)增加閾值的大小則召回率及精準(zhǔn)率會(huì)越來越低。基于以上測(cè)試結(jié)果我們?cè)谶M(jìn)行測(cè)試時(shí)使用的閾值為1至2.5之間的任何值,用戶也可以調(diào)整閾值大小來達(dá)到所需效果。

    4.1.3封閉測(cè)試結(jié)果對(duì)比

    在封閉測(cè)試中,使用傳統(tǒng)的基于詞典的正向最大匹配法及反向最大匹配法的測(cè)評(píng)結(jié)果來與本文方法進(jìn)行縱向比較;使用基于微博語料的統(tǒng)計(jì)學(xué)習(xí)分詞方法[11]及中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語詞法分詞系統(tǒng)ICTCLAS(http://ictclas.nlpir.org)的分詞結(jié)果進(jìn)行相同封閉測(cè)試中的橫向?qū)Ρ?,結(jié)果如表2所示。

    4.2開放測(cè)試

    開放測(cè)試與封閉測(cè)試相反,不使用指定測(cè)試集來對(duì)分詞系統(tǒng)進(jìn)行測(cè)評(píng),使用任意的測(cè)試語料和通用詞典及訓(xùn)練語料來進(jìn)行系統(tǒng)的考評(píng)。通用詞典與詞頻文件來自搜狐研發(fā)中心發(fā)布的搜狗實(shí)驗(yàn)室數(shù)據(jù)(SogouW,http://www.sogou.com/labs/dl/w.html),詞頻文件中的詞頻是Sogou搜索引擎索引到的中文互聯(lián)網(wǎng)語料統(tǒng)計(jì)出的15萬條高頻詞,統(tǒng)計(jì)時(shí)間是2006年10月。

    為使測(cè)評(píng)結(jié)果盡量公平,我們從因特網(wǎng)上下載5篇不同領(lǐng)域的測(cè)試語料作為樣本,平均樣本大小為60 KB,使用指標(biāo)計(jì)算公式及閾值與封閉測(cè)試中使用的指標(biāo)公式與閾值相同,得出測(cè)試結(jié)果如表3所示。

    通過實(shí)驗(yàn)數(shù)據(jù)分析,可以發(fā)現(xiàn)本文提出的基于詞頻的中文分詞歧義消解法能夠改進(jìn)傳統(tǒng)的基于詞典的分詞方法的精準(zhǔn)率和召回率,相對(duì)于其他改進(jìn)的基于詞典的中文分詞方法[12],也有一定的優(yōu)勢(shì)。

    表3 開放測(cè)試結(jié)果對(duì)比

    4.3結(jié)果分析

    綜合封閉測(cè)試及開放測(cè)試的結(jié)果來看,本文提出的基于詞頻的通用分詞方法不僅在有上下文信息的語料切分中勝過傳統(tǒng)基于詞典的分詞方法,取得較好的結(jié)果,而且能夠在沒有上下文信息的語料切分中使用,無需經(jīng)過切分好的語料進(jìn)行訓(xùn)練,打破了需要使用上下文信息才能進(jìn)行中文分詞歧義消解的僵局,是一種廣泛適用的通用中文分詞方法。

    從公式(3)和(4)可以看出,測(cè)評(píng)結(jié)果中的召回率反映的是該分詞系統(tǒng)能夠從目標(biāo)語料中提取多少正確及有用的詞語信息,是考量一個(gè)分詞系統(tǒng)優(yōu)劣的最重要指標(biāo),召回率越高表示一個(gè)分詞系統(tǒng)能夠從用戶輸入的文本中提取的正確詞語信息的能力就越高,特別是在搜索引擎、自動(dòng)問答系統(tǒng)、電子郵件過濾、信息檢索與信息摘錄、文本分類和自動(dòng)摘要、自然語言理解等領(lǐng)域,分詞系統(tǒng)的召回率尤為重要。本文分詞法在封閉測(cè)試及開放測(cè)試中都取得了0.9以上的召回率,說明本文分詞法提取的正確詞語信息的能力還是很強(qiáng)的,達(dá)到了實(shí)用水平。

    精準(zhǔn)率不僅體現(xiàn)了一個(gè)分詞系統(tǒng)提取詞語信息的能力,還對(duì)分詞系統(tǒng)的切分準(zhǔn)確性進(jìn)行了考量,在召回率相同的情況下,精準(zhǔn)率越高,表示切分結(jié)果的準(zhǔn)確度越高,精準(zhǔn)率越低,表示分詞系統(tǒng)獲取相同正確詞語信息的效率越低。由于本文分詞法是免訓(xùn)練的,其歧義消解需要進(jìn)行雙向切分,因此切分的次數(shù)比傳統(tǒng)方法要多,使得本系統(tǒng)的精準(zhǔn)率在測(cè)評(píng)結(jié)果中欠佳,這是本分詞系統(tǒng)免訓(xùn)練而獲得較高召回率所必須付出的代價(jià)。

    特別值得強(qiáng)調(diào)的是該方法在搜索引擎、自動(dòng)問答系統(tǒng)、電子郵件過濾、信息檢索與信息摘錄、文本分類和自動(dòng)摘要、自然語言理解等需要對(duì)無上下文信息語料進(jìn)行切分的實(shí)際運(yùn)用領(lǐng)域中的具有較強(qiáng)的實(shí)用性。既能夠不使用上下文信息,又能準(zhǔn)確提取出需要的詞語信息,也不需要各領(lǐng)域的語料作為訓(xùn)練對(duì)象,是一種通用的中文分詞方法。

    綜上所述,本文提出的基于詞頻的中文分詞歧義消解法不失為一種能夠廣泛應(yīng)用于各個(gè)需要進(jìn)行中文分詞工作領(lǐng)域的通用分詞方法。

    5結(jié)語

    本文提出了一種通過詞頻信息對(duì)雙向匹配分詞結(jié)果進(jìn)行歧義消解的分詞方法,最終實(shí)驗(yàn)結(jié)果表明:使用該方法進(jìn)行分詞既有較高的提取文本信息能力,又?jǐn)U大了包含歧義消解模塊的分詞系統(tǒng)適用范圍,不失為一種通用的分詞方法。如能添加一種通用的未登錄詞處理模塊并結(jié)合專有名詞詞庫進(jìn)行優(yōu)化,則能具有更好的分詞效果,這也是我們下一步的工作。

    參考文獻(xiàn):

    [1]QIU Xipeng, HUANG Chaochao, HUANG Xuanjing. Automatic corpus expansion for Chinese word segmentation by exploiting the redundancy of web information[C]//Proceedings of the 25th International Conference on Computational Linguistics: Technical Papers. Dublin: ACL, 2014:1154-1164.

    [2]楊爾弘,方瑩,劉冬明,等. 漢語自動(dòng)分詞和詞性標(biāo)注評(píng)測(cè)[J]. 中文信息學(xué)報(bào),2006, 20(1):44-49,97.

    [3]翟鳳文,赫楓齡,左萬利. 字典與統(tǒng)計(jì)相結(jié)合的中文分詞方法[J]. 小型微型計(jì)算機(jī)統(tǒng),2006,27(9):1766-1771.

    [4]費(fèi)洪曉,康松林,朱小娟,等.基于詞頻統(tǒng)計(jì)的中文分詞的研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2005,41(7):67-68,100.

    [5]ZENG Xiaodong, WONG D F, CHAO L S, et al. Graph-based semi-supervised model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia: ACL, 2013:770-779.

    [6]劉開瑛. 中文文本自動(dòng)分詞和標(biāo)注[M]. 北京:商務(wù)印書館,2000:66.

    [7]鄭家恒,張劍鋒,譚紅葉. 中文分詞中歧義切分處理策略[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,30(2):163-167. DOI:10.13451/j.cnki.shanxi.univ(nat.sci.). 2007.02.009.

    [8]王曉龍,關(guān)毅,計(jì)算機(jī)自然語言處理[M]. 北京:清華大學(xué)出版社,2005:49.

    [9]趙珀璋,徐力.計(jì)算機(jī)中文信息處理:下[M]. 北京:宇航出版社. 1989:386.

    [10]黃昌寧,趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報(bào), 2007,21(3):8-19.

    [11]ZHANG Longkai, LI Li, HE Zhengyan, et al. Improving Chinese word segmentation on micro-blog using rich punctuations[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics: Volume 2: Short Papers. Sofia: ACL, 2013:117-182.

    [12]莫建文,鄭陽,首照宇,等. 改進(jìn)的基于詞典的中文分詞方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2013,34(5): 1802-1807.

    (責(zé)任編輯黃勇)

    A General Method of Chinese Word Segmentation Based on the Resolution of Word Frequency Ambiguity

    PENG Qi1, ZHU Xinhua2, CHEN Yishan3

    (1.Network Center,Guangxi Normal University, Guilin Guangxi 541004, China;2.College of Computer Science and Information Technology, Guangxi Normal University,Guilin Guangxi 541004,China;3. College of Lijiang, Guangxi Normal University, Guilin Guangxi 541006,China)

    Abstract:Ambiguity is a common problem in dictionary based word segmentation methods. In the past, the word segmentation method based on dictionary often uses the bidirectional maximum matching method to get the result of word segmentation, and then carries out ambiguity resolution by using the context imformation, which cannot be used in the environment without context information. A general disambiguation method based on word frequency is presented in this paper, which is context-free and expands the application range of ambiguity resolution. Experimental results show that compared with the traditional methods of dictionary-based Chinese word segmentation, this method has a stronger applicability and higher availability.

    Keywords:Chinese word segmentation; word frequency; ambiguity resolution

    中圖分類號(hào):TP391

    文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1001-6600(2016)01-0059-07

    基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61363036,61462010)

    收稿日期:2015-08-10

    doi:10.16088/j.issn.1001-6600.2016.01.009

    通信聯(lián)系人:朱新華(1965—),男,廣西桂林人,廣西師范大學(xué)教授。E-mail: zxh429@263.net

    猜你喜歡
    詞頻
    語言產(chǎn)生中詞頻效應(yīng)老化的神經(jīng)基礎(chǔ)與時(shí)間進(jìn)程*
    基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    基于詞頻比的改進(jìn)Jaccard系數(shù)文本相似度計(jì)算
    詞匯習(xí)得中的詞頻效應(yīng)研究
    亞太教育(2018年5期)2018-12-01 04:58:23
    漢語閱讀中詞頻與注視時(shí)間、跳讀的關(guān)系
    25年來中國(guó)修辭研究的關(guān)鍵詞詞頻統(tǒng)計(jì)*——基于國(guó)家社科與教育部社科課題立項(xiàng)數(shù)據(jù)
    詞頻,一部隱秘的歷史
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    儒法兩家經(jīng)典的共詞分析與研究*
    儒家經(jīng)典詞頻及共現(xiàn)分析
    亚洲五月婷婷丁香| av国产精品久久久久影院| 久久av网站| 在线亚洲精品国产二区图片欧美| 亚洲午夜精品一区,二区,三区| 精品国产国语对白av| 又粗又硬又长又爽又黄的视频| 后天国语完整版免费观看| 亚洲人成电影观看| 大型av网站在线播放| 叶爱在线成人免费视频播放| 一个人免费看片子| 一级黄色大片毛片| 亚洲三区欧美一区| 黄网站色视频无遮挡免费观看| 老司机深夜福利视频在线观看 | 日韩,欧美,国产一区二区三区| 丰满饥渴人妻一区二区三| 久久久久视频综合| 18禁黄网站禁片午夜丰满| 欧美日韩福利视频一区二区| 2018国产大陆天天弄谢| 国产高清videossex| 国产精品一区二区免费欧美 | 五月开心婷婷网| 男女无遮挡免费网站观看| 亚洲中文字幕日韩| 中文乱码字字幕精品一区二区三区| 天天躁日日躁夜夜躁夜夜| 一级毛片 在线播放| 一区在线观看完整版| 色网站视频免费| 亚洲第一青青草原| 一区二区日韩欧美中文字幕| 在线观看人妻少妇| 人人妻,人人澡人人爽秒播 | 久久久国产欧美日韩av| 亚洲欧美激情在线| 亚洲精品在线美女| 狂野欧美激情性bbbbbb| 天堂俺去俺来也www色官网| 免费在线观看日本一区| 又黄又粗又硬又大视频| 国产精品99久久99久久久不卡| 久久国产精品影院| 久久精品亚洲熟妇少妇任你| 超碰成人久久| netflix在线观看网站| 9191精品国产免费久久| 免费在线观看日本一区| 精品卡一卡二卡四卡免费| 欧美乱码精品一区二区三区| 一本大道久久a久久精品| 国产成人精品久久二区二区免费| 国产精品一区二区在线不卡| 高潮久久久久久久久久久不卡| 人人澡人人妻人| 91精品伊人久久大香线蕉| 美女福利国产在线| 国产成人免费无遮挡视频| 国产高清videossex| 亚洲欧洲精品一区二区精品久久久| 成年女人毛片免费观看观看9 | 欧美 日韩 精品 国产| 五月天丁香电影| 欧美日韩国产mv在线观看视频| 啦啦啦视频在线资源免费观看| 亚洲精品国产一区二区精华液| 菩萨蛮人人尽说江南好唐韦庄| 在线观看免费日韩欧美大片| 欧美日韩福利视频一区二区| 日韩av不卡免费在线播放| 国产精品成人在线| 又大又黄又爽视频免费| 国产精品人妻久久久影院| 一本色道久久久久久精品综合| 亚洲精品国产一区二区精华液| 亚洲av男天堂| 国产成人欧美在线观看 | 成在线人永久免费视频| 九草在线视频观看| 人人妻人人澡人人爽人人夜夜| 成人手机av| 人人澡人人妻人| 婷婷成人精品国产| 深夜精品福利| 美女脱内裤让男人舔精品视频| 亚洲成色77777| 男女床上黄色一级片免费看| 99国产精品免费福利视频| 在线精品无人区一区二区三| 91精品三级在线观看| 90打野战视频偷拍视频| 国产有黄有色有爽视频| 男女之事视频高清在线观看 | 男女下面插进去视频免费观看| 波野结衣二区三区在线| 一级毛片黄色毛片免费观看视频| 国产免费福利视频在线观看| 亚洲中文av在线| 久久99一区二区三区| 一区二区三区精品91| 欧美日韩视频精品一区| 精品福利永久在线观看| 精品一区二区三区四区五区乱码 | 女性被躁到高潮视频| 亚洲欧美中文字幕日韩二区| 久久 成人 亚洲| 国产免费一区二区三区四区乱码| 天天躁日日躁夜夜躁夜夜| 高清欧美精品videossex| 精品卡一卡二卡四卡免费| 日韩一卡2卡3卡4卡2021年| 丰满迷人的少妇在线观看| 丰满饥渴人妻一区二区三| 亚洲视频免费观看视频| tube8黄色片| 国产成人系列免费观看| 国产精品久久久久成人av| 老司机深夜福利视频在线观看 | 欧美另类一区| av天堂久久9| xxxhd国产人妻xxx| 91字幕亚洲| 熟女av电影| 久久99一区二区三区| 婷婷色麻豆天堂久久| 麻豆国产av国片精品| 精品欧美一区二区三区在线| 亚洲欧洲精品一区二区精品久久久| 人人妻人人添人人爽欧美一区卜| 亚洲成人手机| 丝袜美足系列| 国产亚洲av高清不卡| 涩涩av久久男人的天堂| 精品亚洲成a人片在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 国产真人三级小视频在线观看| 欧美精品高潮呻吟av久久| 狠狠精品人妻久久久久久综合| 欧美日韩亚洲高清精品| 亚洲av在线观看美女高潮| 99re6热这里在线精品视频| 岛国毛片在线播放| 人人妻人人爽人人添夜夜欢视频| www.av在线官网国产| 精品国产乱码久久久久久男人| 久久亚洲国产成人精品v| 少妇被粗大的猛进出69影院| 亚洲视频免费观看视频| 亚洲人成网站在线观看播放| 深夜精品福利| 中文字幕另类日韩欧美亚洲嫩草| 精品免费久久久久久久清纯 | 久9热在线精品视频| 波多野结衣一区麻豆| 精品久久久久久电影网| 欧美国产精品一级二级三级| 久久久久久久久免费视频了| av天堂在线播放| 人体艺术视频欧美日本| 精品一区二区三区四区五区乱码 | 首页视频小说图片口味搜索 | 韩国精品一区二区三区| 嫩草影视91久久| 一区福利在线观看| 19禁男女啪啪无遮挡网站| 满18在线观看网站| 久久人妻福利社区极品人妻图片 | 久久青草综合色| 国产成人免费无遮挡视频| 免费日韩欧美在线观看| 国产成人欧美| 亚洲第一av免费看| 欧美日韩综合久久久久久| 男的添女的下面高潮视频| 日本色播在线视频| 午夜老司机福利片| 欧美少妇被猛烈插入视频| netflix在线观看网站| 欧美日韩精品网址| 亚洲精品国产av蜜桃| 免费黄频网站在线观看国产| 久热这里只有精品99| 看免费成人av毛片| 亚洲七黄色美女视频| 视频区图区小说| 午夜91福利影院| 无遮挡黄片免费观看| 国产精品av久久久久免费| 99热国产这里只有精品6| 免费看十八禁软件| 狂野欧美激情性xxxx| 亚洲国产精品一区三区| 免费在线观看视频国产中文字幕亚洲 | 亚洲av成人不卡在线观看播放网 | 国产在线观看jvid| 欧美激情 高清一区二区三区| av福利片在线| 啦啦啦在线免费观看视频4| 婷婷成人精品国产| 91成人精品电影| av欧美777| 国产亚洲欧美在线一区二区| 51午夜福利影视在线观看| 久9热在线精品视频| 最近手机中文字幕大全| 久久精品国产亚洲av涩爱| 国产精品亚洲av一区麻豆| 一边摸一边做爽爽视频免费| 男女之事视频高清在线观看 | 亚洲精品一区蜜桃| 久久女婷五月综合色啪小说| 中文字幕人妻熟女乱码| av网站在线播放免费| netflix在线观看网站| 黄网站色视频无遮挡免费观看| 久久久国产精品麻豆| 亚洲免费av在线视频| 美国免费a级毛片| 亚洲av综合色区一区| 亚洲伊人色综图| 一二三四社区在线视频社区8| 国产精品 国内视频| 色综合欧美亚洲国产小说| 亚洲国产欧美网| 午夜免费成人在线视频| 如日韩欧美国产精品一区二区三区| 亚洲欧美一区二区三区久久| 欧美激情 高清一区二区三区| 两人在一起打扑克的视频| 一级黄片播放器| 99精国产麻豆久久婷婷| 亚洲欧洲日产国产| 欧美成人午夜精品| 国产欧美日韩一区二区三 | 亚洲精品国产av成人精品| 欧美+亚洲+日韩+国产| 久久狼人影院| 波野结衣二区三区在线| 99精品久久久久人妻精品| 免费久久久久久久精品成人欧美视频| 日韩中文字幕欧美一区二区 | av电影中文网址| 久久国产精品男人的天堂亚洲| 叶爱在线成人免费视频播放| 日本av免费视频播放| 美女扒开内裤让男人捅视频| 黄色毛片三级朝国网站| 国产欧美日韩一区二区三区在线| 人人妻人人爽人人添夜夜欢视频| 精品福利永久在线观看| 熟女少妇亚洲综合色aaa.| 色播在线永久视频| 久久精品国产a三级三级三级| 老鸭窝网址在线观看| 国精品久久久久久国模美| 韩国精品一区二区三区| 视频区欧美日本亚洲| 纵有疾风起免费观看全集完整版| 两个人看的免费小视频| 手机成人av网站| 男女午夜视频在线观看| 岛国毛片在线播放| 亚洲一卡2卡3卡4卡5卡精品中文| 中文字幕最新亚洲高清| 一区二区三区激情视频| 亚洲精品久久成人aⅴ小说| 国产免费福利视频在线观看| netflix在线观看网站| 男人添女人高潮全过程视频| a级毛片在线看网站| 欧美中文综合在线视频| 国产片特级美女逼逼视频| 国产精品久久久av美女十八| 夫妻性生交免费视频一级片| 亚洲人成电影免费在线| 久久精品久久精品一区二区三区| 午夜两性在线视频| 熟女av电影| 最新的欧美精品一区二区| 国产成人av激情在线播放| 午夜精品国产一区二区电影| 91精品三级在线观看| 亚洲精品自拍成人| 国产精品 欧美亚洲| 日韩 亚洲 欧美在线| 久久久欧美国产精品| 国产成人精品在线电影| 男女边摸边吃奶| 久久影院123| 国产一级毛片在线| 亚洲精品美女久久av网站| 免费在线观看黄色视频的| 中文字幕最新亚洲高清| 97人妻天天添夜夜摸| 久久狼人影院| 亚洲欧美精品自产自拍| 18禁裸乳无遮挡动漫免费视频| 日本欧美国产在线视频| 国产高清不卡午夜福利| 高清av免费在线| 建设人人有责人人尽责人人享有的| 亚洲久久久国产精品| 在线观看免费日韩欧美大片| 多毛熟女@视频| 9热在线视频观看99| 国产伦理片在线播放av一区| 国产成人精品无人区| 亚洲伊人久久精品综合| av在线播放精品| www.自偷自拍.com| 叶爱在线成人免费视频播放| 少妇猛男粗大的猛烈进出视频| 久久狼人影院| 久9热在线精品视频| 咕卡用的链子| 国产欧美日韩一区二区三区在线| 亚洲av美国av| 这个男人来自地球电影免费观看| 国产日韩一区二区三区精品不卡| 亚洲欧美精品综合一区二区三区| 国产av一区二区精品久久| 这个男人来自地球电影免费观看| 精品第一国产精品| 久久久久久免费高清国产稀缺| 日韩,欧美,国产一区二区三区| 成人国产av品久久久| 亚洲欧美激情在线| 久久久精品免费免费高清| 久久精品成人免费网站| 亚洲精品国产一区二区精华液| 高清欧美精品videossex| 久久久久久免费高清国产稀缺| 欧美黑人精品巨大| 欧美日本中文国产一区发布| 婷婷色麻豆天堂久久| 国产激情久久老熟女| 下体分泌物呈黄色| h视频一区二区三区| 亚洲熟女精品中文字幕| 久久午夜综合久久蜜桃| 另类精品久久| 国产成人一区二区在线| 国产极品粉嫩免费观看在线| 精品卡一卡二卡四卡免费| 亚洲精品一区蜜桃| a级毛片在线看网站| 丁香六月欧美| 热re99久久精品国产66热6| 视频区欧美日本亚洲| 亚洲免费av在线视频| 久久久久国产精品人妻一区二区| 久热这里只有精品99| 又大又爽又粗| 欧美另类一区| 亚洲精品国产区一区二| www.999成人在线观看| 菩萨蛮人人尽说江南好唐韦庄| 777久久人妻少妇嫩草av网站| 免费看不卡的av| 日韩一本色道免费dvd| 男女边吃奶边做爰视频| 少妇 在线观看| 国产三级黄色录像| 七月丁香在线播放| 亚洲中文字幕日韩| 男女免费视频国产| 高清不卡的av网站| 国产一区有黄有色的免费视频| 最近中文字幕2019免费版| 婷婷丁香在线五月| 亚洲欧美中文字幕日韩二区| 少妇被粗大的猛进出69影院| bbb黄色大片| 99九九在线精品视频| 国产一区有黄有色的免费视频| 欧美亚洲 丝袜 人妻 在线| 黄色毛片三级朝国网站| 久久精品aⅴ一区二区三区四区| 一级毛片 在线播放| 亚洲精品在线美女| 日本a在线网址| 亚洲综合色网址| 亚洲欧美激情在线| 19禁男女啪啪无遮挡网站| 欧美日韩福利视频一区二区| 老司机深夜福利视频在线观看 | 在线观看www视频免费| 国产免费现黄频在线看| 首页视频小说图片口味搜索 | 男的添女的下面高潮视频| 国产1区2区3区精品| 一区二区三区精品91| 夜夜骑夜夜射夜夜干| 午夜福利乱码中文字幕| 在线观看免费日韩欧美大片| 亚洲中文日韩欧美视频| 久久久国产欧美日韩av| 欧美日韩成人在线一区二区| 国精品久久久久久国模美| 极品少妇高潮喷水抽搐| 99国产综合亚洲精品| 2018国产大陆天天弄谢| 悠悠久久av| 亚洲国产精品一区二区三区在线| 国产成人免费无遮挡视频| 80岁老熟妇乱子伦牲交| 如日韩欧美国产精品一区二区三区| 欧美大码av| 国产深夜福利视频在线观看| 亚洲av欧美aⅴ国产| 两个人看的免费小视频| 中文字幕制服av| 久久久国产精品麻豆| 国产激情久久老熟女| 999久久久国产精品视频| 满18在线观看网站| www日本在线高清视频| 肉色欧美久久久久久久蜜桃| 黄色怎么调成土黄色| 搡老岳熟女国产| 国产精品国产三级专区第一集| 精品卡一卡二卡四卡免费| 欧美变态另类bdsm刘玥| 日韩大码丰满熟妇| 99九九在线精品视频| 精品视频人人做人人爽| 精品熟女少妇八av免费久了| 一级毛片电影观看| 自线自在国产av| 天天躁夜夜躁狠狠久久av| 久久青草综合色| 欧美精品高潮呻吟av久久| 欧美成狂野欧美在线观看| 9热在线视频观看99| 91精品三级在线观看| 菩萨蛮人人尽说江南好唐韦庄| 国产精品二区激情视频| 亚洲av男天堂| 一级黄片播放器| 国产在线免费精品| 亚洲免费av在线视频| 亚洲精品第二区| 色94色欧美一区二区| 777米奇影视久久| 国产亚洲一区二区精品| 久久中文字幕一级| 两个人看的免费小视频| 日韩 欧美 亚洲 中文字幕| 中文字幕色久视频| 999久久久国产精品视频| 欧美亚洲 丝袜 人妻 在线| 不卡av一区二区三区| 人妻一区二区av| 成年女人毛片免费观看观看9 | 亚洲激情五月婷婷啪啪| 日日摸夜夜添夜夜爱| 国产亚洲av片在线观看秒播厂| 制服诱惑二区| 国产视频一区二区在线看| 香蕉丝袜av| 欧美中文综合在线视频| 三上悠亚av全集在线观看| 男的添女的下面高潮视频| 99久久综合免费| 赤兔流量卡办理| 亚洲av男天堂| 纯流量卡能插随身wifi吗| 免费观看人在逋| 国产激情久久老熟女| 999久久久国产精品视频| 欧美日韩综合久久久久久| 9色porny在线观看| 国产一卡二卡三卡精品| 欧美中文综合在线视频| 少妇精品久久久久久久| 国产成人一区二区三区免费视频网站 | 国产成人av教育| 国产精品99久久99久久久不卡| 亚洲久久久国产精品| 国产男人的电影天堂91| 少妇粗大呻吟视频| 欧美精品一区二区大全| 久久 成人 亚洲| 久久毛片免费看一区二区三区| 啦啦啦在线观看免费高清www| 久久精品熟女亚洲av麻豆精品| 久久人人爽av亚洲精品天堂| 天天添夜夜摸| 午夜激情av网站| 免费观看a级毛片全部| 精品人妻一区二区三区麻豆| 男女国产视频网站| av有码第一页| 看免费av毛片| 国产欧美亚洲国产| 久久午夜综合久久蜜桃| 女人被躁到高潮嗷嗷叫费观| 免费看十八禁软件| 又黄又粗又硬又大视频| 成人免费观看视频高清| 欧美少妇被猛烈插入视频| 国产爽快片一区二区三区| 视频在线观看一区二区三区| 一区二区三区乱码不卡18| 精品少妇黑人巨大在线播放| www.熟女人妻精品国产| 欧美黑人精品巨大| 久久国产精品人妻蜜桃| 99国产综合亚洲精品| 又紧又爽又黄一区二区| 国产国语露脸激情在线看| 男人添女人高潮全过程视频| 啦啦啦在线观看免费高清www| 搡老岳熟女国产| 日韩大片免费观看网站| 韩国精品一区二区三区| 男人操女人黄网站| 欧美日韩av久久| 国产成人精品久久二区二区91| 婷婷色综合www| 黄频高清免费视频| 国产1区2区3区精品| 尾随美女入室| 大片电影免费在线观看免费| 久久人人97超碰香蕉20202| 国产精品 国内视频| 女人爽到高潮嗷嗷叫在线视频| 美女中出高潮动态图| 极品人妻少妇av视频| 国产在线一区二区三区精| 99热网站在线观看| 国产91精品成人一区二区三区 | 亚洲综合色网址| 亚洲国产毛片av蜜桃av| 老司机午夜十八禁免费视频| 国产精品国产三级国产专区5o| 国产女主播在线喷水免费视频网站| 亚洲欧洲精品一区二区精品久久久| 91字幕亚洲| 欧美成狂野欧美在线观看| 国产黄色视频一区二区在线观看| 国产av精品麻豆| 国产成人精品久久二区二区免费| 视频区欧美日本亚洲| 国产99久久九九免费精品| 欧美黄色片欧美黄色片| 亚洲精品久久午夜乱码| 精品久久久久久久毛片微露脸 | 男女边吃奶边做爰视频| 蜜桃在线观看..| 夫妻午夜视频| 精品亚洲成a人片在线观看| 最黄视频免费看| 美女视频免费永久观看网站| 日本色播在线视频| 在线观看www视频免费| 1024视频免费在线观看| 欧美 亚洲 国产 日韩一| 亚洲av日韩在线播放| 成年人午夜在线观看视频| 亚洲七黄色美女视频| 国产老妇伦熟女老妇高清| 亚洲激情五月婷婷啪啪| 在线观看www视频免费| 久久精品久久久久久噜噜老黄| av天堂在线播放| 一级毛片 在线播放| 亚洲成人免费av在线播放| 狂野欧美激情性xxxx| 一个人免费看片子| 亚洲国产中文字幕在线视频| 精品一品国产午夜福利视频| 成人国语在线视频| 精品人妻1区二区| 极品人妻少妇av视频| 亚洲精品一区蜜桃| 一边亲一边摸免费视频| 欧美黑人精品巨大| 欧美中文综合在线视频| 日韩视频在线欧美| 伦理电影免费视频| 中文字幕人妻丝袜一区二区| 欧美少妇被猛烈插入视频| 亚洲伊人色综图| 久9热在线精品视频| 欧美+亚洲+日韩+国产| 国产精品秋霞免费鲁丝片| 精品亚洲成国产av| 高清av免费在线| 久久久欧美国产精品| 中文字幕最新亚洲高清| 91麻豆精品激情在线观看国产 | 欧美在线黄色| 国产亚洲午夜精品一区二区久久| 国产一卡二卡三卡精品| 午夜免费鲁丝| 国产在线免费精品| 王馨瑶露胸无遮挡在线观看| 免费观看av网站的网址| 国产精品99久久99久久久不卡| 免费高清在线观看视频在线观看| 国产成人欧美| 国产欧美日韩综合在线一区二区| 亚洲 国产 在线| 亚洲成国产人片在线观看| 青春草视频在线免费观看| svipshipincom国产片| 国产欧美日韩精品亚洲av| av在线播放精品| 国产女主播在线喷水免费视频网站| 99久久人妻综合| 青青草视频在线视频观看| 男的添女的下面高潮视频|