• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于規(guī)則和N?Gram算法的新詞識(shí)別研究

    2019-02-20 02:07:48姜如霞黃水源段隆振羅麗娟
    現(xiàn)代電子技術(shù) 2019年4期

    姜如霞 黃水源 段隆振 羅麗娟

    關(guān)鍵詞: 新詞識(shí)別; N?Gram算法; 構(gòu)詞規(guī)則; 中文分詞; 碎片庫(kù); 召回率

    中圖分類號(hào): TN911?34; TP391 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)04?0166?05

    Research on new word recognition based on rules and N?Gram algorithm

    JIANG Ruxia, HUANG Shuiyuan, DUAN Longzhen, LUO Lijuan

    (School of Information Engineering, Nanchang University, Nanchang 330031, China)

    Abstract: A lot of word fragments can be produced and the meanings after word segmentation are very different from original meanings after word segmentation using the current word segmentation tool, and the formation rules of new words have the characteristic of high freedom degree. As a result, the current word segmentation method cannot effectively identify new words in network. The fragment library is constructed combining the formation rules of new word structures on the basis of the ICTCLAS2016 word segmentation system. The Bi?gram and Tri?gram modes are adopted to extract the candidate word strings in the fragment library. The left and right adjacent entropies are used for expansion and filtering of the candidate word strings. A new word recognition method based on rules and N?Gram algorithm is proposed. The results show that the word segmentation accuracy, recall rate and F values of the method are improved. The experimental results show that the new word recognition method can effectively construct the candidate new word sets and improve the effect of Chinese word segmentation.

    Keywords: new word recognition; N?Gram algorithm; word formation rule; Chinese word segmentation; fragment library; recall rate

    0 ?引 ?言

    新詞是一個(gè)最近鑄造的發(fā)明詞或者詞的重新組合,來(lái)源于新事物的產(chǎn)生、方言的引言吸收,簡(jiǎn)略詞匯、網(wǎng)絡(luò)新詞匯、外來(lái)語(yǔ)、舊詞新用等,如“藍(lán)瘦”“一帶一路”。 隨著網(wǎng)絡(luò)的發(fā)達(dá)及網(wǎng)絡(luò)用戶的增多,新詞在網(wǎng)絡(luò)上傳播較快,使用頻率也越來(lái)越廣,但對(duì)新詞的處理也帶來(lái)許多挑戰(zhàn)。目前,很多分詞工具不能識(shí)別或是有效識(shí)別出這些新詞,對(duì)這些新詞分詞后形成字碎片,沒(méi)有表現(xiàn)它完整的語(yǔ)義甚至語(yǔ)義完全相反。

    目前有的新詞發(fā)現(xiàn)[1]方法可大致分為基于語(yǔ)言規(guī)則的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法。鑒于上述兩種方法各自的不足,現(xiàn)在大多數(shù)學(xué)者都采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法,從而改進(jìn)新詞發(fā)現(xiàn)結(jié)果。

    霍帥等提出基于統(tǒng)計(jì)的詞關(guān)聯(lián)性信息與統(tǒng)計(jì)特征與詞法特征相結(jié)合的新詞發(fā)現(xiàn)方法[1]。林自芳等首先進(jìn)行重復(fù)串查詢,之后結(jié)合詞內(nèi)部模式的特征對(duì)位置成詞的概率和首尾單字成詞改進(jìn)方法,最后進(jìn)行統(tǒng)計(jì)[2]。周超等首先對(duì)微博語(yǔ)料進(jìn)行分詞,將在兩停用詞間的相鄰字串兩兩組合,根據(jù)組合后的字串頻率統(tǒng)計(jì)取得新詞候選串,再通過(guò)組合成詞規(guī)則進(jìn)行篩選獲得候選新詞,最后通過(guò)詞的鄰接域變化特性去除垃圾串獲得新詞[3]。

    1 ?相關(guān)技術(shù)分析

    1.1 ?候選字串結(jié)構(gòu)制定規(guī)則

    根據(jù)詞語(yǔ)模式可知詞語(yǔ)的長(zhǎng)度大多介于2~4之間,因此本文提取的新詞候選字串為二元組、三元組、四元組這三種類型。在碎片詞中根據(jù)新詞候選字串組成形式,二元組新詞候選字串只有一種組合形式:“單字”+“單字”;三元組新詞候選字串,有三種組合形式:“二字詞+單字”“單字+二字詞”“單字+單字+單字”;四元組新詞候選字串,有五種組合形式:“單字+單字+單字+單字”“單字+單字+二字詞”“單字+三字詞”“二字詞+單字+單字”“三字詞+單字”。形成碎片庫(kù)序列MC的獲取規(guī)則如下:

    1.1.1 ?單 ?字

    1) 當(dāng)連續(xù)單字碎片為n=1,若該單字碎片下一個(gè)編號(hào)的詞是一個(gè)二字詞或者三字詞,則將它們加入到碎片庫(kù)MC中;

    2) 當(dāng)連續(xù)單字碎片為n=2,若該單字碎片下一個(gè)編號(hào)的詞是一個(gè)二字詞,則將它們加入到碎片庫(kù)MC中;

    3) 當(dāng)連續(xù)單字碎片為n>2,則該連續(xù)單字碎片加入到碎片庫(kù)MC中;

    4) 當(dāng)與其連續(xù)的上一個(gè)編號(hào)的詞是一個(gè)單字且與其連續(xù)的下一個(gè)編號(hào)的詞是一個(gè)二字詞,則將它們加到碎片庫(kù)MC中;

    5) 當(dāng)與其連續(xù)的上一個(gè)編號(hào)的詞是一個(gè)二字詞且與其連續(xù)的下一個(gè)編號(hào)的詞是一個(gè)單字,則將它們加到碎片庫(kù)MC中。

    1.1.2 ?二字詞

    若與其連續(xù)的上兩個(gè)編號(hào)的詞是兩個(gè)單字或其連續(xù)的下兩個(gè)編號(hào)的詞也是單字,則將它們加到碎片庫(kù)MC中。

    1.1.3 ?三字詞

    當(dāng)與其連續(xù)的上一個(gè)編號(hào)的詞是一個(gè)單字或者與其連續(xù)的下一個(gè)編號(hào)的詞也是一個(gè)單字,則將它們加到碎片庫(kù)MC中。

    當(dāng)遇到的是單字、二字詞或者三字詞,不存在與其連續(xù)編號(hào)的詞,則跳到下一個(gè)編號(hào)的詞開(kāi)始判斷。

    1.2 N?Gram統(tǒng)計(jì)模型

    N元統(tǒng)計(jì)模型[4]的主要思想是:一個(gè)單詞的出現(xiàn)與N?Gram模型建立在一種假設(shè)前提下,即假設(shè)第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),并且與其他任何詞都不相關(guān),得到的各個(gè)詞出現(xiàn)的概率的乘積就是整句的概率。

    這種方法隨著i的增大,其存在兩個(gè)致命的缺陷:一個(gè)缺陷是wi的歷史基元增多,不可能實(shí)用化;二是數(shù)據(jù)稀疏嚴(yán)重。

    為了解決wi的歷史基元增多,不可能實(shí)用化引入了馬爾科夫[5]假設(shè):一個(gè)詞的出現(xiàn)僅僅依賴于它前面出現(xiàn)的一個(gè)或者有限的幾個(gè)詞。

    如果一個(gè)詞的出現(xiàn)僅僅與它前面出現(xiàn)的一個(gè)詞有關(guān)稱之為二元Bi?Gram。如果一個(gè)詞的出現(xiàn)僅僅與它前面出現(xiàn)的兩個(gè)詞有關(guān)稱之為三元Tri?Gram。

    為了得到[Pwiw1,w2,…,wi-1],采用一種簡(jiǎn)單的估計(jì)方法:最大似然估計(jì)。即可得到: ? [Pwiw1,w2,…,wi-1=C(w1,w2,…,wi)C(w1,w2,…,wi-1)] (1)

    式中,[Cw1,w2,…,wi]是統(tǒng)計(jì)序列[w1],[w2],…,[wi-1]出現(xiàn)在語(yǔ)料庫(kù)中的次數(shù)。

    而對(duì)于數(shù)據(jù)稀疏這個(gè)問(wèn)題,需要進(jìn)行數(shù)據(jù)平滑(Data Smoothing)處理。數(shù)據(jù)平滑的目的有兩個(gè):一個(gè)是使所有的N?Gram概率之和為1;二是使所有的N?Gram概率都不為0。

    較為常用的平滑技術(shù)主要包括:Jelinek?Mercer的方法、Katz的方法、Church?Gale的方法。本識(shí)別方法使用的平滑技術(shù)是Katz[6]平滑模型:Back?off Model,該技術(shù)優(yōu)點(diǎn)是參數(shù)較少可以通過(guò)計(jì)算得出,結(jié)果也更接近實(shí)際概率分布。該技術(shù)的思想是當(dāng)一個(gè)N元Gram模型對(duì)[(wi-n+1,w2,…,wi)]詞序列出現(xiàn)的概率為0時(shí),將按照一個(gè)折扣估計(jì)退回到低元模型,并按照[Pwiwi-n+1,w2,…,wi]的比例分配為出現(xiàn)的N元模型對(duì)。

    [Pwiwi-n+1,…,wi-1=discounted*Cwi-n+1,…,wiCwi-n+1,…,wi-1] ? ? (2)

    [βwiwi-n+1,…,wi-1= ? ? ? 1-Cwi-n+1,…,wi-1>0Pwiwi-n+1,…,wi-11-Cwi-n+2,…,wi-1>0Pwiwi-n+2,…,wi-1] (3)

    1) 當(dāng)[Cwi-n+1,…,wi>0]時(shí),則:

    [Pwiwi-n+1,w2,…,wi-1=P(wi)Pwiwi-n+1,…,wi-1] (4)

    2) 當(dāng)[Cwi-n+1,…,wi=0]時(shí),則:

    [Pwiwi-n+1,w2,…,wi-1=βwiwi-n+1,…,wi-1Pwiwi-n+2,…,wi-1] (5)

    結(jié)合式(2)~式(5)可以得到基于N?Gram模型分詞算法的最佳切分輸出方式。將[s=(wi-n+1,w2,…,wi)]詞序列的最佳切分輸出方式代入到式(1),推導(dǎo)可得如下公式:

    [Ps=argmaxMi=1mPwiwi-n+1,…,wi-1] ? (6)

    在實(shí)際計(jì)算中,為防止機(jī)器誤差將很小的概率值當(dāng)作零來(lái)處理,通常采用負(fù)對(duì)數(shù)處理的方式將問(wèn)題轉(zhuǎn)化為求極小值問(wèn)題,具體公式為:

    [P′s=-ln Ps=argminMi=1mlnC(wi-1,wi)C(wi-1)] (7)

    1.3 新鄰接熵

    鄰接熵一般用于統(tǒng)計(jì)方法的新詞發(fā)現(xiàn)。使用鄰接熵計(jì)算一對(duì)詞之間的左熵和右熵,熵越大,字符串成詞概率越大,越有可能是一個(gè)新詞。

    左鄰接熵:

    [HLx=-p(ax)log p(ax)] ? (8)

    右鄰接熵:

    [HRx=-p(bx)log p(bx)] ?(9)

    式中: [p(ax)]表示a為候選詞x的左鄰接字符的概率;[p(bx)]表示b為候選詞x的右鄰接字符的概率。

    2 ?詞識(shí)別

    新詞不同于普通詞的構(gòu)成結(jié)構(gòu),詞語(yǔ)組成比較自由,并沒(méi)有嚴(yán)謹(jǐn)?shù)淖裱瓊鹘y(tǒng)語(yǔ)法結(jié)構(gòu)。因?yàn)閱渭兊幕谝?guī)則的方法,制定規(guī)則非常耗時(shí),而且可移植性差,而單一的N?Gram模型移植性好,但是在大規(guī)模的數(shù)據(jù)中計(jì)算量大,所以本文提出了基于新詞結(jié)構(gòu)制定規(guī)則和N?Gram方法的新詞識(shí)別方法。主要步驟如下:

    步驟1:通過(guò)對(duì)預(yù)處理文本中的分詞碎片進(jìn)行處理,得到候選新詞集合。

    在加入碎片庫(kù)MC過(guò)程中把每個(gè)文本中連續(xù)編號(hào)組成一個(gè)碎片子集序列FS,根據(jù)上述規(guī)則可知,F(xiàn)S是大于2個(gè)詞的詞序列。

    例如:“第一/遍/可能/還/一知半解/不明/覺(jué)/厲”。根據(jù)規(guī)則可以得到2個(gè)FS :“第一遍可能”和“不明覺(jué)厲”。

    基于N?Gram模型碎片庫(kù)MC提取FS的候選字串算法如下:

    算法:候選新詞提取算法。

    輸入:MC//碎片庫(kù)序列;FS//碎片子集序列;

    輸出:CS//候選新詞集合。

    過(guò)程:

    1) 在碎片庫(kù)序列MC中,根據(jù)關(guān)鍵詞候選串制定規(guī)則提取FS作為二元的Bi?Gram和三元的Tri?Gram模式的處理對(duì)象;

    2) 先統(tǒng)計(jì)每個(gè)FS中每個(gè)詞的頻數(shù),之后做歸一化處理,最后利用Bi?Gram模式根據(jù)式(6)分別計(jì)算每個(gè)FS的二元組、三元組和四元組字符串的概率。把字符串和概率保存到數(shù)據(jù)庫(kù)中;

    3) 根據(jù)式(2)計(jì)算每一種分詞結(jié)果的概率,選擇最優(yōu)結(jié)果,即利用式(6)求出概率P(s)的極大值,若是很小概率則使用式(7)計(jì)算概率。把所有字符串的概率按由大到小排序,選取排在前面一半的字符串作為候選字串CS1;

    4) 利用Tri?Gram模式,重復(fù)過(guò)程2)、過(guò)程3),得到候選字串CS2,最后選取同時(shí)存在與CS1和CS2中的字符串作為候選新詞集合CS。

    步驟2:采用鄰接熵對(duì)候選新詞集合進(jìn)行外部成詞概率的篩選。

    候選新詞為二元組或四元組,計(jì)算左右鄰接熵均大于閾值[7],加入新詞集合。

    候選新詞為三元組,首先計(jì)算左鄰接熵,是否大于閾值;若大于閾值,再對(duì)右鄰接熵進(jìn)行計(jì)算,把左右鄰接熵均大于閾值的候選新詞加入新詞集合,否則向右擴(kuò)展一個(gè)字符,再次計(jì)算右鄰接熵;否則向左擴(kuò)展一個(gè)字符,再次計(jì)算左鄰接熵。

    本文提出的新詞識(shí)別方法具體流程如圖1所示。

    3 ?實(shí)驗(yàn)設(shè)計(jì)與結(jié)果

    3.1 ?數(shù)據(jù)采集與預(yù)處理

    以新浪微博為實(shí)驗(yàn)平臺(tái),主要以新浪微博的API接口,并結(jié)合網(wǎng)絡(luò)爬蟲(chóng)技術(shù),對(duì)2016年8月15日—9月5日期間關(guān)注的9個(gè)熱點(diǎn)話題相關(guān)的微博數(shù)據(jù)進(jìn)行采集。關(guān)注的7個(gè)熱點(diǎn)話題包括:王寶強(qiáng)離婚、里約奧運(yùn)、傅園慧洪荒之力、大學(xué)生徐玉玉電信詐騙案、王健林的目標(biāo)、三星Note 7、杭州G20。

    對(duì)采集到各個(gè)話題相關(guān)的微博信息進(jìn)行預(yù)處理,通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)微博數(shù)據(jù)中包含各式各樣的垃圾數(shù)據(jù),這些垃圾數(shù)據(jù)對(duì)話題發(fā)現(xiàn)的準(zhǔn)確度產(chǎn)生負(fù)面影響。把篩選后的數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中,主要包括微博用戶名、用戶的關(guān)注人數(shù)、用戶的粉絲數(shù)、微博發(fā)布時(shí)間、微博文本、微博評(píng)論等。oracle數(shù)據(jù)庫(kù)中,微博條數(shù)共102 104,用戶人數(shù)96 803,部分微博數(shù)據(jù)。把每條微博評(píng)論的內(nèi)容放到每個(gè)TXT文檔中,文檔命名為微博編號(hào)。

    對(duì)所有微博文本進(jìn)行預(yù)處理:微博數(shù)據(jù)用ICTCLAS2016分詞系統(tǒng)分詞后,結(jié)合哈爾濱工業(yè)大學(xué)和百度停用詞庫(kù),去除停用詞,如“不管”“了”“嗎”等后,把留下的詞語(yǔ)保存到詞語(yǔ)分詞表中的同時(shí)進(jìn)行詞頻統(tǒng)計(jì),為提取候選新詞做準(zhǔn)備。文本預(yù)處理后保存,對(duì)前三個(gè)微博文本處理結(jié)果如表1所示(加位置編號(hào))。

    3.2 ?實(shí)驗(yàn)過(guò)程與結(jié)果分析

    評(píng)價(jià)中文分詞效果時(shí),對(duì)評(píng)價(jià)指標(biāo)召回率和精確度的具體定義如下:TP為正確切分的詞語(yǔ)數(shù);TP+FP為切分出來(lái)的詞語(yǔ)總數(shù);TP+FN為參考結(jié)果中的詞語(yǔ)總數(shù)。引入準(zhǔn)確率P和召回率R的概念和綜合評(píng)價(jià)指標(biāo)F1?Measure,有:

    [P=TPTP+FP] ?(10)

    [R=TPTP+FN] ? (11)

    [F1?Measure=2×P×RP+R] ?(12)

    式中:TP預(yù)測(cè)為正,實(shí)現(xiàn)為正;FP預(yù)測(cè)為正,實(shí)現(xiàn)為負(fù);FN預(yù)測(cè)為負(fù),實(shí)現(xiàn)為正;TN預(yù)測(cè)為負(fù),實(shí)現(xiàn)為負(fù)。

    本次實(shí)驗(yàn)抽取9 000條微博文本分三組作為輸入,分別使用本文算法和中文ICTCLAS2016分詞系統(tǒng)對(duì)其做分詞處理,根據(jù)評(píng)價(jià)指標(biāo)得到的結(jié)果如表2所示。

    分析表2可知,本文分詞算法在查準(zhǔn)率、召回率和F1?Measure值上都要比使用中文ICTCLAS2016分詞系統(tǒng)分詞更好。

    下面是對(duì)一條微博兩種方法的不同結(jié)果對(duì)比:

    1領(lǐng)導(dǎo)叫你和另外兩位同志一起負(fù)責(zé)一個(gè)項(xiàng)目,他們兩個(gè)人有沖突,請(qǐng)問(wèn)你怎么協(xié)調(diào)落開(kāi)展工作?

    2傅園慧里約奧運(yùn)會(huì)走紅微博粉絲漲700萬(wàn)洪荒之力,表情包瘋轉(zhuǎn)請(qǐng)問(wèn)你怎么看?

    3小趙出差在外還要一周才能回來(lái),他母親生病,組織上特意派你去探望,請(qǐng)問(wèn)你見(jiàn)到他母親會(huì)怎么說(shuō)。

    ICTCLAS2016分詞系統(tǒng):

    1/領(lǐng)導(dǎo)/叫/你/和/另外/兩/位/同志/一起/負(fù)責(zé)/一個(gè)/項(xiàng)目/,/他們/兩/個(gè)/人/有/沖突/,/請(qǐng)問(wèn)/你/怎么/協(xié)調(diào)/落/開(kāi)展/工作/?

    2/傅/園/慧/里/約/奧運(yùn)會(huì)/走紅/微/博/粉絲/漲/700萬(wàn)/洪荒/之/力/,/表情/包/瘋/轉(zhuǎn)/請(qǐng)問(wèn)/你/ 怎么/看/?

    3/小/趙/出差/在/外/還/要/一/周/才/能/回來(lái)/,/他/母親/生病/,/組織/上/特意/派/你/去/ 探望/,/請(qǐng)問(wèn)/你/見(jiàn)到/他/母親/會(huì)/怎么/說(shuō)/?

    本文算法:

    1/領(lǐng)導(dǎo)/叫/你/和/另外/兩位/同志/一起/負(fù)責(zé)/一個(gè)/項(xiàng)目/,/他們/兩個(gè)人/有/沖突/,/請(qǐng)問(wèn)/你怎么/協(xié)調(diào)/落/開(kāi)展/工作/?

    2/傅園慧/里約/奧運(yùn)會(huì)/走紅/微博/粉絲/漲/700萬(wàn)/洪荒之力/,/表情包/瘋/轉(zhuǎn)/請(qǐng)問(wèn)/你怎么/看/?

    3/小/趙/出差/在外/還要/一周/才能/回來(lái)/,/他/母親/生病/,/組織/上/特意/派你去/ 探望/,/請(qǐng)問(wèn)/你/見(jiàn)到/他/母親/會(huì)/怎么/說(shuō)/?

    通過(guò)分析可知,使用本文第2節(jié)中的新詞識(shí)別方法處理“表情/包”“洪荒/之/力”“兩/個(gè)/人”“傅/園/慧”“里/約”,可以把候選新詞“表情包”“洪荒之力”“兩個(gè)人”“傅園慧”“里約”抽取出來(lái)。

    4 ?結(jié) ?語(yǔ)

    本文利用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法識(shí)別候選新詞,給出候選子串結(jié)構(gòu)制定規(guī)則,采用鄰接熵選取新詞。對(duì)于新詞和人名ICTCLAS2016分詞系統(tǒng)沒(méi)有識(shí)別出來(lái),而本文算法識(shí)別出來(lái)了,但是會(huì)把不同的字組合在一起形成錯(cuò)誤的詞語(yǔ)。整體而言,本文分詞算法性能較高,新詞發(fā)現(xiàn)結(jié)果較好。

    參考文獻(xiàn)

    [1] 霍帥,張敏,劉奕群,等.基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J].模式識(shí)別與人工智能,2014,27(2):141?145.

    HUO Shuai, ZHANG Min, LIU Yiqun, et al. New words discovery in microblog content [J]. Pattern recognition and artificial intelligence, 2014, 27(2): 141?145.

    [2] 林自芳,蔣秀鳳.基于詞內(nèi)部模式的新詞識(shí)別[J].計(jì)算機(jī)與現(xiàn)代化,2010(11):162?164.

    LIN Zifang, JIANG Xiufeng. A new method for Chinese new word identification based on inner pattern of word [J]. Computer and modernization, 2010(11): 162?164.

    [3] 周超,嚴(yán)馨,余正濤,等.融合詞頻特性及鄰接變化數(shù)的微博新詞識(shí)別[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2015,50(3):6?10.

    ZHOU Chao, YAN Xin, YU Zhengtao, et al. Weibo new word recognition combining frequency characteristic and accessor variety [J]. Journal of Shandong University (Natural science), 2015, 50(3): 6?10.

    [4] MILLER D R H, LEEK T, SCHWARTZ R M. BBN at TREC7: using hidden Markov models for information retrieval [C]// Proceedings of the 7th Text Retrieval Conference. [S.l.: s.n.], 2008: 80?89.

    [5] MANNING C D, SCHUTZEH H.統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)[M].苑春法,李慶中,王昀,等譯.北京:電子工業(yè)出版社,2005.

    MANNING C D, SCHUTZEH H. Foundations of statistical natural language processing [M]. YUAN Chunfa, LI Qingzhong, WANG Jun, et al, translation. Beijing: Publishing House of Electronics Industry, 2005.

    [6] HARB B, CHELBA C, DEAN J, et al. Back?off language model compression [C]// Proceedings of 10th Annual Conference of the International Speech Communication Association. Brighton: [s.n.], 2014: 352?355.

    [7] 蘭沖.基于統(tǒng)計(jì)規(guī)則的中文分詞研究[D].西安:西安電子科技大學(xué),2011.

    LAN Chong. Research on Chinese word segmentation based on statistical rules [D]. Xian: Xidian University, 2011.

    [8] 夭榮朋,許國(guó)艷,宋健.基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用,2016,36(10):2772?2776.

    YAO Rongpeng, XU Guoyan, SONG Jian. Micro?blog new word discovery method based on improved mutual information and branch entropy [J]. Journal of computer applications, 2016, 36(10): 2772?2776.

    [9] 周霜霜,徐金安,陳鈺楓,等.融合規(guī)則與統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用,2017,37(4):1044?1050.

    ZHOU Shuangshuang, XU Jinan, CHEN Yufeng, et al. New words detection method for microblog text based on integrating of rules and statistics [J]. Journal of computer applications, 2017, 37(4): 1044?1050.

    [10] 張海軍,李勇,閆琪琪.一種基于海量語(yǔ)料的網(wǎng)絡(luò)熱點(diǎn)新詞識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(5):208?213.

    ZHANG Haijun, LI Yong, YAN Qiqi. Method of new Chinese words identification from large scale network corpora [J]. Computer engineering and applications, 2015, 51(5): 208?213.

    [11] 杜麗萍,李曉戈,于根,等.基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):35?40.

    DU Liping, LI Xiaoge, YU Gen, et al. New word detection based on an improved PMI algorithm for enhancing segmentation system [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 35?40.

    [12] 邢恩軍,趙富強(qiáng).基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(6):64?67.

    XING Enjun, ZHAO Fuqiang. A novel approach for Chinese new word identification based on contextual word frequency?contextual word count [J]. Computer applications and software, 2016, 33(6): 64?67.

    [13] 黃軒,李熔烽.博客語(yǔ)料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144?146.

    HUANG Xuan, LI Rongfeng. Discovery method of new words in blog contents [J]. Modern electronics technique, 2013, 36(2): 144?146.

    成人国产麻豆网| 青青草视频在线视频观看| 毛片女人毛片| 亚洲精品国产av蜜桃| 美女被艹到高潮喷水动态| 九九在线视频观看精品| 亚洲欧洲国产日韩| 免费观看无遮挡的男女| 建设人人有责人人尽责人人享有的 | 国产精品偷伦视频观看了| 欧美精品国产亚洲| 亚洲精品国产av成人精品| 中文字幕免费在线视频6| 亚洲欧美成人精品一区二区| 久久精品人妻少妇| 日韩强制内射视频| 久久久久国产精品人妻一区二区| 亚洲av中文字字幕乱码综合| 精品国产一区二区三区久久久樱花 | 国产高清不卡午夜福利| 日韩不卡一区二区三区视频在线| 国精品久久久久久国模美| 国产乱来视频区| 日韩一区二区视频免费看| 免费观看在线日韩| 国产成人免费观看mmmm| 一本久久精品| 丝瓜视频免费看黄片| 亚洲最大成人中文| 亚洲av国产av综合av卡| 欧美另类一区| 高清欧美精品videossex| 日本三级黄在线观看| 久久鲁丝午夜福利片| 亚洲欧美精品专区久久| 高清av免费在线| 亚洲精品日本国产第一区| 亚洲人成网站高清观看| 大话2 男鬼变身卡| 国产男女内射视频| 精品人妻熟女av久视频| 夜夜爽夜夜爽视频| 精品人妻偷拍中文字幕| 国产视频首页在线观看| 日韩一区二区三区影片| 亚洲国产精品999| 婷婷色麻豆天堂久久| 精品久久国产蜜桃| 日韩 亚洲 欧美在线| 成年女人在线观看亚洲视频 | 青春草国产在线视频| 成年av动漫网址| 久久久久国产网址| 亚洲美女视频黄频| 91久久精品国产一区二区成人| 韩国av在线不卡| 波多野结衣巨乳人妻| 日韩欧美 国产精品| 中国三级夫妇交换| 日本欧美国产在线视频| 99热这里只有是精品50| 久久久久久九九精品二区国产| 日本猛色少妇xxxxx猛交久久| 成年人午夜在线观看视频| 黄色欧美视频在线观看| 三级国产精品欧美在线观看| 麻豆国产97在线/欧美| 亚洲国产色片| 国产精品国产av在线观看| 欧美精品人与动牲交sv欧美| 嫩草影院精品99| 一级黄片播放器| 在线播放无遮挡| 欧美亚洲 丝袜 人妻 在线| 国产精品三级大全| 乱系列少妇在线播放| 女人被狂操c到高潮| 国产又色又爽无遮挡免| 一区二区三区精品91| 一级二级三级毛片免费看| 久久精品国产a三级三级三级| 国产成人freesex在线| 精品久久久久久久久亚洲| 久久6这里有精品| 国产欧美日韩一区二区三区在线 | 大香蕉97超碰在线| 免费黄频网站在线观看国产| 在线观看av片永久免费下载| 国产精品女同一区二区软件| 婷婷色av中文字幕| 夫妻性生交免费视频一级片| 国产成人免费观看mmmm| 老司机影院成人| 国产欧美日韩精品一区二区| 国产精品国产三级专区第一集| 国产精品精品国产色婷婷| 韩国高清视频一区二区三区| 99久久九九国产精品国产免费| 一区二区av电影网| 免费大片18禁| 直男gayav资源| 大陆偷拍与自拍| www.色视频.com| 国产在视频线精品| 成人欧美大片| 欧美亚洲 丝袜 人妻 在线| 一级毛片久久久久久久久女| 国产乱人偷精品视频| 亚洲国产高清在线一区二区三| 大码成人一级视频| 免费在线观看成人毛片| 久久鲁丝午夜福利片| 国产精品av视频在线免费观看| 性插视频无遮挡在线免费观看| av在线app专区| 精品熟女少妇av免费看| 亚洲国产欧美人成| 久久久久久久大尺度免费视频| 成人高潮视频无遮挡免费网站| 精华霜和精华液先用哪个| 欧美成人a在线观看| 国产高清三级在线| 亚洲一区二区三区欧美精品 | 美女脱内裤让男人舔精品视频| xxx大片免费视频| 国产 精品1| 日韩成人伦理影院| 免费观看a级毛片全部| 毛片一级片免费看久久久久| 国产成人a区在线观看| 国内少妇人妻偷人精品xxx网站| 搡老乐熟女国产| 亚洲成人一二三区av| 成年版毛片免费区| 成人国产av品久久久| 免费观看在线日韩| 免费大片18禁| 真实男女啪啪啪动态图| 久久久久久九九精品二区国产| 欧美一区二区亚洲| 真实男女啪啪啪动态图| 国产午夜精品久久久久久一区二区三区| 日本爱情动作片www.在线观看| 亚洲美女搞黄在线观看| 夜夜看夜夜爽夜夜摸| 久久久精品94久久精品| 亚洲成人一二三区av| 亚洲成色77777| 啦啦啦在线观看免费高清www| 国产黄色视频一区二区在线观看| 九草在线视频观看| 一边亲一边摸免费视频| 黄色视频在线播放观看不卡| 免费看光身美女| 我的女老师完整版在线观看| 建设人人有责人人尽责人人享有的 | 国产在线男女| 菩萨蛮人人尽说江南好唐韦庄| 好男人在线观看高清免费视频| 亚洲人成网站在线观看播放| 亚洲熟女精品中文字幕| 美女cb高潮喷水在线观看| av专区在线播放| 亚洲天堂av无毛| 日韩欧美精品免费久久| 国产伦精品一区二区三区四那| 亚洲欧美日韩无卡精品| 亚洲av免费高清在线观看| 看黄色毛片网站| 少妇被粗大猛烈的视频| 久久久久网色| 欧美人与善性xxx| 精品久久久久久电影网| 乱系列少妇在线播放| 国产成人freesex在线| 亚洲一级一片aⅴ在线观看| 乱系列少妇在线播放| 久久鲁丝午夜福利片| 亚州av有码| 一级黄片播放器| h日本视频在线播放| 国产国拍精品亚洲av在线观看| 干丝袜人妻中文字幕| .国产精品久久| 又粗又硬又长又爽又黄的视频| 青春草国产在线视频| av天堂中文字幕网| 国产精品精品国产色婷婷| 丝瓜视频免费看黄片| 亚洲av欧美aⅴ国产| 日本爱情动作片www.在线观看| 免费黄频网站在线观看国产| 精品久久久久久久久亚洲| 亚洲四区av| av在线亚洲专区| 美女国产视频在线观看| 亚洲精品成人av观看孕妇| 亚洲色图av天堂| 日本猛色少妇xxxxx猛交久久| 晚上一个人看的免费电影| 国产精品久久久久久久电影| 超碰av人人做人人爽久久| 国产亚洲av片在线观看秒播厂| 久久精品人妻少妇| 亚洲欧美清纯卡通| 日韩,欧美,国产一区二区三区| 日韩三级伦理在线观看| 国产精品蜜桃在线观看| 亚洲电影在线观看av| 欧美另类一区| 国产久久久一区二区三区| 国产成人精品久久久久久| 欧美一区二区亚洲| 欧美潮喷喷水| 中国三级夫妇交换| 国产爽快片一区二区三区| 精品人妻偷拍中文字幕| 春色校园在线视频观看| 天天一区二区日本电影三级| 国产成人精品婷婷| 如何舔出高潮| 男女啪啪激烈高潮av片| 有码 亚洲区| 嘟嘟电影网在线观看| 亚洲av日韩在线播放| 国产黄片视频在线免费观看| 久久这里有精品视频免费| 欧美bdsm另类| 亚洲欧美一区二区三区国产| 亚洲电影在线观看av| 日韩成人av中文字幕在线观看| 真实男女啪啪啪动态图| 3wmmmm亚洲av在线观看| 亚洲精品第二区| av福利片在线观看| 久久99热这里只频精品6学生| 国产 一区 欧美 日韩| 亚洲av国产av综合av卡| 中文乱码字字幕精品一区二区三区| 亚洲最大成人中文| 欧美性感艳星| 久久久精品免费免费高清| 成人国产麻豆网| 韩国av在线不卡| av.在线天堂| 69人妻影院| 免费少妇av软件| 久久精品国产自在天天线| 国产 精品1| 欧美日韩综合久久久久久| 舔av片在线| 99热这里只有是精品50| 日韩伦理黄色片| 韩国av在线不卡| 国产午夜福利久久久久久| 久久99热这里只频精品6学生| 亚洲天堂国产精品一区在线| 欧美日韩精品成人综合77777| 日韩 亚洲 欧美在线| 人体艺术视频欧美日本| 六月丁香七月| 成人高潮视频无遮挡免费网站| 久久精品综合一区二区三区| 亚洲av成人精品一区久久| 精品国产乱码久久久久久小说| 性色avwww在线观看| 久久久久久久久久成人| 成人特级av手机在线观看| videos熟女内射| 成人黄色视频免费在线看| 国产精品99久久99久久久不卡 | 国产老妇伦熟女老妇高清| 国产白丝娇喘喷水9色精品| 成人特级av手机在线观看| 国产高清三级在线| av免费在线看不卡| 中文字幕制服av| 欧美亚洲 丝袜 人妻 在线| 在现免费观看毛片| 国产熟女欧美一区二区| av卡一久久| 亚洲无线观看免费| a级毛片免费高清观看在线播放| 国产综合懂色| 亚洲av男天堂| 中文字幕亚洲精品专区| 亚洲天堂av无毛| 亚洲欧美日韩另类电影网站 | 欧美精品一区二区大全| 王馨瑶露胸无遮挡在线观看| 日韩,欧美,国产一区二区三区| 久久精品综合一区二区三区| 涩涩av久久男人的天堂| 亚洲av成人精品一二三区| 日韩一区二区三区影片| freevideosex欧美| 亚洲精品成人av观看孕妇| 永久免费av网站大全| av国产久精品久网站免费入址| 亚洲三级黄色毛片| 男女啪啪激烈高潮av片| 亚洲最大成人av| 久久久久久久国产电影| 国内精品美女久久久久久| 麻豆国产97在线/欧美| 欧美激情在线99| 麻豆成人午夜福利视频| 内射极品少妇av片p| 看非洲黑人一级黄片| 成年版毛片免费区| 亚洲国产精品国产精品| 免费播放大片免费观看视频在线观看| 毛片女人毛片| 亚洲欧美一区二区三区黑人 | 久久99蜜桃精品久久| 在线免费十八禁| 全区人妻精品视频| 亚洲欧美清纯卡通| 精品熟女少妇av免费看| 99久久精品国产国产毛片| 波野结衣二区三区在线| 亚洲精品久久午夜乱码| 搞女人的毛片| 午夜亚洲福利在线播放| 搞女人的毛片| 啦啦啦中文免费视频观看日本| 久久亚洲国产成人精品v| 精品久久国产蜜桃| 亚洲精品亚洲一区二区| 婷婷色综合www| 老司机影院毛片| 国产免费视频播放在线视频| 日韩,欧美,国产一区二区三区| 大片免费播放器 马上看| 亚洲精品国产色婷婷电影| 久久人人爽人人爽人人片va| 国产午夜精品久久久久久一区二区三区| 成人亚洲精品一区在线观看 | 97在线人人人人妻| 狂野欧美白嫩少妇大欣赏| 毛片女人毛片| 亚洲婷婷狠狠爱综合网| 国产高清有码在线观看视频| 嫩草影院新地址| 一级毛片久久久久久久久女| av在线天堂中文字幕| av又黄又爽大尺度在线免费看| 美女主播在线视频| 天堂中文最新版在线下载 | 成年女人在线观看亚洲视频 | 国产免费一级a男人的天堂| 免费观看在线日韩| 成人毛片60女人毛片免费| 纵有疾风起免费观看全集完整版| 欧美最新免费一区二区三区| 成人亚洲欧美一区二区av| 国产免费福利视频在线观看| 九九在线视频观看精品| 夫妻性生交免费视频一级片| 国产探花极品一区二区| 成人高潮视频无遮挡免费网站| 亚洲人成网站高清观看| 一级爰片在线观看| 99精国产麻豆久久婷婷| 91午夜精品亚洲一区二区三区| 国产一区二区在线观看日韩| 色吧在线观看| 亚洲精品久久午夜乱码| 亚洲精品成人av观看孕妇| 日韩欧美一区视频在线观看 | 亚洲av二区三区四区| 亚洲第一区二区三区不卡| 亚洲精品乱码久久久久久按摩| 日本色播在线视频| 国产精品秋霞免费鲁丝片| av免费在线看不卡| 国产精品精品国产色婷婷| 亚洲综合精品二区| 建设人人有责人人尽责人人享有的 | 中文字幕av成人在线电影| 熟妇人妻不卡中文字幕| 免费看不卡的av| 亚洲一区二区三区欧美精品 | 国产乱来视频区| 国产极品天堂在线| 高清日韩中文字幕在线| 18禁在线无遮挡免费观看视频| 丝瓜视频免费看黄片| 色综合色国产| 亚洲精品成人久久久久久| 视频中文字幕在线观看| 国产精品伦人一区二区| www.av在线官网国产| 26uuu在线亚洲综合色| 嫩草影院入口| 中文字幕免费在线视频6| 亚洲在久久综合| 亚洲自拍偷在线| 最近中文字幕高清免费大全6| 国产乱人偷精品视频| 亚洲国产高清在线一区二区三| 日韩大片免费观看网站| 免费观看的影片在线观看| 亚洲人成网站高清观看| 国产高潮美女av| 2018国产大陆天天弄谢| 日韩 亚洲 欧美在线| 亚洲欧美成人精品一区二区| 亚洲天堂av无毛| 丝袜美腿在线中文| 亚洲成人一二三区av| 免费大片黄手机在线观看| 免费av毛片视频| 中文乱码字字幕精品一区二区三区| 欧美97在线视频| 亚洲av国产av综合av卡| 亚洲精品久久午夜乱码| 国产精品久久久久久久久免| 少妇高潮的动态图| 亚洲综合色惰| 熟女人妻精品中文字幕| 大香蕉久久网| 我的女老师完整版在线观看| 亚洲成人久久爱视频| 久久久欧美国产精品| 少妇被粗大猛烈的视频| 18禁在线无遮挡免费观看视频| 联通29元200g的流量卡| 国产 一区精品| 亚洲精品国产色婷婷电影| 欧美xxxx性猛交bbbb| 亚洲国产精品999| 亚洲天堂av无毛| 久久97久久精品| 国产大屁股一区二区在线视频| 日韩一本色道免费dvd| 精品少妇久久久久久888优播| 久久久久久久大尺度免费视频| 国产白丝娇喘喷水9色精品| 亚洲综合色惰| 国产 精品1| 十八禁网站网址无遮挡 | 国产国拍精品亚洲av在线观看| 午夜福利视频1000在线观看| 极品少妇高潮喷水抽搐| 寂寞人妻少妇视频99o| 我要看日韩黄色一级片| 极品教师在线视频| 黄色日韩在线| 高清av免费在线| 日韩一区二区三区影片| 成人亚洲精品一区在线观看 | 特级一级黄色大片| 少妇人妻 视频| 国产老妇伦熟女老妇高清| 高清视频免费观看一区二区| 18禁裸乳无遮挡动漫免费视频 | 国产极品天堂在线| 观看美女的网站| av线在线观看网站| 亚洲av欧美aⅴ国产| 听说在线观看完整版免费高清| 韩国高清视频一区二区三区| 亚洲精华国产精华液的使用体验| 亚洲精品成人久久久久久| 18禁裸乳无遮挡免费网站照片| 国产精品国产三级专区第一集| 交换朋友夫妻互换小说| 97在线视频观看| 久久久久久久大尺度免费视频| 肉色欧美久久久久久久蜜桃 | 欧美极品一区二区三区四区| 亚洲成色77777| 亚洲国产欧美在线一区| 亚洲成人久久爱视频| 岛国毛片在线播放| 麻豆国产97在线/欧美| 欧美3d第一页| 午夜福利在线观看免费完整高清在| 一级毛片电影观看| 国产乱人偷精品视频| 亚洲精品久久久久久婷婷小说| 大片免费播放器 马上看| 日韩电影二区| 欧美日韩视频精品一区| 黄色视频在线播放观看不卡| 99精国产麻豆久久婷婷| 国产av国产精品国产| 国产精品不卡视频一区二区| av又黄又爽大尺度在线免费看| 尤物成人国产欧美一区二区三区| 2022亚洲国产成人精品| 老司机影院成人| 亚洲电影在线观看av| 男男h啪啪无遮挡| 日韩一区二区视频免费看| 亚洲精品色激情综合| 亚洲精品国产av蜜桃| 国产精品无大码| 狂野欧美激情性bbbbbb| 亚洲国产高清在线一区二区三| 欧美zozozo另类| 内射极品少妇av片p| 久久人人爽人人爽人人片va| 涩涩av久久男人的天堂| 3wmmmm亚洲av在线观看| 干丝袜人妻中文字幕| 中文字幕av成人在线电影| 久久久久网色| 永久网站在线| 男男h啪啪无遮挡| 十八禁网站网址无遮挡 | 免费av观看视频| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 免费少妇av软件| 亚洲av男天堂| 蜜桃久久精品国产亚洲av| 国产真实伦视频高清在线观看| 97精品久久久久久久久久精品| www.av在线官网国产| 久久人人爽av亚洲精品天堂 | 成人午夜精彩视频在线观看| 高清日韩中文字幕在线| 直男gayav资源| 成人国产麻豆网| 18禁动态无遮挡网站| 精华霜和精华液先用哪个| 91精品国产九色| 亚洲精品日韩av片在线观看| 香蕉精品网在线| 视频区图区小说| 亚洲图色成人| 精品国产三级普通话版| 亚洲国产精品国产精品| 18禁裸乳无遮挡动漫免费视频 | 国产精品av视频在线免费观看| 香蕉精品网在线| av国产免费在线观看| 男人狂女人下面高潮的视频| 国产极品天堂在线| 午夜激情福利司机影院| 天天躁夜夜躁狠狠久久av| 亚洲欧美中文字幕日韩二区| 天堂中文最新版在线下载 | 免费黄频网站在线观看国产| 亚洲欧洲国产日韩| 如何舔出高潮| 五月伊人婷婷丁香| 中文字幕制服av| 国产精品成人在线| 国产亚洲一区二区精品| 日韩欧美精品v在线| 国产视频内射| 亚洲精品成人久久久久久| 成年av动漫网址| 少妇丰满av| 国产91av在线免费观看| 五月伊人婷婷丁香| 中文字幕免费在线视频6| 3wmmmm亚洲av在线观看| 亚洲人成网站在线播| 搡女人真爽免费视频火全软件| 韩国av在线不卡| 国产黄频视频在线观看| 嘟嘟电影网在线观看| 免费观看a级毛片全部| 久热久热在线精品观看| 免费观看a级毛片全部| 成人亚洲精品av一区二区| 欧美日韩精品成人综合77777| 麻豆精品久久久久久蜜桃| 只有这里有精品99| 女人被狂操c到高潮| 亚洲熟女精品中文字幕| 熟妇人妻不卡中文字幕| 亚洲综合色惰| 国产综合懂色| 国产精品秋霞免费鲁丝片| 真实男女啪啪啪动态图| 亚洲自偷自拍三级| 国产色婷婷99| 男女边吃奶边做爰视频| 国产成人一区二区在线| 国产av国产精品国产| 人人妻人人澡人人爽人人夜夜| 男插女下体视频免费在线播放| 亚洲精品aⅴ在线观看| 亚洲成人久久爱视频| 蜜臀久久99精品久久宅男| 欧美丝袜亚洲另类| 久久久久久九九精品二区国产| 少妇 在线观看| 街头女战士在线观看网站| a级毛色黄片| 少妇被粗大猛烈的视频| 别揉我奶头 嗯啊视频| 国产一区亚洲一区在线观看| 男人添女人高潮全过程视频| av又黄又爽大尺度在线免费看| 久久这里有精品视频免费| 噜噜噜噜噜久久久久久91| 亚洲人成网站在线观看播放| 搡老乐熟女国产| 人妻制服诱惑在线中文字幕| 一个人观看的视频www高清免费观看| 三级经典国产精品| 性色avwww在线观看| 日本-黄色视频高清免费观看| 午夜老司机福利剧场| 你懂的网址亚洲精品在线观看| 人妻少妇偷人精品九色| 亚洲av中文av极速乱| 久久99热6这里只有精品| 看非洲黑人一级黄片| 久久精品国产亚洲av天美|