• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    分詞技術(shù)的研究與應(yīng)用?

    2015-12-07 13:57:21吳宏洲
    電腦知識(shí)與技術(shù) 2015年6期

    吳宏洲

    摘要:該文主要論述一種快速分詞技術(shù)的實(shí)現(xiàn)。對(duì)于GBK編碼格式的原始文獻(xiàn),利用GBK可見(jiàn)漢字,建立內(nèi)存常駐索引,按照最大匹配法查找外存分詞詞典庫(kù),從而將文章例句進(jìn)行快速切分。理論上是目前最快的一種分詞方法。

    關(guān)鍵詞:正向分詞;逆向分詞;GBK;字典索引

    中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)06-0179-04

    4A Quick Word Segmentation Technology Research and Application

    WU Hong-zhou

    (The China Patent Information Centre, Beijing 100088, China)

    Abstract:This paper mainly discusses the realization of a fast segmentation technology.For GBK encoding format of the original literature, the use of visible GBK Chinese characters, establishing resident memory index, according to the maximum matching method to find the external storage word segmentation dictionary library, which will be fast segmentation articles sentences.In theory it is at present a word segmentation method is the fastest.

    Key words:positive word segmentation;reverse participles;GBK;the dictionary index

    在專利信息技術(shù)中,專利文獻(xiàn)信息檢索、機(jī)器翻譯、專利輔助自動(dòng)文摘和CPC/IPC自動(dòng)分類,都會(huì)用到一個(gè)基本的技術(shù)——分詞技術(shù)。所謂分詞,就是利用已有詞庫(kù)的詞,來(lái)切分文章中的詞的過(guò)程。切分的分詞,用來(lái)確定在文獻(xiàn)中的位置;用來(lái)統(tǒng)計(jì)特征詞的頻度;聚類、分類運(yùn)算;相似度計(jì)算等。目前有很多應(yīng)用場(chǎng)景已經(jīng)使用了已有的技術(shù)產(chǎn)品。帶來(lái)的好處是:引入語(yǔ)義分析、詞性分析、語(yǔ)法分析等成熟技術(shù),性能穩(wěn)定,分詞正確率高;加快軟件產(chǎn)品開(kāi)發(fā)使用,可移植性強(qiáng)。帶來(lái)的問(wèn)題是:受著作版權(quán)保護(hù),須繳納昂貴費(fèi)用,加大應(yīng)用軟件的制作成本;由于詞庫(kù)數(shù)據(jù)結(jié)構(gòu)的不公開(kāi),使維護(hù)變得困難;產(chǎn)品大多面向大眾化讀物,不能靈活地適應(yīng)專業(yè)技術(shù)性強(qiáng)的不同領(lǐng)域?qū)Ψ衷~的不同要求;詞庫(kù)中分詞需要標(biāo)注詞性,詞性對(duì)于專業(yè)技術(shù)文獻(xiàn)產(chǎn)生的作用并不明顯,更新分詞,須額外編輯詞性,并審校,費(fèi)時(shí)費(fèi)力,詞庫(kù)的更新周期比較長(zhǎng)。為了降低應(yīng)用成本,迫使我們不得不自主研發(fā)一整套適合本領(lǐng)域的包括分詞在內(nèi)的相關(guān)基本技術(shù)。分詞技術(shù)屬于中國(guó)特色的信息處理技術(shù)之一。在西方語(yǔ)言中,拼音字母組合構(gòu)成的單詞,單詞與單詞之間有明顯空格分隔,詞是自然分隔的,無(wú)須分詞。對(duì)于相形文字(如中日韓語(yǔ)言)來(lái)說(shuō),字詞之間緊密連接,沒(méi)有明顯間隔。因此需要仿照西方語(yǔ)言來(lái)預(yù)先加工分詞,使之明顯分割。只有具備了分詞分割字詞的基礎(chǔ),才能夠像西文那樣輕松地建立數(shù)學(xué)模型,利用數(shù)學(xué)方法,來(lái)對(duì)文獻(xiàn)進(jìn)行分析利用。因此本文將討論如何實(shí)現(xiàn)一種實(shí)用的快速分詞方法。

    1 分詞技術(shù)的現(xiàn)狀

    分詞技術(shù)目前已經(jīng)非常成熟。常見(jiàn)的有三種方法:

    1) 字符串匹配的分詞方法;

    2) 詞義分詞法;

    3) 統(tǒng)計(jì)分詞法。

    1.1 字符串匹配的分詞方法

    這是一種常用的分詞法,它主要利用已有詞庫(kù)中的詞匹配文章句子中的詞,來(lái)切分句子。常見(jiàn)的方法又有四種方法:

    1) 正向最大匹配法;

    2) 逆向最大匹配法;

    3) 最短路徑分詞法;

    4) 雙向最大匹配法。

    1.2 詞義分詞方法

    一種機(jī)器語(yǔ)音判斷的分詞方法。在進(jìn)行句法、語(yǔ)義分析時(shí),利用句法信息和語(yǔ)義信息來(lái)處理歧義現(xiàn)象從而得到分詞,這種分詞方法,現(xiàn)在還不成熟,處在實(shí)驗(yàn)階段。

    引入詞性協(xié)助分析詞性在語(yǔ)法位置上的可能性,對(duì)詞進(jìn)行合理切分,目前國(guó)內(nèi)產(chǎn)品出現(xiàn)的比較多。如中國(guó)科學(xué)院計(jì)算所的ICTCLAS產(chǎn)品。

    1.3 統(tǒng)計(jì)分詞法

    根據(jù)詞組的統(tǒng)計(jì),就會(huì)發(fā)現(xiàn)兩個(gè)相鄰字出現(xiàn)的頻率最多,那么這個(gè)詞就很重要。就可以作為用戶提供字符串中的分隔符來(lái)分詞。

    2 分詞技術(shù)的實(shí)現(xiàn)

    本文討論的是屬于字符串匹配的分詞方法。而且主要著重討論正向最大匹配法和逆向最大匹配法。雙向最大匹配法是前兩種方法的結(jié)合,用于判斷切分產(chǎn)生歧義時(shí),是否需要人工干預(yù)來(lái)決定選擇哪一種結(jié)果,或者,通過(guò)最佳路徑分詞法來(lái)自動(dòng)選擇一種。因此,設(shè)計(jì)好正向/逆向分詞技術(shù)是分詞技術(shù)實(shí)現(xiàn)的基礎(chǔ),也是本文主旨。本文重點(diǎn)是要實(shí)現(xiàn)一種高效的分詞技術(shù)。由于分詞技術(shù)是一種純粹底層的引擎,因此提出的高效目標(biāo),既要保證分詞的效率和效果,還要兼顧系統(tǒng)資源開(kāi)銷(xiāo),將節(jié)省的資源盡可能多地用于其他方面,例如響應(yīng)更多的客戶端的服務(wù)請(qǐng)求。筆者利用內(nèi)存和外存相結(jié)合的方法建立了一個(gè)駐留內(nèi)存的字典索引和一對(duì)存放于外存的正向分詞和逆向分詞詞庫(kù)來(lái)實(shí)現(xiàn)高效分詞技術(shù)。

    2.1 分詞庫(kù)的構(gòu)建

    在外存建立詞庫(kù),要對(duì)詞庫(kù)中詞語(yǔ)的開(kāi)頭漢字、詞語(yǔ)的漢字字?jǐn)?shù)和結(jié)尾漢字這三項(xiàng)進(jìn)行標(biāo)注。將分詞數(shù)據(jù)結(jié)構(gòu)定義為定長(zhǎng)記錄:{分詞char(30),首字char(2),首字編碼char(4),尾字char(2),尾字編碼char(4),分詞漢字?jǐn)?shù)int,位置號(hào)int}。

    詞庫(kù)設(shè)計(jì)需要考慮在詞庫(kù)檢索效率與詞長(zhǎng)選擇之間求得平衡。如果詞長(zhǎng)過(guò)長(zhǎng),檢索效率必然下降;如果詞長(zhǎng)過(guò)短,就會(huì)丟失正確的長(zhǎng)詞,使分詞正確性得不到滿足??紤]到化學(xué)、藥物、微生物等領(lǐng)域的技術(shù)術(shù)語(yǔ)可能會(huì)有大量長(zhǎng)詞出現(xiàn),因此,犧牲部分分詞的訪問(wèn)效率,換來(lái)長(zhǎng)詞的滿足也是不得已的,通常認(rèn)為一個(gè)長(zhǎng)詞最長(zhǎng)不超過(guò)15個(gè)漢字。

    實(shí)驗(yàn)中我們建立了大約120萬(wàn)條分詞的詞典庫(kù),用以模擬專利文獻(xiàn)詞典的真實(shí)數(shù)據(jù)規(guī)模。

    2.1.1 正向分詞詞庫(kù)的構(gòu)建

    將詞庫(kù)文件按照{(diào)首字編碼(正序)+詞語(yǔ)的漢字字?jǐn)?shù)(逆序)+尾字編碼(正序)+分詞(正序)}來(lái)排序,并得到一個(gè)正向分詞庫(kù)文件。每個(gè)記錄行號(hào)填入“位置號(hào)”字段。樣例參見(jiàn)表1。

    2.1.2 逆向分詞詞庫(kù)的構(gòu)建

    將詞庫(kù)文件按照{(diào)尾字編碼(正序)+詞語(yǔ)的漢字字?jǐn)?shù)(逆序)+首字編碼(正序)+分詞(正序)}來(lái)排序,并得到逆向分詞庫(kù)文件。每個(gè)記錄行號(hào)填入“位置號(hào)”字段。樣例參見(jiàn)表2

    2.2常駐內(nèi)存字典索引表的構(gòu)建

    在內(nèi)存建立一個(gè)字典索引表。由于分詞庫(kù),對(duì)于正向分詞是按照單詞首字集中有序存放的,對(duì)于逆向分詞也是按照單詞尾字集中有序存放的。因此,字典索引,對(duì)于正向分詞庫(kù)來(lái)說(shuō),需要知道單詞首字的起、止位置;同樣,對(duì)于逆向分詞庫(kù)來(lái)說(shuō),需要知道單詞尾字的起、止位置。

    接下來(lái)選擇什么樣的字典作為索引就是一個(gè)關(guān)鍵。

    通過(guò)考查GBK編碼特征,GBK編碼是雙字節(jié)定長(zhǎng)漢字編碼。其編碼與漢字區(qū)位相對(duì)應(yīng)。筆者在GBK編碼中篩選出21002個(gè)可見(jiàn)漢字建立字典索引碼表。這是目前國(guó)內(nèi)漢字編碼比較多的,且與《漢語(yǔ)大字典》相一致?!稘h語(yǔ)大字典》1993年版和1998年版,收錄了21000個(gè)字頭。字典索引碼表中的字,對(duì)于專利文獻(xiàn)領(lǐng)域的應(yīng)用,我們認(rèn)為也已經(jīng)足夠。如果要應(yīng)用于其他方面,例如涉及古籍出版物的文獻(xiàn),這一方案還是不足以滿足所需。例如《康熙字典》中的字頭收錄了多達(dá)47043個(gè)字頭。其中大多是異形字和非常用字。

    21002個(gè)可見(jiàn)漢字是如何從GBK編碼表篩選的?

    首先來(lái)看GBK編碼分布圖(參見(jiàn)圖1)。

    圖1 GBK編碼分布圖

    根據(jù)GBK編碼分布圖,我們將編碼劃分為兩類編碼:

    1) 由漢字一區(qū)、漢字二區(qū)、擴(kuò)展三區(qū)和擴(kuò)展四區(qū)組成的字模漢字編碼表,去掉其中不可見(jiàn)漢字字模編碼,共收錄21002個(gè)漢字。作為漢字編碼。

    2) 符號(hào)區(qū)字模編碼和不可見(jiàn)漢字字模編碼,作為非漢字編碼。

    另外除GBK編碼外,還有一類西文ASCII編碼。作為西文編碼。

    以可見(jiàn)漢字編碼作為字典構(gòu)建正向和逆向分詞索引,其最大記錄數(shù)約21002個(gè)。將數(shù)據(jù)結(jié)構(gòu)定義為定長(zhǎng)記錄:{GBK編碼char(4),漢字char(2),首字串字?jǐn)?shù)int,尾字串字?jǐn)?shù)int,首字開(kāi)始int,首字結(jié)尾int,尾字開(kāi)始int,尾字結(jié)尾int}。其記錄格式參見(jiàn)表3。

    表3 內(nèi)存字典索引格式

    1) 首先,對(duì)于停用字詞要做特殊預(yù)處理,要么過(guò)濾掉,要么視同分隔符作用,進(jìn)行特殊預(yù)切分,停用字詞前后要添加空格分隔符。

    2) 對(duì)于ascii編碼的西文字母數(shù)字及其特殊符號(hào),視同分隔符作用,不進(jìn)行切分。原樣輸出。

    3) 對(duì)于GBK編碼的符號(hào)區(qū)和不屬于字典索引表中識(shí)別漢字的編碼,視同分隔符作用,不進(jìn)行切分。原樣輸出。

    4) 對(duì)于GBK編碼屬于字典索引表中可識(shí)別的漢字的連續(xù)字串,視同中文例句,要進(jìn)行分詞切分,切分分詞前后要添加空格分隔符。切分的句子按照最大正向匹配法或最大逆向匹配法進(jìn)行分詞切分,切分出的分詞或單字之間要以空格分隔符分隔。

    分詞切分算法包含:

    正文切分句子算法、句子切分分詞(分為最大正向分詞匹配和最大逆向分詞匹配)算法。

    2.4.1 將正文切分成句子

    正文切分句子,主要是對(duì)原始文件中的正文信息進(jìn)行解析最粗的過(guò)程,首先要讀入一個(gè)字,這里的字,是文字串中最小的邏輯單元,對(duì)于ASCII編碼的字是單字節(jié),而對(duì)于GBK編碼的字是一個(gè)雙字節(jié)。

    要確定字的類型。主要有3種:

    1:ASCII編碼單字節(jié)表示的字,如西文字母數(shù)字及符號(hào);

    2:GBK編碼雙字節(jié)表示的字,不屬于字典索引表中(21002個(gè)漢字)的部分,如符號(hào)區(qū)全角符號(hào)和一至四區(qū)不可見(jiàn)漢字編碼;

    3:GBK編碼雙字節(jié)表示的字,屬于字典索引表中(21002個(gè)漢字)的部分,作為漢字編碼。

    讀入的字的類型如果連續(xù)相同,則字的流構(gòu)成同類字串,亦即短語(yǔ),直至讀到一個(gè)不同類型的字為止。如果屬于1類或2類的短語(yǔ),不處理,原樣輸出;如果屬于3類的短語(yǔ),要將短語(yǔ)句子作切分分詞的細(xì)加工處理,處理后的分詞流結(jié)果輸出。重新繼續(xù)構(gòu)造新的類型的字串,直至全部讀入的字串處理完為止。

    算法:

    T00; //首先確定已讀類型T0為空

    Y=X “”; // 句子樣板串Y和已讀字串X也清空

    While((T1getword(fdi,&C) ) > 0) {

    T1getword(fdi,&C); // 讀入字C,類型T1

    If(T1 != T0){ //當(dāng)讀字節(jié)的類型T1與已讀類型T0不一致時(shí)

    If ( T1 == 3) // 句子是漢字串

    X segment (X,direct) // 句子切分分詞 ;direct正向/逆向

    // 第一次,相當(dāng)于只輸出一個(gè)空,分詞

    Else If(T==2)

    X X+ “ ”;

    YY+X+ “ ”; // 句子樣板串Y添加已讀串S和空格(即Y=Y+X+ )

    X “”; //然后清空已讀串X

    T0T1; //重置新類型,T0取新類型T1

    } else { //否則,T1與T0一致,拼接字串

    XX+C; // 讀入字C添加到已讀字串X

    }

    }

    2.4.2 句子切分分詞

    句子切分分詞,主要有最大正向分詞法和最大逆向分詞法兩種方法。

    兩種方法同時(shí)對(duì)句子進(jìn)行切分分詞,是一種混合方法,主要用來(lái)對(duì)句子切分分詞結(jié)果進(jìn)行互校時(shí)同時(shí)使用。如果兩種切分句子結(jié)果出現(xiàn)歧義,則會(huì)引入另外一種,最短路徑的方法,即計(jì)算切分分詞數(shù)量最少優(yōu)先自動(dòng)判斷方法。后兩種方法在這里,就不進(jìn)一步介紹。

    算法:

    If (Direct==1) { // 正向分詞

    // 進(jìn)入最大正向分詞處理

    }else{ // 否則 , 逆向分詞

    // 進(jìn)入最大逆向分詞處理

    }

    2.4.2.1 最大正向分詞匹配

    由于正向分詞庫(kù)的記錄是按照字頭(正序)、詞長(zhǎng)字?jǐn)?shù)(逆序)、字尾(正序)排序,字典索引表中記錄了正向分詞庫(kù)中字頭和最大詞長(zhǎng)字?jǐn)?shù)。切分例句時(shí),通過(guò)字頭、可能的最大詞長(zhǎng)來(lái)優(yōu)先查找分詞。可能的最大詞長(zhǎng),是實(shí)際句子長(zhǎng)度和字典字頭對(duì)應(yīng)的正向分詞的最大長(zhǎng)度兩者中最小的長(zhǎng)度,最小不能小于2,否則不成其為詞,而為單字。例如:例句S:“最大正向分詞法”,其句長(zhǎng)SL:7。

    最大正向分詞匹配法,首先取字頭“最”字。全程折半查找字典索引表,找到“最”字索引。“最”字對(duì)應(yīng)正向分詞庫(kù)的局部起止范圍[begin,end],最大詞長(zhǎng)度WL=11。沿著起止范圍[begin,end]對(duì)分詞詞庫(kù)進(jìn)行折半查找。查找分詞“最大逆向分詞法”,如果沒(méi)有找到,則將查找詞去掉一個(gè)漢字“法”,繼續(xù)找“最大正向分詞”,如果還沒(méi)有找到,則繼續(xù)去掉后面的字,直至“最大”,還沒(méi)有找到,將“最”字,作為非分詞字,輸出。繼續(xù)以“大正向分詞法”為新句子,繼續(xù)切分分詞。如果找到分詞,例如:找到“最大正向分詞”,則輸出“最大正向分詞”,截?cái)喾衷~后的句子“法”作為新句子繼續(xù)切分分詞。直至,句子切分完畢。

    算法:

    Y “”; // 清空結(jié)果

    // S=例句,傳入?yún)?shù)

    SLlength(S); // 取例句長(zhǎng)度

    While(SL>0) { // 從例句首字開(kāi)始切分分詞

    Hget(S,0,1); // 取字頭

    Pbinary_search_gbk(0,GBKNUM-1,H); // 折半查找字頭

    WLgbk[P].hml; // 取字典正向分詞最大長(zhǎng)度

    begin gbk[P].hmb; // 分詞庫(kù)局部開(kāi)始位置

    end gbk[P].hme; // 分詞庫(kù)局部結(jié)尾位置

    Lmin(WL,SL); // 字典正向分詞最大長(zhǎng)度和句長(zhǎng)較小者,作為最大試探長(zhǎng)度

    For(l=L;i>1;l--) { // 以最大試探長(zhǎng)度依次縮小,

    // 來(lái)截?cái)嗑渥釉囂绞欠翊嬖谧畲蠓衷~

    Csubstr(S,0,l); //截取句子,取待查找分詞

    // 局部折半查找分詞

    If((rcfinddict(C,begin,end,fid))>0) { // fid指定分詞庫(kù)句柄

    Break; // 找到分詞

    }

    }

    Csubstr(S,0,l); //截取句子分詞

    YY+C+ “ ”; // 輸出分詞 ,或 ,非分詞單字

    S substr(S,l,SL); //截?cái)喾衷~后新句子

    SL length(S); // 取新句長(zhǎng)度,繼續(xù)

    }

    output(Y)//返回 輸出結(jié)果

    2.4.2.2 最大逆向分詞匹配

    由于逆向分詞庫(kù)的記錄是按照字尾(正序)、詞長(zhǎng)字?jǐn)?shù)(逆序)、字頭(正序)排序,字典索引表中記錄了逆向分詞庫(kù)中字尾和最大詞長(zhǎng)字?jǐn)?shù)。切分例句時(shí),通過(guò)字尾、可能的最大詞長(zhǎng)來(lái)優(yōu)先查找分詞。可能的最大詞長(zhǎng),是實(shí)際句子長(zhǎng)度和字典字尾對(duì)應(yīng)的逆向分詞的最大長(zhǎng)度兩者中最小的長(zhǎng)度,最小不能小于2,否則不成其為詞,而為單字。例如:例句S:“最大逆向分詞法”,其句長(zhǎng)SL:7。

    最大逆向分詞匹配法,首先取字尾“法”字,全程折半查找字典索引表,找到“法”字索引?!胺ā弊謱?duì)應(yīng)正向分詞庫(kù)的局部起止范圍[begin,end],最大詞長(zhǎng)度WL=14。沿著起止范圍[begin,end]對(duì)分詞詞庫(kù)進(jìn)行折半查找。查找分詞“最大逆向分詞法”,如果沒(méi)有找到,則將查找詞去掉一個(gè)漢字“最”,繼續(xù)找“大逆向分詞法”,如果還沒(méi)有找到,則繼續(xù)去掉后面的字,直至“詞法”,還沒(méi)有找到,將“法”字,作為非分詞字,輸出。繼續(xù)以“最大逆向分詞”為新句子,繼續(xù)切分分詞。如果找到分詞,例如:找到“逆向分詞法”,則輸出“ 逆向分詞法”,截?cái)喾衷~后句子“最大”,以新句子繼續(xù)切分分詞。直至,句子切分完畢。結(jié)果為“最大 逆向分詞法”

    算法:

    Y””; // 清空結(jié)果

    // S=例句,傳入?yún)?shù)

    SLlength(S); // 取例句長(zhǎng)度

    While(SL>0) { // 從例句首字開(kāi)始切分分詞

    T substr (S,SL-1,1); // 取尾字

    Pbinary_search_gbk(0,GBKNUM-1,T); // 折半查找字尾

    WLgbk[P].tml; // 取字典逆向分詞最大長(zhǎng)度

    begin gbk[P].tmb; // 分詞庫(kù)局部開(kāi)始位置

    end gbk[P].tme; // 分詞庫(kù)局部結(jié)尾位置

    Lmin(WL,SL); // 字典逆向分詞最大長(zhǎng)度和句長(zhǎng)較小者,作為最大試探長(zhǎng)度

    For(lL;i>1;l--) { // 以最大試探長(zhǎng)度依次縮小,

    // 來(lái)截?cái)嗑渥釉囂绞欠翊嬖谧畲蠓衷~

    C substr(S,SL-l,l); //截取句子,取待查找分詞

    // 局部折半查找分詞

    If((rcfinddict(C,begin,end,fid))>0) { // fid指定分詞庫(kù)句柄

    Break // 找到

    }

    }

    C substr(S,SL-l,l); //截取句子分詞

    Y “ “+C+Y; // 輸出分詞 ,或 ,非分詞單字,逆向粘接分詞

    S substr(S,SL-1,l); //截?cái)喾衷~后新句子

    SL length(S); // 取新句長(zhǎng)度,繼續(xù)

    }

    output(Y)//返回輸出 結(jié)果

    2.5 分詞切分試驗(yàn)效果

    本文采用C語(yǔ)言實(shí)現(xiàn),在lenovo T61,Intel(R)Core(TM)2 Duo CPU T7500 @2.20GHz2.17GHz,1.96GB內(nèi)存。安裝WindowsXP,同時(shí)安裝SUSE linux server11。在SUSE下運(yùn)行。

    通過(guò)對(duì)正文文件的整個(gè)文件的單線程切分,測(cè)試實(shí)際切分效果,將國(guó)際專利分類號(hào)索引電子文檔正文文件,分成八個(gè)大部的8個(gè)文件,分別切分。其效果由表4不難看出,逆向分詞比正向分詞平均快10%。

    3 結(jié)論

    本文給出分詞算法的技術(shù)實(shí)現(xiàn),在于推薦一種快速分詞技術(shù)方案。該方案采用內(nèi)外存相結(jié)合,通過(guò)內(nèi)存構(gòu)建GBK編碼字典,快速查找到外存分詞庫(kù)的局部起止位置,通過(guò)縮小范圍的局部折半查找來(lái)快速確定分詞是否存在。通過(guò)提供的最大正向分詞匹配法和或最大逆向分詞匹配法,來(lái)對(duì)文章切分句子,對(duì)句子短語(yǔ)再進(jìn)一步分線程雙向切分,通過(guò)比對(duì)短語(yǔ)切分結(jié)果,當(dāng)切分結(jié)果出現(xiàn)歧義時(shí),采用分詞數(shù)最少策略取其一種,記錄歧義語(yǔ)句日志。雙向匹配法產(chǎn)生的歧義的改進(jìn)算法不在本文討論之內(nèi)。由于在本專利信息領(lǐng)域使用,考慮到一篇專利標(biāo)題和文摘平均大約在5000字節(jié)以內(nèi),專利說(shuō)明書(shū)和權(quán)利要求書(shū)等文獻(xiàn),在1萬(wàn)字之間,即便直接單線程切分文摘或全文也不足1秒,如果采用多線程并行多結(jié)點(diǎn)切分,其速度還可以進(jìn)一步加快??蓪⒎衷~效率提高到足以使分詞服務(wù)響應(yīng)擁塞現(xiàn)象能夠消除為止,其性能是可控的。使得節(jié)省的時(shí)間能更多地用于其他方面。例如:統(tǒng)計(jì)詞頻、相似度比對(duì)運(yùn)算等。由于最大正向分詞匹配法和或最大逆向分詞匹配法同屬于機(jī)械分詞法,兩種方法切分的結(jié)果都會(huì)產(chǎn)生錯(cuò)誤率,而且同時(shí)出現(xiàn)錯(cuò)誤的情況也在所難免。但是這并不影響該方法的使用。分詞庫(kù)與字典索引表是一個(gè)相互關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),在運(yùn)行期間需要相對(duì)穩(wěn)定和保持靜態(tài)不變??焖俜衷~方法由于不涉及詞性問(wèn)題,新分詞的增加,可通過(guò)獲取新詞的自動(dòng)方法獲得。自動(dòng)獲取新詞并定期更新分詞庫(kù)及字典索引表,由于完全自主定義,而使得維護(hù)變得非常容易。技術(shù)實(shí)現(xiàn)通過(guò)socket提供的接口服務(wù),可與Java、C#等語(yǔ)言通信,或者重新用其他語(yǔ)言編寫(xiě),算法簡(jiǎn)約,不會(huì)存在移植性障礙。

    參考文獻(xiàn):

    [1] 莊新妍. 計(jì)算機(jī)中文分詞技術(shù)的應(yīng)用[J]. 呼倫貝爾學(xué)院學(xué)報(bào),2010(3).

    [2] 李淑英. 中文分詞技術(shù)[J]. 科技信息,2007(36) .

    [3] 余戰(zhàn)秋. 中文分詞技術(shù)及其應(yīng)用初探[J]. 電腦知識(shí)與技術(shù),2004(32).

    [4] 劉紅芝. 中文分詞技術(shù)的研究[J]. 電腦開(kāi)發(fā)與應(yīng)用,2010(3).

    久久中文看片网| 黄色片一级片一级黄色片| 久久久国产成人免费| 亚洲国产中文字幕在线视频| 国产熟女午夜一区二区三区| 成人三级做爰电影| 午夜免费鲁丝| 美女国产高潮福利片在线看| 黄色 视频免费看| 精品视频人人做人人爽| 国产男女超爽视频在线观看| 如日韩欧美国产精品一区二区三区| 性少妇av在线| 国产精品电影一区二区三区 | 老司机靠b影院| 飞空精品影院首页| 黄色女人牲交| 99精国产麻豆久久婷婷| 国产成人一区二区三区免费视频网站| 精品少妇久久久久久888优播| 岛国在线观看网站| 又黄又爽又免费观看的视频| 久久 成人 亚洲| 99久久综合精品五月天人人| 成年人黄色毛片网站| 99热只有精品国产| 久久人人97超碰香蕉20202| 妹子高潮喷水视频| 激情在线观看视频在线高清 | 少妇粗大呻吟视频| 国产乱人伦免费视频| 曰老女人黄片| 亚洲va日本ⅴa欧美va伊人久久| 久久精品国产综合久久久| 国产激情欧美一区二区| 久久午夜亚洲精品久久| 日本vs欧美在线观看视频| 在线播放国产精品三级| 国产乱人伦免费视频| 人人妻,人人澡人人爽秒播| 人人妻人人爽人人添夜夜欢视频| 视频在线观看一区二区三区| 一区在线观看完整版| 久99久视频精品免费| 国产高清videossex| 国产精品久久久久成人av| 999精品在线视频| 在线观看免费视频网站a站| 日本黄色日本黄色录像| 在线观看免费日韩欧美大片| 亚洲精品国产色婷婷电影| 中文字幕精品免费在线观看视频| 超碰97精品在线观看| 99re在线观看精品视频| 男女免费视频国产| 老司机午夜福利在线观看视频| 日日爽夜夜爽网站| 国产一区二区三区视频了| 99re在线观看精品视频| 叶爱在线成人免费视频播放| 极品人妻少妇av视频| xxx96com| 亚洲精品成人av观看孕妇| 国产一区有黄有色的免费视频| 岛国毛片在线播放| 久久久国产成人免费| 亚洲精品国产色婷婷电影| 高清欧美精品videossex| 女人被躁到高潮嗷嗷叫费观| 国产精品久久久人人做人人爽| 亚洲性夜色夜夜综合| 在线天堂中文资源库| 精品福利永久在线观看| 在线av久久热| 久久青草综合色| 又紧又爽又黄一区二区| 精品人妻在线不人妻| 黄色视频,在线免费观看| 成人手机av| 亚洲精品国产一区二区精华液| 香蕉久久夜色| 乱人伦中国视频| 91精品三级在线观看| 国产精品久久视频播放| 日韩欧美在线二视频 | 深夜精品福利| 亚洲av熟女| 国产欧美日韩综合在线一区二区| 少妇猛男粗大的猛烈进出视频| 国产99白浆流出| 啦啦啦免费观看视频1| 国产av精品麻豆| 亚洲人成电影免费在线| 看片在线看免费视频| 丰满饥渴人妻一区二区三| avwww免费| 中文字幕人妻丝袜制服| 欧美一级毛片孕妇| 午夜激情av网站| 啦啦啦免费观看视频1| 久久中文字幕一级| 亚洲成国产人片在线观看| 亚洲国产欧美网| 免费在线观看影片大全网站| 国产精品九九99| 久久性视频一级片| 日韩视频一区二区在线观看| 亚洲精品av麻豆狂野| 熟女少妇亚洲综合色aaa.| 欧美日韩福利视频一区二区| 大香蕉久久成人网| 久久天躁狠狠躁夜夜2o2o| 国产亚洲一区二区精品| 美国免费a级毛片| 美国免费a级毛片| 亚洲一区中文字幕在线| 777久久人妻少妇嫩草av网站| 激情在线观看视频在线高清 | 啦啦啦免费观看视频1| 99re在线观看精品视频| 欧美黑人精品巨大| 久久亚洲真实| 人妻久久中文字幕网| 香蕉久久夜色| 午夜福利乱码中文字幕| 国产精品久久久久久人妻精品电影| 成人国语在线视频| 一本大道久久a久久精品| 精品人妻1区二区| 日本精品一区二区三区蜜桃| 如日韩欧美国产精品一区二区三区| 久久人妻av系列| 又紧又爽又黄一区二区| 欧美黑人欧美精品刺激| 国产极品粉嫩免费观看在线| 天天躁日日躁夜夜躁夜夜| 国产在线一区二区三区精| 黑丝袜美女国产一区| 国产伦人伦偷精品视频| 中文字幕色久视频| 欧美国产精品va在线观看不卡| 国产一区有黄有色的免费视频| 一夜夜www| 99久久综合精品五月天人人| 一级a爱视频在线免费观看| 一区二区日韩欧美中文字幕| 91国产中文字幕| 黄片播放在线免费| 大型黄色视频在线免费观看| 大陆偷拍与自拍| 日韩一卡2卡3卡4卡2021年| 午夜日韩欧美国产| 亚洲第一av免费看| 视频在线观看一区二区三区| 国产成人av激情在线播放| 动漫黄色视频在线观看| 亚洲熟妇熟女久久| 亚洲人成伊人成综合网2020| 一本大道久久a久久精品| 丁香欧美五月| а√天堂www在线а√下载 | 免费在线观看日本一区| 久久国产亚洲av麻豆专区| 国产精品国产高清国产av | 操出白浆在线播放| 怎么达到女性高潮| 飞空精品影院首页| 午夜亚洲福利在线播放| 国产精品久久电影中文字幕 | 国产高清视频在线播放一区| 日本精品一区二区三区蜜桃| 免费观看a级毛片全部| 精品一区二区三区av网在线观看| 精品电影一区二区在线| 美女高潮到喷水免费观看| 久久香蕉激情| 韩国av一区二区三区四区| av中文乱码字幕在线| 欧美日韩亚洲综合一区二区三区_| 国产精品亚洲av一区麻豆| 国产亚洲精品一区二区www | 国产成人欧美在线观看 | 国产男女超爽视频在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 老司机深夜福利视频在线观看| 亚洲美女黄片视频| 亚洲国产欧美一区二区综合| 久久久久久久久免费视频了| 亚洲 欧美一区二区三区| 国产区一区二久久| 中文字幕另类日韩欧美亚洲嫩草| 99国产综合亚洲精品| 91av网站免费观看| 一级作爱视频免费观看| 亚洲成国产人片在线观看| 久久热在线av| 法律面前人人平等表现在哪些方面| 久久久久国产一级毛片高清牌| 欧美成人免费av一区二区三区 | 午夜福利在线观看吧| 成人手机av| 久久久国产成人精品二区 | 亚洲一码二码三码区别大吗| a级毛片在线看网站| 老司机午夜十八禁免费视频| 亚洲欧洲精品一区二区精品久久久| 看黄色毛片网站| 无限看片的www在线观看| 久久久国产欧美日韩av| 一级,二级,三级黄色视频| 正在播放国产对白刺激| 纯流量卡能插随身wifi吗| 亚洲第一青青草原| 久久久精品免费免费高清| 丰满人妻熟妇乱又伦精品不卡| 99久久综合精品五月天人人| svipshipincom国产片| 一级毛片精品| 美女国产高潮福利片在线看| 丝瓜视频免费看黄片| 国产一卡二卡三卡精品| 国产av一区二区精品久久| 人人妻人人澡人人爽人人夜夜| 久久性视频一级片| 法律面前人人平等表现在哪些方面| 亚洲精品久久午夜乱码| 久久国产亚洲av麻豆专区| www日本在线高清视频| 国产日韩欧美亚洲二区| 99国产精品免费福利视频| 无人区码免费观看不卡| 欧美 亚洲 国产 日韩一| 国产不卡一卡二| 女警被强在线播放| 婷婷成人精品国产| 又大又爽又粗| 老熟妇乱子伦视频在线观看| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲va日本ⅴa欧美va伊人久久| 黄片小视频在线播放| 国产区一区二久久| 黑人巨大精品欧美一区二区蜜桃| 麻豆国产av国片精品| 亚洲国产精品合色在线| 成在线人永久免费视频| 欧美大码av| 色老头精品视频在线观看| 一进一出好大好爽视频| av福利片在线| 脱女人内裤的视频| 精品久久久久久,| 中国美女看黄片| 一级毛片高清免费大全| 在线观看免费视频网站a站| 欧美日韩视频精品一区| 高清欧美精品videossex| 18禁国产床啪视频网站| 热99re8久久精品国产| 国产精品国产高清国产av | 亚洲综合色网址| 麻豆乱淫一区二区| 国产一区二区三区在线臀色熟女 | 亚洲午夜理论影院| 巨乳人妻的诱惑在线观看| a在线观看视频网站| 91在线观看av| 80岁老熟妇乱子伦牲交| 一进一出抽搐动态| 国产精品国产高清国产av | 欧美久久黑人一区二区| 老熟女久久久| av超薄肉色丝袜交足视频| 日日爽夜夜爽网站| 亚洲国产看品久久| 三级毛片av免费| 亚洲色图av天堂| 黄色视频不卡| 黄色丝袜av网址大全| 男人舔女人的私密视频| 亚洲一区二区三区欧美精品| 欧美黄色淫秽网站| x7x7x7水蜜桃| 99国产极品粉嫩在线观看| 欧美激情 高清一区二区三区| 国产精品一区二区在线观看99| 国产欧美日韩一区二区精品| www.精华液| 国产成+人综合+亚洲专区| 亚洲精品在线美女| 午夜福利乱码中文字幕| av不卡在线播放| 757午夜福利合集在线观看| 男人舔女人的私密视频| 欧美激情极品国产一区二区三区| 国产熟女午夜一区二区三区| 99香蕉大伊视频| 欧美国产精品一级二级三级| a级毛片黄视频| 国产男靠女视频免费网站| 国产淫语在线视频| 天堂中文最新版在线下载| 国产黄色免费在线视频| 国产单亲对白刺激| 搡老熟女国产l中国老女人| 少妇粗大呻吟视频| 99re6热这里在线精品视频| 中文欧美无线码| 国产人伦9x9x在线观看| 亚洲专区国产一区二区| 一区福利在线观看| 亚洲七黄色美女视频| 777米奇影视久久| 久热爱精品视频在线9| 亚洲美女黄片视频| 亚洲九九香蕉| 欧美成狂野欧美在线观看| 精品久久久久久久久久免费视频 | 国产蜜桃级精品一区二区三区 | 午夜成年电影在线免费观看| 757午夜福利合集在线观看| videos熟女内射| 国产免费现黄频在线看| 亚洲色图 男人天堂 中文字幕| 高清av免费在线| 欧美日韩av久久| 巨乳人妻的诱惑在线观看| 大陆偷拍与自拍| 午夜精品久久久久久毛片777| 人妻丰满熟妇av一区二区三区 | 如日韩欧美国产精品一区二区三区| 成人影院久久| 国产精品99久久99久久久不卡| 亚洲成人免费av在线播放| 中文字幕人妻丝袜制服| 中文字幕色久视频| 亚洲一区二区三区不卡视频| 国产男靠女视频免费网站| 亚洲精品久久成人aⅴ小说| 天天添夜夜摸| 国产有黄有色有爽视频| 亚洲精品在线观看二区| 91精品三级在线观看| 亚洲精华国产精华精| 夜夜夜夜夜久久久久| 91麻豆av在线| 色婷婷久久久亚洲欧美| 日本五十路高清| 日韩三级视频一区二区三区| 天天操日日干夜夜撸| 99久久精品国产亚洲精品| 黄色a级毛片大全视频| 一边摸一边抽搐一进一出视频| 亚洲专区中文字幕在线| 欧美激情 高清一区二区三区| 欧美激情 高清一区二区三区| 亚洲精品中文字幕一二三四区| 国产精品免费大片| 国产亚洲精品久久久久久毛片 | 国产精品秋霞免费鲁丝片| 国产成人精品久久二区二区免费| 精品电影一区二区在线| 老司机影院毛片| 中文字幕色久视频| 久久精品国产综合久久久| 久久久国产欧美日韩av| 99国产精品一区二区蜜桃av | 国产欧美日韩一区二区三区在线| 国产三级黄色录像| 亚洲熟女精品中文字幕| 免费一级毛片在线播放高清视频 | 捣出白浆h1v1| 无人区码免费观看不卡| 99久久99久久久精品蜜桃| 无遮挡黄片免费观看| 69av精品久久久久久| 国产高清videossex| 麻豆乱淫一区二区| 亚洲av美国av| 两性夫妻黄色片| 啦啦啦在线免费观看视频4| 国产精品影院久久| 天天添夜夜摸| 99久久综合精品五月天人人| 精品福利观看| 丰满的人妻完整版| 99精品久久久久人妻精品| 久久国产亚洲av麻豆专区| 色在线成人网| 大型av网站在线播放| 搡老乐熟女国产| 身体一侧抽搐| 美女高潮到喷水免费观看| 中出人妻视频一区二区| 侵犯人妻中文字幕一二三四区| 国产一区二区三区综合在线观看| 后天国语完整版免费观看| 9191精品国产免费久久| 涩涩av久久男人的天堂| 亚洲精品中文字幕一二三四区| 色尼玛亚洲综合影院| 精品国产亚洲在线| 国产亚洲精品久久久久5区| 丰满迷人的少妇在线观看| 免费看a级黄色片| 电影成人av| 精品少妇久久久久久888优播| 精品久久久久久,| 午夜精品在线福利| 国产免费男女视频| 热99久久久久精品小说推荐| 三级毛片av免费| 国产精品亚洲一级av第二区| 国产三级黄色录像| 熟女少妇亚洲综合色aaa.| 老汉色∧v一级毛片| 中文字幕另类日韩欧美亚洲嫩草| 久久ye,这里只有精品| 亚洲精品在线观看二区| 一级,二级,三级黄色视频| 热re99久久国产66热| 久久精品国产清高在天天线| 午夜老司机福利片| 欧美不卡视频在线免费观看 | 国产亚洲精品久久久久久毛片 | 国产亚洲精品一区二区www | 91麻豆av在线| 一区二区三区激情视频| 视频区欧美日本亚洲| av一本久久久久| 日韩欧美国产一区二区入口| 国产有黄有色有爽视频| 精品一区二区三区av网在线观看| 巨乳人妻的诱惑在线观看| 女人精品久久久久毛片| 国产精品一区二区精品视频观看| 亚洲性夜色夜夜综合| 国产精品久久电影中文字幕 | 视频区欧美日本亚洲| 午夜久久久在线观看| 日韩制服丝袜自拍偷拍| 人成视频在线观看免费观看| 夜夜躁狠狠躁天天躁| 一区福利在线观看| x7x7x7水蜜桃| 亚洲成人免费电影在线观看| 免费女性裸体啪啪无遮挡网站| 看免费av毛片| 热99久久久久精品小说推荐| 在线av久久热| 韩国精品一区二区三区| 国产精品成人在线| 超碰成人久久| 午夜福利免费观看在线| 欧美大码av| 国产野战对白在线观看| 欧美人与性动交α欧美精品济南到| 亚洲国产精品合色在线| 丰满的人妻完整版| 国产在线一区二区三区精| 久久久久久久精品吃奶| 亚洲 欧美一区二区三区| 国产亚洲精品第一综合不卡| 欧美人与性动交α欧美精品济南到| 国产乱人伦免费视频| 91av网站免费观看| 一级毛片精品| 久热这里只有精品99| 最新在线观看一区二区三区| 免费在线观看影片大全网站| 国产精品久久视频播放| 久久精品亚洲熟妇少妇任你| 国产男女超爽视频在线观看| 精品久久久久久久久久免费视频 | 国产精品乱码一区二三区的特点 | a级毛片黄视频| 精品国产一区二区三区久久久樱花| av国产精品久久久久影院| 日韩欧美一区二区三区在线观看 | 丁香六月欧美| 一本一本久久a久久精品综合妖精| 午夜成年电影在线免费观看| 精品人妻1区二区| 69精品国产乱码久久久| 又紧又爽又黄一区二区| 亚洲国产精品一区二区三区在线| 久久精品国产综合久久久| 午夜福利,免费看| 美女扒开内裤让男人捅视频| 亚洲成人免费av在线播放| 日本一区二区免费在线视频| 建设人人有责人人尽责人人享有的| 欧美日韩乱码在线| 久久国产亚洲av麻豆专区| 一区二区日韩欧美中文字幕| 老司机午夜福利在线观看视频| 国产精品影院久久| 免费在线观看黄色视频的| 国产一区二区三区视频了| 高清毛片免费观看视频网站 | 一级毛片女人18水好多| av视频免费观看在线观看| 亚洲精品国产一区二区精华液| 久久国产乱子伦精品免费另类| 热99re8久久精品国产| 飞空精品影院首页| 在线观看免费日韩欧美大片| 久热爱精品视频在线9| 亚洲av熟女| 国产精品久久久久成人av| 极品教师在线免费播放| 一级毛片高清免费大全| 岛国毛片在线播放| 淫妇啪啪啪对白视频| 精品国产美女av久久久久小说| 国产亚洲欧美精品永久| 老熟女久久久| 无人区码免费观看不卡| 久久久久久久国产电影| 久久精品亚洲av国产电影网| 老司机在亚洲福利影院| 亚洲av第一区精品v没综合| 亚洲av成人一区二区三| 国产一区二区三区综合在线观看| 人人妻人人添人人爽欧美一区卜| 热99久久久久精品小说推荐| 欧洲精品卡2卡3卡4卡5卡区| 免费黄频网站在线观看国产| 亚洲欧美激情综合另类| 天天躁夜夜躁狠狠躁躁| 久9热在线精品视频| 麻豆乱淫一区二区| 麻豆av在线久日| 一二三四在线观看免费中文在| 一级,二级,三级黄色视频| 下体分泌物呈黄色| cao死你这个sao货| 久久精品亚洲精品国产色婷小说| 国产欧美亚洲国产| 91老司机精品| 国产一卡二卡三卡精品| 国产高清videossex| 国产精品国产av在线观看| 国产精品 欧美亚洲| 国产淫语在线视频| 色综合欧美亚洲国产小说| 天天躁狠狠躁夜夜躁狠狠躁| 日本vs欧美在线观看视频| 亚洲美女黄片视频| 国产成人免费观看mmmm| 十八禁高潮呻吟视频| 国产97色在线日韩免费| 村上凉子中文字幕在线| 人人妻人人澡人人看| 中文字幕制服av| 别揉我奶头~嗯~啊~动态视频| 老司机靠b影院| 国产色视频综合| 超碰97精品在线观看| 欧美乱妇无乱码| 久热爱精品视频在线9| av网站免费在线观看视频| 国产精品国产高清国产av | 午夜免费鲁丝| 中文字幕人妻丝袜一区二区| 免费在线观看日本一区| 日韩三级视频一区二区三区| 亚洲 欧美一区二区三区| 99在线人妻在线中文字幕 | 午夜免费观看网址| 伦理电影免费视频| 亚洲成人国产一区在线观看| 搡老乐熟女国产| 美女高潮喷水抽搐中文字幕| 国产精品一区二区免费欧美| 亚洲久久久国产精品| 亚洲色图综合在线观看| 亚洲精品国产精品久久久不卡| 免费久久久久久久精品成人欧美视频| 国产精品99久久99久久久不卡| 久久天躁狠狠躁夜夜2o2o| 黑人巨大精品欧美一区二区mp4| 国产成人影院久久av| 日本黄色视频三级网站网址 | 黑人巨大精品欧美一区二区mp4| 国产色视频综合| 飞空精品影院首页| 99久久国产精品久久久| 亚洲少妇的诱惑av| 99久久精品国产亚洲精品| 精品亚洲成国产av| 精品久久久久久电影网| 精品亚洲成国产av| 一级片'在线观看视频| 欧美黑人精品巨大| 精品福利永久在线观看| 黄色丝袜av网址大全| 欧美老熟妇乱子伦牲交| 淫妇啪啪啪对白视频| 久久精品国产清高在天天线| 久久人人爽av亚洲精品天堂| www.999成人在线观看| 丝袜美足系列| 亚洲av熟女| 欧美精品亚洲一区二区| 满18在线观看网站| 亚洲色图av天堂| 一区二区三区精品91| 啦啦啦视频在线资源免费观看| 欧美老熟妇乱子伦牲交| 亚洲欧美一区二区三区黑人| 亚洲一区二区三区不卡视频| 天堂中文最新版在线下载| 久久久久国产精品人妻aⅴ院 | 亚洲国产中文字幕在线视频| 人妻 亚洲 视频|