• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于無(wú)監(jiān)督學(xué)習(xí)的交集型歧義處理改進(jìn)方法*

    2016-01-28 00:53:44黃鵬,張姝,陳玉華
    關(guān)鍵詞:分詞

    ?

    一種基于無(wú)監(jiān)督學(xué)習(xí)的交集型歧義處理改進(jìn)方法*

    黃鵬1,3,張姝2,陳玉華1,文斌1

    (1.云南師范大學(xué) 信息學(xué)院,云南 昆明 650500;2.云南師范大學(xué) 檔案館,云南 昆明 650500;

    3.云南師范大學(xué) 民族教育信息化教育部重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

    摘要:歧義處理是中文分詞的難點(diǎn)之一,其中交集型歧義占該類問(wèn)題的主要部分,而無(wú)監(jiān)督學(xué)習(xí)可以利用互聯(lián)網(wǎng)上的無(wú)標(biāo)注語(yǔ)料庫(kù)來(lái)處理該問(wèn)題.文章將比較卡方統(tǒng)計(jì)量、t-測(cè)試差在歧義處理中的效果,通過(guò)對(duì)其研究提出一種改善歧義處理性能的方法.實(shí)驗(yàn)結(jié)果表明,所提出的方法能有效進(jìn)行分詞,并提高了交集型歧義消解的性能.

    關(guān)鍵詞:分詞;無(wú)監(jiān)督學(xué)習(xí);交集型歧義

    1引言

    分詞是中文文本信息處理的基礎(chǔ),它是將一串漢字切分成詞的過(guò)程.而歧義處理是其中的一個(gè)難點(diǎn),其中交集型歧義占該類問(wèn)題的90%左右[1].近年來(lái),中文分詞算法得到長(zhǎng)足發(fā)展,目前基于詞典和統(tǒng)計(jì)相結(jié)合的分詞方法以及字詞聯(lián)合解碼[2],能有效提高分詞效率和低頻詞的發(fā)現(xiàn),并能進(jìn)行歧義處理和未登錄詞(Out-Of-Vocabulary,OOV)的識(shí)別[3].其中統(tǒng)計(jì)方法主要分為有監(jiān)督學(xué)習(xí)方法和無(wú)監(jiān)督學(xué)習(xí)方法[4],有監(jiān)督學(xué)習(xí)可以從標(biāo)注語(yǔ)料中統(tǒng)計(jì)更為準(zhǔn)確的語(yǔ)言模型、詞出現(xiàn)的概率、詞類之間的轉(zhuǎn)移概率、發(fā)射概率等信息,如:N-最短路徑方法[5]、支持向量機(jī)[6]、條件隨機(jī)場(chǎng)[7]、最大間隔馬爾科夫網(wǎng)絡(luò)[8]等,對(duì)訓(xùn)練語(yǔ)料來(lái)自同領(lǐng)域內(nèi)的切分歧義消解有優(yōu)勢(shì),其分詞效果的F值高達(dá)0.95[9],但嚴(yán)重依賴于有標(biāo)注語(yǔ)料庫(kù).無(wú)監(jiān)督學(xué)習(xí)可通過(guò)無(wú)標(biāo)注語(yǔ)料庫(kù)進(jìn)行分詞,但其F值最高僅為0.85[10].

    基于這些工作,本文認(rèn)為隨著互聯(lián)網(wǎng)的發(fā)展,可以從網(wǎng)上獲取各個(gè)領(lǐng)域大規(guī)模無(wú)標(biāo)注語(yǔ)料庫(kù),結(jié)合詞典分詞與改進(jìn)無(wú)監(jiān)督學(xué)習(xí)方法,通過(guò)大規(guī)模無(wú)標(biāo)注語(yǔ)料庫(kù)的運(yùn)用,能有效改善文本分詞中所產(chǎn)生的交集型歧義能力.

    2分詞中的歧義問(wèn)題

    2.1歧義類型

    歧義是指中文分詞過(guò)程中,同一句話可能產(chǎn)生2種及以上的切分方法[11].下面分別定義幾種類型的歧義.

    定義1在字段ABC中,AB∈W,并且BC∈W,則ABC稱為交集型歧義字段,其中A、B、C為字串,W為詞表.如“要了解和研究學(xué)生”,可以切分為“要了/解/和/研究/學(xué)生”和“要/了解/和/研究/學(xué)生”.

    定義2在字段AB中AB∈W,A∈W,B∈W,則AB稱為組合型歧義字段,其中A、B為字串, W為詞表.如“請(qǐng)把手拿開(kāi)”,可以切分為“請(qǐng)/把/手/拿開(kāi)”和“請(qǐng)/把手/拿開(kāi)”.

    2.2交集型歧義識(shí)別

    雙向最大匹配法可以發(fā)現(xiàn)文本中的交集型歧義,原理是通過(guò)正向最大匹配算法(Forward Maximum Matching,F(xiàn)MM)和逆向最大匹配算法(Reverse Maximum Matching,RMM)進(jìn)行分詞[12],通過(guò)比較兩種分詞方法所得出的結(jié)果找出交集型歧義.其中正向最大匹配算法基本思想為將文本斷句后,從左向右按詞典中的最大長(zhǎng)度漢字取出字段,通過(guò)比較詞典中的詞,如能匹配則切分出來(lái),如不能匹配則減去最末尾一個(gè)字,再重新匹配,直到最后一個(gè)字.逆向最大匹配法和正向最大匹配法類似,只是方向不同.

    2.3卡方統(tǒng)計(jì)量

    卡方統(tǒng)計(jì)量主要用來(lái)計(jì)算兩個(gè)字的向關(guān)聯(lián)度,能夠有效地解決歧義問(wèn)題,提高文本分詞效果[13].其公式如下

    (1)

    其中,c1和c2分別代表連續(xù)的兩個(gè)字;A代表語(yǔ)料中c1、c2出現(xiàn)的次數(shù);B代表語(yǔ)料中第1個(gè)字為c1但第2個(gè)字不為c2的次數(shù);C代表語(yǔ)料中第1個(gè)字不為c1但第2個(gè)字為c2的次數(shù);D代表語(yǔ)料中第1個(gè)字不為c1且第2個(gè)字不為c2的次數(shù);N代表語(yǔ)料中所有二元組的個(gè)數(shù),即N=A+B+C+D.如果兩個(gè)字的卡方統(tǒng)計(jì)值比較大,則說(shuō)明這兩個(gè)字傾向于連接,如果兩個(gè)字的卡方統(tǒng)計(jì)值較小,則說(shuō)明這兩個(gè)字不經(jīng)常在一起出現(xiàn),傾向于分離.

    2.4卡方統(tǒng)計(jì)量歸一化

    在運(yùn)用卡方統(tǒng)計(jì)量比較兩字關(guān)聯(lián)程度時(shí),其值離散化較大,不方便比較,需要進(jìn)一步歸一化將卡方統(tǒng)計(jì)量歸一化到0到100以內(nèi),歸一化公式如下

    (2)

    通過(guò)對(duì)民族文化樣本庫(kù)中的文本處理,按照卡方統(tǒng)計(jì)量進(jìn)行處理存在并不能完全準(zhǔn)確的情況,如處理字符串“以極大地滿足佤族群眾”,發(fā)現(xiàn)“極大”存在歧義,其卡方統(tǒng)計(jì)量為0.101936,如按卡方統(tǒng)計(jì)值過(guò)小來(lái)處理,則“極大”應(yīng)該斷開(kāi),但在文中應(yīng)該連接.

    2.5t-測(cè)試

    針對(duì)卡方統(tǒng)計(jì)量只比較兩字之間的相關(guān)度,沒(méi)有比較字與上下文中其他字的相關(guān)度,而t-測(cè)試[14]可以解決相關(guān)問(wèn)題.對(duì)有序字串xyz,漢字y相對(duì)于x及z的t-測(cè)試定義為:

    (3)

    其中,p(x|y)、p(z|y)分別是y關(guān)于x和z關(guān)于y的條件概率,σ2(p(y|x))、σ2(p(z|y))是各自的方差.從t-測(cè)試的定義可知:(1)如果tx,z(y)>0,則y與z有相連趨勢(shì),值越大,趨勢(shì)越強(qiáng);(2)如果tx,z(y)<0,則y與x有相連趨勢(shì),值越大,趨勢(shì)越強(qiáng);(3)如果tx,z(y)=0,則無(wú)任何傾向.

    2.6t-測(cè)試差

    針對(duì)t-測(cè)試不方便統(tǒng)計(jì)兩字之間的傾向度,本文采用t-測(cè)試差來(lái)進(jìn)行兩字間傾向度比較.

    定義3對(duì)漢字串wxyz,漢字x、y之間的t-測(cè)試差定義為:

    Δt(x:y)=tw,y(x)-tx,z(y)

    (4)

    其中,Δt(x:y)有如下兩種情況:(1)如有Δt(x:y)>0,則x,y則傾向于為詞;(2)如Δt(x:y)<0,則x、y之間傾向于獨(dú)立.

    通過(guò)對(duì)民族文化樣本庫(kù)中的文本處理,按照t-測(cè)試差進(jìn)行處理存在并不能完全準(zhǔn)確的情況.如處理“地區(qū)性別比例不合理”字符串,發(fā)現(xiàn)歧義字段“例不”,其t-測(cè)試差為18.922889,按t-測(cè)試差方法進(jìn)行處理應(yīng)該連接成詞,但在文中正確處理應(yīng)該斷開(kāi).

    2.7聯(lián)合卡方統(tǒng)計(jì)量和t-測(cè)試差

    通過(guò)研究卡方統(tǒng)計(jì)量和t-測(cè)試差發(fā)現(xiàn),結(jié)合卡方統(tǒng)計(jì)量?jī)勺值南嚓P(guān)度和t-測(cè)試差上下文關(guān)聯(lián)度的優(yōu)點(diǎn),提出了以組合的方式將卡方統(tǒng)計(jì)量和t-測(cè)試差值進(jìn)行合并,提高交集型歧義處理能力,其聯(lián)合公式如下

    dc(x,y)=α×chi(x,y)*+β×Δt(x,y)+C

    (5)

    其中α、β為卡方統(tǒng)計(jì)量和t-測(cè)試差的權(quán)重值,C為線性疊加值.如果dc(x,y)>0則判斷為x、y傾向于連;如果dc(x,y)<0則判斷x、y傾向于斷.總體算法流程如圖1所示.

    圖1 總體算法流程圖

    3實(shí)驗(yàn)結(jié)果及分析

    以民族文化類文本構(gòu)建語(yǔ)料庫(kù),該語(yǔ)料庫(kù)都爬取自互聯(lián)網(wǎng)上的真實(shí)語(yǔ)料信息,民族文化類別包括法律、教育、地理、歷史、軍事、文化、藝術(shù)等,語(yǔ)料庫(kù)規(guī)模大小為7M.實(shí)驗(yàn)使用詞典方法進(jìn)行粗分,選用MM進(jìn)行分詞,通過(guò)FMM和RMM發(fā)現(xiàn)歧義.然后使用卡方統(tǒng)計(jì)量和t-測(cè)試差以單獨(dú)和組合的方式對(duì)交集型歧義進(jìn)行處理.詞典收錄了中文常用詞匯,其詞匯量達(dá)20萬(wàn)條.

    通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)α的值為10、β值為1/16、C為-3時(shí),歧義處理效果好,其結(jié)果如表1所示.

    表1 樣本中的卡方統(tǒng)計(jì)量和t-測(cè)試差聯(lián)合值

    根據(jù)實(shí)驗(yàn)結(jié)果可知,“上呈”、“例不”和“與其”的聯(lián)合值為負(fù)應(yīng)該斷開(kāi),切分正確;“形成”和“極大”的值為正應(yīng)該連接,切分正確.故以上結(jié)果表明通過(guò)聯(lián)合值能夠有效彌補(bǔ)卡方統(tǒng)計(jì)量和t-測(cè)試差的不足,提升交集型歧義處理效果.

    運(yùn)用卡方統(tǒng)計(jì)量和t-測(cè)試差等方法進(jìn)行歧義消解后得到樣本正確率等方面數(shù)據(jù),其結(jié)果如表2所示.

    表2 樣本分詞效果

    其中F值是綜合召回率和正確率的評(píng)估指標(biāo):F值=正確率×召回率×2/(正確率+召回率).實(shí)驗(yàn)結(jié)果表明該方法能夠有效地提高歧義處理的效果,在召回率、正確率和F值方面比前3種分詞方法都有提升.

    4結(jié)束語(yǔ)

    本文比較卡方統(tǒng)計(jì)量、t-測(cè)試差在歧義處理中的效果,通過(guò)對(duì)其研究提出一種改善歧義處理性能的方法.實(shí)驗(yàn)結(jié)果表明,提出的方法能有效進(jìn)行分詞,并提高了交集型歧義消解的性能.下一步將研究云計(jì)算環(huán)境下大規(guī)模語(yǔ)料庫(kù)的處理問(wèn)題.

    參考文獻(xiàn):

    [1]劉健,張維明.一種快速的交集型歧義檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2008,25(11):3259-3261.

    [2]宋彥,蔡?hào)|風(fēng),張桂平,等.一種基于字詞聯(lián)合解碼的中文分詞方法[J].軟件學(xué)報(bào),2009,20(9):2366-2375.

    [3]韓冬煦,常寶寶.中文分詞模型的領(lǐng)域適應(yīng)性方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(2):272-281.

    [4]HUANG C N,ZHAO H.Chinese word segmentation:A decade review[J].Journal of Chinese Information Processing,2007,21(3):8-19.

    [5]張華平,劉群.基于N-最短路徑方法的中文詞語(yǔ)粗分模型[J].中文信息學(xué)報(bào),2002,16(5):1-7.

    [6]BRERETON R G,LLOYD G R.Support vector machines for classification and regression.[J].Analyst,2010,135(2):230-267.

    [7]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields: probabilistic models for segmenting and labeling sequence data[C].Proc International Conference on Machine Learning,Williamstown,USA,2001.

    [8]QIAO W,SUN M.Joint Chinese word segmentation and named entity recognition based on max-margin Markov networks[J].Journal of Tsinghua University,2010,50(5):758-757.

    [9]孫茂松,肖明,鄒嘉彥.基于無(wú)指導(dǎo)學(xué)習(xí)策略的無(wú)詞表?xiàng)l件下的漢語(yǔ)自動(dòng)分詞[J].計(jì)算機(jī)學(xué)報(bào),2004,27(6):736-742.

    [10]姜芳,李國(guó)和,岳翔,等.基于粗分和詞性標(biāo)注的中文分詞方法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(6):204-207.

    [11]翟鳳文,赫楓齡,左萬(wàn)利.基于統(tǒng)計(jì)規(guī)則的交集型歧義處理方法[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2006,44(2):223-228.

    [12]修馳.適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2013.

    [13]CHANG B,HAN D.Enhancing domain portability of Chinese segmentation model using chi-square statistics and bootstrapping[C].Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing Association for Computational Linguistics,Massachusetts,USA,2010.

    [14]曹衛(wèi)峰.中文分詞關(guān)鍵技術(shù)研究[D].南京:南京理工大學(xué),2009.

    An Improved Method of Crossing Ambiguities

    Based on Unsupervised Learning

    HUANG Peng1,3, ZHANG Shu2, CHEN Yu-hua1, WEN Bin1

    (1.School of Information,Yunnan Normal University,Kunming 650500,China;

    2.Archives of Yunnan Normal University,Kunming 650500,China;3.Key Laboratory of Educational

    Informatization for Nationalities of the Ministry of Education,Yunnan Normal University,Kunming 650500,China)

    Abstract:Processing of ambiguities is the key problem in the automatic segmentation of Chinese words.The solution of crossing ambiguities is still an open issue in this problem,and unsupervised learning can make use of the in POS-untagged corpora from internet to deal with the problem.In this article, we compare the chi-square statistic,t-test results in the ambiguity processing. Based on analysis of them,some modified methods to further improve its capacity were proposed.The experimental results show that the proposed method can effectively segment Chinese words and improve the performance of crossing ambiguity processing.

    Keywords:Word segmentation; Unsupervised learning; Crossing ambiguities

    中圖分類號(hào):TP391

    文獻(xiàn)標(biāo)志碼:A

    文章編號(hào):1007-9793(2015)06-0045-05

    通信作者:張姝.

    作者簡(jiǎn)介:黃鵬(1990-),男,湖南汨羅人,碩士研究生,主要從事知識(shí)工程方面研究.

    基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61262071);云南省應(yīng)用基礎(chǔ)研究計(jì)劃青年資助項(xiàng)目(2013FD015).

    收稿日期:*2015-09-13

    猜你喜歡
    分詞
    基于偽標(biāo)注樣本融合的領(lǐng)域分詞方法
    分詞在英語(yǔ)教學(xué)中的妙用
    中學(xué)英語(yǔ)“現(xiàn)在分詞”用法歸納及難點(diǎn)突破
    名師在線(2019年5期)2019-11-26 11:03:06
    結(jié)巴分詞在詞云中的應(yīng)用
    分詞做狀語(yǔ)的概念解析
    值得重視的分詞的特殊用法
    現(xiàn)在分詞作狀語(yǔ)的不同形式
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    依據(jù)字符串匹配的中文分詞模型研究
    論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
    应城市| 搜索| 平乐县| 文山县| 太湖县| 泸溪县| 洪湖市| 阜平县| 那曲县| 江口县| 衡阳市| 公安县| 武冈市| 秦安县| 内丘县| 绥阳县| 满城县| 漠河县| 雅江县| 惠来县| 城固县| 定兴县| 凌源市| 乌拉特前旗| 上犹县| 同江市| 佛学| 华阴市| 苏州市| 磴口县| 广元市| 桦川县| 祁阳县| 射阳县| 彰武县| 扶绥县| 白水县| 桂阳县| 朝阳市| 合阳县| 陇西县|