• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于互信息的識別中文地名未登錄詞技術(shù)研究

      2011-10-25 10:17:56付海辰
      唐山師范學(xué)院學(xué)報 2011年2期
      關(guān)鍵詞:閥值互信息分詞

      付海辰

      (唐山學(xué)院 計算機(jī)科學(xué)與技術(shù)系,河北 唐山 063000)

      在大規(guī)模真實文本處理中,有一些詞依靠分詞詞典是無法識別出來的,這些詞被稱為未登錄詞,以中文人名、地名、機(jī)構(gòu)名為三種主要形式。未登錄詞的識別,是中文文本自動分詞中遇到的除歧義識別外的另一難題。

      在現(xiàn)在正蓬勃發(fā)展的信息檢索和數(shù)據(jù)挖掘研究領(lǐng)域中,未登錄詞的識別具有十分重要的意義:識別未登錄詞可以提高分詞和抽詞的精度,擴(kuò)充依據(jù)詞典提取的關(guān)鍵詞集合,從而更加準(zhǔn)確的對信息資源進(jìn)行描述、分析與理解[1]。

      1 未登錄詞識別的困難

      產(chǎn)生未登錄詞的原因主要有兩點:機(jī)器可讀詞典中詞條的選擇和詞條的數(shù)量;機(jī)器可讀詞典與待處理文本中的詞條匹配關(guān)系,包括機(jī)器可讀詞典對待處理文本中詞匯的覆蓋率[2]。漢語語言豐富靈活,漢語詞種類繁多,構(gòu)詞法樣式不一,都給未登錄詞的識別造成了很大的困難。另外,一些未登錄詞與詞典中已經(jīng)存在的詞相互交叉結(jié)合,也使得未登錄詞識別的正確率不高。例如,在句子“小梅花光了她所有的積蓄”中,“小梅”是一個中文人名,應(yīng)該被作為一個詞切分出來,但是實際切分時因為詞典中不存在這個詞,所以無法得到正確的切分,且由于詞典中收錄了“梅花”一詞,因此此句將被切分為“小/梅花/光/了/她/所有/的/錢”。

      未登錄詞的出現(xiàn)是中文文本不可避免的問題,其直接影響了中文文本處理的正確率,所以目前未登錄詞的識別是一個迫切需要解決的問題。

      中文人名、地名、機(jī)構(gòu)名是三種最主要的未登錄詞形式,它們的識別都有相當(dāng)重要的意義,本文主要側(cè)重于中文地名的識別。

      2 中文地名的的未登錄詞識別

      2.1 中文地名特點

      中文地名的識別困難不僅在于中文地名的多樣性和任意性,而且在很多情況下,其又可以作為句子的其他成分參與句子的構(gòu)造和活動。雖然中文地名在文章中的出現(xiàn)頻率不是很高,但絕不可以忽略,否則在分詞系統(tǒng)中會出現(xiàn)不可預(yù)料的錯誤。中文地名主要有如下特點:

      (1)中文地名數(shù)量大,且用詞分散、自由,到目前為止,還沒有完整的地名庫可供使用,隨著社會的發(fā)展,生疏地名也在不斷增加,較難完善。

      (2)地名長度無嚴(yán)格限制,短的如“京”,長的如“新疆維吾爾自治區(qū)”;且地名結(jié)尾經(jīng)常有地名特征詞出現(xiàn)。

      (3)可作單字詞的漢字在地名中經(jīng)常出現(xiàn),如“西/直/門”,給地名識別帶來困難,容易造成只識別出單字,而未識別出地名的錯誤。

      (4)多個地名一起出現(xiàn),難以一一正確劃分,如“河北省/唐山市/建設(shè)北路/鶴祥園/106樓”。

      這些中文地名的特點,都給地名的識別和切分帶來了困難。在無法窮舉所有地名的條件下,引入互信息這一概念,有助于克服以上地名識別困難。

      2.2 基于互信息的地名識別方法

      目前,國內(nèi)關(guān)于中文地名的研究主要有基于交換的地名識別方法,得到地名上下文的規(guī)律,對規(guī)律再進(jìn)行篩選。本文提出了一種基于互信息的中文地名識別方法,提出中文地名的上下文互信息概念,引入互信息對其進(jìn)行描述,并通過引入調(diào)整閥值進(jìn)行矯正,有效地提高了中文地名識別的效果,保證了較高的召回率,有助于中文自動分詞系統(tǒng)中未登錄詞識別的提高。

      互信息一般反映的是字與字之間的靜態(tài)結(jié)合,因為它計算的就是相鄰字出現(xiàn)的頻率,根據(jù)這個頻率與字單獨出現(xiàn)頻率進(jìn)行比較,計算出互信息來判斷什么時候組成詞語?;バ畔⒌母拍钭钤缫娪谛畔⒄摚渲谢バ畔⒈蛔鳛橐环N衡量兩個信號之間相互依賴的尺度[3]。在信息論中,這種二元互信息可以表示為兩個信號發(fā)生概率的函數(shù)。具體在自然語言處理領(lǐng)域中,就是把句子中詞或詞序列作為一系列可能有關(guān)聯(lián)的隨機(jī)事件,然后用互信息對它們進(jìn)行分析與研究。對有序漢字串AB中漢字AB之間的互信息I(A,B)定義如下:

      互信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度,當(dāng)緊密程度高于某一閥值時,便認(rèn)為此字組可能構(gòu)成了一個詞。其中,P (A,B)為漢字串 AB聯(lián)合出現(xiàn)的概率,P(A)為漢字串 A的出現(xiàn)概率,P(B)為漢字串B的出現(xiàn)概率,它們在漢字字符串中出現(xiàn)的次數(shù)分別計為n(A),n(B),n(AB),n是詞頻總數(shù),則有如下公式:

      互信息反映了漢字串AB間相關(guān)的程度。

      如果 I( A,B) ≥0,即 P (A,B)≥ P(A)P(B),則AB間是正相關(guān)的,隨著I(A,B)增加,相關(guān)度增加,如果I(A,B)大于給定的一個閥值,這時可以認(rèn)為AB是一個詞;

      如果 I( A,B) ≈0,即 P (A,B)≈ P(A)P(B),則AB間是不相關(guān)的;

      如果I(A,B)<0,即 P(A <B)< P (A)P(B),則AB間是互斥的,這時AB間基本不會結(jié)合成詞。

      在漢字處理中,互信息描述的是兩個字或者詞之間的關(guān)聯(lián)程度大小。定義y∈Y,其中y為某一具體的地名,Y為文本中所有地名的集合;x∈X,x為上下文信息,X為由x組成的集合。

      由于地名識別中,判斷一個句中是否含有地名,常常需要用到地名的左右指界詞,根據(jù)上述定義,I(x,y)表示上下文信息x與地名y的互信息,它的大小描述了x與y的關(guān)聯(lián)程度,此時的地名左右指界詞即為上下文信息x,指界詞與地名的共現(xiàn)頻率即為互信息I(x,y)。例如,兩個句子中分別有“到達(dá)”和“扣留”兩個詞,判定“到達(dá)”的后同現(xiàn)詞(出現(xiàn)在單詞右邊的詞)是地名的概率要大于“扣留”的后同現(xiàn)詞是地名的概率。引入互信息可以準(zhǔn)確的描述上下文信息x與地名y的關(guān)聯(lián)程度。

      2.3 基于互信息的地名識別方法

      2.3.1 地名的上下文互信息

      中國地名的自動識別策略是:在對文本分詞的基礎(chǔ)上進(jìn)行常見地名匹配后,利用概率估值公式在文本中初步篩選出候選地名,然后根據(jù)互信息方法計算出地名的上下文信息,再通過規(guī)則對候選地名進(jìn)一步確定,直至得到真正的地名。本文的互信息地名識別方法也是建立在已利用現(xiàn)有的地名識別資源,初步選出了侯選地名的基礎(chǔ)之上。識別原理如圖1所示。

      在信息論中,互信息 I( x,y)= I(y,x),兩者是對稱的;而在互信息的地名識別中,互信息 I( x,y)≠ I(y,x),因為在自然語言中,一個句子里漢字的排列順序是不能改變的。設(shè)地名與前同現(xiàn)詞的互信息為上文互信息,用Il表示;地名與后同現(xiàn)詞的互信息為下文互信息,用Ir表示。則定義如下:

      其中,place為一個侯選地名;Li、Rj分別為侯選地名place的前同現(xiàn)詞和后同現(xiàn)詞(i,j分別是自然數(shù),i≥1,j≥1;P (place)為真實地名集合在實際語料詞語中的概率(place為實際語料中的真實地名集合);P (Li, place) 、P( place,Rj)分別為真實地名集合與前同現(xiàn)詞的同現(xiàn)概率、真實地名集合與后同現(xiàn)詞的同現(xiàn)概率。地名的前同現(xiàn)詞與后同現(xiàn)詞使用概率是不同的,因此它們與地名的互信息Il和Ir的分布不同。

      圖1 中國地名自動識別原理圖

      例如,我們經(jīng)常遇到的地名前同現(xiàn)詞有“到達(dá)”、“開赴”、“靠近”等,后同現(xiàn)詞有“省”、“市”、“街”等。根據(jù)地名的上下文信息,將其互信息定義如下:

      其中,E是互信息 Il(Li, place)與 Ir(place,Rj)的均值,D為互信息 Il(Li, place)與 Ir(place,Rj)之間的方差。當(dāng)給定上下文環(huán)境時, Icon(Li,place, Rj)的數(shù)值可定量的描述place是真實地名的可能性。

      2.3.2 調(diào)整閥值確定

      為了對地名識別召回率進(jìn)行調(diào)整,將上下文互信息的調(diào)整閥值定義為:

      其中,

      定義概率估值 P (place)的計算公式如下:

      n=2時,

      n>2時,

      其中,

      公式中,對每個中國地名用字c, Nsampleplace表示在真實語料中出現(xiàn)的中國地名個數(shù)。Ps(c)、Pm(c)、Pe(c)分別是漢字c作地名首字、中間字和尾字的概率;Nps(c)、Npm(c)、Npe(c)分別是漢字 c在中國地名樣本庫中作地名首字、中間字、尾字的總次數(shù);Nts(c)、Ntm(c)、Nte(c)分別是漢字 c在真實文本中作地名首字、中間字、尾字的總次數(shù);Nt(c)是漢字c在真實文本中出現(xiàn)的總次數(shù),Nc(c)是漢字c在中國地名樣本庫中出現(xiàn)的總次數(shù)。

      2.3.3 地名識別過程

      中國地名的自動識別過程可以描述為:首先參照地名用字表進(jìn)行常見地名匹配,產(chǎn)生初步的候選地名字串,結(jié)合從真實文本中統(tǒng)計得到的詞頻信息進(jìn)一步確定候選地名的起止位置;其次計算候選地名的概率估值,并計算地名的互信息,結(jié)合上下文互信息進(jìn)行閥值篩選;最后利用規(guī)則對通過閥值篩選的候選地名進(jìn)行調(diào)整,產(chǎn)生正確的地名結(jié)果。具體步驟如下:

      (1)產(chǎn)生侯選地名字串。在分詞過程中,如果字串

      滿足以下條件,則認(rèn)為place為侯選地名字串。

      (Ps( C1)>thor C1為非詞字)

      and

      and

      其中th、tm、tl分別是地名首中尾字對應(yīng)的頻數(shù)閥值,隨著地名用字庫容量的改變,各閥值也不斷變化,但選擇閥值應(yīng)保證覆蓋樣本庫中99%的地名。

      (2)計算侯選地名的概率估值 P (place),并根據(jù)概率估值進(jìn)行初步調(diào)整,去掉部分概率過低的侯選地名。

      圖2 地名識別過程流程圖

      對于侯選地名

      place =C1…Cn=1Cn(n≥2),

      利用概率估值 P (place)計算公式(5)、(6),可得到侯選地名的概率估值。當(dāng)侯選地名的概率估值 P (place)越大,認(rèn)為是真實地名的概率越大,調(diào)整閥值的取值越??;侯選地名的概率估值越小,認(rèn)為是真實地名的概率越小,調(diào)整閥值的取值越大。

      (3)根據(jù)地名的前同現(xiàn)頻率 P (Li, place)和后同現(xiàn)頻率P(place,Rj)計算侯選地名的互信息 Icon(Li,place, Rj),利用公式(3)。當(dāng)給定上下文環(huán)境時,互信息的數(shù)值可定量描述place是真實地名的可能性。

      (4)根據(jù)侯選地名上下文互信息的調(diào)整閥值公式(4)進(jìn)行調(diào)整校正,以協(xié)調(diào)識別結(jié)果的召回率。

      (5)生成有地名切分標(biāo)志的分詞結(jié)果,輸出文本。

      識別過程如圖2所示。

      3 結(jié)論

      中國地名是漢語真實文本中最常出現(xiàn)的未登錄詞類型之一,僅次于人名的出現(xiàn)頻率。近年來,在對中國人名識別取得很大研究成果的基礎(chǔ)上,地名識別的研究也漸增多。本文提出的基于互信息的地名識別方法,提出中文地名的上下文互信息概念,引入互信息對其進(jìn)行定量的描述,本方法達(dá)到了較好的中文地名識別效果。

      猜你喜歡
      閥值互信息分詞
      光敏傳感器控制方法及使用其的滅蚊器
      傳感器世界(2019年6期)2019-09-17 08:03:20
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于小波分析理論的橋梁監(jiān)測信號去噪研究
      激光多普勒測速系統(tǒng)自適應(yīng)閥值檢測算法
      值得重視的分詞的特殊用法
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      深度學(xué)習(xí)在無人駕駛汽車中的應(yīng)用
      改進(jìn)的互信息最小化非線性盲源分離算法
      電測與儀表(2015年9期)2015-04-09 11:59:22
      基于增量式互信息的圖像快速匹配方法
      石柱| 台南市| 浦县| 皮山县| 清流县| 渝中区| 六枝特区| 巴青县| 黄龙县| 镇安县| 洛川县| 仁怀市| 灵川县| 布尔津县| 丽江市| 宜宾县| 灵宝市| 丰原市| 陆良县| 凯里市| 江永县| 江油市| 鲁山县| 扶绥县| 广宁县| 阳山县| 徐闻县| 黄石市| 蓬莱市| 陆丰市| 谷城县| 乐安县| 陵水| 珲春市| 邹平县| 大安市| 巧家县| 嵩明县| 广南县| 故城县| 山西省|