• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法

      2016-10-12 08:29:58吐爾地托合提維尼拉木沙江艾斯卡爾艾木都拉
      關(guān)鍵詞:維吾爾文互信息空格

      吐爾地·托合提 維尼拉·木沙江 艾斯卡爾·艾木都拉

      ?

      基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法

      吐爾地·托合提?維尼拉·木沙江 艾斯卡爾·艾木都拉

      新疆大學(xué)信息科學(xué)與工程學(xué)院, 烏魯木齊830046; ?E-mail: turdy@xju.edu.cn

      提出一種基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法。該方法從大規(guī)模生語(yǔ)料庫(kù)中自動(dòng)獲取維吾爾文單詞Bi-gram及上下文語(yǔ)境信息, 在充分考慮維吾爾文單詞間結(jié)合規(guī)則的前提下, 將相鄰單詞間的互信息、-測(cè)試差及雙詞鄰接對(duì)熵的線性融合作為組合統(tǒng)計(jì)量(dmd), 度量文本中相鄰單詞之間的關(guān)聯(lián)程度。以dmd度量的弱關(guān)聯(lián)的詞間位置作為切分點(diǎn)進(jìn)行自動(dòng)切分, 得到語(yǔ)義及結(jié)構(gòu)完整的詞串, 而不僅僅是以空格隔開的單詞。在大規(guī)模文本語(yǔ)料上進(jìn)行的測(cè)試表明, 該方法的切分準(zhǔn)確率達(dá)到88.21%。

      語(yǔ)義串; 互信息;-測(cè)試差; 鄰接對(duì)熵; 單詞結(jié)合規(guī)則

      文本切分是自然語(yǔ)言處理中的第一步, 也是關(guān)鍵的一步。采取何種方法及切分難易程度, 在不同語(yǔ)言環(huán)境下有所不同, 但最終目的是一樣的, 即從文本中獲取能表達(dá)具體、完整語(yǔ)義的語(yǔ)言單元的集合。這些語(yǔ)言單元在很多情況下是突破詞語(yǔ)概念界限的語(yǔ)義串[1–2], 是文本中上下文任意多個(gè)連續(xù)字符(字或詞)的穩(wěn)定組合, 是結(jié)構(gòu)穩(wěn)定不可分割且語(yǔ)義完整的語(yǔ)言單元(如固定搭配、習(xí)語(yǔ)、對(duì)偶詞等具有詞匯意義和語(yǔ)法意義的模式串[3–4]、詞組或短語(yǔ)[5]、復(fù)合詞或領(lǐng)域術(shù)語(yǔ)[6]以及命名實(shí)體等)。

      在文本中, 句子可以表達(dá)完整、連貫、易于理解的語(yǔ)義, 而語(yǔ)義串蘊(yùn)含句子的關(guān)鍵信息。因此, 用語(yǔ)義串表示文本, 可以有效地刻畫文本主題[7], 構(gòu)造泛化能力更強(qiáng)、更緊湊的文本模型[8-9], 從而可以提高相關(guān)算法性能及文本處理效率。因此, 如何識(shí)別語(yǔ)義串邊界并完整獲取, 已成為文本挖掘領(lǐng)域中的關(guān)鍵問題[10–11]。

      中文信息處理領(lǐng)域中, 分詞是研究歷史最悠久的問題, 經(jīng)過多年的研究, 中文分詞已出現(xiàn)多種較成熟的技術(shù)和實(shí)用分詞工具。但是, “文本海嘯”的到來(lái), 對(duì)中文自動(dòng)分詞研究提出一系列新的課題, 尤其是新詞邊界的正確識(shí)別及分詞系統(tǒng)對(duì)開放環(huán)境的適應(yīng)性及健壯性的需求日益突出。

      作為文本中上下文任意多個(gè)連續(xù)字符(字或詞)的穩(wěn)定組合, 語(yǔ)義串是語(yǔ)義及結(jié)構(gòu)完整的語(yǔ)言單元, 其內(nèi)部結(jié)合緊密, 不可分割。因此, 以相鄰漢字之間的結(jié)合程度作為切分依據(jù), 或?qū)⑺鳛檠a(bǔ)充手段來(lái)消除歧義, 在中文分詞和新詞識(shí)別方法中已起到很好的作用。孫茂松等[12]從大規(guī)模生語(yǔ)料中獲取漢字二元信息, 用互信息及-測(cè)試差的線性疊加值來(lái)衡量相鄰漢字之間的結(jié)合能力, 并設(shè)計(jì)了一種無(wú)詞表及無(wú)指導(dǎo)學(xué)習(xí)的自動(dòng)分詞算法。王思力等[13]用雙字耦合度和-測(cè)試差的線性疊加值來(lái)消除分詞中的交叉歧義, 但他們是從熟語(yǔ)料中獲取二元模型。費(fèi)洪曉等[14]分別用-gram、互信息及-測(cè)試3種統(tǒng)計(jì)量來(lái)判斷雙字構(gòu)成詞的可能性。王芳等[15]用互信息定量估計(jì)相鄰兩個(gè)基本詞間的結(jié)合可信度, 提出一種基于可信度的中文完整詞自動(dòng)識(shí)別方法。何賽克等[16]將字串鄰接變化數(shù)(accessor variety)引入基于條件隨機(jī)場(chǎng)的中文分詞系統(tǒng), 提高了分詞系統(tǒng)性能?;谠~典的分詞方法mmseg中, 蔣建洪等[17]用互信息來(lái)度量并過濾非鄰接詞, 使分詞系統(tǒng)性能得到提高。

      基于上述研究, 本文提出一種基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法。所提方法接近于孫茂松等[12]和王思力等[13]的研究, 但又有區(qū)別。首先, 他們都是用兩種基本統(tǒng)計(jì)量的線性融合作為組合統(tǒng)計(jì)量, 度量相鄰漢字之間的結(jié)合緊密度, 目的是提高現(xiàn)有中文分詞系統(tǒng)的精度。本文引入鄰接對(duì)熵(dual adjacent entropy), 并將-測(cè)試差(difference of-test)、互信息(mutual information)及鄰接對(duì)熵的線性融合作為一個(gè)組合統(tǒng)計(jì)量dmd, 用以度量相鄰維吾爾文單詞之間的結(jié)合緊密程度。本文目的是從已分好詞的單詞序列(以空格隔開的詞序列)中識(shí)別出最終的切分邊界, 從而獲取文本中結(jié)構(gòu)及語(yǔ)義完整的語(yǔ)言單元。除此之外, 本文還將維吾爾文不同詞性之間的結(jié)合規(guī)律作為一種規(guī)則, 融入詞間位置判斷中, 以便提高語(yǔ)義串識(shí)別精度。

      1 維吾爾文分詞及存在的問題

      維吾爾文是突厥語(yǔ)族中的一個(gè)成員, 又屬于阿爾泰語(yǔ)系, 是一種拼音文字, 具有黏著語(yǔ)特性。從表面上看, 維吾爾文詞在文本中以空格與上下文隔開, 因此, 一直認(rèn)為維吾爾文中不需要分詞。在各種文本處理中也都以空格作為自然分隔符進(jìn)行分詞(簡(jiǎn)稱空格分詞), 以詞為特征表征文本。

      例1 去北京的火車從哪個(gè)車站出發(fā)?

      例1由6個(gè)詞組成, 經(jīng)過詞干復(fù)原處理后再進(jìn)行空格分詞, 對(duì)應(yīng)的中文也經(jīng)ICTCLAS分詞(省略了功能詞), 得到的詞序列(維吾爾文書寫順序?yàn)閺挠业阶?如圖1所示。

      從分詞結(jié)果上看, 空格分詞對(duì)以上句子是有效的, 切分出來(lái)的詞都能作為基本的語(yǔ)義單元運(yùn)用。但對(duì)于以下幾個(gè)新聞標(biāo)題, 這種分詞結(jié)果幾乎是錯(cuò)誤的。

      例2 科學(xué)家研制出禽流感病毒。

      例3 首批全國(guó)政協(xié)委員抵達(dá)北京。

      例4 奧巴馬連任面臨就業(yè)問題挑戰(zhàn)。

      例2~4采用空格分詞的結(jié)果見圖1。

      根據(jù)一個(gè)詞語(yǔ)的最小語(yǔ)義完整性, 例2應(yīng)該被分為5個(gè)詞語(yǔ)(帶下劃虛線的串), 但是空格分詞把句子分成8個(gè)詞。然而, 二詞串②, ④和⑤都是常用實(shí)詞, 是兩個(gè)單詞的穩(wěn)定組合, 不可分割。例3中的二詞串①, ③, ⑥和例4中二詞串③, ④, ⑥也都是結(jié)構(gòu)穩(wěn)定、語(yǔ)義完整的常用實(shí)詞, 不能以空格分開提取。

      維吾爾文中能表達(dá)一個(gè)最基本的、具體而完整語(yǔ)義的語(yǔ)言單元, 在很多情況下不僅僅是一個(gè)以空格隔開的單詞, 而是它與上下文若干個(gè)詞的穩(wěn)定組合。維吾爾文中能表達(dá)一個(gè)完整語(yǔ)義或者說(shuō)在實(shí)際語(yǔ)料中能充當(dāng)一個(gè)實(shí)詞的串, 可分為以下兩類。

      定義1 單詞語(yǔ)義串是一個(gè)維吾爾文單詞, 即一個(gè)無(wú)空格字母串, 語(yǔ)義完整且獨(dú)立運(yùn)用, 可用空格分詞切分得到。比如, 例1中以空格分割的都是單詞語(yǔ)義串。

      定義2 多詞語(yǔ)義串是若干個(gè)維吾爾文單詞的穩(wěn)定組合, 并且滿足如下條件: 1)語(yǔ)義完整, 在真實(shí)語(yǔ)料中充當(dāng)一個(gè)實(shí)詞, 不能以空格分開; 2)結(jié)構(gòu)穩(wěn)定, 在大規(guī)模語(yǔ)料中具有較高的流通度, 是獨(dú)立運(yùn)用的語(yǔ)言單元。

      隨著維吾爾文文本挖掘相關(guān)領(lǐng)域研究工作的不斷深入及更廣范圍的開展, 空格分詞方法開始暴露出其潛在的缺陷和局限性, 主要表現(xiàn)如下。

      1)在維吾爾文Web搜索中, 由于空格分詞沒有考慮切分單元的語(yǔ)義完整性和結(jié)構(gòu)完整性, 因此獲取的單詞難以在文本標(biāo)引中發(fā)揮關(guān)鍵詞的作用[18]。另外, 空格分詞還會(huì)導(dǎo)致組合歧義及交叉歧義的產(chǎn)生, 并出現(xiàn)低查準(zhǔn)率[19–20]。

      2)中、英文文本聚類和分類中, 常用詞特征來(lái)表征文本, 聚類和分類效果也比較滿意。同樣以詞特征表征文本并用性能最好的學(xué)習(xí)算法, 維吾爾文文本聚類和分類效果卻遠(yuǎn)不及中文和英文[21]。這是因?yàn)? 文本中表示關(guān)鍵信息的語(yǔ)義串被空格分詞拆分為與其語(yǔ)義完全不符的若干個(gè)字母串, 因此不僅不能提取更具有表征能力的文本特征, 反而提高了特征空間的維度, 甚至導(dǎo)致大量冗余、不相關(guān)(噪音)甚至類間交叉特征的出現(xiàn)。冗余特征的存在會(huì)降低學(xué)習(xí)算法的效率, 不相關(guān)特征(噪音特征)的存在會(huì)損害學(xué)習(xí)算法的性能[22], 類間交叉特征的存在會(huì)極大地降低聚類和分類準(zhǔn)確率[23]。

      除搜索、聚類和分類外, 空格分詞在機(jī)器翻譯、主題詞提取、維吾爾人名(名在前姓在后, 以空格隔開)、地名、機(jī)構(gòu)名等命名實(shí)體識(shí)別以及新詞識(shí)別等文本處理過程中也會(huì)成為一個(gè)瓶頸。

      2 詞間關(guān)聯(lián)度度量

      本文的主要思路是, 從第一個(gè)單詞開始掃描待處理文本中的詞序列, 并用一個(gè)統(tǒng)計(jì)量去觀察相鄰單詞間的結(jié)合程度。如果>(為閾值), 則保留它們之間“連”的狀態(tài), 否則插入一個(gè)分隔符(維吾爾文單詞之間以空格隔開, 因此本文以字符“|”作為分隔符)將它們分開, 這時(shí)它們之間是“斷”的狀態(tài)。例如, 一個(gè)有個(gè)單詞的文本的詞序列為123...W–1W...W–1W, 則基于統(tǒng)計(jì)量的詞間連、斷判斷如圖2所示。最后以分隔符“|”進(jìn)行切分, 就得到文本中的所有語(yǔ)義串。其中, 統(tǒng)計(jì)量是從大規(guī)模生語(yǔ)料中學(xué)習(xí)計(jì)算得出。

      本文所用語(yǔ)料都來(lái)自網(wǎng)絡(luò)和正式出版物, 包括從互聯(lián)網(wǎng)收集的人工分類文本(共20類)、新疆日?qǐng)?bào)2008年3和4月份全部?jī)?nèi)容、出版物8本(有關(guān)文學(xué)、社會(huì)、法制、經(jīng)濟(jì)等)。在實(shí)驗(yàn)和算法驗(yàn)證中, 我們將大語(yǔ)料分為3個(gè)語(yǔ)料庫(kù), 每個(gè)語(yǔ)料庫(kù)都包含以上大語(yǔ)料中一定比例的內(nèi)容。1)生語(yǔ)料庫(kù) URC (Uyghur Raw Corpus), 共含維吾爾文單詞及標(biāo)點(diǎn)9443290個(gè), 未經(jīng)標(biāo)注; 2)開發(fā)集USC1(Uyghur Segmented Corpus), 共含維吾爾文單詞及標(biāo)點(diǎn)15708個(gè), 經(jīng)人工標(biāo)注; 3)測(cè)試集USC2, 共含維吾爾文單詞及標(biāo)點(diǎn)154411個(gè), 經(jīng)人工標(biāo)注(以上語(yǔ)料均由新疆大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室提供)。實(shí)驗(yàn)中, 除對(duì)文本語(yǔ)料進(jìn)行詞干提取處理外, 無(wú)任何特殊處理和人工干預(yù), 算法所需要的所有統(tǒng)計(jì)信息直接從生語(yǔ)料中獲得。

      在實(shí)驗(yàn)和算法驗(yàn)證中, 我們用單詞間的“連”和“斷”的判斷準(zhǔn)確率來(lái)調(diào)整閾值和其他參數(shù), 直到算法給出最好的性能。準(zhǔn)確率的定義為

      其中,W–1和W是文本中相鄰的詞對(duì), PosCount連(W–1,W)表示正確判斷為“連”的詞間位置數(shù), PosCount斷(W–1,W)表示正確判斷為“斷”的詞間位置數(shù), PosCount(W–1,W)表示被處理文本中所有的詞間位置數(shù)。

      2.1 基本統(tǒng)計(jì)量: 互信息(mi)

      在一個(gè)維吾爾文文本以空格隔開的有序詞序列中,和是相鄰的詞對(duì), 則根據(jù)互信息原理, 單詞和之間的互信息可定義為

      其中,(,)為詞對(duì)和在大規(guī)模語(yǔ)料庫(kù)中出現(xiàn)的概率,()為單詞出現(xiàn)的概率,()為單詞出現(xiàn)的概率。假定它們?cè)谡Z(yǔ)料庫(kù)中出詞頻分別為count(), count()和count(,),是語(yǔ)料庫(kù)中的詞頻總數(shù), 則有

      互信息mi(,)反映相鄰詞對(duì)和間的關(guān)聯(lián)程度。mi(,)越大, 表明和之間的關(guān)聯(lián)程度越緊密, 如果mi(,)大于給定的一個(gè)閾值mi, 則可以認(rèn)為和之間是不可分割的。

      我們以生語(yǔ)料庫(kù)URC訓(xùn)練維吾爾文單詞Bi-gram模型, 并以USC1為對(duì)象考察互信息關(guān)于單詞間連、斷的分布情況?;バ畔⒆兓秶讪C6.75~ 21.01之間, 當(dāng)閾值mi取4.0時(shí)(根據(jù)URC統(tǒng)計(jì)得到的mi均值為3.63),值最高可達(dá)75.26%。例如, 對(duì)于例5中各位置的判別基本上是正確的(如圖3(a), “|”為分隔符)。

      例5 這種軟件可以監(jiān)測(cè)硬盤狀態(tài)。

      從式(2)可以看出, 互信息反應(yīng)的是相鄰詞對(duì)和之間的靜態(tài)結(jié)合能力, 而不考慮它們的上下文, 因此僅僅參考互信息這個(gè)基本統(tǒng)計(jì)量, 也會(huì)出現(xiàn)錯(cuò)誤的連、斷判斷。比如, 對(duì)于例6和7的詞間位置判斷準(zhǔn)確率較低(圖3(b)和(c))。

      例6 首批全國(guó)政協(xié)委員抵達(dá)北京。

      例7 奧巴馬連任面臨就業(yè)挑戰(zhàn)。

      2.2 基本統(tǒng)計(jì)量:-測(cè)試差(dts)

      Church等[24]首次引入-測(cè)試來(lái)度量一個(gè)英文單詞與其上下文單詞和的結(jié)合緊密程度。根據(jù)定義, 維吾爾文單詞序列的-測(cè)試值計(jì)算公式如下:

      其中(|)和(|)分別為相鄰詞對(duì)()和()的Bi-gram概率,2((|))和2((A|x))分別是二者的方差。由式(4)可以看出, 如果t, y()>0, 則與后繼結(jié)合的強(qiáng)度大于與前趨結(jié)合的強(qiáng)度, 此時(shí)應(yīng)與斷而與連; 如果t, y()<0, 則與前趨結(jié)合的強(qiáng)度大于與后繼結(jié)合的強(qiáng)度, 此時(shí)應(yīng)與斷而與連; 如果t, y()=0, 則與其前趨和后繼的結(jié)合強(qiáng)度相等,無(wú)法判斷與和的連斷關(guān)系。

      -測(cè)試是基于字的統(tǒng)計(jì)量, 而不是基于字間位置。為了能夠在中文分詞中直接計(jì)算相鄰字間連斷概率, 孫茂松等[12]提出-測(cè)試差的概念。根據(jù)定義, 對(duì)于維吾爾文單詞序列, 相鄰單詞和之間的-測(cè)試差值計(jì)算公式如下:

      當(dāng)dts(,)>dts(dts為閾值)時(shí), 相鄰詞對(duì)與之間的位置更傾向于判斷為連, 否則判斷為斷。我們?nèi)砸訳SC1為對(duì)象, 考察-測(cè)試差關(guān)于單詞間連、斷的分布情況。-測(cè)試差變化范圍在–264.14~ 108.41之間, 當(dāng)閾值dts取0.0時(shí),值可達(dá)最高為78.14%。與mi相比, 切分準(zhǔn)確率較高, 但對(duì)于例5~7, 各位置的判斷與mi有所不同(圖4)。

      2.3 基本統(tǒng)計(jì)量: 鄰接對(duì)熵(dae)

      語(yǔ)義串作為頻繁使用的語(yǔ)言單元, 在真實(shí)文本中具有一定的流通度, 能夠應(yīng)用于多種不同的上下文環(huán)境。因此, 我們可以根據(jù)相鄰兩個(gè)單詞上下文語(yǔ)言環(huán)境的復(fù)雜程度來(lái)衡量詞對(duì)的結(jié)構(gòu)穩(wěn)定性。

      對(duì)于維吾爾文有序單詞序列(和是任何一個(gè)維吾爾文單詞), 詞對(duì)和在文本中每次出現(xiàn)的左鄰接元素和右鄰接元素構(gòu)成一個(gè)鄰接對(duì)<,>, 那么和的所有鄰接對(duì)組成鄰接對(duì)集dae={<x,y>}。為集合中所有鄰接對(duì)個(gè)數(shù),為集合鄰接對(duì)種類數(shù)(不重復(fù)鄰接對(duì)個(gè)數(shù)),n為每個(gè)鄰接對(duì)<x,y>的頻次, 則和的鄰接對(duì)集合的信息熵(鄰接對(duì)熵)的計(jì)算公式如下:

      由式(6)可知, dae(,)取值越大, 詞對(duì)和的語(yǔ)言環(huán)境變化越靈活多樣, 其內(nèi)部結(jié)合越緊密; dae(,)取值越小,和的獨(dú)立性越弱, 很可能是一種偶然性組合。因此, 當(dāng)dae(,)>dae(dae為閾值)時(shí),和的單詞間位置更傾向于判斷為“連”, 反之判斷為“斷”。

      例如, 三詞語(yǔ)義串()在語(yǔ)料庫(kù)中共出現(xiàn)5次, 其語(yǔ)言環(huán)境分別為,,,,, 那么相鄰詞對(duì)和的鄰接對(duì)集合dae={<,>, <,>, <,, <,>, <,>}, 此時(shí)=5,=5, 因此和的鄰接對(duì)熵為

      我們?nèi)砸訳SC1為對(duì)象, 考察鄰接對(duì)熵關(guān)于單詞間“連”、“斷”的分布情況。dae變化范圍在0.06~ 1.37之間, 當(dāng)閾值dae取0.60時(shí),值可達(dá)最高為73.23%。

      與mi和dts相比, dae的分詞準(zhǔn)確率稍低, 但它對(duì)新詞詞間位置的連、斷判斷更準(zhǔn)確。例如, 對(duì)于一個(gè)新出現(xiàn)的語(yǔ)義串, 因?yàn)楹褪莾蓚€(gè)獨(dú)立語(yǔ)言單位, 在真實(shí)文本中會(huì)頻繁使用, 他們結(jié)合構(gòu)成的特定新詞的詞頻遠(yuǎn)遠(yuǎn)小于和的詞頻, 會(huì)出現(xiàn)count()和count()極大而count()極小的情況。在這種情況下, mi和dts幾乎都會(huì)做出錯(cuò)誤的判斷, 但dae中詞頻不是決定性因素, 而是更多地考慮兩個(gè)詞上下文語(yǔ)言環(huán)境的變化多樣性, 因此能夠做出正確的判斷。

      例如, 新詞“??? ?????”(禽流感)在生語(yǔ)料庫(kù)URC中共出現(xiàn)17次, 單詞“???”(禽)出現(xiàn)2378次, 單詞“?????”(流感)出現(xiàn)4927次。因此, (??? ,?????)的互信息值為3.78, dts取值不均勻(–3.17~–0.48), 如果以mi或dts來(lái)判斷詞間位置的連斷, 是要斷開的。但鄰接對(duì)熵取值為0.96, 用dae判別詞間位置是連接的。例如, 對(duì)于例8中“??? ?????”的詞間位置判斷, mi和dts都是錯(cuò)誤的, 只有dae的判斷是正確的(圖5)。

      例8 科學(xué)家研制出禽流感病毒。

      不論互信息、-測(cè)試差或鄰接對(duì)商, 都是將詞在語(yǔ)言環(huán)境中某一方面的信息特征作為計(jì)算依據(jù), 因此必然存在一定的局限性。中文分詞中已有成功的案例, 將基本統(tǒng)計(jì)量加以組合從而各取所長(zhǎng)。我們分別用互信息、-測(cè)試差和鄰接對(duì)熵對(duì)USC1進(jìn)行實(shí)驗(yàn), 發(fā)現(xiàn)將它們結(jié)合互補(bǔ)有較大的可行性。

      2.4 組合統(tǒng)計(jì)量: dmd

      我們單獨(dú)用基本統(tǒng)計(jì)量對(duì)USC1進(jìn)行詞間位置判斷, 其中-測(cè)試差的值最高(78.14%), 其次為互信息(75.26%), 最后是鄰接對(duì)熵(73.23%)。因此, 我們以dts為主, 將3個(gè)基本統(tǒng)計(jì)量進(jìn)行線性疊加, 融合成一個(gè)組合統(tǒng)計(jì)量dmd, 并完全根據(jù)dmd來(lái)判斷詞間位置。由于以上基本統(tǒng)計(jì)量取值范圍相差較大,-測(cè)試差變化范圍為–264.14~108.41, 互信息變化范圍為–6.75~21.01, 鄰接對(duì)熵變化范圍為0.0~3.97, 因此, 線性迭加前先進(jìn)行歸一化處理, 如式(7)~(9)所示。

      其中dts,mi和dae分別是dts, mi和dae的均值, 實(shí)驗(yàn)值依次為–6.51, 3.63和0.52。dts,mi和dae分別是dts, mi和dae的均方差, 實(shí)驗(yàn)值依次為24.29, 3.54和0.31。通過下式將它們疊加:

      其中,的值經(jīng)實(shí)驗(yàn)測(cè)定, 發(fā)現(xiàn)當(dāng)=0.35,= 0.30時(shí)的分詞效果最好。dmd在USC1上的變化范圍為–11.5~6.9, 當(dāng)閾值dmd取為0時(shí),值最高(84.31%), 比單獨(dú)使用-測(cè)試差、互信息或鄰接對(duì)熵分別提高6.17%, 9.05%和11.08%。

      2.5 基于規(guī)則的詞間關(guān)聯(lián)度度量

      以組合統(tǒng)計(jì)量dmd判斷詞間位置的準(zhǔn)確率達(dá)到84.31%, 但是與理想的準(zhǔn)確率還存在一定的距離。我們從維吾爾文本身的語(yǔ)言特性中尋找有助于詞間位置判斷的信息, 發(fā)現(xiàn)以下特性。

      特性1 維吾爾文中的助詞(????、?????等)、連詞(?????、????等)、副詞(???、 ?????等)、量詞(????、 ?????等)、代詞(???、???等)以及感嘆詞(???、???等)等功能詞, 在文本中始終不與其他單詞結(jié)合成為語(yǔ)義串。本文將這些詞稱為“獨(dú)立詞”(in-dependent word, IW)。

      特性2 維吾爾文單詞間的結(jié)合主要是在名詞(N)、形容詞(ADJ)和動(dòng)詞(V)之間發(fā)生, 并構(gòu)成語(yǔ)義串。當(dāng)形容詞與名詞或與動(dòng)詞結(jié)合時(shí), 形容詞總是作為前驅(qū), 而不會(huì)出現(xiàn)在后繼位置。因此, N+ADJ或V+ADJ關(guān)系的相鄰單詞不可能結(jié)合構(gòu)成一個(gè)語(yǔ)義串。

      根據(jù)特性1和特性2, 我們歸納出用于詞間關(guān)聯(lián)識(shí)別的單詞結(jié)合規(guī)則(word association rule, WAR), 并定義如下。

      定義3 單詞結(jié)合規(guī)則(WAR): 對(duì)于文本中的相鄰詞對(duì)“”, 如{IW}或{IW}或{ADJ}, 則判斷與不能結(jié)合成為關(guān)聯(lián)模式, 要斷開。

      因此, 我們建立兩個(gè)輔助詞表: 獨(dú)立詞表和形容詞表, 并用單詞結(jié)合規(guī)則判斷詞間位置。這樣, 既減少了詞間位置的dmd計(jì)算量, 又明顯提高了準(zhǔn)確率。

      3 基于詞間關(guān)聯(lián)度度量的切分算法

      確定組合統(tǒng)計(jì)量dmd和單詞結(jié)合規(guī)則后, 基于詞間位置判斷的維吾爾文語(yǔ)義串識(shí)別及切分整體流程如圖6所示。

      對(duì)于訓(xùn)練語(yǔ)料, 將所有的標(biāo)點(diǎn)符號(hào)都替換為分隔符“|”, 并進(jìn)行詞干提取處理, 然后計(jì)算語(yǔ)料庫(kù)中所有詞對(duì)的dmd值, 構(gòu)建雙詞結(jié)合度(dmd)詞典。對(duì)于待處理文本, 進(jìn)行同樣的預(yù)處理(標(biāo)點(diǎn)符號(hào)的替換以及詞干提取), 然后依次提取詞間位置(詞對(duì)), 按以下步驟判斷詞間的相鄰性。

      1)對(duì)于當(dāng)前詞對(duì)“”, 如{IW}或{IW}或{ADJ}, 則判斷與斷開, 并插入分隔符“|”來(lái)消除與間的相鄰性, 否則轉(zhuǎn)步驟2。

      2)從雙詞結(jié)合度詞典中讀取詞對(duì)“”的dmd值, 如dmd(,)>dmd, 則判斷與連接并保留相鄰性, 否則插入分隔符“|”, 消除與間的相鄰性, 轉(zhuǎn)步驟3。

      3)如“”是最后一個(gè)詞對(duì), 則轉(zhuǎn)步驟4, 否則提取下一個(gè)詞對(duì)并轉(zhuǎn)步驟1。

      4)結(jié)束當(dāng)前文本詞間位置的判斷。

      對(duì)當(dāng)前文本中所有詞間位置判斷結(jié)束后, 以分隔符“|”進(jìn)行切分, 得到文本中所有語(yǔ)義串。算法流程如圖7所示。

      4 實(shí)驗(yàn)與分析

      我們基于生語(yǔ)料庫(kù)URC得到維吾爾文單詞(詞干)統(tǒng)計(jì)模型, 并構(gòu)建雙詞結(jié)合度詞典, 以USC1為對(duì)象, 用不同統(tǒng)計(jì)量判斷詞間位置的準(zhǔn)確率并調(diào)整閾值, 確定式(10)中的來(lái)檢驗(yàn)組合統(tǒng)計(jì)量dmd的有效性以及驗(yàn)證語(yǔ)義串提取算法在開放環(huán)境下的健壯性。因此, 我們分別在開發(fā)集和測(cè)試集上進(jìn)行詞間位置判斷實(shí)驗(yàn), 分析dts, mi和dae組合前和組合后詞間位置正確判斷情況。

      以分界符“|”替換為所有標(biāo)點(diǎn)符號(hào)后, 開發(fā)集USC1和測(cè)試集USC2共含的維吾爾文單詞及需要判斷的詞間位置如表1所示。

      表1 USC1和USC2中單詞及詞間位置數(shù)

      使用不同策略情況下的開發(fā)集和測(cè)試集實(shí)驗(yàn)結(jié)果如表2和3所示。

      表2 開發(fā)集切分結(jié)果

      表3 測(cè)試集切分結(jié)果

      從測(cè)試結(jié)果看出, 算法在測(cè)試集中的性能沒有下降, 表明本文提出的組合統(tǒng)計(jì)量dmd及各類參數(shù)的確定是有效的, 尤其是引入語(yǔ)言特性的單詞結(jié)合規(guī)則后, 詞間位置判斷準(zhǔn)確率有明顯提高。

      我們發(fā)現(xiàn), 詞干切分工具的局限性、維吾爾文中難以避免的拼寫錯(cuò)誤、詞間位置的不規(guī)范性以及名詞術(shù)語(yǔ)的不規(guī)范縮寫等因素在一定程度上影響詞間位置判斷準(zhǔn)確率。關(guān)于詞干切分算法的局限性, 除算法本身的缺陷外, 拼寫錯(cuò)誤也是一個(gè)主要的因素, 現(xiàn)有的方法和工具還不能對(duì)批量文本進(jìn)行全自動(dòng)檢錯(cuò)和糾錯(cuò)。對(duì)于詞間位置和名詞術(shù)語(yǔ)書寫規(guī)范化, 還沒有相關(guān)的研究報(bào)道。不管是算法上的缺陷, 還是原始文本的不規(guī)范性, 都會(huì)影響詞間判斷準(zhǔn)確率。因此, 對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練或?qū)Υ幚砦谋具M(jìn)行處理前, 應(yīng)盡量排除以上負(fù)面因素的影響, 在較規(guī)范的文本語(yǔ)料上可以獲得更高的切分準(zhǔn)確率。這也是我們將來(lái)工作的研究重點(diǎn)。

      5 結(jié)語(yǔ)

      以空格作為自然分隔符的維吾爾文傳統(tǒng)分詞方法, 會(huì)把多詞結(jié)構(gòu)的語(yǔ)義串拆分成與其本義完全不符的若干個(gè)片段, 表現(xiàn)出非常明顯的不足和局限性, 在維吾爾文文本挖掘領(lǐng)域研究中已成為一大瓶頸。本文提出一種基于詞間關(guān)聯(lián)度度量的維吾爾文本自動(dòng)切分方法, 利用單詞關(guān)聯(lián)規(guī)則和統(tǒng)計(jì)結(jié)合的方法度量相鄰單詞之間的關(guān)聯(lián)緊密程度, 從而識(shí)別出語(yǔ)義串的邊界, 達(dá)到以語(yǔ)義及結(jié)構(gòu)完整的詞串為單位進(jìn)行文本切分的目的, 實(shí)現(xiàn)了相應(yīng)的自動(dòng)切分算法。在大規(guī)模測(cè)試語(yǔ)料上進(jìn)行的切分實(shí)驗(yàn)表明, 該算法表現(xiàn)出較高的準(zhǔn)確率和健壯性。本文提出的方法還能應(yīng)用到哈薩克文、柯爾克孜文等其他語(yǔ)言文本自動(dòng)切分中。

      [1]賀敏. 面向互聯(lián)網(wǎng)的中文有意義串挖掘[D]. 北京: 中國(guó)科學(xué)院研究生院, 2007: 1–8

      [2]吳慶耀. 無(wú)監(jiān)督的中文語(yǔ)義詞抽取技術(shù)研究[D]. 深圳: 哈爾濱工業(yè)大學(xué)深圳研究生院, 2009: 5–10

      [3]Chien L F. PAT-Tree-Based keyword extraction for Chinese information retrieval // Proceedings of the 20th annual international ACM SIGIR Conference on Research and Development in Information Retrieval.Philadelphia, PA, 1997: 50–58

      [4]Candito M, Constant M. Strategies for contiguous multiword expression analysis and dependency parsing // 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014). Baltimore, MD, 2014: 743–753

      [5]Luo R L, Zhang H X, Wu M H. Ambiguity analysis model of word segmentation based on word group. Journal of Applied Sciences, 2013, 13(16): 3153–3160

      [6]Masaki M, Masao U. Compound word segmentation using dictionary definitions-extracting and examining of word constituent information. ICIC Express Letters, Part B: Applications, 2012, 3(3): 667–672

      [7]Liu X L. Automatic summarization method based on compound word recognition. Journal of Computa-tional Information Systems, 2015, 11(6): 2257–2268

      [8]Zheng H T, Kang B Y, Kim H G. Exploiting noun phrases and semantic relationships for text document clustering. Information Sciences, 2009, 179(13): 2249–2262

      [9]Sreya D, Narasimha M M. Using discriminative phrases for text categorization // 20th International Conference on Neural Information Processing.Daegu, 2013: 273–280

      [10]Rais N H, Abdullah M T, Kadir R A. Multiword phrases indexing for malay-English cross-language information retrieval. Information Technology Journal, 2011, 10(8): 1554–1562

      [11]Zhang Y F, Long F, Bin L. Identifying opinion sentences and opinion holders in internet public opinion // Proceedings of the 2012 International Conference on Industrial Control and Electronics Engineering.Xi’an, 2012: 1668–1671

      [12]孫茂松, 肖明, 鄒嘉彥. 基于無(wú)指導(dǎo)學(xué)習(xí)策略的無(wú)詞表?xiàng)l件下的漢語(yǔ)自動(dòng)分詞. 計(jì)算機(jī)學(xué)報(bào), 2004, 27( 6): 736–742

      [13]王思力, 王斌. 基于雙字耦合度的中文分詞交叉歧義處理方法. 中文信息學(xué)報(bào), 2007, 21(5): 14–17

      [14]費(fèi)洪曉, 康松林, 朱小娟, 等. 基于詞頻統(tǒng)計(jì)的中文分詞的研究. 計(jì)算機(jī)工程與應(yīng)用, 2005, 30(7): 67–69

      [15]王芳, 萬(wàn)常選. 基于可信度的中文完整詞自動(dòng)識(shí)別. 中文信息學(xué)報(bào), 2009, 23(3): 17–23

      [16]何賽克, 王小捷, 董遠(yuǎn), 等. 歸一化的鄰接變化數(shù)方法在中文分詞中的應(yīng)用. 中文信息學(xué)報(bào), 2010, 24(1): 15–19

      [17]蔣建洪, 趙嵩正, 羅玫. 詞典與統(tǒng)計(jì)方法結(jié)合的中文分詞模型研究及應(yīng)用. 計(jì)算機(jī)工程與設(shè)計(jì), 2012, 33(1): 387–391

      [18]Tohti T, Musajan W, Hamdulla A. Efficient term extraction and indexingapproach in small-scale web search of Uyghur Language. Journal of Multimedia, 2013, 8(5): 481–488

      [19]Liu J Y, Liu Y. Resolution to combinational ambiguity of Chinese word segmentation // 2009 International Conference on E-learning, E-Business, Enterprise Information Systems, and E-Government.Hong Kong: IEEE, 2009: 141–145

      [20]Qiu L K, Hu H L, Wu Y F. Corpus-based method for differentiating genuine and spurious combinational ambiguity. ICIC Express Letters, 2013, 7(4): 1437–1441

      [21]阿力木江·艾沙, 吐爾根·依布拉音, 艾山·吾買爾, 等. 基于機(jī)器學(xué)習(xí)的維吾爾文文本分類研究. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(5): 110–112

      [22]徐峻嶺, 周毓明, 陳林, 等. 基于互信息的無(wú)監(jiān)督特征選擇. 計(jì)算機(jī)研究與發(fā)展, 2012, 49(2): 372–382

      [23]孟春艷. 用于文本分類和文本聚類的特征抽取方法的研究. 微計(jì)算機(jī)信息, 2009, 25(3): 149–150

      [24]Church K W, Gale W, Hanks P, et al. Using statistics in lexical analysis // Zernik U. Lexical acquisition: exploiting on-line resources to build a lexicon. Hillsdale NJ: Lawrence Erlbaum Associates, 1991: 115–164

      Uyghur Text Automatic Segmentation Method Based on Inter-Word Association Degree Measuring

      Turdi Tohti?, Winira Musajan, Askar Hamdulla

      School of Information Science and Engineering, Xinjiang University, Urumqi 830046; ? E-mail: turdy@xju.edu.cn

      This paper puts forward a new idea and related algorithms for Uyghur segmentation. The word based Bi-gram and contextual information are derived from large scale raw corpus automatically, and according to the Uyghur word association rules, the liner combinations of mutual information, difference of-test and dual adjacent entropy are taken as a new measurement to estimate the association strength between two adjacent Uyghur words. The weakly associated inter-word position is taken as a segmentation point and the perfect word strings both on its semantics and structural integrity, not just the words separated by spaces, is obtained. The experimental result on large-scale corpus shows that the proposed algorithm achieves 88.21% segmentation accuracy.

      semantic string; mutual information; difference of-test; dual adjacent entropy; word association rules

      10.13209/j.0479-8023.2016.023

      TP391

      2015-06-07;

      2015-08-18; 網(wǎng)絡(luò)出版日期: 2015-09-30

      國(guó)家自然科學(xué)基金(61262062, 61163033, 61262063, 61562083)和新疆維吾爾自治區(qū)高校科研計(jì)劃重點(diǎn)項(xiàng)目(XJEDU2012I11)資助

      猜你喜歡
      維吾爾文互信息空格
      趣填成語(yǔ)
      空格填數(shù)
      你來(lái)補(bǔ)缺的數(shù)
      西部少數(shù)民族語(yǔ)言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      改進(jìn)的互信息最小化非線性盲源分離算法
      基于增量式互信息的圖像快速匹配方法
      改頭換面
      維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
      阳春市| 马龙县| 尼木县| 重庆市| 南丰县| 武陟县| 甘孜| 益阳市| 齐齐哈尔市| 包头市| 东辽县| 会同县| 探索| 芮城县| 庆云县| 威远县| 温宿县| 比如县| 岳普湖县| 木兰县| 从江县| 察哈| 昌江| 稷山县| 乐至县| 盐池县| 澳门| 湖南省| 郯城县| 龙海市| 建始县| 江达县| 宕昌县| 靖远县| 北安市| 鄂尔多斯市| 常德市| 长垣县| 常州市| 宜黄县| 诏安县|