• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于排序集成的哈薩克語固定短語抽取

    2014-09-12 11:17:14桑海巖古麗拉阿東別克孫瑞娜陳莉
    計算機工程與應(yīng)用 2014年21期
    關(guān)鍵詞:詞串互信息語料庫

    桑海巖,古麗拉·阿東別克,孫瑞娜,陳莉

    1.新疆大學信息科學與工程學院,烏魯木齊 830046

    2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語文基地,烏魯木齊 830046

    3.新疆財經(jīng)大學統(tǒng)計信息學院,烏魯木齊 830046

    ◎信號處理◎

    基于排序集成的哈薩克語固定短語抽取

    桑海巖1,2,古麗拉·阿東別克1,2,孫瑞娜3,陳莉1,2

    1.新疆大學信息科學與工程學院,烏魯木齊 830046

    2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語文基地,烏魯木齊 830046

    3.新疆財經(jīng)大學統(tǒng)計信息學院,烏魯木齊 830046

    短語抽取是文本自動分類、主題提取及專利檢索分析等文本信息理解等工作中都要應(yīng)用到的一項關(guān)鍵技術(shù)。固定短語抽取作為短語研究的一部分,對短語標注、辭典編撰等自然語言處理任務(wù)都具有重要的現(xiàn)實意義。哈薩克語是黏著語,詞形變化豐富,這些特點給哈語固定短語的抽取帶來了一定的困難。提出一個總體的固定短語抽取算法,把固定短語抽取看作一個排序問題,使用C-value、互信息和log-likelihood進行抽取排序,并設(shè)計了一個新的排序集成方法對抽取的結(jié)果進行集成。實驗分析結(jié)果表明,與單獨的抽取算法比較,該算法達到了更高的準確率。

    自然語言處理;固定短語;排序集成;互信息;似然比;C-value算法

    1 引言

    短語抽取[1]是在文本自動分類、主題提取及專利檢索分析等文本信息理解等工作中都要應(yīng)用到的一項關(guān)鍵技術(shù)。固定短語抽取作為短語研究的一部分,對短語標注、辭典編撰等自然語言處理任務(wù)都具有重要的意義。

    哈語短語同漢語短語有相近概念,兩個或兩個以上的實詞按照一定的結(jié)構(gòu)規(guī)則組合而成的語言單位叫短語[2]。哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,是黏著語言類型,有著高度豐富的形態(tài)變化。組成短語的詞不僅要受到結(jié)構(gòu)規(guī)則的制約而且又受語法關(guān)系的制約,主要表現(xiàn)在不同的語境下短語中詞的詞綴形態(tài)的改變。此外哈語中還含有豐富的曲折短語。曲折短語是指含有發(fā)生內(nèi)部曲折詞的短語,而詞的內(nèi)部曲折是指因為語法或發(fā)音的需要而發(fā)生的語音交替現(xiàn)象,這與漢語短語有很大區(qū)別。上述這些特點對哈語短語抽取帶來了一定困難。哈語短語從穩(wěn)定性上講可以分為固定短語和自由短語[3]。固定短語是歷史上固定下來的,在句子中作為一個單詞使用,多為成語、熟語等。自由短語是由語義上能夠搭配的兩個或兩個以上實詞帶入某種結(jié)構(gòu)關(guān)系的詞組模式得出的語言片段,詞之間的組合比較自由,包括名詞性短語,動詞性短語等。本文中所說的固定短語是指經(jīng)常在一起使用的表達一個完整意義的實詞組合,包括了大量的成語、熟語以及實體名和專業(yè)術(shù)語等。

    2 研究現(xiàn)狀

    短語抽取主要有兩大方法:一是知識工程方法;二是統(tǒng)計方法[4]。知識工程方法要求編制規(guī)則的知識工程師對領(lǐng)域知識有深入的了解,而基于統(tǒng)計的方法則不需要。基于統(tǒng)計的方法中,目前最具有代表性的是log-likelihood[5]方法、互信息方法[6]、C值[1,7]和N-gram方法,前兩種方法主要通過分析詞串內(nèi)部詞語之間的關(guān)系,來確定該詞串是否是一個結(jié)構(gòu)穩(wěn)定的短語;而N-gram方法是結(jié)合詞串所在的上下文信息,通過外部知識來判斷該詞串是否為一個結(jié)構(gòu)完整的短語,文獻[8]中的方法是基于這一設(shè)想。文獻[9]中在抽取二元詞匯搭配上將這幾種計算方法做了比較。文獻[10]中將C值與互信息進行結(jié)合進行術(shù)語抽取取得了較好的效果。本文使用基于統(tǒng)計的方法進行抽取,相關(guān)統(tǒng)計參數(shù)在二元算法的基礎(chǔ)上進行了擴展,用以對多詞短語的抽取。本文將短語的抽取看作是一個排序問題,選擇互信息、C-value、似然比三種算法進行抽取,而后對結(jié)果集進行排序集成?;バ畔⑴c似然比方法主要考察的是短語的內(nèi)部結(jié)合度,而C-value考察的是上下文信息并且將詞串長度加入到了考察范圍。因此對這三種基礎(chǔ)抽取方法進行集成,很好地融合了它們各自的優(yōu)點,將短語的上下文、內(nèi)部結(jié)合度及詞串長度融為一體。

    3 相關(guān)抽取方法

    3.1 基于C-value的方法

    C-value算法從根本上說還是基于頻率的思想。以頻率函數(shù)來衡量候選詞串,通過這個詞串在較長候選詞串中的出現(xiàn)頻率以及這些較長的候選詞串數(shù)來確定候選詞串是短語的可能性。但它參考了短語的長度和嵌套詞的影響。它認為長度愈長的短語更難以出現(xiàn),對于比較長的候選短語在其頻率上應(yīng)該有相應(yīng)的加權(quán)。因為一些候選短語是被嵌套的詞串,這樣它的嵌套詞會多次累計頻率,所以需要進行相應(yīng)的罰分來得到最終的分數(shù)。算法有三個方面的因子:(1)提取頻率更高的詞串;(2)對于更長候選詞串的嵌入子詞串進行罰分;(3)考慮候選詞串的長度。具體的計算公式如下:

    其中a是候選詞串,f(a)表示a在語料庫中出現(xiàn)的頻率,t(a)是所有包含a的較長候選詞串出現(xiàn)的總次數(shù),c(a)表示所有包含a的候選詞串的總數(shù)目。如果a是最大長度的詞串,則a不被任何其他候選詞串包含,此時候選串a(chǎn)的唯一參數(shù)就是它們在集合中的出現(xiàn)頻率,由式(1)計算得出。如果a不是最長的候選詞串,則有候選詞串包括a,則由式(2)計算。

    3.2 互信息的方法

    互信息是信息論中的一個概念,它用來度量一個消息中兩個信號之間的相互依賴程度。二元互信息[6]是兩個事件的概率函數(shù),設(shè)兩個待識別的字串為x和y,則在信息論中兩個事件的互信息計算如下公式:

    如果x和y在一起出現(xiàn)的機會多于它們隨機出現(xiàn)的機會,那么P(x,y)>>P(x)×P(y),即字符串x和y結(jié)合十分緊密,則依據(jù)公式(3)計算的字符串互信息就比較大;反之P(x)×P(y)>>P(x,y),這樣計算出來的互信息就比較小。因此,可以利用互信息計算一個字串的內(nèi)部結(jié)合強度,互信息值越高,x和y組成短語的可能性越大;互信息值越低,x和y組成短語的可能性越小。

    傳統(tǒng)的互信息方法如式(3),只能計算兩個詞之間的內(nèi)部結(jié)合強度。為了適應(yīng)抽取長度大于2的詞串,Silva和Lopes將式(3)改進為:

    n≥2,W=w1,w2,…,wn是多字串在給定語料庫中所出現(xiàn)的概率。對于概率P(w1,w2,…,wn)不能直接計算,可以利用MLE方法估計得到,具體公式如下:其中?(w1,w2,…,wn)表示多字串W在該語料庫中所出現(xiàn)的頻率。N表示該語料庫中的總字數(shù)。

    3.3 卡方檢驗

    卡方檢驗是一種常用的假設(shè)檢驗的統(tǒng)計學方法,主要研究兩個變量間的關(guān)聯(lián)性及頻數(shù)分布的擬合度。

    假設(shè)H0表示詞w1,w2是完全獨立產(chǎn)生的,則它們偶然在一起的概率可以表示為:P(w1w2)=P(w1)P(w2)。如果語料中共有N詞次,則X2統(tǒng)計量計算了觀測值和期望值之間差別的總和,將期望值作為比例因子。X2的計算公式如下:

    其中i表示表1中行變量,j為列變量,Oij表示單元(i,j)的觀測值,Eij表示期望值。當數(shù)值很大時X2滿足卡方分布,對比表1中的觀測頻度和期望頻度以驗證是否獨立,如果它們之間的差別很大時,可以否定它們是獨立的H0假設(shè)。

    表1 w1和w2的依賴關(guān)系表

    通過計算邊緣分布可以得到期望頻度Eij的值,對表1形式的統(tǒng)計表,計算公式如下:

    當置信水平為0.05時,臨界值X2=3.841,即只有當計算值小于3.841時,有95%的置信概率認為w1w2不是一個短語。

    3.4 似然比方法

    似然比(log-likelihood ratio)最初是由Ted Dunning提出來的。它雖然是一個簡單的比值,但可以表達出一個假設(shè)的可能性比其他假設(shè)大多少。對于稀疏數(shù)據(jù),似然比比卡方檢驗更加合適,而且,計算出來的似然比統(tǒng)計值比卡方檢驗的統(tǒng)計值更有可解釋性。用參考文獻[5]的兩個可選的假設(shè)來解釋二元組w1w2的出現(xiàn)頻率。

    假設(shè)1是獨立性假設(shè)的形式化,即w2的出現(xiàn)和前面w1的出現(xiàn)是獨立的;假設(shè)2是非獨立性假設(shè)的形式化,即w2的出現(xiàn)和前面的w1的出現(xiàn)是相關(guān)的。

    使用最大似然估計的方法計算P、P1和P2,用c1、c2和c12來表示在語料庫中w1、w2和w12出現(xiàn)的次數(shù),則其計算公式分別如下:

    使用似然比檢驗的優(yōu)點在于:一是它有一個很清晰直觀的解釋,即如果似然比很小,表示它非常可能符合假設(shè)2,即w1w2不是偶然出現(xiàn)的。二是它比卡方檢驗更好地解決了稀疏數(shù)據(jù)問題。這是檢驗兩詞串的有效方法,但是對于多詞串卻無法使用。為了適合多詞串的似然比計算將公式從新定義[8]如下:

    4 排序集成方法

    排序集成的方法已經(jīng)被廣泛研究和應(yīng)用[11],但是將它應(yīng)用到短語抽取上還不多。這里首先引入排序集成中的幾個概念。

    定義1(K-distance)

    L1和L2是基于同一候選集合(1,2,…,n)的兩個排序,對于任意兩個候選項i,j∈(1,2,…,n),如果有L1(i)<L1(j)且L2(i)>L2(j),則它們構(gòu)成一個逆序?qū)Α-distance(L1,L2)就是這兩個排序的所有逆序?qū)Φ膫€數(shù)。

    定義2(孔多賽標準)

    將每一個候選項與其他選項一一對比,如果一個候選項在大多數(shù)投票上的得分高于另一個選項,那么它便擊敗了那個選項,擊敗所有其他候選項的便是孔多賽贏家。這種方法被稱為孔多賽標準。

    定義3(Kemeny最優(yōu))

    有m個已經(jīng)生成的排序序列(L1,L2,…,Lm),序列L是根據(jù)這m個序列的重排序,如果L使得Sk(L,L1,L2,…,Lm)達到最小值,那么L為序列集(L1,L2,…,Lm)的Kemeny最優(yōu)。其中,

    Kemeny最優(yōu)符合孔多賽標準,但是當序列個數(shù)大于3個時,Kemeny最優(yōu)就是一個NP難問題。因而Cynthia Dwork等人在元搜索引擎的開發(fā)時提出局部Kemeny最優(yōu)的概念。

    局部Kemeny最優(yōu):如果任意轉(zhuǎn)換一對相鄰候選項的位置,不存在序列Q使得Sk(Q,L1,L2,…,Lm)<Sk(L,L1,L2,…,Lm),那么序列L是序列集(L1,L2,…,Lm)的局部Kemeny最優(yōu)。

    基礎(chǔ)集成方法:

    波達計數(shù)[11]是一種投票機制方法。目前的投票方法有兩種:一是多數(shù)決策;另一個是加權(quán)決策[12]。波達計數(shù)是多數(shù)決策,文獻[13]中使用基于加權(quán)決策投票的方法對術(shù)語進行了抽取。各個統(tǒng)計抽取算法根據(jù)自己的判別標準對于各個候選詞串進行抽取排序。如果候選者在選票中排第一位,它就得最高分值;排第二位得一個稍小的分值……依此類推。通過候選詞串在序列中的位置來確定分值,最后的投票積分之和越高,說明該候選詞串的表現(xiàn)越好。設(shè)t為一個抽取算法所產(chǎn)生的候選詞串序列,如果候選詞串i∈t,則t(i)表示候選詞串i在t中的位置。計分公式為:

    其中t(i)為候選詞串在排序中的位置,|t|為候選詞串序列的長度。

    除波達計數(shù)外常用的還有均值,幾何均值等基礎(chǔ)集成排序。顧名思義,均值是計算候選項在不同排序集中的排名均值,而幾何均值是計算排名的幾何均值。

    Kicker方法[11]是在波達計數(shù)的基礎(chǔ)上的改進。該算法需要記錄候選詞串i在序列t的前n項中出現(xiàn)的總次數(shù)c(i)。候選詞串i遍歷所有的序列。如果i在t的前n項中出現(xiàn)過,則c(i)加1,若沒有則掃描下一個序列,直到所有的序列都進行了掃描。計分表達式為:

    其中wt(i)為波達計數(shù)如公式(14)所描述。Kicker方法是在波達計數(shù)的基礎(chǔ)上,增加了對于候選詞串在單個序列t中的衡量。波達計數(shù)是對于候選詞串整體分布的評估,而每個獨立的抽取算法代表一個獨有判別標準。這里的c(i)可以看作一個信用評級,如果i在一個抽取算法產(chǎn)生的序列的前n項中出現(xiàn),則c(i)的評級加1。若候選詞串i在越多的序列中出現(xiàn),c(i)的值越大,則表明i被越多的算法信任,i成為固定短語的可能性就越大。

    本文中的集成算法是先由各單獨抽取算法進行抽取排序形成排序集,而后使用基礎(chǔ)集成方法進行集成,最后使用局部Kemeny最優(yōu)化算法來確定最后的抽取序列。文獻[15]對七種單獨抽取算法進行了集成,這些基礎(chǔ)的抽取方法著重考察的不是短語的上下文信息就是短語的內(nèi)部結(jié)構(gòu),因此集成投票實際上是短語的上下文與內(nèi)部結(jié)構(gòu)兩種信息在投票。過多的基礎(chǔ)抽取方法存在對上述兩種信息的重復(fù),如果方法組合選擇不當還會造成不公平。

    5 抽取算法

    在文獻[15]中使用了先計算二詞串的各個統(tǒng)計參數(shù),然后將符合約束條件的二詞串定為種子,然后由種子向前和向后依次擴展一個詞,計算此擴展詞串的統(tǒng)計參數(shù),如果符合約束條件則定為新的種子,直到設(shè)置的詞串長度L為止。此算法需要多次遍歷整個語料,進行切分以及參數(shù)的計算,這是許多相似算法的一個弊端.另外本文是基于排序集成方法進行抽取故而每個單獨的抽取算法都需要相同的前期處理。本文設(shè)計了一個新的整體抽取方法,其主要思想:一是根據(jù)種子長度分組并按分組依次計算種子的統(tǒng)計信息,分組處理降低了算法對內(nèi)存的要求使該算法適用于處理大規(guī)模語料而且因為有分組的存在可以按分組搜索,提高了搜索效率。二是一次性計算此種子的所有抽取算法值并根據(jù)各個閾值對種子進行刪減。每一個單獨抽取算法所需的計算參數(shù)大致相同,計算一個抽取算法值的同時這些參數(shù)也可以被其他抽取算法使用,一次性方法減少了搜索語料的次數(shù),從而提高了算法的效率。

    抽取算法主要有三個階段,首先確定種子,然后對不符合條件的種子進行刪減,最后就是判斷哪些是固定短語。下面將詳細介紹這三個階段。

    5.1 確定種子

    步驟1讀入語料庫B。

    步驟2利用標點符號等信息將句子粗分為較短的子句,而后對子句進行以詞為單位的全切分,并按照切分出來的詞串長度分別放入不同的文件中。這里將這些詞串定義為種子。

    步驟3對切分出來的文件進行統(tǒng)計形成數(shù)據(jù)字典文件,包括種子出現(xiàn)的次數(shù)、頻率等信息。

    5.2 刪減種子

    步驟1利用數(shù)據(jù)文件中種子的頻次,頻率信息,首先計算長度為2的種子文件中所有種子的統(tǒng)計參數(shù),如果某一個種子的參數(shù)值不在閾值范圍內(nèi)則將它刪除,并記錄在刪除列表delete_list中,稱其為非種子。

    步驟2依次計算長度為3,4…直至N的種子文件中的種子。如果種子中含有delete_list中的非種子詞串,則將其刪除,如果不含非種子詞串,則計算其參數(shù)值,并按照第一步中的方法判斷是否將它移入刪除列表。

    5.3 短語的判定

    將長度大于等于2的所有剩余的種子合并到一個節(jié)點序列中(這里的節(jié)點包括種子詞串、詞串長度、頻率值(FT)、C-value(CV)、互信息值(MI)、似然比值(LR)),根據(jù)下列條件進行固定短語的判斷:

    (1)如果種子a是種子b的子詞串,有相同頻率并且長度相差為1,則a不是固定詞組。

    (2)將符合標準的種子分別按照FT、CV、MI、LR降序排列,本文中不再單獨生成排序序列而改用在種子節(jié)點中記錄其在這種排序中的排序位置,即分別將IDFT、IDCV、IDMI、IDLR寫入節(jié)點中。

    (3)按照排序集成的原理對種子在四種排序中的位置進行綜合計分,并依此分值從新排序,再使用局部Kemeny最優(yōu)化方法求得最優(yōu)排序,在這個排序集中靠前的種子就是要抽取的固定短語。下面介紹計分方法。

    在短語抽取的過程中發(fā)現(xiàn)越是長度大的詞串出現(xiàn)的頻率就越低,在排序中越靠后,也就容易被漏掉。為照顧長詞串,本文設(shè)計了一個新的計分方法,公式如下:

    6 實驗結(jié)果及分析

    6.1 測試語料庫

    所用的語料庫為2008年1月31天的新疆日報語料庫,該語料庫是已經(jīng)過詞附加成分切分及詞性標注的XML格式,包含646篇文章,共31 695條語句,本文主要使用其詞干信息。

    6.2 實驗結(jié)果

    為評估排序集成方法的有效性,本文首先對互信息、C-value、似然比方法進行了參照實驗,將抽取結(jié)果作為對比的基礎(chǔ)。本文集成方法共得到候選短語4 023個,全面準確率為77.10%,比單獨用互信息方法的52%準確率有提高,比C-value的平均準確率54.09%也改善了很多。前1 000個短語的準確率達到了86.0%。前K個詞(K取值100,500,2 000)正確率與直接抽取算法的對比如表2所示。

    表2 準確率對比(%)

    與文獻[14]中所用集成方法的前2 000詞的72%準確率相比,本文算法的準確率也有提高。在所抽取的4 023個短語中,對不同長度詞串的抽取準確率做了一個統(tǒng)計。詳細數(shù)據(jù)如表3。

    表3 不同長度詞串的準確率對比

    6.3 結(jié)果分析

    由實驗數(shù)據(jù)可以看出排序集成方法是有效的。它很好地整合了三種抽取算法的特點,既有C-value對詞串上下文信息的考慮,又有互信息、似然比對詞串內(nèi)部結(jié)合度的考察。本文設(shè)計了一個整體的短語抽取方法,可以一次性得到三種抽取方法的短語及其在每種方法中的排序信息,相對于文獻[14]中分別使用單獨的方法進行抽取再進行集成,在算法效率上有很大提高。文獻[15]中使用種子擴展的方法,一步一步將種子擴展到術(shù)語長度,本文中設(shè)計了一個種子刪減的算法,一次生成所有的種子,而后對不符合的進行刪除。該方法省去了多次對語料的切分也提高了結(jié)果的準確率。但是高的準確率是在種子刪減過程中使用了嚴格的刪減制度產(chǎn)生的,即如果種子有一個抽取算法值不滿足閾值要求則將它刪除。長詞串的正確率有很大提高,說明在基礎(chǔ)集成算法中加入詞串長度起到了一定作用。哈薩克語是一種形態(tài)豐富的語言,每個詞在不同的上下文中都有不同的變化形式,如果將每一種變化形式都認為是單獨的詞必將導(dǎo)致嚴重的數(shù)據(jù)稀疏,而詞干是一個詞中體現(xiàn)詞匯意義的部分,故本文選擇詞干作為詞的代表進行統(tǒng)計,實驗結(jié)果表明選擇是正確的。本文的方法主要是基于統(tǒng)計學的,除了前期針對哈語的特點而做的語料預(yù)處理,其他的算法完全適用于其他語言。

    7 結(jié)論

    本文采用排序集成的方法將C-value、互信息和loglikelihood三種統(tǒng)計方法有機融合在一起,提高了抽取的正確率。本文抽取結(jié)果基本達到了預(yù)期,但是還有很大的提升空間,集成方法的研究將是接下來的工作重點。努力減少算法的時間、空間等復(fù)雜度,使得集成算法能夠勝任大數(shù)據(jù)量、更多統(tǒng)計參數(shù)的集成工作。

    [1]Frantzi K T,Ananiadou S,Mima H.Automatic recognition of multiword terms:the C-value/NC-value method[J].International Journal on Digital Libraries,2000,3(2):115-130.

    [2]張定京.現(xiàn)代哈薩克語實用語法[M].北京:中央民族大學出版社,2004:8-10.

    [3]耿世民.現(xiàn)代哈薩克語語法[M].北京:中央民族學院出版社,1989:228-230.

    [4]Hsiao S L,Chou S C,Chang L P.Information extraction from HTML tables based on domain ontology[C]//Proc of the International Conference on Information and Knowledge Engineering,2003:70-76.

    [5]Dunning T.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics,1993,19(1):61-67.

    [6]Damerau F J.Evaluating domain-oriented multi word terms from texts[J].Information Processing and Management,1993,29(4):433-447.

    [7]Frantzi K,Ananiadou S.A hybrid approach to term recognition[C]//Proceedings of NLP+IA,1996:93-98.

    [8]Yoshida M,Nakagawa H.Automatic term extraction based on perplexity of compound words[C]//IJCNLP,2005:269-279.

    [9]Pecina P,Schlesinger P.Combining association measures for collocation extraction[C]//Proceedings of the 21st InternationalConferenceonComputationalLinguisticsand 44th Annual Meeting of the Association for Computational Linguistics(COLING/ACL 2006),2006:651-658.

    [10]梁穎紅,張文靜,張有承.C值和互信息相結(jié)合的術(shù)語抽取[J].計算機應(yīng)用與軟件,2010,27(4):108-110.

    [11]Dwork C,Kumar R,Naor M,et al.Rank aggregation methods for the web[C]//Proceedings of the 10th International World Wide Web Conference,2001:613-622.

    [12]Sinha R,Mihalcea R.Unsupervised graph based word sense disambiguation using measures of word semantic similarity[C]//ICSC 07:Proceedings of the International Conference on Semantic Computing.Washington DC,USA:IEEE Computer Society,2007:363-369.

    [13]游宏梁,張巍,沈鈞毅,等.一種基于加權(quán)投票的術(shù)語自動識別方法[J].中文信息學報,2011,25(3):10-16.

    [14]粟超.基于排序集成的自動術(shù)語識別方法[J].計算機應(yīng)用與軟件,2012,29(1):196-223.

    [15]劉建舟,何婷婷.基于開放式語料的漢語術(shù)語的自動抽取[C]//20世紀國際東方語言計算處理協(xié)會高級東方語言處理會議,2003:15-18.

    SANG Haiyan1,2,Gulia·ALTENBEK1,2,SUN Ruina3,CHEN Li1,2

    1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
    2.The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and Research Center Minority Languages,Urumqi 830046,China
    3.College of Statistical Information,Xinjiang University of Finance and Economics,Urumqi 830046,China

    Phrase extraction plays a key role in text information understanding,such as automatic text classification,topic extraction,and analysis of patent search,etc.As the part of phrase research,the fixed phrase extraction has important practical significance on natural language processing tasks including the lexicographer.The Kazakh is agglutinative language, rich in inflections.These characteristics of the Kazakh bring certain difficulties to fixed phrase extraction.This paper proposes a general fixed phrase extraction algorithm.The algorithm considers the fixed phrase extraction as a scheduling problem, uses C-value,mutual information and log-likelihood statistics to extract and schedule,and presents a new rank aggregation method to obtain a scheduling result set.The experimental results indicate that the algorithm gets higher accuracy compared with popular signal extraction algorithms.

    natural language processing;fixed phrases;rank aggregation;mutual information;log-likelihood;C-value

    A

    TP391

    10.3778/j.issn.1002-8331.1211-0373

    SANG Haiyan,Gulia·ALTENBEK,SUN Ruina,et al.Rank aggregation-based Kazakh fixed phrases extraction. Computer Engineering and Applications,2014,50(21):205-209.

    國家自然科學基金(No.61063025);新疆多語種信息技術(shù)重點實驗室開放項目(No.049807)。

    桑海巖(1982—),男,碩士,CCF會員,主要研究領(lǐng)域為自然語言信息處理;古麗拉·阿東別克(1962—),女,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言信息處理,人工智能等;孫瑞娜(1982—),女,講師,主要研究領(lǐng)域為人工智能;陳莉(1988—),女,碩士,主要研究領(lǐng)域為自然語言處理。E-mail:sang_haiyan@163.com

    2012-11-30

    2013-03-25

    1002-8331(2014)21-0205-05

    CNKI出版日期:2013-05-03,http://www.cnki.net/kcms/detail/11.2127.TP.20130503.1708.011.html

    猜你喜歡
    詞串互信息語料庫
    《語料庫翻譯文體學》評介
    靈動的詞串,寫話的紐帶
    報紙新聞標題中的“熱詞群”和“熱詞串”
    新聞傳播(2018年15期)2018-09-18 03:19:58
    把課文的優(yōu)美表達存進語料庫
    美語口語詞串You Know What探析
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習
    聯(lián)合互信息水下目標特征選擇算法
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    改進的互信息最小化非線性盲源分離算法
    電測與儀表(2015年9期)2015-04-09 11:59:22
    基于增量式互信息的圖像快速匹配方法
    最新美女视频免费是黄的| 亚洲成人久久性| 精品国产一区二区三区四区第35| 日本黄色日本黄色录像| 又大又爽又粗| 制服人妻中文乱码| 757午夜福利合集在线观看| 波多野结衣高清无吗| 99国产精品免费福利视频| 久久人妻熟女aⅴ| 国产成人影院久久av| 精品久久蜜臀av无| 精品久久久久久电影网| 怎么达到女性高潮| 午夜精品国产一区二区电影| 一级a爱片免费观看的视频| 免费少妇av软件| 国产成人系列免费观看| 国产有黄有色有爽视频| 自拍欧美九色日韩亚洲蝌蚪91| 国产1区2区3区精品| 色哟哟哟哟哟哟| 欧美老熟妇乱子伦牲交| 99riav亚洲国产免费| 久久草成人影院| 天堂动漫精品| 69精品国产乱码久久久| 人人澡人人妻人| 国产精品1区2区在线观看.| 国产一区在线观看成人免费| 亚洲精华国产精华精| 欧美另类亚洲清纯唯美| 日韩精品中文字幕看吧| 国产免费av片在线观看野外av| 午夜亚洲福利在线播放| 精品久久久久久成人av| 国产精品亚洲一级av第二区| 亚洲av美国av| 国产精品美女特级片免费视频播放器 | 国产又爽黄色视频| 琪琪午夜伦伦电影理论片6080| a在线观看视频网站| 性欧美人与动物交配| 韩国av一区二区三区四区| 国产精品影院久久| 国产伦人伦偷精品视频| 国产精品亚洲av一区麻豆| 欧美日韩国产mv在线观看视频| 12—13女人毛片做爰片一| www.999成人在线观看| 国产黄色免费在线视频| 性色av乱码一区二区三区2| 男人操女人黄网站| 18禁黄网站禁片午夜丰满| 亚洲情色 制服丝袜| 国产午夜精品久久久久久| 成人手机av| 欧美中文综合在线视频| 少妇 在线观看| 国产不卡一卡二| 国产亚洲精品久久久久5区| 欧美中文日本在线观看视频| 咕卡用的链子| 一区福利在线观看| 国产色视频综合| 久久国产精品人妻蜜桃| 久久久久久人人人人人| 99国产综合亚洲精品| 久久性视频一级片| 一级毛片精品| 波多野结衣高清无吗| 国产精品自产拍在线观看55亚洲| 免费在线观看亚洲国产| 日韩免费高清中文字幕av| 午夜免费成人在线视频| 交换朋友夫妻互换小说| 色综合欧美亚洲国产小说| 免费在线观看视频国产中文字幕亚洲| 久久久久亚洲av毛片大全| 国产精品二区激情视频| aaaaa片日本免费| 精品国产国语对白av| 妹子高潮喷水视频| 男女床上黄色一级片免费看| 很黄的视频免费| netflix在线观看网站| 精品人妻1区二区| 叶爱在线成人免费视频播放| 亚洲国产中文字幕在线视频| 身体一侧抽搐| 亚洲九九香蕉| 人妻久久中文字幕网| 手机成人av网站| 欧美黑人精品巨大| 99在线视频只有这里精品首页| 欧美久久黑人一区二区| 成人特级黄色片久久久久久久| 精品一品国产午夜福利视频| 最近最新免费中文字幕在线| xxx96com| 成人国产一区最新在线观看| 日日干狠狠操夜夜爽| 婷婷丁香在线五月| 久久午夜综合久久蜜桃| 两人在一起打扑克的视频| 极品人妻少妇av视频| 成人亚洲精品av一区二区 | 新久久久久国产一级毛片| 婷婷六月久久综合丁香| 午夜福利免费观看在线| 又大又爽又粗| 亚洲avbb在线观看| 国产成人精品久久二区二区免费| 亚洲精品一卡2卡三卡4卡5卡| 大型黄色视频在线免费观看| 欧美黄色片欧美黄色片| 亚洲av第一区精品v没综合| 别揉我奶头~嗯~啊~动态视频| 老司机福利观看| 看片在线看免费视频| 亚洲专区中文字幕在线| 国产成人精品无人区| 亚洲avbb在线观看| 国产成人欧美| 久久人妻熟女aⅴ| 成熟少妇高潮喷水视频| 亚洲中文字幕日韩| 国产精品爽爽va在线观看网站 | 天堂√8在线中文| 日本一区二区免费在线视频| 久久精品亚洲熟妇少妇任你| 久久精品国产清高在天天线| 日韩一卡2卡3卡4卡2021年| 级片在线观看| 亚洲三区欧美一区| 国产一区二区激情短视频| 69av精品久久久久久| 高清在线国产一区| 久久人人97超碰香蕉20202| 久久中文字幕人妻熟女| 夫妻午夜视频| 亚洲国产毛片av蜜桃av| 中文字幕另类日韩欧美亚洲嫩草| 18美女黄网站色大片免费观看| 在线av久久热| 水蜜桃什么品种好| videosex国产| 欧美成人免费av一区二区三区| 欧美乱色亚洲激情| 男女做爰动态图高潮gif福利片 | 黄频高清免费视频| 精品久久久久久久久久免费视频 | 夜夜爽天天搞| 久久 成人 亚洲| 乱人伦中国视频| 久久中文字幕人妻熟女| 国产高清videossex| 欧美日韩亚洲高清精品| 亚洲av第一区精品v没综合| 正在播放国产对白刺激| 大型黄色视频在线免费观看| 亚洲av日韩精品久久久久久密| x7x7x7水蜜桃| 欧美国产精品va在线观看不卡| 精品国产一区二区三区四区第35| 中国美女看黄片| 脱女人内裤的视频| 日韩精品免费视频一区二区三区| 99在线视频只有这里精品首页| 久久久久久久久中文| 免费少妇av软件| 久久精品亚洲av国产电影网| 美国免费a级毛片| 久久精品国产亚洲av香蕉五月| 十八禁人妻一区二区| 久久 成人 亚洲| 色在线成人网| 成人黄色视频免费在线看| 成人精品一区二区免费| a级片在线免费高清观看视频| 亚洲色图 男人天堂 中文字幕| 国产精品野战在线观看 | 亚洲国产中文字幕在线视频| 国产精品影院久久| 成年人黄色毛片网站| 国产亚洲精品综合一区在线观看 | 男女高潮啪啪啪动态图| 亚洲专区中文字幕在线| www.www免费av| 亚洲av片天天在线观看| 亚洲男人天堂网一区| 色婷婷av一区二区三区视频| 日韩精品中文字幕看吧| 99在线人妻在线中文字幕| 在线av久久热| 18禁观看日本| 中国美女看黄片| 成人精品一区二区免费| 亚洲,欧美精品.| 日本vs欧美在线观看视频| 国产免费男女视频| 国产三级黄色录像| 中文字幕最新亚洲高清| 久久人人精品亚洲av| 免费看十八禁软件| 欧美日韩瑟瑟在线播放| 国产不卡一卡二| 国产一区二区在线av高清观看| 一区二区三区激情视频| 自线自在国产av| 久久中文看片网| 久久精品亚洲av国产电影网| 黑人欧美特级aaaaaa片| 精品福利观看| 亚洲国产看品久久| 一夜夜www| 婷婷丁香在线五月| 国产精品国产高清国产av| 亚洲国产看品久久| 欧美在线一区亚洲| 免费久久久久久久精品成人欧美视频| 国产免费男女视频| avwww免费| 18美女黄网站色大片免费观看| 国产亚洲欧美精品永久| 97人妻天天添夜夜摸| 女生性感内裤真人,穿戴方法视频| 国产成人欧美在线观看| 国产无遮挡羞羞视频在线观看| 大陆偷拍与自拍| 久久午夜综合久久蜜桃| 免费看a级黄色片| 午夜免费激情av| 欧美乱色亚洲激情| 国产成人精品在线电影| 精品第一国产精品| 免费少妇av软件| 国产极品粉嫩免费观看在线| 精品国产亚洲在线| 老鸭窝网址在线观看| 中文字幕高清在线视频| 国产精品二区激情视频| av天堂久久9| 乱人伦中国视频| 视频在线观看一区二区三区| 一本综合久久免费| 久久久国产精品麻豆| 欧美另类亚洲清纯唯美| 亚洲少妇的诱惑av| 久久久国产成人免费| 欧美精品亚洲一区二区| 久久久国产精品麻豆| 久久伊人香网站| 国产精品影院久久| 女警被强在线播放| 免费在线观看影片大全网站| 午夜免费激情av| 久久久久国产精品人妻aⅴ院| 国产欧美日韩精品亚洲av| 国产亚洲欧美精品永久| 韩国精品一区二区三区| 在线观看免费午夜福利视频| 国产一区二区三区视频了| 大型av网站在线播放| 国产亚洲精品综合一区在线观看 | 精品日产1卡2卡| 18禁观看日本| 超色免费av| 国产成+人综合+亚洲专区| 日本黄色日本黄色录像| 搡老乐熟女国产| 在线观看一区二区三区激情| 后天国语完整版免费观看| 亚洲午夜精品一区,二区,三区| 亚洲精品美女久久av网站| 校园春色视频在线观看| 无遮挡黄片免费观看| 国产精品美女特级片免费视频播放器 | 午夜亚洲福利在线播放| 国产精品电影一区二区三区| 宅男免费午夜| 国产精品永久免费网站| 欧美黑人精品巨大| 精品欧美一区二区三区在线| 久久久国产欧美日韩av| 国产精品美女特级片免费视频播放器 | 动漫黄色视频在线观看| av网站免费在线观看视频| 真人做人爱边吃奶动态| 亚洲精品粉嫩美女一区| 久久久久久亚洲精品国产蜜桃av| 精品国产国语对白av| 黄色片一级片一级黄色片| 国产在线精品亚洲第一网站| 亚洲五月色婷婷综合| 亚洲国产看品久久| 午夜精品在线福利| 女人爽到高潮嗷嗷叫在线视频| 国产成人系列免费观看| 18美女黄网站色大片免费观看| 两个人看的免费小视频| 亚洲av成人不卡在线观看播放网| 亚洲av第一区精品v没综合| 黄色a级毛片大全视频| 日韩精品青青久久久久久| 99国产精品一区二区蜜桃av| 国产aⅴ精品一区二区三区波| 日本黄色视频三级网站网址| 欧美激情 高清一区二区三区| 久久九九热精品免费| 日日爽夜夜爽网站| 亚洲伊人色综图| 亚洲精品中文字幕一二三四区| 桃色一区二区三区在线观看| 好看av亚洲va欧美ⅴa在| 天天影视国产精品| 69av精品久久久久久| 搡老乐熟女国产| 伊人久久大香线蕉亚洲五| 久久中文字幕人妻熟女| 校园春色视频在线观看| 国产一区二区三区视频了| 大陆偷拍与自拍| 校园春色视频在线观看| 热re99久久精品国产66热6| 久久久久久大精品| 高清av免费在线| 亚洲人成网站在线播放欧美日韩| 亚洲成人国产一区在线观看| 黄片大片在线免费观看| 国产99久久九九免费精品| ponron亚洲| 天堂中文最新版在线下载| 两人在一起打扑克的视频| 高清欧美精品videossex| 99re在线观看精品视频| 国产色视频综合| 99国产精品99久久久久| 天天影视国产精品| 少妇裸体淫交视频免费看高清 | 男女午夜视频在线观看| 男女下面插进去视频免费观看| 国产高清videossex| 亚洲国产欧美日韩在线播放| 男女床上黄色一级片免费看| 青草久久国产| 久久国产精品人妻蜜桃| 亚洲全国av大片| 午夜福利在线免费观看网站| 老司机午夜福利在线观看视频| 亚洲色图av天堂| 亚洲久久久国产精品| 99久久国产精品久久久| 亚洲va日本ⅴa欧美va伊人久久| 一区福利在线观看| 麻豆国产av国片精品| 亚洲一区二区三区不卡视频| 一区福利在线观看| 国产欧美日韩一区二区精品| 精品国产国语对白av| 精品一品国产午夜福利视频| 一个人观看的视频www高清免费观看 | 久久这里只有精品19| 老熟妇乱子伦视频在线观看| 亚洲精品一二三| 最新在线观看一区二区三区| 热re99久久精品国产66热6| 精品国产乱码久久久久久男人| 中文字幕最新亚洲高清| av天堂在线播放| 麻豆av在线久日| 一级毛片精品| 国产欧美日韩一区二区三| 在线av久久热| 三上悠亚av全集在线观看| 亚洲精品中文字幕一二三四区| 国产在线精品亚洲第一网站| 巨乳人妻的诱惑在线观看| 欧美色视频一区免费| 欧美激情久久久久久爽电影 | 99国产精品免费福利视频| 久久草成人影院| 在线观看www视频免费| 黄片小视频在线播放| 一级作爱视频免费观看| 美国免费a级毛片| 国产欧美日韩一区二区三| 国产成人av教育| 又黄又爽又免费观看的视频| 啦啦啦 在线观看视频| 欧美另类亚洲清纯唯美| 999久久久国产精品视频| 夜夜爽天天搞| 精品国产乱子伦一区二区三区| 色哟哟哟哟哟哟| 久久99一区二区三区| 亚洲国产中文字幕在线视频| 桃色一区二区三区在线观看| 一级毛片高清免费大全| 99国产精品一区二区三区| 免费在线观看影片大全网站| 深夜精品福利| 一级片免费观看大全| av片东京热男人的天堂| 精品卡一卡二卡四卡免费| 又黄又爽又免费观看的视频| 欧美一区二区精品小视频在线| 两个人免费观看高清视频| 欧美中文综合在线视频| 亚洲中文日韩欧美视频| 黄色成人免费大全| 亚洲片人在线观看| 亚洲国产精品一区二区三区在线| 欧美在线一区亚洲| 久久久精品国产亚洲av高清涩受| 午夜久久久在线观看| 91老司机精品| 国产精品1区2区在线观看.| av天堂在线播放| 成人亚洲精品一区在线观看| 亚洲aⅴ乱码一区二区在线播放 | 男女下面进入的视频免费午夜 | 欧美av亚洲av综合av国产av| 国产野战对白在线观看| 日韩欧美三级三区| 欧美日韩亚洲综合一区二区三区_| 51午夜福利影视在线观看| 桃色一区二区三区在线观看| 看黄色毛片网站| 动漫黄色视频在线观看| 欧美av亚洲av综合av国产av| 天堂√8在线中文| 真人一进一出gif抽搐免费| 91大片在线观看| 国产精品免费视频内射| 久久精品国产亚洲av香蕉五月| 99精国产麻豆久久婷婷| 国产成人影院久久av| www.熟女人妻精品国产| 侵犯人妻中文字幕一二三四区| 91成人精品电影| 琪琪午夜伦伦电影理论片6080| 香蕉国产在线看| 手机成人av网站| 丝袜美腿诱惑在线| 中文字幕高清在线视频| 国产亚洲欧美在线一区二区| 一级毛片女人18水好多| 日韩欧美一区视频在线观看| 热99re8久久精品国产| 国产99白浆流出| 国产精品久久视频播放| 国产精品电影一区二区三区| 成人三级黄色视频| 制服诱惑二区| 又黄又粗又硬又大视频| 日韩三级视频一区二区三区| 成人影院久久| 日韩 欧美 亚洲 中文字幕| 欧美色视频一区免费| 久久久久久免费高清国产稀缺| 国产精品久久视频播放| 9191精品国产免费久久| 91麻豆精品激情在线观看国产 | 麻豆国产av国片精品| 中出人妻视频一区二区| 不卡一级毛片| 视频在线观看一区二区三区| 怎么达到女性高潮| 久久国产精品男人的天堂亚洲| 日韩高清综合在线| 免费一级毛片在线播放高清视频 | 黄色成人免费大全| 国产一区二区三区综合在线观看| 亚洲免费av在线视频| 久久久久久免费高清国产稀缺| 午夜福利在线免费观看网站| 脱女人内裤的视频| 免费av毛片视频| 午夜成年电影在线免费观看| 天天躁狠狠躁夜夜躁狠狠躁| 美女 人体艺术 gogo| 在线观看www视频免费| 欧美日韩中文字幕国产精品一区二区三区 | 又黄又粗又硬又大视频| 国产又色又爽无遮挡免费看| 99久久国产精品久久久| 色哟哟哟哟哟哟| 亚洲国产欧美一区二区综合| 亚洲专区字幕在线| www.999成人在线观看| 国产成人欧美在线观看| ponron亚洲| 一区在线观看完整版| 在线十欧美十亚洲十日本专区| 免费高清视频大片| 国内久久婷婷六月综合欲色啪| 91字幕亚洲| a在线观看视频网站| 色综合婷婷激情| 国产精品久久久av美女十八| 男人操女人黄网站| 亚洲专区字幕在线| 精品乱码久久久久久99久播| 美女扒开内裤让男人捅视频| 村上凉子中文字幕在线| 一进一出抽搐动态| 纯流量卡能插随身wifi吗| 欧美成狂野欧美在线观看| 在线观看免费视频日本深夜| cao死你这个sao货| 欧美性长视频在线观看| 99国产综合亚洲精品| 日日夜夜操网爽| 一二三四社区在线视频社区8| 大码成人一级视频| ponron亚洲| 99热国产这里只有精品6| 国产精品亚洲一级av第二区| 国产有黄有色有爽视频| 国产在线精品亚洲第一网站| 久热这里只有精品99| 桃红色精品国产亚洲av| 欧美日韩国产mv在线观看视频| 精品乱码久久久久久99久播| 免费在线观看亚洲国产| 12—13女人毛片做爰片一| 亚洲五月婷婷丁香| 国产视频一区二区在线看| 一级,二级,三级黄色视频| 欧美 亚洲 国产 日韩一| 黄色视频,在线免费观看| 欧美日韩国产mv在线观看视频| av视频免费观看在线观看| 午夜久久久在线观看| 久久国产精品男人的天堂亚洲| 国产亚洲欧美98| 伊人久久大香线蕉亚洲五| 国产极品粉嫩免费观看在线| 91字幕亚洲| 老司机午夜十八禁免费视频| 亚洲精品在线观看二区| 日本撒尿小便嘘嘘汇集6| 免费看a级黄色片| 成年女人毛片免费观看观看9| 久久久久亚洲av毛片大全| 夜夜夜夜夜久久久久| 成人国产一区最新在线观看| 中文字幕色久视频| 天堂√8在线中文| 美女国产高潮福利片在线看| 一区在线观看完整版| 国产成人系列免费观看| 免费在线观看日本一区| 在线看a的网站| 精品一区二区三区视频在线观看免费 | 亚洲免费av在线视频| 欧美黄色片欧美黄色片| 国产精品乱码一区二三区的特点 | 久久人人爽av亚洲精品天堂| 国产精品av久久久久免费| 激情视频va一区二区三区| 成人国语在线视频| 午夜福利,免费看| 午夜福利影视在线免费观看| 久久久久九九精品影院| 国产在线观看jvid| 日日摸夜夜添夜夜添小说| 中亚洲国语对白在线视频| 日本五十路高清| xxx96com| 高清黄色对白视频在线免费看| 欧美亚洲日本最大视频资源| 欧美中文日本在线观看视频| 亚洲激情在线av| 一本大道久久a久久精品| 国产精品偷伦视频观看了| 国产男靠女视频免费网站| 人人澡人人妻人| 国产伦人伦偷精品视频| 成人av一区二区三区在线看| svipshipincom国产片| 国产av精品麻豆| 一级黄色大片毛片| 性欧美人与动物交配| 黄色视频不卡| 一级a爱视频在线免费观看| 女人精品久久久久毛片| 1024香蕉在线观看| 久久精品亚洲熟妇少妇任你| 国产欧美日韩综合在线一区二区| 久久亚洲精品不卡| 国产熟女xx| 国产熟女午夜一区二区三区| 国产av一区二区精品久久| 真人做人爱边吃奶动态| 男人的好看免费观看在线视频 | 亚洲国产中文字幕在线视频| 天天添夜夜摸| 欧美亚洲日本最大视频资源| 精品日产1卡2卡| 午夜福利在线免费观看网站| 国产99白浆流出| 亚洲男人的天堂狠狠| av在线天堂中文字幕 | 国产伦人伦偷精品视频| 日本免费一区二区三区高清不卡 | 又紧又爽又黄一区二区| www国产在线视频色| 视频区欧美日本亚洲| 激情视频va一区二区三区| 午夜久久久在线观看| 亚洲av电影在线进入| 身体一侧抽搐| 国产av一区在线观看免费|