• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      詞匯計量研究與常用詞知識庫建設

      2015-04-21 08:43:40俞士汶朱學鋒
      中文信息學報 2015年3期
      關(guān)鍵詞:常用詞義項知識庫

      俞士汶,朱學鋒

      (1. 北京大學 計算語言學研究所 計算語言學教育部重點實驗室,北京 100871;2. 語言能力協(xié)同創(chuàng)新中心,江蘇 徐州,221009)

      ?

      詞匯計量研究與常用詞知識庫建設

      俞士汶1,2,朱學鋒1

      (1. 北京大學 計算語言學研究所 計算語言學教育部重點實驗室,北京 100871;2. 語言能力協(xié)同創(chuàng)新中心,江蘇 徐州,221009)

      面向自然語言處理的詞匯語義研究應該以詞匯的計量研究為基礎。該文在評述漢語詞匯計量研究的主要成果以后,提出一個漢語常用詞知識庫的建設任務,并給出常用詞表的構(gòu)造性定義、詞表常用性的定量評價方法以及“部件詞”的概念,最后介紹現(xiàn)代漢語常用詞知識庫的總體設計和已經(jīng)做的工作。期望常用詞知識庫的建設能為漢語詞匯語義學研究、為中文信息處理事業(yè)的發(fā)展做出貢獻。

      漢語常用詞知識庫;《中國語言生活狀況報告》;綜合型語言知識庫;《現(xiàn)代漢語語法信息詞典》;部件詞

      1 引言

      面向自然語言處理的詞匯語義研究應該以詞匯的計量研究為基礎,漢語最大規(guī)模的計量研究成果當屬中國國家語言資源監(jiān)測與研究中心(本文簡稱其為LRMR)每年發(fā)布的《中國語言生活狀況報告[1]。據(jù)2010年的光盤數(shù)據(jù),僅25 546個常用詞語即可覆蓋全部語料的95%。可見常用詞語的語言知識庫建設在通用型語言知識庫建設中具有舉足輕重的地位。

      北京大學計算語言學研究所(ICL/PKU)的“綜合型語言知識庫”(簡稱CLKB)[2]是詞匯計量研究領域的另一項成果[3]。筆者于2007年提出建設現(xiàn)代漢語常用詞庫的構(gòu)想[4],只是立足于CLKB的基礎。CLKB的計量研究的規(guī)模遠遜于LRMR。不過,CLKB的詞匯計量研究也有更為深入之處,可供常用詞庫建設借鑒。

      本文在評述漢語詞匯計量研究以后,提出詞表常用性的計量表示和“部件詞”的概念,并給出以“部件詞”為主體的現(xiàn)代漢語常用詞知識庫的概要設計。

      2 詞匯計量研究述評

      2.1 關(guān)于中國國家語言資源監(jiān)測與研究中心的研究

      詞匯的計量研究必須立足于大規(guī)模的語料庫。LRMR自2006年以來每年收集各類媒體語料約十億漢字,對媒體的用字用語一般情況、年度新詞語、年度流行語等等進行調(diào)查、統(tǒng)計、分析,在漢語計量研究領域,這項研究的規(guī)模和廣度應該是最大的。

      LRMR采用軟件技術(shù)對語料進行了詞語切分和詞性標注,得到豐富的統(tǒng)計數(shù)據(jù),并有選擇地在《中國語言生活狀況報告》上發(fā)表了部分成果。LRMR明確說明調(diào)查對象是由加工軟件得到的切分單位,意在保留語言生活的實態(tài),同時也保留了語言技術(shù)的實態(tài)。公開發(fā)表的內(nèi)容(包括光盤數(shù)據(jù)),特別是“高頻詞語表”,經(jīng)過多種形式的人工校訂,質(zhì)量是上乘的,在諸多領域都是有參考價值的,更值得常用詞庫參照。

      LRMR的語言數(shù)據(jù)資源是逐年積累的,已持續(xù)七年,可以從共時和歷時兩個角度進行研究。LRMR已對2005~2009的五年語料進行了分析?!案采w整個語料80%的詞種個數(shù)穩(wěn)定在4 500個左右,覆蓋率達到90%的詞種個數(shù)穩(wěn)定在12 000左右??梢姡哳l常用詞語的數(shù)量相對穩(wěn)定?!边@個結(jié)論顯然對常用詞知識庫建設具有指導意義。

      LRMR在詞匯計量研究領域也有理論上的創(chuàng)新,提出了一些新的統(tǒng)計量及其計算公式,如分布率、使用率、頻率比值、頻序比值等等。

      2.2 關(guān)于《常用詞表(草案)》等數(shù)據(jù)成果

      《中國語言生活狀況報告》屬于《中國語言綠皮書》之B系列,其A系列主要刊載引導語言生活的“軟性”規(guī)范。到2011年止,A系列出了兩冊。第一冊是《現(xiàn)代漢語常用詞表(草案)》[5](以下簡稱《常用詞表(草案)》),簡介如下:

      (1) 《常用詞表(草案)》有56 008個使用頻率高、適用范圍廣的詞語;

      (2) 《常用詞表(草案)》正文中的“詞語”按“頻序號”排列。另外提供了音序索引;

      (3) 《常用詞表(草案)》“優(yōu)先收錄帶有詞根性質(zhì)的詞語”,“原則上雙音節(jié)者適當從寬,三音節(jié)及其以上者適度從嚴”,這與筆者對“部件詞”[4]的認知可謂殊途同歸;

      (4) 對同形異義詞,《常用詞表(草案)》實際上只區(qū)分了漢字相同而讀音不同的情況。

      較早公開出版的基于計量研究的詞表還有《現(xiàn)代漢語頻率詞典》(包含16 593個詞語[6])和《信息處理用現(xiàn)代漢語常用詞表》(將近4萬詞語)[7]。

      2.3 CLKB相關(guān)的計量研究

      綜合型語言知識庫中的“現(xiàn)代漢語多級加工語料庫”[8]與詞匯計量研究直接相關(guān),實現(xiàn)多級加工的數(shù)據(jù)資源基礎是CLKB中的《現(xiàn)代漢語語法信息詞典》(GKB)[9]和以及ICL/PKU研制的“現(xiàn)代漢語語義詞典”(CSD)[10]。

      看現(xiàn)代漢語多級加工語料庫的一個實例:

      ① 19980101-05-001-018/m 為鼓勵中學生多聽多講普通話

      ② 19980101-05-001-018/m 為/ 鼓勵/ 中學生/ 多/ 聽/ 多/ 講/ 普通話/

      ③ 19980101-05-001-018/m 為/p 鼓勵/v 中學生/n 多/a 聽/v 多/a 講/v 普通話/n

      ④ 19980101-05-001-018/m 為/p!B 鼓勵/v 中學生/n 多/a 聽/v 多/a 講/v!1 普通話/n

      ⑤ 19980101-05-001-018/m 為/p!B 鼓勵/v 中學生/n 多/a 聽/v 多/a 講/v!1-1 普通話/n

      ①原始語料的語句前的一串數(shù)字指示本語句在語料庫中的位置,即《人民日報》1998年1月1日第五版第一篇文章第18句。原始語料包括1998年和2000年兩年完整的《人民日報》,共5 200萬字,都完成了②和③的基本加工: 詞語切分和詞性標注,如p是介詞,v是動詞。④在③的基礎上進行粗粒度義項標注,即標注《現(xiàn)代漢語語法信息詞典》(GKB)的“同形”信息。在GKB中,動詞“講”的“同形”字段區(qū)分為“1”和“2”,“1”是“說,解釋,商量”義,“2”是“講求,講究”義,本語句中“講”是“1”的意思,標注為“!1”;完成這一步的語料有2 800萬字(1998年1月和2000年全年的)。⑤在④的基礎上并依據(jù)CSD的“義項編碼”字段進行細粒度義項標注;CSD 基于GKB的“同形”,增設了“義項編碼”字段,如將GKB中“同形”為“1”的動詞“講”的“義項編碼”區(qū)分為“1”,“2”,“3”,分別代表“說,解釋”義,“就某方面而言”義,“商量”義,這個語句中“講”的意義與“義項編碼”“1”相符,動詞“講”的細粒度義項標注為“講/v!1-1”; 完成這一步的語料有700萬字(2000年1月至3月的)。

      可以把上面的實例改造成數(shù)據(jù)庫文件形式(見表1,簡稱為D)。利用D和 CSD的共有字段“詞語"、“詞類”、“同形”、“義項編碼”可以把D和CSD集成到一起;如果語料庫只標注到同形信息,D中沒有“義項編碼”字段,可以和 GKB集成。

      表1 多級加工語句轉(zhuǎn)換成數(shù)據(jù)庫文件的示例(D)

      如果在表1中刪去“位”字段,“多”有了兩個相同的記錄,刪去一個,將留下的一個的“頻次”改為“2”,便得到了這個語句的詞頻,實際上是“多”這個詞的細粒度義項的頻次。按同樣操作過程,逐次刪去“句”、“篇”、“版”、“日”、“月”、“年”,就能得到一篇文章、一個版面、一天、一個月、一年乃至整個語料庫的詞頻(細粒度義項的頻次)。

      如果只標注到“同形”,可按照同樣的辦法得到每個詞語的粗粒度義項(即標注GKB的“同形”)的頻次。如果再刪去“同形”字段,得到的將是區(qū)分詞性的詞頻;如果連詞類代碼也刪去,得到的只是詞形的頻次。

      更深入的,還有關(guān)于均根勻度的研究[11]以及關(guān)于詞語的語法屬性的計量研究[12]。

      3 詞表常用性的計量表示

      3.1 常用詞表的構(gòu)造性定義

      “常用”通常是個模糊的概念。本文給出基于計量數(shù)據(jù)的常用詞表的構(gòu)造性定義: 將給定的文本語料簡化為二元組C={uj,pj| 1≤j≤m},u,p都是m維向量:u=(u1,u2, …,uj, …,um),p=(p1,p2, …,pj, …,pm)。uj代表語料中互不相同的構(gòu)成單元,即當i<>j, 則ui<>uj;pj為uj在語料庫中出現(xiàn)的頻率p(uj)=pj。pj滿足歸一化條件,即式(1)。

      (1)

      將pj按降序排列,于是當s

      基于給定的常數(shù)δ(0≤δ≤1,稱之為覆蓋系數(shù))確定C的一個子集L,

      L={uj,,Pj| 1≤j≤k},1≤k≤m,使其滿足

      則L為語料庫C的關(guān)于覆蓋系數(shù)δ的常用構(gòu)成單元列表。對于不同深度的加工語料,構(gòu)成單元不同: 詞語,帶詞性的詞語,區(qū)分同形(粗粒度義項)的詞語,區(qū)分細粒度義項的詞語,不妨概稱為“詞語”。對于原始語料,構(gòu)成單元就是字。還可以把構(gòu)成單元看成是句子。

      本定義的一個重要理念是常用詞表是語料庫和覆蓋系數(shù)的函數(shù),即L=L(C, δ),不存在對任何語料庫都適用的常用詞表。

      3.2 已有詞表的常用性檢測

      對一個已經(jīng)存在的詞表W,可用以下三個指標檢測它關(guān)于給定語料庫C的“常用性”。

      一次覆蓋率R1: 在語料庫C中出現(xiàn)的詞表W中的詞語數(shù)n與C中所有不同詞語的總數(shù)m之比,即式(2)。

      (2)

      多次覆蓋率Rt: 在語料庫C中出現(xiàn)的詞表W中的n個詞語的頻次gk(k=1,2,…,n)之和 與C中所有詞(總數(shù)為m)的頻次fj(j=1,2,…,m)之和 的比,即式(3)。

      (3)

      詞典的有效率V: 在語料庫C中出現(xiàn)的詞表W中的詞語數(shù)n與W中的詞語總數(shù)N之比,即式(4)。

      (4)

      R1,Rt,V的值都在區(qū)間[0,1]上。R1,Rt的值越大則覆蓋率越高,理想值是1。當R1的值不大,而Rt的值卻較大,表示該詞表覆蓋了語料庫C的較多的常用詞。若V取理想值1,表示詞表W中的詞在語料庫C中都用到了。

      4 常用詞表和“部件詞”

      4.1 “部件詞”的概念

      無論LRMR還是CLKB已做的有關(guān)詞語的計量研究實際上都是基于“切分單位”的,詞語的頻次就是切分單位的頻次?!扒蟹謫挝弧迸c通常的“詞”顯然有差別。另外,從通常認可的“詞”中還可以析出更基本的有構(gòu)詞能力的詞,筆者將其稱為“部件詞”[4],大體相當于《常用詞表(草案)》所指的“帶有詞根性質(zhì)的詞語”?!安考~”的實例有:

      (1) 像“一九九八年”、“一九九七年”等都是切分單位,LRMR又稱其為“時間表達式”,CLKB認為它就是時間詞。其中,數(shù)詞“一”、 “九”、“七”、“八”和名詞“年”是“部件詞”。

      (2) 在“積極”、“積極分子”和“積極性”這三個詞中,“積極”、“分子”、“性”是“部件詞”。

      常用詞表應該以“部件詞”為主體。

      把一部詞典收錄的所有詞語(登錄項或詞條)或語料中的所有切分單位看作詞的全集,可以從中區(qū)分出“部件詞”和“非部件詞”,“非部件詞”是由“部件詞”構(gòu)成的。 “部件詞”和“非部件詞”之間、它們的頻次以及同總頻次之間有以下 ①~④ 的關(guān)系。

      ① 部件詞集∪非部件詞集=詞的全集;

      ② 部件詞集∩非部件詞集=?(空集);

      ③ 在語料庫中,部件詞e的累計頻次=部件詞e本身的頻次+所有包含e的非部件詞w的頻次;

      ④ 一個非部件詞拆分后,部件詞的頻次和總頻次要重新計算:

      設 某個非部件詞w可拆分為n個部件詞ej(j=1,2,…,n),

      w拆分前的頻次為f,每個ej的頻次為fj,所有詞的總頻次為F,

      w拆分后,每個ej的頻次為fj′,總頻次為F′,

      則fj′=fj+f, (j=1,2,…,n),

      F′=F+(n-1)*f

      4.2 基于“部件詞”的常用詞表的確定

      常用詞表的確立要基于頻率等計量數(shù)據(jù),還應該以“部件詞”為主體。

      第一步: 選擇足夠大的有限的現(xiàn)代漢語語料庫C。自然優(yōu)先考慮LRMR8年積累的約80億字的基本加工語料庫和CLKB中的多級加工語料庫。

      第二步: 對C進行多級加工。盡可能繼承、利用LRMR和CLKB的既有成果。計算C的構(gòu)成單元uj(j=1,2,…,m)的頻次fj和所有構(gòu)成單元的總頻次F,按fj降序排列uj,得到uj的列表。

      第三步: 對每一個uj進行辨析,分出部件詞和非部件詞,將非部件詞拆分為部件詞(由于列表很大,需要對頻次給出下限,頻次少于下限的uj不予處理)。

      第四步: 重新計算部件詞的累計頻次和由部件詞構(gòu)成的所有詞語的總頻次F′。

      第五步: 根據(jù)每一個部件詞ej的累計頻次和總頻次F′計算ej的頻率pj,按pj降序排列ej,得到部件詞列表。

      第六步: 考慮計算部件詞的均根勻度,按均根勻度和頻率的加權(quán)平均值調(diào)整部件詞列表。

      第七步: 給定覆蓋系數(shù)δ,構(gòu)造出基于部件詞的常用詞表。

      第八步: 適當選擇若干典型的常用非部件詞,加進常用詞表。

      將非部件詞拆分為部件詞也比較復雜。在多級加工語料中,非部件詞可能帶有詞性、同形、義項編碼等信息,拆分后如何確定部件詞的相應信息,這一步雖有共性規(guī)律可循,但很多情況需要個別處理。筆者擬另撰文闡述其共性規(guī)律和處理個性情況的實踐經(jīng)驗。

      5 常用詞知識庫的總體設計與工程實踐

      在主要由部件詞構(gòu)成的常用詞表的基礎上建設常用詞知識庫,可以大大提高常用詞知識庫的有效性和常用詞知識庫的建設效率。

      常用詞表的構(gòu)造和常用詞知識庫的設計與實現(xiàn)可以并行進行,相互促進,因為最常用的一些詞(幾百個乃至幾千個)總會在常用詞表中。

      常用詞知識庫的框架結(jié)構(gòu)不妨仍繼承《現(xiàn)代漢語語法信息詞典》(GKB)和現(xiàn)代漢語語義詞典(CSD)的數(shù)據(jù)庫文件格式。

      常用詞知識庫可劃分為詞匯知識庫、句法知識庫、語義知識庫、構(gòu)詞規(guī)則庫、例句庫等五部分。常用詞知識庫的所有數(shù)據(jù)庫文件的第一個字段都是“詞語”。

      詞匯知識庫相當于GKB的總庫,可有選擇地繼承GKB總庫的內(nèi)容,將各類詞庫中的“釋義”字段移到這里,另增加一些字段,如“異形”、“變體”、“異讀”等。

      句法知識庫大體繼承GKB的各類詞的數(shù)據(jù)庫,字段也要有所拆分、刪節(jié),使其更精煉,同時吸收GKB以外虛詞知識庫、成語知識庫等的部分內(nèi)容。

      語義知識庫有選擇地繼承CSD和CLKB中的中文概念詞典CCD的內(nèi)容。

      構(gòu)詞規(guī)則庫反向利用部件詞拆分規(guī)則,構(gòu)造非部件詞的生成規(guī)則。

      例句庫匯集每個詞的若干典型例句,建立全息語料庫(每一個詞的各種詞法、句法、語義信息都參照其所在的上下文顯性地標注出來),為詞語屬性的計量研究做好準備。

      常用詞知識庫是一個浩大的語言工程。不過,基礎是堅實的,已有諸多成果可以集成。對于新增的任務,也有了相當多的工程實踐經(jīng)驗,如已拆分了數(shù)以萬計的非部件詞,為三萬多高頻詞語的每一個都選取了3~5個例句[13]。也做過全息語料庫的小規(guī)模試驗。

      6 結(jié)語與謝辭

      CLKB是ICL/PKU師生多年努力的成果,也得到中文信息處理學界同仁的扶植,不無僥幸地獲得2011年度國家科技進步獎二等獎。筆者衷心期望這項成果能繼續(xù)發(fā)展。常用詞語知識庫是值得關(guān)注的一個發(fā)展方向。限于精力和條件,筆者已經(jīng)不可能挑起這副重擔。幸運的是,魯東大學漢語辭書研究中心主任亢世勇教授和邱立坤博士已表示對合作研制常用詞知識庫有興趣。衷心期望常用詞知識庫的研制能成為有相同志趣者共同努力的目標,并為漢語詞匯語義學研究、為中文信息處理事業(yè)的發(fā)展做出貢獻。

      [1] 國家語言資源監(jiān)測與研究中心.《中國語言生活狀況報告》[M],北京: 商務印書館,2011.

      [2] 俞士汶, 穗志方,朱學鋒. 綜合型語言知識庫及其前景[J],中文信息學報,2011,25(6):12-20.

      [3] 俞士汶,朱學鋒,段慧明,等. 漢語詞匯語義研究及詞匯知識庫建設[J],語言暨語言學,2008,9(2):359-380.

      [4] 俞士汶,朱學鋒,支流. 基于計量研究的現(xiàn)代漢語常用詞庫的構(gòu)建[C],張普、王鐵琨主編《中國語言資源論叢》,北京: 商務印書館,2009:289-301.

      [5] 《現(xiàn)代漢語常用詞表》課題組.《現(xiàn)代漢語常用詞表(草案)》[M],北京: 商務印書館,2008.

      [6] 北京語言學院語言教學研究所編.《現(xiàn)代漢語頻率詞典》[M],北京: 北京語言學院出版社,1986.

      [7] 劉源,譚強,沈旭昆.《信息處理用現(xiàn)代漢語分詞規(guī)范及自動分詞方法》[M],北京: 清華大學出版社,1994.

      [8] 俞士汶,段慧明,朱學鋒,等. 北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J],中文信息學報,2002,16(5),49-64.

      [9] 俞士汶,朱學鋒,王惠,等.現(xiàn)代漢語語法信息詞典詳解[M],第二版,北京: 清華大學出版社,2003.

      [10] 王惠,詹衛(wèi)東,俞士汶. 現(xiàn)代漢語語義詞典規(guī)范[J],漢語語言與計算學報,2003,13(2):159-176.

      [11] 張化瑞.以均根勻度為中心的語言信息計量研究[D],北京大學博士學位論文,2010.

      [12] 王萌. 面向概率型詞匯知識庫建設的名詞語言知識獲取[D],北京大學博士學位論文,2010.

      [13] 朱學鋒,張化瑞,段慧明,等.《漢語高頻詞語法信息詞典》的研制[J],語言文字應用,2004,3:98-104.

      Quantitative Lexicon Study and Knowledge Base Construction for Commonly Used Words

      YU Shiwen1,2, ZHU Xuefeng1

      (1. Key Laboratory of Computational Linguistics (Peking University), Ministry of Education Institute of Computational Linguistics, Peking University, Beijing 100871; 2. Jiangsu Collaborative Innovation Center for Language Ability, Xuzhou, Jiangsu 221009, China)

      Natural language processing oriented lexical semantics researches should be based on quantitative study of the lexicon. After a brief suvey on the main achievements of the quantitative Chinese lexicon, this paper proposes a project to build a knowledge base of commonly used words, for which we describe 1) a constructive definition of commonly used words list, 2) a quantitative method to measure the coverage of a given word list over an annotated corpus, and 3) the concept of “component word”. We also introduce the overall designs of the knowledge base and the current progress of this project. It is expected that the construction of such a knowledge base can contribute to the Chinese lexical semantics researches and the development of Chinese information processing.

      knowledge base of Chinese commonly used words;LanguageSituationinChina; comprehensive language knowledge base;GrammaticalKnowledgebaseofContemporaryChinese; component word

      俞士汶(1938-),教授,主要研究領域為計算語言學,語言知識庫。E?mail:yusw@pku.edu.cn朱學鋒(1937-),副教授,主要研究領域為計算語言學,語言知識庫。E?mail:yusw@pku.edu.cn

      1003-0077(2015)03-0016-05

      2013-04-08 定稿日期: 2013-07-15

      國家重點基礎研究發(fā)展計劃(2014CB340504);國家自然科學基金(61272221,61170163)

      TP391

      A

      猜你喜歡
      常用詞義項知識庫
      “玄”“懸”二字含義不同
      鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
      常用詞“怠”“惰”“懶”的歷時演變
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設計中的應用
      小心兩用成語中的冷義項
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      常用詞“開、辟”在“開闊”義上的演變替換
      基于Drupal發(fā)布學者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      兩用成語中的冷義項
      知識窗(2015年1期)2015-05-14 09:08:17
      Enhanced Precision
      Beijing Review(2012年37期)2012-10-16 02:24:10
      外語教學中的非詞語化現(xiàn)象研究*——以常用詞gain, run 為例
      外語學刊(2010年4期)2010-01-22 03:34:02
      原平市| 屯昌县| 察雅县| 修水县| 鄱阳县| 三门峡市| 府谷县| 安仁县| 宜丰县| 扎鲁特旗| 双柏县| 确山县| 洪雅县| 五寨县| 镇原县| 黄龙县| 贵定县| 伊川县| 桃园县| 黎平县| 五寨县| 临江市| 贞丰县| 莱阳市| 普兰店市| 当涂县| 无棣县| 鸡东县| 郑州市| 格尔木市| 海安县| 肇东市| 商都县| 信宜市| 永济市| 东台市| 凌云县| 邢台县| 福州市| 奉节县| 沾益县|