邱立坤,趙 慧,俞士汶,朱學鋒
(1. 魯東大學 文學院,山東 煙臺 264025;2. 北京大學 計算語言學教育部重點實驗室,北京 100871;3. 語言能力協(xié)同創(chuàng)新中心,江蘇 徐州 221009)
《現(xiàn)漢》與《語法信息詞典》詞類對應分析
邱立坤1,趙 慧1,俞士汶2,3,朱學鋒2
(1. 魯東大學 文學院,山東 煙臺 264025;2. 北京大學 計算語言學教育部重點實驗室,北京 100871;3. 語言能力協(xié)同創(chuàng)新中心,江蘇 徐州 221009)
詞類標注問題歷來受到中文信息處理、漢語語法和詞匯學界的共同關注,學者們已提出多種詞類標記體系,彼此間存在較大差異,但迄今尚無人對大規(guī)模詞類標注工程進行系統(tǒng)比較。該文以《現(xiàn)代漢語詞典》第5版和《現(xiàn)代漢語語法信息詞典》兩個大型詞典詞類標注工程為比較對象,基于所提出的詞類對應算法,自動找出兩部詞典詞類標注上的差異,進而對形成差異的原因進行分析。分析結果表明,兩部詞典詞類標注一致性較高(83.5%完全相同),而存在差異的地方可歸結為三類主要原因: 詞類遷移;詞類判斷標準不一致;收錄義項不同。
現(xiàn)代漢語詞典;現(xiàn)代漢語語法信息詞典;詞類標注;詞類對應
從《馬氏文通》[1]開始,我國語言學家就已認識到標注詞類的目的是為了說明句法組合關系: 同類的詞往往具有相同的句法功能,把數(shù)以萬計的詞歸成若干類,就可以以此為基礎說明語法規(guī)則,比如名詞可以做主賓語、動詞可以充當謂語、形容詞可以受程度副詞修飾等。因此,詞類體系及詞類劃分的標準就成為現(xiàn)代漢語語法研究的基礎性問題。20世紀50年代國內漢語學界就詞類問題進行了一次大討論,主要涉及漢語有無詞類,以及依據(jù)何種標準劃分詞類等問題[2]。20世紀80年代以來,詞類問題仍然是受到漢語學界關注的一個熱點問題,呂叔湘、朱德熙先生的詞類體系和詞類劃分標準[3-4]為多數(shù)學者所接受,其他代表性觀點有原型范疇說[5]、表述功能說[6]等。
進入21世紀以來,有數(shù)項涉及詞類劃分的語言工程得以實施并向學界公布其成果。語料庫詞類標注是動態(tài)的詞類標注,通常依據(jù)上下文為兼類詞選擇合適的詞類,這方面的詞類標注工程包括北京大學《人民日報》詞語切分和詞性標注語料庫[7]、教育部語言文字應用研究所詞語切分和詞性標注語料庫[8]。詞典詞類標注是靜態(tài)的詞類標注,以詞典中收錄的詞語為對象,將每個詞語歸入一個或多個合適的詞類,這方面的詞類標注工程包括《現(xiàn)代漢語詞典》第5版[9-10]和第6版、北京大學現(xiàn)代漢語語法信息詞典(電子版)[11]。上述動態(tài)詞類標注工程對數(shù)以千萬詞計的文本進行基于上下文的詞類標注,靜態(tài)詞類標注工程則對數(shù)以萬計的詞語進行詞類劃分。
迄今為止,漢語詞類問題仍然是一個頗有爭議的問題。從不同的角度去看詞類問題,所看到的難點和爭議是不同的。從語言學的角度看,漢語詞類問題的焦點是名物化及相關問題[12-13],側重靜態(tài)詞類劃分;從計算機詞類標注的角度看,漢語詞類問題的焦點是常用兼類詞和未登錄詞的標注,名物化問題也是兼類詞標注中的一個重點和難點所在,更側重動態(tài)詞類標注[14-15]。
本文不涉及詞類劃分標準的理論討論,而是試圖通過對兩項詞典詞類標注工程——《現(xiàn)代漢語詞典》第5版[以下簡稱DCC(Dictionary of Contemporary Chinese)]和北京大學現(xiàn)代漢語語法信息詞典[電子版,以下簡稱GKB(Grammatical Knowledge-Base Dictionary of Contemporary Chinese)]的整體比較,求同存異,通過定量分析弄清楚靜態(tài)詞語歸類的分歧有多大,分歧(詞類對應)的種類有多少,各自的原因是什么。
本文剩余部分組織如下: 第二節(jié)提出一個用于求同存異的自動對應算法,基于該算法對DCC和GKB進行比較,將詞類相同的和不同的對應實例分開來,進而依據(jù)詞類數(shù)量是否相等將詞類不同的對應實例區(qū)分為兩類;第三節(jié)和第四節(jié)分別對兩類對應實例進行分析;最后是結語。
DCC和GKB是兩個代表性的詞類標注工程,其表現(xiàn)形式均為靜態(tài)的詞語歸類,涉及數(shù)萬個詞語,每個詞語被歸入一個或多個詞類。對DCC和GKB的詞類標注結果建立對應關系時,第一步是建立兩者詞類體系的對應,第二步則是建立詞語級的對應。通過詞類對應工作,可以揭示出兩部詞典詞類劃分結果的分歧。
2.1 詞類體系對應關系
正如Qiu等[16]所說,DCC和GKB的詞類體系大體上是一致的。GKB的基本詞類數(shù)為18類,包括名詞(n)、動詞(v)、形容詞(a)、數(shù)詞(m)、量詞(q)、代詞(r)、副詞(d)、介詞(p)、連詞(c)、助詞(u)、嘆詞(e)、擬聲詞(o)、時間詞(t)、方位詞(f)、處所詞(s)、區(qū)別詞(b)、狀態(tài)詞(z)、語氣詞(y)。DCC的基本詞類為12個,正好是上述18個詞類中的前12個;DCC的名詞、形容詞又分別有附類時間詞、方位詞、屬性詞、狀態(tài)詞,正好與GKB中的時間詞、方位詞、區(qū)別詞、狀態(tài)詞相對應。GKB的詞類中僅有處所詞和語氣詞在DCC中沒有獨立的詞類或附類與之對應。
此外,GKB和DCC中還收錄了小于詞的單位(語素)和大于詞的單位(成語、習用語、縮略語等)。GKB對成語、習用語、縮略語和語素的標記分別為i、l、j、g,并且對語素進一步區(qū)分名語素(Ng)、動語素(Vg)、形語素(Ag)、副語素(Dg)等。DCC沒有為不成詞語素、成語、習用語、固定詞組和其他熟語標注詞類。DCC中動詞下還有助動詞和趨向動詞兩個附類,本研究中暫不考慮這兩個附類。
整體上,GKB中有40個詞類標記: 18個基本詞類標記,三個大于詞的單位標記,一個標點符號標記(w),非語素字標記(x),前接成分標記(h)和后接成分標記(k),15個語素細分類標記;DCC中有17個詞類標記: 16個基本詞類標記,一個語素標記。
2.2 個體詞語詞類對應關系
個體詞語間的詞類對應關系可分為四種情況: ①義項相同,詞類相同;②義項不同,詞類相同;③義項相同,詞類不同;④義項不同,詞類不同。由于義項對應工作量過大,有必要對問題進行適當簡化。本文的研究目標是找出詞類劃分差異即第③種對應。為實現(xiàn)這一目標,我們的策略是: 首先找出詞類不同的對應關系(含第③和第④種對應),接下來再依據(jù)義項是否相同對詞類不同的對應關系進一步區(qū)分;前一步自動進行,后一步人工進行。前一步中所使用的詞類對應關系判定規(guī)則為:
如果某詞語w在GKB中被歸入詞類t,在DCC中也被歸入詞類t,則可以認為兩個詞典中該詞語在詞類t上對應成功,判斷為詞類相同;
反之,如果詞語w僅在一個詞典中被歸入詞類t,則兩個詞典中該詞語在詞類t上對應失敗,判斷為詞類不同。
基于上述規(guī)則找出的詞類劃分差異(對應失敗)分屬于上述第③和第④兩種情況,即義項可能相同,也可能不同。第④種情況本質上屬于義項收錄差異,并不屬于詞類劃分差異,相對于第③種對應所占比例較小。通過人工判斷義項是否相同,可以將第③、④兩種情況區(qū)分開來,對義項不同的現(xiàn)象予以特別說明(稱之為偽對應),將之與事實上的不等值對應現(xiàn)象(稱之為真對應)區(qū)分開來。
2.3 自動對應算法
基于上述分析,本文的自動對應算法如下。
遍歷兩個詞典中的所有共有詞語,設當前詞語為w:
(1) 如果詞語w在DCC中沒有詞類標記,在GKB中詞類標記為“i”或者“l(fā)”,則將該詞語歸入第一類,對應結束;
(2) 如果詞語w在兩個詞典中的詞類標記數(shù)量不相等,則對應失敗,將該詞語歸入第四類,對應結束。
(3) 如果詞語w在兩個詞典中的詞類標記數(shù)量相等,則遍歷GKB中w的所有詞類標記,設當前標記為tg:
① 如果tg為i、j、l、g、x五個標記中的一個,則對應成功,繼續(xù)處理下一個詞類標記;
② 如果DCC中w的詞性標記中包含tg,則對應成功,繼續(xù)處理下一個詞類標記;
③ 否則,遍歷DCC中w的所有詞類標記,設當前標記為tc:
(a) 如果tc為標記“g”,則對應成功,繼續(xù)處理下一個詞類標記;
(b) 如果GKB中w的詞性標記中也含有tc,則對應成功,繼續(xù)處理下一個詞類標記;
(c) 否則,對應失敗,將該詞語歸入第三類,對應結束;
如全部詞類標記均已遍歷完畢且未遇到對應失敗,則將該詞語歸入第二類,對應結束。
使用上述算法對DCC和GKB進行對應之后,可以將兩者共有詞語分為四類,分別稱為無標記類(第一類,DCC中無詞類標記)、等值對應類(第二類,詞類標記一一對應)、等數(shù)不等值對應類(第三類,詞類標記數(shù)量相等,但不能一一對應)、不等數(shù)不等值對應類(第四類,詞類標記數(shù)量不相等)。
2.4 自動對應結果
不考慮同形詞(漢字相同)的區(qū)分,DCC中詞語數(shù)量為61 992(含單字詞和不成詞語素),GKB中詞語數(shù)量為74 148,兩者共有詞數(shù)為46 741。使用自動對應算法進行對應之后,將共有詞語分為四類,其數(shù)量分別為4 926、36 586、1 584、3 645,如表 1所示。無標記類在DCC中沒有詞類標記,本文中不對之進行深入分析。
表1 GKB和DCC詞類對應結果
等值對應類(第二類)數(shù)量最多,占78.3%;如果不考慮無標記類的話,第二類占比將達到83.5%。這說明兩部詞典中大部分詞語詞類標記是完全對應的。等值對應的詞語詞類數(shù)量的分布為: 34 844個詞的詞類數(shù)為1,1 525個詞的詞類數(shù)為2,171個詞的詞類數(shù)為3,34個詞的詞類數(shù)為4,10個詞的詞類數(shù)為5,1個詞的詞類數(shù)為6,1個詞的詞類數(shù)為7。其中,詞類數(shù)為6和7的詞分別為“重”和“和”。在DCC中兩者的詞類分別為: ['a', 'd', 'g', 'n', 'q', 'v'] 和['a', 'c', 'g', 'n', 'p', 'q', 'v']。在GKB中兩者的詞類分別為: ['Ng', 'a', 'd', 'n', 'q', 'v'] 和['Ag', 'Ng', 'c', 'n', 'p', 'q', 'v']。對比之下,可以發(fā)現(xiàn),在DCC中兩個詞均有部分義項標記為g,我們的對應規(guī)則對g進行了模糊對應,因此可以將“重”和“和”識別為等值對應。
值得注意的是,等值對應并不意味著詞類劃分就沒有任何爭議,比如“機要”一詞,兩個詞典中均歸為區(qū)別詞。DCC中的釋義為“機密重要的”,所舉的例子有“~工作”、“~部門”、“~秘書”。“機要工作”和“機要部門”可以理解為“機密重要的工作”和“機密重要的部門”,但“機要秘書”并不宜理解為“機密重要的秘書”,而應為“處理機密重要事務的秘書”,其中的“機要”與“參與軍政機要”中的“機要”相同,均指“機密重要的事務”。因此,“機要”應兼屬名詞和區(qū)別詞。但是,這種有問題的詞類劃分是比較罕見的。
在絕大多數(shù)情況下,等值對應意味著兩個詞典對詞語詞類做出相同的劃分,而不等值對應意味著兩個詞典在詞類劃分上存在分歧,本文接下來將重點分析包含在等數(shù)不等值對應和不等數(shù)不等值對應中的分歧。
當兩個詞類標記數(shù)量相等,但不能一一對應時,先把能夠對應上的詞類挑出來,將剩下的詞類標記當作關鍵字,從而可以將等數(shù)不等值對應類進行細分。據(jù)此,可以將等數(shù)不等值對應類詞語進一步分為101小類??紤]到篇幅原因,本文未對GKB中標記為不成詞語素的情況進行分析,僅涉及剩余的70小類,如表 2所示(見下頁)*完整對應列表可從http://pan.baidu.com/s/1c1zNcZY下載。。表2有兩列。第一列是對每個小類的描述,以逗號將各屬性分開,分別表示GKB中的詞類、DCC中的詞類、該小類詞語數(shù)(從1到268不等)、例詞(至多給出三個)。該表格以GKB詞類代碼的升序排列,再以詞語數(shù)降序排列;第二列是下面劃分的對應關系類別的編號。以表2中的第一個小類為例,該類的描述為“a,v,101,多疑、夠格、畏難”,表示GKB中的詞性為“a”,DCC中的詞性為“v”(GKB中歸為形容詞,而DCC中標為動詞),此類詞的數(shù)量為101個,例詞為“多疑、夠格、畏難”。該小類的對應關系類別編號是31,即屬于增加遷移型。
進一步分析表 2,可以發(fā)現(xiàn)其中的對應關系形成不等值對應的原因各不相同,可以分成四種類型,第三、四類還可以進一步分成幾個小類。
第一類,覆蓋型對應(表 2中標記為1)。這一類是因為兩種體系詞類粒度大小不同造成的,一個體系的某一詞類對應著另一個詞類體系中某一詞類的并未明確劃分出來的子類。有兩個小類屬于此種對應: “y,u,16,呀、哇、嘛”表示GKB中的語氣詞實際對應DCC中助詞的某個子類;“s,n,78,天底下、暗地里、路上”表示GKB中的處所詞實際對應DCC中名詞的某個子類。
第二類,偽對應(標記為2)。這一類對應是因為詞語在兩部詞典中的義項不同(即不具有同一性)造成的,這些小類所涉及的詞語通常較少。例如,“y,n,1,也”,在兩部詞典中“也”均有助詞詞類,在DCC中“也”有多個助詞義項,其中一個對應GKB的語氣詞,但是均被我們的算法視為等值對應(助詞對應助詞),使得GKB中的語氣詞對空了,DCC中恰好又多出一個“也”充當姓氏的名詞義項,從而產(chǎn)生了“y,n”對應。兩者義項不同,因此是一個偽對應。屬于此類的還有“u,m,1,一般”,“q,d,1,輪次”,“s,v,1,上身”,“f,v,1,頂頭”,“h、j,g、n,1,以”,“j、v、x,g、n、q,1,摩”,“k,n,1,者”,“m,d,1,左右”等。
第三類,遷移型對應(標記為3)。這一類對應是因為某一類詞功能正在變化之中,朝另一個詞類遷移所形成的。根據(jù)遷移后功能增加還是減少,可以進一步分為增加遷移型和減少遷移型。
增加遷移型(標記為31)在遷移過程中原有功能繼續(xù)保持,同時增加新的功能。比如某些名詞本身具有一定的描述性語義特征,可以受程度副詞修飾,逐漸向形容詞遷移[17-18]。這些詞在遷移之后,原本的語法功能通常會保留下來,屬于增加遷移型的小類包括: “a,v,101,多疑、夠格、畏難”屬于動詞向形容詞遷移,“a,b,9,根本、新式、優(yōu)質”屬于區(qū)別詞向形容詞遷移,“a,n,7,熱忱、廉價、清香”屬于名詞向形容詞遷移,等等。
減少遷移型(標記為32)在遷移過程中并不增加新的功能,而是主要功能退化成次要功能或者完全消失,使得次要功能成為主要功能。例如,某些動詞性結構或動詞在遷移過程中主要充當狀語,很少充當謂語,從而逐步向副詞遷移。屬于減少遷移型的小類包括: “b,n,38,五金、狹義、鴨黃”屬于名詞充當主賓語的功能弱化,“b,v,26,死難、開國、離心”屬于動詞充當謂語的功能弱化,“d,v,49,縱步、擇優(yōu)、即席”屬于動詞充當謂語的功能弱化,“d,a,28,團團、悍然、颯然”屬于形容詞充當謂語的功能弱化,“d,n,22,起首、冷眼、近來”屬于名詞充當主賓語的功能弱化,“n,v,133,農(nóng)墾、言教、海蝕”屬于動詞性結構充當謂語的功能弱化,等等。
第四類,標準不一型(標記為4)。這一類對應產(chǎn)生的原因是因為兩個詞類體系判斷詞類的標準不一致。根據(jù)不一致的具體情況可以進一步分為是否依據(jù)句法功能標準、是否嚴格依據(jù)句法功能標準、標準是否嚴密三種情況。
是否依據(jù)句法功能標準(標記為41)指的是該詞類的判斷是否依據(jù)句法功能標準,有沒有采用諸如意義之類的標準。例如,擬聲詞(DCC中的定義為“模擬事物或動作的聲音的詞”)是依據(jù)語音形式確立的詞類,數(shù)詞(DCC中的定義為“表示數(shù)目的詞”)是依據(jù)意義確立的詞類,代詞根據(jù)它所指代對象的功能來確定類別,這些詞類均不是依據(jù)句法功能標準確立的。
是否嚴格依據(jù)句法功能標準(標記為42)指的是雖然依據(jù)句法功能標準確定某個詞類,但是在具體操作時沒有嚴格依照該標準。例如,DCC和GKB均采用“能夠受程度副詞修飾”這一標準來判定形容詞,但是在執(zhí)行的嚴格程度上不一致。GKB嚴格依據(jù)這一標準。DCC中形容詞還包括屬性詞和狀態(tài)詞兩個附類,這兩個附類都是不能受程度副詞修飾的,因而在判定詞類時沒有嚴格執(zhí)行這一標準,例如,“b,a,70,銀灰、湖藍、銀白”即屬于此種情況。忽略了某種句法功能也屬于此類,例如,“z,b,1,全優(yōu)”這一對應是因為DCC中忽略了“全優(yōu)”可以充當謂語這一功能造成的。
表 2 等數(shù)不等值對應細分類
m,n,6,片時、萬代、見方41m,a,5,多樣、少許、諸多41m,v,1,掛零41m,f,1,開外41m,d,1,左右2n,v,133,農(nóng)墾、言教、海蝕32n,a,38,氣虛、俚俗、大忙31n,b,25,嫡堂、橫向、微觀32n,q,2,屈光度、弧度2n,d,1,偏好2o,v,1,嘀嗒41o,e,1,哼唷41o,a,1,鏗鏘31p,v,3,距離、向著、憑借32p,c,1,連同42q,n,4,周年、華里、鎊42q,d,1,輪次2r,n,22,他鄉(xiāng)、他日、足下41r,d,3,緣何、何故、為何41r,u,1,什么的41r,b,1,別樣41s,n,78,天底下、暗地里、路上1s,v,1,上身2s,a,1,中空2
t,n,268,霎時、中旬、歸期43t,v,5,開春、數(shù)九、天明43u,v,2,起見、在內32u,m,1,一般2v,a,110,安生、可惜、萎蔫31v,n,59,小考、空翻、神算32v,d,13,總共、徒步、趕早32v,b,10,連鎖、必修、固有32v,c,2,加上、借以2v,r,1,干嗎41v,p,1,除開32v,o,1,呢喃41v、z,a、d,1,儼然—x、y,g、u,5,唄、啦、哪1y,u,16,呀、哇、嘛1y,n,1,也2z,a,234,依依、平平、滾滾42z,v,19,闌珊、刺骨、沖天41z,o,2,颯颯、瑯瑯41z,d,2,連連、頻頻42z,n,1,琳瑯42z,b,1,全優(yōu)42
標準是否嚴密(標記為43)指的是所定的標準是否對外有排他性。例如,DCC中方位詞的判定標準是“能夠附著在名詞的后面構成方位詞組,方位詞組能夠做‘在、到、往’的賓語,部分方位詞還能夠直接做‘在、到、往’的賓語”,依據(jù)這一標準,典型的方位詞“上、下、前、后”等沒有爭議,但是容易與諸如“后期、外圍、沿途”之類的詞產(chǎn)生糾葛。屬于此類的還有“f,n,50,后期、外圍、沿途”“m,f,1,開外”。
表 2中將70個小類歸入了上述四個類型(少數(shù)小類涉及多個類型,暫未歸類,標記為“—”)。屬于覆蓋型對應的只有三個小類。屬于偽對應的有13個小類,但每個小類詞語均較少。大多數(shù)小類屬于第三和第四類。第三類主要涉及形容詞、區(qū)別詞、動詞、名詞四個詞類,第四類則主要涉及狀態(tài)詞、嘆詞、擬聲詞、方位詞、數(shù)詞、代詞、時間詞等詞類。由此可以看出,多數(shù)差異的成因可以歸結為詞類遷移和詞類判斷標準不一致。
依據(jù)與上節(jié)類似的方法可以將不等數(shù)不等值對應類詞語細分為421個小類。在不等數(shù)不等值對應中,如果一個詞在A詞典中的全部詞類都在B詞典中找到了對應詞類,而且B詞典中多出一個以上的詞類,就會導致對空的情況出現(xiàn),我們稱之為B詞典對空。在不等數(shù)不等值對應中,對空的小類為67個,覆蓋1 918個詞,占不等數(shù)不等值對應類詞語的52.6%。
去掉GKB中標記為不成詞語素的情況,剩余151個小類,覆蓋2 081個詞;其中對空的小類為57個,覆蓋1 890個詞,占151個小類詞語的90.8%。
表 3中給出了部分示例。
表 3 不等數(shù)不等值對應示例
f、s,n,8,后方、南方、北方f、t,n,1,最后i,b、n,1,清一色i,a、n,1,零七八碎j,b、n,2,短平快、環(huán)保t,n、v,5,當前、立春、立冬t,空,3,春秋、青年、雨水t,a、n,1,清明u,空,2,不過、一樣v,空,53,祝辭、空缺、明晰v,g、n,8,戀、即、掬v,b、n,2,高產(chǎn)、主導v,a、n,2,反感、喜慶v,a、d,2,可能、順道v,a、g、n,1,淘v,a、c,1,相反y,u、v,1,罷了y,n、u,1,兮y,a、u,1,得了y,a、u、v,1,不成z,a、d,4,等閑、正好、篤定z,d、v,2,依舊、依然z,a、o,2,蕭蕭、蕭瑟
z,a、n,2,上乘、孤寡z,d、n,1,絕頂z,b、v,1,漫天z,b、n,1,錦繡空,n,441,早已、警覺、體面空,v,387,開心、呱唧、蘑菇空,g,256,河、拂、配空,a,223,平定、縱橫、開展空,b,90,什錦、機制、機關空,d,68,大事、好賴、大小空,g、n,61,截、擇、闊空,q,12,把子、方寸、方丈空,c,10,惟有、鑒于、何如空,a、n,8,下飯、慢性、長年空,a、v,6,隱秘、冤屈、羅鍋空,n、v,4,狠心、矛盾、熱鬧空,m,4,萬般、百般、一度空,g、q,4,版、背、莖空,d、n,4,多少、每、正經(jīng)空,b、v,4,具體、經(jīng)濟、朝陽空,a、g,4,逗、團、豎
首先看對空的情況。DCC對空的小類為38個,覆蓋1 613個詞;GKB對空的小類為19個,覆蓋277個詞。比較之下,DCC對空的情況要遠遠多于GKB對空的情況。DCC對空的情況多數(shù)是因為DCC中收錄了更多的義項造成的。比如DCC中“告白”兼收名詞和動詞,前者指“(機關、團體或個人)對公眾的聲明或啟事”,后者指“說明;表白”;GKB中則漏收了后一個義項。又如GKB中漏收了“印記”的動詞用法,DCC中的釋義為“把印象深刻地保持著”。漏收的義項中,有的是現(xiàn)代漢語中比較常用的義項(如“告白”的動詞用法),有的則是偏文言或書面的用法(如“印記”的動詞用法)。
GKB對空的情況相對較少。其中有些是因為GKB收錄了更多的用法造成的,比如“d,空,65,公費、頭等、通?!边@一類中多數(shù)是因為GKB中考慮了這些詞語充當狀語的用法,而DCC中沒有涉及這些用法。還有一些是因為歸類標準問題。比如“a,空,23,普及、權威、壓抑”類中“普及、壓抑”等詞受程度副詞修飾時不能帶賓語,GKB因此將之歸為動形兼類,而DCC將之統(tǒng)一為動詞,兩者所用的判斷標準不一致。
對空的情況可以根據(jù)等值對應的詞類做進一步分類。比如“空,a,223,平定、縱橫、開展”可以進一步分為: “v,114,鼓舞、飄浮、鞠躬”(兩詞典中的相同詞類為v,后同),“t,1,后來”,“n,93,高壽、馬大哈、馨香”,“d,11,順腳、霍然、正巧”等幾種情況。在這幾種情況中,DCC中均多出一個形容詞的詞類。
其次看非對空的情況。此類情況涉及詞語總量較少(191詞),每個類別涉及的詞語多數(shù)只有一個或兩個,需要一一具體分析。受篇幅限制,本文暫不對對空的情況和非對空的情況進行詳細分析。
總體而言,不等數(shù)不等值對應與等數(shù)不等值對應的情況有較大差異: 等數(shù)不等值對應大多數(shù)是因為詞類處于遷移狀態(tài)或者詞類判斷標準不一致造成的,不等數(shù)不等值對應大多數(shù)則是因為詞典所收錄的義項不一致而形成的。比較之下,等數(shù)不等值對應只涉及詞類問題本身,而不等數(shù)不等值對應則更多地涉及詞義問題。
本文考察了《現(xiàn)代漢語詞典》和《語法信息詞典》在詞類劃分上的異同, 重點對兩者詞類劃分存在差異的地方進行了分析。分析結果表明: ①兩部詞典大部分(83.5%)共有詞語的詞類標記是相同的;②存在差異的地方一部分是因為收錄的義項不同而造成的,涉及詞義問題,不是單純的詞類問題;③只有一小部分差異是因為詞語語法功能處于變化之中或者詞類判斷標準不一致而產(chǎn)生的,屬于單純的詞類問題。后者應該是詞類問題研究的重點所在,我們將在今后的工作中對相關詞語逐一進行分析,以更清晰地揭示漢語詞類問題的分歧,進而建立更為完善的詞類標記體系。
[1] 馬建忠. 馬氏文通[M]. 北京: 商務印書館, 1998.
[2] 邵敬敏. 漢語語法專題研究[M]. 北京: 北京大學出版社, 2009.
[3] 呂叔湘. 漢語語法分析問題[M]. 北京: 商務印書館, 1979.
[4] 朱德熙. 語法講義[M]. 北京: 商務印書館, 1982.
[5] 袁毓林, 馬輝, 周韌, 等. 漢語詞類劃分手冊[M]. 北京: 北京語言大學出版社, 2009.
[6] 郭銳. 現(xiàn)代漢語詞類研究[M]. 北京: 商務印書館, 2002.
[7] 俞士汶,段慧明,朱學鋒,等. 北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 中文信息學報, 2002,16(5): 49-64.
[8] 靳光瑾,肖航,富麗,等. 現(xiàn)代漢語語料庫建設及深加工[J]. 語言文字應用, 2005(2): 111-120.
[9] 中國社會科學院語言研究所詞典編輯室. 現(xiàn)代漢語詞典[M]. 第5版. 北京: 商務印書館,2005.
[10] 徐樞, 譚景春.關于《現(xiàn)代漢語詞典(第5版)》詞類標注的說明[J]. 中國語文, 2006(1): 74-86.
[11] 俞士汶, 朱學鋒,等. 現(xiàn)代漢語語法信息詞典詳解[M]. 第2版. 北京: 清華大學出版社,2003.
[12] 沈家煊. 我只是接著向前跨了半步: 再談漢語里的名詞和動詞[J]. 語言學論叢, 2009, 40: 3-22.
[13] 沈家煊, 樂耀. 詞類的實驗研究呼喚語法理論的更新[J]. 當代語言學, 2013(3): 253-267.
[14] 劉一佳, 車萬翔, 劉挺, 等.基于序列標注的中文分詞、詞性標注模型比較分析[J].中文信息學報, 2013,27(4): 30-37.
[15] 王麗杰, 車萬翔, 劉挺. 基于SVMTool的中文詞性標注[J]. 中文信息學報, 2009,23(4): 16-22.
[16] QIU Likun, ZAN Hongying, ZHU Xuefeng, YU Shiwen. A Preliminary Contrastive Study on the Part-of-Speech Classifications of Two Lexicons[C]//Proceedings of CLSW 2015, 2015: 516-523.
[17] 施春宏. 名詞的描述性語義特征與副名組合的可能性[J]. 中國語文, 2001(3): 212-224.
[18] 俞士汶, 段慧明, 朱學鋒.詞語兼類暨動詞向名詞漂移現(xiàn)象的計量分析[C]. 孫茂松, 陳群秀.自然語言理解與大規(guī)模內容計算. 北京: 清華大學出版社, 2005: 70-76.
[19] 趙慧.《現(xiàn)代漢語詞典》與《現(xiàn)代漢語語法信息詞典》詞類標注比較研究[D].魯東大學碩士學位論文,2016.
邱立坤(1979—),博士,副教授,主要研究領域為計算語言學、語料庫語言學。
E-mail: qiulikun@gmail.com
趙慧(1989—),碩士研究生,主要研究領域為計算語言學。
E-mail: 353607498@qq.com
俞士汶(1938—),教授,主要研究領域為計算語言學、語言知識庫。
E-mail: yusw@pku.edu.cn
AnalysisofParts-of-speechCorrespondenceBetweenDCCandGKB
QIU Likun1, ZHAO Hui1, YU Shiwen2, 3, ZHU Xuefeng2
(1. School of Chinese Language and Literature, Ludong University, Yantai, Shandong 264025, China;2. Key Laboratory of Computational Linguistics at Peking University, Ministry of Education, Beijing 100871, China;3. Collaborative Innovation Center for Language Ability, Xuzhou, Jiangsu 221009, China)
Part-of-speech annotation has attracted extensive attention from the areas including Chinese information processing, Chinese grammar study and Chinese lexicographer. Multiple part-of-speech systems have been proposed and there are significant differences between these systems. So far, little research has been done to systematically compare different large-scale part-of-speech annotations. Based on the part-of-speech annotation results in Dictionary of Contemporary Chinese and Grammatical Knowledge-Base Dictionary, this paper proposes a mapping algorithm, which can detect part-of-speech differences in two dictionaries automatically. Further, we analyze the differences and conclude in two perspectives. 1) about 83.5% of the part-of-speech annotation results is identical. and 2) all the differences can be attributed to three effects: part-of-speech shifting, different part-of-speech annotation standards and different senses.
Dictionary of Contemporary Chinese; Grammatical Knowledge-Base Dictionary; part-of-speech annotation; part-of-speech correspondence
1003-0077(2017)05-0001-07
TP391
A
2017-03-03定稿日期2017-05-10
國家自然科學基金(61572245);國家重點基礎研究發(fā)展計劃(2014CB340504);國家社會科學基金(15BYY094)