劉 揚,林 子,康司辰
(1.北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京 100871;2.北京大學(xué) 計算語言學(xué)研究所,北京100871;3.北京大學(xué) 中國語言文學(xué)系,北京 100871)
在漢語中,存在著“語素、詞、短語、句子”等由小到大的語言單位和層級結(jié)構(gòu),而語素構(gòu)詞更是漢語的特點。作為基礎(chǔ)的符號單位,語素及其意義,以及此上的構(gòu)詞分析和意義表達,既是漢語語義分析的起點,也是計算機理解詞義的關(guān)鍵。
在研究構(gòu)詞結(jié)構(gòu)時,人們很早就注意到了漢語詞法與句法的平行性,漢語中的由字組詞、由詞造句的過程遵循同一原則。趙元任[1]認為構(gòu)詞成分之間存在造句關(guān)系。此后,陸志韋[2]、朱德熙[3]、王洪君[4]等指出,復(fù)合詞內(nèi)部的結(jié)構(gòu)關(guān)系和句法結(jié)構(gòu)是類似的。這在漢語詞的歷時形成過程中亦可找到解釋。董秀芳指出[5],現(xiàn)代漢語中的多字詞多是古漢語單字詞短語詞匯化的產(chǎn)物,一些復(fù)合詞的前身即是自由的句法組合。另一方面,考慮構(gòu)詞結(jié)構(gòu)下的成分與整體,語素義與詞義在某種程度上顯然是關(guān)聯(lián)的。徐通鏘[6]分析漢語社團的思維方式與編碼機制,強調(diào)漢語作為語義型語言,字的表義性是其內(nèi)在結(jié)構(gòu)基礎(chǔ)。此外,符淮青[7]、周薦[8]等也注意到了漢語詞的意合特征,認為漢語中的語素義和詞義之間具有很強的推導(dǎo)性。這表明,探究漢語的語素構(gòu)成及其意義系統(tǒng),以及在此基礎(chǔ)上的語義構(gòu)詞分析有扎實的理論基礎(chǔ)和潛在的應(yīng)用價值。
從自然語言處理的實踐看,此前漢語的句法及語義分析一直居于主流地位,但是對語素、詞法和意義的系統(tǒng)化的構(gòu)建和分析工作還很欠缺。目前,關(guān)于語素與構(gòu)詞分析方面的研發(fā)工作主要包括以下幾項:
(1) 清華大學(xué)苑春法的“漢語語素數(shù)據(jù)庫”[9],以語素描寫和構(gòu)詞分析為核心,覆蓋常見漢字的語素項信息,包括語法類、語素義的刻畫,并對語素項構(gòu)成的漢語詞進行了結(jié)構(gòu)描述和意義綁定。但不同的語素項之間是彼此孤立的,缺乏面向整個語言系統(tǒng)的意義關(guān)聯(lián),只以離散的語素項集合的面貌出現(xiàn),沒有形成體系結(jié)構(gòu),無法滿足基于意義比較的計算需求;
(2) 魯東大學(xué)亢世勇的“漢字義類信息庫”和“漢語語義構(gòu)詞信息庫”[10],前者描寫了常見漢字的字位(不妨理解為語素的義項),后者在此基礎(chǔ)上對二字合成詞進行標注,對字位和合成詞均進行了歸類并形成了積極的意義關(guān)聯(lián)。歸類以此前已有的《同義詞詞林》為標準,存在語素義與詞義的本原、因果參照問題,結(jié)構(gòu)合理性有待商榷。
(3) 臺灣大學(xué)周亞民的漢字知識本體(Hantology)[11],分析了許慎《說文解字》中的540個部首漢字所刻畫的基本義符概念,并映射到IEEE SU M O上層共用知識本體上,形成了與世界通用概念(該通用概念由英語詞匯來承擔(dān))對應(yīng)的層次結(jié)構(gòu)。該本體在分類上同樣存在先天的參照問題,且只考慮少數(shù)部首漢字的粗粒度意義,也難以對漢語的語素認知、計算提供足夠的支撐。
(4) 中國科學(xué)院董振東的知網(wǎng)(HowNet)[12],認為任何一個概念均能夠分解為一組義原,并以此為基礎(chǔ)來加以定義,并且在不同語言中存在同樣的義原集合。基于對漢字的考察、分析,目前歸納、提取了2 800多個義原,采用人工給定的英—漢詞匯序列表示并在其間形成了層次結(jié)構(gòu)。這些義原均沒有特定的語素載體,定位近于抽象的語素義。知網(wǎng)注意到了漢語的意合特征,為漢語的詞義計算做出了貢獻,但并沒有走語素和構(gòu)詞分析的路,義原的形成和認定也帶有較強的主觀性。
這些先驅(qū)工作開拓了人們的視野,值得思考和借鑒。與此同時,他們在漢語語素及其意義的構(gòu)建客觀性、數(shù)據(jù)覆蓋度、結(jié)構(gòu)體系化以及漢語構(gòu)詞的全局性語義分析、數(shù)據(jù)挖掘與可視化等方面,還有期待改進的地方。
我們希望在WordNet理論、生成詞庫理論[13]等觀點指導(dǎo)下,以《現(xiàn)代漢語詞典(第5版)》(以下簡稱《現(xiàn)漢》)刻畫的全部漢語語素及語素義為客觀依據(jù),基于語素義的相似度計算形成“同義語素集”,用來表征“語素概念”并建立“語素概念系統(tǒng)”,以描述漢語世界中的語義基元。在此基礎(chǔ)上,進一步描述漢語詞的構(gòu)詞結(jié)構(gòu),實現(xiàn)構(gòu)詞結(jié)構(gòu)下的構(gòu)詞成分與“語素概念”的嚴格綁定,系統(tǒng)化地揭示漢語的語義構(gòu)詞現(xiàn)象并做數(shù)據(jù)挖掘和可視化呈現(xiàn),推動人文領(lǐng)域和計算應(yīng)用等相關(guān)工作的開展。
語言中的語義基元揭示了人們思維中的核心語義概念,在語言認知與計算等諸多方面扮演著重要角色[14]。20世紀30年代,語言學(xué)家們探究了“基本語義單元”的概念,表達了對該類系統(tǒng)的期望[15-16]。到70年代,Wierzbicka等人認為“復(fù)合詞的語義能夠被一組意義更簡單、更易理解的詞語來解釋”,并稱其為“語義基元”(semantic primitives)[17],這是重要的思路和提示。然而,在各種語言中,目前還沒有找到表征和生成語義基元的有效方法。
在英語中,語素處于相對弱勢的地位,語言中的概念意義主要由詞來承載和體現(xiàn),WordNet率先采用“同義詞集”來表征“詞匯概念”。值得注意的是,漢語是一種意合語言,語素作為最小的字符單位具有很強的表義性,對更大單位的詞義的貢獻十分明顯。結(jié)合Wierzbicka等人的觀點,并考慮漢語構(gòu)詞的特點,我們希望以“同義語素集”來表征“語素概念”。一個“語素概念”中包含了語言中大致同義或同類的所有語素,也代表了漢語世界中的一個語義基元。
考慮詞典的權(quán)威性和應(yīng)用的影響力,漢字語素取自《現(xiàn)漢》中的定義。目前,《現(xiàn)漢》只為成詞語素標注了詞類,可視為成詞語素的語素類;對不成詞語素,我們用人工標注的方式補齊了語素類。在8 514個漢字(包括繁體、異體字)的20 855個語素義中,名、動、形語素分別占46.90%、30.59%、11.25%,共計88.74%,構(gòu)成主體;而副、數(shù)、量、代、介、助、連、擬、嘆、綴語素共計11.26%,形成補充。
在此基礎(chǔ)上,我們對上述語素義做釋義文本的提取,并賦予唯一的“語素義編碼”。例如,“材”字有多個語素義,其中的一個釋義文本為“有才能的人”,其“語素義編碼”為“材1_05_04”,依次表明:這是該字在《現(xiàn)漢》中的第一次條目出現(xiàn),該條目下共有五個語素義,當前為第四個語素義。
為了獲得可靠的“同義語素集”,需要對《現(xiàn)漢》中的不同語素義的釋義文本進行語義相似度計算。
對于特定語素類的任一語素義的釋義文本,按照它與同語素類的其他語素義的語義相似度值降序排列,并按設(shè)定閾值將意義相近的語素義推薦給專家。經(jīng)人工檢驗,每確定一條即對其做語義相似度值的迭代計算,如此反復(fù)補充、過濾,形成一個“同義語素集”,亦即一個“語素概念”,或稱一個語義基元。對剩余語素義的釋義文本,重復(fù)此過程,直至覆蓋該特定語素類的全部語素義為止。然后,選擇新的語素類,重復(fù)以上過程。
在獲得漢語的“語素概念”全集后,需要進一步在這些語義基元之間建立起層次結(jié)構(gòu),讓離散的概念維持基本的語義關(guān)聯(lián),形成義場,以方便認知、推理和計算。
受WordNet啟發(fā),名語素的“語素概念”主要依據(jù)上下位關(guān)系進行結(jié)構(gòu)化建設(shè),形成同語素類的聚合關(guān)系。在跨語素類的語義關(guān)聯(lián)方面,則借鑒生成詞庫理論,對動語素和形語素分別建立起以名語素結(jié)構(gòu)為中心和參照的對應(yīng)體系。在該體系中,動語素表達名語素所指事物的事件,或者說,動語素的主體是對應(yīng)的名語素;形語素表達名語素所指事物的屬性,或者說,形語素修飾的對象是對應(yīng)的名語素。由此,名、動、形等不同語素類的層次結(jié)構(gòu)是大致同構(gòu)的,并形成同語素類內(nèi)的聚合關(guān)系以及跨語素類間的組合關(guān)系,該體系有利于各類“語素概念”的組織和計算。
基于以上方案,我們對漢語的“語素概念”建立了層次結(jié)構(gòu),并對內(nèi)部節(jié)點進行了特征描寫和賦值,這也是對漢語世界中的語義基元的系統(tǒng)描述。
對于漢語的構(gòu)詞結(jié)構(gòu)性質(zhì),語言學(xué)界一般有語法構(gòu)詞[1-3]、語義構(gòu)詞[6,19]等不同觀點。前者強調(diào)構(gòu)詞成分之間的語法關(guān)系,如主謂、述賓等語法標簽的認定,而后者強調(diào)構(gòu)詞成分之間的語義關(guān)系,如主體、客體等語義標簽的認定。
考慮語言計算、應(yīng)用的狀況和需求,傅愛平[20]指出:雖然語義構(gòu)詞在表示詞義時有天然、直觀的優(yōu)勢,但是其結(jié)構(gòu)產(chǎn)生依據(jù)過于復(fù)雜,標簽集難以統(tǒng)一,并不利于機器處理。相比之下,語法構(gòu)詞的結(jié)構(gòu)體系較為簡單,標準統(tǒng)一,且與句法結(jié)構(gòu)有天然的相似性。苑春法[9]的研究也表明,語法構(gòu)詞與構(gòu)詞語素類、詞性之間存在一定的相關(guān)性,采用語法構(gòu)詞體系有利于計算的開展。
在借鑒前人觀點的基礎(chǔ)上,我們選擇語法構(gòu)詞體系以方便工程展開,這也遵循了自然語言處理中從形式到意義的主流路線。值得注意的是,事實上,由于后續(xù)環(huán)節(jié)要求構(gòu)詞成分對“語素概念”的嚴格綁定,我們獲得的依然是廣義的語義構(gòu)詞知識。
語法構(gòu)詞體系,語言學(xué)界大多沿用朱德熙[3]的方案。楊梅[21]在借鑒了語法構(gòu)詞和語義構(gòu)詞兩派的觀點后,提出了一套以語法標簽為主的構(gòu)詞體系,并兼顧了語義構(gòu)詞派的部分觀點。
在楊梅標簽基礎(chǔ)上,我們增加“單純式”標簽,用于表示成分義與詞義之間缺乏關(guān)聯(lián),并將“附加式”細分為前附加、后附加。同時,刪除了一些缺乏計算價值或結(jié)構(gòu)類別實例過少的標簽,如截取式、虛配式、指量式、數(shù)構(gòu)式。最終確定的標簽集包括16種標簽,即:主謂式、連謂式、聯(lián)合式、述賓式、述補式、定中式、狀中式、介賓式、重疊式、名量式、數(shù)量式、方位式、復(fù)量式、前附加、后附加、單純式。
構(gòu)詞結(jié)構(gòu)類型界定后,在義項區(qū)分的基礎(chǔ)上,我們?yōu)椤冬F(xiàn)漢》中的所有二字詞依規(guī)范標注了構(gòu)詞結(jié)構(gòu),共計52 108個。
在構(gòu)詞結(jié)構(gòu)基礎(chǔ)上,對二字詞中的構(gòu)詞成分,即前后語素,我們繼續(xù)標注它們在《現(xiàn)漢》中的語素義。
注意到,一個語素義對應(yīng)一個“語素義編碼”,并進入一個“同義語素集”,這一過程實際上是將構(gòu)詞成分與特定“語素概念”建立了綁定關(guān)系,并受整個“語素概念體系”意義系統(tǒng)的表達和制約。這樣一來,單一的語素義就攜帶了豐富的、便于計算的內(nèi)容,包括了其在“語素概念”中的“同伴”信息、在“語素概念體系”中的“位置”信息以及由此取得的基于繼承鏈條的一系列“特征取值”信息。
符淮青[7]等語言學(xué)家指出:語素義的組合在一定程度上體現(xiàn)詞義。因此,利用語義構(gòu)詞知識進行詞義知識表示是一種新的選擇。這種表示具有簡單、直觀的特點,并反映構(gòu)詞成分對詞義的貢獻。例如,在“選材”中,“選”的語素義為“挑選、選拔”,“材”的語素義為“有才能的人”,其結(jié)構(gòu)關(guān)系及成分義較為準確地反映了詞義。
基于上述工作,我們獲得的語義構(gòu)詞知識涵蓋詞性、構(gòu)詞結(jié)構(gòu)、前后語素類、前后語素義等廣義知識,其中,前三個屬于語法層,最后一個屬于語義層。例如,“選材”的語義構(gòu)詞知識如表1所示。需要指出的是,前后語素義的“語素義編碼”已經(jīng)攜帶了豐富的、便于計算的多項信息。
表1 語義構(gòu)詞知識示例
依計算結(jié)果和工程進展,目前,名、動、形語素分別形成了2 018、1 631、550個“語素概念”,共計4 199個。
表2~4依據(jù) “同義語素集”的大小、多少等信息,分別展示了名、動、形語素“語素概念”覆蓋、分布的一般情況。例如,在名語素“語素概念”中,語素個數(shù)為16的“同義語素集”共有7個,占該類“語素概念”總數(shù)的比例為0.35%,其中的一個“語素概念”包含了特定語素“匠哲器彥才材杰氏秀英豪賢通驥模尖”(基于可以理解和簡化描述的原因,這里均省略了相應(yīng)的“語素義編碼”,僅以語素字的形式出現(xiàn),且不排斥相同字的出現(xiàn)),其概念意義為“有才能的人”。
表2 名語素“語素概念”覆蓋、分布情況
續(xù)表
表4 形語素“語素概念”覆蓋、分布情況
很明顯,這些以技術(shù)手段初次呈現(xiàn)的語義基元,表現(xiàn)出了確定、離散、可枚舉的特性。例如,在動語素中,對于承載“挑選、選拔”這一概念意義的語義基元,我們有較大信心說有且僅有12個漢語語素,包括“刷掄拔揀擇擇挑擢調(diào)選遴銓”等單字可以用于漢語構(gòu)詞并做現(xiàn)實的表達,在人與機器的認知、理解上都能得到很好的詮釋。
對《現(xiàn)漢》中的全部語素,我們采取既定、明確的表達方式和自底向上的技術(shù)路線來指導(dǎo)語義基元的構(gòu)造,杜絕了以往“拍腦袋”式的主觀性。通過對數(shù)據(jù)結(jié)果的觀察,可以看出,這些“語素概念”相對準確、完整地涵蓋了漢語語素所能表達的概念意義,有較強的數(shù)據(jù)客觀性、覆蓋度及完備性。進一步,依據(jù)生成詞庫理論,我們采取自頂向下的技術(shù)路線,為名、動、形語素“語素概念”建立了層次結(jié)構(gòu),形成了“語素概念體系”,這也是對漢語世界中的語義基元的系統(tǒng)描述。
近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域廣泛應(yīng)用,比如,通過神經(jīng)概率語言模型學(xué)習(xí)語義向量表達[22],這種經(jīng)驗方法取得了不錯的效果。而上述語義基元的提取加工,則是一種理性方法,希望在未來的人文領(lǐng)域和計算應(yīng)用中做新的結(jié)合和嘗試。
與英語不同,漢語中的詞沒有固定的形式標準,語言使用者可以相對自由地造詞,因此,對語義構(gòu)詞模式的分析尤為重要。一般認為,構(gòu)詞能產(chǎn)性是語素、構(gòu)詞過程與規(guī)則創(chuàng)造新詞的能力[23],它衡量語素成分現(xiàn)實及潛在的構(gòu)詞能力,反映出詞匯系統(tǒng)的某些特性。
語素構(gòu)詞能力也是對外漢語教學(xué)等人文領(lǐng)域特別關(guān)心的問題,在確定漢語教學(xué)基礎(chǔ)漢字時,除了關(guān)注字的出現(xiàn)頻率之外,往往需要考慮語素的構(gòu)詞能力,它影響漢字的認知加工。尹斌庸[24]統(tǒng)計表明,粗略地基于字考慮構(gòu)詞,可以對漢語構(gòu)詞能力有初步把握。有專家學(xué)者進一步從語素類和構(gòu)詞規(guī)則的角度進行了研究[9],此外,還有一些基于語義構(gòu)詞的語言學(xué)本體研究和個例剖析,不再贅述。
在對漢字的認知加工過程中,語義是十分重要的因素。一字多義、多字一義是漢語的常態(tài)。例如,“云侃具敘吭啟咧哨嘮扯拉提擺曰稱聊言講話語……”等單字,它們的某一義項具有相同或相近的意義,被歸并到了“同義語素集”中,屬于表示“言談交流”的“語素概念”。在漢語的意義體系中,它們發(fā)揮著十分相近的功能。然而,此前,由于數(shù)據(jù)匱乏和手段不足等問題,還無法從語義角度對語素構(gòu)詞能力進行量化描寫和繪制。
我們首次將“語素概念”作為節(jié)點,刻畫構(gòu)詞過程中基本意義單元之間的結(jié)合情況。如圖1所示,每一個矩陣節(jié)點代表一個“語素概念”,節(jié)點的大小代表“語素概念”中的各個語素(已確定了語素義)在構(gòu)詞過程中貢獻的能產(chǎn)性的加和,而節(jié)點之間的邊代表兩個“語素概念”中的某兩個語素依確定的語素義參與了構(gòu)詞過程,參與次數(shù)體現(xiàn)為邊的權(quán)重,即邊越粗,表明兩個“語素概念”結(jié)合的可能性越大。該圖依據(jù)前述4 199個名、動、形語素的“語素概念”和52 108個二字詞的語義構(gòu)詞知識繪制,客觀、充分地反映了漢語世界中的語義基元的能產(chǎn)性分布狀況。當然,具體、微觀一些,也可以考察這些“語素概念”中的特定語素的能產(chǎn)性和搭配特征。這是以往基于字符、語素類、構(gòu)詞規(guī)則統(tǒng)計或語義構(gòu)詞個例剖析等不能得到的語言學(xué)結(jié)論,也顯示了對漢語構(gòu)詞進行全局性語義挖掘與可視化分析的比較優(yōu)勢。
圖1 基于“語素概念”的構(gòu)詞能產(chǎn)性示例
未來,語義構(gòu)詞模式的分析可以加深對詞的結(jié)構(gòu)和意義的理解,并用于未登錄詞識別和意義判定。在機器學(xué)習(xí)領(lǐng)域,這也是一項極其重要的特征和任務(wù),基于語義基元的構(gòu)詞能產(chǎn)性數(shù)據(jù)給出了語義構(gòu)詞的轉(zhuǎn)移概率,能為相關(guān)的算法開發(fā)提供支持。
綜上所述,我們提出了一種探尋漢語語義基元和分析詞義的新的視角和方法,并表現(xiàn)出明顯的優(yōu)勢:一、語素及其意義作為抽象概念難以表達、計算,“語素概念”架起了漢語的語素及其意義和構(gòu)詞分析的天然聯(lián)系,契合了漢語的意合特征,這也是對漢語世界中的語義基元的系統(tǒng)描述;二、建立在這些基礎(chǔ)上的漢語構(gòu)詞分析,在全局性語義分析、數(shù)據(jù)挖掘等方面也有新的進展;三、從語言知識工程的角度看,面向《現(xiàn)漢》中的全部語素和二字詞,在“語素概念”提取等環(huán)節(jié)采取人機結(jié)合、自底向上的策略,盡量排除主觀因素的干擾,這些做法也保障了研發(fā)數(shù)據(jù)的覆蓋度和完備性,提升了語言資源建設(shè)的質(zhì)量。
這些創(chuàng)新的思路、做法以及獲得的數(shù)據(jù)成果,在人文領(lǐng)域和計算應(yīng)用等方面都有潛在的應(yīng)用價值。前者如詞典編纂與查詢?yōu)g覽、漢語教學(xué)、語言本體研究等,對于后者,我們也有初步驗證,在漢語未登錄詞的詞義知識表示與語義預(yù)測[25]、漢語詞語語義相似度計算[26]等方面進行了探索和嘗試。
在此前階段,漢語的語義構(gòu)詞分析主要針對詞的本義,但部分合成詞的詞義存在轉(zhuǎn)義、隱喻等現(xiàn)象,如何有效表達和處理這類現(xiàn)象,將是后續(xù)工作的一項重點。此外,“語素概念”及其體系的考核、優(yōu)化以及多字詞的詞義知識表示的拓展也在扎實推進中。在此基礎(chǔ)上,我們希望推出包含全集數(shù)據(jù)和API接口的北京大學(xué)《漢語概念詞典》(ChineseObject-OrientedLexicon,COOL)。
[1]趙元任.中國話的文法[M].丁邦新譯.香港:香港中文大學(xué)出版社,1980.
[2]陸志韋.漢語的構(gòu)詞法(修訂本)[M].北京:科學(xué)出版社,1964.
[3]朱德熙.語法講義[M].北京:商務(wù)印書館,1982.
[4]王洪君.漢語語法的基本單位與研究策略[J].語言教學(xué)與研究,2000(2):10-18.
[5]董秀芳.詞匯化:漢語雙音詞的衍生與發(fā)展(修訂本)[M].北京:商務(wù)印書館,2011.
[6]徐通鏘.核心字和漢語的語義構(gòu)辭法研究[J].語文研究,1997(3):2-16.
[7]符淮青.詞義和構(gòu)成詞的語素義的關(guān)系[J].辭書研究,1981,01:98-110.
[8]周薦.論詞的構(gòu)成、結(jié)構(gòu)和地位[J].中國語文,2003,02:148-155,192.
[9]苑春法,黃昌寧.基于語素數(shù)據(jù)庫的漢語語素及構(gòu)詞研究[J].世界漢語教學(xué),1998,02:8-13.
[10]亢世勇,李毅,孫道功,等.漢語系統(tǒng)語料庫的建設(shè)與詞典編纂[C].2004年辭書與數(shù)字化研討論文集.上海辭書學(xué)會,2004.
[11]周亞民.漢字知識本體——以字為本的知識結(jié)構(gòu)與其應(yīng)用示例[D].臺灣:臺灣大學(xué)博士學(xué)位論文.
[12]董振東,董強,郝長伶.知網(wǎng)的理論發(fā)現(xiàn)[J].中文信息學(xué)報,2007,21(4):3-9.
[13]Pustejovsky J.The generative lexicon[M].Mass:MIT Press,1995.
[14]Pesina S,Solonchak T.Semantic primitives and conceptual focus[J].Procedia-Social and Behavioral Sciences,2015,192:339-345.
[15]Sapir E,Swadesh M,Morris A V.The expression of the ending-point relation in English,French and German[J].Language,1932,8(1):11-125.
[16]Sapir E.Grading:A study in semantics[J].Philosophy of Science,1944,11:93-116.
[17]Wierzbicka A.Semantic primitives[M].Frankfurt/M.:Athen?umVerlag,1972.
[18]呂叔湘.《現(xiàn)代漢語詞典》編寫細則(修訂稿)[M].《現(xiàn)代漢語詞典》五十年.北京:商務(wù)印書館,2004.
[19]劉叔新.漢語描寫詞匯學(xué)[M].北京:商務(wù)印書館,1990.
[20]傅愛平.漢語信息處理中單字的構(gòu)詞方式與合成詞的識別與理解[J].語言文字應(yīng)用,2003,04:25-33.
[21]楊梅.現(xiàn)代漢語合成詞構(gòu)詞研究[D].南京:南京師范大學(xué)博士學(xué)位論文,2006.
[22]Yoshua Bengio,Réjean Ducharme,Pascal Vincent,Christian Jauvin.A neural probabilistic language model[J].Journal of Machine Learning Research.2003,03:1137.
[23]Plag I.Word-formation in English[M].Cambridge,UK:Cambridge University Press,2003.
[24]尹斌庸.漢語語素的定量研究[J].中國語文,1984,(5):340.
[25]田元賀,劉揚.漢語未登錄詞的詞義知識表示及語義預(yù)測[J].中文信息學(xué)報,2016,30(6):26-34.
[26]康司辰,劉揚.基于語義構(gòu)詞的漢語詞語語義相似度計算[J].中文信息學(xué)報,2017,31(1):94-101.
劉揚(1971—),博士,副教授,主要研究領(lǐng)域為語言知識工程、中文信息處理。E-mail:liuyang@pku.edu.cn
林子(1997—),主要研究領(lǐng)域為應(yīng)用語言學(xué)、語言知識工程、中文信息處理。Email:zi.lin@pku.edu.cn
康司辰(1993—),碩士研究生,主要研究領(lǐng)域為語言知識工程、中文信息處理。E-mail:1008_frank@sina.com