梁詩(shī)塵,唐雪梅,胡韌奮,吳金閃,劉智穎
(1. 北京師范大學(xué) 中文信息處理研究所,北京 100875;2. 神州泰岳-北京師范大學(xué) 人工智能聯(lián)合實(shí)驗(yàn)室,北京 100875;3. 北京師范大學(xué) 系統(tǒng)科學(xué)學(xué)院,北京 100875)
漢字是世界上唯一未曾中斷使用而延續(xù)至今的表義文字系統(tǒng)。[1]在學(xué)界和大眾的普遍認(rèn)知里,漢字都是形、音、義三者的結(jié)合體。與表音文字不同的是,漢語(yǔ)系統(tǒng)具有特殊的表義性。漢字的理?yè)?jù)性就在于漢字的字形直接與漢字的音、義發(fā)生聯(lián)系。然而,經(jīng)過(guò)幾千年語(yǔ)言和文字的發(fā)展,漢字系統(tǒng)的表義能力究竟如何?這仍然是一個(gè)沒有定論的議題。
部件作為由筆畫組成的具有組配漢字功能的構(gòu)字單位[2], 在一定程度上與漢字的音、義有關(guān)。對(duì)漢字系統(tǒng)表義能力的考察應(yīng)該從漢字的字形入手,其中部件的表義能力自然是不能忽略的一環(huán)。值得注意的是,部件與部首、偏旁等含義不同。部首是漢語(yǔ)字典里屬于同一偏旁的部目;偏旁是漢字以及部件中具有表音或表義功能的部分。而“所謂‘部件’,是按漢字的結(jié)構(gòu)分解出來(lái)的,它們是構(gòu)成漢字的常用零件,并不等同于部首或偏旁。”[3]其概念比偏旁和部首更廣一些。同時(shí)部件也與意符(或稱“形符”)、聲符等概念有所差別。意符、聲符是形聲字范疇下的概念,它們都能算作漢字部件,但部件概念適用范圍并不局限于形聲字。在本文中,我們認(rèn)為不僅僅是部首或是意符才具有表義的功能,其他部件也可能與漢字意義產(chǎn)生關(guān)聯(lián)。因而我們選擇了“部件”這一內(nèi)涵更廣的概念,從部件的表義能力出發(fā)考察現(xiàn)代漢字的表義性。
相對(duì)而言,在語(yǔ)言系統(tǒng)中,語(yǔ)音的物理屬性更為突出,也更容易進(jìn)行測(cè)量,而語(yǔ)義信息則要更為復(fù)雜,表示和計(jì)算都存在一定的困難。在以往的研究中,有學(xué)者曾經(jīng)利用計(jì)算機(jī)對(duì)漢字聲符的表音能力進(jìn)行測(cè)量[4]。而關(guān)于部件表義能力的測(cè)量也有學(xué)者使用人工統(tǒng)計(jì)的方法測(cè)量小部分部件的表義能力,但這種方法只適用于小規(guī)模部件,并且容易帶有主觀性。
近年來(lái),隨著分布式表示的發(fā)展,詞語(yǔ)語(yǔ)義信息能夠在向量空間得到很好的表示。受到這一方法的啟發(fā),我們提出了融合部件的字詞分布式表示模型,將漢字部件與字詞嵌入到同一向量空間中進(jìn)行表示,這一方法在向量?jī)?nèi)部評(píng)測(cè)任務(wù)上取得了一定的提升,在判定漢字理?yè)?jù)性的任務(wù)上也與人工打分結(jié)果顯著相關(guān)。更進(jìn)一步,我們提出了部件-字相似度和字間相似度兩項(xiàng)衡量部件表義能力的指標(biāo),并結(jié)合部件的構(gòu)字能力建立了現(xiàn)代漢字部件的等級(jí)體系。此外,我們還將部件表義能力測(cè)量的結(jié)果應(yīng)用于對(duì)外漢語(yǔ)教學(xué),用以確定適用部件教學(xué)法的部件范圍以及漢字教學(xué)的順序,并提出了具體的可行方案。
本文的主要貢獻(xiàn)在于: ①提出了部件的分布式表示方法和部件表義能力的自動(dòng)測(cè)量方案,對(duì)漢語(yǔ)部件的表義能力有了整體的把握。②提出了將計(jì)算機(jī)自動(dòng)測(cè)量部件表義能力應(yīng)用到實(shí)際教學(xué)之中的可行方案,有助于減輕教師和學(xué)生的負(fù)擔(dān),提升教學(xué)的科學(xué)性。
針對(duì)漢字部件及表義的研究在語(yǔ)言學(xué)領(lǐng)域目前已有比較豐富的學(xué)術(shù)成果,研究對(duì)象主要包括部首和意符、聲符等,研究?jī)?nèi)容涵蓋了表義狀況分析[5]、表義機(jī)制探究[6]以及表義部件在教學(xué)中的應(yīng)用[7]等方面,但涉及到部件表義能力測(cè)量的研究較少。施正宇[8]對(duì)現(xiàn)代漢語(yǔ)3 500個(gè)常用字和次常用字中的形聲字進(jìn)行統(tǒng)計(jì),將形聲字形符按表義功能分成了不表義、間接表義和直接表義三類,并發(fā)現(xiàn)間接表義的形符占絕大多數(shù)。李蕊[9]以形旁能表義的字?jǐn)?shù)占總體部件構(gòu)字的比例為表義度的衡量標(biāo)準(zhǔn),從形聲字的等級(jí)、形旁的表義、位置、是否成字以及構(gòu)字?jǐn)?shù)等多個(gè)角度分析了形聲字形旁的表義狀況。呂菲[10]利用義素分析法和核心義素與語(yǔ)境語(yǔ)素兩個(gè)理論對(duì)古今形聲字意符表義能力進(jìn)行了考察,發(fā)現(xiàn)與古代形聲字相比,現(xiàn)代形聲字意符表義能力有所降低,但下降幅度較?。煌瑫r(shí)意符表義的方式也向精細(xì)、曲折的方向發(fā)展。陳愛華[11]根據(jù)意符直接表示意義或是表示意義范疇,以意符作為漢字主要義項(xiàng)的漢字比例為衡量標(biāo)準(zhǔn)來(lái)確定意符的表義度。他發(fā)現(xiàn)在不同漢字難度等級(jí)下,一些部件的構(gòu)字能力和表義度發(fā)生了變化。這些對(duì)漢語(yǔ)部件表義能力的測(cè)量大部分局限在形容詞的意符范圍上,同時(shí)采用人工統(tǒng)計(jì)的方法,缺乏普適性。
分布式表示的方法為測(cè)量部件表義能力提供了新的思路。分布式表示最早出現(xiàn)于由Mikolov等[12]提出的Word2Vec模型。分布式表示模型基于Firth[13]提出的分布式假說(shuō): 出現(xiàn)在相同上下文中的詞往往具有相似的語(yǔ)義。因而在分布式表示模型得到的向量空間中,詞義相近的詞會(huì)有接近的向量表示,詞與詞的語(yǔ)義關(guān)系可以通過(guò)向量間的余弦進(jìn)行計(jì)算。
近年來(lái),在中文分布式表示上涌現(xiàn)了不少對(duì)詞向量進(jìn)行改進(jìn)的研究,其中就包括利用漢字、字形和部件等信息進(jìn)行的相關(guān)工作。Chen等[14]提出了將字和詞進(jìn)行聯(lián)合訓(xùn)練的CWE模型,由于大部分漢字詞語(yǔ)和所組成的字之間存在語(yǔ)義關(guān)聯(lián),該模型比不考慮字信息的模型取得了更好的效果。Sun等[15]及Yin等[16]在字詞聯(lián)合訓(xùn)練的基礎(chǔ)上加入了目標(biāo)詞的部首信息,這些模型也在詞類比和詞相似任務(wù)上取得了更好的性能,同時(shí)可以更好地識(shí)別細(xì)粒度的詞義。Tzu-Ray Su等[17]在此基礎(chǔ)上提出了利用繁體漢字圖片來(lái)學(xué)習(xí)詞語(yǔ)表示的新方法,該模型從漢字的圖片中學(xué)習(xí)漢字的字形特征,也提升了詞表示的效果。
以上研究證實(shí)了部件參與詞表示的有效性,以及通過(guò)聯(lián)合訓(xùn)練獲得部件的向量化表示,計(jì)算部件與詞語(yǔ)間的相似性的可能性。但值得注意的是,以往的訓(xùn)練方法或者只采用了部首信息,沒有引入非部首的其他部件;或者引入漢字整體字形,但沒有拆分部件。我們認(rèn)為非部首之外的其他部件對(duì)于字義或詞義也是有一定貢獻(xiàn)的,因而我們的模型將漢字的所有部件都加入了訓(xùn)練。
在以往的分布式表示模型基礎(chǔ)上,我們加入了全部部件信息,并使用多粒度的向量模型,同時(shí)進(jìn)行詞向量與部件向量的訓(xùn)練。
本文所用漢字拆分?jǐn)?shù)據(jù)來(lái)源于漢字結(jié)構(gòu)網(wǎng)絡(luò)與理解型學(xué)習(xí)系統(tǒng)(1)http://www.learningm.org,共包括3 993個(gè)簡(jiǎn)體漢字。漢字部件拆分,以文獻(xiàn)為參考,主要根據(jù)漢字的簡(jiǎn)體字形拆分,對(duì)于簡(jiǎn)體難以拆分的漢字,也參照漢字的古體字形。在漢字構(gòu)字類型上,主要遵循傳統(tǒng)的“六書”觀點(diǎn)進(jìn)行劃分: 形聲字的數(shù)量占據(jù)絕大多數(shù),共2 896個(gè),此外有會(huì)意字747個(gè),象形字286個(gè),指事字64個(gè)。在漢字所含部件數(shù)上,數(shù)據(jù)的拆分顆粒度相對(duì)較粗,85%的漢字被拆分成兩個(gè)部件,最多被拆分成4個(gè)部件。如圖1所示,不同的構(gòu)字類型在部件數(shù)量上也存在一定的差異: 會(huì)意字和形聲字以兩部件漢字為主,象形字和指事字以單部件漢字為主。
圖1 不同構(gòu)字類型下漢字的部件個(gè)數(shù)統(tǒng)計(jì)
出于語(yǔ)料均衡性的考慮,本文所使用的現(xiàn)代漢語(yǔ)語(yǔ)料來(lái)源于網(wǎng)絡(luò)爬取的百度百科語(yǔ)料,并進(jìn)行了數(shù)據(jù)清洗,共計(jì)4.1G。
(1)
SGNS作為分布式表示模型同樣基于分布式假說(shuō): 出現(xiàn)在相同上下文中的詞往往具有相似的語(yǔ)義。因而加入詞語(yǔ)中字的部件信息后,具有相同部件的字詞會(huì)有更接近的向量表示。
如圖2所示,我們采用了兩種略有不同的策略來(lái)獲得分布式表示: ①以詞為基本單位,并融合部件信息。我們將每個(gè)詞中包含的漢字拆解為部件,并將部件作為詞語(yǔ)的上下文加入詞向量訓(xùn)練中。這樣出現(xiàn)在相同詞語(yǔ)中的部件將能獲得相近的部件表示,從而使得訓(xùn)練好的部件向量承載上語(yǔ)義信息。最終訓(xùn)練將得到詞向量(其中單字詞的向量即為字向量)與部件向量。②同樣是以詞為基本單位,但在融合部件信息的同時(shí)也加入了詞中字及字的位置信息,也就是將詞語(yǔ)中的字也加入詞語(yǔ)的上下文,并且對(duì)字在詞中的位置也進(jìn)行了區(qū)分(詞首字B,詞中字E,詞尾字M,單字詞S)。最終的分布式表示包含詞向量、字向量、帶有位置標(biāo)記的字向量。
圖2 兩種訓(xùn)練策略示意圖
訓(xùn)練參數(shù)設(shè)置如下: 向量維度為300,窗口大小為2, 最小詞頻為100,負(fù)采樣為5。
兩個(gè)模型都將共同學(xué)習(xí)詞、部件向量,此外,在文中第②種訓(xùn)練模型中還將學(xué)習(xí)帶有位置信息的字向量。給定句子“不好意思,我昨天忘記關(guān)燈了?!?,以“忘記”為中心詞,模型需要預(yù)測(cè)窗口內(nèi)的詞語(yǔ)(“昨天”“關(guān)燈”)和“忘記”一詞中含有的部件。同時(shí),第②種訓(xùn)練模型還將預(yù)測(cè)窗口內(nèi)字的位置。圖中“R_”表示部件,“B_”“E_”及未在圖中出現(xiàn)的“M_”“S_”為字的位置標(biāo)記。
為了驗(yàn)證以上方法的有效性,我們采用了兩類評(píng)測(cè)手段來(lái)對(duì)訓(xùn)練的向量表示進(jìn)行評(píng)估: ①詞類比和詞相似兩個(gè)詞向量?jī)?nèi)部評(píng)價(jià)手段; ②訓(xùn)練向量計(jì)算所得的漢字理?yè)?jù)性得分與人工打分?jǐn)?shù)據(jù)的相關(guān)性。詞類比和詞相似是兩個(gè)學(xué)界通用的詞向量?jī)?nèi)部評(píng)價(jià)手段。在詞相似任務(wù)上,我們使用了wordsim-297(ws-297)[14]這一中文評(píng)測(cè)集;在詞類比任務(wù)上,我們使用了CA_translated[14]和CA_8[19]兩個(gè)中文評(píng)測(cè)集。評(píng)測(cè)結(jié)果如表1所示,其中對(duì)比了兩種基礎(chǔ)設(shè)置,分別是SGNS和SGNS加上不帶位置信息的漢字信息(SGNS+字)。結(jié)果表明我們的兩個(gè)模型: 加入部件信息的詞向量(SGNS+部件)以及加入部件和帶位置的漢字信息(SGNS+部件+帶位置的字)相比不加部件信息的模型在大部分評(píng)測(cè)指標(biāo)上都取得了提升。除語(yǔ)義類比以外,其在語(yǔ)法類比和詞相似上相較不加部件信息的向量而言都取得了更好的表現(xiàn)。其中,僅加入部件信息的詞向量(SGNS+部件)表現(xiàn)最佳。
表1 詞類比和詞相似的評(píng)估結(jié)果*
此外,我們針對(duì)研究任務(wù)進(jìn)行了漢字理?yè)?jù)性的測(cè)量,并且同人工評(píng)分進(jìn)行了相關(guān)性檢驗(yàn)。漢字理?yè)?jù)性指漢字的音、義與漢字字形之間的聯(lián)系強(qiáng)度?!案鶕?jù)字符理論,現(xiàn)代漢字的字符分為三類,就是意符、音符和記號(hào)。意符、音符具有理?yè)?jù)性,記號(hào)沒有理?yè)?jù)。[20]”因而,我們將漢字的理?yè)?jù)性從聲符表音度和非聲符表義度兩個(gè)方面來(lái)進(jìn)行衡量,漢字理?yè)?jù)性即漢字在這兩項(xiàng)上得分的平均如式(2)所示。
(2)
其中,moti(C)表示漢字C的構(gòu)字理?yè)?jù)性,VC表示漢字向量,VRy為漢字非聲符部件的總向量。Rs表示漢字聲符,score(C,Rs)由下文所述形聲字表音度數(shù)據(jù)直接獲得。
形聲字聲符表音度相關(guān)數(shù)據(jù)來(lái)自胡韌奮等人[4]2013年的研究成果,包括2 310個(gè)形聲字及其聲符表音度。該數(shù)據(jù)綜合考慮了聲符現(xiàn)代發(fā)音的聲母、韻母和音調(diào)信息,給出了每個(gè)形聲字聲符在0-100區(qū)間內(nèi)的表音度。該表音度數(shù)值轉(zhuǎn)換為[0-1]區(qū)間內(nèi)的值,即我們漢字理?yè)?jù)性公式中漢字的表音得分。由于表音度數(shù)據(jù)沒有涵蓋漢字拆分?jǐn)?shù)據(jù)中的所有形聲字,因而在計(jì)算時(shí),我們將未涵蓋的形聲字及其他非形聲字所含部件都視為非聲符部件。非聲符表義度由非聲符部件向量和與漢字的余弦相似度來(lái)衡量,計(jì)算如式(3)所示。
(3)
最后,我們將計(jì)算所得的漢字理?yè)?jù)性得分情況與事先獲得的人工為漢字理?yè)?jù)性所打的分?jǐn)?shù)進(jìn)行相關(guān)性分析,其中對(duì)不同的字向量類型和不同部件數(shù)的字分別進(jìn)行了相關(guān)性計(jì)算。
相關(guān)性計(jì)算結(jié)果如表2所示。整體而言,漢字理?yè)?jù)性的計(jì)算結(jié)果與人工分值的整體相關(guān)性(部件數(shù)>0)達(dá)到0.60,這從統(tǒng)計(jì)意義上說(shuō)明計(jì)算機(jī)計(jì)算的漢字理?yè)?jù)性和人工打分呈現(xiàn)顯著正相關(guān)。從構(gòu)字的部件數(shù)來(lái)看,部件數(shù)等于2的漢字相關(guān)系數(shù)更高。這部分的漢字占漢字總數(shù)的85%,其中大部分是形聲字。其他部件數(shù)下的漢字表現(xiàn)則相對(duì)較差。這些漢字大部分沒有聲符,可能說(shuō)明漢字的聲符對(duì)漢字理?yè)?jù)性的貢獻(xiàn)值比較大。其中從字向量的訓(xùn)練類型來(lái)看,單字詞的表現(xiàn)要優(yōu)于字向量,如果參考字在詞中的位置信息,則是詞中尾字的表現(xiàn)最好。綜合詞類比和詞相似任務(wù)的表現(xiàn),我們最終選擇不引入位置信息,只加入部件信息的訓(xùn)練方法(SGNS+部件)進(jìn)行之后的分析。
表2 漢字理?yè)?jù)性計(jì)算機(jī)計(jì)算結(jié)果與人工分值的斯皮爾曼相關(guān)系數(shù)
本節(jié)我們將綜合考慮漢字部件的構(gòu)字能力和表義能力,形成對(duì)現(xiàn)代漢字部件的分級(jí)。若部件只能構(gòu)成一個(gè)漢字,基本上漢字和部件是同形關(guān)系,這兩個(gè)要素的意義將十分接近。因而我們只對(duì)拆分?jǐn)?shù)據(jù)中能構(gòu)成兩個(gè)及以上漢字的807個(gè)部件進(jìn)行分析。
漢字部件的構(gòu)字?jǐn)?shù),也就是一個(gè)部件能作為多少個(gè)漢字的組成部分,反映了部件的構(gòu)字能力。從統(tǒng)計(jì)結(jié)果來(lái)看,漢字部件的構(gòu)字能力差異很大,在分布上呈現(xiàn)長(zhǎng)尾分布。80%的部件構(gòu)字?jǐn)?shù)在10個(gè)以下,其中167個(gè)部件構(gòu)字?jǐn)?shù)為2,但構(gòu)字最多的部件構(gòu)字?jǐn)?shù)達(dá)到了236個(gè)。
為了控制部件構(gòu)字能力差異對(duì)表義能力結(jié)果產(chǎn)生的影響,我們依照構(gòu)字能力采用了分級(jí)策略。由于相同構(gòu)字?jǐn)?shù)下的部件數(shù)量眾多,我們?cè)跇?gòu)字?jǐn)?shù)的基礎(chǔ)上引入了部件頻次作為分級(jí)參照,部件字頻也就是部件構(gòu)成漢字在語(yǔ)料中的字頻總和。描寫語(yǔ)料中詞語(yǔ)分布的齊夫定律指出,在自然語(yǔ)言的語(yǔ)料庫(kù)里,一個(gè)單詞出現(xiàn)的頻率與它在頻率表里的排名成反比。我們通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),分別以構(gòu)字?jǐn)?shù)和部件頻次為主要及次要排名依據(jù),部件頻次在語(yǔ)料中的分布也大體符合齊夫定律。
圖3是依照排名對(duì)漢字部件頻次累計(jì)百分比的統(tǒng)計(jì),我們發(fā)現(xiàn)少部分構(gòu)字?jǐn)?shù)多、頻次高的部件的出現(xiàn)頻次占據(jù)了語(yǔ)料中部件總頻次的大多數(shù)。我們選擇了累計(jì)占比60%及80%所對(duì)應(yīng)的排名(126和428)為切分點(diǎn),分別劃定對(duì)應(yīng)部件排序區(qū)間中的部件為構(gòu)字能力強(qiáng)、中、弱的部件。因而排名1~126的部件為構(gòu)字能力強(qiáng)的部件,其構(gòu)字?jǐn)?shù)在12至236之間,共計(jì)126個(gè)部件;排名127~428的部件為構(gòu)字能力中等的部件,其構(gòu)字?jǐn)?shù)在4至12之間,共計(jì)302個(gè)部件;排名在429~806的部件為構(gòu)字能力弱的部件,其構(gòu)字?jǐn)?shù)在2至4之間,共計(jì)378個(gè)部件。
圖3 漢字部件頻次累計(jì)百分比統(tǒng)計(jì)圖 注: 橫軸為部件序號(hào)(按構(gòu)字?jǐn)?shù)及部件頻次從高到低對(duì)部件進(jìn)行排序)。
對(duì)于部件表義能力,我們從兩個(gè)方面衡量: 部件向量與字向量的平均相似度(以下簡(jiǎn)稱“部件-字相似度”)以及部件構(gòu)字集合中的字間平均相似度(以下簡(jiǎn)稱“字間相似度”)。在基于分布式表示的詞義計(jì)算研究中,研究者一般采用如夾角余弦值、歐氏距離等來(lái)衡量?jī)稍~間語(yǔ)義相似度。本文也沿襲了這一方法,對(duì)于字與字之間、部件和字之間的語(yǔ)義相似度也以其向量間的余弦相似度來(lái)進(jìn)行衡量。
我們認(rèn)為部件的表義能力與部件與其所構(gòu)成漢字的語(yǔ)義相似度正相關(guān),如果部件與其所構(gòu)成的漢字語(yǔ)義相似度越高,那么它的表義能力就越強(qiáng),反之越弱。因而,在部件-字相似度計(jì)算中,我們將部件與其構(gòu)成的漢字分別計(jì)算部件與字的相似度,并將這些相似度進(jìn)行平均。部件向量與字向量的平均相似度計(jì)算如式(4)所示。
(4)
另外,我們認(rèn)為部件的表義能力也體現(xiàn)在其組成的漢字集合間的語(yǔ)義相似度上。如果一個(gè)部件所構(gòu)成的漢字都具有相似的語(yǔ)義,那么我們認(rèn)為它的表義能力較強(qiáng)。比如說(shuō){“松”“柏”“樹”、……}是部件“木”所構(gòu)成的漢字集合,假設(shè)這些字的意義都與樹木相關(guān),那么我們可以認(rèn)為這個(gè)集合的語(yǔ)義凝聚力很強(qiáng),從而推斷出“木”的表義能力相對(duì)較強(qiáng)。據(jù)此,我們對(duì)兩部件構(gòu)字集合的漢字兩兩進(jìn)行相似度計(jì)算,再將這些相似度進(jìn)行平均,最后的字間相似度計(jì)算如式(3)所示。
(5)
總相似度為以上兩項(xiàng)相似度取平均的結(jié)果,最終計(jì)算如式(6)所示。
(6)
如3.2節(jié)所述,我們通過(guò)部件-字相似度衡量部件與其所組成字之間的意義相似度,以部件構(gòu)字集合的字間相似度衡量部件意義的凝聚性,并將兩者的平均值作為總相似度衡量部件的表義能力。總相似度越高,表義能力越強(qiáng),反之越低。我們對(duì)807個(gè)部件都進(jìn)行了上述三個(gè)相似度的計(jì)算。
統(tǒng)計(jì)結(jié)果如圖4所示,部件總相似度呈現(xiàn)較為明顯的左偏分布,50%的部件總相似度在0.4以下,也就是說(shuō)大部分部件的表義能力較弱。同時(shí)部件-字相似度和字間相似度的峰度差異明顯: 部件-字相似度具有負(fù)峰度,集中分布在0.2~0.5,說(shuō)明部件-字相似度在部件間的整體差異不是很大;而字間相似度具有較高的正峰度,在0.1~1之間都有分布,并且分布在每個(gè)區(qū)間的部件數(shù)量差距較大,說(shuō)明不同部件間的字間相似度相差比較大。綜上,部件-字相似度和字間相似度的分布差異反映了部件在字間相似度上的取值差異比在部件和字集合的相似度上更明顯。這背后的原因可能是大部分部件和其構(gòu)成的字的相似度都相對(duì)較低,但一些部件構(gòu)成的字集合中字和字之間仍然保留著較高的相似度,同時(shí)另一些部件的字集合意義凝聚力則與部件-字相似度一致,保持在比較低的水平。
圖4 總相似度、部件-字相似度、 字間相似度的整體分布情況
除了比較不同相似度的分布差異,我們也考察了現(xiàn)代漢字部件不同相似度之間以及相似度與部件構(gòu)字?jǐn)?shù)之間的相關(guān)性,結(jié)果如表3所示,可以看出三種相似度兩兩之間都呈現(xiàn)顯著的正相關(guān)。部件-字相似度與字間相似度的正相關(guān)反映出: 在整體趨勢(shì)下,部件與構(gòu)成漢字的意義越接近,其構(gòu)成的字集合中的漢字之間的字義關(guān)聯(lián)也更強(qiáng)。此外,相似度與構(gòu)字?jǐn)?shù)之間的相關(guān)性顯現(xiàn)了很有意思的結(jié)果: 在全體部件上,總相似度、部件-字相似度分別與構(gòu)字?jǐn)?shù)負(fù)相關(guān),也就是說(shuō)構(gòu)字?jǐn)?shù)少的部件其表義能力和部件-字相似度也就越小;而字間相似度則與構(gòu)字?jǐn)?shù)無(wú)顯著相關(guān)關(guān)系。
表3 總相似度、部件-字相似度、字間相似度與構(gòu)字?jǐn)?shù)的兩兩相關(guān)性
值得注意的是,當(dāng)我們按3.1節(jié)中的方法將部件按構(gòu)字能力分成三級(jí)時(shí),發(fā)現(xiàn)構(gòu)字能力強(qiáng)的部件和其他部件有不一樣的表現(xiàn): 其總相似度、字間相似度與構(gòu)字?jǐn)?shù)正相關(guān),部件-字相似度與構(gòu)字?jǐn)?shù)無(wú)顯著相關(guān)性;構(gòu)字能力強(qiáng)的部件相似度與構(gòu)字?jǐn)?shù)的相關(guān)性與總體一致(表4)。
表4 不同構(gòu)字能力下構(gòu)字?jǐn)?shù)與總相似度、字間相似度、部件-字相似度的相關(guān)性
這也就反映了當(dāng)部件的構(gòu)字能力強(qiáng)時(shí),其總體表義能力與構(gòu)字?jǐn)?shù)呈現(xiàn)正相關(guān),尤其是字間相似度與構(gòu)字?jǐn)?shù)的相關(guān)系數(shù)較高;當(dāng)部件的構(gòu)字能力不強(qiáng)時(shí),其總體表義能力與構(gòu)字?jǐn)?shù)呈現(xiàn)負(fù)相關(guān)。這背后的原因可能是,當(dāng)部件只能構(gòu)成很少數(shù)量的漢字時(shí),字與字之間的構(gòu)字?jǐn)?shù)相差不大,因而構(gòu)字?jǐn)?shù)越多,其意義更可能分散,造成部件與字、字與字之間的相似度較低;但高構(gòu)字能力的部件可能反映了古人造字時(shí)的傾向性: 部件的構(gòu)字?jǐn)?shù)很多時(shí),說(shuō)明該部件在構(gòu)字時(shí)更經(jīng)常被使用,選擇意義辨識(shí)度更高、更容易被理解的部件進(jìn)行構(gòu)字更符合人類的認(rèn)知。
綜合上述分析,由于漢字部件的構(gòu)字能力相差懸殊,并且在不同的構(gòu)字能力等級(jí)下漢字部件的表義能力和在語(yǔ)料中的頻次分布差異性明顯,因而我們認(rèn)為,對(duì)部件表義能力進(jìn)行分級(jí)引入漢字構(gòu)字能力的區(qū)分是有必要的。
結(jié)合3.1節(jié)構(gòu)字能力的分析結(jié)果,我們?cè)诓煌臉?gòu)字能力等級(jí)下分別以按2∶3∶5劃分部件表義能力強(qiáng)、中、弱三個(gè)等級(jí),比如說(shuō)構(gòu)字能力強(qiáng)的126個(gè)部件,按表義能力前20%的25個(gè)漢字為強(qiáng)表義能力部件,排名20%~50%的38個(gè)部件為中表義部件,后50%的部件為弱表義部件。最后,如表5所示,我們將漢字部件按表義能力劃分成了3個(gè)大類,結(jié)合部件構(gòu)字能力的等級(jí)劃分形成了9個(gè)小類。
表5 漢字部件表義能力分級(jí)結(jié)果
漢字教學(xué)是對(duì)外漢語(yǔ)教學(xué)的重要組成部分。部件教學(xué)法也就是利用漢字形體結(jié)構(gòu)理?yè)?jù)進(jìn)行漢字教學(xué)的方法,是對(duì)外漢語(yǔ)教學(xué)的教學(xué)法之一。然而,部件教學(xué)法雖然受到學(xué)界的大力倡導(dǎo),但多數(shù)研究成果只在理論層面取得了發(fā)展,卻難以在實(shí)際應(yīng)用中直接進(jìn)行轉(zhuǎn)換[21]。漢字部件教學(xué)體系設(shè)計(jì)、范圍界定、順序安排仍是部件教學(xué)法面臨的難題。其中,部件的表義性是幫助漢字理解的關(guān)鍵突破口。表義部件也是最早應(yīng)用于漢字教學(xué)的,是部件教學(xué)法重要的組成部分。
針對(duì)部件教學(xué)法面臨的問題,我們認(rèn)為若引入上述部件表義測(cè)量和分級(jí)情況,也許能推動(dòng)部件教學(xué)法的實(shí)際應(yīng)用。首先在部件教學(xué)的體系設(shè)計(jì)上,并非所有部件都適用于部件教學(xué)法,因而在教學(xué)時(shí)需要確定適合采用該方法的部件范圍。同時(shí),針對(duì)不同表義能力的部件,應(yīng)當(dāng)采取不同的教學(xué)策略,以免學(xué)習(xí)者誤用部件表義性產(chǎn)生錯(cuò)誤的理解。此外,我們認(rèn)為表義部件是對(duì)字義的提示,因而將近義關(guān)系引入部件教學(xué)法中,通過(guò)將部件下意義相近的字一起進(jìn)行教學(xué),可以加深學(xué)生對(duì)部件和漢字的認(rèn)識(shí)。
就教學(xué)范圍而言,漢字部件在構(gòu)字能力和表義能力兩個(gè)維度上的分級(jí)能夠幫助我們確立部件教學(xué)的范圍。對(duì)于構(gòu)字能力不強(qiáng)的部件,由于一個(gè)部件構(gòu)成的字?jǐn)?shù)太少,使用部件教學(xué)法的必要性不大,反而會(huì)增加老師和學(xué)生的負(fù)擔(dān)。對(duì)于表義能力太弱的部件,使用部件教學(xué)法來(lái)進(jìn)行漢字教學(xué)對(duì)意義理解幫助也不大。在實(shí)施部件教學(xué)法時(shí),教師可以主要聚焦于高構(gòu)字能力、高表義能力的部件,同時(shí)適當(dāng)關(guān)注高構(gòu)字能力中表義能力的部件。
對(duì)于高表義能力的部件,我們可以利用其表義能力和漢字的近義關(guān)系來(lái)安排漢字教學(xué)順序。目前的漢字教學(xué)的一大依據(jù)是字頻,在部件表義能力的指導(dǎo)下,我們認(rèn)為具有高表義能力部件的漢字可以與同部件的其他漢字一起進(jìn)行教學(xué),比如說(shuō)在教“河”一字時(shí),可以聯(lián)系“江”“湖”“海”等同部件的字。值得注意的是,對(duì)于高表義能力的部件,其構(gòu)成的漢字集合大部分與部件意義相關(guān);而表義能力越弱,構(gòu)字集合中與部件意義關(guān)聯(lián)少的漢字比例就越高,并非該部件在所有構(gòu)字集合中的漢字中都有很強(qiáng)的意義指示性。比如說(shuō)“演”“派”等字與“氵”意義關(guān)聯(lián)度便不強(qiáng)。針對(duì)構(gòu)字集合中部件和漢字意義關(guān)聯(lián)度的差異,區(qū)分表義部件是否在漢字中有意義指示作用便很有必要。因而我們引入了詞義相似度來(lái)決定: 同部件的漢字中,哪些字可以一起教學(xué),哪些字不適合一起教學(xué)。
對(duì)于漢字教學(xué)順序的編排,我們主要參照了國(guó)家語(yǔ)委發(fā)布的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)字頻表(2)http://corpus.zhonghuayuwen.org/Resources.aspx,將字頻更高的常用字教學(xué)順序安排靠前,非常用字靠后。同時(shí)當(dāng)漢字中含有高表義部件時(shí),我們將計(jì)算該目標(biāo)字與同部件其他漢字的語(yǔ)義相似度,若同部件漢字與其相似度大于閾值,則將同部件漢字與目標(biāo)字一起教學(xué),相當(dāng)于將同部件漢字的教學(xué)順序予以提前;如果字集合中沒有字與目標(biāo)字達(dá)到相似度的閾值,說(shuō)明目標(biāo)字中部件的表義性不強(qiáng),則不對(duì)該字采用部件教學(xué)法。我們對(duì)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)字頻表中字頻排名前3 500個(gè)漢字實(shí)施了上述操作,最終為759個(gè)漢字找到了可以共同教學(xué)的同部件字。表6中是部分漢字與它們可以一起教學(xué)的同部件漢字示例。不難發(fā)現(xiàn),表中可以一起教學(xué)的同部件字和目標(biāo)漢字的意義比較接近,并且部件在這些字中的表義功能基本一致,因而這些漢字的共同教學(xué)將對(duì)漢字習(xí)得起到一定的促進(jìn)作用。
表6 漢字與可一起教學(xué)的同部件漢字示例
綜上,部件教學(xué)法是對(duì)外漢語(yǔ)教學(xué)中的重要教學(xué)方法之一,但以往的教學(xué)缺乏定量的數(shù)據(jù)分析。部件表義度的測(cè)量能為確定適用部件教學(xué)法的部件范圍以及漢字教學(xué)順序提供一定的參考,促進(jìn)部件教學(xué)法的良好發(fā)展。
本文基于分布式表示模型,采用將部件與字詞共同進(jìn)行向量表示的多粒度訓(xùn)練方法,通過(guò)部件-字相似度和字間相似度兩項(xiàng)指標(biāo)計(jì)算現(xiàn)代漢字部件的表義能力,并結(jié)合部件的構(gòu)字能力進(jìn)行了部件等級(jí)的劃分。同時(shí),本文提出將部件表義能力測(cè)量的結(jié)果應(yīng)用于對(duì)外漢語(yǔ)教學(xué),以確定部件教學(xué)法應(yīng)涉及的部件范圍以及結(jié)合語(yǔ)義相似度調(diào)整漢字學(xué)習(xí)順序。在對(duì)現(xiàn)代漢字部件表義能力的測(cè)量中,我們發(fā)現(xiàn)現(xiàn)代漢字部件具有一定的表義能力,但漢字整體表義水平不高;同時(shí)部件表義能力與構(gòu)字能力關(guān)系密切,當(dāng)漢字的構(gòu)字能力強(qiáng)時(shí),漢字的表義能力與構(gòu)字能力正相關(guān),而漢字的構(gòu)字能力不強(qiáng)時(shí),兩者則呈負(fù)相關(guān)關(guān)系。