林可欣,柳建鈺
本刊核心層次論文
字料庫中構(gòu)件訛混規(guī)則庫建設(shè)相關(guān)問題芻議
林可欣,柳建鈺
(渤海大學(xué) 文學(xué)院,遼寧 錦州 121013)
字料庫是漢字學(xué)與計(jì)算機(jī)科學(xué)交叉下的產(chǎn)物,建設(shè)字料庫構(gòu)件訛混規(guī)則庫,不僅有助于有效地整理漢字訛混現(xiàn)象,也有利于字書字料庫的進(jìn)一步完善。訛混規(guī)則庫是構(gòu)建字料庫標(biāo)注體系的基本內(nèi)容之一。構(gòu)件訛混規(guī)則庫建設(shè)過程包括搜集構(gòu)件訛混相關(guān)研究成果、提取構(gòu)件訛混規(guī)則、規(guī)則庫界面設(shè)計(jì)、將規(guī)則加工入庫等步驟。
字書字料庫;訛混;構(gòu)件訛混規(guī)則庫
隨著信息科技及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,計(jì)算機(jī)科學(xué)與傳統(tǒng)學(xué)科交叉后衍生出許多新學(xué)科和新事物,語料庫與字料庫便是計(jì)算機(jī)科學(xué)與語言文字學(xué)交叉后的兩個(gè)產(chǎn)物。在字料庫理論產(chǎn)生之前,基于語料庫的各種研究已經(jīng)取得了十分豐碩的成果,字料庫是在此背景下由語料庫類推出來的新概念,它的出現(xiàn)為當(dāng)前漢字學(xué)研究提供了一種全新的思路和一個(gè)便利的平臺(tái)。
字料庫從不同角度出發(fā)可以劃分為不同類型,從字料存在的形式著眼,字料庫可分為“字書字料庫”和“語篇字料庫”兩種類型[1]25。其中“字書字料庫”是以歷代字書真實(shí)文本為基礎(chǔ)建立起的漢字?jǐn)?shù)據(jù)信息庫,而規(guī)則庫則是字書字料庫的重要組成部分。訛混作為一種非常常見的字形混同現(xiàn)象,是構(gòu)建字料庫標(biāo)注規(guī)則和基于字料庫進(jìn)行疑難字考辨工作的重要研究內(nèi)容。本文擬以渤海大學(xué)CCFD字書字料庫作為研究平臺(tái),對建設(shè)構(gòu)件訛混規(guī)則庫的相關(guān)問題進(jìn)行初步探討,以便為將來標(biāo)注規(guī)則的建立及疑難字考辨工作提供有益借鑒。
本節(jié)將主要對文中涉及的四個(gè)基本概念予以簡單界定,分別是字料庫、構(gòu)件、訛混以及規(guī)則庫。
“字料庫”概念由李國英和周曉文二位先生首次提出,它指的是“以文字的整理和文字學(xué)的研究為目標(biāo),按照語言學(xué)和文字學(xué)的原則,收集實(shí)際使用中能夠代表特定文字或文字變體的真實(shí)出現(xiàn)過的文字書寫形態(tài),運(yùn)用計(jì)算機(jī)技術(shù)建成的具有一定規(guī)模的大型電子文字資源庫”[2]。字書字料庫是從字料存在形式角度劃分出的一種類型,它是“在大規(guī)模歷代字書文本基礎(chǔ)上生成的真實(shí)的漢字刻寫形態(tài)的有序集合”[1]22。簡而言之,字書字料庫是以歷代字書為基礎(chǔ)建立起來的漢字信息資源庫,能為漢字學(xué)及其他相關(guān)學(xué)科研究提供高度結(jié)構(gòu)化的字書漢字?jǐn)?shù)據(jù)信息。
構(gòu)件又稱部件,最初從計(jì)算機(jī)術(shù)語中引用而來。蘇培成先生認(rèn)為,“部件是由筆畫組成的,用于漢字外部結(jié)構(gòu)分析的構(gòu)字單位,它大于或等于筆畫,小于或等于整字?!盵3]王寧先生在《漢字構(gòu)形學(xué)導(dǎo)論》中指出:“漢字的構(gòu)形單位是構(gòu)件(普及領(lǐng)域也稱部件),當(dāng)一個(gè)形體被用來構(gòu)造其他的字,成為所構(gòu)字的一部分時(shí),我們稱之為所構(gòu)字的構(gòu)件?!盵4]由此可見,構(gòu)件是漢字構(gòu)形最基礎(chǔ)并且不可或缺的一種單位。
拆分漢字時(shí),漢字的構(gòu)件是有層級(jí)的,我們可以將拆分后的構(gòu)件分為基礎(chǔ)構(gòu)件(形素)和直接構(gòu)件兩種。直接構(gòu)件指的是直接構(gòu)成全字的構(gòu)件;基礎(chǔ)構(gòu)件是指將漢字拆分到不能再拆但同時(shí)能體現(xiàn)一定構(gòu)字意圖的構(gòu)件。二者主要區(qū)別在于所處層級(jí)不同,基礎(chǔ)構(gòu)件必須是最小的構(gòu)件單位。直接構(gòu)件和基礎(chǔ)構(gòu)件也會(huì)重合,當(dāng)直接構(gòu)件不能再繼續(xù)向下拆分時(shí),則該直接構(gòu)件兼有基礎(chǔ)構(gòu)件和直接構(gòu)件雙重身份。因此二者不能對立。本文所要建立的構(gòu)件訛混規(guī)則庫中的構(gòu)件以直接構(gòu)件為基礎(chǔ),兼及用為基礎(chǔ)構(gòu)件的間接構(gòu)件。
漢字演變過程中既有常規(guī)的形體變化,也有一些非常規(guī)的變化,訛混就是其中一種。劉釗先生在《古文字構(gòu)形學(xué)》中說:“訛混是指一個(gè)構(gòu)形因素與另一個(gè)與其形體相近的構(gòu)形因素之間產(chǎn)生的混用現(xiàn)象。發(fā)生訛混的構(gòu)形因素既可以是單獨(dú)存在的字,也可以是構(gòu)成字的偏旁?!盵5]139劉釗先生從構(gòu)形學(xué)角度對訛混進(jìn)行闡釋,并且明確指出產(chǎn)生訛混的兩個(gè)構(gòu)形因素的形體一定要相近,倘若形體差距很大,就不屬于訛混的范圍。
造成漢字形體訛混的原因可以大致分為兩方面,一方面是漢字自身原因,另一方面是漢字的外部原因。產(chǎn)生訛混的構(gòu)形因素主要與整字和一級(jí)構(gòu)件(即直接構(gòu)件)密切相關(guān),但也有不少訛混發(fā)生在間接構(gòu)件層面。
規(guī)則庫是指用于描述相應(yīng)領(lǐng)域內(nèi)知識(shí)的集合。構(gòu)件訛混規(guī)則庫是以漢字構(gòu)形學(xué)理論為指導(dǎo),以字書字料庫作為載體,將前人訛混研究成果中的漢字構(gòu)件訛混規(guī)則提取出來后轉(zhuǎn)換成形式化的計(jì)算機(jī)數(shù)據(jù),并將這些數(shù)據(jù)匯集在一起,集合存儲(chǔ)為數(shù)據(jù)信息庫,可以為字料庫相關(guān)信息的自動(dòng)填充以及當(dāng)前和未來疑難字考辨工作提供形式化的依據(jù)。
字料庫中構(gòu)件訛混規(guī)則庫的建設(shè)具有十分重要的意義,我們可以從以下兩個(gè)方面來進(jìn)行分析。
字料標(biāo)注在字料庫建設(shè)過程中具有舉足輕重的地位。字書字料標(biāo)注就是“把字書字料所具有的漢字學(xué)、字典學(xué)及其他重要信息按照既定原則一一標(biāo)注出來。”[1]153直接將字書采集入庫后的字料稱為“生字料”,這些字料不能直接堆砌在庫中,而是要對他們進(jìn)行標(biāo)注加工,使其成為“熟字料”。熟字料相比生字料來說具有更大的研究及利用價(jià)值,因此字料標(biāo)注的質(zhì)量高低很大程度上也決定了字料庫研究價(jià)值的大小。簡而言之,字書字料庫中的生字料就像是在廚師面前未經(jīng)烹飪的食材,沒有這些食材做不成菜肴,但有了它不等于有了菜肴。字料標(biāo)注的過程就是把食材做成可口菜肴的過程。字料庫的標(biāo)注主要包括基本屬性信息標(biāo)注、漢字構(gòu)形信息標(biāo)注、漢字字際關(guān)系信息標(biāo)注、漢字多模態(tài)信息標(biāo)注等內(nèi)容[1]228。構(gòu)件訛混是漢字演變中非常常見的一種現(xiàn)象,對構(gòu)件訛混情況的標(biāo)注也貫穿于字料庫的整個(gè)標(biāo)注工作中,因此構(gòu)件訛混規(guī)則庫是構(gòu)建字料庫標(biāo)注體系的一個(gè)基本內(nèi)容。
構(gòu)件訛混規(guī)則庫的建設(shè)不僅是構(gòu)建字料庫標(biāo)注體系的基本內(nèi)容,還是提高字料庫標(biāo)注效率的重要工具。而字際關(guān)系標(biāo)注又是字書字料庫標(biāo)注的重點(diǎn),以異體關(guān)系標(biāo)注舉例。在異體關(guān)系基本信息界面中,根據(jù)異寫關(guān)系的分類原則,標(biāo)注者將異寫關(guān)系分為“筆畫異寫字”和“構(gòu)件異寫字”兩種情況,由于構(gòu)件訛混是產(chǎn)生異寫字的一個(gè)重要原因,因此“構(gòu)件異寫字”下劃分的六小類中,“構(gòu)件形近混同”便是其中一種。構(gòu)件訛混規(guī)則作為一種客觀的標(biāo)注依據(jù),對于構(gòu)件異寫類型的標(biāo)注具有較強(qiáng)的輔助作用,有利于實(shí)現(xiàn)字料庫人工標(biāo)注與機(jī)器自動(dòng)化標(biāo)注的結(jié)合。我們可以利用規(guī)則庫來開發(fā)計(jì)算機(jī)輔助人工標(biāo)注軟件,由標(biāo)注者決定應(yīng)該標(biāo)注的屬性字段,由計(jì)算機(jī)根據(jù)字料具體情況及庫中相應(yīng)規(guī)則自動(dòng)填入相應(yīng)內(nèi)容?;蛘唛_發(fā)一個(gè)計(jì)算機(jī)標(biāo)注檢查程序,自動(dòng)檢查已標(biāo)注的屬性內(nèi)容是否符合既定規(guī)則,是否滿足一致性的要求。只有將人工標(biāo)注和機(jī)器標(biāo)注有機(jī)結(jié)合,利用好構(gòu)件訛混規(guī)則庫中提供的各種訛混規(guī)則,才能在標(biāo)注的時(shí)候既能保證標(biāo)注的快速高效,又能保證字料標(biāo)注的正確性和一致性。
疑難字考辨除了需要大量文獻(xiàn)的支撐外,還需要考辨者熟悉漢字構(gòu)件訛混規(guī)則。利用漢字構(gòu)件訛混規(guī)則是疑難字考辨的主要方法之一,這種方法主要是通過構(gòu)件訛混規(guī)則來對字形相似的疑難字進(jìn)行合理類推,有助于發(fā)現(xiàn)和證實(shí)某些構(gòu)件具有共性的訛變軌跡。以前的考辨工作需要人工查詢所需信息,不僅會(huì)導(dǎo)致效率低下,還會(huì)影響結(jié)論的科學(xué)性。而借助字料庫構(gòu)件訛混規(guī)則庫可以在一定程度上解決這一問題。在這方面,我們已經(jīng)通過實(shí)例進(jìn)行了展示,證明字料庫對字書漢字的考辨工作確實(shí)能起到較好的輔助作用[1]295-314。
前輩學(xué)者對于漢字構(gòu)件的通混現(xiàn)象進(jìn)行過許多分析和總結(jié),并從中發(fā)現(xiàn)了大量的構(gòu)件訛混規(guī)則,比如楊寶忠先生在《疑難字考釋與研究》中就總結(jié)出將近五百條的俗書構(gòu)件訛混規(guī)則,不過這些規(guī)則都是散見于具體疑難字的考辨過程中。我們在前輩學(xué)者考辨成果的基礎(chǔ)上整理相關(guān)規(guī)則,并將這些規(guī)則進(jìn)行加工后錄入字料庫,就可以形成構(gòu)件訛混規(guī)則庫。構(gòu)件訛混規(guī)則庫的建設(shè)是開展基于字料庫的漢字疑難字考辨工作的前提,規(guī)則庫建設(shè)的質(zhì)量,如規(guī)則數(shù)量的多寡、標(biāo)注程度的深淺等都會(huì)直接影響考辨工作的結(jié)果。構(gòu)件訛混規(guī)則庫建成后,可以設(shè)置關(guān)鍵詞搜索功能,這能使我們在海量數(shù)據(jù)中方便、快速、準(zhǔn)確地檢索到參考案例,無疑會(huì)進(jìn)一步提高漢字疑難字考辨研究工作的效率和研究結(jié)果的信度。
構(gòu)件訛混規(guī)則庫的建設(shè)共包含四項(xiàng)步驟。第一步,需要搜集構(gòu)件訛混相關(guān)研究成果;第二步,在第一步的基礎(chǔ)上進(jìn)行訛混規(guī)則的提?。坏谌?,設(shè)計(jì)規(guī)則庫界面的布局及字段;最后將規(guī)則加工入庫。以下分述之。
這是第一步工作,將為后期規(guī)則加工及入庫做好資料準(zhǔn)備。我們將力爭窮盡性搜集前人考辨類著作、論文及其他相關(guān)成果,以便將其中的字頭、關(guān)系字、訛變規(guī)則等錄入庫中,字頭編號(hào)為IHZKS(該編號(hào)下擬專門綜錄古今學(xué)者漢字考釋結(jié)果)。目前搜集到的專著包括楊寶忠《疑難字考釋與研究》、楊寶忠《疑難字續(xù)考》、楊寶忠《疑難字三考》、張涌泉《漢語俗字叢考》(修訂版)、鄭賢章《漢文佛典疑難俗字匯釋與研究》、鄭賢章《〈新集藏經(jīng)音義隨函錄〉研究》、鄭賢章《〈郭迻經(jīng)音〉研究》、鄧福祿、韓小荊《字典考正》、韓小荊《〈可洪音義〉研究——以文字為中心》、柳建鈺《〈類篇〉新收字考辨與研究》、熊加全《〈新修玉篇〉疑難字考釋》、熊加全《〈新修玉篇〉研究》、熊加全《〈玉篇〉疑難字考釋與研究》等。限于時(shí)間和水平,在資料的準(zhǔn)備方面必然存在不少遺漏,后期還會(huì)陸續(xù)補(bǔ)充。
建立構(gòu)件訛混規(guī)則庫時(shí),我們將在漢字構(gòu)形學(xué)理論的基礎(chǔ)上,直接從前人疑難字考辨成果中提取構(gòu)件訛混規(guī)則。例如“俗書耳旁、身旁形近相亂”“草書身旁、方旁形近相亂”“俗書舟旁與古文示相亂”等。由于這些規(guī)則都是散見于具體疑難字的考辨過程中,因此目前只能通過人工進(jìn)行提取。
規(guī)則庫最終要形成一個(gè)單獨(dú)的界面顯示,因此我們首先要設(shè)計(jì)規(guī)則庫界面的字段,具體包括原始構(gòu)件、訛混構(gòu)件列表、訛混構(gòu)件、訛混原因、訛混途徑、訛混類型、參證文獻(xiàn)等共七個(gè)字段,下面對這些字段進(jìn)行詳細(xì)介紹。
1. 原始構(gòu)件
原始構(gòu)件是與訛混構(gòu)件相對的一個(gè)概念,是指將某一字頭拆分后,具有訛混現(xiàn)象的直接構(gòu)件或間接構(gòu)件。此處內(nèi)容除了需要進(jìn)行人工標(biāo)注外,還可以以“字頭構(gòu)形信息”界面中“依理拆分”下的拆分結(jié)果為依據(jù),通過計(jì)算機(jī)對該字段進(jìn)行自動(dòng)關(guān)聯(lián)和填充。
2. 訛混構(gòu)件列表
3. 訛混構(gòu)件
該字段下需要填寫與原始構(gòu)件具有訛混關(guān)系的構(gòu)件。
4. 訛混原因
訛混作為一種非常規(guī)的漢字演變現(xiàn)象,主要來自于兩方面原因:一方面是漢字內(nèi)部原因,一方面是漢字外部原因。這兩種原因又可以繼續(xù)細(xì)分,與下面的訛混途徑關(guān)聯(lián)。
5. 訛混途徑
該字段與訛混原因自動(dòng)關(guān)聯(lián)。由于訛混現(xiàn)象本身非常復(fù)雜,因此,歷來學(xué)者對于構(gòu)件訛混具體原因的劃分很難完全達(dá)成共識(shí),加之某些構(gòu)件的訛混也不僅僅是因?yàn)槟骋粋€(gè)原因產(chǎn)生的,可能是多個(gè)原因共同作用的結(jié)果。鑒于此,我們參考?xì)v代學(xué)者探討訛混原因的相關(guān)結(jié)論,將訛混原因主要?jiǎng)澐譃?大類11小類,如圖1所示。
圖1 構(gòu)件訛混原因示意圖
漢字內(nèi)部原因主要包括構(gòu)件形近、變形音化、變形義化、簡化、繁化、類化、不同書體間影響以及其他原因。
(1)構(gòu)件形近
形體相近是發(fā)生訛混的主要基礎(chǔ)。構(gòu)件是由筆畫組成的漢字構(gòu)形基本單位,但筆畫數(shù)是有限的,通過有限的筆畫組成數(shù)量眾多的構(gòu)件,難免會(huì)使得有的構(gòu)件之間形體差異很小。如果漢字使用者在書寫過程中沒有注意它們之間的區(qū)別,往往會(huì)忽略這種細(xì)微差別而出現(xiàn)訛混現(xiàn)象。因構(gòu)件形近而產(chǎn)生訛混的構(gòu)件數(shù)量最多。訛混途徑在默認(rèn)狀態(tài)下為“構(gòu)件形近”。
(2)變形音化
漢字屬于表意文字體系,最早產(chǎn)生的一批字是用表意法或標(biāo)示法創(chuàng)造的。但隨著文字使用范圍的不斷擴(kuò)大,漢字系統(tǒng)開始走上了形聲化的道路。在這種趨勢影響下,一些漢字中的表意構(gòu)件則會(huì)被改成與字音更加接近且與之形體具有一定相似性的表音構(gòu)件。如“恥”本來是從“心”“耳”聲,后來“耳”與“恥”字的讀音逐漸變得不同。東漢時(shí)期“恥”字寫作“恥”,就是由于寫手在書寫時(shí)不知道“耳”是聲旁,再加上漢隸中“心”和“止”形體十分近似,最終將“心”改寫成“止”。
(3)變形義化
“漢字是表意文字,因此形義統(tǒng)一一直是漢字使用者認(rèn)知漢字的定式模式。”[6]變形義化指的是為了使?jié)h字表義更加明確,書寫者在書寫時(shí)用形體相近且更能體現(xiàn)漢字構(gòu)形理據(jù)的構(gòu)件來替換原來的構(gòu)件。該類訛變的發(fā)生有時(shí)候還與字義的引申以及假借相關(guān),引申和假借后會(huì)使該字產(chǎn)生除本義之外的新意義,于是書寫者有意識(shí)地用與新意義更為貼切且字形具有一定相似性的構(gòu)件替代原構(gòu)件,從而產(chǎn)生訛變。如“青”字金文本從“生”從“井”,義為草木生長時(shí)的青色。后來為使其表顏色之義更加明顯,且“井”與“丹”形近,便將“井”訛作“丹”。
(4)簡化
簡化是漢字字形演變的總趨勢,但并非所有的簡化都會(huì)使?jié)h字形體發(fā)生訛變。當(dāng)書寫者在漢字簡易律的驅(qū)使下,書寫時(shí)往往會(huì)對漢字構(gòu)形單位進(jìn)行無意的簡省,導(dǎo)致筆勢上的細(xì)微差異,積非成是,進(jìn)而致使訛混現(xiàn)象的產(chǎn)生。簡化主要包括構(gòu)件粘合、多筆連為一筆、誤漏筆畫及簡省構(gòu)件等方式。簡化后的構(gòu)件可能會(huì)與其他構(gòu)件形體相近,從而產(chǎn)生訛混現(xiàn)象。俗書從“犮”得聲之字多省去點(diǎn)筆,與“友”相混;再如“前”字上半部分原本從“止”,簡化之后與“?”訛混。
(5)繁化
繁化可以分為兩種:一種是有規(guī)律的繁化,如書寫者處于某種書寫習(xí)慣而添加筆畫等;另一種則是無規(guī)律的繁化,往往使得漢字在表義或者表音方面具有一定障礙。因此,繁化在一定程度上會(huì)導(dǎo)致訛混的產(chǎn)生。如俗書常在末筆為橫劃的字下贅加“八”?!澳俊毕沦樇印鞍恕焙笥灋椤柏悺?,與“貝”混同。
(6)類化
(7)不同書體的影響
1)隸書
漢代時(shí)隸變將漢字字體由篆書轉(zhuǎn)向了隸書,漢字趨于線條化和筆畫化,變圓轉(zhuǎn)的線條為平直、方折的筆畫。隸變后原來不同的構(gòu)件在形體上變得相似,從而造成一定程度上的混同。除此之外,裘錫圭先生在《文字學(xué)概要》中指出:“隸書為求簡便,把某些生僻的或筆畫較多的偏旁改成形狀相近,筆畫較少,又比較常見的偏旁?!盵7]
2)草書
草書最早就是為了書寫便捷而產(chǎn)生的一種字體,主要通過省、簡、連三種方式來書寫漢字,引起構(gòu)件訛混的則主要是簡和連。簡指的是用較為簡單的構(gòu)件代替原先較為復(fù)雜的構(gòu)件;連指的是將原本一筆一筆書寫的筆畫連到一起。
3)行書
行書出現(xiàn)于東漢晚期,其字體介于楷書和草書二者之間。后人將行書轉(zhuǎn)寫為楷書時(shí),也會(huì)產(chǎn)生一些構(gòu)件訛混情況。
4)楷書
楷書雖然字形方正,書寫工整,但是楷書中還是存在許多形體相似的構(gòu)件,使用者在手寫時(shí)難免會(huì)產(chǎn)生混淆。除此之外,楷書由隸書發(fā)展而來,其中也繼承了大量隸書中的訛混構(gòu)件。
漢字外部原因主要包括使用者原因、書寫原因以及其他原因。
(1)使用者原因
使用者因素是推動(dòng)漢字發(fā)展變化十分重要的因素之一。使用者個(gè)人對于漢字形義關(guān)系的誤解、個(gè)人的書寫習(xí)慣、使用者文化程度的不同以及追求書寫速度的心理都會(huì)在一定程度上導(dǎo)致訛混現(xiàn)象產(chǎn)生。
(2)書寫原因
漢字在書寫過程中,書寫材料以及書寫工具等因素都可能會(huì)導(dǎo)致訛混的產(chǎn)生。比如刻在兵器上的銘文,由于兵器質(zhì)地較為堅(jiān)硬,為了刻制方便,往往會(huì)將一些圓轉(zhuǎn)彎曲的線條變成直線,這樣便導(dǎo)致訛混現(xiàn)象產(chǎn)生。
由于多種條件的限制,在字段的設(shè)置方面還是存在一定的問題,最主要的問題就是字段屬性值不能完整羅列,有些字段的屬性值數(shù)量較多,假如全部羅列出來的話會(huì)在一定程度上影響字料庫開發(fā)進(jìn)度以及檢索效率,所以我們只羅列最為常用的幾個(gè)字段,剩下的則使用“其他原因”表示。但是在使用“其他原因”這個(gè)字段時(shí),也會(huì)在一定程度上影響檢索精度,在以后的標(biāo)注過程中會(huì)根據(jù)實(shí)際情況對其進(jìn)行一定的修改。
6. 訛混類型
訛混類型主要是指訛混的方向。訛混方向可以分為單向訛混和雙向訛混,單向訛混指的是發(fā)生訛混的兩個(gè)構(gòu)件A與B,A可以訛混成B,B不可以訛混成A。雙向訛混指的是構(gòu)件A既可以訛混成構(gòu)件B,構(gòu)件B也可以訛混成構(gòu)件A。
7. 訛混漢字舉例
這一部分主要用來記錄與該規(guī)則相關(guān)的文獻(xiàn)例證及具體出處。
此外,在構(gòu)件訛混規(guī)則庫的標(biāo)注實(shí)踐中,我們發(fā)現(xiàn)有的例證內(nèi)部可能會(huì)存在個(gè)別書體的字圖,因而難以將其錄入。為解決這一問題,我們在規(guī)則庫界面另增加了補(bǔ)充圖片的區(qū)域,以便將這類字圖通過圖片形式錄入。
圖2 構(gòu)件訛混規(guī)則庫加工示意圖
以上,我們主要從概念、意義以及方法三方面對字書字料庫構(gòu)件訛混規(guī)則庫的建設(shè)問題進(jìn)行了初步探討。我們認(rèn)為,構(gòu)件訛混規(guī)則庫的建立是構(gòu)建字料庫標(biāo)注規(guī)則的基本內(nèi)容,同時(shí)也是疑難字考辨工作的重要工具。在建設(shè)的具體方法方面,主要步驟包括搜集構(gòu)件訛混相關(guān)研究成果、提取構(gòu)件訛混規(guī)則、規(guī)則庫界面設(shè)計(jì)、將規(guī)則加工入庫等四步。構(gòu)件訛混規(guī)則庫的字段包括原始構(gòu)件、訛混構(gòu)件列表、訛混構(gòu)件、訛混原因、訛混途徑、訛混類型、參證文獻(xiàn)、訛混漢字舉例等八個(gè)方面。雖然目前構(gòu)件訛混規(guī)則庫的建設(shè)還處于初級(jí)階段,其中還有一些不足之處,比如入庫的規(guī)則數(shù)量還比較少,規(guī)則庫的結(jié)構(gòu)尚需進(jìn)一步優(yōu)化等等。但相信隨著今后的不斷補(bǔ)充和完善,構(gòu)件訛混規(guī)則庫會(huì)更加完備和科學(xué),也將會(huì)在推動(dòng)字書字料庫建設(shè)與疑難字考辨方面發(fā)揮更大的作用。
[1] 柳建鈺. 字書字料庫的理論、實(shí)踐與應(yīng)用[M]. 北京: 中華書局, 2021.
[2] 李國英, 周曉文. 字料庫建設(shè)的必要性與可行性[J]. 北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2009(5): 48-53.
[3] 蘇培成. 現(xiàn)代漢字學(xué)綱要[M]. 北京: 商務(wù)印書館, 2014: 63.
[4] 王寧. 漢字構(gòu)形學(xué)導(dǎo)論[M]. 北京: 商務(wù)印書館, 2008: 97.
[5] 劉釗. 古文字構(gòu)形學(xué)[M]. 福州: 福建人民出版社, 2011.
[6] 吳文文, 林志強(qiáng). 簡析漢碑文字中的訛混現(xiàn)象[J]. 福建師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2009(2): 105-107.
[7] 裘錫圭. 文字學(xué)概要[M]. 北京: 商務(wù)印書館, 2013: 89.
H31
A
1674-327X (2022)03-0062-05
10.15916/j.issn1674-327x.2022.03.015
2021-11-06
國家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目(20AYY018);國家社會(huì)科學(xué)基金重大項(xiàng)目(21&ZD296)(15ZDB104)
林可欣(1998-),女,遼寧長海人,碩士生。
柳建鈺(1981-),男,寧夏中衛(wèi)人,教授,博士。
(責(zé)任編輯:葉景林)