馮寶成
(渤海大學文學院,遼寧錦州 121013)
“字料庫”這一概念是由李國英、周曉文于2008年首次提出的[1]?!白至蠋臁笔侵浮耙晕淖值恼砗臀淖謱W的研究為目標,按照語言學和文字學的原則,收集實際使用中能夠代表特定文字或文字變體的真實出現(xiàn)過的文字書寫形態(tài),運用計算機技術(shù)建成的具有一定規(guī)模的大型電子文字資源庫”[2]。近幾十年來計算機信息科學的飛速發(fā)展,為字料庫這一研究工具的出現(xiàn)提供了重要土壤,實現(xiàn)了漢字學與計算機信息科學的交叉融合,從而產(chǎn)生了字料庫這一重要的漢字學研究工具。作為一種仍處在初級發(fā)展階段的漢字學研究工具,一個系統(tǒng)完備、字料信息豐富的字書字料庫能夠為漢字學及其它相關(guān)學科研究提供大量的字書漢字信息,可以借助于統(tǒng)計學手段和方法得到客觀可靠的漢字數(shù)據(jù),從而探尋漢字學規(guī)律,并對先前的漢字學研究理論及成果進行驗證或修改,會在以后的漢字學研究中發(fā)揮巨大的作用。而建設(shè)一個系統(tǒng)完備、字料信息豐富、使用價值高的字書字料庫,其中最重要的工作環(huán)節(jié)是字書字料的標注。因此,字書字料庫標注研究與標注后字書字料庫的應用研究是同等重要的,是字書字料庫研究的兩個重要方面。
字際關(guān)系界面的標注是字書字料庫標注的重要內(nèi)容之一,而漢字本借關(guān)系研究是漢字字際關(guān)系研究的重要組成部分,對本借關(guān)系界面的標注就尤為重要,是字際關(guān)系標注中不可忽視的一部分。但因目前對本借關(guān)系頁面的標注仍處于初級階段,標注實踐初步開始,還未形成一套適用于本借關(guān)系的標注理論。因此,本文以渤海大學字書字料庫(CCFD)字際關(guān)系界面中本借關(guān)系的標注為研究對象,擬從理論、實踐、應用三方面對字書字料庫本借關(guān)系標注問題進行初步探討,探索出一套適用于本借關(guān)系的標注理論,為此界面的標注與標注后的應用提供理論指導。
關(guān)于字書字料標注的定義,柳建鈺提出:“所謂字書字料標注,就是把字書字料所具有的漢字學、字典學及其他重要的信息按照既定原則一一標注出來?!盵3]222依據(jù)以上定義,筆者對字書字料庫中本借關(guān)系標注作出界定:作為字書字料標注工作的重點之一,本借關(guān)系標注是指將字書字料中所包含的字頭、聲紐和韻部、本借關(guān)系類型、文獻例證等本借關(guān)系信息按照本借關(guān)系標注的既定原則進行一一標注。本借關(guān)系的標注是字書字料庫標注的重要內(nèi)容之一,二者間存在一定共通之處,但由于漢字本借關(guān)系內(nèi)涵的復雜性,其標注原則、標注內(nèi)容、標注流程、標注方式等皆存在特殊之處,下文將對之進行探討。
字書字料庫本借關(guān)系界面標注是為部分字書字料增加本借關(guān)系信息的過程,在這一過程中要遵循預先制定的標注原則。關(guān)于字書字料庫標注基本原則,柳建鈺總結(jié)為“生字料和標注內(nèi)容的數(shù)據(jù)獨立性原則、字料標注的公開性原則、字料標注的通用性原則、字料標注的標準化原則、字料標注的多維度原則”[3]224-227。筆者在對字書字料庫本借關(guān)系界面進行標注時,以其為標注的基本原則,并結(jié)合前期標注的具體情況,又概括出字書字料庫本借關(guān)系標注的五條補充原則。
1.所依據(jù)資料的多元化原則。在對本借關(guān)系類型進行標注時,豐富的研究材料可作為判定本借字頭間具體類型的可靠依據(jù)。所謂多元化的資料,指的是標注者在對本借關(guān)系具體類型進行判定時,所依據(jù)的資料不能僅僅局限于某部字典辭書,還要廣泛搜集其它相關(guān)資料,包括但不限于相關(guān)的古代文獻用例、權(quán)威的漢字學著作、前代學者的訓詁材料、當代學者所作字典辭書及其它研究成果。之所以要考慮所依據(jù)資料的多元化,主要是因為對同一組字本借關(guān)系具體類型的判定結(jié)果可能會受判定者自身因素的影響而難以統(tǒng)一,因此我們主張在對本借關(guān)系具體類型進行標注時,要擺脫單一的資料,所依據(jù)的資料要多元化。
2.主客觀相結(jié)合原則。字料信息標注力求準確是基本要求,標注的準確性越高,其利用價值越大。因此,在對字書字料庫本借關(guān)系界面進行標注時要遵循主客觀相結(jié)合的原則,既不可完全憑標注者的主觀臆斷,亦不可完全以某相關(guān)材料為標注依據(jù)。應在廣泛搜集相關(guān)資料的基礎(chǔ)上,對前代學者的觀點作出甄別,并結(jié)合標注者的思想,最后形成最終標注結(jié)果。只有標注者在遵循主客觀相結(jié)合原則對需標注的內(nèi)容進行標注時,才能保證被標注內(nèi)容的準確性,提高字書字料庫的利用價值。
3.規(guī)范性原則。字料信息標注的規(guī)范與否對字料庫應用價值的高低有著重要的影響。只有字料標注符合規(guī)范化原則,才能將字書字料庫建設(shè)成一個規(guī)范化的漢字學研究工具,提高其應用價值。字料信息標注的規(guī)范化主要包括標注信息的規(guī)范化以及標注方式的規(guī)范化。所謂標注信息的規(guī)范化,即在對字料信息進行標注前要建立字料信息統(tǒng)一的加工標準,只有符合標準的字料信息才能夠進行標注;所謂標注方式的規(guī)范化,即不同標注者對同一字段進行標注時所采用的標注方式要一致,標注時要遵循同一規(guī)則。如果在標注前不制定統(tǒng)一的規(guī)則,不同標注者所標注的方式差別很大,就會導致字書字料庫字料信息混亂,給字書字料庫使用者帶來不必要的麻煩,因此要在進行字料信息標注的過程中嚴格遵循規(guī)范化原則。
4.更新補充原則。系統(tǒng)完備、字料信息豐富、使用價值高這三個特點是字書字料庫建設(shè)的主要目標,對字料信息進行及時更新補充是達成這一建設(shè)目標的必經(jīng)之路。由于漢字本借關(guān)系本身具有復雜性的特點,標注者在對某一對本借關(guān)系信息進行標注時受自身知識儲備、學界研究成果等限制,難免標注錯誤,在發(fā)現(xiàn)后要立即進行標注更新,改為正確的標注信息,此為漢字本借關(guān)系標注的更新性原則。由于學術(shù)研究成果以及古籍文獻具有時代發(fā)展性,受于初次標注時代存有文獻材料數(shù)量和學界關(guān)于本借關(guān)系研究成果數(shù)量的限制,本借關(guān)系字組的數(shù)量會隨著新材料的發(fā)現(xiàn)而增加,本借關(guān)系的標注結(jié)果會隨著新研究成果的出現(xiàn)而滯后,因此要及時對字書字料庫本借關(guān)系頁面進行補充標注,這樣才會離建成具備系統(tǒng)完備、字料信息豐富、使用價值高等特點的字書字料庫的目標越來越近。
5.獨立性原則。標注結(jié)果的清晰明確是標注的內(nèi)在要求。由于漢字本借關(guān)系是文獻角度的字際關(guān)系,關(guān)系的判定依據(jù)文獻中的例證來進行,在不同的文獻中,構(gòu)成本借關(guān)系的字組所攜帶的本借關(guān)系具體類型、聲韻關(guān)系等信息可能是不同的,因此在對不同文獻例證中所攜帶本借關(guān)系信息有區(qū)別的一組字進行標注時,要各自獨立,切忌混合標注?;旌蠘俗斐蓸俗⒔Y(jié)果的模糊不清,給字書字料庫本借關(guān)系的應用帶來諸多障礙。因此,在對字書字料庫本借關(guān)系界面進行標注時要遵從獨立性原則,對不同文獻例證中所攜帶不同信息的本借字頭分別進行標注,而不同文獻例證中所攜帶相同本借關(guān)系信息的本借字頭可進行統(tǒng)一標注。
字書字料庫本借關(guān)系的標注內(nèi)容是應用此界面進行漢字學研究的基礎(chǔ),標注內(nèi)容的全面性、準確性、系統(tǒng)性會對此界面的應用產(chǎn)生直接影響。以目前渤海大學字書字料庫(CCFD)字際關(guān)系屬性本借關(guān)系界面的字段設(shè)置為例,標注的內(nèi)容主要包括本借字頭、本借關(guān)系類型、主輔字頭聲紐和韻部、聲紐關(guān)系、韻部關(guān)系、相關(guān)參證文獻信息等。下面筆者將分別對以上標注內(nèi)容進行舉例介紹。
1.本借字頭。本借字頭標注即對與主字頭構(gòu)成本字與通假字、假借字與后造本字、假借字與假借字、古本字與后造本字、通假字與通假字關(guān)系的輔字頭進行標注。本借字頭的標注是本借關(guān)系界面標注的首要內(nèi)容。
2.本借關(guān)系類型。本借關(guān)系類型標注即對主輔字頭所構(gòu)成的本借關(guān)系具體類型進行標注,主要包括古本字與后造本字、本字與通假字、通假字與通假字、假借字與假借字、假借字與后造本字五種類型。五種類型大致涵蓋了本借關(guān)系中所包含的小的字際關(guān)系。古本字與后造本字指由于漢字孳乳分化而產(chǎn)生的源字與分化字通用、混用關(guān)系,例如“反”與“返”、“竟”與“境”等;本字與通假字指本有其字的同音借用,在共時文獻中被借字并不具有文獻所表達的意義,例如“早”與“蚤”;通假字與通假字指某字形所記錄的某一意義在古代文獻中分別借用了兩個或兩個以上與其音同或音近的字形,這兩個或多個字形之間構(gòu)成通假字與通假字的關(guān)系,例如“辜”與“故”在文獻中常被借表“固定”義,是“固”之借字;假借字與假借字指古人在記錄某本無其字的詞義時分別借用了兩個或兩個以上音同或音近的不同字形,被借用的字形間構(gòu)成假借字與假借字的關(guān)系,例如“乏”與“貶”,皆被借作指稱本無其字的古代行射禮時報靶人的護身器;假借字與后造本字指原未造本字的某一詞義借用了一個音同或音近的字形,后又為此詞義專門造了新字,被借用的字形與其后造字形就構(gòu)成了假借字與后造本字的關(guān)系,例如“采”與“睬”。
3.主輔字頭的聲紐。即構(gòu)成本借關(guān)系的主字頭和輔字頭在上古的聲紐地位,所采用的上古聲母系統(tǒng)為王力先生的上古33聲母系統(tǒng)。這兩個字段在字書字料庫中可點擊“自動填充”按鈕,由計算機自動匹配主輔字頭的上古聲母對其進行標注。
4.主輔字頭的韻部。即構(gòu)成本借關(guān)系的主字頭和輔字頭在上古的韻部地位,所采用的上古韻部系統(tǒng)為王力先生的上古30韻部系統(tǒng)。這兩個字段在字書字料庫中可點擊“自動填充”按鈕,由計算機自動匹配主輔字頭的上古韻部對其進行標注。
5.主輔字頭的聲紐關(guān)系和韻部關(guān)系。即構(gòu)成本借關(guān)系的主字頭及輔字頭的聲紐關(guān)系和韻部關(guān)系,聲紐關(guān)系包括唇音雙聲、舌上音雙聲、舌頭音雙聲、齒頭音雙聲、正齒音雙聲、牙音雙聲、喉音雙聲、舌音準雙聲、齒音準雙聲、舌齒準雙聲、齒頭音旁紐、唇音旁紐、舌頭音旁紐、舌上音旁紐、正齒音旁紐、牙音旁紐、舌齒鄰紐、舌音準旁紐、齒音準旁紐、鼻邊臨紐、牙喉鄰紐等21 類。韻部關(guān)系包括陰聲疊韻、入聲疊韻、陽聲疊韻、陰入對轉(zhuǎn)、陽入對轉(zhuǎn)、陰陽對轉(zhuǎn)、陰聲旁轉(zhuǎn)、陽聲旁轉(zhuǎn)、入聲旁轉(zhuǎn)、陰入旁對轉(zhuǎn)、陽入旁對轉(zhuǎn)、陰陽旁對轉(zhuǎn)、陰入通轉(zhuǎn)、陽入通轉(zhuǎn)、陰陽通轉(zhuǎn)、陰聲通轉(zhuǎn)、入聲通轉(zhuǎn)、陽聲通轉(zhuǎn)18 類。這兩個字段在字書字料庫中可點擊“自動填充”按鈕,由計算機自動匹配主輔字頭的上古聲母對其進行標注。
6.相關(guān)參證文獻。即判定主字頭與輔字頭構(gòu)成本借關(guān)系所依據(jù)的文獻,參證文獻是判定一組字是否構(gòu)成本借關(guān)系及其相關(guān)字段標注的重要依據(jù)。
目前字書字料標注的方式主要有三種,即人工標注、機器標注、人工標注與機器標注相結(jié)合。單純使用人工進行標注,會耗費較多時間和人力,成本較高。單純使用機器進行標注雖然速度較快,但也不能保證字料標注信息的百分之百正確,且機器標注的好與壞也取決于前期的人工預設(shè)。
筆者在對字書字料庫本借關(guān)系界面進行標注時采取人工標注與機器標注相結(jié)合的標注方式。本借字頭、相關(guān)參證文獻信息采用機器標注的方式進行標注,而大部分主輔字頭聲紐和韻部、聲紐關(guān)系、韻部關(guān)系的標注可由標注者點擊“自動填充”按鈕,由計算機根據(jù)字料的具體情況自動填入。少部分字料無法匹配其古音關(guān)系則需要人工標注,本借關(guān)系類型字段則完全需要人工標注。
人工標注與機器標注相結(jié)合的標注方式的優(yōu)勢主要體現(xiàn)在兩個方面:首先,在標注效率方面,人工標注與機器標注相結(jié)合的方式有助于提高標注速度;其次,在標注的準確率方面,這種方式可以降低標注失誤率,提高標注的準確率,從而避免二次標注。因此筆者在對字書字料庫本借關(guān)系界面進行標注時采用人工標注與機器標注相結(jié)合的標注方式。
按照字書字料庫本借關(guān)系界面標注的初步實踐,筆者將字書字料庫本借關(guān)系界面的標注分為五個階段,詳見圖1。
圖1 本借關(guān)系界面標注流程示意圖
1.選擇字書與設(shè)定采集方式階段。此階段首先要選擇包含本借關(guān)系信息的字書,其次根據(jù)字書對本借關(guān)系的表現(xiàn)形式制定自動化采集字頭及參證文獻信息的方式。這是本借關(guān)系標注的第一階段。
2.采集本借字頭與參證文獻階段。從事先選擇的字書中按照預先設(shè)定的采集方式采集構(gòu)成本借關(guān)系的主輔字頭與相關(guān)參證文獻,標注者應對采集結(jié)果進行仔細核查,務(wù)必要保證構(gòu)成本借關(guān)系的主輔字頭與相關(guān)參證文獻的準確性以及主輔字頭與參證文獻的一一對應。
3.本借關(guān)系初步判定階段。此階段首先需要依據(jù)相關(guān)參證文獻對已采集的主輔字頭是否構(gòu)成本借關(guān)系進行初步判定,并反復確認判定結(jié)果;其次,將依據(jù)參證文獻無法認定為本借關(guān)系的主輔字頭及其參證文獻剔除。這一階段主要是對字料的初步篩選,將明顯不構(gòu)成本借關(guān)系的字料剔除,為標注者后續(xù)的標注工作減輕負擔。
4.本借關(guān)系標注階段。此階段首先對經(jīng)初步確認的構(gòu)成本借關(guān)系的主輔字頭與參證文獻進行機器標注,其次按照既定標注原則對主字頭聲紐和韻部、輔字頭聲紐和韻部、聲紐關(guān)系、韻部關(guān)系、本借關(guān)系類型按順序進行標注,避免信息遺漏。此外,在標注過程中發(fā)現(xiàn)不符合本借關(guān)系判定標準的字頭要及時刪除。
5.核驗標注結(jié)果與修改補充階段。字書字料庫標注帶有主觀性,即使標注者是具備漢字學知識的專業(yè)人員,也難免出現(xiàn)失誤,因此本借關(guān)系標注結(jié)果必須經(jīng)過多次審核檢驗,對標注錯誤及時進行修改和補充,增強其準確性,使其更好地服務(wù)于本借關(guān)系研究與漢字學研究。
字書字料庫本借關(guān)系標注理論來源于本借關(guān)系界面標注的初步實踐,本借關(guān)系標注實踐中所產(chǎn)生的新問題、新發(fā)現(xiàn)也會對標注理論起到豐富和修正的作用。因此,本借關(guān)系標注理論與標注實踐是相輔相成、相互促進的。標注實踐同時也是應用字書字料庫本借關(guān)系界面進行漢字學研究的必經(jīng)之路,其重要程度不言而喻?,F(xiàn)階段,渤海大學字書字料庫(CCFD)本借關(guān)系界面基礎(chǔ)建設(shè)已初步完成,此界面的標注也已初步展開,下面對字書字料庫本借關(guān)系界面現(xiàn)有標注框架的設(shè)計以及在標注實踐中發(fā)現(xiàn)的現(xiàn)有框架的不足進行探討。
渤海大學字書字料庫字料(CCFD)本借關(guān)系界面現(xiàn)包括字頭列表、本借字頭、本借關(guān)系類型、主字頭聲紐、主字頭韻部、輔字頭聲紐、輔字頭韻部、聲紐關(guān)系、韻部關(guān)系、相關(guān)參證文獻等十個字段,可分為三個層次:字頭、本借關(guān)系判定依據(jù)、本借關(guān)系類型。字頭包括主字頭、與主字頭構(gòu)成本借關(guān)系的輔字頭、字頭列表,字頭列表是輔字頭的集合;本借關(guān)系判定依據(jù)包括主字頭聲紐、主字頭韻部、輔字頭聲紐、輔字頭韻部、聲紐關(guān)系、韻部關(guān)系、相關(guān)參證文獻,主輔字頭的聲韻關(guān)系是判定二字是否構(gòu)成本借關(guān)系的重要依據(jù);本借關(guān)系類型包括古本字與后造本字、本字與通假字、通假字與通假字、假借字與假借字、假借字與后造本字五種類型,詳見圖2。
圖2 字書字料庫本借關(guān)系標注框架示意圖
雖然現(xiàn)有標注框架中所設(shè)置的字段涵蓋了本借關(guān)系判定依據(jù)、本借關(guān)系類型等內(nèi)容,但筆者在借助本借關(guān)系界面對漢字本借關(guān)系進行標注研究時發(fā)現(xiàn),此界面標注框架的設(shè)計還存在諸多問題,具體如下:
1.字段數(shù)量設(shè)置不足,實用性較低。上文提到,系統(tǒng)完備、字料信息豐富、使用價值高是字書字料庫建設(shè)的主要目標,但因本借關(guān)系界面的建設(shè)處于基礎(chǔ)階段,在字段設(shè)置方面還不完善,遠不能達到上述要求。學界關(guān)于本借關(guān)系的部分研究成果還未在字書字料庫本借關(guān)系界面中體現(xiàn),例如部分學者將本借關(guān)系類型中本字與通假字關(guān)系按照二字是否能夠互相借用分為單向通假、雙向通假兩種,在本借關(guān)系界面增設(shè)這一標注字段,將會豐富字書字料庫的字料信息,提高本借關(guān)系界面的使用價值。關(guān)于本借關(guān)系界面的字段增設(shè)問題,將在后文中具體展開探討。
2.本借關(guān)系具體類型的分類存在缺陷?,F(xiàn)有本借關(guān)系類型字段下設(shè)五個選項,即本字與通假字、古本字與后造本字、假借字與假借字、通假字與通假字、假借字與后造本字五種關(guān)系,但因本借關(guān)系內(nèi)涵和外延具有復雜性,在具體標注實踐中這五種類型的設(shè)置還存在一些問題。首先,在標注實踐中,部分文獻例證中的本借關(guān)系會出現(xiàn)無法標注的情況,也就是說以上五種關(guān)系類型并不能涵蓋所有文獻中構(gòu)成本借關(guān)系字組的具體小類;其次,在標注實踐中,部分文獻例證中構(gòu)成本借關(guān)系的某一組字會出現(xiàn)標注兩難抉擇的情況,也就是說在此文獻例證中兩字既可標注為A關(guān)系,又可標注為B關(guān)系。出現(xiàn)以上現(xiàn)象的主要原因是對本借關(guān)系的分類還不夠科學以及缺乏判定本借關(guān)系類型的固定標準,因此亟待制定出一套符合漢字本借關(guān)系實際的本借關(guān)系類型字段標注規(guī)則。
3.標注環(huán)境與本借關(guān)系實際不相符。標注環(huán)境與本借關(guān)系實際不相符主要表現(xiàn)在以下兩個方面:其一,因漢字本借關(guān)系是文獻角度的字際關(guān)系,文獻例證是本借關(guān)系判定的重要依據(jù),在不同文獻例證中,相同的字頭可能構(gòu)成不同類型的本借關(guān)系,但在目前的標注環(huán)境下,對本借關(guān)系類型字段進行標注時只能標注一種關(guān)系類型;其二,由于本借關(guān)系界面的字頭以字形作為區(qū)別性特征,但不同文獻例證中出現(xiàn)的同一組字存在構(gòu)成不同類型的本借關(guān)系且其中某一字在兩個文獻中古音可能存在差別的情況,在標注時需要分別進行標注,但目前的標注環(huán)境還無法做到將形體相同、古音不同的字形分別標注,有待完善。
1.反—返?!墩f文解字·又部》:“反,覆也?!盵4]233后引申出“返回”義,后為此義新造“返”字形。《說文解字·辵部》:“返,還也?!盵4]137作“返回”之義時在古代文獻中 “反”與“返”多通用,例如《史記·魏公子列傳》:“公子往而臣不送,以是知公子恨之復返也?!盵5]117再如《左傳》僖公二十三年:“楚子饗之曰:‘公子若反晉國,則何以報不谷?’”[6]64又如南朝宋劉義慶《世說新語·文學》:“丞相與殷共相往反,其馀諸賢,略無所闕。”[7]39南朝梁丘遲《與陳伯之書》:“夫迷涂(途)知反,往哲是與,不遠而復,先典悠高?!盵8]44據(jù)以上例證可知,“返回”義在文獻中可作“反”,也可作“返”,屬于同源通用。二字都為“返回”義的本字,“反”為古本字,“返”為后造本字,構(gòu)成本借關(guān)系中古本字與后造本字的關(guān)系。在字書字料庫本借關(guān)系界面標注如圖3所示:
圖3 “反”與“返”本借關(guān)系界面標注示意圖
2.早—蚤?!墩f文解字·日部》:“早,晨也。”[4]302本義為早晨。《詩經(jīng)·召南·小星》疏:“晨初為早?!盵9]22《說文解字·蟲部》:“蚤,□人跳蟲也?!盵4]1113本義為會咬人的跳蚤。二字意義毫不相關(guān),但古人在本該用“早”這一字形時多借用“蚤”。例如《詩經(jīng)·豳風·七月》:“四之日其蚤,獻羔祭韭。”[9]222又如《史記·秦始皇本紀》:“公何不蚤告我?”[5]206“早”與“蚤”在上古均屬精母幽部,二字構(gòu)成漢字本借關(guān)系中本字與通假字的關(guān)系。在字書字料庫本借關(guān)系界面標注如圖4所示:
3.容—由。《說文解字·宀部》:“容,盛也。”[4]579本義為盛受,在部分文獻典籍中被借作表“使用”之義,為“用”之借字,二字構(gòu)成本借關(guān)系中本字與通假字的關(guān)系。例如《左傳》昭公元年:“中聲以降,五降之后,不容彈矣?!盵6]168又如《荀子·大略》:“有分義,則容天下而治?!盵10]293而“由”字在古代文獻中亦存在被借作表“使用”之義,是用之借字,二字構(gòu)成本字與通假字之關(guān)系,例如《左傳》襄公三十年:“以晉國之多虞,不能由吾子,使吾子辱在泥涂久矣?!盵6]300因此,“由”與“容”在“使用”義上同屬“用”之通假字,構(gòu)成通假字與通假字之關(guān)系。在字書字料庫本借關(guān)系界面標注如圖5所示:
圖5 “容”與“由”在本借關(guān)系界面標注示意圖
圖6 “直”與“值”在本借關(guān)系界面標注示意圖
字書字料庫本借關(guān)系界面標注完成后的應用是標注的主要目的,因此對于此界面標注完成后如何應用的研究同樣十分重要。字書字料庫作為新興的漢字學研究工具,它不僅能夠通過自身的優(yōu)勢對已有的漢字學研究成果進行驗證,還能夠使傳統(tǒng)漢字學從新視角得到闡釋并產(chǎn)生新的發(fā)現(xiàn)。就本借關(guān)系而言,一旦此界面標注完成的數(shù)據(jù)達到一定規(guī)模后,不僅漢字學理論方面的研究得以應用,包括音韻學、訓詁學、教育等領(lǐng)域皆可獲益。下面對本借關(guān)系標注完成后可應用的領(lǐng)域進行介紹,說明本借關(guān)系標注在研究應用方面的作用。
字書字料庫可以為漢字學研究提供大量的漢字本借關(guān)系信息,待標注完成后,利用字書字料庫的數(shù)據(jù)統(tǒng)計功能對漢字本借關(guān)系的各字段進行數(shù)據(jù)統(tǒng)計,可對漢字本借關(guān)系進行全面而系統(tǒng)的了解與認識,同時還能夠驗證已有的關(guān)于漢字本借關(guān)系的研究成果,意義重大。例如部分學者在對“通假”的界定中多有“通假只是甲字通乙字,而乙字絕不能代替甲字”的論斷,在對本借關(guān)系中本字與通假字的關(guān)系研究過程中,筆者發(fā)現(xiàn)上述論斷還很值得商榷。部分構(gòu)成本借關(guān)系中本字與通假字關(guān)系的字組都可互為通假字,稱之為“互通”。學界對于通假字的研究中也存在類似于“單通”“互通”的分類,很多學者都認為通假字中“單通”的數(shù)量是遠大于“互通”的,待字書字料庫漢字本借關(guān)系界面完善后,增設(shè)“單通”與“互通”的字段,待標注完成后,使用者可以通過對本字與通假字關(guān)系中構(gòu)成單通、互通通假關(guān)系的數(shù)量進行統(tǒng)計,以對上述觀點進行驗證。
以往字典、辭書的編纂工作基本上依靠人工來完成,效率較低,失誤率較高。在字際關(guān)系溝通方面較多依賴人工進行,因所依據(jù)資料數(shù)量與質(zhì)量的限制難免出現(xiàn)失誤,字書字料庫可為以上工作提供大量的資料,待字書字料庫本借關(guān)系界面標注完成后,字典辭書的編纂者可借助字書字料庫對字典辭書中字頭的字際關(guān)系進行溝通,即可通過查閱字書字料庫中相關(guān)字料信息并加以分析取舍,從而對相關(guān)字料進行本借關(guān)系的溝通。
語文教材是語文學習的重要組成部分,它既是教師教學的主要依據(jù),又是學生學習的重要憑借,因此語文教材編寫的優(yōu)與劣將直接影響到學生學習語文的好壞。古詩文是語文教材內(nèi)容中重要的組成部分,古詩文注釋是學生讀懂古詩文的重要工具,但大多古詩文注釋存在著字際關(guān)系溝通錯誤、注釋術(shù)語混用等問題。漢字本借關(guān)系界面標注完成后,可為教材編纂者提供大量漢字本借關(guān)系的資料,教材編纂者可利用字書字料庫對古詩文中的漢字字際關(guān)系進行溝通,特別是古本字與后造本字、本字與通假字的溝通與注釋。
通假字判定的主要依據(jù)為古音相同或相近,因此在對中古音和上古音進行研究時,通假字是重要的研究材料。學界目前對于音韻學的研究多是基于各種語言材料的舉例性論證,這種方式更加注重語言材料的多樣化,能夠顯示出某種語言規(guī)律所具有的普遍性和必然性,但也往往會忽略語言材料的系統(tǒng)性和完整性。因此,待字書字料庫漢字本借關(guān)系界面標注完成后,可借助字書字料庫本借關(guān)系界面的某一部或幾部字書對文獻中的通假字某韻部字與各聲紐的關(guān)系進行考察,可對已有的古音研究成果進行驗證,亦可有所突破。下面筆者以《通用規(guī)范漢字字典》中構(gòu)成本借關(guān)系的明母字與其他聲母字通假頻次的數(shù)據(jù)統(tǒng)計為例,簡要說明本借關(guān)系標注在音韻學方面的應用。
李方桂先生提出了“唇塞音互諧,不常跟鼻音(明)互諧”[13]15這一諧聲原則,說明明母字不常與“幫滂並”三母相互通假。筆者試圖以本借關(guān)系界面已經(jīng)標注完成的《通用規(guī)范漢字字典》中所涉及的明母字通假頻次數(shù)據(jù)統(tǒng)計為例證,為李方桂先生的論斷提供佐證。具體操作過程為:以字書字料庫公共界面的高級查詢功能為研究工具,首先統(tǒng)計出《通用規(guī)范漢字字典》中存在本借關(guān)系的明母字數(shù)量,即主輔字頭中存在明母字本借關(guān)系的組數(shù)。其次,對與明母字字頭構(gòu)成本借關(guān)系字頭的上古聲紐地位分別進行統(tǒng)計,詳見表1。
表1 明母字通假頻次統(tǒng)計數(shù)據(jù)
從表1中可以看出明母與同部位塞音間有著非常明顯的界限,表中明母與幫母相通28次,與滂母相通僅5次,與並母相通僅10次,三母與明母相通僅占明母所有通假次數(shù)(425)的10.12%。這一數(shù)據(jù)與李方桂先生所言“唇塞音互諧,不常跟鼻音互諧”這一聲韻原則是相符合的。但明母與同部位塞音還有一小部分可以互諧,關(guān)系較為密切,因此二者亦不能截然分開。
本文依托渤海大學字書字料庫(CCFD)對字書字料庫漢字本借關(guān)系標注從理論、實踐、應用三個方面進行了研究探討。首先,在理論方面,探討了在字書字料庫本借關(guān)系界面標注時應遵循的原則,主要包括標注所依據(jù)資料的多元化原則、主客觀相結(jié)合原則、規(guī)范性原則、更新補充原則、獨立性原則等,還介紹了標注的內(nèi)容、標注的方式、標注的流程等理論問題,初步建立了字書字料庫本借關(guān)系界面標注的理論基礎(chǔ);其次,在實踐方面,介紹了現(xiàn)階段本借關(guān)系界面的標注框架,并對標注實踐過程中所發(fā)現(xiàn)的現(xiàn)有標注框架的不足進行了總結(jié);最后,在應用方面,設(shè)想了本借關(guān)系界面標注完成后所能夠應用的領(lǐng)域及解決的問題。
雖然字書字料庫本借關(guān)系界面標注不論在理論建設(shè)方面還是在具體實踐方面都仍處于初級階段,還有很多問題亟待進行深入地討論研究。但筆者相信,隨著本借關(guān)系標注實踐的深入開展,以上問題就會陸續(xù)得到解決。標注實踐中所形成的本借關(guān)系標注理論會愈加符合本借關(guān)系實際,本借關(guān)系界面標注框架和標注環(huán)境也會朝著科學化、便捷化的方向邁進。字書字料庫本借關(guān)系界面的發(fā)展也會為漢字學及相關(guān)學科的研究提供更多便利,帶來更多新的研究成果。