張瑞朋
(中山大學(xué) 國際漢語學(xué)院,廣東 廣州510275)
目前在對外漢語教學(xué)與研究方面,中介語語料庫的建設(shè)與運用是個熱門,但是漢字偏誤標注信息,尤其是錯字信息在中介語語料庫中體現(xiàn)得還不夠。
北京語言大學(xué)HSK動態(tài)作文語料庫是目前公開的規(guī)模較大的綜合性語料庫。該庫從字、詞、句、篇、標點符號等角度對語料進行了全面標注,其中關(guān)于漢字的標注項目有:錯字、別字、漏字、多字、繁體字、異體字、拼音字等。語料庫對錯字的處理方式是:在語料中用正確字代替錯字,并在旁邊標注出錯字符號,用戶要想查看錯字原貌,必須打開原始的掃描語料。但因為掃描版中的錯字沒有編碼,故無法直接檢索和統(tǒng)計,更無法進行字形對比。其他能見到的語料庫中,錯字偏誤標注信息也不充分,僅僅表示是錯字或者別字,這除了與計算機技術(shù)水平有關(guān)外,也與語言學(xué)界對漢字偏誤的研究有關(guān)。
留學(xué)生“學(xué)習(xí)一定的漢語詞匯,對漢語和母語詞匯方面的差異有了一定的了解,學(xué)生在運用漢語詞匯的時候,就會有意識地擴大這種差異,由于掌握的漢語詞匯知識的不足,從而導(dǎo)致偏誤”[1]。偏誤分析自中介語理論引進以來,在我國已全面展開研究。目前關(guān)于偏誤分析,主要集中于詞匯和語法方面,在外國人書習(xí)漢字的偏誤方面雖已有所探討,但尚未系統(tǒng)展開。關(guān)于外國人書習(xí)漢字的偏誤,學(xué)界主要有對漢字偏誤進行分類、考察漢字習(xí)得的形音變化情況、漢字國別化區(qū)域化研究等幾個方面,其中對漢字偏誤進行分類研究的主 要 有 朱 志 平、哈 麗 娜 (1996)[2]、施 正 宇(1999)[3]、施正宇(2000)[4]、肖奚強(2002)[5]等。這些分類顯得比較隨意,有的分類標準不太統(tǒng)一,有的分類交叉重疊,錯字和別字仍是漢字偏誤的主要界限,并且對偏誤成因也沒有比較系統(tǒng)的分析,不太適合標注語料庫中的漢字偏誤。況且眾多分類都是給出特定的類型標簽之后,再舉例說明,個例的分析固然很有必要,但不容易展示一種內(nèi)在傾向性。本文在大規(guī)模語料調(diào)查的基礎(chǔ)上,盡可能系統(tǒng)、充分地揭示出其內(nèi)在的規(guī)律性,并從漢字認知的角度做出相應(yīng)的說明。這種大規(guī)模語料庫驅(qū)動的漢字習(xí)得研究或許給漢字乃至漢語習(xí)得研究提供一種新視角,展示一種新思路。
眾所周知,外國學(xué)生書寫的偏誤漢字中有一部分跟中國人的錯別字不同,比如,將“竹”字頭寫成英文字母k,“女”寫成近似兩個半圓,這與受其母語負遷移影響有關(guān)。又如,把“云”寫成“臺”,把“筆”寫成“笑”,把“在”寫成“左”,把“受”寫成“愛”,把“絕”寫成“綠”,這些偏誤漢字是成字的,但是音意都無關(guān),只是字形有相似之處。尤其像“在”寫成“左”,也可以說是因漏掉一筆而錯寫成了“左”,中國人一般不會寫這樣的別字。這些字到底歸為錯字還是別字,是有爭議的,本文不再以錯字和別字作為劃分漢字偏誤的主要界限,而是從語料庫中錯別字的標注需求出發(fā),立足于現(xiàn)有的對外漢語偏誤分析的研究成果,從筆畫、部件、整字3個層級,從偏誤特征和偏誤成因入手,對外國學(xué)生漢字書寫偏誤進行新視角研究。
因為日韓學(xué)生有漢字背景,其筆下的漢字有的是不再使用的繁體字,比如,把“書”寫成“書”,把“異”寫成“異”,有的是跟現(xiàn)代漢字有區(qū)別的本國漢字,比如,日本學(xué)生把“游”寫成“遊”,“賴”寫成“”,“坐”寫成”,“錢”寫成”,有的漢字受本國繁體字影響而局部用繁體局部用簡體,如,把“驗”寫成“ ”,“訓(xùn)”寫成“訓(xùn)”,“結(jié)”寫成“結(jié)”。這些漢字很難說是傳統(tǒng)意義上的別字,也很難說是錯字,在語料庫中標注錯別字時必須把這些現(xiàn)象分開來處理,并區(qū)別日韓背景和非日韓背景下的漢字。下文討論主要是針對非日韓背景下的漢字書寫。
筆畫和部件是現(xiàn)代漢字的結(jié)構(gòu)成分。獨體字直接由筆畫構(gòu)成,合體字的結(jié)構(gòu)則有筆畫、部件、整字3個層次。本文即從筆畫、部件、整字這3個層級來分析漢字的偏誤特征,即,筆畫偏誤、部件偏誤、整字偏誤。
筆者調(diào)查了中山大學(xué)漢字偏誤標注的漢語連續(xù)中介語語料庫,一共收集錯字種類2103個,錯字共8045個,根據(jù)字形表面偏誤特征,把偏誤類型分為遺漏、誤加、誤代、錯位①在詞匯和語法偏誤中,錯序和錯位是相同的概念,但在漢字偏誤中,因為漢字是平面的、方塊的,筆畫、部件的位置會寫錯,所以統(tǒng)一用錯位概念比較好。和雜糅5種。我們對偏誤類型的歸納雖然仍基于偏誤分析中的基本思路而做出概括,但我們側(cè)重于每種偏誤類型的內(nèi)在結(jié)構(gòu)關(guān)系,而不是簡單地收集錯誤的用例。(下面舉例中,短橫“—”之前的為正字,其后的為偏誤漢字,用“*”標示出來)
漢字書寫中的遺漏情況只能出現(xiàn)在筆畫和部件這兩個層面。
部件遺漏則基本上是由于不會寫某個字而以同音字或近音字代替的結(jié)果。如:城—*成、萍—*蘋、較—*交、畢—*比、健—*建、稼—*家、歷—*力。有時則跟語音并不相關(guān),如:色—*巴。還有部件遺漏后不成字的情況,如:隨—*這種情況往往是本字具有較復(fù)雜的多層次結(jié)構(gòu)。
相對于筆畫遺漏,部件遺漏的偶然性較大。遺漏現(xiàn)象在國別中體現(xiàn)出高度泛國別化特征,但是筆畫遺漏多發(fā)生在學(xué)習(xí)者的初級階段,部件遺漏則在初中高級都會發(fā)生。
漢字書寫中的誤代情況在筆畫、部件和整字這三個層面都有體現(xiàn)。
整字誤代既有用形近字來代替本字的,如:買—*頭、辦—*為、云—*會、木—*術(shù)、真—*直、見—*貝、來—*傘、代表—*化表、臺—*云、夏—*復(fù);也有用音同或音近的字來代替本字的,如:青—*輕、齡—*領(lǐng)。形近字的誤代占多數(shù),這跟我們教授漢字的過程相關(guān)。
凡是筆畫寫錯位置或者筆畫出頭與否而導(dǎo)致筆畫關(guān)系出錯的,都是錯位。既有筆畫的錯位,也有部件的錯位。
部件錯位是指合體字中的兩個部件位置互換而形成的錯字,如:像“還”寫成將半包圍結(jié)構(gòu)的漢字寫成左右結(jié)構(gòu)),也可看作部件錯位。施正宇(1999)有關(guān)部件的偏誤類別中的“部件異位”和“結(jié)構(gòu)異位”大多屬于此,如:“加”寫成““規(guī)”寫成“ ”;肖奚強(2001)“部件的變形和變位”中的“部件鏡像變位”也屬于這種情況,如“和”寫成“ ”,“知”寫成”[6]。本文的部件錯位的所指范圍要比他們的寬泛。
筆畫錯位和部件錯位多發(fā)生在非日韓國家學(xué)習(xí)者的初級階段。
誤加指書寫者在寫字的過程中,添加了不應(yīng)有的筆畫或部件。筆畫誤加如:施正宇(1999)在偏誤類別中沒有談到“誤加”[2],而施正宇(2000)“形符類推”和“形符累加”中的“加形符”都屬于部件誤加[3];肖奚強(2001)中“部件的增加”也屬于部件誤加[5]。綜觀誤加的情形,誤加后形成的部件大多是一個既已存在的漢字部件;即便有的在現(xiàn)代漢字系統(tǒng)中不存在,但其誤加之處也往往受到形似部件尤其是偏旁的影響。這里也可以看出漢字結(jié)構(gòu)化意識對漢字習(xí)得的影響。
筆畫誤加多發(fā)生在非日韓學(xué)生的初級階段,部件誤加則在初中高級都可能發(fā)生。
所謂雜糅,就是講兩個漢字的相關(guān)部件“整合”在了一起,造出了一個不存在的漢字。如將“該”寫成“ ”,實際是“應(yīng)”和“該”的雜糅(朱其智,2009)[7]。同樣,“她”寫成“ ”,應(yīng)該是“他”和“女”的雜糅,“起”寫成,實際是“起床”各取一部分的雜糅,“服”寫成,應(yīng)該是“服”和“務(wù)”的雜糅,“那”寫成,應(yīng)該是“那”的左邊和“個”的雜糅??梢钥闯鲭s糅中有一部分是把經(jīng)常放在一起使用的兩個漢字,各自取一部分放在一起。這是一個值得深入考察的認知現(xiàn)象,其錯字形成的機制從一個特殊的角度揭示了漢字形體和意義之間的關(guān)聯(lián),而這是傳統(tǒng)漢字研究所不關(guān)心的問題。
雜糅反映了學(xué)習(xí)者對部件有了一定認識,又沒有完全掌握漢字書寫,這時就可能發(fā)生不同部件混雜在一起的現(xiàn)象。
除上面所述的幾種偏誤特征以外,跟語法偏誤不同,漢字的幾種偏誤形式是可以同時存在并互相轉(zhuǎn)化的。筆畫遺漏可以導(dǎo)致部件誤代,如:筆畫誤加也可以導(dǎo)致部件誤代,如:誤代也可以導(dǎo)致部件誤代,如漏也可導(dǎo)致部件誤代,如:明—* ;在同一個漢字中,也可能同時存在筆畫遺漏和筆畫誤加,如:
施正宇(1999)在每類偏誤字“表現(xiàn)形式”一欄中所提的“形符形近”、“形符意近”、“詞義干擾”、“修飾詞干擾”、“量詞干擾”、“中心詞干擾”其實都是根據(jù)“偏誤成因”所做的分類,但她只是在“形符類推”一類中,把“形符類推”、“詞義干擾”這些偏誤特征歸為“錯誤原因”[2]。肖奚強(2002)所列的三大類偏誤中的小類,如:形近改換、意近改換、類化改換;母語遷移變形、部件鏡像變位都是根據(jù)偏誤成因再做的分類[4],但分類標準不統(tǒng)一。本文用偏誤分析中的偏誤成因來統(tǒng)一規(guī)范和分析它們。偏誤分析在分析語法偏誤時把偏誤成因分為母語負遷移、交際策略、學(xué)習(xí)策略、目的語規(guī)則泛化、誤導(dǎo)等,但漢字畢竟是平面的、方塊的,學(xué)生在習(xí)得漢字時形成的偏誤有跟語法偏誤成因相同的,也有其不同的,跟漢字本身的獨特特點有關(guān)。
漢字的基本組成零件是筆畫和部件,筆畫層面的錯字產(chǎn)生的根本原因是學(xué)習(xí)者沒有正確掌握筆畫的屬性,即筆畫的數(shù)目、形狀、組合關(guān)系,甚至于書寫過程中的筆順。如果這個問題解決了,用非筆畫單位來代替筆畫的現(xiàn)象也就會解決,如:因筆畫不規(guī)范而造成的錯字也可以解決,如象說明學(xué)生正處于學(xué)習(xí)漢字的模糊狀態(tài),沒有真正掌握漢字筆畫書寫。
部件是漢字的構(gòu)形單位,部件層面的錯字產(chǎn)生的根本原因是學(xué)習(xí)者沒有把握住部件的意義特征。形聲字的形旁表意,聲旁表音,抓住這一特點,將會有利于外國學(xué)生學(xué)習(xí)漢字。留學(xué)生有些錯字反映了學(xué)生并未掌握形聲字這一特點。比如:疾病— ,表示學(xué)生不明白“ ”表示疾病的意義。療— ,說明學(xué)生沒有掌握形聲字聲旁表音特點。這些都說明學(xué)生未抓住形旁的意義特征。
筆畫和部件是漢字的兩個基本組成,不徹底解決這兩個層面的問題,外國學(xué)習(xí)者對于漢字的認識無法達到理性的高度,但是漢字書寫并不是解決了筆畫和部件就能徹底解決的問題。外國學(xué)生書寫漢字出現(xiàn)偏誤的原因比較復(fù)雜,跟漢字本身的特點有關(guān),也與其自身的知識背景和習(xí)得過程有關(guān)。
1.母語文字系統(tǒng)的負遷移
學(xué)界對漢語習(xí)得中的母語負遷移現(xiàn)象有了比較深入的探討,但對漢字習(xí)得中的母語文字系統(tǒng)的負遷移現(xiàn)象認識不多。這可以從兩個方面來看。
拼音文字背景學(xué)生的負遷移主要是在書寫時用字母等來替代漢字的筆畫。比較常見的如把“竹”字頭寫成兩個字母k,如“笑”、“筆”寫成其他偏誤。又如把的右半部寫成字母寫成數(shù)字3。當(dāng)然,這種情況的出現(xiàn),有些是由于寫漢字的隨意性造成的。
2.錯誤類推
錯誤類推是指,漢字偏誤的出現(xiàn)是由于學(xué)習(xí)者根據(jù)上下文或者學(xué)生本身的語言知識進行的錯誤類推而形成的。這是在學(xué)習(xí)習(xí)得一定的漢字部件、并具備了相當(dāng)?shù)臐h字結(jié)構(gòu)意識之后經(jīng)常出現(xiàn)的偏誤情況。漢字習(xí)得過程中的錯誤類推雖然相當(dāng)復(fù)雜,但集中體現(xiàn)為下面3種情況:
受經(jīng)常作為詞出現(xiàn)的另一個漢字的影響。也就是說,如果兩個漢字經(jīng)常在一起出現(xiàn),頻率很高,學(xué)生則會把這兩個漢字混淆。比如:痛苦—*疼苦,據(jù)說—*根說。大概因為“疼痛”這個詞經(jīng)常出現(xiàn),學(xué)生混淆了“疼”和“痛”,把“痛苦”寫成“疼苦”。“根”和“據(jù)”一起出現(xiàn)的頻率較高,學(xué)生也混淆了這兩個漢字,把“據(jù)說”寫成“根說”。也就是說,經(jīng)常作為詞出現(xiàn)在一起的兩個漢字,學(xué)生可能會混淆這兩個漢字。這個現(xiàn)象也值得進一步考察,學(xué)生在習(xí)得一部分漢字的時候,是把他們作為整體詞語習(xí)得的,但是分開后,對每個漢字,掌握得并不好。
受學(xué)生本身已經(jīng)內(nèi)化的語言知識影響。除了受上下文影響,有些偏誤產(chǎn)生于學(xué)生已經(jīng)內(nèi)化的語言知識。這可能是書寫者根據(jù)“亻”與人有關(guān),“忄”、“心”與心理活動有關(guān)、“美”與女人有關(guān)而類推的。又比已經(jīng)有了形聲字聲旁意識,認為“努力”可能跟“女”有關(guān),所以下半寫了“女”。又比如:趣—*說明學(xué)生已經(jīng)明白形符的表意作用,只是不懂得不同的漢字形符有時是固定不能隨意變化的。再比如,“祝”寫成學(xué)生考慮到“祝福、祝賀”要用嘴說話,所以寫成“讠”;“塊”寫成“* ”,是因為學(xué)生考慮到“塊”是“錢”的量詞,所以和“錢”的偏旁一樣。施正宇(1999)中的形似形符替代、義近形符替代、相關(guān)形符替代和形符類推中的偏誤字,都是學(xué)生根據(jù)本身已經(jīng)內(nèi)化的語言知識而推出的錯誤形式。這些例子有些漢字雖然是錯誤的,卻能反映出學(xué)生選擇漢字時并不是盲目的,有些錯誤倒帶有一定的理據(jù)性,還能自圓其說,對這類錯誤,如果教師平時好好引導(dǎo)應(yīng)該可以避免。
3.羨余
漢字有一定羨余性,即表意時用了多余的信息來表達。漢字羨余度比拼音文字要大,留學(xué)生利用漢字的羨余現(xiàn)象,從而形成漢字偏誤。在中山大學(xué)的漢字偏誤連續(xù)性中介語語料庫中,分別有一些越南、菲律賓、印尼、俄羅斯等學(xué)生把“鯉魚”、“鯊魚”寫成“*里魚”、“*沙魚”的情況,而在“錦鯉”和“大白鯊”等詞語中,“鯉”和“鯊”都書寫正確。大概是因為“鯉魚”、“鯊魚”這些詞中,有類名“魚”存在,專名“鯉”和“鯊”字中的形旁“魚”就是羨余的,所以學(xué)生會把形旁“魚”漏掉,而在“錦鯉”和“大白鯊”等詞語中,沒有類名“魚”存在,“鯉”和“鯊”字形旁就沒有遺漏[5]。再比如:在柬埔寨的學(xué)生作業(yè)中,學(xué)生把“米粉”寫成“*米分”,但在“吃粉還是吃面”中,因為沒有“米”的出現(xiàn),“粉”的形旁就沒有遺漏。在另一個柬埔寨的學(xué)生作業(yè)中,出現(xiàn)了把“車輪”寫成“車*侖”,但是在“輪到我”中,形旁“車”則沒有出現(xiàn)遺漏。①朱其智老師提供,來自柬埔寨不同的學(xué)生作業(yè)。這種因為漢字羨余而形成漢字偏誤的現(xiàn)象在不同國別的不同學(xué)生中,尤其是非日韓學(xué)生的中高級階段,呈現(xiàn)出一定規(guī)律性,并非個別化現(xiàn)象,這種現(xiàn)象值得我們特別的關(guān)注。
據(jù)前文分析可知,留學(xué)生的“錯字”和“別字”跟中國人筆下的“錯字”和“別字”有所不同,所以,對留學(xué)生筆下的“錯字”和“別字”重新界定目前還比較困難,上文從筆畫、部件、整字3個層級上對偏誤漢字做統(tǒng)一的分析,可以避免錯別字難以區(qū)分的問題。同時,這種分析可以使?jié)h字偏誤特征表現(xiàn)得更加細致而有體系,方便漢字偏誤研究。我們在實際語料中可以據(jù)此標注,先從外觀上,對漢字偏誤從筆畫、部件、整字3個層次按照客觀特征來標注。筆畫誤加標為bhwj,筆畫遺漏標為bhyl,筆畫誤代標為bhwd,筆畫錯位標為bhcw;部件誤加標為bjwj,部件遺漏標為bjyl,部件誤代標為bjwd,部件錯位標為bjcw,部件雜糅標為bjzr;整字誤代標為zzwd。偏誤原因可以作為參數(shù),比如個偏誤漢字是部件誤代,正字是“陌”,原因是母語負遷移。又如:,表示偏誤和正字之間是部件誤代的關(guān)系,偏誤成因是偏誤漢字跟正字字形相近。領(lǐng)zzwd(齡,音近),表示括號外的偏誤漢字和括號里的偏誤漢字是整字誤代的關(guān)系,成因是括號外的偏誤漢字跟括號里的正確漢字音近。
我們在錯字數(shù)據(jù)庫中將把遺漏的筆畫、部件作為這種特征的參數(shù)標出來。比如:遺標為bhyl(貳,內(nèi)橫),參數(shù)表示“貳”遺漏“內(nèi)橫”,誤示“圈”誤代了,并且是bhwd(豎橫折,撇),表示“貝”誤代了“見”,并且是“撇”誤代了“豎橫折”。標為(起〈走〉,床〈木〉),表示“起”的“走”部和“床”的“木”部雜糅。
中山大學(xué)漢字偏誤標注中介語語料庫已經(jīng)有200多萬字,同時還依據(jù)這個語料庫建立了一個附屬數(shù)據(jù)庫:錯字數(shù)據(jù)庫,其目的就是方便各種筆畫、部件、漢字錯誤特征和偏誤成因的調(diào)查和統(tǒng)計?,F(xiàn)在該錯字數(shù)據(jù)庫已經(jīng)收集2000多個錯字字類,8000多個錯字,本文的各種漢字實例即來自該數(shù)據(jù)庫。同時,我們已經(jīng)依據(jù)這種標注體系在2萬字的中介語語料中進行實驗,結(jié)果表明,這種標注體系可以避免留學(xué)生部分偏誤漢字到底是別字還是錯字的爭論。從偏誤客觀特征進行分類,比較概括,它將分散的類上升到客觀特征,便于看出正確與錯誤的差別。同時這個分類,邊界清晰,偏誤特征客觀易見。
目前,漢語中介語語料庫中的漢字偏誤尤其是錯字標注信息極少,這與計算機技術(shù)的發(fā)展有關(guān),更與語言學(xué)界對漢字偏誤的研究有關(guān)。語料庫中的漢字偏誤標注,要求漢字偏誤分類邊界清晰,符號意義明了,便于檢索,同時能用簡單的方法標注出偏誤成因,則能進一步為用戶提供幫助。這樣的分類和研究才能適合在語料庫中運用。上述研究即撇開了傳統(tǒng)的基于錯字和別字的分類,而是從筆畫、部件、整字3個層面,對偏誤特征和偏誤成因進行了分析,這種分類可能更有利于漢語中介語語料庫中偏誤漢字的標注,同時這種體系的設(shè)計和規(guī)范也是出自正在建設(shè)的錯字數(shù)據(jù)庫。因此本文的研究來源于語料庫,同時得出的結(jié)論又應(yīng)用于語料庫,對漢字偏誤的進一步標注具有實踐價值和意義。
[1]臧志文.HSK作文語料庫中出現(xiàn)的逆序詞現(xiàn)象分析[J].大理學(xué)院學(xué)報,2011,(9).
[2]朱志平.漢字構(gòu)形學(xué)說與對外漢語教學(xué)[J].語言教學(xué)與研究,1996,(4).
[3]施正宇.外國留學(xué)生形符書寫偏誤分析[J].北京大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1999,(4).
[4]施正宇.外國留學(xué)生字形書寫偏誤分析[J].漢語學(xué)習(xí),2000,(2).
[5]肖奚強.外國學(xué)生漢字偏誤分析[J].世界漢語教學(xué),2002,(2).
[6]朱其智.偏誤生成學(xué)的范圍和方法[J].學(xué)術(shù)研究,2009,(8).