王 卉
(銅陵學(xué)院,安徽 銅陵 244061)
語碼轉(zhuǎn)換是指在同一對話條件下,使用不同的語言變體形式的一種語言現(xiàn)象。由于它具有多維度的特點(diǎn),因此可以在英語翻譯中滿足不同類型的需求,這種方式已經(jīng)成為最受關(guān)注的語言接接觸現(xiàn)象。近些年,語碼轉(zhuǎn)換被應(yīng)用在不同的學(xué)科領(lǐng)域中,對于語碼轉(zhuǎn)換的研究多集中在心理學(xué)、翻譯學(xué)和腦科學(xué)中,使用這種方式可以將單一的語言功能進(jìn)行擴(kuò)充,對于翻譯過程中的認(rèn)知加工可能存在一定的影響。目前的語碼轉(zhuǎn)換已經(jīng)有較多學(xué)者進(jìn)行了研究,其中,程曉麗(2019)從社會(huì)文化理論的角度,分析了課堂語碼轉(zhuǎn)換應(yīng)用中存在的問題,發(fā)現(xiàn)在課堂中需要從宏觀微觀、動(dòng)態(tài)和靜態(tài)兩個(gè)角度來將不同的語言進(jìn)行合理的應(yīng)用[1];陳忠怡(2019)通過實(shí)際的調(diào)研發(fā)現(xiàn)中小學(xué)英語教學(xué)中存在語碼混亂的現(xiàn)象,這嚴(yán)重阻礙了小中小學(xué)英語教學(xué)的有序開展[2];王平(2020)認(rèn)為在語碼轉(zhuǎn)換中需要強(qiáng)調(diào)說話者語言本體的含義,正確理解語碼轉(zhuǎn)換與超語的差異性,合理地利用對應(yīng)的語言表達(dá)方式,這樣才能有效避免歧義內(nèi)容的出現(xiàn)[3]。雖然現(xiàn)有的語碼轉(zhuǎn)換無論從語言形式上還是從句內(nèi)研究模式上都較以往更為復(fù)雜,但是目前的句法仍缺乏經(jīng)濟(jì)性、統(tǒng)一性和普適性。在研究方法上,目前的語碼轉(zhuǎn)換大多采用定性描述和舉例的方法,多從翻譯的句法和詞匯專業(yè)角度來進(jìn)行分析,缺乏對單個(gè)詞匯的整體認(rèn)知研究?;谝陨蠁栴},本文的核心在于解決語碼轉(zhuǎn)換在漢英翻譯認(rèn)知加工中存在的問題。研究者以語法依存為理論依據(jù),將依存距離和依存方向作為衡量指標(biāo),分析語碼轉(zhuǎn)換對于漢英翻譯句法變異的影響,以句法為研究對象,通過句子閱讀心理實(shí)驗(yàn)驗(yàn)證和自控步速實(shí)驗(yàn),給予語料庫,分析了單個(gè)詞匯語碼轉(zhuǎn)換認(rèn)知加工影響因素,以期為漢英碼轉(zhuǎn)換的應(yīng)用提供一定的研究思路。
語碼轉(zhuǎn)換已經(jīng)成為各個(gè)領(lǐng)域?qū)W者研究的熱門課題。其中,陳菲和王斌(2017)認(rèn)為在網(wǎng)絡(luò)語言中,大量的語碼轉(zhuǎn)換現(xiàn)象已經(jīng)被大眾所接受,通過對互聯(lián)網(wǎng)語碼轉(zhuǎn)換的特點(diǎn)分析,發(fā)現(xiàn)語言實(shí)現(xiàn)和心理動(dòng)機(jī)會(huì)的提高會(huì)導(dǎo)致語碼轉(zhuǎn)換的主動(dòng)性較低[4];Shan等者(2019)引入了多任務(wù)學(xué)習(xí)方式,將語言身份信息融入基本的漢英交流中,通過采用遷移學(xué)習(xí)的方式,將大量的單語普通話和英語數(shù)據(jù)用來補(bǔ)償語碼轉(zhuǎn)換數(shù)據(jù)存在的稀疏性問題,最終在漢英翻譯中的錯(cuò)誤率僅為6.49%[5];Suurmeijer等(2020)研究了不同場域下,語碼轉(zhuǎn)換前后切換位置和切換方向與混合句子處理之間的關(guān)系,發(fā)現(xiàn)混合語句處理前后語碼轉(zhuǎn)換對于句子位置沒有顯著的影響,但是語碼轉(zhuǎn)換會(huì)影響翻譯的句子匹配程度[6];郭嬋嬋(2020)通過分析10年國內(nèi)的語碼轉(zhuǎn)換發(fā)展過程,發(fā)現(xiàn)雖然近幾年國內(nèi)語碼轉(zhuǎn)換研究較多,但是這些研究多集中在采用社會(huì)語言學(xué)的角度來分析語碼轉(zhuǎn)換存在的問題[7];Lee等(2021)提出了一種新的漢語代碼轉(zhuǎn)換自動(dòng)語音識別方法,該方法充分考慮了漢語使用者在英語發(fā)音上的語言差異性,通過語義與目標(biāo)域相似的句子,利用語言模型的自適應(yīng)來處理因訓(xùn)練數(shù)據(jù)不足引起的模型偏向問題,發(fā)現(xiàn)這種方法的錯(cuò)誤率減少到了11.6%,糾正率提高了24.2%[8]。
漢英翻譯作為現(xiàn)在我們文化和思想的輸出的主陣地,受到了越來越多學(xué)者的重視。其中,蔡強(qiáng)和董冬冬(2020)通過使用神經(jīng)網(wǎng)絡(luò)的方式來構(gòu)建了漢英翻譯系統(tǒng),發(fā)現(xiàn)科技論翻譯的錯(cuò)誤目前主要集中在詞匯、句法、邏輯等方面上,且出現(xiàn)的錯(cuò)誤頻率逐次遞減,針對上述問題,作者提出了對應(yīng)的處理策略[9];李奉棲(2021)通過對翻譯學(xué)生漢英翻譯作品在銜接手段與專家組的文章進(jìn)行差異性分析,發(fā)現(xiàn)目前翻譯專業(yè)學(xué)生在翻譯中存在人稱應(yīng)用不足,詞匯過度重復(fù),不善于應(yīng)用詞語銜接等問題[10];通過將漢字分解成類似于印歐語系的語言單位,來啟用中文字符級方式,使用Wubi編碼方案和卷積神經(jīng)網(wǎng)絡(luò)來處理對應(yīng)的語義數(shù)據(jù),發(fā)現(xiàn)該方案不但保留了字符的原始語義信息,還具有較好的模型預(yù)測結(jié)果;Li和Yu(2021)采用系統(tǒng)功能語言學(xué)方法,研究了中英文翻譯過程中存在的問題,研究發(fā)現(xiàn)翻譯人員可以使用多種選擇方式,去除和保留形合關(guān)系的選擇比簡單地將形合改變?yōu)樾魏弦獾倪x擇更為頻繁[11]。
對于語碼轉(zhuǎn)換已經(jīng)有多個(gè)學(xué)科進(jìn)行了研究,其中,語言學(xué)更加關(guān)注語碼轉(zhuǎn)換引起的語言和社會(huì)動(dòng)因變化,在教育學(xué)中,則更多的是研究雙語或者多語方式在課堂教學(xué)中應(yīng)用的實(shí)際效果,人類學(xué)主要用于研究種族文化、語言認(rèn)同的關(guān)系研究,而心理學(xué)和腦科學(xué)中需要研究語碼轉(zhuǎn)換的心理機(jī)制、動(dòng)因或不同語言轉(zhuǎn)換可能存在的大腦分布情況,在句法學(xué)中,更多的是研究語碼轉(zhuǎn)換的分布和限制規(guī)則。對于語言翻譯過程,通過語碼轉(zhuǎn)換可以有效提高翻譯效率和深度,因此本文聚焦該問題,通過實(shí)際的語料庫來分析語碼轉(zhuǎn)換在漢英翻譯認(rèn)知加工中存在的問題,針對相關(guān)的問題分析其內(nèi)在的機(jī)制機(jī)理,并最終提出合適的解決方案。
基于語料庫的方式是自然語言處理領(lǐng)域研究的熱點(diǎn)問題。部分學(xué)者通過將句式、詞義和語篇等內(nèi)容標(biāo)注分類構(gòu)建成對應(yīng)的庫文件。本文采用語料庫是根據(jù)依存語法標(biāo)注的,主要由于該種方式不但能夠進(jìn)行詞類的定量分析,還有助于找到不同句子的依存關(guān)系,與未經(jīng)標(biāo)注的句子相比,經(jīng)過建庫的句子具有更多語言句法結(jié)構(gòu)。研究者收集了主流媒體上的內(nèi)容作為語言庫的構(gòu)建,對于庫的內(nèi)容以兩者報(bào)道同樣的內(nèi)容為參考依據(jù),其中漢語庫包含23,706個(gè)詞語,而英語庫包含792,819個(gè)單詞,采用統(tǒng)計(jì)學(xué)軟件按照支配詞、從屬詞的對應(yīng)依存關(guān)系進(jìn)行合理分類。
本文構(gòu)建的漢英語碼轉(zhuǎn)換依存樹庫包含19,766個(gè)詞匯,其中,漢語為17,268個(gè),英語為3698個(gè),其中有186,952個(gè)依存關(guān)系,漢語單語依存關(guān)系(C-C)為13,698個(gè),英語單語依存關(guān)系(E-E)為1,586個(gè),漢語支配英語從屬混雜依存關(guān)系(C-E)為1,596個(gè),英語支配漢語從屬混雜關(guān)系(E-C)為1,769個(gè)。我們采用依存關(guān)系、依存距離、依存方向作為衡量指標(biāo),根據(jù)統(tǒng)計(jì)的結(jié)果來分析語碼轉(zhuǎn)換對于漢英翻譯的影響。
對于語碼轉(zhuǎn)換在漢英翻譯中的應(yīng)用,我們主要選取依存距離、依存方向兩個(gè)維度來分析,其中依存距離是漢英翻譯分析中的重要指標(biāo),主要是指支配詞與從屬詞之間的線性距離,依存距離可以幫助理解句子的難度,依存距離越大,句法分析的難度就越難。另外依存距離還與助理理解支配詞前后的語言順序,有助于自然語言句法的分析。對于漢語語言來說,只有60%的從屬詞與支配詞相鄰,這明顯低于現(xiàn)有的英語平均水平78%,也低于德語平均水平的65%。漢語語序中支配詞的依存距離遠(yuǎn)遠(yuǎn)大于支配詞。另外依存距離還可以測量人類語言生成和理解的認(rèn)知加工難度。平均依存距離是將不同的句子的所有依存距離進(jìn)行求和平均,確定文章的平均從屬詞與支配詞之間的關(guān)系。依存方向語言詞序類型分類的有效指標(biāo),有的文章從屬詞位于支配詞之前,有的文章從屬詞位于支配詞之后。通過平均依存距離可以發(fā)現(xiàn)句子中存在的變異機(jī)器語碼轉(zhuǎn)換加工消耗程度,在漢英語碼轉(zhuǎn)換中包含單語依存和混雜依存兩種關(guān)系,而語碼轉(zhuǎn)換多出現(xiàn)在依存較長的句法中,且混雜依存相比單語依存具有更長的平均依存距離。
通過數(shù)據(jù)分析可見,相比于單一的漢語和英語平均句長來講,基于語料庫的平均句長更長,且具有顯著性差異(p〈0.001),而對于依存距離,基于語料庫的語言與單一漢語語言具有相同的平均依存距離。通過對相鄰詞間的依存關(guān)系和支配詞局前后的占比情況,分析發(fā)現(xiàn)三種語言形式的相鄰詞間依存關(guān)系占比基本一致,單一的英語語言占比稍高為51.3%,而基于語料庫的相鄰詞匯之間的依存關(guān)系占比為48.3%,高于漢語依存關(guān)系中的47.9%。支配詞局占比前最多的為語料庫和英語語言,而在支配詞之后漢語占比明顯提高。基于以上數(shù)據(jù)說明了在依存方向上,漢英語碼轉(zhuǎn)換庫中存在詞序變異現(xiàn)象。
為了進(jìn)一步明確基于語料庫的語碼轉(zhuǎn)換在漢英翻譯中混雜依存效應(yīng)與單語依存效應(yīng)的關(guān)系,將本文地語料庫與前人研究的成熟Eppler語料庫進(jìn)行對比分析,發(fā)現(xiàn)在單語依存的漢語為支配英語為從屬的依存距離顯著大于英語為支配漢語為從屬的依存距離(p〈0.05),而混雜依存的漢語為支配英語為從屬依存距離也極顯著的大于英語為支配漢語為從屬依存距離(p〈0.01)。單語依存中漢語為支配英語為從屬依存距離顯著大于單語英語依存距離(p〈0.01),但是在混雜依存關(guān)系中卻相反。這主要是由于對于語言紅的支配詞與從屬詞會(huì)隨著依存距離的變化而產(chǎn)生變化,其中依存距離越長,語碼轉(zhuǎn)換的可能性就會(huì)越高。我們?nèi)∑骄颠M(jìn)行了對比發(fā)現(xiàn)本文提出的基于語料庫的語碼轉(zhuǎn)換與Eppler單語依存關(guān)系均小于混雜依存關(guān)系。以上結(jié)果證明了:語碼轉(zhuǎn)換較為容易地出現(xiàn)在具有較長依存關(guān)系的句子中。
為了進(jìn)一步明確語碼轉(zhuǎn)換在長距離漢英翻譯句法關(guān)系的作用。研究選取了常用的四種依存關(guān)系CC、C-E、E-E、E-C,采用四種主要的Subj-主語、Obj-賓語、Atr-定語和Avda-狀語來分析不同句法中的詞匯關(guān)系,圖1(a)為漢語單語和英語單語中四種句法依存關(guān)系結(jié)果,從圖中可以看出:不同的句法關(guān)系和依存類型均具有不同的平均依存距離,而相比于英語來講,漢語的平均依存距離更長,其中差異性最大的為主語,達(dá)到了極顯著的水平,這主要是由于漢語中特有的短句或者結(jié)構(gòu)性語句作為了主語,如:被、把、將等詞語會(huì)被放置于主語的后面或者動(dòng)詞的前面,如圖1(b)所示,我-當(dāng)之間的依存距離在漢語中由于介詞的存在使其依存距離為3,而在英語中Itreat之間僅僅為1的依存距離。
圖1 漢語與英語單語在不同句法中存在的差異性
對于漢語的賓語和英語的賓語之間的依存距離也具有顯著的差異性。其中漢語單依存的關(guān)系為40%,但是在英語中卻高達(dá)60%。漢語中:我買了這本書,動(dòng)詞與名詞之間的依存距離為4,但是英語中I-bought之間的依存距離僅僅為1。由此可以看出,對于語碼轉(zhuǎn)換可能在漢英翻譯中通過詞匯關(guān)系來判斷并確定這種依存距離。
為了進(jìn)一步明確混雜依存關(guān)系中漢語句法相比英語句法具有更長的平均依存距離的原因。我們分析了漢語單語和以漢語為支配英語為從屬的混雜依存關(guān)系中不同句法之間存在的依存距離差異性,發(fā)現(xiàn):在混雜依存關(guān)系中主語和賓語發(fā)生語碼轉(zhuǎn)換的頻率明顯高于定語和狀語,其所有的句法中均相比單語依存關(guān)系具有更長的依存距離,大部分的主語和賓語平均依存距離均大于2,而主語發(fā)生語碼轉(zhuǎn)換的頻率相對較低,在狀語中漢語的依存關(guān)系明顯高于漢英過程。這也就說明了發(fā)生語碼轉(zhuǎn)換的主語和賓語會(huì)處于整個(gè)句子的邊緣中。
如圖2所示,分析了英語單語和以英語為支配漢語為從屬的混雜依存關(guān)系中不同句法之間存在的依存距離差異性,圖a對應(yīng)的依存距離關(guān)系,發(fā)現(xiàn)在混雜依存關(guān)系中定語發(fā)生語碼轉(zhuǎn)換的頻率明顯低于主語和狀語,大部分的英語從屬詞都為形容詞和名詞,從英語到漢語的平均依存距離比從英語到英語的更長,主語中平均依存距離大于2的占比為90%,但是在英語中僅僅占比為20%,但是在英語中主謂語序平均依存距離更長,這就說明了語碼轉(zhuǎn)換的主語會(huì)在漢英翻譯中被轉(zhuǎn)移到邊緣中。圖b為具體的實(shí)例,其中在沒有經(jīng)過翻譯的結(jié)構(gòu)中理解-一切的平均依存距離為5,但是在翻譯后縮短了平均依存距離,這understand-everything的距離僅僅為1。由此也就說明了,混雜依存會(huì)提高英語句法的平均依存距離。
圖2 英語單語混雜依存關(guān)系中不同句法之間存在的依存距離差異性
如圖3所示,圖a為語碼轉(zhuǎn)換漢英翻譯的主要詞序分布情況,其中漢語單語依存中支配詞前后的依存關(guān)系為60.9%,支配詞在前部分的分布為39.1%,這也就說明了漢語是支配詞居后的語言,而在英語中由于句法結(jié)構(gòu)的不同,支配詞居后的依存關(guān)系占比為48.1%,支配詞局前的依存關(guān)系占比為51.9%,這也就說明了英語是支配詞居中的語言。圖b為不同語言形式依存關(guān)系分布情況,發(fā)現(xiàn)漢語到英語中的支配詞前占比較高,而在支配詞后的占比較低,對于英語到漢語的翻譯過程,支配詞后的占比較高,對于支配詞后的占比較低,這主要是由于混雜依存類型中依存方向中的不同導(dǎo)致了語碼轉(zhuǎn)換的詞序變異,從而影響了漢英翻譯的質(zhì)量。
圖3 漢英語碼轉(zhuǎn)換單語和混雜依存分布與句法依存關(guān)系分布情況
如圖4所示,圖(a)為不同句法類型中的依存關(guān)系分布情況,發(fā)現(xiàn)在英語到漢語的翻譯過程中,支配詞居后的類型高于支配詞居前的依存關(guān)系,與英語到英語的翻譯過程,英語到漢語中定語額狀語的分布情況較高,這可能是英語到漢語翻譯過程中賓語的分布較低引起的。圖(b)為單語和混雜依存關(guān)系在不同句法關(guān)系中依存分布情況,發(fā)現(xiàn)英語到漢語翻譯過程中定語和狀語的依存方向大部分為支配詞居后,而賓語中的支配詞相比會(huì)稍微靠前,由此可以看出:定語、狀語比例決定了支配詞居后的依存關(guān)系。
圖4 英語單語混雜依存關(guān)系中不同句法之間存在的依存距離差異性
本研究構(gòu)建的依存庫核心是分析真實(shí)的語言結(jié)構(gòu),通過相同手法的有效標(biāo)注,也為的定量化問題提供了數(shù)據(jù)支撐。從句法結(jié)構(gòu)上看,相比于單一的漢語和英語語料,本文構(gòu)建的語料庫在相同的支配詞前提下具有更長的依存距離,這也進(jìn)一步證明了關(guān)于語碼轉(zhuǎn)換中難度變換的假設(shè)。但是在語碼轉(zhuǎn)換漢英翻譯中,由于基于語料庫的平均依存距離高于單獨(dú)的英語依存距離,但是該值仍在一定的范圍內(nèi),這與前人的研究保持了一致性。對于語法關(guān)系,研究發(fā)現(xiàn)語法在句法結(jié)構(gòu)中扮演重要的角色,其中在混雜依存中平均的依存距離會(huì)比單獨(dú)的方式更為可靠,尤其是在語碼轉(zhuǎn)換中漢英翻譯,其中英語支配漢語從屬在平均依存距離上高于漢語支配英語從屬,其中主語、定語和賓語會(huì)在語碼轉(zhuǎn)換中由于漢英翻譯的特點(diǎn)進(jìn)行一定程度的調(diào)整。這種方式雖然暫時(shí)沒有相關(guān)學(xué)者論述,但是在這在相關(guān)文獻(xiàn)中也有所提及。在句語法關(guān)系中,單語依存和混雜依存中詞匯的分布差異性導(dǎo)致了依存方向上具有不同的變異現(xiàn)象發(fā)生,雖然漢英之間存在語言的差異性,但可以借助語料庫和翻譯來降低文化差異性,從而提高翻譯效率。
本文在分析語碼轉(zhuǎn)換在漢英翻譯中存在問題的基礎(chǔ)之上,從句法和認(rèn)知兩個(gè)角度入手,通過真實(shí)的語料庫進(jìn)行構(gòu)建,從依存距離和依存方向?yàn)楹饬恐笜?biāo),利用定性和定量兩種方法對比來分析不同依存條件下的語碼轉(zhuǎn)換句法和詞匯之間存在的差異性,其中,語碼轉(zhuǎn)換主要存在依存距離和方向的詞序變異,混雜依存相比單語依存具有更長的距離,句法關(guān)系在不同依存的分布情況決定了依存方向的差異性,而語碼轉(zhuǎn)換在一定程度上可以改變漢英含義中的詞類分布情況。雖然本文解析了其語碼轉(zhuǎn)換中漢英翻譯認(rèn)知加工中存在的問題,但是文中還存在諸多的不足:首先,雖然通過自建的語料庫來對不同語碼轉(zhuǎn)換和句子變異問題進(jìn)行了分析,但是都采用了相同的標(biāo)注手段,而不同的語料建庫方式會(huì)對最終的翻譯結(jié)果產(chǎn)生較大的影響;其次,在本文僅僅針對語碼轉(zhuǎn)換在漢英翻譯中的認(rèn)知加工方式進(jìn)行了簡單的解析,并沒有深入地挖掘其內(nèi)在的其他學(xué)科方面的內(nèi)容。后續(xù)研究者會(huì)在這兩個(gè)方面進(jìn)行深入的研究分析,進(jìn)一步完善語料庫有效解析其內(nèi)在的機(jī)制機(jī)理。