胡曉清,許小星
(1.魯東大學(xué)文學(xué)院,山東,煙臺(tái)264025;2.韓國(guó)國(guó)立群山大學(xué)人文學(xué)院,韓國(guó)全羅北道,全州561756)
近年來(lái),漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)不斷向縱深發(fā)展,建立口語(yǔ)語(yǔ)料庫(kù)并基于語(yǔ)料庫(kù)開(kāi)展口語(yǔ)研究成為漢語(yǔ)作為第二語(yǔ)言教學(xué)研究的新趨勢(shì)。許多學(xué)者對(duì)漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的建設(shè)提出了可行性方案(崔希亮、張寶林,2011;權(quán)立宏,2017),也有一些院校、單位展開(kāi)建庫(kù)實(shí)踐,如北京語(yǔ)言大學(xué)的“漢語(yǔ)學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)”(楊翼等,2006)、北京語(yǔ)言大學(xué)“HSK動(dòng)態(tài)口語(yǔ)語(yǔ)料庫(kù)”(張寶林,2010)、香港中文大學(xué)“語(yǔ)言習(xí)得漢語(yǔ)口語(yǔ)語(yǔ)料庫(kù)(LAC/SC)”(吳偉平,2010),南京大學(xué)“漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)”(在建)等。但遺憾的是,由于中介語(yǔ)口語(yǔ)語(yǔ)料采集、轉(zhuǎn)寫(xiě)和標(biāo)注的難度較大,口語(yǔ)語(yǔ)料庫(kù)的建設(shè)費(fèi)時(shí)費(fèi)力,目前能夠公開(kāi)使用的漢語(yǔ)學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)較少。
基于此,本團(tuán)隊(duì)在國(guó)別化中介語(yǔ)筆語(yǔ)語(yǔ)料庫(kù)建設(shè)的基礎(chǔ)上,開(kāi)始探索國(guó)別化漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的建設(shè)。首期建立的是韓國(guó)學(xué)習(xí)者漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù),簡(jiǎn)稱為KHSKKC。語(yǔ)料庫(kù)語(yǔ)料來(lái)源于韓國(guó)漢語(yǔ)水平口語(yǔ)考試的現(xiàn)場(chǎng)錄音。在對(duì)語(yǔ)料進(jìn)行轉(zhuǎn)寫(xiě)后,從語(yǔ)音層面和句法層面兩個(gè)維度對(duì)語(yǔ)料進(jìn)行了較為細(xì)致和全面的標(biāo)注。
以標(biāo)準(zhǔn)化考試語(yǔ)料為來(lái)源的漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料對(duì)漢語(yǔ)水平考試的反撥效應(yīng)明顯。在建的KHSKKC語(yǔ)料庫(kù)首次使用了新HSK口語(yǔ)語(yǔ)料,利用該語(yǔ)料庫(kù)提取的字表數(shù)據(jù)庫(kù)、詞表數(shù)據(jù)庫(kù),在后續(xù)研究中將與新HSK詞匯大綱、漢字大綱等結(jié)合,進(jìn)行相關(guān)性研究,這對(duì)HSK的信度、效度及測(cè)試對(duì)教學(xué)的反撥作用研究等均將起到一定的支撐作用。
在漢語(yǔ)教學(xué)研究界,對(duì)漢語(yǔ)教學(xué)“國(guó)別化”的呼聲越來(lái)越高(李如龍,2012等)。不同國(guó)家、不同母語(yǔ)和文化背景的學(xué)習(xí)者,學(xué)習(xí)漢語(yǔ)時(shí)表現(xiàn)出的中介語(yǔ)特征的確存在著差異。因此,甘瑞瑗、張普(2005)提出,“國(guó)別化”就是要“針對(duì)不同的國(guó)家而實(shí)行不同/差別的漢語(yǔ)的教學(xué)與研究”。國(guó)別化漢語(yǔ)中介語(yǔ)語(yǔ)料,為國(guó)別化教學(xué)大綱設(shè)計(jì)、國(guó)別化教材的編寫(xiě)、國(guó)別化詞典的編撰提供可靠的依據(jù),也為漢語(yǔ)作為第二語(yǔ)言的習(xí)得研究提供扎實(shí)的多維度基礎(chǔ)數(shù)據(jù)。
(1)為國(guó)別化漢語(yǔ)教學(xué)用字表、詞表的研制提供有力支撐
《漢語(yǔ)水平詞匯與漢字等級(jí)大綱》(以下簡(jiǎn)稱《大綱》),研制于1992年(2001年進(jìn)行了修訂),隨著時(shí)代的發(fā)展與進(jìn)步,社會(huì)語(yǔ)言生活發(fā)生了巨大的變化,《大綱》逐漸不能滿足漢語(yǔ)學(xué)習(xí)者和漢語(yǔ)作為第二語(yǔ)言研究的需要。2010年出臺(tái)的《漢語(yǔ)國(guó)際教育用音節(jié)漢字詞匯等級(jí)劃分》(以下簡(jiǎn)稱《等級(jí)劃分》)一個(gè)顯著的變化是將口語(yǔ)動(dòng)態(tài)語(yǔ)料作為制定音節(jié)表、字表和詞表的依據(jù)之一。但需要注意的是,《大綱》和《等級(jí)劃分》中對(duì)字、詞的選擇仍然是純本體視角,而漢語(yǔ)國(guó)際教育用的字表、詞表除要依據(jù)母語(yǔ)者的使用頻率外,還應(yīng)該將二語(yǔ)學(xué)習(xí)者口、筆語(yǔ)語(yǔ)料庫(kù)作為重要的參照。因此,對(duì)韓國(guó)學(xué)習(xí)者漢語(yǔ)口語(yǔ)的字表和詞表的提取、研究,為面向韓國(guó)的漢語(yǔ)教學(xué)用字表、詞表的研制提供了強(qiáng)有力的支撐。
(2)為漢語(yǔ)中介語(yǔ)口語(yǔ)、筆語(yǔ)對(duì)照研究提供有力保障
我們?cè)谡Z(yǔ)料庫(kù)建設(shè)中回避了“書(shū)面語(yǔ)”,代之以“筆語(yǔ)”,究其原因,一是參照了文秋芳、王立非(2008)“中國(guó)學(xué)生英語(yǔ)口筆語(yǔ)語(yǔ)料”的提法。更重要的是漢語(yǔ)二語(yǔ)學(xué)習(xí)者在從零起點(diǎn)到接近于漢語(yǔ)母語(yǔ)者的習(xí)得過(guò)程中,有相當(dāng)長(zhǎng)一段時(shí)間尚未形成書(shū)面語(yǔ)意識(shí),他們所謂的“書(shū)面語(yǔ)”大多數(shù)情況下只是以筆語(yǔ)形式記錄下來(lái)的口語(yǔ)而已。那么漢語(yǔ)學(xué)習(xí)者的筆語(yǔ)在哪些階段出現(xiàn)了明顯的書(shū)面語(yǔ)化特征,從哪些節(jié)點(diǎn)他們的口語(yǔ)筆語(yǔ)發(fā)生了質(zhì)的變化,這都需要將學(xué)習(xí)者的口、筆語(yǔ)進(jìn)行對(duì)照方可顯現(xiàn)。目前,在漢語(yǔ)作為第二語(yǔ)言教學(xué)和研究領(lǐng)域,將漢語(yǔ)中介語(yǔ)進(jìn)行口語(yǔ)和筆語(yǔ)對(duì)照研究的尚不多見(jiàn)。原因是多方面的,但有一點(diǎn)無(wú)需諱言,即對(duì)漢語(yǔ)中介語(yǔ)口語(yǔ)和筆語(yǔ)中用字、用詞及語(yǔ)法項(xiàng)目使用情況、口語(yǔ)書(shū)面語(yǔ)分化情況的研究均需借助大規(guī)模的漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料和筆語(yǔ)語(yǔ)料,而目前的口語(yǔ)語(yǔ)料相對(duì)比較匱乏。我們建設(shè)的韓國(guó)學(xué)習(xí)者漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)和早前建成的“國(guó)別化(韓國(guó))漢語(yǔ)中介語(yǔ)發(fā)展語(yǔ)料庫(kù)(筆語(yǔ))”(胡曉清,2018)形成對(duì)照組,為韓國(guó)學(xué)習(xí)者漢語(yǔ)中介語(yǔ)口語(yǔ)和筆語(yǔ)的對(duì)照研究提供了有力保障。
漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù),按照語(yǔ)體來(lái)分有筆語(yǔ)語(yǔ)料庫(kù)和口語(yǔ)語(yǔ)料庫(kù);從樣本來(lái)源來(lái)看,有多國(guó)別樣本,也有單國(guó)別樣本。在漢語(yǔ)作為第二語(yǔ)言教學(xué)和研究領(lǐng)域,筆語(yǔ)語(yǔ)料庫(kù)和多國(guó)別樣本語(yǔ)料庫(kù)數(shù)量上占有絕對(duì)的“優(yōu)勢(shì)”?!绊n國(guó)學(xué)習(xí)者漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)”的建設(shè)探索補(bǔ)足漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)的弱項(xiàng),對(duì)漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)建設(shè)規(guī)范的研究、對(duì)不同類型語(yǔ)料庫(kù)之間的對(duì)接和融合進(jìn)行了有益的嘗試,豐富了漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的建設(shè)內(nèi)涵。
真實(shí)性是學(xué)習(xí)者語(yǔ)料庫(kù)建設(shè)的底線。因此語(yǔ)料轉(zhuǎn)寫(xiě)要忠實(shí)于音頻原貌,考生說(shuō)什么轉(zhuǎn)錄什么,包括考生對(duì)言語(yǔ)中的重復(fù)和修復(fù),不做任何修改刪減,如實(shí)錄入。對(duì)于非正常停頓和轉(zhuǎn)寫(xiě)人反復(fù)聽(tīng)仍無(wú)法辨識(shí)的字詞或字串用標(biāo)記來(lái)代替;口語(yǔ)語(yǔ)料里存在大量口頭語(yǔ),如“嗯”“啊”“呃”等語(yǔ)氣詞均要如實(shí)轉(zhuǎn)寫(xiě)。而一些非言語(yǔ)成分,如音頻中考生的笑聲和一些如呼氣、咳嗽等伴隨語(yǔ)音現(xiàn)象均要進(jìn)行標(biāo)示。
標(biāo)點(diǎn)及符號(hào)的準(zhǔn)確性:所有的標(biāo)點(diǎn)均為中文、半角格式;所有添加的符號(hào)均為半角英文狀態(tài)。
文字的準(zhǔn)確性:轉(zhuǎn)寫(xiě)語(yǔ)料原則上沒(méi)有錯(cuò)字和別字。
標(biāo)注的準(zhǔn)確性:在確立了標(biāo)注范圍后,制定了較為細(xì)致的轉(zhuǎn)寫(xiě)與標(biāo)注規(guī)范,然后選取少量語(yǔ)料對(duì)標(biāo)注員進(jìn)行試轉(zhuǎn)寫(xiě)與標(biāo)注訓(xùn)練,再進(jìn)行集中討論與校正,深化對(duì)標(biāo)注規(guī)范的理解,并補(bǔ)充完善標(biāo)注規(guī)范,最終形成科學(xué)的、操作性強(qiáng)的標(biāo)注手冊(cè),最大限度保證標(biāo)注員對(duì)語(yǔ)料聽(tīng)辨轉(zhuǎn)寫(xiě)和標(biāo)記賦碼的一致性和準(zhǔn)確性。
為了減輕標(biāo)注員記憶標(biāo)注代碼的負(fù)擔(dān),并保證賦碼的一致性和準(zhǔn)確性,我們開(kāi)發(fā)了輔助轉(zhuǎn)寫(xiě)與標(biāo)注的軟件,標(biāo)注員一邊收聽(tīng)音頻,一邊在輔標(biāo)軟件的文本編輯界面上進(jìn)行轉(zhuǎn)寫(xiě),如需進(jìn)行賦碼,點(diǎn)擊右鍵,從下拉菜單中選擇標(biāo)記代碼,代碼便自動(dòng)添加到文本之中。標(biāo)注完成之后,文本自動(dòng)保存在指定目錄下。此外,對(duì)文本的校對(duì)也可在該輔標(biāo)軟件中完成。該軟件的開(kāi)發(fā)大大提高了轉(zhuǎn)寫(xiě)與標(biāo)注的效率。
沒(méi)有任何加工的生語(yǔ)料,只能進(jìn)行字、詞的檢索,語(yǔ)料經(jīng)過(guò)斷句、分詞和標(biāo)記詞性,可以進(jìn)行詞的搭配和類聯(lián)結(jié)等研究;經(jīng)過(guò)偏誤標(biāo)注及對(duì)語(yǔ)料中正確語(yǔ)言表現(xiàn)進(jìn)行標(biāo)注,可以對(duì)漢語(yǔ)學(xué)習(xí)者的習(xí)得情況進(jìn)行全方位的對(duì)比、考察與研究,大大提升了語(yǔ)料庫(kù)的使用價(jià)值。
一個(gè)功能完善、使用便捷的語(yǔ)料庫(kù)檢索系統(tǒng)不僅要能提供方便靈活的檢索和統(tǒng)計(jì)功能,還應(yīng)便于維護(hù)與功能擴(kuò)展。漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)檢索軟件能基于語(yǔ)料庫(kù)中添加的標(biāo)記代碼,根據(jù)處理的目的來(lái)設(shè)計(jì)相應(yīng)的算法規(guī)則,提取相應(yīng)的信息,得到相應(yīng)的檢索和統(tǒng)計(jì)結(jié)果。
本語(yǔ)料庫(kù)的語(yǔ)料來(lái)源于韓國(guó)漢語(yǔ)水平口語(yǔ)考試的現(xiàn)場(chǎng)錄音,目前已對(duì)韓國(guó)漢語(yǔ)水平口語(yǔ)考試的1.5萬(wàn)余個(gè)音頻進(jìn)行了轉(zhuǎn)寫(xiě)并對(duì)轉(zhuǎn)寫(xiě)文本進(jìn)行了標(biāo)注,在此基礎(chǔ)上建設(shè)完成韓國(guó)學(xué)習(xí)者漢語(yǔ)口語(yǔ)語(yǔ)料數(shù)據(jù)庫(kù)并搭建了語(yǔ)料庫(kù)檢索系統(tǒng)。該語(yǔ)料庫(kù)的構(gòu)建過(guò)程包括語(yǔ)料收集、文本轉(zhuǎn)寫(xiě)、語(yǔ)料標(biāo)注、語(yǔ)料庫(kù)檢索工具的開(kāi)發(fā),具體流程如圖1所示。
圖1:KHSKKC建設(shè)流程圖
本語(yǔ)料庫(kù)的語(yǔ)料來(lái)源于在韓國(guó)舉行的漢語(yǔ)水平口語(yǔ)考試的現(xiàn)場(chǎng)錄音。漢語(yǔ)水平口語(yǔ)考試(HSKK)分為初級(jí)、中級(jí)和高級(jí)三個(gè)等級(jí),不同等級(jí)口語(yǔ)考試的考試內(nèi)容均分為三個(gè)部分(見(jiàn)表1)。
口語(yǔ)語(yǔ)料庫(kù)音頻庫(kù)的二級(jí)目錄為考試等級(jí)(初級(jí)、中級(jí)、高級(jí));每一個(gè)考試等級(jí)內(nèi)按照考試年份、考場(chǎng)代碼、考生代碼依次建立目錄。每一個(gè)考生的所有音頻根據(jù)考試內(nèi)容的不同劃分為T(mén)1、T2、T3三個(gè)子任務(wù)。在轉(zhuǎn)寫(xiě)語(yǔ)料時(shí),三個(gè)子任務(wù)轉(zhuǎn)寫(xiě)為對(duì)應(yīng)的三個(gè)txt文件,保證音頻庫(kù)和文本庫(kù)的結(jié)構(gòu)層次清晰、便于管理。圖2展示了音頻庫(kù)和文本庫(kù)的庫(kù)結(jié)構(gòu)。
表1:HSKK考試內(nèi)容分布
圖2:音頻庫(kù)和文本庫(kù)目錄樹(shù)
如一個(gè)考生的全部音頻因噪音太大而無(wú)法進(jìn)行轉(zhuǎn)寫(xiě),就將該考生的所有音頻刪除。如一個(gè)考生的大部分音頻比較清晰、符合轉(zhuǎn)寫(xiě)條件,為了最大限度保留并記錄音頻內(nèi)容,將該考生的全部音頻整理歸檔,并依次進(jìn)行轉(zhuǎn)寫(xiě),其中因噪音或者音質(zhì)受損而無(wú)法轉(zhuǎn)寫(xiě)的音頻在文庫(kù)本中對(duì)應(yīng)的位置標(biāo)記為<無(wú)效>。
在新的技術(shù)條件下,母語(yǔ)口語(yǔ)語(yǔ)料的轉(zhuǎn)寫(xiě)已非常方便快捷,而漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料因大量的語(yǔ)音問(wèn)題使自動(dòng)轉(zhuǎn)寫(xiě)準(zhǔn)確率偏低,不得不仍然選用耗時(shí)耗力的人工轉(zhuǎn)錄方式。為此,我們制定了KHSKKC語(yǔ)料庫(kù)的轉(zhuǎn)寫(xiě)原則與標(biāo)注規(guī)范。
轉(zhuǎn)寫(xiě)音頻語(yǔ)料遵循真實(shí)性原則,已如前述。為避免轉(zhuǎn)寫(xiě)后重復(fù)聽(tīng)錄音進(jìn)行語(yǔ)音現(xiàn)象處理,最大限度地減少多人同時(shí)作業(yè)造成的聽(tīng)辨嚴(yán)格度、準(zhǔn)確度不一致問(wèn)題,在確立轉(zhuǎn)寫(xiě)原則的前提下,參考北京語(yǔ)言大學(xué)“全球漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)”口語(yǔ)語(yǔ)料的轉(zhuǎn)寫(xiě)與標(biāo)注規(guī)范(張寶林等,2019),我們制定了較為細(xì)化的轉(zhuǎn)寫(xiě)和標(biāo)注規(guī)范。
口語(yǔ)語(yǔ)料轉(zhuǎn)寫(xiě)時(shí),轉(zhuǎn)錄員邊聽(tīng)邊轉(zhuǎn)寫(xiě),在轉(zhuǎn)寫(xiě)的同時(shí)需對(duì)文本語(yǔ)料進(jìn)行語(yǔ)音層面的標(biāo)注。對(duì)于如何確立口語(yǔ)語(yǔ)料庫(kù)標(biāo)注內(nèi)容,張寶林等(2019)指出“說(shuō)話時(shí)伴隨的一些語(yǔ)音現(xiàn)象,例如笑聲、咳嗽聲之類,以及拖長(zhǎng)的聲音。這些語(yǔ)音現(xiàn)象不一定是偏誤,在這里進(jìn)行標(biāo)注只是為了方便”,而我們認(rèn)為非偏誤語(yǔ)音現(xiàn)象對(duì)口語(yǔ)不同維度的研究深具意義,因此標(biāo)記時(shí)將其直接分為對(duì)語(yǔ)音現(xiàn)象的標(biāo)注和對(duì)語(yǔ)音偏誤的標(biāo)注兩類。其中語(yǔ)音現(xiàn)象的標(biāo)記共有9個(gè),語(yǔ)音偏誤的標(biāo)記共有7個(gè)。具體標(biāo)記詳見(jiàn)表2。
完成中介語(yǔ)口語(yǔ)語(yǔ)料轉(zhuǎn)寫(xiě)和語(yǔ)音層面標(biāo)注后,我們對(duì)文本語(yǔ)料進(jìn)行了句法層面的標(biāo)注。句法標(biāo)注仍延續(xù)之前“國(guó)別化漢語(yǔ)中介語(yǔ)發(fā)展語(yǔ)料庫(kù)”筆語(yǔ)庫(kù)的標(biāo)注模式,進(jìn)行基礎(chǔ)標(biāo)注和偏誤標(biāo)注(胡曉清,2018)?;A(chǔ)標(biāo)注是對(duì)語(yǔ)料中正確的語(yǔ)言現(xiàn)象進(jìn)行的標(biāo)注,偏誤標(biāo)注是對(duì)語(yǔ)料中不正確的語(yǔ)言現(xiàn)象進(jìn)行的標(biāo)注。目前我們對(duì)語(yǔ)料進(jìn)行了分詞處理、基本句式的正誤標(biāo)注等。
表2:語(yǔ)音標(biāo)記詳表
HSKKC檢索系統(tǒng)是基于Matlab2016a軟件開(kāi)發(fā)的一個(gè)可執(zhí)行文件,旨在為用戶提供便捷的查詢與統(tǒng)計(jì)功能。采用Matlab軟件開(kāi)發(fā)檢索系統(tǒng)的優(yōu)勢(shì)在于Matlab是一種解釋性語(yǔ)言,程序調(diào)試非常便捷;同時(shí),Matlab軟件自帶大量的函數(shù)庫(kù),非常便于復(fù)雜算法的開(kāi)發(fā)。此外其后續(xù)的功能擴(kuò)展容易實(shí)現(xiàn),另外添加其他功能只需在原軟件上再加掛相應(yīng)的處理函數(shù)即可。
該檢索系統(tǒng)可以生成語(yǔ)料庫(kù)的字表與詞表,也可以根據(jù)用戶的需求,使用信息組合進(jìn)行檢索范圍的限定,對(duì)語(yǔ)料庫(kù)進(jìn)行檢索查詢,對(duì)各項(xiàng)標(biāo)注信息進(jìn)行統(tǒng)計(jì)分析和數(shù)據(jù)提取。
口語(yǔ)語(yǔ)料轉(zhuǎn)寫(xiě)是轉(zhuǎn)錄者對(duì)音頻語(yǔ)料的聽(tīng)辨和轉(zhuǎn)錄的過(guò)程,需要真實(shí)準(zhǔn)確地記錄學(xué)習(xí)者的口語(yǔ)表達(dá)內(nèi)容。但由于很多考生特別是口語(yǔ)水平較低的考生發(fā)音不夠準(zhǔn)確或者發(fā)音不到位,聲調(diào)、發(fā)音錯(cuò)誤(如聲母偏誤/韻母偏誤等)或者模糊現(xiàn)象非常普遍比如例1,在音頻中,學(xué)習(xí)者將“旅行”的“旅”說(shuō)成了“l(fā)iu”,如果在轉(zhuǎn)寫(xiě)時(shí)寫(xiě)為“流行”,其實(shí)違背了說(shuō)話者的本意,也會(huì)給后期的句法標(biāo)注帶來(lái)困難。
例1:我的愛(ài)好是【旅】[Yy]行。去年,我去【旅】[Yy]行上海的時(shí)候,我對(duì)【旅】[Yd]行很感興趣,因?yàn)樯虾5囊咕胺浅8袆?dòng)。
我們采取的處理對(duì)策是,如果轉(zhuǎn)寫(xiě)者能夠準(zhǔn)確判斷出此處對(duì)應(yīng)的正確用字或用詞,則先錄入正字、正詞(即正確的字、正確的詞)再打上聲調(diào)偏誤或聲母偏誤/韻母偏誤等標(biāo)記。如果轉(zhuǎn)寫(xiě)者能夠聽(tīng)清語(yǔ)音但由于表義模糊無(wú)法判斷考生所用字或詞,則以漢語(yǔ)拼音代替該字、詞。如果發(fā)音聽(tīng)不清楚,無(wú)法判別正字,也無(wú)法替寫(xiě)為拼音,則用無(wú)法識(shí)別的標(biāo)記【】[Y?]來(lái)表示。
漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料除存在語(yǔ)音偏誤、詞語(yǔ)和句法偏誤外,還有大量的停頓甚至中斷、重復(fù)和修復(fù),導(dǎo)致機(jī)器自動(dòng)分詞的效果極差。所以在現(xiàn)有的中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)建設(shè)中鮮有對(duì)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注的。但在漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)庫(kù)群建構(gòu)理念下,為與筆語(yǔ)語(yǔ)料庫(kù)對(duì)齊,以便后期進(jìn)行漢語(yǔ)學(xué)習(xí)者口筆語(yǔ)語(yǔ)料庫(kù)對(duì)照研究,我們選擇嘗試對(duì)口語(yǔ)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注。
(1)對(duì)于預(yù)標(biāo)記被分詞的處理
因?yàn)閷?duì)口語(yǔ)語(yǔ)料轉(zhuǎn)寫(xiě)的同時(shí)就進(jìn)行了語(yǔ)音標(biāo)注,這些標(biāo)注對(duì)自動(dòng)分詞產(chǎn)生極大的干擾,如例2。分詞后原文中所有的預(yù)標(biāo)記都被切分(見(jiàn)例2)。為此,我們自編了程序,在人工校對(duì)分詞結(jié)果之前,先通過(guò)程序?qū)?biāo)注文本進(jìn)行清潔后再對(duì)其進(jìn)行人工校對(duì)。
例2:我以前偶來(lái)偶爾參加朋友聚會(huì),因?yàn)槲易钕矚g的我喜我最喜【歡】[Yd]在家【吃】[Yd]巧克力[L]。
自動(dòng)分詞后:
我/r以前/f偶/d來(lái)/v偶爾/d參加/v朋友/n聚會(huì)/v,/w因?yàn)?p我/r最/d喜歡/v的/u我/r喜/Ag我/r最/d喜/Ag【/w歡/a】/w[/wYd/n]/w在家/v【/w吃/v】/w[/wYd/n]/w巧克力/n[/wL/n]/w./w
人工校對(duì)后:
我/r以前/f偶/d來(lái)/v偶爾/d參加/v朋友/n聚會(huì)/v,/w因?yàn)?p我/r最/d喜歡/v的/u我/r喜/Ag我/r最/d喜【歡】/v[Yd]/w在/p家/n【吃】/v[Yd]巧克力/n[L]。/w
(2)對(duì)于語(yǔ)素的處理
中介語(yǔ)口語(yǔ)語(yǔ)料中由于學(xué)習(xí)者在口語(yǔ)表達(dá)中有大量的停頓、重復(fù)或者修復(fù),而產(chǎn)生了很多非“詞”的成分,這些成分有的是語(yǔ)素,有的是非語(yǔ)素字,在語(yǔ)料標(biāo)注中要加以區(qū)分。如:
例3:或者/c我/r喜/Vg我/r也/d喜歡/v和/p姐姐/n聊天/v,/w但是/c現(xiàn)在/t我/r變/v我/r變化/v了/y,/w我/r喜歡/v參加/v朋友/n朋友/n們/k的/u聚會(huì)/v。/w
上述語(yǔ)料中由于學(xué)生自我修正出現(xiàn)了“變”和“喜”兩個(gè)修正項(xiàng),前者標(biāo)為動(dòng)詞,后者標(biāo)為語(yǔ)素。
(3)對(duì)于生造詞的處理
生造詞是二語(yǔ)學(xué)習(xí)者在表達(dá)中常見(jiàn)的偏誤,是學(xué)習(xí)者根據(jù)母語(yǔ)推演出或目的語(yǔ)泛化演變出的、漢語(yǔ)中不存在的“詞”(如下例中的“高學(xué)”)。那么到底要不要給生造詞標(biāo)記詞性呢?如果不對(duì)其進(jìn)行任何標(biāo)記,在分詞中就可能會(huì)與其前/后的詞結(jié)合起來(lái),造成分詞的麻煩。我們的處理策略是在語(yǔ)料標(biāo)注中將生造詞標(biāo)記為[Sz],但不加注詞性(如例4所示)。
例4:我/r覺(jué)得/v我/r的/u印象/n最/d深/a的/u一/m位/q老師/n是/v耐心/a的/u老師/n,/w我/r【高學(xué)】[Sz]的/u時(shí)候/n,/w我/r的/u學(xué)習(xí)/v成績(jī)/n不/d好/a,/w可是/c老師/n耐心/a等/v我/r,/w努力/v教/v我/r。/w
語(yǔ)料庫(kù)檢索軟件有轉(zhuǎn)寫(xiě)語(yǔ)料查詢的功能,用戶可以根據(jù)需求檢索字、詞或者字符串。之前“韓國(guó)留學(xué)生漢語(yǔ)中介語(yǔ)發(fā)展語(yǔ)料庫(kù)(筆語(yǔ))”的檢索軟件不能檢索到像“見(jiàn)……面”的用法,此次口語(yǔ)語(yǔ)料庫(kù)的檢索軟件對(duì)此進(jìn)行了改進(jìn)。此外,在對(duì)檢索軟件“轉(zhuǎn)寫(xiě)語(yǔ)料查詢”功能進(jìn)行測(cè)試時(shí)發(fā)現(xiàn),由于語(yǔ)料中已有語(yǔ)音標(biāo)記,如果一個(gè)詞中的某個(gè)語(yǔ)素有預(yù)標(biāo)記的話,在“轉(zhuǎn)寫(xiě)語(yǔ)料查詢”時(shí),該詞所在語(yǔ)句無(wú)法檢索到。如例5中的“孤【單】[Yd]/a”,如要查詢“孤單”的使用情況,在“轉(zhuǎn)寫(xiě)語(yǔ)料查詢”功能界面的查詢項(xiàng)直接輸入“孤單”,查詢不到“我/r在/p我/r我/r沒(méi)/d感到/v孤【單】[Yd]/a,/w”。為此,我們?cè)跈z索軟件后臺(tái)程序中將標(biāo)注文本的預(yù)標(biāo)記進(jìn)行自動(dòng)“清潔”,處理后,即使被檢索項(xiàng)有標(biāo)記也能順利提取。
例5:但是/c但是/c參加/v朋友/n們/k的/u朋友/n們/k朋友/n聚會(huì)/v,/w我/r在/p我/r我/r沒(méi)/d感到/v孤【單】[Yd]/a,/w所以/c的/u自然/a的/u我/r也/d自然/a我/r經(jīng)常/d參加/v朋友/n聚會(huì)/v。/w
韓國(guó)學(xué)習(xí)者漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的建設(shè),目前來(lái)看,存在以下問(wèn)題。
(1)語(yǔ)料庫(kù)需要進(jìn)一步擴(kuò)容。一是單純從數(shù)量上來(lái)講目前的語(yǔ)料規(guī)模還不夠大,與400余萬(wàn)字的筆語(yǔ)語(yǔ)料數(shù)量相比差距較大。二是從語(yǔ)料來(lái)源看,目前主要是純HSK口試語(yǔ)料,形式不夠多樣。Eric Friginal,Joseph J.Lee等(2017)至少已采集了學(xué)術(shù)英語(yǔ)課堂上的學(xué)習(xí)者話語(yǔ)、英語(yǔ)會(huì)話訪談中的學(xué)習(xí)者話語(yǔ)、同伴反饋活動(dòng)中的學(xué)習(xí)者話語(yǔ)等不同口語(yǔ)語(yǔ)料類型。因此,我們的語(yǔ)料庫(kù)下一步將拓展到日常交際口語(yǔ)、課堂表達(dá)口語(yǔ)等領(lǐng)域,現(xiàn)已搜集40小時(shí)以上的日常交際對(duì)話口語(yǔ),隨后將不斷探索,以進(jìn)一步豐富語(yǔ)料庫(kù)中的語(yǔ)料形式。
(2)需構(gòu)建國(guó)別化漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)。應(yīng)將單國(guó)別的漢語(yǔ)學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)擴(kuò)建為國(guó)別化的漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)。所謂國(guó)別化語(yǔ)料庫(kù)不是多個(gè)單國(guó)別語(yǔ)料庫(kù)的疊加,而是一種建庫(kù)理念和范式,是以國(guó)別化研究為導(dǎo)向,以某個(gè)單國(guó)別語(yǔ)料庫(kù)建設(shè)為基礎(chǔ),在單國(guó)別語(yǔ)料庫(kù)建設(shè)基礎(chǔ)上,根據(jù)不同國(guó)別學(xué)習(xí)者特點(diǎn),對(duì)建庫(kù)原則、語(yǔ)料采集、標(biāo)注規(guī)范等進(jìn)行適應(yīng)性調(diào)整,以鏈條延展式進(jìn)行不同國(guó)別語(yǔ)料庫(kù)的建設(shè)。本次單國(guó)別的漢語(yǔ)學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)是國(guó)別化漢語(yǔ)中介語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的先行探索,為下一步體系化建庫(kù)提供參考依據(jù)。同時(shí),語(yǔ)料采集的方式也應(yīng)從松散的較為隨意的各國(guó)別學(xué)習(xí)者語(yǔ)料采集,到更為嚴(yán)密的共同主題的不同國(guó)別學(xué)習(xí)者語(yǔ)料采集。這一點(diǎn)Gaёtanelle Gilquin,Sylvie De Cock & Sylviane Granger等(2010)已經(jīng)有了良好的示范。
(3)在人工智能飛速發(fā)展的現(xiàn)在,母語(yǔ)語(yǔ)料庫(kù)(Native Corpora)已可實(shí)現(xiàn)自動(dòng)錄入,文本加工也日益智能化。漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)受制于學(xué)習(xí)者的偏誤干擾,在語(yǔ)料的錄入、加工、處理等方面仍然是人工化多于智能化。口語(yǔ)語(yǔ)料的轉(zhuǎn)錄則因?qū)W習(xí)者語(yǔ)音的偏誤或模糊不清導(dǎo)致效率低下。如何能夠借用更為智能化的手段加快口語(yǔ)語(yǔ)料的處理,也是下一步應(yīng)探索的方向。