鄧海龍
摘 要: 因為沒有文字系統(tǒng),方言語料庫通常意味著語音語料庫。語音語料庫在采集、整理、規(guī)范和歸檔等方面都與文本語料庫有明顯不同,因此,方言語音語料庫的檢索、提取和呈現(xiàn)對技術(shù)提出更高要求。另外,方言的內(nèi)部變異是語料采集過程中需要考慮的重要因素。本文針對方言語音語料庫建設(shè)中的常規(guī)問題,以贛南客家方言語料庫為例,就語音語料庫及其檢索平臺設(shè)計與實現(xiàn)過程進行深入探討。
關(guān)鍵詞: 贛南地區(qū) 客家方言 語音語料庫 檢索平臺
一、引言
我國歷史悠久、地域廣大和人口眾多,形成了各種各樣、千姿百態(tài)的不同方言。不過,面對如此豐富的語言資源寶藏,國內(nèi)方言語料庫建設(shè)并不多,除了北京方言、粵語和江蘇省境內(nèi)方言等發(fā)達地區(qū)外,很少有其他語言得到學(xué)界和社會的足夠關(guān)注。一方面是因為方言在社會交往活動中,相對于普通話而言,處于區(qū)域性和邊緣性地位。另一方面,方言缺少書寫系統(tǒng),對它的采集和描寫比現(xiàn)代通行漢語要艱難得多。2008年,國家語委啟動了“中國語言資源有聲數(shù)據(jù)庫建設(shè)”項目,說明國家高度重視我國語言文化資源的采集和保護工作(李宇明,2010)。2013年,教育部語言文字信息管理司發(fā)布了《中國語言資源有聲數(shù)據(jù)庫建設(shè)工作規(guī)范(試行)》(教語信司函〔2013〕17號),從具體實施細節(jié)上進一步規(guī)范了我國語音語料庫的建設(shè)。2014年,中山大學(xué)莊初升教授主持的“海內(nèi)外客家方言的語料庫建設(shè)和綜合比較研究”獲批國家社科重大項目立項資助,充分說明學(xué)術(shù)界也已意識到方言語料庫建設(shè)的必要性和重要性。
方言語料庫的建設(shè)與普通話等官方語言有著顯著區(qū)別,面臨更多實際困難。從某種意義上說,一個如實全面反映方言特征的方言語料庫必須包含語音語料庫,因為聲音幾乎是絕大多數(shù)方言存在的唯一形式。如果沒有語音數(shù)據(jù),直接對它進行文字轉(zhuǎn)寫和存檔,其價值將大打折扣。本文以贛南客家方言語音語料庫的建設(shè)為例,研究方言語料庫及檢索平臺建設(shè)的設(shè)計框架和實現(xiàn)方案,以探索方言和其他同類語音語料庫基本建設(shè)途徑。
二、方言語料庫的基本特點
相比較于官方正式語言語料庫建設(shè),方言語料庫主要有以下一些特點:
(一)一般以語音為主
絕大部分方言素材都是以口語形式存在于語言社區(qū)之中,采集口語作為語料幾乎是方言語料庫建設(shè)的唯一途徑。語音采集分為從錄音棚里錄制指定的方言表達內(nèi)容和在實際交際環(huán)境中錄制自然話語。前者顯然比后者便于操作,錄制效果易于控制。早期方言語料以前者為主,從朗讀指定內(nèi)容發(fā)展到講述指定故事,反映出采集人員不斷追求真實語料的努力。這種方式雖然在具體實施上較為方便,可以通過短時的錄音達到較大的詞匯密度,但其語料常常難以具備代表性,很難為方言研究提供反映語言全貌,有代表性和說服力的數(shù)據(jù)。最近,由于錄音設(shè)備變得便捷,音頻捕獲和剪輯不再困難,盡量采集自然口語進行語料庫建設(shè)成為一種趨勢和必然發(fā)展要求(范俊軍,2013)。顯而易見,不管是采用錄音棚還是田野錄音,相比較于文本語料庫,語音語料庫的建設(shè)無疑困難得多。
(二)現(xiàn)成可用資源少
方言作為地方性使用語言,加上缺乏統(tǒng)一對應(yīng)的文字符號系統(tǒng),一般很少見于官方正式文件。即使語音形式,廣播、電視等媒體節(jié)目也很少使用方言(其中粵語節(jié)目占了較大比例)。在新興網(wǎng)絡(luò)媒介中,由于傳播量大,加上普通人也可以參與,開始出現(xiàn)部分娛樂或者教學(xué)性質(zhì)的方言語音節(jié)目內(nèi)容??傮w上,運用方言進行交傳播和交流通常還是局限在口耳相傳這種初級形式。方言使用現(xiàn)狀直接導(dǎo)致方言語料庫建設(shè)中可以利用的現(xiàn)成資源非常少,這點與現(xiàn)代漢語(普通話)語料庫的建設(shè)不一樣?,F(xiàn)代漢語語料庫建設(shè)可以選用大量現(xiàn)成的電子文本數(shù)據(jù)資源,即使是建設(shè)語音語料庫,也可從豐富的廣播電視節(jié)目中采樣選取。
(三)語料采集比較困難
因為沒有現(xiàn)成語言素材可供利用,方言語料采集比較困難。通常需要采用田野調(diào)查的辦法,到方言所屬區(qū)域進行語音采集??紤]到語料代表性,采集人員需要到不同地域,錄取不同職業(yè)、階層、年齡和性別說話人的語音材料。受限于資金、時間、精力和對被采集地區(qū)及其人員的了解程度,語料采集困難重重,需要在保證語料庫質(zhì)量的前提下,因地制宜和靈活處理。
(四)語料翻譯與轉(zhuǎn)寫費時費力
一般而言,方言語料庫不僅要服務(wù)于理解該方言的學(xué)者開展學(xué)術(shù)研究,還要面向不是以該方言為母語的其他學(xué)者或者非科研用途使用人員。另外,還要考慮到語料的檢索使用問題,因為方言沒有書面文字系統(tǒng),語料檢索通常依賴于對應(yīng)的普通話翻譯詞語。因此,將方言語音進行翻譯,轉(zhuǎn)寫成對應(yīng)的漢語文字就非常重要。這方面工作量極大(王澤鵬,2003;洪拓夷,2009)。根據(jù)經(jīng)驗,一個小時的音頻通常要耗費十幾到幾十小時的翻譯轉(zhuǎn)寫時間。
三、方言語料庫的檢索平臺及技術(shù)難點
同樣的,方言語料庫的檢索平臺搭建與官方正式語言語料庫有顯著不同,面臨更高技術(shù)要求。
(一)存儲空間大
如果方言語料庫里包含語音語料,在同等語言數(shù)據(jù)量的前提下,語音語料就占據(jù)更大存儲空間。有些方言語料庫甚至還包含視頻,比語音數(shù)據(jù)還需要更大的磁盤空間。雖然現(xiàn)在電腦磁盤空間并不昂貴,但由于語料體積帶來的分享和傳播困難不容忽視。
(二)檢索查找難
方言沒有文字系統(tǒng),檢索查找目標(biāo)詞匯就有所不便。即使配備對應(yīng)轉(zhuǎn)寫的普通話翻譯,可以使用普通話對應(yīng)詞進行搜索,仍然要解決對應(yīng)詞的語音提取問題。畢竟,語音形式才是方言最真實的存在方式。由此可以看出,方言語音語料庫類似于方言語音與普通話文字相對應(yīng)的平行語料庫,其檢索技術(shù)涉及語音和翻譯文本對齊、檢索和提取過程的音頻播放時間定位,實現(xiàn)普通話文本檢索,對應(yīng)方言語音句子定位提取和播放,達到服務(wù)科研、教學(xué)或者其他方言查找目的。
四、贛南地區(qū)客家方言語音語料庫建設(shè)
本論文中的贛南客家方言語音語料庫建設(shè)目標(biāo)是區(qū)域性方言語音語料庫,達到可以為語言本體研究、語言教學(xué)研究、語言識別等自然語言處理工程應(yīng)用和區(qū)域特色文化傳承與保護等提供基礎(chǔ)性平臺服務(wù)的目的。
(一)贛南客家方言語料庫建設(shè)存在的難點
客家方言地區(qū)在全國分布比較廣泛,從資金、人員和時間等各方面因素考慮,我們將語音語料庫建設(shè)的對象限定為贛南地區(qū)客家方言(一般也可簡稱贛南客家方言)。以行政區(qū)域地理劃分確定語料收集對象主要是為了采集方便,并沒有語言特征上的區(qū)別含義。盡管據(jù)此將客家方言的采集鎖定在限定的范圍,仍然還有不少需要解決的難點。
首先,贛南客家方言雖然對外呈現(xiàn)出較大程度的一致性,但其內(nèi)部卻有著豐富的多樣性(謝留文&黃雪貞,2007),這對語料采集的均衡性提出了較高要求。語料庫必須體現(xiàn)代表性,需要較為全面地反映贛南客家方言的整體面貌,要考慮到贛州市屬各區(qū)縣的面積、人口及代表性各個因素。
其次,由于交通發(fā)達,當(dāng)代社會的人口流動極為頻繁,贛南客家方言受普通話的影響較大。如何采集語音,更好地反映贛南客家方言最本質(zhì)和基礎(chǔ)的特征是極為重要的問題。采集時宜盡量根據(jù)選擇對外活動較少,以客家方言為主要使用語言的說話者為語音采集對象。當(dāng)然,如果要研究語言變遷,采集流動人口的客家方言反而更加適合。
再次,普通話翻譯和信息標(biāo)注的工作量很大。如前所述,語音語料庫建設(shè)涉及的工作量很大,在資金有限的情況下,必須充分利用語音采集人員的家庭成員和親戚關(guān)系等社會網(wǎng)絡(luò),并適當(dāng)吸引和動員部分語言專業(yè)學(xué)生,一起參與到語料庫建設(shè)活動中。另外,尊重語料標(biāo)注和翻譯人員的署名權(quán),將之反映在語音數(shù)據(jù)庫中,體現(xiàn)為責(zé)任和權(quán)利。
(二)語料庫建設(shè)的基本準(zhǔn)則
首先,客家方言語音兼顧多樣性和規(guī)?;?。要達到語言研究目的,語料庫的均衡性和規(guī)模量都是很重要的指標(biāo)。只有做到這兩點的語料庫才具有代表性,才使檢索結(jié)果具有實證意義。要從采錄區(qū)域、說話人代表性等方面做到多樣化和均衡性,各個代表性方言片區(qū)、不同年齡和教育層次都要抽取一定量的語音材料。
其次,確保采錄信息充分和標(biāo)注齊全。采錄信息包括說話人特征(性別、年齡、教育程度、工作單位等)、采錄地點(盡量詳細到村級(街道)單位)、錄制方式(自然口語、語音朗讀等)、普通話翻譯等內(nèi)容。這些采錄信息為后續(xù)社會文化相關(guān)研究提供重要參考價值,應(yīng)該準(zhǔn)確完備。
再者,語音采集方式上自然話語采錄與指定內(nèi)容錄音相結(jié)合。語料庫最重要的特征是原生態(tài)性,即語料最好是自然采集的(范俊軍,2013)。但限于現(xiàn)實條件,我們采集語料時,一方面要盡量收集自然話語,另一方面需要收錄一些字、詞、句子和習(xí)語等不同層次的語言錄音,以保證語音材料的覆蓋度和規(guī)模量。
(三)語料庫數(shù)據(jù)結(jié)構(gòu)
語料庫建設(shè)最重要的是數(shù)據(jù)保存的基本組織結(jié)構(gòu)設(shè)計,數(shù)據(jù)內(nèi)容與組織方式對語料庫的服務(wù)功能和后續(xù)發(fā)展影響重大。贛南客家方言語音語料庫包含三方面主要信息。一是方言錄音文件,以音頻文件保存;二是普通話翻譯文本,這是將方言語音資料翻譯成普通話后的內(nèi)容,以文本形式保存;三是錄制信息,包括說話人信息、錄制者、翻譯者、錄制地點等方面的內(nèi)容。具體見表1所示:
五、語料庫檢索平臺設(shè)計
(一)總體原則
語料庫檢索平臺搭建的總體原則是盡量做到方便檢索、全面公開和持續(xù)開放。方便檢索是為了查閱及研究便利;全面公開是積極利用網(wǎng)絡(luò),將語料面向全社會開放,使之充分服務(wù)社會;持續(xù)開放是語料庫建設(shè)要做到容易后續(xù)增加和補充內(nèi)容,使語料不斷得以充實和豐富。
(二)檢索與呈現(xiàn)
大型語料庫一般都有相對應(yīng)的檢索工具,贛南客家方言語料庫由于語音語料庫的性質(zhì),需要有自己獨立開發(fā)建設(shè)的檢索和呈現(xiàn)環(huán)境。其核心機制是預(yù)先將語音與翻譯文本(即字幕文件)對應(yīng),用戶檢索的時候,服務(wù)器查詢翻譯文本(字幕文件),提取出搜索詞所在上下文句段及對應(yīng)音頻文件時間區(qū)間,將文本內(nèi)容以關(guān)鍵詞索引行形式呈現(xiàn)在網(wǎng)頁中,并提供各句段對應(yīng)的音頻鏈接,點擊可播放出指定區(qū)間音頻。音頻播放通過網(wǎng)頁音頻播放器實現(xiàn)。
六、具體技術(shù)與實現(xiàn)方案
(一)計算機輔助技術(shù)
語料庫建設(shè)需要使用一些計算機軟件,甚至通過一些簡單的編程方法批量處理某些問題,必要時可以委托給計算機專業(yè)人員進行處理。語料數(shù)據(jù)整理、歸檔和發(fā)布人員需要掌握語音語料庫建設(shè)相關(guān)軟件,如音頻剪輯軟件,如Cool Edit等;網(wǎng)頁設(shè)計開發(fā)工具如Dreamweaver及網(wǎng)站建設(shè)語言,如php,javascript等;語言處理程序語言,如python等。
(二)實際工作方案
首先從總體上規(guī)劃設(shè)計語料庫建設(shè)方案及具體語音采集方案,隨后組織、動員和培訓(xùn)語音采集人員,以贛南地區(qū)的18個縣市區(qū)為基礎(chǔ),聯(lián)系選定的客家方言區(qū),實施語音采集。分批采集完成后,進行語音語料的錄入和整理工作,并視情況,進行語料和相關(guān)信息的補錄和完善工作。最后設(shè)計語料檢索軟件并搭建檢索平臺,選擇適當(dāng)?shù)姆绞綄⒄Z料公開發(fā)布,提供給相關(guān)科研人員使用語料庫展開系列應(yīng)用研究。
七、結(jié)語
毋庸置疑,與很多漢語方言一樣,贛南客家方言語音語料庫建設(shè)有其重要學(xué)術(shù)研究價值和文化傳承意義。但是,由于語料庫建設(shè)的現(xiàn)實困難,一直未見達到一定規(guī)模、遵循規(guī)范的贛南地區(qū)客家方言語料庫語料公開發(fā)布。本文分析了方言語音語料庫建設(shè)難點和檢索平臺涉及的技術(shù)要求,并以贛南客家方言語料庫建設(shè)為例,提出了具體的設(shè)計思路和實現(xiàn)方案,以期對廣大同仁有所啟示。
參考文獻:
[1]范俊軍.漢語方言自然口語語料庫建設(shè)的幾個基本問題[J].學(xué)術(shù)研究,2013(02):153-158.
[2]洪拓夷.漢語方言語音數(shù)據(jù)庫建設(shè)構(gòu)想[J].圖書情報工作,2009(05):83-86.
[3]李宇明.論中國語言資源有聲數(shù)據(jù)庫的建設(shè)[J].中國語文,2010(04):356-363+384.
[4]王澤鵬.發(fā)展方言語料庫提高研究水平——兼談粵方言語料庫的建設(shè)[J].煙臺師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版),2003(01):97-100.
[5]謝留文,黃雪貞.客家方言的分區(qū)(稿)[J].方言,2007(03):238-249.
基金項目:本文系江西省高校人文社會科學(xué)研究青年基金項目“贛南地區(qū)客家方言語音語料庫及檢索平臺建設(shè)”(編號YY1413)階段性成果