黃鴻哲 黃舒婷 邵敬毅
(1.嘉應(yīng)學院 廣東省梅州市 514011 2.上沙中學 廣東省深圳市 518048 3.天津財經(jīng)大學 天津市 300222)
普通話現(xiàn)在是中華人民共和國的官方語言,這是婦孺皆知的。普通話作為官方語言是一件值得慶幸的事情,因為這統(tǒng)一了中國人民的交流語言,使得各地各名族溝通變得有一定的保障。孩子們從小學習普通話,人人都用普通話交流。然而,我們不可忽略的一個實際性問題就是,現(xiàn)在的小孩從幼兒園開始就接收普通話的熏陶,這毅然不是一件壞事,但凡事都有兩面性,我們也應(yīng)該從另外一個發(fā)現(xiàn)問題;孩子們從小忽視方言學習,是否不用日常練習就可以脫口而出呢?這顯然不是,問卷調(diào)查表明(圖1),對于這代年輕人來說,很多客家人只是聽懂客家語言而不會說客家話。那再經(jīng)過幾代人的迭代,客家語言會不會就此被遺忘呢?甚至一些客家優(yōu)秀傳統(tǒng)是否也會被人們所忘記呢?按照當前發(fā)展趨勢,這一個問題還是值得所思的。為此,客家語庫的存在就是為了人民在學習普通話的同時,也可以對客家語言進行了解和練習;而不至于想要學習客家語言而沒有平臺資源。
圖1:問卷調(diào)查結(jié)果
智能識別音頻技術(shù)的發(fā)展是人工智能和云計算發(fā)展的結(jié)果。從翻譯服務(wù)到口譯服務(wù)是翻譯轉(zhuǎn)化的關(guān)鍵。自音頻識別技術(shù)發(fā)展以來,尤其是中小型詞匯量的非特定人音頻識別系統(tǒng)的識別準確率高達98%,而特定的音頻識別系統(tǒng)的識別率更高。如此高的辨別率已經(jīng)能夠應(yīng)付常見應(yīng)用需求了,由于大規(guī)模集成電路的不斷發(fā)展,這些抽象的語音識別系統(tǒng)也可以制成特定芯片,用于大規(guī)模生產(chǎn)??拼笥嶏w的語音引擎將文本轉(zhuǎn)換為TTS 語音文本存儲起來,供閱讀者語音閱讀?,F(xiàn)在你也可以用Android 手機安裝科大訊飛語音庫,可以直接轉(zhuǎn)換和識別語音云,語音翻譯的效果也很好。如圖2 所示。
圖2:音頻處理流程
所以,我們開發(fā)了客家語音資料庫系統(tǒng),由黃鴻哲負責平臺開發(fā)工作,黃舒婷負責客家語音詞條收集,邵敬毅負責數(shù)據(jù)分析工作。當然,生活在現(xiàn)在的社會上,人人都需要一個身份標識,這不僅僅是個人身份的證明,也是一個通行證和后期處理事務(wù)的重要依據(jù),因為身份標識和個人是一對一的關(guān)系,有著極大的信服力。在客家語庫平臺系統(tǒng)中,用戶標識也是你在該系統(tǒng)的通行證,倘若是游客身份,那么您將無法體驗客家語庫系統(tǒng)的所有功能,這將會影響您在該系統(tǒng)的用戶使用體驗。用戶通行證也是為了更加方便您對客家語庫系統(tǒng)的使用以及記錄您學習客家語言過程,另一方面也是為了該系統(tǒng)對用戶的統(tǒng)一管理,讓客家語庫系統(tǒng)更好的為大家服務(wù)。成為客家語庫新用戶只需要點擊注冊按鈕,待頁面跳轉(zhuǎn)后填寫相關(guān)學習即可(國家級保密,不會透露個人信息)成為客家語庫用戶后將會贈與客家學習資料一份。如圖3 所示。
圖3:部分學習資料
好記性不如爛筆頭,學習客家方言也是如此,客家語庫提供了聽、練一體的練習系統(tǒng),在學習客家話的同時,為了鞏固學習的客家語言和拓展對客家語言的界限,練習系統(tǒng)會隨機提供一條客家語音,用戶可以根據(jù)自己所聽到的內(nèi)容翻譯成對應(yīng)的漢字信息后提交,提交后系統(tǒng)將數(shù)據(jù)提交至審核系統(tǒng),通過后成為信息流輸入到該條音頻對于的提交表中,在經(jīng)過系統(tǒng)信息過濾展現(xiàn)在該條音頻對應(yīng)的提交區(qū)反饋給用戶查看,查看后系統(tǒng)還會根據(jù)每條提交的支持數(shù)形成降序展現(xiàn),這是為了激發(fā)用戶的好勝心,讓用戶認真提交而設(shè)置。如圖4 和圖5 所示。
圖4:數(shù)據(jù)I/O 流圖
圖5:用戶與提交的實體聯(lián)系
如圖6 所示,根據(jù)清洗后的有效數(shù)據(jù),統(tǒng)計用戶的發(fā)音和音調(diào)得分。顏色越深,數(shù)字越多。直觀地獲得每個類別的評分頻率。在1732 次評估中,5 分的評論占比最高,而用戶的發(fā)音得分最高。
圖6:發(fā)音、音調(diào)的評分分布直方圖
存儲翻譯語庫的大數(shù)據(jù)集中化趨勢。存儲翻譯語庫、術(shù)語語庫等資源集中在中央服務(wù)器的文件中,將具有不同搜索習慣的用戶通過網(wǎng)絡(luò)連接到服務(wù)器進行有針對性的辨別,檢索和維護更加方便。另一方面,通過資源數(shù)據(jù)集成,也是實現(xiàn)對語庫數(shù)據(jù)知識產(chǎn)權(quán)的有效保障,更好地順應(yīng)當下網(wǎng)絡(luò)數(shù)據(jù)安全的趨勢。在用戶索檢對應(yīng)客家語音的時候會有專業(yè)的語音和索檢關(guān)鍵詞的相對于解析,還有協(xié)助用戶學習的發(fā)音標準。如圖7 所示。
圖7:客語辭典語音轉(zhuǎn)譯界面
可能大家耳熟能詳?shù)目图椅幕牡湫痛頌橛兄袊投贾Q的廣東省梅州市,但是我們也應(yīng)該知道,客家文化不在廣東梅州??图椅幕图以?,客家民俗,戲劇等多個方面。其中廣東省的惠州、河源、深圳等地級市;江西,福建等多個省會;甚至遠至印度尼西亞、馬來西亞、日本、臺灣等地區(qū)都有客家文化存在的身影??图椅幕植紡V泛,影響深遠,有三個經(jīng)中華人民共和國文化部批準的國家客家文化生態(tài)保護試驗區(qū)。而客家系統(tǒng)根據(jù)大數(shù)據(jù)也設(shè)立了其他地區(qū)客家文化的特色資料學習,也利用python 爬蟲技術(shù)收集了各個地區(qū)客家文化的主要官網(wǎng)地址供用戶學習和攬閱。
對于一個系統(tǒng)核心而言,邏輯功能必不可少,其次就是大量的準確而具有科學性的數(shù)據(jù)。本系統(tǒng)不僅利用某些計算機技術(shù)進行數(shù)據(jù)的開掘,另一方面也是進行了實實在在的大量的數(shù)據(jù)搜素匹配,然后進行過濾打量,對數(shù)據(jù)本身進行篩選和優(yōu)化,才給予錄入該系統(tǒng)的條件;然而這樣龐大的工作量僅僅有開發(fā)團隊來收集和處理顯然應(yīng)付不了大后期的系統(tǒng)需求;因此團隊還開發(fā)了線上注音的功能,如圖8 所示,這一舉措也可以讓熱愛客家文化的用戶對我們的客語系統(tǒng)進行數(shù)據(jù)的補充,從而緩解開發(fā)團隊本就緊張的時間和成本資源,也能收集更多更廣的客家文化,讓開發(fā)團隊和用戶一起進行客家文化的運用和傳承。
圖8:線上注音
不過,收集的數(shù)據(jù)可能會魚龍混雜,因此還是需要專業(yè)的客家后臺管理人員進行對用戶提交的注音進行審核后在覺得是否錄用用戶的提交,這樣不僅能保證數(shù)據(jù)的可靠性,也還是可以從一定的角度緩解開發(fā)團隊的壓力。
8.1.1 應(yīng)添加的語庫后臺
對于現(xiàn)有的語庫系統(tǒng),從具有用戶權(quán)限的練習系統(tǒng)到對用戶開源的客家辭典;無論是查看客家資料,還是轉(zhuǎn)換到其他客家官網(wǎng),都可以進一步的精述為致至用戶使用的一個系統(tǒng)。除開添加功能外,系統(tǒng)難免會對客語系統(tǒng)現(xiàn)有的數(shù)據(jù)進行一些管理的更改,倘若從源碼底層去動用這些龐大的數(shù)據(jù)流,先不談及工作量,也會導(dǎo)致管理效率變得及其的底下,因為要進入源碼層,需要預(yù)先配置好的系統(tǒng)環(huán)境變量以及源碼等條件,光是系統(tǒng)環(huán)境變量和源碼這兩項,開發(fā)人員不可能隨身攜帶這些現(xiàn)成條件。所以,我們應(yīng)該給語庫系統(tǒng)添加理論上的可視化系統(tǒng)后臺數(shù)據(jù)管理界面以及功能。
8.1.2 語庫后臺功能介紹
(1)語庫練習系統(tǒng):在眾多的用戶提交答案中,難免有些用戶會提交一些系統(tǒng)過濾不了的不良的、不合乎正常邏輯的答案,那么我們就需要將這些提交的答案進行一個刪除操作
(2)用戶權(quán)限管理:基于語庫練習系統(tǒng)的不良用戶提交,倘若該用戶多次利用系統(tǒng)本身具有的過濾功能的BUG 進行一個提交答案,影響正常用戶的使用,那我們會給予撤銷該用戶的用戶權(quán),并且對該用戶進行用戶注冊時填寫的聯(lián)系信息進行一個短信警告。
(3)客家辭典:一個系統(tǒng)好壞首先看功能性能方面實現(xiàn)的如何,其次是該系統(tǒng)歸屬下的數(shù)據(jù)量海納多少,客家辭典就如同字典,數(shù)據(jù)信息必須齊全,用戶使用體驗才會良好。對于添加數(shù)據(jù),開發(fā)人員亦然可以從底層數(shù)據(jù)庫進行添加,但這樣就會顯得冗余,故該數(shù)據(jù)后臺應(yīng)該具備上傳文件的功能以導(dǎo)入數(shù)據(jù),不必動用底層代碼而產(chǎn)生更多的系統(tǒng)問題。
(4)審核在線注音:數(shù)據(jù)可以有開發(fā)人員進行添加,但不同的人,見識會有差異,項目團隊的認知并不是十全十美的,或許有些用戶正好見識過項目組所未見識的,那么這些用戶就可以行對客家知識的一個提交。提交的數(shù)據(jù)匯流到語庫后臺,由專業(yè)組進行一個審核與處理音頻,確定用戶提交的價值性后再給予納入系統(tǒng)數(shù)據(jù)。
8.2.1 客家語言文化
世界上現(xiàn)在僅存約六千種語言,約是上世紀末的一半,像不少的動植物一樣,有些弱勢語言只剩下幾個人講,馬上就要淘汰。但是若以人口計算,客語在頭三十名內(nèi),照算是沒那么快會消失的。然而,有資料顯示,客家語被認為是地球上衰落最快的語言之一。近20 年,全球會說客家話的人由6000 多萬減少到不足3000 萬,流失速度驚人??图艺Z言文化歷史悠久,雖是一方語言,但也是博大精深的中華文化缺一不可的一部分,也算是特色文化之一,承載了文化發(fā)展的腳印,具有重大的文化意義。而這種語言的形成,則是客家人向客家群體歸屬的基本條件??图曳窖宰鳛橐环N文化現(xiàn)象,不是孤立的,而是深深植根于客家民系的總體文化之中,昭示著自己祖先、來源的一面明鏡。
8.2.2 客家語庫
(1)客家語庫提供漢轉(zhuǎn)譯客家語音的功能供給用戶使用。
(2)系統(tǒng)配備的練習系統(tǒng)方便用戶的學習。
(3)系統(tǒng)收集了各地區(qū)的客家方言,供給用戶參考差異。
(4)考慮到客家系統(tǒng)的往后發(fā)展,客家系統(tǒng)可考慮類似的論壇功能,為客家文化。小白和客家文化熱衷者提供交流平臺,方便用戶之間的溝通。