孫筱玥 付南鈞 楊煉 李凱 韓梅
摘 要:計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)從聾人學(xué)生計(jì)算機(jī)專業(yè)教學(xué)的情景視頻庫(kù)中選取手語(yǔ)視頻語(yǔ)料,采用多媒體轉(zhuǎn)寫(xiě)標(biāo)注軟件ELAN進(jìn)行手語(yǔ)語(yǔ)序轉(zhuǎn)寫(xiě)、漢語(yǔ)翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語(yǔ)料,建成“計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)”, 從手勢(shì)動(dòng)作、身體姿勢(shì)、面部表情三方面特征對(duì)計(jì)算機(jī)專業(yè)手語(yǔ)詞匯展開(kāi)詞義構(gòu)成分析和描寫(xiě),分析計(jì)算機(jī)專業(yè)手語(yǔ)詞匯的手勢(shì)特點(diǎn)及內(nèi)在成因。
關(guān)鍵詞:手語(yǔ) ;語(yǔ)料庫(kù);轉(zhuǎn)寫(xiě);標(biāo)注
中圖分類號(hào):TP317 文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào):2095-2163(2015)06-
Abstract:Computer professional sign language corpus selects sign language video corpusfrom the deaf students in computer specialty teaching scene corpus. The construction uses multimedia transcription annotation software Elan sign language to realize transliteration of the word order, Chinese translation and text marking, and converse the related resultsinto corpus, therefore
build computer professional sign language corpus ". Based on the aboved, from the three aspects of features of gestures, body posture, facial expressions,the paperanalyzes and describes computer professional sign language vocabulary expansion semantic structure, after that analyzes computer professional sign language gesture feature and internal causes.
Keywords: Sign Language; Corpus; Transliteration; Annotation
0 引言
根據(jù)中國(guó)殘聯(lián)提供的數(shù)字,我國(guó)現(xiàn)有聾人約2200萬(wàn),18歲以下應(yīng)受教育的聾啞人達(dá)400多萬(wàn),7歲以下為80萬(wàn)。這是一個(gè)龐大的弱勢(shì)群體。因其在學(xué)習(xí)、工作和生活上有許多常人難于想象的艱辛和障礙。[1]計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)從聾人學(xué)生計(jì)算機(jī)專業(yè)教學(xué)的情景語(yǔ)料庫(kù)中選取手語(yǔ)視頻語(yǔ)料進(jìn)行手語(yǔ)語(yǔ)序轉(zhuǎn)寫(xiě)、漢語(yǔ)翻譯和文本標(biāo)注,將其轉(zhuǎn)換為文本語(yǔ)料,建成“計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)”, 從手勢(shì)動(dòng)作、身體姿勢(shì)、面部表情三方面特征對(duì)計(jì)算機(jī)專業(yè)手語(yǔ)詞匯展開(kāi)詞義構(gòu)成分析和描寫(xiě),分析計(jì)算機(jī)專業(yè)手語(yǔ)詞匯的手勢(shì)特點(diǎn)及內(nèi)在成因,指導(dǎo)聾人高等工科教育中的手語(yǔ)教學(xué)。同時(shí)也能為聾人高等工科教育提供教學(xué)資源、教學(xué)設(shè)計(jì)、教材編寫(xiě)、課堂教學(xué)與學(xué)習(xí)評(píng)估等方面科學(xué)的決策與指導(dǎo)。如同其他語(yǔ)言建立語(yǔ)料庫(kù)一樣,計(jì)算機(jī)專業(yè)手語(yǔ)也可以充分利用計(jì)算機(jī)和網(wǎng)絡(luò)資源,根據(jù)計(jì)算機(jī)專業(yè)手語(yǔ)的特點(diǎn),建立手語(yǔ)語(yǔ)料庫(kù)[2]。
手語(yǔ)語(yǔ)料庫(kù)的建立在手語(yǔ)的語(yǔ)言學(xué)研究、手語(yǔ)的規(guī)范化研究及手語(yǔ)識(shí)別和機(jī)器翻譯領(lǐng)域有著重要的應(yīng)用意義。因此,國(guó)外學(xué)者對(duì)此做了大量的研究。美國(guó)的手語(yǔ)研究者于1995年對(duì)7個(gè)主要城市的聾人使用的手語(yǔ)的音系、詞匯和句法開(kāi)展了詳細(xì)的調(diào)查,積累了大量的手語(yǔ)樣本后建立了世界上第一個(gè)手語(yǔ)語(yǔ)料庫(kù)即美國(guó)手語(yǔ)語(yǔ)料庫(kù)(Lucas, 2005)。近年來(lái),越來(lái)越多的國(guó)家和地區(qū)相繼建立起手語(yǔ)語(yǔ)料庫(kù),其中包括英國(guó)手語(yǔ)語(yǔ)料庫(kù)項(xiàng)目、北美手語(yǔ)語(yǔ)料庫(kù)工作坊、澳大利亞手語(yǔ)語(yǔ)料庫(kù)、荷蘭手語(yǔ)基本詞匯語(yǔ)料庫(kù)、德國(guó)手語(yǔ)語(yǔ)料庫(kù),中國(guó)香港的亞太地區(qū)手語(yǔ)語(yǔ)料庫(kù)等都對(duì)我國(guó)建立手語(yǔ)語(yǔ)料庫(kù)有借鑒意義。李恒(2013)認(rèn)為目前最為成熟的手語(yǔ)語(yǔ)料庫(kù)是由Johnston等人創(chuàng)建的澳大利亞手語(yǔ)語(yǔ)料庫(kù)。Johnston(2009)提出,手語(yǔ)語(yǔ)料庫(kù)應(yīng)當(dāng)包括大量可以機(jī)讀的標(biāo)注文本,而非語(yǔ)篇和文本的隨意堆砌。McEnery和Wilson(1996)也認(rèn)為樣本的代表性以及語(yǔ)料的機(jī)讀形式化是語(yǔ)料庫(kù)兩個(gè)最重要的特征。以此標(biāo)準(zhǔn)建立的語(yǔ)料庫(kù),對(duì)于包括音系、詞匯、句法、語(yǔ)篇等各種層次的手語(yǔ)研究,尤其是詞典編纂都有積極的促進(jìn)作用。王敏等則認(rèn)為英國(guó)手語(yǔ)語(yǔ)料庫(kù)項(xiàng)目和北美手語(yǔ)語(yǔ)料庫(kù)工作坊兩個(gè)手語(yǔ)語(yǔ)料項(xiàng)目在設(shè)計(jì)理念、技術(shù)手段、人員協(xié)作等方面值得研究與借鑒。目前國(guó)外較為通行的做法是,科研人員可根據(jù)研究需要建立私人語(yǔ)料庫(kù),在一定范圍內(nèi)實(shí)現(xiàn)共享和交流[4]。
1 設(shè)計(jì)實(shí)現(xiàn)的功能
系統(tǒng)采用ELAN建立計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù),從一個(gè)小型專業(yè)手語(yǔ)語(yǔ)料庫(kù)的建設(shè)入手,先建立各個(gè)子庫(kù),比如計(jì)算機(jī)網(wǎng)絡(luò)手語(yǔ)、圖形圖像手語(yǔ)、動(dòng)畫(huà)設(shè)計(jì)手語(yǔ)等等,再集成完成數(shù)據(jù)庫(kù),探索專業(yè)手語(yǔ)語(yǔ)料庫(kù)建立的方法和途徑[3]。通過(guò)轉(zhuǎn)寫(xiě)和標(biāo)注,分析手語(yǔ)的特點(diǎn),以便于計(jì)算機(jī)對(duì)特定語(yǔ)料進(jìn)行識(shí)別和提取。實(shí)現(xiàn)語(yǔ)料庫(kù)的機(jī)讀化,提高語(yǔ)料的利用價(jià)值,增加語(yǔ)料的重復(fù)使用性以及增強(qiáng)語(yǔ)料庫(kù)的多功能性。以此標(biāo)準(zhǔn)建立的語(yǔ)料庫(kù),對(duì)于包括音系、詞匯、句法、語(yǔ)篇等各種層次的手語(yǔ)研究,尤其是詞典編纂都有積極的促進(jìn)作用。
1.1語(yǔ)料樣本形式的選取
語(yǔ)料的選擇和編制是建立語(yǔ)料庫(kù)的環(huán)節(jié)之一, 調(diào)查通常包括如下部分。
(1)詞匯:。以計(jì)算機(jī)專業(yè)手語(yǔ)視頻數(shù)據(jù)庫(kù)中的視頻文件作為本課題的語(yǔ)料樣本。該視頻庫(kù)中的計(jì)算機(jī)專業(yè)手語(yǔ)詞匯由來(lái)自全國(guó)各地的聾生做手語(yǔ)來(lái)描述。選取使用頻率高的課堂教學(xué)詞匯。配合采用田野調(diào)查的“詞匯記錄”法, 確保忠實(shí)地記錄手語(yǔ)中的特有詞匯。
(2) 語(yǔ)法。以“誘導(dǎo)法”和“自然產(chǎn)出法”兩種方法為主體, 具體采用訪談、自由交流以及讓聾人進(jìn)行自我介紹等方式獲得語(yǔ)料信息。
(3)地域。由于我國(guó)地域遼闊,如同有聲語(yǔ)言存在方言差別一樣,手語(yǔ)也有不同的地域語(yǔ)言變體。因此語(yǔ)料庫(kù)樣本的地域的選取應(yīng)盡可能廣泛。如果不能覆蓋全國(guó)各個(gè)省市,也應(yīng)具備東北、華北、華東、華南等地區(qū)的代表性。語(yǔ)料樣本的選取應(yīng)當(dāng)注意到不同地區(qū)聾人文化和聽(tīng)人文化的差異、聾人文化內(nèi)部之間的差異對(duì)手語(yǔ)方言形成的作用。這樣采集的樣本才能為計(jì)算機(jī)專業(yè)手語(yǔ)的規(guī)范化研究提供理論依據(jù)。
1.2 操作方法
在建立計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)時(shí),根據(jù)計(jì)算機(jī)專業(yè)教學(xué)的實(shí)際需要決定標(biāo)注來(lái)完成元數(shù)據(jù)的標(biāo)準(zhǔn)化和手語(yǔ)視頻詞匯的規(guī)范化,同時(shí)要兼顧實(shí)用性,避免因數(shù)據(jù)量過(guò)小而降低語(yǔ)料庫(kù)的利用價(jià)值。目前較為常見(jiàn)的手語(yǔ)元數(shù)據(jù)描述格式是由荷蘭馬克思·普朗克心理語(yǔ)言學(xué)研究所開(kāi)發(fā)應(yīng)用的imdi元數(shù)據(jù)庫(kù)。這主要用在多媒體和多模態(tài)語(yǔ)言集成。更好的實(shí)驗(yàn)語(yǔ)言數(shù)據(jù)和元數(shù)據(jù)之間的匹配,提供檢索和計(jì)算之用。另一個(gè)ELAN軟件,這主要有三種模式:分割模式,轉(zhuǎn)寫(xiě)模式,標(biāo)注模式。在過(guò)程中,為避免對(duì)手語(yǔ)不熟悉,保證數(shù)據(jù)分割的準(zhǔn)確性,最好由手語(yǔ)語(yǔ)言學(xué)專業(yè)出身來(lái)完成。因此在建設(shè)手語(yǔ)語(yǔ)料庫(kù)過(guò)程中,應(yīng)當(dāng)注意到以下幾個(gè)問(wèn)題:
(1) 作為語(yǔ)料庫(kù)研究者來(lái)看,應(yīng)該在標(biāo)注系統(tǒng)的詳略度和標(biāo)注方案的可行性之間找到平衡點(diǎn)。
(2) 從用戶的角度性來(lái)研究, 語(yǔ)料庫(kù)的標(biāo)注應(yīng)該越詳細(xì)越好,可以用戶讓容易理解;假如標(biāo)注信息過(guò)于繁多,這將不利于標(biāo)注者進(jìn)行實(shí)際操作。
(3) 從建設(shè)整體來(lái)看,我國(guó)的手語(yǔ)視頻庫(kù)以及語(yǔ)料庫(kù)大多數(shù)是為國(guó)家出資而建立,在此提倡應(yīng)當(dāng)由大學(xué)各個(gè)機(jī)構(gòu)和高等學(xué)校自主建立專屬的手語(yǔ)語(yǔ)料庫(kù)。
2 Elan自建語(yǔ)料庫(kù)的方法
2.1 基本概念
Elan的四個(gè)基本概念是:轉(zhuǎn)寫(xiě);標(biāo)注;層;語(yǔ)言學(xué)類型。在此,對(duì)其闡釋如下:
(1)轉(zhuǎn)寫(xiě)。根據(jù)音頻和視頻內(nèi)容錄入文字或其它字符(國(guó)際音標(biāo)、拼音等)的操作。
(2)標(biāo)注。針對(duì)音頻或視頻內(nèi)容所轉(zhuǎn)寫(xiě)的文字、國(guó)際音標(biāo)或者對(duì)內(nèi)容進(jìn)行的標(biāo)記、注釋等等,都可以稱為“標(biāo)注”。在Elan 中,“標(biāo)注”包括“轉(zhuǎn)寫(xiě)”。另外,“標(biāo)注”也可以指某一層上沒(méi)有轉(zhuǎn)寫(xiě)任何內(nèi)容的空段,即“空標(biāo)注”。
(3)層。轉(zhuǎn)寫(xiě)和標(biāo)注以“層”為依托,不同的層里有不同的標(biāo)注內(nèi)容。如文本轉(zhuǎn)寫(xiě)層、國(guó)際音標(biāo)層、注釋層等等。
(4)語(yǔ)言學(xué)類型。從語(yǔ)言學(xué)角度對(duì)“層”屬性的一種定義,如某一層標(biāo)注的內(nèi)容是國(guó)際音標(biāo),就可以把該層的語(yǔ)言學(xué)類型定義為“ IPA”,某一層是方言轉(zhuǎn)寫(xiě),就可以把這一層的語(yǔ)言學(xué)類型定義為“ Dialect”,等等。
2.2操作模式
運(yùn)行Elan ,導(dǎo)入音頻或視頻文件后, Elan 在“選項(xiàng)”菜單中設(shè)計(jì)有五種操作模式可供選擇:分割、轉(zhuǎn)寫(xiě)、標(biāo)注、同步、線性交錯(cuò)。前三種模式在轉(zhuǎn)寫(xiě)與標(biāo)注的過(guò)程中使用頻繁,常常需要在各種模式之間切換;后兩種模式則使用較少。下面即對(duì)前三種模式展開(kāi)具體論述。
(1)分割模式。這是轉(zhuǎn)寫(xiě)模式的基礎(chǔ),主要用于在轉(zhuǎn)寫(xiě)前對(duì)錄音或視頻進(jìn)行時(shí)間段(按實(shí)際語(yǔ)流的停頓“分割段”可能是半句話、一句話或更多)的分割標(biāo)記,使用時(shí)只需要在相應(yīng)的時(shí)間點(diǎn)按“回車(chē)鍵”就可以逐段分割,進(jìn)行標(biāo)記。
(2)轉(zhuǎn)寫(xiě)模式。該模式以分割模式為基礎(chǔ),在分割模式中完成對(duì)轉(zhuǎn)寫(xiě)的內(nèi)容逐段分割標(biāo)記后切換到轉(zhuǎn)寫(xiě)模式,在表格中逐句轉(zhuǎn)寫(xiě),轉(zhuǎn)寫(xiě)完成一句以后,即按回車(chē)鍵進(jìn)入到下一句。如需重復(fù)播放當(dāng)前句,按 Tab 鍵即可,操作簡(jiǎn)單高效,省去了頻繁回放的麻煩。
(3)標(biāo)注模式。圖1所示是對(duì)一個(gè)手語(yǔ)專業(yè)的人打手語(yǔ)拍攝的轉(zhuǎn)寫(xiě)和標(biāo)注 ,標(biāo)注人是鐘鵬,參與者是手語(yǔ)語(yǔ)言學(xué)專業(yè)的人,詞匯是“安全”。
2.3 制作流程
(1)新建導(dǎo)入視頻之后,在菜單上的選項(xiàng)單擊,找到分割模式。
(2)按回車(chē)鍵設(shè)置第一個(gè)標(biāo)記,設(shè)置到第二個(gè)標(biāo)記連成一個(gè)標(biāo)注段,即一個(gè)字一個(gè)標(biāo)注段。
(3)設(shè)置標(biāo)注段后,選項(xiàng)轉(zhuǎn)寫(xiě)模式。
(4)設(shè)置幾個(gè)表欄數(shù)目,第一個(gè)列數(shù)量選擇default-it,最后點(diǎn)選“應(yīng)用”。
(5)完成之后,在序號(hào)1輸入安,序號(hào)2輸入全。選項(xiàng)>標(biāo)注模式。
(6)鼠標(biāo)光標(biāo)移動(dòng)default,按鼠標(biāo)右鍵,選擇更改此層屬性。
(7)更改層名、參與者、標(biāo)注人、輸入法,單擊確定。
(8)在菜單欄選擇“層>復(fù)制層” 然后在彈出的復(fù)制層窗口中選好正文,然后下一個(gè)。
(9)單擊下一個(gè),進(jìn)入選轉(zhuǎn)寫(xiě)(無(wú)父層)。
(10)單擊下一個(gè)按鈕,最后一步,結(jié)束。復(fù)制層之后更改此層屬。
(11)在標(biāo)注段雙擊就進(jìn)行編輯狀態(tài),分別輸入一手橫伸,掌心向下,自胸部向下(時(shí)間段為0~2秒);伸出拇指順時(shí)針平行轉(zhuǎn)一圈(時(shí)間段為2~3.5秒),如圖2所示。
2.4 Elan自建手語(yǔ)語(yǔ)料庫(kù)的結(jié)論
計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)對(duì)于聾人高等教育領(lǐng)域的教師、全國(guó)聾生發(fā)揮著集成地方手語(yǔ)、以及將涉獵手語(yǔ)互相對(duì)比、查詢、學(xué)習(xí)的作用,使聾人能夠精確地了解,并熟練使用一些專業(yè)性手語(yǔ)。研究中為了使聾人能夠更趨便利地達(dá)成溝通,使用Elan軟件處理拍攝視頻,利用該專業(yè)手語(yǔ)詞匯,肢體上的動(dòng)作講解來(lái)實(shí)現(xiàn)手語(yǔ)語(yǔ)料庫(kù)的基本構(gòu)建。Elan軟件對(duì)于收集手語(yǔ)具有更好的專業(yè)優(yōu)勢(shì)。
3 結(jié)束語(yǔ)
計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)建設(shè)的研究是研究所在聾人工學(xué)院重大的項(xiàng)目,對(duì)于計(jì)算機(jī)專業(yè)手語(yǔ)詞匯,句子的手勢(shì)進(jìn)行采集、分割、轉(zhuǎn)寫(xiě)、標(biāo)注種種來(lái)完成計(jì)算機(jī)專業(yè)手語(yǔ)詞匯語(yǔ)料庫(kù),計(jì)算機(jī)專業(yè)手語(yǔ)句子語(yǔ)料庫(kù)的建設(shè)。尤需一提的是,計(jì)算機(jī)專業(yè)手語(yǔ)詞匯的采集積累,在這一過(guò)程中需要通過(guò)各地方聾人打手勢(shì)的長(zhǎng)期積累、精細(xì)篩選,需要制作臻于完善的文案完成拍攝任務(wù),還需要操作軟件耗費(fèi)時(shí)間完成標(biāo)注,轉(zhuǎn)寫(xiě)等等,才可以完成計(jì)算機(jī)專業(yè)手語(yǔ)語(yǔ)料庫(kù)的最終圓滿建設(shè)。
參考文獻(xiàn):
[1]李凱.韓梅.聾人手語(yǔ)動(dòng)漫教學(xué)系統(tǒng)的設(shè)計(jì)[J].智能計(jì)算機(jī)與應(yīng)用,2012,2(6):41-45.
[2]李凱.計(jì)算機(jī)專業(yè)詞匯手語(yǔ)手勢(shì)的表達(dá)設(shè)想[J]天津, 2004(1):1-3.
[3]李斌.用Elan建設(shè)單點(diǎn)方言多媒體語(yǔ)料庫(kù)[J].方言, 2012(2):178-190.
[4]李恒. 手語(yǔ)語(yǔ)言學(xué)方法論研究綜述[J].中國(guó)特殊教育,2012(6):22-26.