• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向ELAN軟件的手語漢語平行語料庫構(gòu)建

    2019-04-02 03:08:28吳蕊珠李晗靜呂會(huì)華姚登峰
    中文信息學(xué)報(bào) 2019年2期
    關(guān)鍵詞:手語語料平行

    吳蕊珠,李晗靜,呂會(huì)華,姚登峰

    (1. 北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2. 北京聯(lián)合大學(xué)特殊教育學(xué)院,北京 100075)

    0 引言

    手語是一種視覺語言,它是通過手的動(dòng)作、面部表情的變化和身體的運(yùn)動(dòng)進(jìn)行交流的語言。美國學(xué)者威廉姆·斯多基于20世紀(jì)60年代初發(fā)表了世界上第一本談手語的著作《手語結(jié)構(gòu)》,明確提出美國手語是一種自然語言。時(shí)至今日,手語語言學(xué)成為語言學(xué)研究中不可或缺的組成部分,語言學(xué)家開始從不同層面研究手語,而研究范圍也從美國手語擴(kuò)展到其他國家手語[1]。

    需要指出的是,我們這里所說的手語均為自然手語,與手勢漢語或手勢英語等人造語言是不同的。手勢漢語是根據(jù)漢語的語法規(guī)律、人為造出來與聾人交流的工具,其利用了漢語的語序,與自然手語的語法規(guī)律存在很大差別,聾人理解起來存在一定困難[1]。所以未來手語的機(jī)器翻譯并不是簡單地將漢語一個(gè)詞對應(yīng)一個(gè)手勢翻譯出來[2]。本文面向自然手語進(jìn)行收集和整理。

    本文的工作主要是建立手語漢語平行語料庫。平行語料庫是指“由原文文本及其平行對應(yīng)的譯語文本構(gòu)成的雙語語料庫,其雙語對應(yīng)程度可有詞級(jí)、句級(jí)和段級(jí)幾種”[3]。所以手語漢語平行語料庫一方面是要有嚴(yán)格的手語語料的采集過程,采集設(shè)備及場景設(shè)置、采集內(nèi)容、被采集者的選取和采集用到的誘導(dǎo)材料都需要建立標(biāo)準(zhǔn);另一方面是用多媒體標(biāo)注軟件ELAN對收集到的手語語料進(jìn)行手控和非手控信息等的標(biāo)注,其標(biāo)注者的選取和標(biāo)注的標(biāo)準(zhǔn)也需要科學(xué)指導(dǎo)。本文建立手語漢語平行語料庫是為了給日后建立其他通用手語語料庫提供有效的參考,為保證語料庫標(biāo)注質(zhì)量,提供相應(yīng)技術(shù)支持,它也能夠?yàn)楹罄m(xù)的手語機(jī)器翻譯提供有力的數(shù)據(jù)基礎(chǔ)。

    為了有助于語料的去重和手語語料的分類,以及保證其標(biāo)注質(zhì)量,本文提出對標(biāo)注語料使用基于向量空間模型的余弦相似性算法來實(shí)現(xiàn)手語語料相似度的計(jì)算。

    1 相關(guān)研究

    1.1 語料庫

    1.1.1 國內(nèi)漢英雙語平行語料庫

    北京大學(xué)計(jì)算語言學(xué)研究所的雙語語料庫,英漢對齊的句子已有5萬多對,并開發(fā)了相應(yīng)的對齊工具和雙語語料庫管理軟件。在此基礎(chǔ)上做漢英對照短語庫,預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬條;哈爾濱工業(yè)大學(xué)的英漢雙語語料庫1998年有3萬句子對,已經(jīng)進(jìn)行了詞性標(biāo)注,目前正在擴(kuò)充為40萬~50萬句子對,在句子、短語、詞匯三級(jí)層面實(shí)現(xiàn)雙語對齊;東北大學(xué)的英漢雙語語段庫:在雙語語料庫基礎(chǔ)上,建造雙語語段庫,1999年構(gòu)造了10萬雙語語段庫,進(jìn)行了基于語段的英漢機(jī)器翻譯實(shí)驗(yàn);中國科學(xué)院軟件研究所的英漢雙語語料庫基于雙語對齊算法研究,現(xiàn)有15萬對英漢雙語對齊句子庫,已經(jīng)切分和標(biāo)注[4]。

    1.1.2 澳大利亞手語語料庫

    目前最為成熟的手語語料庫當(dāng)屬由Johnston等人創(chuàng)建的澳大利亞手語語料庫[5]。該庫的建設(shè)目的從早期的社會(huì)語言學(xué)描寫研究,逐漸轉(zhuǎn)移到手語的傳承保護(hù)和詞典編纂。該語料庫的標(biāo)注包括49層,其中用來對雙手手形的意義、運(yùn)動(dòng)、位置等手控信息的標(biāo)注層就有37層之多;9層是對眼睛、眉毛、身體、頭部等非手控信息的標(biāo)注;2層是對于手語意義的標(biāo)注,分別是句子翻譯和詞語轉(zhuǎn)寫翻譯;最后一層是注釋。澳大利亞手語語料庫雖然是最為成熟的手語語料庫,但其大部分標(biāo)注層主要集中在雙手空間信息的描述上,標(biāo)注層過多,耗時(shí)耗力。因此,該語料庫很難復(fù)制或者推廣。

    1.1.3 德國天氣預(yù)報(bào)手語平行語料庫

    該語料庫的建立是為了手語的翻譯和識(shí)別,將德語翻譯成德國手語是該系統(tǒng)的目標(biāo)[6]?;诮y(tǒng)計(jì)的機(jī)器翻譯要依賴海量的數(shù)據(jù),該語料庫收集了自1999年以來6年內(nèi)德國天氣預(yù)報(bào)的手語視頻數(shù)據(jù),包括2 190個(gè)手語視頻,德語手語句子對有72 724對,詞語數(shù)量872 117個(gè),詞匯(去掉重復(fù)詞)有12 320個(gè),而且其收集的是國家級(jí)天氣預(yù)報(bào),手語視頻質(zhì)量比較高,包括很多相同的句子句式,比如天氣預(yù)報(bào)中的德語句子“Und nun die Wettervorhersage für morgen, Donnerstag, den zw?lften Mai.”,德國手語句子標(biāo)注為“JETZT WETTER+VORAUS+SAGEN MORGEN DONNERSTAG ZW? LF MAI.”,表達(dá)的意思是“And now the weather forecast for tomorrow, the 12th of May.”,語料庫中很多手語視頻中都會(huì)有這樣的句式,有利于基于統(tǒng)計(jì)的機(jī)器翻譯。該語料庫由三部分組層:一部分是手語視頻數(shù)據(jù)的標(biāo)注語料(The Video Corpus),其中標(biāo)注層有6層,分別是轉(zhuǎn)寫、詞語類型、手語句子邊界、相應(yīng)的德語句子邊界、德語使用者標(biāo)注的德語句子翻譯。另一部分是德語手語的文本語料(The Bilingual Text-based Corpus),是將ELAN軟件中的標(biāo)注信息導(dǎo)出。還有一部分是天氣預(yù)報(bào)的德語文本語料(The Monolingual Text-based Corpus),其中標(biāo)注信息中沒有主手、輔手、非手控信息的描述。對于手語這種空間性的語言,其記錄的手語信息不夠完整,且該語料庫采集的是規(guī)約手語,不是自然手語。

    1.1.4 中國手語語料庫

    中國的手語語料庫建設(shè)目前還處于初始階段,且手語研究逐漸豐富,北京師范大學(xué)鄧猛教授領(lǐng)頭的國家語委、中國殘聯(lián)“十二五”科研規(guī)劃2013年重大課題“國家通用手語等級(jí)標(biāo)準(zhǔn)研制”;復(fù)旦大學(xué)龔群虎的通用手語語料庫研究項(xiàng)目“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”;由南京特殊教育師范學(xué)院承擔(dān)的國家語委重點(diǎn)科研項(xiàng)目“國家手語詞匯語料庫建設(shè)”是中國第一個(gè)手語詞匯語料庫,采集了9個(gè)地區(qū)共6萬多個(gè)手語詞視頻,語料具有較強(qiáng)的代表性[7],但是只限于詞語級(jí)別;黃曉曉建立的基于情景的手語語料庫[8],包含個(gè)人在家庭、學(xué)校等場合的日常交流,其手語視頻轉(zhuǎn)寫采用Word文檔作為轉(zhuǎn)寫文檔,轉(zhuǎn)寫的格式?jīng)]有統(tǒng)一的標(biāo)準(zhǔn),這使文本語料很難成為格式化的可機(jī)讀文件。除了政府或殘聯(lián)組織投資建設(shè)的語料庫外,一些研究者為了研究的需要,也建立了或大或小的手語語料庫。

    目前手語漢語平行語料庫建設(shè)的缺點(diǎn)是: 規(guī)范性差,缺少系統(tǒng)的理論指導(dǎo),缺乏具體的評(píng)測標(biāo)準(zhǔn),使得手語語料庫建設(shè)的質(zhì)量不一,應(yīng)用性欠佳,難以滿足語料庫語言學(xué)發(fā)展的需要。很難為語言學(xué)研究提供及時(shí)、全面、權(quán)威性高的語料素材,為語言學(xué)建設(shè)提供強(qiáng)有力的數(shù)據(jù)支持。

    1.2 采集內(nèi)容

    為了采集到高質(zhì)量的手語語料,本節(jié)整理了國內(nèi)外手語語料庫的采集內(nèi)容(表1)、被采集者的選取規(guī)則以及采集場景的設(shè)置材料,以便為落實(shí)本文的采集內(nèi)容、被采集者的選取和采集場景設(shè)置提供參考。

    表1 手語語料庫的手語類型、題材、形式

    1.3 被采集者選取

    對于被采集者的選取來說,不同語言群體的成員,其語言能力存在差異,手語使用者群體也不例外。根據(jù)Johnston的調(diào)查,只有極少數(shù)人可以被稱作手語的母語使用者。因此最理想的受試者來自第二代聾人家庭的手語使用者。在實(shí)際生活中,尤其是在較小的聾人群體中,研究者往往難以召集到足夠數(shù)量的理想受試者。鑒于此,Johnston提出了另外一套針對非母語使用者的選取標(biāo)準(zhǔn),以保證研究的科學(xué)性。當(dāng)中包括: ①手語的學(xué)習(xí)年齡不應(yīng)晚于八歲,以三歲前為最佳; ②接受聾校教育,以住校生為最佳; ③每天使用手語; ④身份上認(rèn)同聾文化[5]。

    1.4 采集場景設(shè)置

    圖1是荷蘭NGT手語視頻采集的場景布置,被采集者和引導(dǎo)者相對而坐,每人面前各有一臺(tái)攝像機(jī)負(fù)責(zé)采集拍攝其手語信息。被采集者和引導(dǎo)者正上方也各自有一臺(tái)攝像機(jī),負(fù)責(zé)采集拍攝對象的另一個(gè)平面的手語信息。這種場景設(shè)置考慮到了手語的空間性。但是,被采集者和引導(dǎo)者的手語采集過程是一個(gè)手語對話的過程,如果將其分開,對后面的標(biāo)注過程是不利的,因?yàn)楹茈y理解他們要表達(dá)的內(nèi)容。

    圖1 荷蘭NGT手語語料庫的場景布置[9]

    新西蘭手語語料庫(The Corpus NGT(Nederlands))數(shù)據(jù)采集的場景布置如圖2所示,需要錄制對話人的正面、臉部、由上向下的6個(gè)同步視頻數(shù)據(jù)。新西蘭手語語料庫的場景設(shè)置比荷蘭NGT手語語料庫的場景設(shè)置多了臉部信息的攝取,是手語非手控信息的采集;還合成了被采集者和引導(dǎo)者兩人手語對話內(nèi)容,此類場景布置更適合采集對話形式的手語。其場景布置復(fù)雜,要用到6臺(tái)不同的高清攝像機(jī)同時(shí)錄制,實(shí)驗(yàn)室配置花費(fèi)大。

    圖2 新西蘭手語采集場景設(shè)置[10]

    1.5 ELAN工具介紹

    ELAN (EUDICO Linguistic Annotator)[11]是荷蘭馬克斯普朗克研究所為研究心理語言學(xué)而開發(fā),其目的是為注釋和開發(fā)多媒體提供良好的技術(shù)支持。ELAN是一個(gè)用于對視頻或音頻文件進(jìn)行復(fù)雜標(biāo)注的專業(yè)工具。使用ELAN可以為視頻、音頻添加無限層的標(biāo)注。標(biāo)注內(nèi)容可以是句子、單詞、內(nèi)容、翻譯或者是對視頻細(xì)節(jié)的描述等。使用ELAN對手語視頻進(jìn)行標(biāo)注可達(dá)到事半功倍的效果[12]。

    ① 層(Tier)是轉(zhuǎn)寫和標(biāo)注的依托,不同的層可以被賦予不同的標(biāo)注內(nèi)容。如注釋層、詞類層、翻譯層等。ELAN中的層可以根據(jù)使用者的需求添加。

    ② 轉(zhuǎn)寫(transcription)指根據(jù)音頻和視頻錄入文字或其他符號(hào)的操作。以手語為例,是借用漢字和其他字符按照手語順序記錄手語表達(dá)的內(nèi)容和方式,沒有翻譯加工,記錄的是手語表達(dá)的信息,并非翻譯的漢語句子[13]。

    ③ 標(biāo)注(annotation)是針對音頻或視頻內(nèi)容轉(zhuǎn)寫的文字、注釋、翻譯、國際音標(biāo)等,標(biāo)注包括轉(zhuǎn)寫。在ELAN中,標(biāo)注也指時(shí)間段上的時(shí)間線,時(shí)間段內(nèi)可以沒有轉(zhuǎn)寫任何內(nèi)容。

    1.6 視頻相似度計(jì)算

    手語是一種視覺語言,沒有書面形式,更多的是通過視頻錄制的方式進(jìn)行記錄。視頻的相似度研究為手語語料相似度研究提供了參考。

    國內(nèi)外學(xué)者在研究視頻相似度問題時(shí),一種方法是提取視頻的文本信息,Crawler系統(tǒng)[14]可以從視頻的URL和主頁HTML文件中提取視頻的文本信息,比如字幕、視頻的題目、摘要、類別、主題,以及相關(guān)的人物信息等。還有視頻經(jīng)過文字檢測、文字分割、字符識(shí)別,使用OCR軟件識(shí)別[15],完成由數(shù)字圖像到字符編碼的轉(zhuǎn)化,最終可以將視頻相似度轉(zhuǎn)化為文本相似度的計(jì)算。另一種方法,是將視頻作為圖像進(jìn)行處理,即關(guān)鍵幀之間的相似度計(jì)算, 轉(zhuǎn)化成圖像的相似度計(jì)算。以兩個(gè)視頻間對應(yīng)幀的平均距離作為相似度,條件是視頻幀序列遵守時(shí)間順序[16]。采用常見的顏色直方圖進(jìn)行計(jì)算比較, 但不是直接將兩幅圖像的直方圖進(jìn)行比較, 而是先將視頻的關(guān)鍵幀進(jìn)行區(qū)域劃分[17]。

    2 手語漢語平行語料庫的建設(shè)

    2.1 本文采集的內(nèi)容

    本文手語漢語平行語料庫采集內(nèi)容為聾人日常生活、學(xué)習(xí)、工作中自然產(chǎn)生的語料,還有通過實(shí)驗(yàn)誘導(dǎo)的方式獲取的語料。語料庫中已標(biāo)注語料約5.12GB,約80min,約2 400個(gè)平行句對。

    2.2 本文被采集者選取

    被采集人群為根據(jù)Berent提出的手語雙語者分類方案篩選被試,將被采集者分為五類。第一類:出生于聾人家庭的聾人,父母從小使用自然手語與其溝通,在獲得第一語言手語后,口語成為第二語言;第二類:出生于健聽家庭的聾人,早期接觸手語,之后接觸口語;第三類:出生于健聽家庭的聾人,晚期接觸手語;第四類:出生于聾人家庭的健聽人,早期從聾人父母處自然習(xí)得手語;第五類:健聽家庭的健聽人,如聾校教師、手語翻譯等,他們大多因工作需要,成年后學(xué)習(xí)手語。以上語料提供者還需滿足經(jīng)常使用手語這一條件[18]。

    圖3 本文手語視頻采集場景設(shè)置

    2.3 本文采集場景設(shè)置

    本文的手語視頻采集的場景布置如圖3所示。攝像機(jī)1的視角是負(fù)責(zé)拍攝被采集者和引導(dǎo)者的對話,而攝像機(jī)2的視角是負(fù)責(zé)拍攝被采集者的手語信息。這樣做的好處是,既記錄了對話內(nèi)容,也記錄了被采集者的信息,在后續(xù)對采集的語料進(jìn)行標(biāo)注的時(shí)候,可以參考對話內(nèi)容,以保證標(biāo)注的正確性與可靠性,降低標(biāo)注者的難度。

    2.4 標(biāo)注方法

    在本文建立的手語漢語平行語料庫中,我們的標(biāo)注層分為14層,包含手語的手控和非手控信息。分別是主手、輔手、詞語轉(zhuǎn)寫、詞語翻譯、句子翻譯1、句子翻譯2、句子翻譯3、句子翻譯4、眉毛、眼睛、嘴巴、身體、頭部、眨眼。其中主手和輔手層是對主手和輔手的位置、手形、運(yùn)動(dòng)信息進(jìn)行標(biāo)注,標(biāo)準(zhǔn)參考文獻(xiàn)[19]中的內(nèi)容(如圖4所示);詞語轉(zhuǎn)寫是時(shí)間段與手勢所要表達(dá)的意思,以國家通用手語為準(zhǔn);詞語翻譯是詞語轉(zhuǎn)寫層融合非手控信息后的翻譯,比如詞語轉(zhuǎn)寫是“雨”,融合非手控信息就可能翻譯成“大雨”或者“暴雨”;句子翻譯1和句子翻譯2是由手語使用進(jìn)來標(biāo)注,分成兩個(gè)句子翻譯是為了處理句子有歧義的情況;句子翻譯3和句子翻譯4是語言學(xué)專家標(biāo)注,分別對句子翻譯1和句子翻譯2進(jìn)行漢語翻譯和校驗(yàn);眉毛、眼睛、嘴巴、身體、頭部、眨眼這六層的標(biāo)注標(biāo)準(zhǔn)參考文獻(xiàn)[18]中的內(nèi)容。如圖5所示是使用ELAN軟件進(jìn)行標(biāo)注的示例。

    圖4 位置、手形和運(yùn)動(dòng)的標(biāo)注標(biāo)準(zhǔn)[19]

    圖5 手語標(biāo)注示例

    2.5 手語語料的預(yù)處理

    手語語料預(yù)處理是整個(gè)工作內(nèi)容的基礎(chǔ),有以下四個(gè)方面的內(nèi)容:手語語料采集、語料的標(biāo)注、語料專家校驗(yàn)及語料庫的更新和存儲(chǔ),手語語料的預(yù)處理總體流程如圖6所示。

    手語語料的預(yù)處理的具體內(nèi)容如下。

    ① “手語語料采集”首先需要確定被采集人和采集內(nèi)容,接下來按照場景布置要求將拍攝現(xiàn)場搭建好,最后就是對視頻的采集與存儲(chǔ)。

    圖6 手語語料的預(yù)處理總體流程

    ② “語料的標(biāo)注”這個(gè)過程是由自然手語使用者與漢語專家共同完成的,第一步是將MP4文件導(dǎo)入ELAN標(biāo)注軟件;第二步是按照話題或者固定時(shí)間將手語視頻進(jìn)行切分;第三步是建立轉(zhuǎn)寫標(biāo)注層,本文在建立手語漢語平行語料庫時(shí),綜合了相關(guān)研究章節(jié)中語料庫的優(yōu)缺點(diǎn),以及手語漢語平行語料庫的用途,增加了翻譯部分詞級(jí)和句子級(jí)的平行標(biāo)注層,減少了空間信息的過多描述,保留了非手控信息的標(biāo)注,最終確定了14層的標(biāo)注層級(jí),接著以手語標(biāo)注的標(biāo)準(zhǔn)及《國家通用手語》作為參考對手語進(jìn)行標(biāo)注。

    ③ “語料專家校驗(yàn)”時(shí),首先要對被采集者、采集內(nèi)容和手語標(biāo)注者信息等進(jìn)行確認(rèn),然后根據(jù)漢語標(biāo)注標(biāo)準(zhǔn)和手語標(biāo)注標(biāo)準(zhǔn)對語料庫標(biāo)注內(nèi)容進(jìn)行校驗(yàn)。專家校驗(yàn)就是為了提高語料庫的質(zhì)量,以便使語料庫能夠建得更好。

    ④ “語料庫的更新與存儲(chǔ)”將存在的問題進(jìn)行反饋,由手語使用者和漢語專家將標(biāo)注轉(zhuǎn)寫的語料內(nèi)容中的任何漏標(biāo)、誤標(biāo)、多標(biāo)、標(biāo)注不統(tǒng)一等情況進(jìn)行修正更新,形成一套符合標(biāo)注標(biāo)準(zhǔn)的手語漢語平行語料庫。最終,將手語視頻的MP4文件及手語語料標(biāo)注轉(zhuǎn)寫語料EAF文件進(jìn)行存儲(chǔ)。

    3 手語漢語相似度的計(jì)算

    手語語料相似度的計(jì)算有助于語料的去重和手語視頻的分類,以及保證標(biāo)注質(zhì)量問題等。本文建立的手語漢語平行語料庫中詞語轉(zhuǎn)寫層(詞語級(jí)別,不涉及語法信息)是對手語視頻內(nèi)容的轉(zhuǎn)寫,可以將手語視頻轉(zhuǎn)化為文本來處理。我們與1.6節(jié)中提到的視頻的文本信息是不同的,一般視頻的文本信息是非常有限的,而且視頻語義方面的文本信息很少,所以在視頻相似度處理方面是不利的。而本文用到的語料庫的詞語轉(zhuǎn)寫層,是對整段手語視頻中的語義進(jìn)行描述,對其進(jìn)行手語相似度的計(jì)算,為準(zhǔn)確性提供了保障。我們使用基于向量空間[20]的余弦相似性來進(jìn)行手語相似度的計(jì)算,還可以用此算法確定標(biāo)注者的標(biāo)注質(zhì)量是否合格。

    3.1 算法介紹

    向量空間模型的概念最早在20世紀(jì)60年代被Salton等人提出,并很快在文本分類、信息檢索等領(lǐng)域得到廣泛應(yīng)用。其定義為: 對于待檢查手語B中的每一個(gè)詞語,使用Bi代表此段手語中第i個(gè)詞語的權(quán)重,同樣使用Ai表示已有手語A中的第i個(gè)詞語的權(quán)重,從而可以使用Ai=(a1,a2,…,an)和Bi=(b1,b2,…,bn)表示待檢查手語B和已有手語A的詞語權(quán)重向量。在得到手語的詞語權(quán)重向量之后,通過余弦相似性算法計(jì)算Ai和Bi兩個(gè)向量的余弦相似度,從而判斷待檢查手語B和已有手語A之間的相似度。余弦相似度的計(jì)算如式(1)所示。

    (1)

    其中, ‖A‖和‖B‖表示向量的模。由于Ai和Bi均大于等于0,所以式(1)的值是一個(gè)0到1的值,0表示兩段手語語料的相似度為零,1表示兩段手語語料完全相同。

    3.2 算法流程

    算法流程如圖7所示。首先是語料預(yù)處理過程,將轉(zhuǎn)寫層語料導(dǎo)出成文本,并去除相應(yīng)的停用詞。然后按照余弦相似性算法的步驟,對手語視頻A的轉(zhuǎn)寫層和手語視頻B的轉(zhuǎn)寫層的所有詞進(jìn)行列舉;然后計(jì)算各自的詞頻、確定各自的詞頻向量、計(jì)算兩個(gè)詞頻向量對應(yīng)的夾角。最后就是確定手語視頻A和手語視頻B的相似度。

    圖7 基于余弦相似性算法的手語相似度計(jì)算流程圖

    3.3 實(shí)驗(yàn)結(jié)果

    本文選取了語料庫中的手語語料進(jìn)行了實(shí)驗(yàn),結(jié)果如圖8所示,其中手語視頻①和手語視頻1是同一內(nèi)容、被不同采集者進(jìn)行手語講述、經(jīng)同一轉(zhuǎn)寫者處理(手語視頻對2和②,3和③,4和④,5和⑤處理?xiàng)l件相同,表2中的實(shí)驗(yàn)結(jié)果為圖8中的結(jié)果。通過本文提出的相似度計(jì)算方法得到的結(jié)果為0.506 6。而手語視頻①和其他手語視頻進(jìn)行計(jì)算得到的相似度為0.237 6、0.061 4、0.281 8和0.143 6,相比較而言,相似度降低。說明同一內(nèi)容的手語視頻比不同內(nèi)容的相似度高,證明了算法的有效性。實(shí)驗(yàn)也將相似度高于0.5的手語視頻進(jìn)行專家校驗(yàn),得到了同樣的結(jié)果。

    圖8 手語視頻相似度計(jì)算對比實(shí)驗(yàn)

    另外,圖8中,標(biāo)注者A和標(biāo)注者B對手語視頻1進(jìn)行了轉(zhuǎn)寫。我們用上述方法進(jìn)行計(jì)算相似度。

    表2 手語視頻相似度實(shí)驗(yàn)結(jié)果

    結(jié)果1為0.895 8,也就是說同一手語視頻在不同標(biāo)注者進(jìn)行轉(zhuǎn)寫的情況下,其相似度計(jì)算結(jié)果有一定的可信度;為了保證語料庫的標(biāo)注質(zhì)量,此算法可以用作專家相似度測試。標(biāo)注者A為專家,標(biāo)注者B是一般標(biāo)注者,如果通過標(biāo)注培訓(xùn),標(biāo)注者與專家的標(biāo)注語料相似度達(dá)到相似度閾值,經(jīng)過專家討論研究,此閾值設(shè)為0.85,如果計(jì)算結(jié)果小于閾值,則不能通過專家相似度測試,重新進(jìn)行標(biāo)注培訓(xùn);如果計(jì)算結(jié)果大于閾值,則表明此標(biāo)注者可以進(jìn)行語料庫的標(biāo)注工作,保證了語料庫的標(biāo)注質(zhì)量。

    實(shí)驗(yàn)結(jié)果表明,本文用到的基于向量空間的余弦相似度的計(jì)算方法是可以用于手語視頻中的相似度計(jì)算的,也有非常明顯的效果。

    4 總結(jié)

    本文總結(jié)了國內(nèi)外手語平行語料庫建立、采集內(nèi)容、被采集者選取和采集場景設(shè)置的優(yōu)缺點(diǎn),最終確定了本文建設(shè)的手語漢語平行語料庫的方案;并對ELAN軟件進(jìn)行了詳細(xì)介紹,確定了基于ELAN的語料庫的標(biāo)注方法和標(biāo)準(zhǔn),并對手語語料的預(yù)處理過程進(jìn)行了分析和研究;最后進(jìn)行了基于向量空間的余弦相似性算法的實(shí)驗(yàn)并獲得明顯效果,為手語語料去重提供有力支持,也提高了研究人員管理和檢索手語語料的效率,同時(shí)保證了手語語料庫的質(zhì)量。未來我們會(huì)基于手語漢語平行語料庫對手語的機(jī)器翻譯和各種自然語言知識(shí)進(jìn)行挖掘研究。

    猜你喜歡
    手語語料平行
    手語學(xué)習(xí),只為更懂你
    向量的平行與垂直
    平行
    逃離平行世界
    自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
    活力(2019年15期)2019-09-25 07:23:06
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    再頂平行進(jìn)口
    汽車觀察(2016年3期)2016-02-28 13:16:36
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    奇怪的手語圖
    奇怪的手語圖
    欧美精品av麻豆av| 国产97色在线日韩免费| 亚洲欧美中文字幕日韩二区| 国产99久久九九免费精品| 亚洲中文av在线| 久久 成人 亚洲| 精品第一国产精品| 国产男人的电影天堂91| 极品人妻少妇av视频| 久久免费观看电影| 国产在视频线精品| 丝袜美足系列| 亚洲欧美日韩另类电影网站| 午夜福利影视在线免费观看| 久久久久网色| 国产高清videossex| 高清不卡的av网站| 大陆偷拍与自拍| 亚洲伊人色综图| tube8黄色片| 免费在线观看完整版高清| 91精品国产国语对白视频| 欧美久久黑人一区二区| 天堂8中文在线网| 久久99热这里只频精品6学生| 久久国产精品人妻蜜桃| 最近手机中文字幕大全| 欧美成人午夜精品| 中文字幕亚洲精品专区| 亚洲国产毛片av蜜桃av| 精品少妇黑人巨大在线播放| 大香蕉久久网| 亚洲人成77777在线视频| 久久精品成人免费网站| 99热国产这里只有精品6| 国产亚洲欧美精品永久| 色视频在线一区二区三区| 久久精品久久精品一区二区三区| 国产免费视频播放在线视频| 又黄又粗又硬又大视频| 超碰97精品在线观看| videos熟女内射| 1024香蕉在线观看| 叶爱在线成人免费视频播放| 十八禁人妻一区二区| 免费看十八禁软件| 别揉我奶头~嗯~啊~动态视频 | 久久久久精品人妻al黑| 麻豆av在线久日| 国产成人av教育| 久久ye,这里只有精品| 咕卡用的链子| 久久久久久免费高清国产稀缺| 免费黄频网站在线观看国产| 成年动漫av网址| 亚洲成人国产一区在线观看 | 久久久久精品国产欧美久久久 | 校园人妻丝袜中文字幕| 视频区图区小说| 国产色视频综合| 久久久久久亚洲精品国产蜜桃av| 精品一区二区三区av网在线观看 | av国产精品久久久久影院| 亚洲国产欧美网| 丰满少妇做爰视频| 高清欧美精品videossex| 亚洲精品成人av观看孕妇| 999久久久国产精品视频| 国产精品国产av在线观看| 叶爱在线成人免费视频播放| 日本色播在线视频| 欧美黄色淫秽网站| 久久人人爽av亚洲精品天堂| 美国免费a级毛片| 在线观看www视频免费| 嫩草影视91久久| 久热这里只有精品99| www.999成人在线观看| 在线精品无人区一区二区三| 天堂中文最新版在线下载| 亚洲天堂av无毛| 国产精品欧美亚洲77777| 亚洲欧美一区二区三区久久| 久久久久久免费高清国产稀缺| 免费少妇av软件| 成人午夜精彩视频在线观看| 美女中出高潮动态图| 久久热在线av| 成人国产av品久久久| 亚洲精品国产av蜜桃| 99国产精品免费福利视频| 亚洲人成电影观看| 欧美少妇被猛烈插入视频| 久久久久网色| 91字幕亚洲| 久久毛片免费看一区二区三区| 国产精品二区激情视频| 51午夜福利影视在线观看| 少妇人妻久久综合中文| 国产成人a∨麻豆精品| 亚洲精品在线美女| 少妇被粗大的猛进出69影院| 免费女性裸体啪啪无遮挡网站| 久久精品久久久久久噜噜老黄| 男女国产视频网站| 色婷婷久久久亚洲欧美| 男女午夜视频在线观看| 啦啦啦 在线观看视频| 国产成人影院久久av| av网站在线播放免费| 99九九在线精品视频| 97精品久久久久久久久久精品| 久久久久久免费高清国产稀缺| 国产主播在线观看一区二区 | 欧美日韩福利视频一区二区| 国产成人一区二区三区免费视频网站 | 午夜久久久在线观看| 免费观看a级毛片全部| 大话2 男鬼变身卡| 国产男女超爽视频在线观看| 美女脱内裤让男人舔精品视频| 尾随美女入室| 一级黄色大片毛片| 亚洲精品国产色婷婷电影| 黑丝袜美女国产一区| 国产精品99久久99久久久不卡| 成年女人毛片免费观看观看9 | 亚洲av日韩精品久久久久久密 | 中文精品一卡2卡3卡4更新| 国产淫语在线视频| av国产久精品久网站免费入址| 一级,二级,三级黄色视频| h视频一区二区三区| 久久久久久久国产电影| 性色av一级| 成年av动漫网址| 18禁观看日本| 中文字幕制服av| 熟女av电影| 老鸭窝网址在线观看| 男人操女人黄网站| 成人18禁高潮啪啪吃奶动态图| 激情五月婷婷亚洲| 又紧又爽又黄一区二区| 国产精品香港三级国产av潘金莲 | 国产av国产精品国产| 亚洲中文字幕日韩| 一本一本久久a久久精品综合妖精| 视频区欧美日本亚洲| 欧美亚洲 丝袜 人妻 在线| 免费久久久久久久精品成人欧美视频| 又黄又粗又硬又大视频| 精品人妻1区二区| 欧美激情极品国产一区二区三区| 亚洲精品久久久久久婷婷小说| 国产一区二区在线观看av| 9色porny在线观看| 欧美日韩av久久| 巨乳人妻的诱惑在线观看| 国产精品一区二区在线观看99| 香蕉国产在线看| 免费av中文字幕在线| 国产精品熟女久久久久浪| 日本五十路高清| 国产亚洲欧美在线一区二区| 制服诱惑二区| 精品第一国产精品| 一级黄色大片毛片| 在线观看免费视频网站a站| 香蕉丝袜av| 日韩一卡2卡3卡4卡2021年| 一区二区三区四区激情视频| 啦啦啦啦在线视频资源| 国产欧美日韩精品亚洲av| 成人手机av| 人人妻人人添人人爽欧美一区卜| 国产日韩欧美视频二区| 国产av一区二区精品久久| 电影成人av| 久久久精品94久久精品| 好男人视频免费观看在线| 国产亚洲午夜精品一区二区久久| 午夜免费鲁丝| 人人妻,人人澡人人爽秒播 | 久久精品国产亚洲av高清一级| 大码成人一级视频| 777久久人妻少妇嫩草av网站| 91麻豆精品激情在线观看国产 | 男女床上黄色一级片免费看| 在线观看免费午夜福利视频| 欧美另类一区| 又紧又爽又黄一区二区| av视频免费观看在线观看| av网站免费在线观看视频| 亚洲欧洲日产国产| 午夜两性在线视频| 亚洲,欧美,日韩| 又大又爽又粗| 搡老乐熟女国产| 国产精品国产三级国产专区5o| 亚洲专区中文字幕在线| 国产三级黄色录像| 欧美人与性动交α欧美精品济南到| 久久综合国产亚洲精品| 亚洲欧美一区二区三区国产| 久久狼人影院| 日本a在线网址| 大码成人一级视频| 在现免费观看毛片| 国产xxxxx性猛交| 天堂中文最新版在线下载| 狂野欧美激情性xxxx| 一本大道久久a久久精品| 波多野结衣av一区二区av| 国产精品av久久久久免费| 国产成人免费观看mmmm| 99久久99久久久精品蜜桃| 伊人久久大香线蕉亚洲五| 女人久久www免费人成看片| 另类亚洲欧美激情| 亚洲熟女精品中文字幕| 中文字幕高清在线视频| 少妇粗大呻吟视频| 国产91精品成人一区二区三区 | 欧美精品高潮呻吟av久久| 免费女性裸体啪啪无遮挡网站| 久久人人爽av亚洲精品天堂| 国产在线观看jvid| 亚洲欧美成人综合另类久久久| 欧美精品亚洲一区二区| 少妇裸体淫交视频免费看高清 | 亚洲欧美清纯卡通| www.999成人在线观看| 婷婷色综合大香蕉| 久久人人爽人人片av| 成在线人永久免费视频| 精品一区二区三区av网在线观看 | 9热在线视频观看99| 大香蕉久久网| 我的亚洲天堂| 一区二区日韩欧美中文字幕| 久久久久国产一级毛片高清牌| 欧美亚洲日本最大视频资源| 超色免费av| 又黄又粗又硬又大视频| 老司机影院毛片| 亚洲av电影在线观看一区二区三区| 三上悠亚av全集在线观看| 亚洲国产欧美一区二区综合| 欧美性长视频在线观看| 黄色视频不卡| 久久综合国产亚洲精品| 国产欧美日韩一区二区三 | 亚洲欧洲精品一区二区精品久久久| 国产高清视频在线播放一区 | 激情五月婷婷亚洲| 男人添女人高潮全过程视频| 桃花免费在线播放| 老熟女久久久| 91国产中文字幕| www日本在线高清视频| 亚洲中文av在线| 在线观看国产h片| 免费黄频网站在线观看国产| 久久久精品国产亚洲av高清涩受| 纯流量卡能插随身wifi吗| 麻豆av在线久日| 人妻人人澡人人爽人人| 免费高清在线观看日韩| 99国产精品99久久久久| 亚洲国产精品999| 91麻豆av在线| 久久久国产欧美日韩av| 一区二区av电影网| 老司机靠b影院| 母亲3免费完整高清在线观看| 99九九在线精品视频| 十八禁网站网址无遮挡| 国产视频首页在线观看| 一区福利在线观看| 色综合欧美亚洲国产小说| 亚洲精品一区蜜桃| 黄色片一级片一级黄色片| 国产亚洲av高清不卡| 亚洲欧美精品自产自拍| 午夜日韩欧美国产| av有码第一页| 国产99久久九九免费精品| 蜜桃在线观看..| 国产亚洲欧美精品永久| 国产野战对白在线观看| 日韩一卡2卡3卡4卡2021年| 欧美成人精品欧美一级黄| 中国美女看黄片| 在线 av 中文字幕| 性色av乱码一区二区三区2| 午夜福利视频精品| 国产亚洲欧美在线一区二区| 青青草视频在线视频观看| 赤兔流量卡办理| xxx大片免费视频| 亚洲伊人色综图| 日本色播在线视频| 另类精品久久| 在线观看免费日韩欧美大片| 国产日韩欧美视频二区| 最新的欧美精品一区二区| 亚洲欧美中文字幕日韩二区| 欧美在线一区亚洲| 亚洲午夜精品一区,二区,三区| 精品国产乱码久久久久久男人| 男男h啪啪无遮挡| 十八禁网站网址无遮挡| 校园人妻丝袜中文字幕| 日本黄色日本黄色录像| 校园人妻丝袜中文字幕| 捣出白浆h1v1| 精品少妇久久久久久888优播| h视频一区二区三区| xxx大片免费视频| 在线观看人妻少妇| 波多野结衣一区麻豆| 国产精品一二三区在线看| 久久久久久久久久久久大奶| 人妻人人澡人人爽人人| 国产欧美日韩精品亚洲av| 啦啦啦在线观看免费高清www| 亚洲欧洲国产日韩| 一级片'在线观看视频| 免费在线观看视频国产中文字幕亚洲 | 天天操日日干夜夜撸| 精品久久蜜臀av无| 99国产精品一区二区三区| 热99久久久久精品小说推荐| 丝袜人妻中文字幕| 国产精品一区二区在线不卡| 中文字幕制服av| 大型av网站在线播放| 亚洲国产精品一区三区| 极品少妇高潮喷水抽搐| 丝袜人妻中文字幕| 午夜福利影视在线免费观看| 亚洲,欧美精品.| 女人精品久久久久毛片| 欧美成人午夜精品| 天天添夜夜摸| 各种免费的搞黄视频| 免费看av在线观看网站| 国产成人精品久久久久久| 久久99热这里只频精品6学生| 巨乳人妻的诱惑在线观看| 日本色播在线视频| 五月天丁香电影| 国产亚洲欧美在线一区二区| 一级毛片电影观看| 人人妻,人人澡人人爽秒播 | 9色porny在线观看| 日本91视频免费播放| 国产色视频综合| 欧美 亚洲 国产 日韩一| 午夜免费成人在线视频| 亚洲av欧美aⅴ国产| 中文字幕高清在线视频| 国产不卡av网站在线观看| 18禁黄网站禁片午夜丰满| 老司机靠b影院| 久9热在线精品视频| 婷婷色av中文字幕| av福利片在线| 黑人巨大精品欧美一区二区蜜桃| 日本欧美视频一区| 首页视频小说图片口味搜索 | 男女边吃奶边做爰视频| 久久久欧美国产精品| 国产精品 欧美亚洲| 成年动漫av网址| 免费久久久久久久精品成人欧美视频| 欧美变态另类bdsm刘玥| 中文字幕最新亚洲高清| 十八禁网站网址无遮挡| 91精品伊人久久大香线蕉| 波野结衣二区三区在线| 高清欧美精品videossex| 少妇裸体淫交视频免费看高清 | 免费在线观看影片大全网站 | 一区二区三区激情视频| 午夜av观看不卡| 免费在线观看影片大全网站 | 天堂俺去俺来也www色官网| 日韩大码丰满熟妇| 老汉色∧v一级毛片| 一区在线观看完整版| 欧美日韩亚洲高清精品| 国产熟女午夜一区二区三区| 纯流量卡能插随身wifi吗| 人人妻人人澡人人看| 亚洲国产精品国产精品| 婷婷丁香在线五月| av视频免费观看在线观看| 国产精品一区二区在线不卡| 日本黄色日本黄色录像| 精品卡一卡二卡四卡免费| 叶爱在线成人免费视频播放| 亚洲一区中文字幕在线| 久久精品成人免费网站| 麻豆乱淫一区二区| 久久九九热精品免费| 亚洲精品国产区一区二| 国产麻豆69| 亚洲av在线观看美女高潮| 成人国语在线视频| 日韩精品免费视频一区二区三区| 青春草亚洲视频在线观看| 成年动漫av网址| 国产人伦9x9x在线观看| 久久精品国产亚洲av涩爱| 啦啦啦视频在线资源免费观看| 90打野战视频偷拍视频| 不卡av一区二区三区| 国产成人精品无人区| 午夜激情av网站| 最新的欧美精品一区二区| 亚洲av综合色区一区| 99精品久久久久人妻精品| 亚洲精品一区蜜桃| 2018国产大陆天天弄谢| 欧美黄色片欧美黄色片| 在线观看免费高清a一片| 人体艺术视频欧美日本| 黄色视频在线播放观看不卡| 香蕉国产在线看| 天天躁夜夜躁狠狠躁躁| 国产精品亚洲av一区麻豆| 久久精品熟女亚洲av麻豆精品| 欧美精品av麻豆av| 国产一区二区激情短视频 | tube8黄色片| 美女扒开内裤让男人捅视频| 久久亚洲国产成人精品v| av国产精品久久久久影院| 天天添夜夜摸| 97人妻天天添夜夜摸| 欧美日韩成人在线一区二区| 亚洲 国产 在线| 99久久精品国产亚洲精品| 国产真人三级小视频在线观看| 伦理电影免费视频| 国产精品九九99| 午夜91福利影院| 成年美女黄网站色视频大全免费| 亚洲欧美日韩另类电影网站| 麻豆国产av国片精品| av天堂在线播放| av又黄又爽大尺度在线免费看| 少妇被粗大的猛进出69影院| av国产精品久久久久影院| 精品国产一区二区三区久久久樱花| 欧美人与性动交α欧美软件| 1024视频免费在线观看| 久久久久久久国产电影| av又黄又爽大尺度在线免费看| 国产又色又爽无遮挡免| 午夜福利视频精品| 国产女主播在线喷水免费视频网站| 夫妻性生交免费视频一级片| 国产在线观看jvid| 菩萨蛮人人尽说江南好唐韦庄| 一本大道久久a久久精品| 亚洲欧美中文字幕日韩二区| 欧美精品高潮呻吟av久久| 日韩中文字幕视频在线看片| 韩国精品一区二区三区| 色婷婷av一区二区三区视频| 人人妻,人人澡人人爽秒播 | 亚洲,一卡二卡三卡| 在线天堂中文资源库| 脱女人内裤的视频| 欧美日本中文国产一区发布| 黑人欧美特级aaaaaa片| 国产一卡二卡三卡精品| 2018国产大陆天天弄谢| 国产午夜精品一二区理论片| 伦理电影免费视频| 宅男免费午夜| 久久综合国产亚洲精品| 亚洲精品美女久久久久99蜜臀 | 国产男女超爽视频在线观看| 午夜福利视频精品| 久久久国产精品麻豆| 精品少妇内射三级| 久久女婷五月综合色啪小说| 91精品国产国语对白视频| 女人久久www免费人成看片| 99久久综合免费| 国产男女超爽视频在线观看| 在线观看免费高清a一片| 国产免费现黄频在线看| 高清不卡的av网站| 日本黄色日本黄色录像| 久久久久久久久免费视频了| 午夜免费男女啪啪视频观看| 夫妻午夜视频| 日韩电影二区| 日本猛色少妇xxxxx猛交久久| 国产日韩欧美在线精品| 性少妇av在线| 精品亚洲乱码少妇综合久久| 亚洲国产av新网站| 欧美+亚洲+日韩+国产| 少妇人妻 视频| 黄网站色视频无遮挡免费观看| 免费高清在线观看视频在线观看| 侵犯人妻中文字幕一二三四区| 两性夫妻黄色片| 亚洲国产成人一精品久久久| 亚洲国产av影院在线观看| 国产亚洲精品第一综合不卡| 一边亲一边摸免费视频| 18禁国产床啪视频网站| 亚洲欧美日韩高清在线视频 | 丰满饥渴人妻一区二区三| 欧美精品一区二区免费开放| 高清视频免费观看一区二区| 色视频在线一区二区三区| 老汉色av国产亚洲站长工具| 热re99久久国产66热| 十八禁网站网址无遮挡| xxxhd国产人妻xxx| 久久精品熟女亚洲av麻豆精品| svipshipincom国产片| 赤兔流量卡办理| 国产精品一区二区免费欧美 | 亚洲七黄色美女视频| 亚洲av片天天在线观看| 亚洲九九香蕉| 午夜激情av网站| 超色免费av| 美女视频免费永久观看网站| 日本一区二区免费在线视频| 欧美日韩黄片免| 精品国产一区二区久久| 亚洲av成人不卡在线观看播放网 | 午夜老司机福利片| 老熟女久久久| 各种免费的搞黄视频| 久久亚洲精品不卡| 一级毛片电影观看| 久久精品aⅴ一区二区三区四区| 国产男人的电影天堂91| 欧美97在线视频| 一级毛片电影观看| 18禁国产床啪视频网站| 91老司机精品| 啦啦啦 在线观看视频| 伦理电影免费视频| 午夜福利一区二区在线看| 亚洲男人天堂网一区| 伦理电影免费视频| 欧美激情 高清一区二区三区| 国产精品一区二区在线不卡| 免费看不卡的av| svipshipincom国产片| 久久精品aⅴ一区二区三区四区| 一级毛片电影观看| 99久久人妻综合| 午夜视频精品福利| 日韩一本色道免费dvd| 建设人人有责人人尽责人人享有的| 成人手机av| 男人舔女人的私密视频| 日韩制服骚丝袜av| 色婷婷久久久亚洲欧美| 在线看a的网站| 一级黄色大片毛片| 久9热在线精品视频| 91成人精品电影| 高清av免费在线| 一本一本久久a久久精品综合妖精| xxxhd国产人妻xxx| 免费高清在线观看日韩| 欧美性长视频在线观看| 一区二区日韩欧美中文字幕| 国产三级黄色录像| 亚洲成人手机| 日本a在线网址| 日韩中文字幕欧美一区二区 | netflix在线观看网站| 国产精品av久久久久免费| 夜夜骑夜夜射夜夜干| 精品国产乱码久久久久久男人| 国产精品一区二区精品视频观看| 久久九九热精品免费| 伊人久久大香线蕉亚洲五| 久久久久视频综合| 欧美精品高潮呻吟av久久| 多毛熟女@视频| 亚洲精品美女久久久久99蜜臀 | 国产精品一区二区在线观看99| 老司机深夜福利视频在线观看 | 黄色怎么调成土黄色| 亚洲精品一二三| 亚洲情色 制服丝袜| 亚洲成色77777| 老司机亚洲免费影院| 免费看十八禁软件| 在线亚洲精品国产二区图片欧美| 国产国语露脸激情在线看| 无遮挡黄片免费观看| 国产片内射在线| 亚洲精品美女久久av网站| 热re99久久国产66热| 免费观看av网站的网址| 精品少妇一区二区三区视频日本电影| 久久九九热精品免费| 亚洲av在线观看美女高潮|