• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向ELAN軟件的手語漢語平行語料庫構(gòu)建

    2019-04-02 03:08:28吳蕊珠李晗靜呂會(huì)華姚登峰
    中文信息學(xué)報(bào) 2019年2期
    關(guān)鍵詞:手語語料平行

    吳蕊珠,李晗靜,呂會(huì)華,姚登峰

    (1. 北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2. 北京聯(lián)合大學(xué)特殊教育學(xué)院,北京 100075)

    0 引言

    手語是一種視覺語言,它是通過手的動(dòng)作、面部表情的變化和身體的運(yùn)動(dòng)進(jìn)行交流的語言。美國學(xué)者威廉姆·斯多基于20世紀(jì)60年代初發(fā)表了世界上第一本談手語的著作《手語結(jié)構(gòu)》,明確提出美國手語是一種自然語言。時(shí)至今日,手語語言學(xué)成為語言學(xué)研究中不可或缺的組成部分,語言學(xué)家開始從不同層面研究手語,而研究范圍也從美國手語擴(kuò)展到其他國家手語[1]。

    需要指出的是,我們這里所說的手語均為自然手語,與手勢漢語或手勢英語等人造語言是不同的。手勢漢語是根據(jù)漢語的語法規(guī)律、人為造出來與聾人交流的工具,其利用了漢語的語序,與自然手語的語法規(guī)律存在很大差別,聾人理解起來存在一定困難[1]。所以未來手語的機(jī)器翻譯并不是簡單地將漢語一個(gè)詞對應(yīng)一個(gè)手勢翻譯出來[2]。本文面向自然手語進(jìn)行收集和整理。

    本文的工作主要是建立手語漢語平行語料庫。平行語料庫是指“由原文文本及其平行對應(yīng)的譯語文本構(gòu)成的雙語語料庫,其雙語對應(yīng)程度可有詞級(jí)、句級(jí)和段級(jí)幾種”[3]。所以手語漢語平行語料庫一方面是要有嚴(yán)格的手語語料的采集過程,采集設(shè)備及場景設(shè)置、采集內(nèi)容、被采集者的選取和采集用到的誘導(dǎo)材料都需要建立標(biāo)準(zhǔn);另一方面是用多媒體標(biāo)注軟件ELAN對收集到的手語語料進(jìn)行手控和非手控信息等的標(biāo)注,其標(biāo)注者的選取和標(biāo)注的標(biāo)準(zhǔn)也需要科學(xué)指導(dǎo)。本文建立手語漢語平行語料庫是為了給日后建立其他通用手語語料庫提供有效的參考,為保證語料庫標(biāo)注質(zhì)量,提供相應(yīng)技術(shù)支持,它也能夠?yàn)楹罄m(xù)的手語機(jī)器翻譯提供有力的數(shù)據(jù)基礎(chǔ)。

    為了有助于語料的去重和手語語料的分類,以及保證其標(biāo)注質(zhì)量,本文提出對標(biāo)注語料使用基于向量空間模型的余弦相似性算法來實(shí)現(xiàn)手語語料相似度的計(jì)算。

    1 相關(guān)研究

    1.1 語料庫

    1.1.1 國內(nèi)漢英雙語平行語料庫

    北京大學(xué)計(jì)算語言學(xué)研究所的雙語語料庫,英漢對齊的句子已有5萬多對,并開發(fā)了相應(yīng)的對齊工具和雙語語料庫管理軟件。在此基礎(chǔ)上做漢英對照短語庫,預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬條;哈爾濱工業(yè)大學(xué)的英漢雙語語料庫1998年有3萬句子對,已經(jīng)進(jìn)行了詞性標(biāo)注,目前正在擴(kuò)充為40萬~50萬句子對,在句子、短語、詞匯三級(jí)層面實(shí)現(xiàn)雙語對齊;東北大學(xué)的英漢雙語語段庫:在雙語語料庫基礎(chǔ)上,建造雙語語段庫,1999年構(gòu)造了10萬雙語語段庫,進(jìn)行了基于語段的英漢機(jī)器翻譯實(shí)驗(yàn);中國科學(xué)院軟件研究所的英漢雙語語料庫基于雙語對齊算法研究,現(xiàn)有15萬對英漢雙語對齊句子庫,已經(jīng)切分和標(biāo)注[4]。

    1.1.2 澳大利亞手語語料庫

    目前最為成熟的手語語料庫當(dāng)屬由Johnston等人創(chuàng)建的澳大利亞手語語料庫[5]。該庫的建設(shè)目的從早期的社會(huì)語言學(xué)描寫研究,逐漸轉(zhuǎn)移到手語的傳承保護(hù)和詞典編纂。該語料庫的標(biāo)注包括49層,其中用來對雙手手形的意義、運(yùn)動(dòng)、位置等手控信息的標(biāo)注層就有37層之多;9層是對眼睛、眉毛、身體、頭部等非手控信息的標(biāo)注;2層是對于手語意義的標(biāo)注,分別是句子翻譯和詞語轉(zhuǎn)寫翻譯;最后一層是注釋。澳大利亞手語語料庫雖然是最為成熟的手語語料庫,但其大部分標(biāo)注層主要集中在雙手空間信息的描述上,標(biāo)注層過多,耗時(shí)耗力。因此,該語料庫很難復(fù)制或者推廣。

    1.1.3 德國天氣預(yù)報(bào)手語平行語料庫

    該語料庫的建立是為了手語的翻譯和識(shí)別,將德語翻譯成德國手語是該系統(tǒng)的目標(biāo)[6]?;诮y(tǒng)計(jì)的機(jī)器翻譯要依賴海量的數(shù)據(jù),該語料庫收集了自1999年以來6年內(nèi)德國天氣預(yù)報(bào)的手語視頻數(shù)據(jù),包括2 190個(gè)手語視頻,德語手語句子對有72 724對,詞語數(shù)量872 117個(gè),詞匯(去掉重復(fù)詞)有12 320個(gè),而且其收集的是國家級(jí)天氣預(yù)報(bào),手語視頻質(zhì)量比較高,包括很多相同的句子句式,比如天氣預(yù)報(bào)中的德語句子“Und nun die Wettervorhersage für morgen, Donnerstag, den zw?lften Mai.”,德國手語句子標(biāo)注為“JETZT WETTER+VORAUS+SAGEN MORGEN DONNERSTAG ZW? LF MAI.”,表達(dá)的意思是“And now the weather forecast for tomorrow, the 12th of May.”,語料庫中很多手語視頻中都會(huì)有這樣的句式,有利于基于統(tǒng)計(jì)的機(jī)器翻譯。該語料庫由三部分組層:一部分是手語視頻數(shù)據(jù)的標(biāo)注語料(The Video Corpus),其中標(biāo)注層有6層,分別是轉(zhuǎn)寫、詞語類型、手語句子邊界、相應(yīng)的德語句子邊界、德語使用者標(biāo)注的德語句子翻譯。另一部分是德語手語的文本語料(The Bilingual Text-based Corpus),是將ELAN軟件中的標(biāo)注信息導(dǎo)出。還有一部分是天氣預(yù)報(bào)的德語文本語料(The Monolingual Text-based Corpus),其中標(biāo)注信息中沒有主手、輔手、非手控信息的描述。對于手語這種空間性的語言,其記錄的手語信息不夠完整,且該語料庫采集的是規(guī)約手語,不是自然手語。

    1.1.4 中國手語語料庫

    中國的手語語料庫建設(shè)目前還處于初始階段,且手語研究逐漸豐富,北京師范大學(xué)鄧猛教授領(lǐng)頭的國家語委、中國殘聯(lián)“十二五”科研規(guī)劃2013年重大課題“國家通用手語等級(jí)標(biāo)準(zhǔn)研制”;復(fù)旦大學(xué)龔群虎的通用手語語料庫研究項(xiàng)目“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”;由南京特殊教育師范學(xué)院承擔(dān)的國家語委重點(diǎn)科研項(xiàng)目“國家手語詞匯語料庫建設(shè)”是中國第一個(gè)手語詞匯語料庫,采集了9個(gè)地區(qū)共6萬多個(gè)手語詞視頻,語料具有較強(qiáng)的代表性[7],但是只限于詞語級(jí)別;黃曉曉建立的基于情景的手語語料庫[8],包含個(gè)人在家庭、學(xué)校等場合的日常交流,其手語視頻轉(zhuǎn)寫采用Word文檔作為轉(zhuǎn)寫文檔,轉(zhuǎn)寫的格式?jīng)]有統(tǒng)一的標(biāo)準(zhǔn),這使文本語料很難成為格式化的可機(jī)讀文件。除了政府或殘聯(lián)組織投資建設(shè)的語料庫外,一些研究者為了研究的需要,也建立了或大或小的手語語料庫。

    目前手語漢語平行語料庫建設(shè)的缺點(diǎn)是: 規(guī)范性差,缺少系統(tǒng)的理論指導(dǎo),缺乏具體的評(píng)測標(biāo)準(zhǔn),使得手語語料庫建設(shè)的質(zhì)量不一,應(yīng)用性欠佳,難以滿足語料庫語言學(xué)發(fā)展的需要。很難為語言學(xué)研究提供及時(shí)、全面、權(quán)威性高的語料素材,為語言學(xué)建設(shè)提供強(qiáng)有力的數(shù)據(jù)支持。

    1.2 采集內(nèi)容

    為了采集到高質(zhì)量的手語語料,本節(jié)整理了國內(nèi)外手語語料庫的采集內(nèi)容(表1)、被采集者的選取規(guī)則以及采集場景的設(shè)置材料,以便為落實(shí)本文的采集內(nèi)容、被采集者的選取和采集場景設(shè)置提供參考。

    表1 手語語料庫的手語類型、題材、形式

    1.3 被采集者選取

    對于被采集者的選取來說,不同語言群體的成員,其語言能力存在差異,手語使用者群體也不例外。根據(jù)Johnston的調(diào)查,只有極少數(shù)人可以被稱作手語的母語使用者。因此最理想的受試者來自第二代聾人家庭的手語使用者。在實(shí)際生活中,尤其是在較小的聾人群體中,研究者往往難以召集到足夠數(shù)量的理想受試者。鑒于此,Johnston提出了另外一套針對非母語使用者的選取標(biāo)準(zhǔn),以保證研究的科學(xué)性。當(dāng)中包括: ①手語的學(xué)習(xí)年齡不應(yīng)晚于八歲,以三歲前為最佳; ②接受聾校教育,以住校生為最佳; ③每天使用手語; ④身份上認(rèn)同聾文化[5]。

    1.4 采集場景設(shè)置

    圖1是荷蘭NGT手語視頻采集的場景布置,被采集者和引導(dǎo)者相對而坐,每人面前各有一臺(tái)攝像機(jī)負(fù)責(zé)采集拍攝其手語信息。被采集者和引導(dǎo)者正上方也各自有一臺(tái)攝像機(jī),負(fù)責(zé)采集拍攝對象的另一個(gè)平面的手語信息。這種場景設(shè)置考慮到了手語的空間性。但是,被采集者和引導(dǎo)者的手語采集過程是一個(gè)手語對話的過程,如果將其分開,對后面的標(biāo)注過程是不利的,因?yàn)楹茈y理解他們要表達(dá)的內(nèi)容。

    圖1 荷蘭NGT手語語料庫的場景布置[9]

    新西蘭手語語料庫(The Corpus NGT(Nederlands))數(shù)據(jù)采集的場景布置如圖2所示,需要錄制對話人的正面、臉部、由上向下的6個(gè)同步視頻數(shù)據(jù)。新西蘭手語語料庫的場景設(shè)置比荷蘭NGT手語語料庫的場景設(shè)置多了臉部信息的攝取,是手語非手控信息的采集;還合成了被采集者和引導(dǎo)者兩人手語對話內(nèi)容,此類場景布置更適合采集對話形式的手語。其場景布置復(fù)雜,要用到6臺(tái)不同的高清攝像機(jī)同時(shí)錄制,實(shí)驗(yàn)室配置花費(fèi)大。

    圖2 新西蘭手語采集場景設(shè)置[10]

    1.5 ELAN工具介紹

    ELAN (EUDICO Linguistic Annotator)[11]是荷蘭馬克斯普朗克研究所為研究心理語言學(xué)而開發(fā),其目的是為注釋和開發(fā)多媒體提供良好的技術(shù)支持。ELAN是一個(gè)用于對視頻或音頻文件進(jìn)行復(fù)雜標(biāo)注的專業(yè)工具。使用ELAN可以為視頻、音頻添加無限層的標(biāo)注。標(biāo)注內(nèi)容可以是句子、單詞、內(nèi)容、翻譯或者是對視頻細(xì)節(jié)的描述等。使用ELAN對手語視頻進(jìn)行標(biāo)注可達(dá)到事半功倍的效果[12]。

    ① 層(Tier)是轉(zhuǎn)寫和標(biāo)注的依托,不同的層可以被賦予不同的標(biāo)注內(nèi)容。如注釋層、詞類層、翻譯層等。ELAN中的層可以根據(jù)使用者的需求添加。

    ② 轉(zhuǎn)寫(transcription)指根據(jù)音頻和視頻錄入文字或其他符號(hào)的操作。以手語為例,是借用漢字和其他字符按照手語順序記錄手語表達(dá)的內(nèi)容和方式,沒有翻譯加工,記錄的是手語表達(dá)的信息,并非翻譯的漢語句子[13]。

    ③ 標(biāo)注(annotation)是針對音頻或視頻內(nèi)容轉(zhuǎn)寫的文字、注釋、翻譯、國際音標(biāo)等,標(biāo)注包括轉(zhuǎn)寫。在ELAN中,標(biāo)注也指時(shí)間段上的時(shí)間線,時(shí)間段內(nèi)可以沒有轉(zhuǎn)寫任何內(nèi)容。

    1.6 視頻相似度計(jì)算

    手語是一種視覺語言,沒有書面形式,更多的是通過視頻錄制的方式進(jìn)行記錄。視頻的相似度研究為手語語料相似度研究提供了參考。

    國內(nèi)外學(xué)者在研究視頻相似度問題時(shí),一種方法是提取視頻的文本信息,Crawler系統(tǒng)[14]可以從視頻的URL和主頁HTML文件中提取視頻的文本信息,比如字幕、視頻的題目、摘要、類別、主題,以及相關(guān)的人物信息等。還有視頻經(jīng)過文字檢測、文字分割、字符識(shí)別,使用OCR軟件識(shí)別[15],完成由數(shù)字圖像到字符編碼的轉(zhuǎn)化,最終可以將視頻相似度轉(zhuǎn)化為文本相似度的計(jì)算。另一種方法,是將視頻作為圖像進(jìn)行處理,即關(guān)鍵幀之間的相似度計(jì)算, 轉(zhuǎn)化成圖像的相似度計(jì)算。以兩個(gè)視頻間對應(yīng)幀的平均距離作為相似度,條件是視頻幀序列遵守時(shí)間順序[16]。采用常見的顏色直方圖進(jìn)行計(jì)算比較, 但不是直接將兩幅圖像的直方圖進(jìn)行比較, 而是先將視頻的關(guān)鍵幀進(jìn)行區(qū)域劃分[17]。

    2 手語漢語平行語料庫的建設(shè)

    2.1 本文采集的內(nèi)容

    本文手語漢語平行語料庫采集內(nèi)容為聾人日常生活、學(xué)習(xí)、工作中自然產(chǎn)生的語料,還有通過實(shí)驗(yàn)誘導(dǎo)的方式獲取的語料。語料庫中已標(biāo)注語料約5.12GB,約80min,約2 400個(gè)平行句對。

    2.2 本文被采集者選取

    被采集人群為根據(jù)Berent提出的手語雙語者分類方案篩選被試,將被采集者分為五類。第一類:出生于聾人家庭的聾人,父母從小使用自然手語與其溝通,在獲得第一語言手語后,口語成為第二語言;第二類:出生于健聽家庭的聾人,早期接觸手語,之后接觸口語;第三類:出生于健聽家庭的聾人,晚期接觸手語;第四類:出生于聾人家庭的健聽人,早期從聾人父母處自然習(xí)得手語;第五類:健聽家庭的健聽人,如聾校教師、手語翻譯等,他們大多因工作需要,成年后學(xué)習(xí)手語。以上語料提供者還需滿足經(jīng)常使用手語這一條件[18]。

    圖3 本文手語視頻采集場景設(shè)置

    2.3 本文采集場景設(shè)置

    本文的手語視頻采集的場景布置如圖3所示。攝像機(jī)1的視角是負(fù)責(zé)拍攝被采集者和引導(dǎo)者的對話,而攝像機(jī)2的視角是負(fù)責(zé)拍攝被采集者的手語信息。這樣做的好處是,既記錄了對話內(nèi)容,也記錄了被采集者的信息,在后續(xù)對采集的語料進(jìn)行標(biāo)注的時(shí)候,可以參考對話內(nèi)容,以保證標(biāo)注的正確性與可靠性,降低標(biāo)注者的難度。

    2.4 標(biāo)注方法

    在本文建立的手語漢語平行語料庫中,我們的標(biāo)注層分為14層,包含手語的手控和非手控信息。分別是主手、輔手、詞語轉(zhuǎn)寫、詞語翻譯、句子翻譯1、句子翻譯2、句子翻譯3、句子翻譯4、眉毛、眼睛、嘴巴、身體、頭部、眨眼。其中主手和輔手層是對主手和輔手的位置、手形、運(yùn)動(dòng)信息進(jìn)行標(biāo)注,標(biāo)準(zhǔn)參考文獻(xiàn)[19]中的內(nèi)容(如圖4所示);詞語轉(zhuǎn)寫是時(shí)間段與手勢所要表達(dá)的意思,以國家通用手語為準(zhǔn);詞語翻譯是詞語轉(zhuǎn)寫層融合非手控信息后的翻譯,比如詞語轉(zhuǎn)寫是“雨”,融合非手控信息就可能翻譯成“大雨”或者“暴雨”;句子翻譯1和句子翻譯2是由手語使用進(jìn)來標(biāo)注,分成兩個(gè)句子翻譯是為了處理句子有歧義的情況;句子翻譯3和句子翻譯4是語言學(xué)專家標(biāo)注,分別對句子翻譯1和句子翻譯2進(jìn)行漢語翻譯和校驗(yàn);眉毛、眼睛、嘴巴、身體、頭部、眨眼這六層的標(biāo)注標(biāo)準(zhǔn)參考文獻(xiàn)[18]中的內(nèi)容。如圖5所示是使用ELAN軟件進(jìn)行標(biāo)注的示例。

    圖4 位置、手形和運(yùn)動(dòng)的標(biāo)注標(biāo)準(zhǔn)[19]

    圖5 手語標(biāo)注示例

    2.5 手語語料的預(yù)處理

    手語語料預(yù)處理是整個(gè)工作內(nèi)容的基礎(chǔ),有以下四個(gè)方面的內(nèi)容:手語語料采集、語料的標(biāo)注、語料專家校驗(yàn)及語料庫的更新和存儲(chǔ),手語語料的預(yù)處理總體流程如圖6所示。

    手語語料的預(yù)處理的具體內(nèi)容如下。

    ① “手語語料采集”首先需要確定被采集人和采集內(nèi)容,接下來按照場景布置要求將拍攝現(xiàn)場搭建好,最后就是對視頻的采集與存儲(chǔ)。

    圖6 手語語料的預(yù)處理總體流程

    ② “語料的標(biāo)注”這個(gè)過程是由自然手語使用者與漢語專家共同完成的,第一步是將MP4文件導(dǎo)入ELAN標(biāo)注軟件;第二步是按照話題或者固定時(shí)間將手語視頻進(jìn)行切分;第三步是建立轉(zhuǎn)寫標(biāo)注層,本文在建立手語漢語平行語料庫時(shí),綜合了相關(guān)研究章節(jié)中語料庫的優(yōu)缺點(diǎn),以及手語漢語平行語料庫的用途,增加了翻譯部分詞級(jí)和句子級(jí)的平行標(biāo)注層,減少了空間信息的過多描述,保留了非手控信息的標(biāo)注,最終確定了14層的標(biāo)注層級(jí),接著以手語標(biāo)注的標(biāo)準(zhǔn)及《國家通用手語》作為參考對手語進(jìn)行標(biāo)注。

    ③ “語料專家校驗(yàn)”時(shí),首先要對被采集者、采集內(nèi)容和手語標(biāo)注者信息等進(jìn)行確認(rèn),然后根據(jù)漢語標(biāo)注標(biāo)準(zhǔn)和手語標(biāo)注標(biāo)準(zhǔn)對語料庫標(biāo)注內(nèi)容進(jìn)行校驗(yàn)。專家校驗(yàn)就是為了提高語料庫的質(zhì)量,以便使語料庫能夠建得更好。

    ④ “語料庫的更新與存儲(chǔ)”將存在的問題進(jìn)行反饋,由手語使用者和漢語專家將標(biāo)注轉(zhuǎn)寫的語料內(nèi)容中的任何漏標(biāo)、誤標(biāo)、多標(biāo)、標(biāo)注不統(tǒng)一等情況進(jìn)行修正更新,形成一套符合標(biāo)注標(biāo)準(zhǔn)的手語漢語平行語料庫。最終,將手語視頻的MP4文件及手語語料標(biāo)注轉(zhuǎn)寫語料EAF文件進(jìn)行存儲(chǔ)。

    3 手語漢語相似度的計(jì)算

    手語語料相似度的計(jì)算有助于語料的去重和手語視頻的分類,以及保證標(biāo)注質(zhì)量問題等。本文建立的手語漢語平行語料庫中詞語轉(zhuǎn)寫層(詞語級(jí)別,不涉及語法信息)是對手語視頻內(nèi)容的轉(zhuǎn)寫,可以將手語視頻轉(zhuǎn)化為文本來處理。我們與1.6節(jié)中提到的視頻的文本信息是不同的,一般視頻的文本信息是非常有限的,而且視頻語義方面的文本信息很少,所以在視頻相似度處理方面是不利的。而本文用到的語料庫的詞語轉(zhuǎn)寫層,是對整段手語視頻中的語義進(jìn)行描述,對其進(jìn)行手語相似度的計(jì)算,為準(zhǔn)確性提供了保障。我們使用基于向量空間[20]的余弦相似性來進(jìn)行手語相似度的計(jì)算,還可以用此算法確定標(biāo)注者的標(biāo)注質(zhì)量是否合格。

    3.1 算法介紹

    向量空間模型的概念最早在20世紀(jì)60年代被Salton等人提出,并很快在文本分類、信息檢索等領(lǐng)域得到廣泛應(yīng)用。其定義為: 對于待檢查手語B中的每一個(gè)詞語,使用Bi代表此段手語中第i個(gè)詞語的權(quán)重,同樣使用Ai表示已有手語A中的第i個(gè)詞語的權(quán)重,從而可以使用Ai=(a1,a2,…,an)和Bi=(b1,b2,…,bn)表示待檢查手語B和已有手語A的詞語權(quán)重向量。在得到手語的詞語權(quán)重向量之后,通過余弦相似性算法計(jì)算Ai和Bi兩個(gè)向量的余弦相似度,從而判斷待檢查手語B和已有手語A之間的相似度。余弦相似度的計(jì)算如式(1)所示。

    (1)

    其中, ‖A‖和‖B‖表示向量的模。由于Ai和Bi均大于等于0,所以式(1)的值是一個(gè)0到1的值,0表示兩段手語語料的相似度為零,1表示兩段手語語料完全相同。

    3.2 算法流程

    算法流程如圖7所示。首先是語料預(yù)處理過程,將轉(zhuǎn)寫層語料導(dǎo)出成文本,并去除相應(yīng)的停用詞。然后按照余弦相似性算法的步驟,對手語視頻A的轉(zhuǎn)寫層和手語視頻B的轉(zhuǎn)寫層的所有詞進(jìn)行列舉;然后計(jì)算各自的詞頻、確定各自的詞頻向量、計(jì)算兩個(gè)詞頻向量對應(yīng)的夾角。最后就是確定手語視頻A和手語視頻B的相似度。

    圖7 基于余弦相似性算法的手語相似度計(jì)算流程圖

    3.3 實(shí)驗(yàn)結(jié)果

    本文選取了語料庫中的手語語料進(jìn)行了實(shí)驗(yàn),結(jié)果如圖8所示,其中手語視頻①和手語視頻1是同一內(nèi)容、被不同采集者進(jìn)行手語講述、經(jīng)同一轉(zhuǎn)寫者處理(手語視頻對2和②,3和③,4和④,5和⑤處理?xiàng)l件相同,表2中的實(shí)驗(yàn)結(jié)果為圖8中的結(jié)果。通過本文提出的相似度計(jì)算方法得到的結(jié)果為0.506 6。而手語視頻①和其他手語視頻進(jìn)行計(jì)算得到的相似度為0.237 6、0.061 4、0.281 8和0.143 6,相比較而言,相似度降低。說明同一內(nèi)容的手語視頻比不同內(nèi)容的相似度高,證明了算法的有效性。實(shí)驗(yàn)也將相似度高于0.5的手語視頻進(jìn)行專家校驗(yàn),得到了同樣的結(jié)果。

    圖8 手語視頻相似度計(jì)算對比實(shí)驗(yàn)

    另外,圖8中,標(biāo)注者A和標(biāo)注者B對手語視頻1進(jìn)行了轉(zhuǎn)寫。我們用上述方法進(jìn)行計(jì)算相似度。

    表2 手語視頻相似度實(shí)驗(yàn)結(jié)果

    結(jié)果1為0.895 8,也就是說同一手語視頻在不同標(biāo)注者進(jìn)行轉(zhuǎn)寫的情況下,其相似度計(jì)算結(jié)果有一定的可信度;為了保證語料庫的標(biāo)注質(zhì)量,此算法可以用作專家相似度測試。標(biāo)注者A為專家,標(biāo)注者B是一般標(biāo)注者,如果通過標(biāo)注培訓(xùn),標(biāo)注者與專家的標(biāo)注語料相似度達(dá)到相似度閾值,經(jīng)過專家討論研究,此閾值設(shè)為0.85,如果計(jì)算結(jié)果小于閾值,則不能通過專家相似度測試,重新進(jìn)行標(biāo)注培訓(xùn);如果計(jì)算結(jié)果大于閾值,則表明此標(biāo)注者可以進(jìn)行語料庫的標(biāo)注工作,保證了語料庫的標(biāo)注質(zhì)量。

    實(shí)驗(yàn)結(jié)果表明,本文用到的基于向量空間的余弦相似度的計(jì)算方法是可以用于手語視頻中的相似度計(jì)算的,也有非常明顯的效果。

    4 總結(jié)

    本文總結(jié)了國內(nèi)外手語平行語料庫建立、采集內(nèi)容、被采集者選取和采集場景設(shè)置的優(yōu)缺點(diǎn),最終確定了本文建設(shè)的手語漢語平行語料庫的方案;并對ELAN軟件進(jìn)行了詳細(xì)介紹,確定了基于ELAN的語料庫的標(biāo)注方法和標(biāo)準(zhǔn),并對手語語料的預(yù)處理過程進(jìn)行了分析和研究;最后進(jìn)行了基于向量空間的余弦相似性算法的實(shí)驗(yàn)并獲得明顯效果,為手語語料去重提供有力支持,也提高了研究人員管理和檢索手語語料的效率,同時(shí)保證了手語語料庫的質(zhì)量。未來我們會(huì)基于手語漢語平行語料庫對手語的機(jī)器翻譯和各種自然語言知識(shí)進(jìn)行挖掘研究。

    猜你喜歡
    手語語料平行
    手語學(xué)習(xí),只為更懂你
    向量的平行與垂直
    平行
    逃離平行世界
    自然手語在聾人大學(xué)生手語中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
    活力(2019年15期)2019-09-25 07:23:06
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    再頂平行進(jìn)口
    汽車觀察(2016年3期)2016-02-28 13:16:36
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    奇怪的手語圖
    奇怪的手語圖
    99国产精品免费福利视频| 国产亚洲精品一区二区www| 亚洲一区二区三区欧美精品| 国产精品久久久av美女十八| 一级毛片精品| 亚洲一卡2卡3卡4卡5卡精品中文| 性色av乱码一区二区三区2| 国产精品二区激情视频| 巨乳人妻的诱惑在线观看| 亚洲一区二区三区色噜噜 | 老司机靠b影院| 757午夜福利合集在线观看| 精品国产乱子伦一区二区三区| 精品欧美一区二区三区在线| 欧美色视频一区免费| 亚洲七黄色美女视频| 欧美在线黄色| ponron亚洲| av天堂久久9| 国产单亲对白刺激| 亚洲一卡2卡3卡4卡5卡精品中文| 日韩av在线大香蕉| 久久亚洲精品不卡| 乱人伦中国视频| 看片在线看免费视频| 日韩欧美在线二视频| 极品人妻少妇av视频| 国产三级黄色录像| 国产精品国产av在线观看| 亚洲精品一区av在线观看| 色哟哟哟哟哟哟| 九色亚洲精品在线播放| 午夜91福利影院| 91老司机精品| 亚洲男人的天堂狠狠| 夜夜夜夜夜久久久久| 男女下面插进去视频免费观看| 国产精品九九99| 1024香蕉在线观看| 丁香欧美五月| 欧美+亚洲+日韩+国产| 久久香蕉精品热| 欧美性长视频在线观看| 日日爽夜夜爽网站| 最新美女视频免费是黄的| 精品欧美一区二区三区在线| 黄色片一级片一级黄色片| 亚洲五月婷婷丁香| 一个人观看的视频www高清免费观看 | 亚洲精品美女久久久久99蜜臀| 亚洲国产精品sss在线观看 | 99在线人妻在线中文字幕| 80岁老熟妇乱子伦牲交| 亚洲成人免费av在线播放| 99久久久亚洲精品蜜臀av| 久热爱精品视频在线9| 欧美 亚洲 国产 日韩一| 丝袜美足系列| 欧美性长视频在线观看| 校园春色视频在线观看| 亚洲欧美激情综合另类| 久久久国产成人免费| 亚洲精华国产精华精| 99国产综合亚洲精品| 亚洲精品美女久久av网站| 免费av毛片视频| 美女午夜性视频免费| 亚洲精品在线观看二区| 老汉色∧v一级毛片| 女同久久另类99精品国产91| 欧美国产精品va在线观看不卡| 精品高清国产在线一区| 黄色a级毛片大全视频| 黄色丝袜av网址大全| 首页视频小说图片口味搜索| 美女 人体艺术 gogo| 久久香蕉激情| 成人手机av| 视频在线观看一区二区三区| 69av精品久久久久久| 午夜亚洲福利在线播放| 黑丝袜美女国产一区| 啦啦啦 在线观看视频| 99热只有精品国产| 少妇被粗大的猛进出69影院| 啦啦啦免费观看视频1| 亚洲成人精品中文字幕电影 | 亚洲中文av在线| 欧美日本中文国产一区发布| 亚洲,欧美精品.| 巨乳人妻的诱惑在线观看| 无遮挡黄片免费观看| 黑人巨大精品欧美一区二区蜜桃| 亚洲国产欧美日韩在线播放| 精品一区二区三区视频在线观看免费 | 色老头精品视频在线观看| 亚洲欧美一区二区三区久久| 热re99久久国产66热| 丁香六月欧美| 日日摸夜夜添夜夜添小说| 脱女人内裤的视频| 精品久久久久久久久久免费视频 | 国产精品亚洲一级av第二区| 日韩精品中文字幕看吧| 亚洲va日本ⅴa欧美va伊人久久| 中文字幕精品免费在线观看视频| 好看av亚洲va欧美ⅴa在| 亚洲av成人一区二区三| 99久久99久久久精品蜜桃| 国产熟女xx| 在线观看舔阴道视频| 99久久99久久久精品蜜桃| netflix在线观看网站| 精品高清国产在线一区| 色综合婷婷激情| 热re99久久国产66热| 9191精品国产免费久久| netflix在线观看网站| 亚洲欧美一区二区三区久久| 香蕉久久夜色| av电影中文网址| 亚洲专区字幕在线| 欧美精品啪啪一区二区三区| 久久精品亚洲熟妇少妇任你| 免费在线观看视频国产中文字幕亚洲| netflix在线观看网站| 日韩免费高清中文字幕av| 欧美乱色亚洲激情| 无限看片的www在线观看| 一级毛片高清免费大全| 怎么达到女性高潮| av天堂久久9| 久久人人爽av亚洲精品天堂| 淫妇啪啪啪对白视频| 免费在线观看日本一区| 人妻丰满熟妇av一区二区三区| 怎么达到女性高潮| 成人精品一区二区免费| 亚洲av片天天在线观看| 国产亚洲精品综合一区在线观看 | 一级a爱视频在线免费观看| 亚洲五月色婷婷综合| 久久香蕉精品热| 麻豆久久精品国产亚洲av | 久久香蕉激情| 久久这里只有精品19| 女人被狂操c到高潮| 美女扒开内裤让男人捅视频| 级片在线观看| 午夜免费鲁丝| 中文字幕高清在线视频| 精品国产美女av久久久久小说| 88av欧美| av有码第一页| 国产有黄有色有爽视频| 亚洲aⅴ乱码一区二区在线播放 | 视频区图区小说| 亚洲成a人片在线一区二区| 中出人妻视频一区二区| 成人18禁在线播放| 国产精品一区二区精品视频观看| 亚洲成人久久性| 啦啦啦免费观看视频1| 女性生殖器流出的白浆| 真人一进一出gif抽搐免费| 久久伊人香网站| 亚洲欧美日韩另类电影网站| 国产欧美日韩一区二区三| 桃红色精品国产亚洲av| 黄片播放在线免费| 国产精品1区2区在线观看.| 久久午夜综合久久蜜桃| 国产精品 国内视频| 69av精品久久久久久| 国产精品 国内视频| 国产成人影院久久av| 黄片大片在线免费观看| 在线观看免费日韩欧美大片| 高清毛片免费观看视频网站 | 级片在线观看| 黑人欧美特级aaaaaa片| 人人妻人人添人人爽欧美一区卜| 亚洲国产欧美网| 亚洲精品一卡2卡三卡4卡5卡| 妹子高潮喷水视频| 身体一侧抽搐| 亚洲欧美日韩无卡精品| 久久亚洲精品不卡| 欧美老熟妇乱子伦牲交| 国产精品一区二区三区四区久久 | 国产成人欧美在线观看| 成熟少妇高潮喷水视频| 级片在线观看| 色综合婷婷激情| 免费在线观看视频国产中文字幕亚洲| 欧美日韩瑟瑟在线播放| 老熟妇乱子伦视频在线观看| 亚洲va日本ⅴa欧美va伊人久久| 国产无遮挡羞羞视频在线观看| 好男人电影高清在线观看| 色在线成人网| 国产一区二区三区综合在线观看| 午夜免费观看网址| 国产免费av片在线观看野外av| 午夜福利欧美成人| 精品国产一区二区三区四区第35| 日韩成人在线观看一区二区三区| 亚洲成人精品中文字幕电影 | 欧美黄色片欧美黄色片| 国产精品国产av在线观看| 国产免费av片在线观看野外av| 国产蜜桃级精品一区二区三区| 丰满的人妻完整版| av视频免费观看在线观看| 精品一品国产午夜福利视频| 国产精品香港三级国产av潘金莲| 男女做爰动态图高潮gif福利片 | 成年版毛片免费区| 亚洲av五月六月丁香网| 在线观看免费视频日本深夜| 欧美日韩亚洲高清精品| 日韩精品青青久久久久久| 女人高潮潮喷娇喘18禁视频| 亚洲少妇的诱惑av| 精品久久久久久,| 精品一区二区三卡| 黄片小视频在线播放| 国产一卡二卡三卡精品| 久久久国产精品麻豆| 欧美人与性动交α欧美精品济南到| 国产精品永久免费网站| 精品高清国产在线一区| 老熟妇乱子伦视频在线观看| 每晚都被弄得嗷嗷叫到高潮| 亚洲国产毛片av蜜桃av| 午夜福利一区二区在线看| 啦啦啦 在线观看视频| 在线看a的网站| 成人黄色视频免费在线看| 国产单亲对白刺激| 亚洲在线自拍视频| 一本综合久久免费| 在线观看www视频免费| 村上凉子中文字幕在线| 黄片小视频在线播放| 欧美日韩亚洲综合一区二区三区_| 日韩高清综合在线| e午夜精品久久久久久久| 久久热在线av| 757午夜福利合集在线观看| 国产深夜福利视频在线观看| 欧美黑人欧美精品刺激| 久久香蕉激情| 99精品久久久久人妻精品| 丰满人妻熟妇乱又伦精品不卡| 午夜91福利影院| 亚洲中文字幕日韩| 欧美在线黄色| 欧美日韩中文字幕国产精品一区二区三区 | 久久久久国产精品人妻aⅴ院| 好男人电影高清在线观看| 午夜福利,免费看| 大型av网站在线播放| 精品一区二区三区四区五区乱码| 亚洲情色 制服丝袜| 欧美日韩瑟瑟在线播放| 黑人巨大精品欧美一区二区蜜桃| 久久中文看片网| 免费人成视频x8x8入口观看| 色婷婷av一区二区三区视频| xxxhd国产人妻xxx| 变态另类成人亚洲欧美熟女 | 久久狼人影院| 极品教师在线免费播放| av福利片在线| 欧美久久黑人一区二区| 美女国产高潮福利片在线看| 国产亚洲精品第一综合不卡| 女性生殖器流出的白浆| 中文欧美无线码| 欧洲精品卡2卡3卡4卡5卡区| 国产伦一二天堂av在线观看| 日韩免费av在线播放| 99热只有精品国产| 麻豆av在线久日| 一级片'在线观看视频| 91九色精品人成在线观看| 免费在线观看影片大全网站| 精品国产美女av久久久久小说| 欧美日韩乱码在线| 一进一出抽搐动态| 人人澡人人妻人| 欧美日韩精品网址| 久久人人精品亚洲av| 国产精品日韩av在线免费观看 | 午夜精品久久久久久毛片777| 久久午夜综合久久蜜桃| 老司机在亚洲福利影院| 国产精品久久久av美女十八| 国产精品av久久久久免费| 午夜老司机福利片| 可以在线观看毛片的网站| 国产一区二区三区视频了| 亚洲第一青青草原| 久久久久国内视频| 大码成人一级视频| 又黄又粗又硬又大视频| 婷婷精品国产亚洲av在线| 国产三级黄色录像| 国产熟女午夜一区二区三区| 亚洲情色 制服丝袜| 国产精品亚洲一级av第二区| 日韩欧美一区二区三区在线观看| 国产成人精品久久二区二区91| 国产精品亚洲av一区麻豆| 精品国产国语对白av| 嫩草影视91久久| 女生性感内裤真人,穿戴方法视频| 欧美乱妇无乱码| 最新美女视频免费是黄的| 亚洲精品成人av观看孕妇| 欧美黑人精品巨大| 亚洲五月天丁香| 高清在线国产一区| 手机成人av网站| 男女做爰动态图高潮gif福利片 | 日韩欧美三级三区| 午夜免费激情av| 欧美久久黑人一区二区| 日本黄色视频三级网站网址| 久久中文看片网| 国产成人影院久久av| 久久影院123| 精品国产超薄肉色丝袜足j| 精品乱码久久久久久99久播| a在线观看视频网站| 国产片内射在线| 一级黄色大片毛片| 91麻豆精品激情在线观看国产 | 9热在线视频观看99| 男女下面进入的视频免费午夜 | 最新美女视频免费是黄的| 黑人巨大精品欧美一区二区mp4| 国产蜜桃级精品一区二区三区| 日韩人妻精品一区2区三区| 国产成人啪精品午夜网站| 精品福利观看| 欧美黑人精品巨大| 亚洲精华国产精华精| 亚洲欧洲精品一区二区精品久久久| 麻豆成人av在线观看| 黄片小视频在线播放| 成人手机av| 国产精品电影一区二区三区| 精品电影一区二区在线| 露出奶头的视频| 国产亚洲欧美98| 欧美性长视频在线观看| 一区二区日韩欧美中文字幕| 在线观看午夜福利视频| 久久影院123| 悠悠久久av| 亚洲人成77777在线视频| 国产成人欧美在线观看| 9热在线视频观看99| 亚洲视频免费观看视频| 91国产中文字幕| 日日夜夜操网爽| 乱人伦中国视频| 中文字幕人妻丝袜制服| 欧美日韩亚洲国产一区二区在线观看| 久久国产精品影院| 99国产精品免费福利视频| 热99re8久久精品国产| 伦理电影免费视频| 丰满饥渴人妻一区二区三| 在线天堂中文资源库| 国产国语露脸激情在线看| 女人爽到高潮嗷嗷叫在线视频| 精品久久久久久,| 久久亚洲真实| 国产aⅴ精品一区二区三区波| 99久久久亚洲精品蜜臀av| 嫩草影院精品99| 久久久国产一区二区| 久久国产精品影院| 天堂√8在线中文| 日本wwww免费看| 老司机亚洲免费影院| 亚洲精品一二三| 日本一区二区免费在线视频| 午夜福利影视在线免费观看| 日本 av在线| 一区在线观看完整版| av电影中文网址| 国产蜜桃级精品一区二区三区| 亚洲色图 男人天堂 中文字幕| 丝袜美足系列| 国产不卡一卡二| 桃红色精品国产亚洲av| 日日爽夜夜爽网站| 波多野结衣av一区二区av| 亚洲精华国产精华精| 高潮久久久久久久久久久不卡| 18禁观看日本| 久久香蕉激情| 国产免费男女视频| 国产亚洲欧美在线一区二区| 国产av一区在线观看免费| 久久久久亚洲av毛片大全| 国产成人精品无人区| 精品国内亚洲2022精品成人| 日本五十路高清| 99国产精品一区二区蜜桃av| 精品久久蜜臀av无| 免费在线观看日本一区| 午夜免费成人在线视频| 欧美黄色片欧美黄色片| 青草久久国产| 一区二区三区国产精品乱码| 一级a爱片免费观看的视频| www.www免费av| 看片在线看免费视频| 村上凉子中文字幕在线| 啪啪无遮挡十八禁网站| 午夜久久久在线观看| av免费在线观看网站| avwww免费| 日韩av在线大香蕉| www.精华液| 精品一区二区三区视频在线观看免费 | 悠悠久久av| 国产精品九九99| 日韩一卡2卡3卡4卡2021年| 一本综合久久免费| 啦啦啦免费观看视频1| 免费搜索国产男女视频| 法律面前人人平等表现在哪些方面| 欧美激情久久久久久爽电影 | 涩涩av久久男人的天堂| 在线观看午夜福利视频| 9191精品国产免费久久| 精品一品国产午夜福利视频| 久久天躁狠狠躁夜夜2o2o| 级片在线观看| 波多野结衣高清无吗| 久久久久久久久久久久大奶| 国产高清国产精品国产三级| 女人被躁到高潮嗷嗷叫费观| 国产精品爽爽va在线观看网站 | 久久久国产一区二区| 又紧又爽又黄一区二区| 男女床上黄色一级片免费看| 国产成人av教育| 亚洲色图 男人天堂 中文字幕| 久久热在线av| 天天躁夜夜躁狠狠躁躁| 欧美成人性av电影在线观看| 天堂影院成人在线观看| 12—13女人毛片做爰片一| 国产欧美日韩一区二区三| 久久久国产成人免费| 精品国产国语对白av| 午夜福利欧美成人| 午夜免费激情av| 国产成人精品久久二区二区免费| 久久国产乱子伦精品免费另类| 色精品久久人妻99蜜桃| 黑人操中国人逼视频| 1024香蕉在线观看| 久久久精品国产亚洲av高清涩受| 日韩国内少妇激情av| 国产免费av片在线观看野外av| 成人黄色视频免费在线看| 韩国av一区二区三区四区| 国产精品久久久人人做人人爽| 黄色片一级片一级黄色片| 757午夜福利合集在线观看| 99热只有精品国产| 亚洲免费av在线视频| 国产精品1区2区在线观看.| 亚洲熟妇熟女久久| 国产成人欧美在线观看| 国产亚洲av高清不卡| 色综合站精品国产| 国产精品久久电影中文字幕| 每晚都被弄得嗷嗷叫到高潮| 日本免费a在线| 制服人妻中文乱码| 无遮挡黄片免费观看| 后天国语完整版免费观看| 欧美性长视频在线观看| 国产黄a三级三级三级人| 国产精品 欧美亚洲| av中文乱码字幕在线| 久久九九热精品免费| 又黄又粗又硬又大视频| 亚洲熟妇熟女久久| 夫妻午夜视频| 国产亚洲精品第一综合不卡| 男人操女人黄网站| 精品福利观看| av网站免费在线观看视频| 美国免费a级毛片| 国产黄a三级三级三级人| 成人影院久久| 久久狼人影院| 成人国语在线视频| 电影成人av| 香蕉久久夜色| videosex国产| 久久人人爽av亚洲精品天堂| 在线观看免费视频网站a站| 精品无人区乱码1区二区| 麻豆久久精品国产亚洲av | 女性被躁到高潮视频| 嫩草影院精品99| 国产精品野战在线观看 | 国产高清videossex| 日韩 欧美 亚洲 中文字幕| e午夜精品久久久久久久| 999久久久国产精品视频| 制服诱惑二区| 亚洲五月色婷婷综合| 最近最新中文字幕大全免费视频| 亚洲av片天天在线观看| 亚洲精品粉嫩美女一区| 最新在线观看一区二区三区| 变态另类成人亚洲欧美熟女 | 男人舔女人下体高潮全视频| 欧美丝袜亚洲另类 | 久久久精品欧美日韩精品| 一级毛片精品| 国产欧美日韩精品亚洲av| 久久午夜综合久久蜜桃| 两个人免费观看高清视频| 成熟少妇高潮喷水视频| 在线视频色国产色| x7x7x7水蜜桃| 成人国产一区最新在线观看| 99精品久久久久人妻精品| 欧美亚洲日本最大视频资源| 国产精品偷伦视频观看了| 又紧又爽又黄一区二区| 日韩人妻精品一区2区三区| 色老头精品视频在线观看| 精品免费久久久久久久清纯| 国产伦一二天堂av在线观看| 日韩视频一区二区在线观看| 亚洲中文日韩欧美视频| av有码第一页| 看片在线看免费视频| 五月开心婷婷网| 久久 成人 亚洲| 国产精品九九99| 日日爽夜夜爽网站| 五月开心婷婷网| 看片在线看免费视频| av有码第一页| 美女福利国产在线| videosex国产| 亚洲av片天天在线观看| 久久久久久大精品| 在线国产一区二区在线| 一个人免费在线观看的高清视频| 精品高清国产在线一区| 90打野战视频偷拍视频| 午夜日韩欧美国产| 黄色视频,在线免费观看| 女人爽到高潮嗷嗷叫在线视频| 极品教师在线免费播放| 国产伦一二天堂av在线观看| 91av网站免费观看| 两性午夜刺激爽爽歪歪视频在线观看 | 午夜a级毛片| 多毛熟女@视频| 久久天堂一区二区三区四区| 成人18禁高潮啪啪吃奶动态图| 免费在线观看完整版高清| 黄色a级毛片大全视频| 欧美日本中文国产一区发布| 中文字幕av电影在线播放| 久久精品人人爽人人爽视色| 亚洲欧美一区二区三区久久| 欧美激情高清一区二区三区| 色婷婷久久久亚洲欧美| 电影成人av| 中文亚洲av片在线观看爽| 成年人黄色毛片网站| 国产欧美日韩一区二区三区在线| 午夜老司机福利片| 久久人人精品亚洲av| 精品午夜福利视频在线观看一区| 亚洲片人在线观看| 搡老乐熟女国产| 亚洲av成人av| 色综合婷婷激情| 免费女性裸体啪啪无遮挡网站| 欧美国产精品va在线观看不卡| 免费人成视频x8x8入口观看| 黑人巨大精品欧美一区二区mp4| 久久精品亚洲av国产电影网| 12—13女人毛片做爰片一| 国产精品秋霞免费鲁丝片| 精品久久久久久,| 熟女少妇亚洲综合色aaa.| 久久天堂一区二区三区四区| 高潮久久久久久久久久久不卡| 女生性感内裤真人,穿戴方法视频| 精品国产国语对白av| 亚洲国产精品一区二区三区在线| 亚洲精品一卡2卡三卡4卡5卡| 青草久久国产| 韩国精品一区二区三区| 可以免费在线观看a视频的电影网站|