• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    口譯語料庫的編碼與標記:以SIDB為例

    2014-06-23 16:27:29輔仁大學臺灣楊承淑
    外文研究 2014年4期
    關鍵詞:研究課題松原譯員

    輔仁大學(臺灣) 楊承淑

    口譯語料庫的編碼與標記:以SIDB為例

    輔仁大學(臺灣) 楊承淑

    關于口譯語料庫的建置與研究,迄今以名古屋大學1999-2003年之間開發(fā)的英日/日英同步口譯語料庫(SIDB,Simultaneous Interpretation Data Base)為最大,約達100萬字。該研究團隊在此基礎上,進行了一系列檢證口譯產(chǎn)出特征的量化研究。本研究首先將針對SIDB口譯語料庫加以評估,并分析其編碼與標記之功能及特征。其次,亦將評述前述口譯語料庫所展開的研究成果,以厘清該語料庫之定位及效益。借此,期能將現(xiàn)行語料之編碼與標記具有之優(yōu)勢及其應避免之劣勢,提出客觀描述與評估。

    SIDB評估;SIDB科研成果;同傳研究面向;案例分析

    一、前言

    關于口譯語料庫的建置與研究,迄今以名古屋大學1999-2003年之間開發(fā)的英日/日英同步口譯語料庫(SIDB,Simultaneous Interpretation Data Base)為最大,約達182小時(聽寫成100萬字)。該研究團隊在此基礎上,自2001-2006年進行了一系列檢證口譯產(chǎn)出特征的量化研究。

    本研究將從其建庫到研究成果產(chǎn)出的10年期間,針對該研究團隊的學術活動,分析其成員屬性、主題分布、經(jīng)費運用、學術成果、主要特色等,作為今后口譯語料庫大規(guī)模建置及研究開展上的借鑒。

    其次,在掌握前述信息的基礎下,將以SIDB語料庫的編碼與標記,進一步描述其建置架構并評估其優(yōu)勢與特色,并與其研究產(chǎn)出之間的關系提出評估報告。

    二、SIDB描述

    該團隊核心成員松原茂樹(2001:86)的研究報告指出該語料庫是源于名古屋大學“統(tǒng)合音響情報研究據(jù)點”(CIAIR,Center for Integrated A-coustic Information Research)武田一哉教授(Kazuya Takeda)于1999-2003年執(zhí)行文部省COE(Center of Excellence)計劃所衍生的一項研究①總計劃由板倉文忠教授以“多元音響信號の統(tǒng)合的理解”為題任總主持人,武田教授所執(zhí)行的僅是其中四個子計劃之一。該子計劃5年共獲8億2260萬日元(約1000萬美元)科研直接經(jīng)費。1999年:2億6千萬,2000年:1億8千萬,2001年1億7千萬,2002年1億900萬,2003年1億2393萬日元。。其龐大的科研經(jīng)費主要是投入多元音響信號的綜合理解之用,包括汽車行進間的話語辨識及過濾噪聲等研究。

    前述研究團隊為了追求口譯自動化的目標,因而于1998-1999年開始著手雙語同傳語料庫的建置準備。當時他們所嘗試的是一種“漸進式的英日口語翻譯手法”(松原茂樹等1998,1999),亦即順著小句的詞序,采取順句驅動的方式產(chǎn)出譯語。然而,他們認為唯有從職業(yè)譯員獲取真實的口譯語料,才能為自動化的口譯產(chǎn)出找到最佳范本,以利系統(tǒng)的設計與運作。以下是SIDB語料庫的概要:

    表1 SIDB語料庫概要

    該語料庫的建置除了以支持自然語言處理、認知科學、認知語言學、口譯研究、口譯教學、外語教學等多功能用途為其目標之外,最大的夢想是追求口譯的自動產(chǎn)出。甚至,包括在電話、車內(nèi)等伴隨雜音的環(huán)境下,得以自動產(chǎn)生優(yōu)質的口譯?;诖耍麄冊谠撜Z料庫的語音標記及時間信息上,格外要求精細的記載。而這也是該研究主旨——“多元音響信號的綜合理解”的落實與詮釋。

    三、SIDB的編碼與標記

    SIDB語料庫的語料分成獨白與對話兩種類型。前者由職業(yè)譯員擔任口譯,并由真人進入玻璃錄音室,讓譯員在可看到并聽到源語講者的情況下進行同傳。而對話語料則采取面對面與仿真電話的非面對面形式,譯員口譯時可以聽到兩位對話者的話語內(nèi)容,以掌握完整的語境。收錄情況如下:

    圖1 語料收錄情況

    在編碼方面,研究團隊針對收錄語料時的背景數(shù)據(jù)、語料特征、說話者與譯員及其話語媒介等信息分別加以編碼。主要可分類為:背景環(huán)境、語料特征、話語講者、話語界面。詳見表2:

    表2 SIDB編碼類別與內(nèi)容

    該語料的標記采取的是自動化語料標記(tagging)方式,可分話語篇章標記、時間信息標記、話語語流標記。以下,將針對各項標記的定義、目的、功能、特征等提出詳細描述。

    所謂“話語篇章標記”,指的是該語料的語音聽寫方式。該團隊采取的是日本國立國語研究所制訂的“日語口語語料庫(CSJ)”基準。也就是說,以200msec以上的停頓為其切分(segment)依據(jù),并將此視為一個話語單位(松原茂樹等2001: 92)。而這樣做的目的是為了找出一個明確客觀的分割信息依據(jù),同時也可借此確定話語的基本單位。如此,就可以寫出程序,并透過程序去自動擷取及分割話語信息,而停頓兩秒以上即形成一個可客觀辨識的話語標志(discourse marker),有助研究人員據(jù)此探究口譯產(chǎn)出時的認知意義并加以分類。

    由于日語有漢字與假名混雜的現(xiàn)象,故除了第1行是紀錄話語的時間序列,第2行是源語的聽寫文字,第3行則是語音標記(以片假名標示前一行語音的加工程序)。而英語則只有兩行——時間序列與源語文字,而無語音標記。詳參以下表示時間信息的標記圖標(圖2):

    圖2 SIDB英語講者對話內(nèi)容

    圖3 SIDB英日語譯員話語內(nèi)容

    在“時間信息標記”方面,包含前述水平紀錄的時間序列與源語文字形成水平走向(圖4)及垂直方向的時間序列紀錄。(圖5)

    圖4 SIDB時間信息標記(去除其他標記)

    SIDB團隊充分運用了他們在時間標記上的信息,在后續(xù)的研究成果中展現(xiàn)了可觀的成績。其研究課題包括:同傳譯員發(fā)聲時點分析、同傳與交傳的時間特征、同傳中的停頓、同傳產(chǎn)出延遲分析、語速變動分析、應答詞的插話時機等。該團隊在時間標記上共提出19篇論文,其中與同傳相關的論文即達14篇??梢?,同傳研究與時間信息標記之間的關聯(lián)性頗高。

    圖5 SIDB對話的時間信息標記

    至于“話語語流標記”,主要針對口語表達時的不流暢、語音異常等現(xiàn)象加以標示。例如,發(fā)語詞(F,filler)、不完整詞語(D)、口誤(W)、元音拉長(H)、子音拉長(Q)、元音不確定(FV)、句尾(SB)。最后,在句子結束處加上的標記(PB),則用于識別及切分之用。詳如表3:

    表3 SIDB標記類別與內(nèi)容

    針對以上標記,該團隊還研發(fā)了一套可自動對齊(alignment)的支持軟件,以利標記作業(yè)的統(tǒng)一性。其功能包括顯示雙語語料分句對齊、時間標記(含非時間標記的排除)、詞素分析結果等窗口。參見圖4、圖5及下頁圖6、圖7,可知表3中的各類標記都已完整顯于其中。

    圖6 SIDB雙語語料對齊視窗

    圖7 SIDB詞素分析標記

    四、SIDB的研究成果

    SIDB語料內(nèi)容配合前述編碼與標記,及對齊與分析等軟件的運作下,該團隊以松原茂樹為核心,自1994-2012年陸續(xù)提出319篇論文①這319篇論文是以松原茂樹列名其中的論文為標的,擷取自日本CiNii學術網(wǎng)。,其中85篇為英文,229篇為日文。主要研究課題包括以下各項,內(nèi)容扼要摘述如下:

    以下,包括SIDB各類論文篇數(shù)、同傳研究的分布情況,及其出版高峰期等數(shù)據(jù),請詳見下頁表5。事實上,SIDB的建置雖是1999-2003年,但顯然關于話語理解、譯法分析等研究,早在1994-1998年就已著手啟動。到了1999-2003年的計劃執(zhí)行時期,此時的研究集中在話語理解、話語分析、譯法分析、語音處理、語料庫設計等課題,亦即語料分析與工具開發(fā)上。

    而在2004-2012年之間,研究課題則偏向時間信息、話語分析、文本處理、文本分析、語料庫設計。此時的研究面向,開始以英語或日語的話語/書面的分析與處理(含自動產(chǎn)出)為目標。顯然,可以劃分為三個主要階段。詳見下頁表6。

    而另一方面,對于同傳的研究成果及其分布情況,亦令人深感好奇。首先,我們發(fā)現(xiàn)同傳的相關成果,僅分布于1996-2009年,高峰期為2000-2009年。然后,47篇論文中篇數(shù)最多的研究課題是時間信息與語料庫設計,然后則是譯法分析與話語分析。

    而同傳的相關研究中,從下頁表7可看出語料庫設計占了1/3,且集中分布于2000-2005年。同樣也占1/3分量的是語料的時間信息所衍生的研究,主要分布于2005-2009年。除此之外的連續(xù)分布則見于譯法分析,在2003-2006年之間。而對照表6可知,時間信息是同傳口譯產(chǎn)出類型的特征研究,同時也是一項貫穿三階段(前置、執(zhí)行、應用),執(zhí)行期間未曾中斷的骨干內(nèi)容。

    表7是研究成果的逐年分布情況:

    表4 SIDB研究主題類別

    表5 SIDB核心成員1994-2012年研究成果一覽

    表6 SIDB各階段研究課題(1994-2012)

    表7 SIDB同傳研究課題分布一覽(1996-2009)

    然而,表7中較令人意外的是話語分析(僅6篇),且主要集中在2006年(4篇)。也就是說,同傳的話語分析在SIDB的研究推進過程中,并非持續(xù)研究的主要課題。而事實上,在近20年的研究歷程中,話語分析是成果偏高的面向,但其中的同傳研究比重明顯偏低。此外,另一耐人尋味的現(xiàn)象則是時間信息的研究成果。主要成果是在該計劃執(zhí)行結束之后(1999-2003),才連續(xù)5年又提出了12篇論文。整體而言,SIDB近20年的研究歷程中,一貫穩(wěn)定產(chǎn)出的研究課題有下列各項:

    表8 SIDB連續(xù)穩(wěn)定產(chǎn)出之研究課題

    而各項持續(xù)性研究課題的產(chǎn)出高峰期及其重疊期如下圖7。

    圖7 SIDB持續(xù)性研究課題的產(chǎn)出時期

    從表8與圖7亦可看出,SIDB團隊發(fā)展同傳期間(1999-2003),正是各項持續(xù)性研究課題的第一個高峰期。然而,在此之后的研究期間,顯然圖7中的四項研究課題的比重日益提升。此外,英/日文書寫文本的自動抽取等加工處理,已然是其重要的核心議題。同時,配合分布于2009-2010年的人工智能與2010與2012年的認知分析,可知發(fā)展自動翻譯系統(tǒng)應是其主要目標。換言之,SIDB的重心已經(jīng)從口譯逐漸轉入筆譯領域了。

    五、SIDB編碼與標記及其研究成果

    若要探究何以SIDB在建置成為全球最大的同步口譯語料庫之后,其同傳研究卻消逝得如此迅速,其原因與編碼與標記的設計密切相關。

    首先,觀察其編碼與標記的內(nèi)容,可知并未反映在其研究成果中。例如,編碼中對于口譯員資歷的分類,并未在其后續(xù)成果中展現(xiàn)資深(3年以上)與資淺(3年以下)譯員的口譯表現(xiàn)有何差異(表2)。

    而標記方面,關乎譯員認知表征的口譯錯誤或失誤,如發(fā)語詞(F)、改口(R)、不完整詞語(D)、句中停頓(PS)等重要的口譯表現(xiàn),也并未在研究中提出相關成果。換言之,對于口譯的譯語內(nèi)容或技巧表現(xiàn)(performance)等,該團隊并未賦予相應的關注。

    其實,在擁有前述編碼與標記的情況下,其中與譯語語流相關的譯員認知標記及語音異常標記,以及語料特征與譯員資歷、話語接口等編碼,對于口譯技能與策略的探究,似乎值得進一步加以關注。以口譯技能而言,不同口譯資歷譯員(3年以上或以下),針對同一語篇的同傳表現(xiàn),必然是該團隊當初關注的一項焦點,且因而投注的資金與心力也相當可觀。

    然而,SIDB自1994-2012年陸續(xù)提出的319篇論文中,卻沒有任何一篇是探討不同資歷譯者技能表現(xiàn)的。這一點,確實令人不解?;蛟S,該團隊并未將語流的遲滯與語音的偏移,視為口譯技能發(fā)展中有意義的標志,才導致該項研究議題產(chǎn)出不彰的結果。

    假使這一假設成立的話,只要從資深譯員是否較資淺譯員語流更為順暢、語音偏移更少,即可得知口譯技能發(fā)展程度是否與此相關。就量化研究而言,若要證明其結果,數(shù)據(jù)應如探囊取物,可說易如反掌。

    然而,研究團隊所關注的重點,大都圍繞在時間信息的基礎上——包含語速、停頓、源語與譯語的時序落差、發(fā)語詞(F)與聽取效果的關系、日譯英/英譯日與譯語延遲的比較等。

    這些成果(共14篇)主要針對語速或停頓對于聽取理解的影響,并提出量化的測定報告(2005年3篇,2006年1篇)。同時,也運用軟件切分語音/文本語料,提出精細的時間測定數(shù)據(jù)(2002年1篇)。如,同傳與交傳的時間效益比較(2003年1篇)、源語與譯語的時序落差(2006年1篇,2007年1篇)、自動推估單詞發(fā)聲時間(2007年1篇,2008年1篇)、日譯英/英譯日與譯語延遲比較(2007年1篇)等。其后的研究成果則集中在譯員的語速變動(2008-2009年3篇)等。

    圖8 時間信息的研究課題及其出版時期

    而譯法方面共計8篇。他們提出口譯時的主要套式、信息單位、銜接手法(分割、省略、反復)、順句驅動、句構特征、從屬句譯法、省略手法(省略、壓縮)等。(各年度論文篇數(shù)如圖9所示)

    圖9 譯法分析的研究課題及其出版時期

    而在話語特征方面共計6篇論文。1996年9月,他們首先提出對話的日語譯語特征為主題變換、分割、倒置、反復、改口(糾正)及發(fā)語詞的高頻現(xiàn)象等。只是,這樣的發(fā)現(xiàn)僅出現(xiàn)于語料庫尚未開始建置的1996年,建置初期(2000年)僅完成一篇對話語料庫分析的論文。而建置完成之后(2006年4篇),反而并未提出與最初規(guī)劃時足以呼應且有持續(xù)性的研究成果。4篇論文主題分別是:教學應用、發(fā)語詞對聽眾理解的影響、演講的同傳類型、對話翻譯的日語發(fā)言分割。

    圖10 話語特征研究及其出版時期

    圖11 語料庫研究課題及其出版時期

    而占相同比重(14篇)的還有語料庫設計研究,持續(xù)產(chǎn)出于2000-2005年??梢娕c同步口譯相關的工具開發(fā),與其科研項目的執(zhí)行是密切相關的。其中主要課題包括語料庫設計與利用和對齊手法及其評估。相對而言,這些都是比較概論性質的論文。不過,他們在此同時也申請了兩項專利。分別是自動抽取摘要和翻譯套式(2004-2005)。

    回顧該語料庫的研發(fā),得之于編碼與標記的研究成果似乎可說偏低。尤其,從總體319篇而言,更是相形見絀。

    六、結語:展望今后

    從全球首度研發(fā)完成的百萬字口譯語料庫的成果剖析看來,似乎令人不無遺憾。其癥結點在于口譯語料庫并非信息科學產(chǎn)品,其分析與研究若無口譯學界的加入,甚難發(fā)現(xiàn)以口譯為核心的問題意識,亦導致其成果受到局限。

    反之,從近幾年的口譯研究課題可知,舉凡口譯技巧、評量、策略、模式、過程研究、專技發(fā)展等,以語料庫為工具所做的分析較之過往的觀察研究,證據(jù)力與解釋性皆可大幅提升,頗值得投入此一領域。此外,SIDB的內(nèi)容是可價購取得的,若與中英、中日等語言組合交互運用,其規(guī)??梢詳U增達數(shù)倍。而且,該語料精確性極高,值得以更具兼容性的接口重制并加以引介推廣。

    松原茂樹等.2001.同時通訳コーパスの設計と構築[J].通訳研究(1):85-102.

    松原茂樹等.1998a.漸進的な話し言葉翻訳における翻訳処理単位の検討[A].電気関係學會東海支部連合大會講演論文集[C].

    松原茂樹等.1998b.漸進的な機械翻訳のための文法規(guī)則の変換手法[A].言語処理學會第4回年次大會論文集[C]. 500-503.

    松原茂樹等.1999a.英日話し言葉翻訳のための漸進的文生成手法[A].情報処理學會[ed.].情報処理學會研究報告[R].NL-132,95-100.

    松原茂樹等.1999b.文脈自由文法の変換に基づく漸進的な話し言葉翻訳手法[A].情報処理學會[ed.].第59回情報処理學會全國大會講演論文集(2)[C].357-358.

    松原茂樹等.1999c.漸進的構文解析における構文的曖昧性とその解消[A].一般社団法人情報処理學會[ed.].情報処理學會研究報告[R].NL-134,117-122.

    遠山仁美,松原茂樹.2004.CIAIR同時通訳データベースの構築と利用(セッション1)『<特集>人間による言語理解·言語処理』.

    SIDB.2006.同時通訳データベース·マニュアル獨話/対話[OL].[08-09].http://slp.el.itc.nagoya-u.ac.jp/sidb/.

    CiNii.2014.松原茂樹[OL].[10-18].http://ci.nii.ac.jp/nrid/1000020303589.

    (責任編輯 侯 健)

    H059

    A

    2095-5723(2014)04-0082-07

    2014-09-08

    本文系臺灣“國科會”專題研究項目“生手、新手、老手的口譯技能與策略研究”(100-2410-H-030-052-MY2,2011-2013)成果之一。

    通訊地址:24205 臺灣新北市 輔仁大學跨文化研究所

    猜你喜歡
    研究課題松原譯員
    我校徐衛(wèi)紅教授主持的教育教學改革研究課題結題
    河南松原生物科技有限公司
    中國釀造(2019年9期)2019-10-08 05:44:02
    高校學生職業(yè)生涯規(guī)劃研究課題規(guī)劃——以吉林省高校為例
    活力(2019年21期)2019-04-01 12:18:58
    愛的花旗松素 走進吉林松原市場
    會議口譯中譯員的譯前準備研究——一項基于上海譯員的問卷調查
    口譯中的“陷阱”
    英語學習(2017年3期)2017-04-10 23:21:37
    啊,松原
    黃河之聲(2016年13期)2016-11-09 01:42:16
    論機器翻譯時代人工譯員與機器譯員的共軛相生
    外文研究(2016年3期)2016-03-17 12:41:05
    譯員與翻譯企業(yè)的勞資關系及其和諧發(fā)展
    天中學刊(2015年4期)2015-08-15 00:51:01
    湖南省“十三五”規(guī)劃前期重大問題研究課題通過評審驗收等
    民乐县| 宜良县| 襄汾县| 寿阳县| 黑水县| 葵青区| 曲靖市| 安阳市| 郑州市| 邹平县| 历史| 绩溪县| 合水县| 惠州市| 海伦市| 六安市| 咸宁市| 花莲县| 桂东县| 尼勒克县| 绥德县| 平远县| 商水县| 雷州市| 洞口县| 兴城市| 卢湾区| 德昌县| 赣榆县| 丁青县| 杭州市| 濮阳县| 平利县| 德州市| 盈江县| 宿迁市| 金山区| 南康市| 晴隆县| 枝江市| 闸北区|