• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    《脊柱相關(guān)疾病》語料庫建構(gòu)研究*

    2023-08-16 14:59:42陳瀅竹
    中國科技縱橫 2023年6期
    關(guān)鍵詞:賦碼分詞中英文

    趙 嬋 陳瀅竹

    (1.南寧師范大學(xué),廣西南寧 530001;2.廣西中醫(yī)藥大學(xué),廣西南寧 530200)

    0.引言

    《脊柱相關(guān)疾病》[1]是著名骨傷科專家韋貴康教授主編的骨傷科臨床診療叢書中的一部。該書從中國傳統(tǒng)中醫(yī)的視角,對與脊柱相關(guān)的疾病進(jìn)行了較為系統(tǒng)的研究和整理。這本書的出版有助于提高中醫(yī)臨床實踐、中醫(yī)教學(xué)、中醫(yī)科研水平,從客觀上加強(qiáng)中醫(yī)骨科作為臨床醫(yī)學(xué)的學(xué)科建設(shè)。之后,蔣基昌等學(xué)者將這部書翻譯為英文,引入國際醫(yī)學(xué)界,為國外醫(yī)學(xué)工作者了解中醫(yī)作出了貢獻(xiàn)。

    1.文獻(xiàn)綜述

    國內(nèi)外學(xué)者越來越多地借助計算機(jī)技術(shù)建立與中醫(yī)相關(guān)的語料庫,為中醫(yī)典籍提供更全面、細(xì)致的研究。例如,聞永毅、樊新榮[2](2011)從語料庫語言學(xué)的視角討論了《黃帝內(nèi)經(jīng)》中文單語語料庫的構(gòu)建方法和步驟。2003 年,這兩位學(xué)者又就中醫(yī)英文語料庫構(gòu)建的可行性進(jìn)行了探討[3]。國內(nèi)從事這類研究的學(xué)者不多,且多為單語語料庫研究。涉及中醫(yī)外宣材料雙語平行語料庫構(gòu)建的研究更不多見。

    本文以語義學(xué)理論為基礎(chǔ),結(jié)合計算機(jī)技術(shù)系統(tǒng)研究《脊柱相關(guān)疾病》中文語料庫和中英雙語平行語料庫的構(gòu)建方法和步驟,以期為我國現(xiàn)代中醫(yī)成果外譯盡一份綿薄之力。

    2.《脊柱相關(guān)疾病》中文、中英雙語平行語料庫的建立

    2.1《脊柱相關(guān)疾病》中文單語語料庫的建立

    輸入數(shù)據(jù)前,先對文本做一些處理,以確?!都怪嚓P(guān)疾病》中文語料庫建立工作的順利開展。處理如下:(1)人工篩選該書中文版的非醫(yī)學(xué)內(nèi)容。(2)編輯和整理篩選過的中文文本。如刪除多余的空格等。(3)初步標(biāo)注中文文本信息。如標(biāo)出文本的標(biāo)題和段落,并將其保存為純文本格式,生成《脊柱相關(guān)疾病》中文生語語料庫。該語料庫的文本樣例如下:<P>脊柱構(gòu)成人體的中軸……</P>。

    中文語料庫建構(gòu)工具使用的是Word Smith Tools8.0。因為它不僅能提供基本檢索項目,如字詞檢索、生成詞表等,還能提供形符比,標(biāo)準(zhǔn)形符比等其他統(tǒng)計量。此外,還增加了新功能如單獨導(dǎo)出一致性詞等。該工具的運用可增加生語語料庫提供的檢索項目。

    2.1.1 庫文件的分詞處理

    生語語料庫有限的檢索項目不能滿足使用者的需求,也不利于我們建構(gòu)中英雙語平行語料庫。因此,我們對中文生語語料庫文件進(jìn)行分詞處理,以實現(xiàn)檢索中文多字詞的目標(biāo)。經(jīng)過初步處理的《脊柱相關(guān)疾病》中文生語語料庫為70331 字。目前廣泛應(yīng)用的現(xiàn)代漢語分詞系統(tǒng)在分詞的同時,可同步完成語料詞性的標(biāo)注。但由于《脊柱相關(guān)疾病》屬于醫(yī)學(xué)類專著,專業(yè)性高,現(xiàn)有的中文分詞系統(tǒng)在分詞和詞性標(biāo)注時,準(zhǔn)確性很難保證,所以本研究先采用了自動分詞技術(shù),再結(jié)合人工干預(yù)進(jìn)行調(diào)整和修訂,以確保分詞和詞性標(biāo)注的準(zhǔn)確性。分詞樣例如下:<P>脊柱構(gòu)成 人體 的 中軸……</P>(共5 個詞)。

    2.1.2 語料庫的標(biāo)注

    此外,我們還參考其他學(xué)者,如聞永毅、樊新榮;詹衛(wèi)東等[4]使用的語義分類法和研究思路對經(jīng)過分詞處理的語料庫進(jìn)行語義標(biāo)注。這主要通過語義分類系統(tǒng)和語義賦碼系統(tǒng)實現(xiàn)。

    (1)語義分類的實施步驟。

    1)形成詞表。運用語料庫檢索工具Wordsmith8.0提取經(jīng)過分詞處理的《脊柱相關(guān)疾病》文件中的詞匯,形成詞匯表。

    2)建立語義標(biāo)注手冊。首先,根據(jù)語義學(xué)的上下義關(guān)系、同義關(guān)系等原則對詞匯表的詞匯進(jìn)行分類,建立語義層級和分類標(biāo)準(zhǔn),初步形成語義標(biāo)注手冊。其次,請3個具有中醫(yī)醫(yī)學(xué)背景的碩士研究生依據(jù)這個手冊分別進(jìn)行試標(biāo)注。如有爭議,三者進(jìn)行協(xié)商,最終達(dá)成一致,從而調(diào)整分類的層級和標(biāo)準(zhǔn),形成最終的語義標(biāo)注手冊。不同語義層級的“語義標(biāo)注符號”根據(jù)這組詞匯最具原型性的詞語或上位詞命名。如找不到合適的詞語,則由3 名研究生討論決定。

    不同語義層級之間主要有以下3 種關(guān)系:①上下義關(guān)系。即上一語義層級和下一語義層級是包含和被包含的關(guān)系,具體可細(xì)分為分類關(guān)系、層級關(guān)系、部分和整體關(guān)系等。如病癥(一級語義層級)包括臂厥、眩暈、心悸、血痹、筋痹、骨痹等二級語義層級。②同義關(guān)系。這類關(guān)系可按照不同的標(biāo)準(zhǔn)劃分為近義或同義關(guān)系、反義關(guān)系等。如脊柱生理曲度(二級語義層級)下含胸曲、骶曲、頸曲與腰曲(三級語義層級)。這是按功能或?qū)傩韵嗤蛳嗨苿澐值慕x或同義關(guān)系。③系統(tǒng)外關(guān)系。主要是虛詞和標(biāo)點符號等。這樣語義標(biāo)注手冊就形成了一個縱橫交錯的語義關(guān)系網(wǎng)??v向為具有上下義關(guān)系的詞群;橫向為具有同義/反義關(guān)系特征的詞群??v向頂端的一級語義層級被設(shè)定為一級標(biāo)注符號;向下依次為二級、三級等。

    (2)語義賦碼。采用計算機(jī)賦碼和人工輔助修正相結(jié)合的方法對語料進(jìn)行賦碼。為了提高語義賦碼的效率和準(zhǔn)確性,項目組依據(jù)語義標(biāo)注手冊開發(fā)了一款賦碼工具。賦碼工具將不同語義層級對應(yīng)為不同的節(jié)點。一級語義層級對應(yīng)節(jié)點I;其他語義層級依次類推。賦碼之后的文件樣例如下:【標(biāo)注文件I】<P>脊柱<構(gòu)件> 構(gòu)成<關(guān)系>人體<構(gòu)件> 的<虛詞> 中軸<構(gòu)件>……<st>。

    分層標(biāo)注語料庫,拆分語義節(jié)點,形成相對獨立的語義節(jié)點集合。每個集合只有各自的成員。如一級標(biāo)注符由人、構(gòu)件、疾病、藥物等節(jié)點構(gòu)成。一級標(biāo)注符疾病下包含了與疾病相關(guān)的全部二級標(biāo)注符,如種類、癥狀、療法等。不同級別的標(biāo)注符分別存儲至不同文件夾。進(jìn)行語義賦碼時,需注意以下幾點。

    1)降低語料庫開發(fā)人員對標(biāo)注體系的影響。李文中[5]指出,實施賦碼的人員不僅需要良好的語言直覺,還需要經(jīng)過嚴(yán)格的訓(xùn)練和實踐。聞永毅、樊新榮指出,語料庫開發(fā)人員的主觀意識會反映于語料庫的標(biāo)注體系,影響語料庫的使用價值和適用范圍。我們讓3 位具有中醫(yī)背景的碩士研究生分別進(jìn)行標(biāo)注,對有爭議的標(biāo)注進(jìn)行協(xié)商討論形成一致結(jié)果,以確保語料庫標(biāo)注的客觀性。

    2)注意語義標(biāo)注符數(shù)量對語料庫的影響。國內(nèi)外大部分學(xué)者認(rèn)為,語料庫的標(biāo)注為語料庫的有效使用提供了基礎(chǔ)。語料標(biāo)注的信息越詳細(xì),語料庫能提供的信息越多(Leech[6],1997a:2;Hunston[7]2002:79)。Sinclair[8]認(rèn)為,語料庫不應(yīng)使用過多的語義標(biāo)注符。語義標(biāo)注符過多將對語料庫標(biāo)注、校對、維護(hù)等造成負(fù)擔(dān)。因此,本項目的語義標(biāo)注符絕大多限制在四級,極少數(shù)有五級。

    (3)語料庫的檢索。檢索是語料庫的基本功能。《脊柱相關(guān)疾病》中文語料庫直接使用Wordsmith8.0 提供的檢索功能,因為該軟件能提供更多的數(shù)據(jù)類型和統(tǒng)計結(jié)果。此外,《脊柱相關(guān)疾病》經(jīng)過賦碼后的語料雖然根據(jù)標(biāo)注符號的級別存儲在不同的文件夾,但是因為其初始文件都是同一個經(jīng)過分詞處理的文件,故能實現(xiàn)一個檢索平臺可檢索各級庫文件的要求。

    2.2《脊柱相關(guān)疾病》[9]中英文雙語平行語料庫的建立

    《脊柱相關(guān)疾病》中英雙語平行語料庫的建立主要是為學(xué)者們進(jìn)行中醫(yī)醫(yī)學(xué)著作的中英文術(shù)語、語法等的對比研究奠定基礎(chǔ);為譯員中醫(yī)醫(yī)學(xué)著作的翻譯提供中英對譯的術(shù)語和句子,以期減少譯員的工作量,提高他們的工作效率和我國中醫(yī)藥外宣材料的翻譯質(zhì)量,向世界講好中國故事。

    我們運用了Tmxmall 在線對齊工具來構(gòu)建中英雙語平行語料庫。我們選擇該線上對齊工具原因有兩個:一是Tmxmall 的交互界面操作簡單;二是它可以自動對齊原文及譯文語料。在很大程度上減少人工干預(yù)的工作量,提高工作效率。操作步驟如下。

    (1)進(jìn)入Tmxmall 在線對齊頁面,注冊賬號后登錄。

    (2)選擇語言對,導(dǎo)入經(jīng)過初步處理的《脊柱相關(guān)疾病》的中英文對應(yīng)文檔。并通過 “上移”“下移”“合并”“拆分”等操作調(diào)整雙語文檔,使雙語文檔段落數(shù)一致。 這步需人工進(jìn)行。除了在Tmxmall 在線對齊頁面調(diào)整雙語文檔段落,也可在上傳文檔前就將中英文雙語文檔段落數(shù)調(diào)整一致。為了提高效率,本項目將中英文對應(yīng)的文檔分成5 份,由5 名英語專業(yè)本科生分別將各自負(fù)責(zé)的雙語文檔段落調(diào)整一致后,分別儲存為中文文檔和英文文檔,由兩名項目組成員檢查后,整合上傳Tmxmall 在線對齊頁面。

    (3)段落對齊后,單擊頁面左上角的“對齊”, 系統(tǒng)會自動進(jìn)行中英文語句對齊。

    (4)為了確保中英文文件對齊的準(zhǔn)確性,系統(tǒng)自動對齊后,我們依據(jù)句級對齊原則對系統(tǒng)生成的文本對齊文件進(jìn)行了人工核對和調(diào)整,最后將核對后的語料導(dǎo)出tmx格式的文檔。

    此外,我們還運用Tmxmall 在線對齊系統(tǒng)提供的術(shù)語提取功能對編輯好的中英文對齊語料進(jìn)行術(shù)語提取,導(dǎo)出Excel 文檔和統(tǒng)計術(shù)語詞頻。將術(shù)語提取詞頻設(shè)置為3,也就是將在中英文對齊語料中出現(xiàn)頻次大于等于3 次的詞作為高頻詞進(jìn)行提取。而且系統(tǒng)提取的部分術(shù)語并不是嚴(yán)格意義的術(shù)語,還需對系統(tǒng)提取的術(shù)語進(jìn)行了人工篩選和調(diào)整。最終形成《脊柱相關(guān)疾病》中英文對齊語料和中英文術(shù)語表。

    3.結(jié)語

    本項目的兩個語料庫均是為提高中醫(yī)外宣翻譯質(zhì)量和翻譯教學(xué)質(zhì)量服務(wù)的,但側(cè)重點不同。大部分從事中醫(yī)外宣翻譯的譯者、從事中醫(yī)翻譯教學(xué)的教師并不具備中醫(yī)背景,中文語料庫的建立是可幫助他們更好地檢索原文,獲取原文的基本信息,更好地研究原文、理解原文。中英文平行語料庫的構(gòu)建可助力教師、學(xué)者的教學(xué)科研。他們可運用《脊柱相關(guān)疾病》中英雙語平行語料庫的檢索功能獲取需要的數(shù)據(jù)類型和統(tǒng)計,分析單詞、詞組、句式的運用,總結(jié)中醫(yī)外宣材料翻譯適用的翻譯策略、方法,譯者風(fēng)格等,并為中醫(yī)雙語詞典的編撰提供參考。此外,也可將《脊柱相關(guān)疾病》的中英文對齊資料導(dǎo)入計算機(jī)輔助翻譯軟件,運用翻譯記憶為譯者提供句對檢索、術(shù)語檢索,從而最大程度地實現(xiàn)翻譯風(fēng)格的統(tǒng)一,提高翻譯效率,保證翻譯質(zhì)量,降低校對成本。同時也可運用于計算機(jī)輔助翻譯相關(guān)課程中,幫助學(xué)生構(gòu)建自己的語料記憶庫,掌握計算機(jī)輔助翻譯技術(shù)。這兩個語料庫的構(gòu)建集語義學(xué)、語料庫語言學(xué)、計算機(jī)技術(shù)等多個領(lǐng)域知識于一體。其嚴(yán)謹(jǐn)?shù)臉?biāo)注、語義分級、賦碼過程必能為中醫(yī)文獻(xiàn)外宣材料的翻譯提供有效的幫助。

    猜你喜歡
    賦碼分詞中英文
    基于實物“ID”的變電站整站賦碼管控系統(tǒng)及方法研究
    吉林電力(2022年2期)2022-11-10 09:24:38
    《古脊椎動物學(xué)報(中英文)》編委會
    第35卷(2020年)A輯中英文總目次
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    值得重視的分詞的特殊用法
    APPITA 2015年第2期中英文摘要
    中國造紙(2016年3期)2016-04-19 08:29:58
    煙包二維碼賦碼離線還是凹印在線?
    中短單,我們選擇小盒賦碼
    APPITA 2013年第4期中英文摘要
    中國造紙(2014年1期)2014-03-01 02:10:04
    嬰幼兒奶粉監(jiān)管新政引發(fā)賦碼技術(shù)熱潮
    德江县| 博罗县| 红原县| 句容市| 仁寿县| 承德县| 昭通市| 玛曲县| 眉山市| 玉田县| 三都| 望谟县| 礼泉县| 禹州市| 松阳县| 嵊泗县| 政和县| 富蕴县| 招远市| 兰州市| 西丰县| 镇江市| 涟源市| 黄石市| 珲春市| 大姚县| 花莲县| 顺昌县| 昌黎县| 灵山县| 淮阳县| 武义县| 丹寨县| 平陆县| 金华市| 兰考县| 车致| 平遥县| 长寿区| 绿春县| 辽源市|