• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    專業(yè)領(lǐng)域技術(shù)性英文詞匯識(shí)別的多方法對(duì)比

    2014-09-08 06:49:24崔維霞王均松
    中國(guó)科技術(shù)語(yǔ) 2014年4期
    關(guān)鍵詞:主題詞詞典語(yǔ)料庫(kù)

    崔維霞 王均松

    (1.西安外國(guó)語(yǔ)大學(xué),陜西西安 710061; 2. 西北工業(yè)大學(xué),陜西西安 710129)

    專業(yè)領(lǐng)域技術(shù)性英文詞匯識(shí)別的多方法對(duì)比

    崔維霞1王均松2

    (1.西安外國(guó)語(yǔ)大學(xué),陜西西安 710061; 2. 西北工業(yè)大學(xué),陜西西安 710129)

    以航空英語(yǔ)為例,采用信息檢索領(lǐng)域常用的準(zhǔn)確率、召回率等指標(biāo)對(duì)四種常用的專業(yè)技術(shù)詞匯識(shí)別方法(使用專業(yè)詞典、借助語(yǔ)境線索、分類排除法和主題詞分析法)的識(shí)別有效性進(jìn)行評(píng)估。結(jié)果顯示,上述幾種方法的平均識(shí)別率均不高,完全依靠某一種方法來(lái)識(shí)別專業(yè)技術(shù)詞匯不可避免地存在不足或缺陷,建議開(kāi)展多方法相結(jié)合的綜合研究。

    專業(yè)技術(shù)詞匯,專門用途英語(yǔ),識(shí)別方法

    引 言

    專業(yè)技術(shù)詞匯(technical vocabulary),顧名思義,是指與特定學(xué)科或領(lǐng)域密切相關(guān)的專業(yè)用詞。這類詞匯具有顯著的學(xué)科特異性,頻繁出現(xiàn)在所屬專業(yè)領(lǐng)域內(nèi),意義相對(duì)固定。近年來(lái),隨著科技的迅猛發(fā)展和全球科技信息交流需求的增長(zhǎng), 對(duì)科技領(lǐng)域內(nèi)英語(yǔ)詞匯使用的研究也得到極大的發(fā)展。然而,在以往的研究中,專業(yè)技術(shù)詞匯的重要性往往被低估甚至是忽視??伎怂鼓?Coxhead)曾指出,專業(yè)技術(shù)詞匯通常只構(gòu)成學(xué)術(shù)性文章中約5%的行文文字[1]。但在鐘和內(nèi)申(Chung and Nation)的研究中卻發(fā)現(xiàn)無(wú)論是在解剖學(xué) (31.2%) 還是應(yīng)用語(yǔ)言學(xué)文本中(20.6%),專業(yè)技術(shù)詞匯所占的比例遠(yuǎn)遠(yuǎn)高于先前的估計(jì)[2]。此外,大多數(shù)詞匯方面的研究都集中于高頻詞匯和學(xué)術(shù)性詞匯,專業(yè)技術(shù)詞匯方面的文獻(xiàn)則乏陳可述,國(guó)內(nèi)更是鮮有此類研究。由于缺乏統(tǒng)一的標(biāo)準(zhǔn)和科學(xué)有效的識(shí)別方法,人們對(duì)于該類詞匯知之甚少。事實(shí)上,專業(yè)技術(shù)詞匯無(wú)論是對(duì)于專門用途英語(yǔ)教學(xué)、專門用途英語(yǔ)教材設(shè)計(jì)還是專業(yè)外語(yǔ)詞典編纂都具有極為重要的意義,應(yīng)當(dāng)引起廣泛的關(guān)注。

    一 專業(yè)技術(shù)詞匯的識(shí)別方法

    從20世紀(jì)80年代開(kāi)始,國(guó)外很多專家和學(xué)者就在專業(yè)技術(shù)詞匯識(shí)別方面展開(kāi)了積極的探索。目前,學(xué)界主流的識(shí)別方法有以下幾種:使用專業(yè)詞典[3-4];依賴文本中提供的語(yǔ)境線索[5-7];詞匯分類法[1,8]和主題詞分析法[9-10]。

    識(shí)別專業(yè)技術(shù)詞匯最常用的方法就是查閱專業(yè)詞典。由于專業(yè)詞典只收錄??菩哉Z(yǔ)詞,包括專門術(shù)語(yǔ)和專有名詞,因此可以看作是特定學(xué)科或?qū)I(yè)的技術(shù)性詞匯的集合。而判斷某個(gè)詞是否屬于專業(yè)技術(shù)詞匯,最直接的方法就是看該詞是否出現(xiàn)在專業(yè)詞典中,如果出現(xiàn)在該領(lǐng)域的專業(yè)詞典中就被認(rèn)定為專業(yè)技術(shù)詞匯,否則為非專業(yè)技術(shù)詞匯。但需要注意的是,有的詞雖然出現(xiàn)在專業(yè)詞典的詞條位置,但卻是某個(gè)多詞短語(yǔ)不可分割的組成部分,因此不能被認(rèn)定屬于專業(yè)技術(shù)詞匯。此外,各個(gè)專業(yè)領(lǐng)域都至少存在一本甚至是多本專業(yè)詞典,但并不是每一本詞典都能滿足和適合當(dāng)前研究的需要。由于面向的讀者對(duì)象不同,收詞立目的原則也各不相同。比如,有的專業(yè)詞典的使用對(duì)象為本學(xué)科領(lǐng)域內(nèi)能夠使用外語(yǔ)的內(nèi)行讀者和專業(yè)翻譯人員,因此只收錄那些很專、很細(xì)的術(shù)語(yǔ);而有的專業(yè)詞典讀者對(duì)象十分寬泛,從實(shí)用的角度出發(fā),詞典編纂者在收錄??圃~匯的同時(shí),通常會(huì)酌收部分普通詞匯。鐘和內(nèi)申(Chung and Nation)[11]曾指出,“最大的詞典不一定是最好的選擇,因?yàn)榇蟮脑~典往往包括了很多非專業(yè)技術(shù)詞匯”。所以詞典的選擇對(duì)于專業(yè)技術(shù)詞匯識(shí)別準(zhǔn)確率至關(guān)重要,在選擇時(shí)應(yīng)充分考慮其能否覆蓋所研究領(lǐng)域的專業(yè)技術(shù)詞匯,收詞量大小是否合適,更新與否,以及是否存在英式英語(yǔ)或美式英語(yǔ)之偏好等等。

    2.借助語(yǔ)境線索

    在科技文本中,當(dāng)專業(yè)技術(shù)詞匯首次出現(xiàn)時(shí),作者通常會(huì)利用各種語(yǔ)境線索對(duì)其進(jìn)行標(biāo)識(shí)。借助這些語(yǔ)境線索可以快速、準(zhǔn)確地識(shí)別文本中的專業(yè)技術(shù)詞匯。常見(jiàn)的語(yǔ)境線索可以分為以下幾種:第一種是采取隱含下定義的方式,通常借用一些詞或短語(yǔ),如“referred to as”“known as”“namely”“be called”等引出專業(yè)技術(shù)詞匯。例如:The design process starts by considering the forces that act on the aircraft,namely, lift, drag, thrust, and weight。第二種是借助于印刷格式上的線索,例如粗體、斜體和括號(hào)等標(biāo)記。 如Propulsion,Takeoff, angle of attack (AOA)等。第三種則是利用圖表或插圖中的標(biāo)簽。在科技文本中,為了闡釋某個(gè)概念或原理,通常會(huì)使用大量的圖表或插圖,其中的專業(yè)技術(shù)詞匯或術(shù)語(yǔ)往往會(huì)有明確的標(biāo)識(shí)。然而,在借助線索識(shí)別專業(yè)技術(shù)詞匯的具體操作中仍然存在不少困難。首先,下定義的形式多種多樣,某些形式上不很規(guī)范的定義很難識(shí)別。其次,印刷上的形式標(biāo)記功能不僅僅局限于突顯專業(yè)技術(shù)詞匯,也就是說(shuō)并非所有的粗體或斜體詞匯都是專業(yè)技術(shù)詞匯。此外,圖表和插圖中的標(biāo)簽文字包括了很多的功能詞及其他,需要進(jìn)行仔細(xì)的篩選和識(shí)別。

    3.分類排除法

    內(nèi)申把英語(yǔ)詞匯分為四類:高頻詞匯(high frequency words)、專業(yè)技術(shù)詞匯(technical words)、學(xué)術(shù)性詞匯(academic words)和低頻詞匯(low frequency words)。高頻詞匯指的是在所有文體中都頻繁使用的基礎(chǔ)核心詞匯;專業(yè)技術(shù)詞匯是指在專業(yè)文本或特定學(xué)科領(lǐng)域內(nèi)使用的術(shù)語(yǔ);學(xué)術(shù)性詞匯介于高頻詞匯和專業(yè)技術(shù)性詞匯之間,也稱半技術(shù)性詞匯(sub-technical words),這類詞匯在文學(xué)性文體中出現(xiàn)的頻率很低,但卻頻繁出現(xiàn)在各個(gè)領(lǐng)域的學(xué)術(shù)性文本中;而低頻詞泛指上述三類詞匯以外的所有詞匯,包括其他學(xué)科領(lǐng)域的專業(yè)技術(shù)詞匯、專有名詞、次高頻詞匯以及語(yǔ)言中使用頻率很低的詞語(yǔ)。內(nèi)申對(duì)英語(yǔ)詞匯的分類為利用詞頻分析軟件Range進(jìn)行專業(yè)技術(shù)詞匯識(shí)別提供了理論基礎(chǔ),通過(guò)排除其他三類詞匯就可以得到專業(yè)技術(shù)詞匯。Range 是可用于分析文本中詞匯深度和廣度的計(jì)算機(jī)軟件,該軟件包含三級(jí)詞匯底表,前兩個(gè)詞表包含2 000個(gè)詞族,源自韋斯特(West)所編的《通用英語(yǔ)詞表》[12](AGeneralServiceListofEnglishWords),即所謂的高頻詞。第三個(gè)詞表包含570個(gè)詞族,源自Coxhead的《學(xué)術(shù)英語(yǔ)詞表》[1](AcademicWordList),即所謂的學(xué)術(shù)詞匯。將以上三個(gè)詞表作為基礎(chǔ)詞表,使用Range軟件對(duì)專業(yè)文本進(jìn)行詞匯自動(dòng)評(píng)估便可以得到篩選后的專業(yè)技術(shù)詞匯。

    4.主題詞分析法

    在統(tǒng)計(jì)主題詞時(shí)采用卡方檢驗(yàn)必須滿足兩個(gè)條件:首先,使用的觀察語(yǔ)料庫(kù)要足夠大,只有樣本空間足夠大才可以為主題詞提供充足的出現(xiàn)機(jī)會(huì),從而最大程度減少低頻事件概率對(duì)統(tǒng)計(jì)結(jié)果的影響。其次,進(jìn)行主題詞統(tǒng)計(jì)的前提是參照語(yǔ)料庫(kù)(文本)在總量上要大于觀察語(yǔ)料庫(kù)(文本)。許家金曾引用托尼·柏柏爾·薩丁拾(Tony Berber-Sardinha)的觀點(diǎn)認(rèn)為參照語(yǔ)料庫(kù)比觀察語(yǔ)料庫(kù)大5倍就可以滿足需要,參照語(yǔ)料庫(kù)需要達(dá)到一定的規(guī)模,才可以得到足夠豐富的主題詞[14]。此外,參照語(yǔ)料庫(kù)的選擇取決于研究目的,研究目的不同,語(yǔ)料庫(kù)的選擇也不同,但要排除其中與觀察語(yǔ)料具有相同主題的文本。

    黑米屬于糯米類,是我國(guó)古老的珍貴稻種,屬于藥食同源稻米。黑米富含特有的營(yíng)養(yǎng)與功能因子,具有調(diào)節(jié)人體生理功能的作用,素有“黑珍珠”和“世界米中之王”的美譽(yù),是一種有很大開(kāi)發(fā)潛力的黑色食品資源。

    二 研究設(shè)計(jì)

    1.研究問(wèn)題

    本研究試圖回答下列兩個(gè)問(wèn)題:(1)使用專業(yè)詞典、借助語(yǔ)境線索、分類排除法以及主題詞分析法在專業(yè)技術(shù)詞匯識(shí)別方面各自有哪些優(yōu)勢(shì)和不足。(2)以上四種方法中,哪一種是最理想的識(shí)別方法。

    2.語(yǔ)料來(lái)源及預(yù)處理

    研究中使用的文本材料取自美國(guó)航空航天研究所教育系列叢書(shū)《飛行器引擎設(shè)計(jì)》(AIAAEducationSeries)第二版,第2章“Constraint Analysis”,共3 053詞次。首先對(duì)所選語(yǔ)料進(jìn)行預(yù)處理,清理其中不合規(guī)范的符號(hào)、格式以及拼寫(xiě)錯(cuò)誤。然后對(duì)文本進(jìn)行詞形還原(lemmatization)處理,還原之后文本中所有的詞被其原形所替代。在本研究中,詞項(xiàng)①(lemma)被確定為詞頻統(tǒng)計(jì)單位。

    3.研究方法

    本研究采用定性與定量相結(jié)合的方法,以人工標(biāo)注專業(yè)技術(shù)詞匯的結(jié)果為標(biāo)準(zhǔn),對(duì)以上四種常見(jiàn)的識(shí)別方法進(jìn)行比較,并對(duì)其準(zhǔn)確率和效度做出評(píng)估。為評(píng)價(jià)不同方法的專業(yè)技術(shù)詞匯識(shí)別性能, 這里引入三個(gè)通用的測(cè)評(píng)指標(biāo),即準(zhǔn)確率(Precision Rate)、召回率(Recall Rate)和F值(F-score)。準(zhǔn)確率和召回率是廣泛用于信息檢索領(lǐng)域的兩個(gè)度量值,用來(lái)評(píng)價(jià)統(tǒng)計(jì)結(jié)果的質(zhì)量。其中準(zhǔn)確率衡量的是識(shí)別方法的查準(zhǔn)率;召回率衡量的是識(shí)別方法的查全率。準(zhǔn)確率和召回率是相互制約的,一般情況下,準(zhǔn)確率高、召回率就低,召回率高、準(zhǔn)確率就低。為了能夠綜合地衡量各種方法的識(shí)別性能,避免僅比較準(zhǔn)確率和召回率的片面性,本研究引入了二者的均值F值作為性能評(píng)價(jià)的重要指標(biāo)。具體定義下:

    4.數(shù)據(jù)統(tǒng)計(jì)

    首先,采取人工標(biāo)注的方法識(shí)別觀察文本中的專業(yè)技術(shù)詞匯,并將統(tǒng)計(jì)結(jié)果作為評(píng)估的參照標(biāo)準(zhǔn)。本研究借鑒鐘和內(nèi)申實(shí)驗(yàn)中使用四級(jí)檢選量表(4-point scale)的做法[2],根據(jù)詞匯的語(yǔ)境意義與航空領(lǐng)域的語(yǔ)義相關(guān)度,將詞匯劃分為相關(guān)性由弱到強(qiáng)的四個(gè)等級(jí)。其中,一級(jí)和二級(jí)詞匯意義與該領(lǐng)域的相關(guān)性較弱,被認(rèn)為是非專業(yè)技術(shù)詞匯;而三級(jí)和四級(jí)詞匯相關(guān)性較強(qiáng)被認(rèn)為是專業(yè)技術(shù)詞匯。通過(guò)篩選和識(shí)別,共獲得專業(yè)技術(shù)詞匯73個(gè),其中包括與航空領(lǐng)域密切相關(guān)的三級(jí)詞匯53個(gè)(aerodynam-ic,constraint,drag,etc.),和航空領(lǐng)域獨(dú)有的四級(jí)詞匯20個(gè) (airfoil,afterburner,fuselage,etc.)。

    至于使用專業(yè)詞典,實(shí)驗(yàn)中采用了英國(guó)A&C Black 圖書(shū)公司出版的《航空英語(yǔ)詞典》(DictionaryofAviation)第二版,該詞典收錄了5 500多個(gè)詞條,涵蓋了航空領(lǐng)域各個(gè)學(xué)科門類中的通用技術(shù)詞匯,而且定期更新,是航空專業(yè)科技人員使用和學(xué)習(xí)的常備工具書(shū)。經(jīng)過(guò)與專業(yè)詞典比對(duì),共獲取候選詞匯359個(gè),其中正確識(shí)別的專業(yè)技術(shù)詞匯有59個(gè),準(zhǔn)確率為16.43%,召回率為80.82%,F(xiàn)值為27.31%。借助語(yǔ)境線索共識(shí)別85個(gè)候選詞匯,包括26個(gè)帶有定義標(biāo)記的詞匯,46個(gè)帶有印刷標(biāo)記的詞匯以及13個(gè)出現(xiàn)在圖表和插圖中的標(biāo)簽詞匯。其中正確識(shí)別的專業(yè)技術(shù)詞匯有41個(gè),識(shí)別準(zhǔn)確率為48.24%,召回率為56.16%,F(xiàn)值為51.90%。在分類排除法中,使用詞頻分析軟件Range對(duì)觀察文本進(jìn)行統(tǒng)計(jì)分析,結(jié)果顯示,通過(guò)該方法共識(shí)別168個(gè)專業(yè)技術(shù)詞匯,其中正確識(shí)別的專業(yè)技術(shù)詞匯有46個(gè),識(shí)別準(zhǔn)確率為27.38%,召回率為63.01%,F(xiàn)值為38.17%。而主題詞分析法以英國(guó)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)(BAWE)[15]為參照語(yǔ)料庫(kù),使用wordsmith3.0的詞表功能,分別創(chuàng)建航空英語(yǔ)詞表和英國(guó)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)詞表,然后對(duì)兩個(gè)詞表進(jìn)行對(duì)比,通過(guò)卡方檢驗(yàn)共篩選出候選詞匯178個(gè)。其中正確識(shí)別的專業(yè)的詞匯有57個(gè),準(zhǔn)確率為32.02%,召回率為78.08%,F(xiàn)值為45.45%(詳見(jiàn)表1)。

    表1 識(shí)別方法評(píng)估

    三 結(jié)果與討論

    在以上幾種方法中,使用專業(yè)詞典識(shí)別專業(yè)技術(shù)詞匯的召回率在幾種方法中是最高的,達(dá)到了80.82%,也就是說(shuō)通過(guò)這種方法可以最大限度地識(shí)別文本中的專業(yè)技術(shù)詞匯,遺漏的情況比較少。但是這種方法的準(zhǔn)確率卻是幾種方法中最低的,僅有16.43%,這就極大地影響了該方法識(shí)別率的平均值(27.31%),這主要是因?yàn)楹芏嘣~典從使用者的角度出發(fā)將很多的跨領(lǐng)域技術(shù)詞匯和功能詞匯收錄其中。此外,使用專業(yè)詞典在實(shí)際操作中不可避免的一個(gè)問(wèn)題就在于選用不同的專業(yè)詞典,識(shí)別結(jié)果往往差別很大。因此,詞典的選擇對(duì)于研究結(jié)果影響非常大。

    借助語(yǔ)境線索在專業(yè)技術(shù)詞匯識(shí)別方面的準(zhǔn)確率達(dá)到48.24%,遠(yuǎn)遠(yuǎn)高于其他幾種方式,但是其召回率卻比較低,僅有56.16%,盡管這種方法的平均準(zhǔn)確率(51.90%)差強(qiáng)人意,但由于其遺漏的專業(yè)技術(shù)詞匯較多,不能看作是一種理想的識(shí)別方法。此外,在具體的操作過(guò)程中,一方面很多語(yǔ)境線索由于印刷格式或形式上的問(wèn)題難以識(shí)別;另一方面,根據(jù)不同類別線索識(shí)別的詞匯往往出現(xiàn)重復(fù),這就增加了篩選工作的難度,同時(shí)也在一定程度上影響了識(shí)別的效率。

    相對(duì)于使用專業(yè)詞典和借助語(yǔ)境線索,分類排除法操作簡(jiǎn)單,可行性強(qiáng)。研究人員只需在統(tǒng)計(jì)結(jié)果中排除高頻詞匯和學(xué)術(shù)性詞匯,即可獲得包含少量低頻詞匯的專業(yè)技術(shù)詞匯。而且,在詞匯分布軟件Range的輔助下,可以對(duì)文本進(jìn)行批量處理,很大程度上減輕了逐個(gè)判別專業(yè)技術(shù)詞匯的負(fù)擔(dān)。但是這種方法存在很大的局限性,由于部分高頻詞匯和學(xué)術(shù)詞匯存在一詞多義和一詞多類的現(xiàn)象,在特定的專業(yè)領(lǐng)域里會(huì)具有特殊的含義,從而轉(zhuǎn)變?yōu)樵擃I(lǐng)域的專業(yè)技術(shù)詞匯。例如load在一般的用法中意為“裝載”,但在航空領(lǐng)域有其特殊的意義“負(fù)荷”。在等級(jí)量表中該詞被評(píng)定為航空專業(yè)技術(shù)詞匯,但在篩選過(guò)程中它作為高頻詞匯被排除在航空專業(yè)技術(shù)詞匯之外,這就使得專業(yè)技術(shù)詞匯的召回率較低(63.01%)。此外,篩選后得到的專業(yè)詞表中還包括了低頻詞匯,盡管數(shù)量很少,但也在一定程度上降低了該方法的準(zhǔn)確率(27.38%),因此該方法的平均識(shí)別率也偏低(38.17%)。

    主題詞分析法在專業(yè)技術(shù)詞匯查全方面的性能僅次于使用專業(yè)詞典,召回率高達(dá)78.08%,而在查準(zhǔn)率方面則稍稍遜色,準(zhǔn)確率為32.02%,F(xiàn)值為45.45%。而且該方法易于操作,在計(jì)算機(jī)軟件wordsmith的輔助下可以同時(shí)處理上百個(gè)文本,處理速度遠(yuǎn)遠(yuǎn)超過(guò)了其他方法。目前,這種方法技術(shù)上還不夠完善,準(zhǔn)確率還有待提高。首先,基于詞頻對(duì)比的方法無(wú)法區(qū)分專業(yè)技術(shù)詞匯與其搭配詞,如constraint analysis在文本中反復(fù)出現(xiàn),其中constraint是專業(yè)技術(shù)詞匯,而analysis是非專業(yè)技術(shù)詞匯。但由于analysis作為專業(yè)技術(shù)詞匯的搭配詞在文本中的復(fù)現(xiàn)頻率超高,因此也被錯(cuò)誤地歸為專業(yè)技術(shù)詞匯。其次,在科技文本中廣泛存在的某些語(yǔ)言形式,如含連字符的詞(Air-to-Air)、專有名詞(MIG-31)以及具有固定意義的特殊符號(hào)(/)在識(shí)別的過(guò)程中往往被忽略或遺漏。

    綜合以上的討論可以發(fā)現(xiàn),幾種方法的平均識(shí)別率都不高,而且各自存在明顯的優(yōu)勢(shì)和不足,很難指出哪一種是最理想的識(shí)別方式。事實(shí)上,完全依靠某一種方法來(lái)識(shí)別專業(yè)技術(shù)詞匯不可避免地存在不足或缺陷。在本研究中,平均值較高的兩種方式分別是基于語(yǔ)言規(guī)則的借助語(yǔ)境線索和基于頻率統(tǒng)計(jì)的主題詞分析法。雖然借助語(yǔ)境線索平均識(shí)別率最高,但是該方法最大的缺陷在于其召回率非常低,而且采用人工識(shí)別的方式非常耗時(shí),尤其是在文本量較大的情況下,效率低下。主題詞分析的方法通過(guò)比較不同語(yǔ)料庫(kù)間詞頻差異的方式識(shí)別專業(yè)技術(shù)詞匯,大部分的工作可以通過(guò)計(jì)算機(jī)輔助的方法短時(shí)間內(nèi)完成。它能夠最大程度地減輕篩選負(fù)擔(dān),降低識(shí)別難度,提高識(shí)別效率,這標(biāo)志著基于計(jì)算機(jī)輔助的方法在專業(yè)技術(shù)詞匯識(shí)別及自動(dòng)提取方面已經(jīng)取得了重大突破和進(jìn)步。但是,必須承認(rèn),純粹基于統(tǒng)計(jì)的方法在專業(yè)技術(shù)詞匯提取上效果并不理想,尤其是其準(zhǔn)確率還不高,統(tǒng)計(jì)結(jié)果最終需要依賴專業(yè)人員根據(jù)學(xué)科知識(shí)和經(jīng)驗(yàn)做進(jìn)一步的判斷。因此,在專業(yè)技術(shù)詞匯識(shí)別中,建議將基于語(yǔ)言規(guī)則的借助語(yǔ)境線索法和基于統(tǒng)計(jì)的主題詞分析法相結(jié)合,對(duì)語(yǔ)境線索中的語(yǔ)言規(guī)則進(jìn)行抽象并應(yīng)用于專業(yè)技術(shù)詞匯的初步篩選,然后再進(jìn)行詞頻對(duì)比,從而提高專業(yè)技術(shù)詞匯識(shí)別的效率和準(zhǔn)確率,這在很大程度上也為未來(lái)的研究提供了思路和可以借鑒的方法。

    四 結(jié) 語(yǔ)

    隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展和科學(xué)技術(shù)的不斷進(jìn)步, 人類社會(huì)對(duì)反映科技現(xiàn)狀和發(fā)展動(dòng)態(tài)的專業(yè)技術(shù)詞匯需求劇增, 專業(yè)技術(shù)詞匯識(shí)別有重要的理論價(jià)值和現(xiàn)實(shí)意義。本文首先對(duì)幾種常見(jiàn)專業(yè)技術(shù)詞匯識(shí)別方法的原理進(jìn)行了介紹,然后分別使用這些方法對(duì)航空領(lǐng)域文本中的專業(yè)技術(shù)詞匯進(jìn)行識(shí)別,并利用信息檢索領(lǐng)域常用的準(zhǔn)確率、召回率等指標(biāo)對(duì)其識(shí)別有效性進(jìn)行評(píng)估。評(píng)估結(jié)果顯示,上述幾種方法的平均識(shí)別率均不高,完全依靠某一種方法來(lái)識(shí)別專業(yè)技術(shù)詞匯不可避免地存在不足或缺陷,建議采取借助語(yǔ)境線索和主題詞分析相結(jié)合的方式,在進(jìn)行詞頻統(tǒng)計(jì)的基礎(chǔ)上引入語(yǔ)言規(guī)則,從而改善和提高專業(yè)技術(shù)詞匯識(shí)別的效率和準(zhǔn)確率。此外,隨著科學(xué)技術(shù)的進(jìn)步,專業(yè)技術(shù)詞匯的識(shí)別需要從原來(lái)主要以手工識(shí)別的方式轉(zhuǎn)變?yōu)橛?jì)算機(jī)輔助的自動(dòng)識(shí)別,識(shí)別的對(duì)象也需要從單詞擴(kuò)展到多詞短語(yǔ)。到目前為止,國(guó)內(nèi)在專業(yè)技術(shù)詞匯識(shí)別和提取方面的理論研究還不是很成熟,由于缺乏一個(gè)完整的評(píng)價(jià)系統(tǒng),對(duì)實(shí)驗(yàn)結(jié)果無(wú)法做統(tǒng)一的評(píng)測(cè),造成了很多重復(fù)性的工作,這很不利于學(xué)科的發(fā)展。所以,建立一個(gè)開(kāi)放、完整的評(píng)價(jià)體系是當(dāng)前亟須解決的一個(gè)問(wèn)題。

    注釋

    ①詞項(xiàng)是由一個(gè)基礎(chǔ)詞(base word)與它的詞類相同的曲折形式 (inflected forms) 構(gòu)成的一系列單詞,例如動(dòng)詞access這個(gè)詞項(xiàng)就由基礎(chǔ)詞access和它的曲折形式accesses、accessed、accessing構(gòu)成[8]。

    [1] Coxhead A. A new academic word list [J]. TESOL Quarterly, 2000, 34(2):213-238.

    [2] Chung T M, Nation P. Technical vocabulary in specialized texts [J]. Reading in a Foreign Language, 2003, 15(2):103-116.

    [3] Nation I S P Learning Vocabulary in Another Language [M].Cambridge: Cambridge University Press,2001.

    [4] Oh J,Lee J,Lee K,et al. Japanese term extraction using dictionary hierarchy and a machine translation system [J]. Terminology, 2000(6): 287-311.

    [5] Bramki D, Williams R. Lexical familiarization in economics text, and its pedagogic implications in reading comprehension [J]. Reading in a Foreign Language,1984(2): 169-181.

    [6] Flowerdew J. Definitions in science lectures [J]. Applied Linguistics, 1992(13):202-221.

    [7] Williams R. Lexical familiarization in content area textbooks [C]// Chapman, L. The Reader and the Text. London: Heinemann Educational Books Ltd, 1981:49-59.

    [8] Kwary D A. A hybrid method for determining technical vocabulary [J]. System, 2011(39):175-185.

    [9] Scott M. PC analysis of keywords and key keywords [J]. System 25,1997(2):233-245.

    [10] Anthony L. AntConc: A Learner and Classroom Frien- dly, Multi-Platform Corpus Analysis Toolkit[C]//In proceedings of IWLeL 2004: An Interactive Workshop on Language e-Learning.Tokyo:2004.

    [11] Chung T M,Nation P. Identifying technical vocabulary[J].System,2004(32):251-263.

    [12] West M.General Service List of English Words[M].London: Longman,Green & Co.,1953.

    [13] 李紹山.語(yǔ)言研究中的統(tǒng)計(jì)學(xué)[M]. 西安: 西安交通大學(xué)出版社,2001.

    [14] 梁茂成,李文中,許家金.語(yǔ)料庫(kù)應(yīng)用教程[M].北京:外語(yǔ)教學(xué)與研究出版社,2010.

    [15] Nesi H,Gardner S, Thompson P,et al. British Academic Written English Corpus (BAWE)[DB/OL],2010. http://wwwm.coventry.ac.uk/researchnet/BAWE/Pages/BAWE.aspx

    動(dòng) 態(tài)

    第十二期“出版物規(guī)范應(yīng)用科技名詞培訓(xùn)研討會(huì)”在濟(jì)南舉辦

    2014年6月15—20日,全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)與新聞出版總署教育培訓(xùn)中心在山東省濟(jì)南市聯(lián)合舉辦了第十二期“出版物規(guī)范應(yīng)用科技名詞培訓(xùn)研討會(huì)”。來(lái)自全國(guó)各地55家科技期刊、圖書(shū)出版單位的71名編輯參加了此次培訓(xùn)。培訓(xùn)研討會(huì)在很大范圍內(nèi)宣傳了規(guī)范科學(xué)技術(shù)名詞在新聞出版行業(yè)中的意義,對(duì)科技名詞規(guī)范工作進(jìn)行了比較全面的介紹。

    全國(guó)科技名詞委發(fā)揮自身優(yōu)勢(shì),多位專家授課老師結(jié)合出版專業(yè)實(shí)際,以豐富的科技名詞審定工作經(jīng)驗(yàn),運(yùn)用大量實(shí)例和資料,深入細(xì)致地介紹了科技名詞規(guī)范工作及主要成果,使學(xué)員在提高編輯專業(yè)技能的同時(shí),對(duì)科技名詞規(guī)范工作的重要性有了深刻認(rèn)識(shí),對(duì)科技名詞審定工作的方法與原則有了深入了解,對(duì)科技名詞的實(shí)際應(yīng)用有了更加全面的體會(huì),盡力使學(xué)員成為規(guī)范使用科技名詞的推廣者。研討會(huì)上還特意為學(xué)員們安排了科技名詞實(shí)際應(yīng)用測(cè)試環(huán)節(jié),鞏固學(xué)員們的學(xué)習(xí)成果。

    為提高學(xué)員在日常工作查詢應(yīng)用規(guī)范名詞的便利性,進(jìn)一步增強(qiáng)學(xué)員自覺(jué)應(yīng)用規(guī)范術(shù)語(yǔ)的可操作性與可能性,研討會(huì)還專門為學(xué)員演示如何利用規(guī)范術(shù)語(yǔ)在線查詢平臺(tái)查詢規(guī)范術(shù)語(yǔ),指導(dǎo)學(xué)員如何利用軟件與網(wǎng)絡(luò)技術(shù)進(jìn)行規(guī)范術(shù)語(yǔ)查詢,并將授課講師的課件上傳至網(wǎng)絡(luò),以便學(xué)員進(jìn)行下載,滿足長(zhǎng)期學(xué)習(xí)的需求。

    (郭劍)

    Multiple Methods for Identifying Professional/Technical Vocabularies

    CUI Weixia WANG Junsong

    In this study, five different methods have been used to select the professional/technical words in aeronautical text. The five methods are using rating scale, using clues provided by writers, using technical dictionaries, vocabulary classification and keyword analysis. The author compared the five methods in terms of accuracy, efficiency and practicality, and the evaluation results showed that keyword analysis is based on corpus comparison and considered to be an ideal method but it still has problems, such as failing to separate technical words from their collocates. A hybrid method was proposed for identifying professional/technical vocabulary.

    technical vocabulary, English for special purpose, keyword analysis

    2014-03-31

    本文為陜西省社科基金“基于專業(yè)雙語(yǔ)平行語(yǔ)料庫(kù)的詞典編纂研究”(13K111)、西安外國(guó)語(yǔ)大學(xué)科研基金項(xiàng)目“專門用途英語(yǔ)(ESP)主題詞表的創(chuàng)建及應(yīng)用研究”(11XWB01),以及西北工業(yè)大學(xué)中央高?;究蒲许?xiàng)目(3102014RW0017)的階段性研究成果

    崔維霞 (1979—),女,西安外國(guó)語(yǔ)大學(xué)高職部講師,研究方向?yàn)檎Z(yǔ)料庫(kù)語(yǔ)言學(xué)、專門用途英語(yǔ)教學(xué)。 通信方式:cuiweixia@xisu.edu.cn。

    H083;N04

    A

    1673-8578(2014)04-0014-06

    分析是語(yǔ)料庫(kù)技術(shù)中研究文本內(nèi)容和文本語(yǔ)言特征差異的重要手段。它既是一種文本層面詞語(yǔ)運(yùn)用的統(tǒng)計(jì)方法,也是一種通過(guò)詞語(yǔ)分布概率觀察文本的視角。主題詞是指“頻率顯著高于或顯著低于參照語(yǔ)料庫(kù)中對(duì)應(yīng)詞頻率的那些詞匯”[9]。在科技英語(yǔ)中,技術(shù)性詞匯在專業(yè)文本中的比例要遠(yuǎn)遠(yuǎn)高于其在普通文本中的頻率。主題詞分析即是通過(guò)將詞匯在專業(yè)文本(語(yǔ)料庫(kù))和參照文本(語(yǔ)料庫(kù))中的頻率進(jìn)行對(duì)比,從而將其中差異顯著的主題詞提取出來(lái)。常用的主題詞統(tǒng)計(jì)軟件為wordsmith和antconc,而進(jìn)行頻數(shù)差異檢驗(yàn)的最常用方法是卡方檢驗(yàn)(chi-square或χ2)??ǚ綑z驗(yàn)是“比較實(shí)際次數(shù)與期望次數(shù)之間是否有顯著差異”的檢驗(yàn)[13],屬于非參數(shù)檢驗(yàn)。在詞匯頻次差異研究方面,就是測(cè)定某詞匯的頻次觀測(cè)值O與理論期望值E之間的差異,為此而構(gòu)造的統(tǒng)計(jì)量稱為χ2統(tǒng)計(jì)量,其計(jì)算公式如下:

    猜你喜歡
    主題詞詞典語(yǔ)料庫(kù)
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    米沃什詞典
    文苑(2019年24期)2020-01-06 12:06:50
    評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
    詞典例證翻譯標(biāo)準(zhǔn)探索
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
    我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
    2014年第16卷第1~4期主題詞索引
    《疑難病雜志》2014年第13卷主題詞索引
    内丘县| 建昌县| 黄石市| 阿克陶县| 丹寨县| 从江县| 苍溪县| 吉林省| 调兵山市| 长海县| 建平县| 岳普湖县| 平安县| 林口县| 镇沅| 博乐市| 贡山| 凤翔县| 金塔县| 通海县| 蒙自县| 邛崃市| 吉安市| 汾西县| 综艺| 日喀则市| 屯昌县| 平远县| 枣阳市| 林芝县| 崇礼县| 鹤庆县| 常州市| 柏乡县| 剑阁县| 迭部县| 东山县| 玉溪市| 安西县| 尖扎县| 洮南市|