• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    術語表研制的四個步驟

    2021-04-22 05:32:51劉宇紅殷銘
    中國科技術語 2021年2期
    關鍵詞:英語語言學詞頻語料庫

    劉宇紅 殷銘

    摘 要:在國外學者的詞頻研究方法、語境研究方法和語料對比方法的基礎上,以英語語言學56萬余字的語料為基礎,提出了四個步驟的術語表研制方法,并且歸納出了359個英語語言學術語。這種研究不僅是對英語語言學術語的第一次嘗試性歸納,而且研究方法上的創(chuàng)新可以應用于其他學科的術語研究和術語表的研制。

    關鍵詞:術語表;英語語言學;詞頻;語境;語料庫

    中圖分類法: N04;H083文獻標識碼:ADOI:10.3969/j.issn.1673-8578.2021.02.002

    A Four-Step Building of Glossaries: Case Study of English Linguistic Glossary//LIU Yuhong, YIN Ming

    Abstract: On the basis of the methodologies of Frequency, Context and Corpus Contrast originated outside China and by using a linguistic corpus of over 560 000 words, we put forward a four-step glossary building method and summarized a total of 359 English linguistic terms. This research is the first attempt in English linguistic glossary building while its innovation in research methodology benefits other disciplines in terminology research and glossary building.

    Keywords:glossary; English linguistics; frequency; context; corpus

    引言

    術語表(glossary)是特定學科術語的集合。術語表的質量取決于術語的質量。梁愛林[1]把術語質量的標準概括為六個方面,即清晰性、一致性、得體性、簡潔性、 準確性以及詞的衍生能力;Perinán-Pascual[2]認為突顯性(salience)、關聯(lián)性(relevance)和連貫性(cohesion)決定了術語的質量。要確保術語表的質量,最重要的是從文本中提取術語的方法和程序要合理。一般來說,作為教材附錄的術語表是將教材中出現(xiàn)過的術語按一定的順序排列出來,這不是一件難事,但是要把一個學科的常用術語盡可能全面地遴選出來,代表一個學科的全部的知識體系和研究方法,卻不是一件容易的事。本文以英語語言學為例,將提出一種四步驟的術語表研制方法,并將盡可能全面地歸納出英語語言學的術語。

    1 術語表的研制方法回顧

    國內(nèi)的術語表研究是多側面多角度的,比如葉其松[3]提出“術語編纂”三分說,從廣義、一般概念和狹義三個維度對術語進行論述;鄭述譜和梁愛林[4]對國外術語學研究現(xiàn)狀進行了評介;梁愛林[1]對術語資源的質量評估進行了較全面的探討。偶爾也有學位論文(如陳觀喜[5])對文檔術語表的自動構建方法展開研究,提出了一些較有價值的觀點。

    至于國外的術語表研究,更多地關注術語的產(chǎn)生過程和實施方法,在研究思路上大致可以分為三類。第一類是基于詞頻的方法,第二類是基于上下文語境的方法,第三類是語料對比的方法。這些研究與本文的關系更加密切,所以我們來簡要介紹一下它們的主要觀點和代表性理論,然后評述一下其得失。

    第一類方法的基本思路是:如果一個單詞出現(xiàn)的頻率比較大或者該單詞以固定的搭配形式出現(xiàn)在特定的文本中,那么它在這個領域中成為術語的可能性比較大。

    詞頻方法代表性的理論是TF-IDF[6]。TF(term frequency)指詞頻,即一個詞條在文檔中出現(xiàn)的頻率。IDF(inverse document frequency)指逆向文本詞頻,如果包含某詞條的文檔越少,即IDF 越大,則說明該詞條具有很好的類別區(qū)分能力。C-Value[7]是術語抽取方法中應用較多的理論,在統(tǒng)計詞頻時它要求候選術語不得嵌套在別的術語中,先通過計算候選術語頻率和長度得到一個分值,然后根據(jù)包含該候選術語的更長的候選術語的詞頻來調整該分值。Basic[8]與 C-Value 方法剛好相反,根據(jù)Basic方法抽取的術語可以是其他候選術語的一部分。

    第二類方法是基于上下文語境來區(qū)分術語和非術語。NC-Value[7]是代表性的方法之一,它主張一個特定領域的語料庫中通常有一個“重要”單詞的列表,在這些“重要”單詞語境中出現(xiàn)的候選術語應該被賦予更高的權重。Domain Coherence[9]方法是 NC-Value 的一個改進,它用 Basic 方法抽取最好的 200個術語候選項,然后從它們的上下文中過濾其他詞性的單詞,這個過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動詞和副詞,最后用標準化的Astrakhantsev[9]排序得到前 50個單詞。

    第三類方法是語料對比的方法,基本做法是通過單詞在指定領域語料中的詞頻和其他語料中的詞頻進行比較,將術語與一般的單詞或者短語區(qū)別出來。這類方法主要有Domain Pertinence、Weirdness和Relevance[9]。

    上述三類方法,各有其合理性,下面我們分別進行評述。

    第一類方法基于詞頻來遴選術語,這是最為基礎的操作步驟,但是詞頻方法不能排除高頻的非術語詞組,尤其是包含2~3詞的詞組,它們在各類文體中都具有很高的出現(xiàn)頻率,比如put on和take advantage of這類詞組,總是混跡于通過詞頻遴選出來的術語庫中,而且數(shù)量很大。Biber等人[10]統(tǒng)計發(fā)現(xiàn),在英語口語和書面語中這類詞組分別占30%左右和21%左右。Erman和Warren [11]的統(tǒng)計結果比例更高,認為分別占58.6%和52.3%,所以詞頻方法只能是術語表研制中的步驟之一,而不能成為獨立的術語遴選方法。

    第二類方法是基于語境來區(qū)分術語和非術語,某些“重要”單詞在詞串語境中與其他單詞的共現(xiàn)概率很高,但是詞組作為整體的出現(xiàn)概率不一定高,所以詞組可能被詞頻統(tǒng)計方法所過濾。如果能將詞頻方法和語境方法結合起來,把整體的詞頻數(shù)據(jù)和詞組內(nèi)部各成分的共現(xiàn)概率進行量化,對兩者進行綜合平衡,按一定的比例取值,這樣計算的結果會比單獨考慮詞頻或語境特征更能遴選出合理的術語表。

    第三類方法是進行語料對比,通過同一單詞在不同文體或不同語域的語料中進行頻次比較,在統(tǒng)計術語時,這種方法可以排除高頻日常詞組,比如上文提到的put on和take advantage of等詞組是各種文體和各種語域中的通用詞組,它們不僅整體的詞頻很高,而且內(nèi)部各成分的共現(xiàn)概率也很高,所以第三類方法通過語域排查可以過濾非術語的詞組,但是必須與第一和第二類方法結合起來使用。

    從我們的分析可以看出,三類方法各有其合理性,但是單獨使用時都有一定的缺陷,所以本文擬提出四個步驟的遴選方法,充分利用上述三種方法的優(yōu)勢,同時讓它們揚長避短,優(yōu)勢互補,找到一條適合術語遴選的方法。

    2 術語表研制過程詳解

    本研究以英語語言學的術語提取和術語表制作為例。此研制方法不僅可以為其他學科術語表的研制提供一種示范,其研究結果也可以為英語語言學學科提供可以利用的術語庫,指導英語語言學教材編寫時的術語選用,同時也可以用作教材的附錄,供教材讀者使用。當然,由于語料選擇的有限性和各種參數(shù)在量化精度上的局限性,術語表不可能窮盡一切術語,而且由于學科在不斷發(fā)展之中,術語表也必須隨著時間推移而不斷更新。

    2.1 步驟一:運用詞頻統(tǒng)計方法進行初步篩選

    步驟一運用詞頻統(tǒng)計方法,篩選出候選的術語,是對第一類方法的借鑒和發(fā)揮。

    為了研制英語語言學語域的術語表,我們設計了一個自建語料庫,包括四種語言學著作,并將它命名為Linguistic Academic Corpus(LAC)。四部著作分別是:Bussmann[12]的Routledge Dictionary of Language and Linguistics;Kracht[13]的Introduction to Linguistics;Saussure [14]的Course in General Linguistics;胡壯麟[15]的《語言學教程》(第五版)。Routledge Dictionary of Language and Linguistics是到目前為止詞條最多、聲望較高的語言學詞典,是學界同行最常擁有的工具書,涉及英語語言學的各個子學科,內(nèi)容完整、全面。其他三部都是普通語言學的經(jīng)典教材,它們涉及的術語比較全面,也比較規(guī)范。其中,Introduction to Linguistics是Marcus Kracht根據(jù)自己在UCLA講授普通語言學時的講義編寫的教材,Course in General Linguistics是根據(jù)F. de Saussure在日內(nèi)瓦大學三次講授普通語言學的講義整理出版的遺著,《語言學教程》是國內(nèi)讀者熟悉的普通語言學的經(jīng)典教材,在內(nèi)容和語言的經(jīng)典性方面不遜于國外同類教材。四部著作的形符數(shù)(tokens)為568 138詞,類符數(shù)(types)為27 828詞。

    在處理語料時,我們使用了語料庫檢索軟件Collocate 1.0,對語料中的N元詞組(N-gram)進行檢索,詞組長度設定為2~5詞(即N=2,3,4,5),以詞頻(Frequency,下文縮寫為Freq)為統(tǒng)計參數(shù),發(fā)現(xiàn)共有86 918個詞組類型,在下文中我們稱之為LAC-86918,其中2~5詞的詞組分別是39 339、27 694、12 986、6899個。表1是各種長度詞組的舉例,它們分別是各組中詞頻最高的10個例子。

    從表1可以看出,10個頻率最高的2詞詞組只有of language與語言學相關,3詞詞組只有the meaning of與語言學相關,4~5詞詞組中與語言學相關的詞組稍多,共有6個與語言學有關,而且,它們都不具備術語的名詞性范疇特征,或者是語義不完整,沒有明確的語義指向。對4~5詞詞組來說,詞組不具有單一的語義中心,如trends in linguistics The Hague,或者說它們具有跨句的組合性特征。所以,必須對LAC-86918進行較大規(guī)模地壓縮和精簡。

    2.2 步驟二:運用停用詞列表進行二次篩選

    對LAC-86918進行壓縮和精簡,是第二步的操作,即根據(jù)停用詞表(stopword list)來進行過濾和精簡,可以較大限度地區(qū)分術語與非術語。所謂的“停用詞”,指高頻率的虛詞或與檢索目標無關的高頻詞組。

    使用停用詞表,符合第二類方法中的NC-Value理論(Frantzi et al 2000),它認為在某些“重要”單詞語境中出現(xiàn)的候選術語應該被賦予更高的權重,“停用詞表”的使用正是對這一原則的逆向使用,因為“停用詞表”是可以認定的“不重要”的單詞或詞組,可以把它們或與之搭配的詞組過濾掉。Domain Coherence [7]用Basic方法抽取最好的200個術語候選項,再從它們的上下文中過濾其他詞性的單詞,過濾過程只保留在文檔中詞頻至少占四分之一的名詞、形容詞、動詞和副詞,這種方法的逆向使用也與使用“停用詞表”的方法異曲同工,因為“停用詞表”包含的過濾項包括各種虛詞(還有PL和AFL),過濾的結果與Domain Coherence方法只保留高頻名詞、形容詞、動詞和副詞的方法在思路上是一致的。

    從表1可以看出,LAC-86918中包含了太多的虛詞成分(如介詞、不定式的小品詞to等),另外還包含很多非學術的通用詞組和通用學術詞組,為了把這兩類詞組過濾掉,我們選擇了PL和AFL這兩個詞組庫。

    PL是Martinez和Schmitt[16]基于英國國家語料庫(BNC)選取的505條非學術詞組庫(PHRASal expressions list)。在505條非學術詞組中,有119條被兩位作者標記為在書面文體中“少見或不存在”(rare or non-existent),只在口頭文本中有較大頻率,所以本研究只選取在書面文體中有較高頻率的386條短語(386=505-119),包括2~4詞組成的非學術詞匯。

    AFL是由Simpson-Vlach和Ellis[17]所創(chuàng)建的通用學術語料庫(academic formula list),總共607個詞組,包括三個部分,第一部分是在口語與書面語中均為高頻的207個核心詞組(core AFL academic formulas),第二部分是在書面語中高頻的200個詞組(written AFL top 200),第三部分是在口語文體中高頻的200個詞組(spoken AFL top 200)。我們選取207個核心詞組和200個書面語詞組,共計407個。它們是由3~5詞組成的學術詞組。

    選用PL和AFL的理由,是因為它們分別代表日常話語中的通用詞組和多學科的通用學術詞組,而本研究選用的語料是語言學語域的專門學科文本,其目標是提取語言學語域的專門術語,所以該術語表不會與PL和AFL交叉或共現(xiàn)。

    運用停用詞對LAC-86918進行二次篩選,得到2~5詞的術語分別為6356條、573條、82條和25條,總數(shù)是7036,只有LAC-86918的不到1/12。為了方便,我們把精簡后的詞組庫稱為LAC-7036。表2列出了LAC-7036中詞頻排序最高的10個術語詞組,這些詞組中大部分都具有術語的結構特征,也體現(xiàn)術語的語義類型。

    LAC-7036的數(shù)量仍然太過龐大,而且,4~5詞的詞組具有跨句的組合特征,許多外來語(如grammatica storica della lingua italiana)也混跡其中,所以必須開啟第三步驟的篩選。

    2.3 步驟三:運用互信息熵MI和詞組教學值FTW來進行第三次篩選

    第三步的篩選是運用互信息熵MI(mutual information)和詞組教學值FTW(formula teaching worth)來體現(xiàn)語境的篩選功能,也是借鑒了上文的第二類方法[7,9]。我們先介紹一下互信息熵MI和詞組教學值FTW。

    互信息熵MI[18]可以測量中心詞(node word)和搭配詞(collocate) 之間的關聯(lián)強度 (association strength) 或可搭配性(collocability)。MI的計算公式是:MI(x,y)=fobs(x,y)/fexp(x,y)。在公式中,x是中心詞,它的前后若干長度內(nèi)的搭配詞為y,MI(x,y)是x和y之間的互信息熵。等式右邊是兩個函數(shù)式(f: function)相除,x與y的觀測共現(xiàn)頻數(shù)(obs: observation)的函數(shù)fobs(x,y)為分子,零假設下中心詞與搭配詞的期望共現(xiàn)頻數(shù)(exp: expectation)的函數(shù)fexp(x,y)為分母[19]。

    詞組教學值(FTW)是Simpson-Vlach和Ellis[17]提出的計算方法,用于評估教師在多大程度上認為某詞組應該成為教學內(nèi)容。FTW是對互信息熵和詞頻的按比例取值,即FTW =0.56 MI +0.31 Freq,當MI、Freq和FTW三個參數(shù)取值相互沖突時,Simpson-Vlach和Ellis[17]的做法是FTW優(yōu)先。

    所以,不管是MI還是FTW,都或多或少地體現(xiàn)了詞組內(nèi)部各成分之間的相互期待,體現(xiàn)了“重要”的詞[7]與周邊詞之間相互吸引的強度,或者說體現(xiàn)了“重要”的詞所受的語境約束的大小,所以MI和FTW一方面排除了詞頻對于術語遴選的唯一取舍功能,另一方面也可以彌補語料庫規(guī)模對于詞頻總數(shù)的影響。任何語料庫的規(guī)模都是有限的(不管它實際有多大),一般來說,語料庫的規(guī)模越大,術語的出現(xiàn)頻次就越多,所以如果考慮MI并且將它與詞頻按一定比例折算成FTW,就可以降低語料庫規(guī)模的影響。這種做法體現(xiàn)了上文第二類方法對于第一類方法的補足與糾偏。

    我們遵循這種算法,把FTW的取值設定為10.00,即只取FTW大于或等于10.00的詞組,得出681個語言學語域的術語詞組,我們稱之為LAC-681,2~5詞的詞組分別是197個、377個、82個、25個,在規(guī)模上又只有LAC-7036的不到1/10,與LAC-86918相比只有不到1/127。對LAC-681在此暫不舉例,因為它分為兩部分,其中一部分是在第四步驟(見下一節(jié))的操作中被淘汰的部分,所以在下一節(jié)將有舉例,而保留的部分就是最終產(chǎn)品,即語言學語域的術語表。

    2.4 步驟四:基于人工語義判斷的第四次篩選

    研究發(fā)現(xiàn),LAC-681雖然經(jīng)過三次過濾,但仍然包含了較多非術語的詞組,必須進行第四步的過濾。造成過濾不徹底的原因有兩個:一是在第二步驟中使用的停用詞表不可能剛好與術語詞組具有互補性,我們選擇停用詞表的原則是寧可過濾功能稍有欠缺,不可過濾功能太過強大;另一個原因是MI和FTW的使用客觀上產(chǎn)生了一種負效應,因為原本可能通過詞頻被過濾的非術語詞組,因為MI和FTW降低了詞頻的權重,所以一部分原本詞頻較低的詞組又進入LAC-681中,比如表3中的tickling cookie monster只出現(xiàn)了2次,但是它的內(nèi)部連貫性很強,所以MI的取值高達35.02,結果FTW的值被拉高了,但它顯然不是語言學的術語。所以,為了把此類詞組過濾掉,必須借鑒上文的第三類方法,即運用語料對比的方法,通過單詞在指定領域語料中的詞頻和其他語料中的詞頻進行比較來排除。由于LAC-681的規(guī)模較小,所以我們采用人工判斷的方法,把語言學語域的詞組與非語言學語域的詞組區(qū)分開來,排查的結果是剔除了322個詞組,其中有的詞組是語義不完整或者在結構上是跨句的詞匯組合(如categorial grammar formal logic)。表3是322個被排除的詞組中各種詞長詞組FTW取值最大的10個例子,按FTW的降序排列。

    排除了322個非術語的詞組后,余下的359個詞組就是最終產(chǎn)品,稱為LAC-359,即語言學語域的術語表,其中第1~97是2詞術語,共97個,約占27.02%,F(xiàn)TW的平均值為14.07;第98~320是3詞術語,共223個,約占62.12%,F(xiàn)TW的平均值為12.85;第321~356是4詞術語,共36個,約占10.03%,F(xiàn)TW的平均值為19.1;第357~359是5詞術語,共3個,約占0.83%,F(xiàn)TW的平均值為26.1。在附錄中,每一種詞長的術語都是按FTW的降序排列。

    從上面的數(shù)據(jù)對比可以看出,3詞術語最多,其次是2詞術語,再次是4詞術語, 5詞術語最少。從FTW來看,4詞術語和5詞術語最高,它們的詞頻并不高,但是MI取值較高,即內(nèi)部成分之間具有較高的相互期待。2詞術語和3詞術語的FTW相對偏低,它們的詞頻雖然較高,但是MI取值偏低。

    3 結語

    國外學者對術語的研制方法可以分為三類:詞頻研究方法、利用語境的研究方法和語料對比的研究方法,他們各有優(yōu)勝之處,也各有其不足。本文提出的四步驟術語表研制方法吸納了三類方法的優(yōu)點,同時回避了他們的不足。在四步驟方法中,第一步驟對應詞頻研究方法,第二和第三步驟是語境研究方法的應用和拓展,第四步驟是以人工篩選的方法體現(xiàn)語料對比的原則。通過對56萬余字的英語語言學語料的多種操作,歸納出了359個英語語言學術語。本文的研究不僅是對英語語言學術語全面的嘗試性歸納,其中的研究方法可以應用于各個學科的術語研究和術語表的研制。由于語料選擇的有限性和各種參數(shù)在取值上的局限性,LAC-359不可能窮盡一切術語,而且受到學科發(fā)展階段性特征的局限,術語表還必須隨著時間推移而不斷更新。

    本文的術語提煉方法,對于其他學科具有同等的適用性。但是,鑒于本文的語料是英文,如果其他學科所采用的語料是中文,而且中文是音節(jié)文字,詞句間有不同的斷句方法,所以我們建議采用多種方法對語料進行分詞(parse),在分詞結果各不相同的前提下,建議采用“投票”軟件(軟件名為vote)。英文或其他印歐語言的語料,詞與詞之間有空格分開,無須進行分詞操作。

    我們建議同時使用hanlp、jieba和thulac這三種分詞軟件,以《語言學綱要》[19]第一章第一節(jié)第一段為例,三種分詞效果對比如下。

    hanlp的分詞效果:

    語言/的/功能/是/客觀存在/的/。/功能/既是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都可/歸入/語言/的/社會/功能/和/思維/功能/兩/個/方面/。/

    jieba的分詞效果:

    語言/的/功能/是/客觀存在/的/。/功能/既/是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都/可/歸入/語言/的/社會/功能/和/思維/功能/兩個/方面/。/

    thulac的分詞效果:

    語言/的/功能/是/客觀/存在/的/。/功能/既/是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都/可/歸入/語言/的/社會/功能/和/思維/功能/兩/個/方面/。/

    分歧存在于每段中的劃線部分,所以必須采用“投票”程序,對三種分詞效果進行“投票”,體現(xiàn)“少數(shù)服從多數(shù)”的原則。

    投票結果:

    語言/的/功能/是/客觀存在/的/。/功能/既/是/語言/的/屬性/,/也/是/我們/認識/語言/的/一個/視角/。/語言/的/功能/是/多方面/的/,/如果/從/寬泛/的/意義/上/講/,/大致/都可/歸入/語言/的/社會/功能/和/思維/功能/兩/個/方面/。/

    分詞后,還必須進行人工校對,比如將“客觀存在”分成兩個詞。國內(nèi)各學科的同行使用的語料一般是中文語料,可按上述方法處理語料。在語料處理完成之后,對于處理結果的統(tǒng)計和人工校對可以借鑒本文的方法。

    參考文獻

    [1]梁愛林. 術語資源的質量評估[J]. 辭書研究, 2016, (1):32-44.

    [2] PERINAN-PASCUAL C, MESTRE-MESTRE D. Automatic Extraction of Domain-Specific Glossaries for Language Teaching[J]. Procedia Social & Behavioral Sciences, 2015, 198: 377-385.

    [3] 葉其松. “術語編纂”三分說[J]. 辭書研究, 2014,(6):34-41.

    [4] 鄭述譜, 梁愛林. 國外術語學研究現(xiàn)狀概觀[J]. 辭書研究, 2010,(2):86-99.

    [5] 陳觀喜. 文檔的術語表自動構建方法研究[D].南京:東南大學碩士論文,2018.

    [6] AUGENSTEIN I, MAYNARD D,CIRAVEGNA F. Relation Extraction from the Web Using Distant Supervision[J]. EKAW, 2014, 8876: 26-41.

    [7] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms:the c-value/nc-value method[J]. International Journal on Digital Libraries,2000, 3(2): 115-130.

    [8] BORDEA G, BUITELAAR P, POLAJNAR T. Domain-independent term extraction through domain modeling[C]//the10thInternationalConferenceonTerminologyandArtificialIntelligence. Paris: TIA,2013.

    [9] ASTRAKHANTSEV N. ATRS: Toolkit with State-of-the-art Automatic Terms Recognition Methods in Scala[J]. Language Resources & Evaluation, 2016(4):1-20.

    [10] BIBER D. JOHANSSON S, LEECH G, et al. Longman grammar of spoken and written English[M]. Harlow: Pearson Education ESL,1999.

    [11] ERMAN B, WARREN B.The idiom principle and the open choice principle[J]. Text, 2000,20(1):29-62.

    [12] BUSSMANN H. Routledge Dictionary of Language and Linguistics[M].Routledge Press. 1996. 外研社,2000.

    [13] KRACHT M. Introduction to Linguistics[J/OL].[2020-11-12]. https://www.pdfdrive.com/introduction-to-linguistics-e5989391.html.

    [14] SAUSSURE F. Course in general linguistics[M]. Translated and annotated by Roy Harris. London: Duckworth. 1916/1983.

    [15] 胡壯麟. 語言學教程[M]. 5版.北京:北京大學出版社,2017.

    [16] MARTINEZ R, NORBERT S.A Phrasal Expressions List[J]. Applied Linguistics, 2012(3):299-320.

    [17] SIMPSON-VLACH R, ELLIS N C. An Academic Formulas List: New Methods in Phraseology Research[J]. Applied Linguistics, 2010, 31:487-512.

    [18] FANO R M. Transmission of Information: a Statistical Theory of Communication[M].Massachusetts:MIT Press,1961.

    [19] 馮躍進,汪臘萍.英語中詞項搭配關系的定量研究[J].國外外語教學,1999(2):5-10.

    [20] 葉蜚聲,徐通鏘.語言學綱要[M].3版.北京:北京大學出版社,1997.

    作者簡介:通訊作者:劉宇紅(1966—),男,博士,2003年畢業(yè)于復旦大學外文學院,獲文學博士學位,同年破格晉升為教授?,F(xiàn)任南京師范大學外國語學院教授、博士生導師。2005—2006年在美國休斯敦Rice University訪學。主要研究方向涉及認知語言學、功能語言學、語言哲學、語義學、語用學、神經(jīng)語言學,發(fā)表論文90余篇,出版專著14種。通信方式:liuyuhong@njnu.edu.cn。

    殷銘(1982—),男,碩士,研究方向為語料庫語言學、應用語言學。2015年畢業(yè)于南京師范大學外國語學院,獲英語語言文學碩士學位。現(xiàn)為南京師范大學泰州學院外國語學院副教授。發(fā)表論文8篇,主編及參編教材8部。通信方式:20061004@nnutc.edu.cn。

    猜你喜歡
    英語語言學詞頻語料庫
    基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    《語料庫翻譯文體學》評介
    把課文的優(yōu)美表達存進語料庫
    淺析項目學習在英語語言學教學中的應用
    青春歲月(2016年22期)2016-12-23 09:12:29
    英語語言學的理論體系與構建探討
    亞太教育(2016年35期)2016-12-21 20:13:14
    基于建構主義的英語語言學課堂教學探討
    考試周刊(2016年71期)2016-09-20 15:16:26
    淺析英語語言學發(fā)展的因素探討
    考試周刊(2016年71期)2016-09-20 15:12:10
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    詞頻,一部隱秘的歷史
    云存儲中支持詞頻和用戶喜好的密文模糊檢索
    泰州市| 五原县| 平潭县| 库车县| 忻州市| 馆陶县| 项城市| 丹寨县| 巧家县| 海口市| 玛多县| 天全县| 甘肃省| 民权县| 婺源县| 屯昌县| 云南省| 共和县| 屏边| 大埔区| 唐山市| 额济纳旗| 叙永县| 四会市| 杭州市| 大渡口区| 汉源县| 屏边| 宁化县| 兴宁市| 乌海市| 手游| 尖扎县| 原平市| 平阳县| 沂南县| 高台县| 清原| 柳州市| 岚皋县| 巧家县|