李夢圓
摘 要 英語詞匯數(shù)據(jù)分析近年來發(fā)展較快,數(shù)據(jù)采集是詞匯數(shù)據(jù)分析的基礎(chǔ)工作。介紹利用英語詞匯分析工具專用軟件采集詞匯數(shù)據(jù),包括采集范疇、數(shù)據(jù)類型和相關(guān)性質(zhì)。
關(guān)鍵詞 英語詞匯;英語詞匯分析工具;數(shù)據(jù)采集
中圖分類號:H319.3 文獻(xiàn)標(biāo)識碼:B
文章編號:1671-489X(2017)08-0027-04
Abstract Recently there has been a fairly great rapid development in
the data analysis for the English vocabulary. The data collection serves as the basis for the vocabulary data analysis. The present paper
will give an introduction to the collection of vocabulary data, inclu-
ding the collection scope, the data kinds and the relative correspon-ding qualities by using the special software An Analysis Tool for the English Vocabulary.
Key words English vocabulary; an analysis tool for the English vocabulary; data collection
1 引言
英語語言研究中詞匯研究占有重要位置。利用維普期刊資源整合服務(wù)平臺[1]對國內(nèi)1989—2016年期刊發(fā)表的文獻(xiàn)進(jìn)行關(guān)鍵詞檢索,英語研究類文獻(xiàn)中詞匯研究文獻(xiàn)多達(dá)22 600篇。其中英語詞匯數(shù)據(jù)研究文獻(xiàn)1989—1998年僅為4篇,1999—2008年增至8篇,2009—2016年則達(dá)到25篇,顯示出詞匯數(shù)據(jù)分析研究領(lǐng)域發(fā)展很快。隨著新技術(shù)不斷地引入和更多研究人員的參與,未來英語詞匯的數(shù)據(jù)研究必將成為新的熱點,將在語言研究中發(fā)揮重要作用。英語詞匯數(shù)據(jù)研究是基于對詞匯特征數(shù)據(jù)的分析,往往材料本身詞匯數(shù)量龐大、變化形式繁多,手工采集數(shù)據(jù)極其困難。本文簡單介紹利用“英語詞匯分析工具”軟件采集英語文本中的詞匯數(shù)據(jù)。
2 軟件概貌
“英語詞匯分析工具”軟件是由南通大學(xué)李冬編制[2],軟件可以在各類Windows操作平臺安裝、運行,操作界面簡單友好(見圖1、圖2),幫助文件完整,一般不需專門學(xué)習(xí)就能操作使用。數(shù)據(jù)采集操作過程包括導(dǎo)入純文本文件格式的英語文本材料、設(shè)置采集目標(biāo)模式、運行程序完成數(shù)據(jù)采集和生成對應(yīng)的數(shù)據(jù)文件。數(shù)據(jù)文件存放在指定的文件夾內(nèi),采用TXT純文本文件格式,需要標(biāo)色顯示的數(shù)據(jù)文件則為HTML文件格式。
3 常用數(shù)據(jù)采集
英語詞匯的數(shù)據(jù)研究依研究目標(biāo)確定與其相關(guān)聯(lián)的特征數(shù)據(jù)作為研究基礎(chǔ),采集數(shù)據(jù),然后進(jìn)行直觀比較、數(shù)學(xué)分析,獲得科學(xué)結(jié)論?!坝⒄Z詞匯分析工具”可以采集文本中下列詞匯特征數(shù)據(jù)。
1)形符,又稱詞符、總詞匯量,指材料中所有出現(xiàn)過的單詞,包括重復(fù)出現(xiàn)的單詞,它是觀察材料篇幅大小的直觀數(shù)據(jù)。
2)類符,又稱詞型,指材料中不重復(fù)出現(xiàn)的單詞(僅字母排列形式不同,如look、looking、looked可看作三個類符),所以可看作不重復(fù)的形符,如在教材研究[3]和試卷研究[4]中形符、類符數(shù)據(jù)的統(tǒng)計。
3)詞匯:以原型詞為區(qū)分標(biāo)準(zhǔn)做統(tǒng)計,排除了如名詞的單/復(fù)數(shù)、動詞的時態(tài)、形容詞的比較級等變化形式干擾。
4)詞匯密度:衡量單位文章信息含量的尺度,反映語篇難易程度的數(shù)據(jù)[5]。計算采用類符/形符比值(英文縮寫為TTR),計算公式:
TTR=(類符數(shù)/形符數(shù))×100%
5)詞匯覆蓋率:用詞匯做計數(shù)單位,以某個詞匯表作為測量尺度,統(tǒng)計文章中詞匯在詞匯表中數(shù)量的占比,依此判斷文章與詞匯表的關(guān)系程度。詞匯覆蓋率有兩種算法,其使用目的也不同。
①材料詞匯覆蓋率:用于教材可讀性或難度的評估,即不同教學(xué)階段選擇適合的教學(xué)詞匯表(如小學(xué)詞匯表、初中詞匯表、高中或大學(xué)詞匯表)進(jìn)行教材的詞匯覆蓋率測定,判斷教材的適用性。計算公式:
材料詞匯覆蓋率=(材料中詞匯表所包含詞匯數(shù)/材料詞匯數(shù))×100%
②詞表詞匯覆蓋率:用于試卷知識點的評估,即將詞匯表中詞匯作為知識點,測定考試試卷的詞匯知識點覆蓋率。計算公式:
詞匯表詞匯覆蓋率=(材料中詞匯表所包含詞匯數(shù)/詞匯表詞匯數(shù))×100%
詞匯覆蓋率測試操作是先將自己的教學(xué)詞匯表導(dǎo)入軟件,創(chuàng)建自定義詞匯庫文件(圖3),然后進(jìn)行材料的詞匯覆蓋率測定。
6)詞頻數(shù)據(jù),指某一詞匯在材料中出現(xiàn)的次數(shù)(又叫頻數(shù)),對材料中的詞匯做詞頻統(tǒng)計、計算重復(fù)率并按一定規(guī)則列出稱詞頻表(圖4),詞頻表可以方便地觀察詞匯使用狀況。
7)詞匯分級:按詞匯的難度對應(yīng)教學(xué)階段進(jìn)行詞匯分級,如小學(xué)、初中、高中……形成系列分級詞匯。對材料做詞匯分級測定在教材編寫和試卷分析中都有實用價值,可以窺視其詞匯分布的細(xì)微變化(見圖2)。
8)詞匯表:把材料中詞匯轉(zhuǎn)換成原型,按首字母順序列出,稱詞匯表。詞匯表為研究者審核詞匯提供了便利。
4 其他功能
“英語詞匯分析工具”功能非常豐富,如自身知識庫的修改完善、簡易語料庫的建設(shè)、聯(lián)網(wǎng)交流等。此處僅介紹兩個亦屬于數(shù)據(jù)采集的功能,即人名地名搜索和新詞匯的收集整理,盡管它們一般不用于數(shù)據(jù)分析。
人名地名采集 人名地名研究也是英語研究的一個專門領(lǐng)域,關(guān)鍵詞搜索統(tǒng)計(1989年以來)國內(nèi)期刊發(fā)表的人名研究方向的文獻(xiàn)有142篇(翻譯研究、語言應(yīng)用研究和文化宗教研究),地名研究方向的文獻(xiàn)有77篇。在長篇文學(xué)作品的研究中,快速人名搜索對研究人物之間的關(guān)系、人物行為性格和語言特點均有幫助。人名地名采集用“其它功能”(見圖1),導(dǎo)入小說文本,進(jìn)入“人名地名搜索工具”,有生成詞匯表或文中標(biāo)紅顯示兩種處理模式供選擇,圖5是生成詞匯表模式處理結(jié)果。
英語新詞收集 新詞的產(chǎn)生是社會發(fā)展的必然現(xiàn)象,在全球一體化、信息化發(fā)展大背景下,新詞匯(如網(wǎng)絡(luò)詞匯、商務(wù)新詞、科技新詞等)正以前所未有的速度增加。關(guān)鍵詞檢索英語新詞匯研究文獻(xiàn)為520篇,英語新詞匯對辭書編輯、翻譯交流和英語教學(xué)都有顯著影響。
在海量的材料中尋找新詞匯非常困難,借助“英語詞匯分析工具”生詞庫操作功能,可以大大方便該項工作。軟件系統(tǒng)自帶5萬余條詞匯的特征庫,在分析識別材料的過程中遇到不包含在其內(nèi)的詞匯時,自動將其收納入生詞庫中,而生詞庫操作功能是將收集的詞匯進(jìn)行濾除重復(fù)、按首字母排序、生成詞匯表文本文件。因此,可以把生詞庫所收集的詞匯看作疑似新詞的初篩,為英語新詞研究提供幫助。
5 結(jié)語
當(dāng)今世界已進(jìn)入大數(shù)據(jù)時代,科學(xué)技術(shù)飛速發(fā)展,信息量空前膨脹,英語數(shù)據(jù)挖掘和分析作為一種研究手段越來越受到研究者的關(guān)注[6-7]。英語詞匯的數(shù)據(jù)分析離不開數(shù)據(jù)的采集,本文介紹利用專用計算機工具軟件進(jìn)行相關(guān)數(shù)據(jù)采集,希望給相關(guān)工作帶來幫助。
參考文獻(xiàn)
[1]重慶維普資訊有限公司.維普期刊資源整合服務(wù)平臺[DB/OL].[2016-11-08].http://lib.cqvip.com/.
[2]李冬,黃錦茹,陸銀根,等.英語詞匯分析工具軟件的功能設(shè)計[J].中國現(xiàn)代教育裝備,2014(15):23-24.
[3]劉瑜,閆磊.海軍英語教材詞匯分布分析[J].亞太教育,2015(11):162.
[4]周加林.大學(xué)英語四級考試真題的詞貌特征:基于2006年6月—2013年6月大學(xué)英語四級考試真題的統(tǒng)計與分析[J].大學(xué)英語教學(xué)與研究,2014(3):82-87.
[5]王芳,連天雪.基于語料庫的商務(wù)英語與普通英語的詞匯比較研究[J].大連理工大學(xué)學(xué)報:社會科學(xué)版,2013,
34(3):130-133.
[6]ZHU Z. Application of Data Mining Technology in the Infor-mation Technology of College English Teaching[J].Advance Journal of Food Science and Technology,2013(7):969-975.
[7]WANG Y, Tseng M H, LIAO H. Data mining for adaptive learning sequence in English language instruction[J].Expert Systems with Applications,2009(4):7681-7686.