胡宇涵
【摘要】 對聚類分析在語言研究中的應(yīng)用領(lǐng)域進行了闡述,并圍繞聚類分析在外國語言學研究中的應(yīng)用價值與前景進行探討與研究,希望能夠為推動聚類分析在外國語言學研究中的應(yīng)用發(fā)展帶來一點理論支持。
【關(guān)鍵詞】 聚類分析 外國語言研究 應(yīng)用所謂的聚類分析,又被稱為數(shù)值分類學,這是一種多元統(tǒng)計分類技術(shù)。在社會各領(lǐng)域中,聚類分析都有著廣泛的研究與運用,并取得了一定的成效。以外國語言學研究為例,相較于其他方法,聚類分析在語言統(tǒng)計中具有突出優(yōu)勢,鑒于此,針對聚類分析在外國語言學研究中的應(yīng)用具有重要的研究價值。
一、聚類分析在語言研究中的應(yīng)用領(lǐng)域
在語義、句法型式、認知語言學、心理學語言學、計算語言學以及社會語言學等多個領(lǐng)域,聚類分析都具有一定的應(yīng)用價值。通常情況下,聚類分析是結(jié)合到語料庫數(shù)據(jù)一起使用。關(guān)于聚類分析在外國語言研究中的應(yīng)用領(lǐng)域,具體闡述如下:
1.詞匯語義學
語言學中的有一個假設(shè):語言項目的語境分布信息對該語言項目的語義、功能特點進行了揭示,語言成分的分布條件或限制就是語言成分的意義所在。語料庫將詞匯的分布環(huán)境信息涵蓋其中,以共現(xiàn)詞及其頻率為例,基于語料庫中的共現(xiàn)特征的頻率信號的獲取,劇烈分析可以對近義詞、反義詞的意義與用法有一個客觀、系統(tǒng)的辨析。相關(guān)人員就提出詞匯行為輪廓研究方法就對聚類分析加以運用。值得一提的,實驗表明,同(近)義詞的類或簇的心理現(xiàn)實性比較突出。在詞匯語義學中,在詞典編纂、外語教學領(lǐng)域聚類分析往往具有較強的適用性。
2.句法型式研究
在對語料庫中句法結(jié)構(gòu)進行聚類時,聚類分析能夠提供一定的幫助,并且在經(jīng)驗數(shù)據(jù)性的句法研究中,聚類分析也具有適用性。例如人們在聚類語料庫中某個單詞的全部索引時,對該詞匯的全部句法型式進行識別與提取,進而就可以使我們對特定單詞的句法行為的認識變得更加系統(tǒng)與全面。在基于數(shù)據(jù)驅(qū)動的句法研究、詞典編纂以及外語教學而言,其應(yīng)用價值顯然是比較大的。
所謂的型式,就是短語單位,其組成部分包括名詞、形容詞以及補足語成分。研究型式句法是為了將不同詞類的所有型式抽象、歸納出來。在對句法型式進行抽取與概括時,聚類分析主要采取如下做法:首先對句法型式的一系列特征集合進行建構(gòu),然后進行每個索引行為中具體語言信息向?qū)?yīng)型式特征信息的轉(zhuǎn)換,基于對相似度算法的應(yīng)用,將聚類分析用于同一檢索詞析出的索引行中,并將每組索引行中的公共特征項提取出來,最后使相關(guān)單詞的句法型式的自動識別與提取得以實現(xiàn),具體如下圖所示。
3.語言風格變異研究
對于一個語篇而言,其呈現(xiàn)的語言結(jié)構(gòu)單位的使用統(tǒng)計特征分為很多種,例如詞長、句長、型符類符比、詞性比例、句型比例等等。大量研究表明,根據(jù)文本體裁的不同,語言結(jié)構(gòu)特征就客觀而言存在變異。在語言結(jié)構(gòu)單位特征頻率分布的差異的影響下,語言風格變異自然就會形成。語篇風格、文體也是基于這些頻率分布差異得以構(gòu)成的。此外,站在一個作者的角度,其語言中表現(xiàn)出來的語言結(jié)構(gòu)單位的個性化使用統(tǒng)計特征也必然包含了很多種,我們可以統(tǒng)計出一個作者不同作品的語言使用情況,基于分析獲取該作者對不同語言結(jié)構(gòu)單位使用的統(tǒng)計特征。相反的,我們也可以通過作者對語言結(jié)構(gòu)單位使用的統(tǒng)計特征,將聚類分析運用將作者身份已知的文本以及身份未知的文本分析中,然后以分析結(jié)果為參考,對這些匿名作品的作者進行有效識別。
4.語言的地理變異
語言的地理變異又被稱為方言聚類,在語言學這一領(lǐng)域中聚類分析有著非常長的應(yīng)用歷史。在上世紀80年代初,就有研究人員在方言分類的研究中運用了聚類分析,并取得了理想的成效。之后,歐洲方言計量學研究中,以某些研究人員為代表的對聚類分析的應(yīng)用越來越廣泛。
5.語言的社會變異
語言變異與社會結(jié)構(gòu)之間有著非常復(fù)雜的關(guān)系,在研究中如果選擇傳統(tǒng)方法,顯然是無法取得理想的效果的,究其原因就在于傳統(tǒng)的研究方法的盲目性比較強,并且系統(tǒng)性有所缺失,大部分情況下需要以個人經(jīng)驗或靈感對語言提出假設(shè)并展開研究,而相較于規(guī)模龐大的語言數(shù)據(jù)而言,個人經(jīng)驗或靈感顯然是微不足道的。而聚類分析應(yīng)用則是傳統(tǒng)方法的問題得到有效規(guī)避,這種方法能夠為研究者在規(guī)模龐大的語言數(shù)據(jù)中尋找數(shù)據(jù)結(jié)構(gòu)提供支持,然后與數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ),對相關(guān)研究變量進行有效分析、提取,使不同變量之間的關(guān)聯(lián)被系統(tǒng)性的發(fā)現(xiàn)出來,然后通過假設(shè)對理論模型進行建構(gòu)。
二、聚類分析的應(yīng)用分析及發(fā)展前景
相較于定性的分類方法,聚類分析的客觀性與可重復(fù)性是其應(yīng)用價值的重要體現(xiàn)。聚類分析是以事實與數(shù)據(jù)為基礎(chǔ)得到運用的,這是其客觀性特點的體現(xiàn)。當然不可否認,聚類分析并沒有將所有主觀因素排除掉,在某些方面的選擇上其主觀性依然存在,例如算法選擇、距離計算方式以及聚類數(shù)值特征等等。然而,如果人們設(shè)定了聚類分析中的指標、類的定義、距離計算方式以及算法等參數(shù),那么聚類的可重復(fù)性、可檢驗性就得到突出,并且也提供一個基準來比較不同分類方法的優(yōu)劣。以主觀定性為依托的分類方法具有較低的重復(fù)性,由于專家與新手的理論素養(yǎng)、經(jīng)驗以及直覺存在很大的差別,因此復(fù)制起來存在較大難度,他們的分類結(jié)果也不盡相同。眾所周知,在科學研究中,客觀性與可重復(fù)性是最為基本的要求,因此,相較于定性分類,聚類分析的科學性更強。
此外,聚類分析在規(guī)模龐大的數(shù)據(jù)處理中也具有很高的應(yīng)用價值。對于小數(shù)據(jù)而言,人們可以對其結(jié)構(gòu)進行有效分析,然后提出猜想和假設(shè)。但如果數(shù)據(jù)規(guī)模龐大且復(fù)雜程度較高,那么受限于認知能力,人們可能并不能透過數(shù)據(jù)表面對其中的結(jié)構(gòu)與規(guī)律進行研究與分析,同時提出的猜想與假設(shè)也可能不盡合理。而基于聚類分析的應(yīng)用,可以使大數(shù)據(jù)處理變得高效、準確,使其中的結(jié)構(gòu)與規(guī)律得以發(fā)現(xiàn),為人們提出假設(shè)提供支持。
三、結(jié)語
在大數(shù)據(jù)時代背景下,語料庫數(shù)據(jù)的內(nèi)容必然更加豐富,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也取得了重大突破?,F(xiàn)階段,人們逐漸開始質(zhì)疑對內(nèi)省式語言數(shù)據(jù)的可靠性,并對語言用法數(shù)據(jù)加以運用。由此可見,在未來在面對規(guī)模龐大的語言數(shù)據(jù)時,只有通過數(shù)據(jù)挖掘,才能夠?qū)崿F(xiàn)語言知識的獲取。而人工與肉眼顯然是無法處理這些語言數(shù)據(jù)的,此時聚類分析的價值就體現(xiàn)出來。作為外國語言研究這,必須對聚類分析以及其他的數(shù)據(jù)挖掘技術(shù)進行深入研究與學習,促使自身研究能夠與時代發(fā)展形勢相適應(yīng)。
參考文獻:
[1]孫仕光,張萍.聚類分析在外國語言學研究中的應(yīng)用[J].懷化學院學報,2016,(3) :108-113.
[2]劉佳玲.聚類分析在外國語言學研究中的應(yīng)用[J].科學與財富,2017,(19) :97.
[3]陳芯瑩,劉海濤.語義、句法網(wǎng)絡(luò)作為語體分類知識源的對比研究[J].計算機工程與應(yīng)用,2014,(02) :10-14+43.
[4]陳芯瑩,劉海濤.句法復(fù)雜網(wǎng)絡(luò)作為語體分類的知識源研究[J].計算機工程與應(yīng)用,2013,(08) :32-36.
[5]陳芯瑩,劉海濤.句法復(fù)雜網(wǎng)絡(luò)作為語體分類的知識源研究[J].計算機工程與應(yīng)用,2012.