(福州大學(xué) 福建 福州 350000)
在“一帶一路”倡議以及全球化的深入發(fā)展的背景中,國家與國家之間的交流也更加頻繁與深入,中國與西班牙語國家雙邊貿(mào)易額度總體呈快速增長態(tài)勢,表明中國已是絕大部分西班牙語國家的主要貿(mào)易伙伴之一,雙方有著廣闊的合作前景[1]。因此,對來自西班牙語國家的海量數(shù)據(jù)進行高效挖掘成為支持我國相關(guān)組織進行管理決策的重要信息管理技術(shù)。
從數(shù)據(jù)挖掘的角度上來看,文本挖掘指的是將數(shù)據(jù)挖掘技術(shù)應(yīng)用在文本集合上,以發(fā)現(xiàn)其中隱含的知識。文本分析是文本挖掘的一個關(guān)鍵過程,是從文本數(shù)據(jù)中獲得具有較高質(zhì)量的文本特征的方法和過程。
在廣泛查閱與西班牙文文本分析相關(guān)的國內(nèi)外研究成果的基礎(chǔ)上,本文介紹了文本分析的相關(guān)概念,羅列了幾種能用于西班牙文分詞工具,并且簡要概述了目前國內(nèi)外文本分析的研究成果。
(一)相關(guān)概念
文本分析作為文本挖掘的一個部分,涉及到使用自然語言處理、信息檢索和機器學(xué)習(xí)等技術(shù)將非結(jié)構(gòu)化的文本數(shù)據(jù)在語法上解析成更具結(jié)構(gòu)化的數(shù)據(jù)形式,即是將文本數(shù)據(jù)轉(zhuǎn)換為可以體現(xiàn)出文本特征的詞向量。
在語言學(xué)上,詞是可獨立使用的最小語言單位,通常由詞組成短語,短語組成從句,從句組成句子。西班牙文以詞為書寫單位,有空格作為分界符加以區(qū)分。簡單的切分是不足的,必須引入詞干提取、詞形還原等文本分析技術(shù)對文本數(shù)據(jù)進行更精確的切分。
詞干提取和詞形還原是詞語規(guī)范化處理的兩種相似技術(shù)。詞干提取主要用于信息檢索領(lǐng)域,而詞形還原更多用于處理單詞準(zhǔn)確率要求較高的文本分類、情感分析等領(lǐng)域[2]。
(二)西班牙文文本分析工具
詞干提取和詞形還原的方法均較為成熟,主要可以分為基于規(guī)則的方法、基于詞典的方法、基于統(tǒng)計的方法以及混合的方法。下文將列出目前較為成熟的3個包含詞干提取、詞性還原的功能且可用于西班牙文文本分析的工具。
1.Stanford core NLP
Stanford core NLP[3]提供了對西班牙語的分詞、詞性標(biāo)注、命名實體識別等功能。
2.NLTK
NLTK[4]支持包括西班牙語在內(nèi)的分詞、詞干提取、詞性標(biāo)注、詞形還原等功能。
3.Pattern.es
Pattern[5]中的pattern.es包含了專用于西班牙語文本分析的詞性標(biāo)注器以及詞干提取、詞性還原工具。
研究跨語言文本分析要解決的問題是:由于語言習(xí)慣以及語法上的差異,適用于某一特定語言的分析方法未必適合另一語言。目前,在跨語言的文本研究上常用的研究方法有三種:基于機器翻譯的方法、基于統(tǒng)計和詞典的方法和基于平行語料和深度學(xué)習(xí)的方法。
(一)國內(nèi)研究及應(yīng)用
我國在文本分析上的研究主要集中于算法的改進或是創(chuàng)新,主要研究領(lǐng)域有文本分類[6]、情感分析[7]等,對專用于文本分析的工具的研發(fā)成果較少。
國內(nèi)學(xué)者在跨語言文本的處理上以英語文本為主,增加了如法語、日語等語;一部分學(xué)者選擇了我國的少數(shù)民族語言;還有一部分學(xué)者選擇了泰國語等周邊國家的語言。
國內(nèi)學(xué)者使用西班牙語進行的文本分析相關(guān)研究還不是很多,我國學(xué)者改進或創(chuàng)新的算法用于西班牙語的文本分析研究也尚未見較多相關(guān)的實驗結(jié)果。文獻(xiàn)[8]提出了綜合集成計算模型和深度多任務(wù)學(xué)習(xí)模型的方法用于英語-西班牙語文本相似度評估。文獻(xiàn)[9]使用西班牙酒店的網(wǎng)頁文本自建了一個小型語料庫,并進行相關(guān)的分析工作。文獻(xiàn)[10]建立2016年《國務(wù)院政府工作報告》中英西三語平行語料庫,分析了句法特征和詞匯特征。
綜上所述,我國學(xué)者對于西班牙語文本分析的研究還遠(yuǎn)不如對英語文本的研究深入,因此,對于西班牙語文本分析的研究前景較為廣闊,或許可以成為未來的研究方向。
(二)國外研究及應(yīng)用
盡管我國在跨語言的文本分析研究中對西班牙語的研究和討論較少,但西班牙語的文本分析在西班牙語系國家以及英語系國家的研究中仍然占有一席之地。國外學(xué)者的研究在較早的時候大多集中于算法或模型的提出與改進,而后則慢慢轉(zhuǎn)向具體應(yīng)用領(lǐng)域的研究。
1.西班牙語國家的研究及應(yīng)用
近幾年,西班牙語系學(xué)者在西班牙語的文本分析的研究上十分重視情感分析的研究,除此之外,對于文本簡化[11]、機器翻譯[12]、問答系統(tǒng)[13]等方面的研究也十分活躍。
在情感分析方面,西班牙自然語言處理協(xié)會(SEPLN)[14]組織了SEPLN(TASS)語義分析研討會積極推動相關(guān)研究的進程。文獻(xiàn)[15]提出了基于二進制最大熵的情緒分析策略,可區(qū)分六種情緒類別。文獻(xiàn)[16]致力于根據(jù)西班牙語語言特性建立一個新的西班牙語的情感詞典。
此外,西班牙語系學(xué)者關(guān)于文本分析的研究還涉及了財務(wù)以及西班牙語學(xué)習(xí)等相關(guān)方面,如文獻(xiàn)[17]利用自然語言處理、本體學(xué)習(xí)、意見挖掘等方面的技術(shù),實現(xiàn)財務(wù)分析相關(guān)流程自動化;文獻(xiàn)[18]提出了針對西班牙語學(xué)習(xí)中語法搭配錯誤的自動分類方法,給學(xué)習(xí)者提供語法學(xué)習(xí)的輔助工具。
在跨語言的文本分析研究方面,西班牙語系學(xué)者與中國學(xué)者相似,大多都首選了英語文本作為實驗數(shù)據(jù),還有一部分學(xué)者使用了與西班牙語相似的的語言,如荷蘭語[19]、以及葡萄牙語等。
2.非西班牙語國家的研究及應(yīng)用
在非西班牙語系國家關(guān)于西班牙語文本分析的研究中,大多數(shù)可得文獻(xiàn)以英文為主,這類研究學(xué)者對西班牙語文本分析的研究也屬于跨語言的文本分析研究,近幾年語料庫的建設(shè)及基于其的分析研究逐漸涌現(xiàn),此外,文本簡化及注釋[20]方面的研究也都有所突破。
在語料庫的建設(shè)及分析方面,文獻(xiàn)[21]介紹了在MULTINOT項目中的英語-西班牙語平行語料庫的建設(shè)工作。文獻(xiàn)[22]建設(shè)了一個標(biāo)注否定情緒的西班牙語語料庫。
綜上所述,從文獻(xiàn)內(nèi)容來看,無論是西班牙語系的學(xué)者,還是非西班牙語系的學(xué)者,比較傾向于跨領(lǐng)域應(yīng)用方面的研究。
文本分析作為文本挖掘的一個重要步驟,其對海量信息進行高效的管理、挖掘和運用的意義和價值逐漸受到關(guān)注并獲得一定的研究進展??偨Y(jié)國內(nèi)外關(guān)于西班牙語文本分析的研究現(xiàn)狀,可見其在西語系國家受到較高的重視,同時在國際上西班牙語文本分析也占有一席之地,但我國在西班牙語文本分析上的研究仍有待加深,未來的研究方向在于:
(1)將已有成果向西班牙語文本分析拓展。后續(xù)研究可將現(xiàn)有的研究成果應(yīng)用于西班牙語語料,對比各類已有算法在西班牙語上的文本分析效果。
(2)將現(xiàn)有研究成果向其他領(lǐng)域的應(yīng)用發(fā)展。后續(xù)研究可將現(xiàn)有的成果應(yīng)用到其他領(lǐng)域,或使用某一領(lǐng)域的專業(yè)文本進行實驗檢查分析效果。
(3)對現(xiàn)有算法進行改進。盡管現(xiàn)有算法或相關(guān)的工具在西班牙語文本分析的研究方面已經(jīng)能夠達(dá)到較為準(zhǔn)確的程度,但是學(xué)海無涯,這一研究仍然有繼續(xù)提升的空間。