• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DC-Value的西班牙語(yǔ)文本詞語(yǔ)提取方法①

    2021-06-28 06:28:20顏煜鈴簡(jiǎn)梓煒
    關(guān)鍵詞:西文詞串西語(yǔ)

    于 娟,顏煜鈴,簡(jiǎn)梓煒,張 晨

    (福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福州 350108)

    1 引言

    隨著“一帶一路”倡議的推進(jìn)和全球化進(jìn)程的加快,國(guó)家之間的經(jīng)濟(jì)交流日益頻繁與深入,跨國(guó)組織的管理決策依據(jù)也不再限于單一語(yǔ)種的信息,而是希望基于來(lái)自全球各語(yǔ)種數(shù)據(jù)的全局視圖.然而,相比圖像、視頻等其它非結(jié)構(gòu)化數(shù)據(jù),文本具有更為顯著的語(yǔ)種差異?閱讀不懂的語(yǔ)種的文本,人們能從中接受到的信息幾乎是零.為此,有必要研究多語(yǔ)種文本的融合分析方法,以快速獲取瞬息萬(wàn)變的國(guó)際情況信息,支持跨國(guó)組織的國(guó)際化戰(zhàn)略管理決策.

    西班牙語(yǔ)(以下簡(jiǎn)稱西語(yǔ))是聯(lián)合國(guó)6 種官方語(yǔ)言之一,是全球19 個(gè)國(guó)家的官方語(yǔ)言,有四億多人作為母語(yǔ)使用,是僅次于漢語(yǔ)的世界第二大母語(yǔ)語(yǔ)言[1].相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,我國(guó)與西語(yǔ)國(guó)家的雙邊經(jīng)貿(mào)關(guān)系發(fā)展迅速,已成為包括西班牙、智利、秘魯、墨西哥等大部分西語(yǔ)國(guó)家的主要貿(mào)易伙伴之一,未來(lái)有著廣闊的合作前景[2,3].另一方面,我國(guó)尚缺乏西語(yǔ)專門人才,因此,如何對(duì)來(lái)自西語(yǔ)國(guó)家的海量文本進(jìn)行高效的數(shù)據(jù)挖掘,已成為我國(guó)相關(guān)組織的一個(gè)重要的管理方法問(wèn)題.

    文本詞語(yǔ)提取是文本挖掘的基礎(chǔ)工作,是指自動(dòng)獲取待分析文本中出現(xiàn)的詞語(yǔ),包括單詞和短語(yǔ).西班牙文(以下簡(jiǎn)稱西文)的單詞之間用空格分開,易于實(shí)現(xiàn)自動(dòng)提取;但文本挖掘所用的特征詞大多是面向文本內(nèi)容的多詞短語(yǔ),因此,西文的短語(yǔ)提取是西語(yǔ)文本詞語(yǔ)提取和文本挖掘的關(guān)鍵環(huán)節(jié).另一方面,相比同屬印歐語(yǔ)系的英語(yǔ),西語(yǔ)的詞形變化規(guī)則更為復(fù)雜:名詞不僅有單復(fù)數(shù)變化,還區(qū)分陰陽(yáng)性;動(dòng)詞、形容詞和代詞均需依據(jù)所修飾或指代的名詞的陰陽(yáng)性進(jìn)行相應(yīng)變化.并且,西語(yǔ)和英語(yǔ)的語(yǔ)序也有所不同:西語(yǔ)中的形容詞位置多樣化,即形容詞或形容詞短語(yǔ)可能位于其所修飾的名詞或名詞短語(yǔ)的前面、后面甚至其它位置[4].種種差異導(dǎo)致現(xiàn)有的比較完善的英語(yǔ)文本詞語(yǔ)提取方法不能直接應(yīng)用于西文詞語(yǔ)提取.

    為此,本文研究西文詞語(yǔ)提取方法,結(jié)合西語(yǔ)語(yǔ)法規(guī)則和串頻統(tǒng)計(jì)方法,從西語(yǔ)文本中自動(dòng)提取包含多詞短語(yǔ)在內(nèi)的詞語(yǔ)集合,以支持西語(yǔ)文本挖掘工作.本文第2 節(jié)介紹詞語(yǔ)提取方法的研究現(xiàn)狀;第3 節(jié)簡(jiǎn)述本文所提出的西文詞語(yǔ)提取方法的框架流程;第4 節(jié)詳細(xì)說(shuō)明西文候選詞語(yǔ)的提取過(guò)程和方法;第5 節(jié)介紹計(jì)算候選詞語(yǔ)成詞可能性的成詞度算法;第6 節(jié)通過(guò)實(shí)驗(yàn)比較分析本文方法與傳統(tǒng)的英文短語(yǔ)提取方法C-value和NC-value;第7 節(jié)給出研究結(jié)論.

    2 相關(guān)工作

    詞語(yǔ)是某一語(yǔ)言里的詞(也稱原子詞、單詞等)和固定短語(yǔ)(也稱合成詞、詞組、多詞術(shù)語(yǔ)等)的總稱.其中,原子詞是詞語(yǔ)組成的基本單元;合成詞是由多個(gè)原子詞依據(jù)一定規(guī)則組合成的短語(yǔ),具有其組成部分不能代表的特定含義.詞語(yǔ)提取是文本挖掘的基礎(chǔ)工作,為文本的結(jié)構(gòu)化建模提供詞庫(kù),因此,其召回率和準(zhǔn)確率顯著影響文本挖掘的效果.現(xiàn)有的詞語(yǔ)提取方法研究大多針對(duì)中文或英文文本詞語(yǔ)提取[5,6].這些詞語(yǔ)提取方法可分為主要的3 類:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和混合方法.

    基于規(guī)則的方法首先根據(jù)語(yǔ)言的詞法或句法特征總結(jié)構(gòu)詞規(guī)則,然后從文本中提取符合規(guī)則的詞串作為詞語(yǔ).因各語(yǔ)言的詞法和句法不同,構(gòu)詞規(guī)則一般僅適用于某一特定語(yǔ)言的文本詞語(yǔ)提取.例如,文獻(xiàn)[7,8]總結(jié)了中文詞語(yǔ)構(gòu)詞規(guī)則及中文詞語(yǔ)提取方法;文獻(xiàn)[9,10]總結(jié)了英文網(wǎng)頁(yè)或?qū)W術(shù)報(bào)告中的詞語(yǔ)構(gòu)詞規(guī)則,用于自動(dòng)提取英文術(shù)語(yǔ);文獻(xiàn)[11–13]等研究總結(jié)了西文的詞語(yǔ)提取規(guī)則.這些基于規(guī)則的詞語(yǔ)提取方法受限于規(guī)則庫(kù)的準(zhǔn)確性和全面性.由于總結(jié)構(gòu)詞規(guī)則耗時(shí)耗力,且難以用少量規(guī)則覆蓋多變的詞法和句法,因此這類詞語(yǔ)提取方法的召回率大都不高.

    基于統(tǒng)計(jì)的方法利用概率論和信息論,從大規(guī)模語(yǔ)料中統(tǒng)計(jì)多個(gè)原子詞的鄰接共現(xiàn)概率,提取得到原子詞和固定短語(yǔ).文獻(xiàn)[14,15]使用字符的共現(xiàn)率、字符串各部分的互信息、字符串的信息熵等指標(biāo)從大規(guī)模語(yǔ)料庫(kù)中提取詞語(yǔ).文獻(xiàn)[16,17]進(jìn)一步將詞語(yǔ)的上下文信息納入考量指標(biāo),提出了C-value 方法及其改進(jìn)方法NC-value.文獻(xiàn)[18]研究了改進(jìn)的C-value/NCvalue 方法,用于提取西文詞語(yǔ).這些基于統(tǒng)計(jì)的詞語(yǔ)提取方法不受構(gòu)詞規(guī)則的限制,也較少受到不同語(yǔ)言的影響,僅在分詞和詞形規(guī)范化階段因不同語(yǔ)言而異[19].這類方法一般都需要大規(guī)模語(yǔ)料的支持才能保證準(zhǔn)確率,不適用于可用語(yǔ)料較少的情況.

    混合的詞語(yǔ)提取方法,結(jié)合使用前述兩種方法,以同時(shí)保證結(jié)果的高準(zhǔn)確率和高召回率.文獻(xiàn)[20]結(jié)合詞性分析與串頻統(tǒng)計(jì),研究了一種提取中文詞語(yǔ)的原子詞步長(zhǎng)法.文獻(xiàn)[21]提出一種結(jié)合HITS與C-value的HC-value 方法,用于提取英文短語(yǔ).文獻(xiàn)[22]提出一種基于西文語(yǔ)義標(biāo)注,結(jié)合TF-IDF和NC-Value 的術(shù)語(yǔ)提取方法.此外,還有一些基于機(jī)器學(xué)習(xí)的術(shù)語(yǔ)提取方法[23,24].文獻(xiàn)[25]基于術(shù)語(yǔ)的詞性特征和上下文等信息訓(xùn)練SVM 模型,以提取具有相似位置特征的命名實(shí)體.這些混合方法既結(jié)合了基于規(guī)則和基于統(tǒng)計(jì)的詞語(yǔ)提取方法的優(yōu)點(diǎn),又能一定程度地克服兩種方法的不足,因此優(yōu)于非混合方法[26].混合方法是當(dāng)前詞語(yǔ)提取方法研究的主流.

    3 本文方法框架

    由于目前針對(duì)西語(yǔ)文本詞語(yǔ)提取的方法研究較少,因此,為了支持西語(yǔ)文本挖掘,本文借鑒前述中、英文文本詞語(yǔ)提取方法,提出一種結(jié)合語(yǔ)言學(xué)規(guī)則和統(tǒng)計(jì)學(xué)方法的西文詞語(yǔ)提取方法,利用詞法規(guī)則和單詞共現(xiàn)規(guī)律,從西語(yǔ)文本中自動(dòng)提取包含單詞和短語(yǔ)在內(nèi)的詞語(yǔ)集合.該方法分為3 步:文本預(yù)處理、候選詞語(yǔ)提取和成詞度計(jì)算.方法流程如圖1所示.

    圖1 西語(yǔ)文本詞語(yǔ)提取方法流程圖

    (1)文本預(yù)處理模塊,首先清洗輸入的西語(yǔ)文本,刪除其中與詞語(yǔ)提取無(wú)關(guān)的圖片、公式、標(biāo)識(shí)符等,輸出統(tǒng)一格式的純文本;然后采用現(xiàn)成工具進(jìn)行詞性標(biāo)注和詞形還原,輸出帶詞性標(biāo)注的標(biāo)準(zhǔn)化文本.詞性標(biāo)注是指為每個(gè)單詞標(biāo)注其POS 詞性.常用的西文詞性標(biāo)注工具有:Pattern.es[27]、NLTK[28]、Apache OpenNLP[29]、Stanford core NLP[30]、Polyglot[31]等.詞形還原是指把名詞復(fù)數(shù)、動(dòng)詞變位等變形的西語(yǔ)單詞還原為單詞原形.常用的西文詞形還原工具有Pattern.es[27]和NLTK[28]等.

    (2)候選詞語(yǔ)提取模塊.本文依據(jù)西語(yǔ)語(yǔ)法特征總結(jié)構(gòu)詞率低的單詞和詞性,總結(jié)形成停用詞表和停用詞性表.該模塊首先刪除前一模塊輸出文本中的停用詞,得到一個(gè)單詞串的序列;然后計(jì)算每一單詞串的子串及其出現(xiàn)頻次,超出頻次閾值的子串為頻繁詞串;刪除出現(xiàn)頻次與父串相同的頻繁詞串,其余的作為候選詞語(yǔ)輸出.后文第4 節(jié)詳細(xì)說(shuō)明該模塊的過(guò)程和方法.

    (3)成詞度計(jì)算模塊的輸入為前一模塊輸出的候選詞語(yǔ)集合,輸出為按成詞度降序排列的候選詞語(yǔ)序列.該模塊計(jì)算每一候選詞語(yǔ)的C'-value和D-value值,然后將加權(quán)和DC-value 值作為候選詞語(yǔ)的成詞度.把候選詞語(yǔ)序列交由西語(yǔ)專業(yè)人士進(jìn)行人工判斷選擇,可得到最終的西文詞語(yǔ)集合.后文第6 節(jié)詳細(xì)介紹成詞度計(jì)算方法.

    4 候選詞語(yǔ)提取

    候選詞語(yǔ)提取分為兩個(gè)步驟:停用詞刪除和頻繁詞串提取.

    停用詞刪除的輸入是帶詞性標(biāo)注的西語(yǔ)純文本、停用詞表和停用詞性表.該子模塊遍歷輸入文本,刪除其中出現(xiàn)在停用詞表和停用詞性表的單詞,僅保留位于句首的停用詞,輸出一個(gè)西文單詞串的序列.停用詞是那些參與造句但不參與構(gòu)詞的單詞,如es(是)、y(和)等;停用詞性是一些鮮少參與構(gòu)成短語(yǔ)的詞性,如代詞、副詞、從屬連詞等.本文在文獻(xiàn)[20]的基礎(chǔ)之上,依據(jù)經(jīng)驗(yàn)總結(jié)了西文詞語(yǔ)提取的停用詞表和停用詞性表.

    頻繁詞串提取的輸入是一個(gè)西語(yǔ)單詞串的序列,輸出是候選詞語(yǔ)集合.該子模塊以單詞為步長(zhǎng),對(duì)輸入的每一詞串以長(zhǎng)度優(yōu)先[32]取子串,并計(jì)算子串的出現(xiàn)頻次,出現(xiàn)頻次大于閾值的作為頻繁詞串.為了避免詞語(yǔ)提取的截?cái)鄦?wèn)題,出現(xiàn)頻次與父串相同的頻繁詞串不列入候選詞語(yǔ).例如,若父輩詞串“conjunto/NN de/IN dato/NNS”(數(shù)據(jù)集)在文本中出現(xiàn)了10 次,且其子串“dato/NNS”(數(shù)據(jù))也出現(xiàn)了10 次,則“dato/NNS”不列入候選詞語(yǔ)集合.

    以一段西語(yǔ)文本的處理為例說(shuō)明本文的候選詞語(yǔ)提取方法.圖2左側(cè)為一段西語(yǔ)文本,右側(cè)為其對(duì)應(yīng)的中文翻譯.圖2中的文本不具有特殊性.圖3為圖2文本經(jīng)文本預(yù)處理的結(jié)果.不失一般性,本文采用Pattern.es 進(jìn)行西文詞性標(biāo)注和詞形還原.圖4為圖3文本刪除停用詞和停用詞性詞之后的結(jié)果.為明晰起見,采用“[”和“]”作為段落起始和終止符.表1為圖4文本提取頻繁詞串所得的候選詞語(yǔ),其中的頻次僅記錄頻繁詞串獨(dú)立出現(xiàn)的次數(shù).

    表1 圖4候選詞語(yǔ)提取結(jié)果

    圖2 西語(yǔ)文本示例及其中文翻譯

    圖3 圖2西語(yǔ)文本的文本預(yù)處理結(jié)果

    圖4 圖3文本刪除停用詞后的結(jié)果

    5 成詞度計(jì)算

    成詞度是候選詞語(yǔ)成詞的可能性,其主要指標(biāo)是單元度(unithood)和領(lǐng)域度(termhood).其中,單元度衡量候選詞語(yǔ)內(nèi)部語(yǔ)言結(jié)構(gòu)的穩(wěn)定性;領(lǐng)域度衡量候選詞語(yǔ)與某一領(lǐng)域相關(guān)的程度.對(duì)每一個(gè)候選詞語(yǔ),本文首先計(jì)算其單元度和領(lǐng)域度,然后結(jié)合起來(lái)計(jì)算成詞度.

    C-value是常用的英文候選詞語(yǔ)單元度計(jì)算方法,但其僅考慮由兩個(gè)及以上單詞組成的詞語(yǔ)[17,18],不能用于計(jì)算僅由一個(gè)單詞構(gòu)成的詞語(yǔ)的單元度.為了全面比較包含單詞和短語(yǔ)在內(nèi)的候選詞語(yǔ)的單元度,本文對(duì)C-value 計(jì)算公式進(jìn)行改進(jìn),將C=log2|t|改為C=1+log2|t|,使其可以計(jì)算單詞的單元度.改進(jìn)后的算式如式(1)所示:

    式(1)中,t為候選詞語(yǔ),C=1+log2|t|,|t|表示t的長(zhǎng)度;t f(t)是t在西語(yǔ)文本中出現(xiàn)的頻次;Tt表示嵌套t的非t候選詞語(yǔ)的集合,|Tt|表示Tt集合中元素的個(gè)數(shù).

    C'-value 值越大,說(shuō)明候選詞語(yǔ)出現(xiàn)的頻次越高且被嵌套的情況越少,則其單獨(dú)成詞的可能性就越大.在出現(xiàn)頻次相等的情況下,較長(zhǎng)的候選詞語(yǔ)成詞的可能性更大.

    在計(jì)算候選詞語(yǔ)的領(lǐng)域度時(shí),本文借鑒文獻(xiàn)[33,34],采用式(2)計(jì)算領(lǐng)域度:

    式(2)中,t為候選詞語(yǔ),t f(t)表示t在西語(yǔ)文本中出現(xiàn)的總頻率,d f(t) 表示t出現(xiàn)的文本頻率;t fi(t)表示t在第i個(gè)文本中出現(xiàn)的次數(shù);N為t出現(xiàn)的文本數(shù).考慮到部分候選詞語(yǔ)僅在1 個(gè)文檔中出現(xiàn),所以引入第N+1 個(gè)文本對(duì)候選詞語(yǔ)的分布進(jìn)行修正,且t fN+1(t)等于t在修正后語(yǔ)料中出現(xiàn)的平均頻次.

    D-value 值越大,則候選詞語(yǔ)在輸入語(yǔ)料中的不同文本之間的分布越不均勻,說(shuō)明其越有可能與特定領(lǐng)域相關(guān),則其是領(lǐng)域?qū)S卸陶Z(yǔ)的可能性越大,因而成詞的可能性也就越大.

    結(jié)合單元度C′-value和領(lǐng)域度D-value 這兩個(gè)指標(biāo)計(jì)算候選詞語(yǔ)的成詞度,算式如式(3)所示:

    式(3)中,α為0 到1 之間的一個(gè)實(shí)數(shù),用于將C'-value和D-value 融合進(jìn)一個(gè)線性模型.多次實(shí)驗(yàn)的結(jié)果表明,α取值0.2 時(shí),成詞度的計(jì)算結(jié)果最準(zhǔn)確.

    6 實(shí)驗(yàn)分析

    目前還沒有檢驗(yàn)西文詞語(yǔ)提取方法優(yōu)劣的通用數(shù)據(jù)集,也沒有標(biāo)準(zhǔn)的評(píng)價(jià)指標(biāo).本文采用兩組實(shí)驗(yàn),比較分析本文所提出的西文詞語(yǔ)提取方法與傳統(tǒng)的Cvalue[17]和NC-value[18]方法的性能.

    6.1 實(shí)驗(yàn)數(shù)據(jù)

    本文采用兩個(gè)題材不同的西語(yǔ)語(yǔ)料比較分析:聯(lián)合國(guó)平行語(yǔ)料庫(kù)[35]和路透社文本分類語(yǔ)料庫(kù)[36].從聯(lián)合國(guó)平行語(yǔ)料庫(kù)中隨機(jī)選取246 篇西語(yǔ)會(huì)議記錄作為實(shí)驗(yàn)數(shù)據(jù)一,共12.8 MB;從路透社語(yǔ)料中選取200 篇新聞報(bào)道作為實(shí)驗(yàn)數(shù)據(jù)二,共162 KB.

    6.2 評(píng)價(jià)指標(biāo)

    常用的文本挖掘方法檢驗(yàn)指標(biāo)是召回率和準(zhǔn)確率.召回率主要受所采用的候選詞語(yǔ)提取方法的影響.西文詞語(yǔ)提取常用的C-value 方法和NC-value 方法在提取候選詞語(yǔ)時(shí),只考慮名詞和形容詞,基于詞性規(guī)則,僅能提取得到符合設(shè)定規(guī)則的名詞和形容詞組合.本文在提取候選詞語(yǔ)時(shí),全面考察各種詞性,僅刪除不參與構(gòu)詞的代詞、副詞、從屬連詞等,然后以單詞為步長(zhǎng)提取由各種詞性單詞組合而成的頻繁詞串,刪除其中僅作為子串出現(xiàn)的頻繁詞串之后得到候選詞語(yǔ)集合.因此,本文的西文詞語(yǔ)提取方法能夠提取得到的候選詞語(yǔ)數(shù)目大幅提高,約為C-value 方法和NC-value 方法的2.2 倍;并且,由于本文方法的準(zhǔn)確率較高,所以召回率也遠(yuǎn)高于C-value 方法和NC-value 方法.因此,本文不再比較3 種西文詞語(yǔ)提取方法的召回率,僅重點(diǎn)評(píng)價(jià)三者的準(zhǔn)確率.

    6.3 實(shí)驗(yàn)結(jié)果與分析

    首先對(duì)每組實(shí)驗(yàn)數(shù)據(jù)進(jìn)行文本預(yù)處理,接著以2為出現(xiàn)頻次的閾值提取頻繁詞串,刪除頻次與父串相同的頻繁詞串,得到候選詞語(yǔ)集合.然后計(jì)算候選詞語(yǔ)的成詞度,即C-value、NC-value和DC-value 值,并按成詞度降序排列輸出給西語(yǔ)專業(yè)人士判斷哪些候選成詞.實(shí)驗(yàn)數(shù)據(jù)一和數(shù)據(jù)二的候選詞語(yǔ)集合分別包含17 058 條和1983 條西文候選詞語(yǔ).

    盡管C-value和NC-value 方法在候選詞語(yǔ)提取階段的召回率遠(yuǎn)低于本文方法,但為了公平比較3 種方法的準(zhǔn)確率,在成詞度計(jì)算時(shí)為3 種方法提供了相同的候選詞語(yǔ)集合,均為由本文方法所得到的候選詞語(yǔ)集合.基于人工判斷的結(jié)果,從正確率和錯(cuò)誤率兩個(gè)方面分析詞語(yǔ)自動(dòng)提取的準(zhǔn)確率,如表2、表3和圖5、圖6所示.

    表2 聯(lián)合國(guó)平行語(yǔ)料庫(kù)詞語(yǔ)提取正確率(%)

    表3 路透社語(yǔ)料詞語(yǔ)提取結(jié)果正確率(%)

    圖5 聯(lián)合國(guó)平行語(yǔ)料庫(kù)詞語(yǔ)提取錯(cuò)誤率

    正確率和錯(cuò)誤率的計(jì)算公式分別如式(4)、式(5)所示:

    其中,候選詞語(yǔ)數(shù)是候選詞語(yǔ)集合中的詞語(yǔ)個(gè)數(shù);成詞數(shù)和不成詞數(shù)分別指由西語(yǔ)專業(yè)人士判斷成詞和不成詞的候選詞語(yǔ)的個(gè)數(shù);頻繁詞串?dāng)?shù)是指閾值大于2 的詞串個(gè)數(shù),其中包含那些出現(xiàn)頻次與父串相同的子串;誤刪詞數(shù)是那些本應(yīng)成詞但因僅作為子串出現(xiàn)而未列入候選詞語(yǔ)的頻繁詞串個(gè)數(shù).從表2、表3和圖5、圖6可以看到:

    圖6 路透社語(yǔ)料詞語(yǔ)提取結(jié)果錯(cuò)誤率

    (1)候選詞語(yǔ)集合相同的情況下,3 種成詞度計(jì)算方法對(duì)候選詞語(yǔ)的排序不同,但準(zhǔn)確率持平.可見,本文提出的西文詞語(yǔ)提取方法在大幅提高召回率的同時(shí),與經(jīng)典的C-value和NC-value 方法的準(zhǔn)確率持平.

    (2)語(yǔ)料的規(guī)模影響著本文方法的準(zhǔn)確率.實(shí)驗(yàn)數(shù)據(jù)二的詞語(yǔ)提取準(zhǔn)確率略低于數(shù)據(jù)一,原因是其語(yǔ)料規(guī)模較小,沒能完備地展現(xiàn)串頻共現(xiàn)的統(tǒng)計(jì)特征.圖2的西語(yǔ)文本較短,其中的頻繁詞串?dāng)?shù)量較少,且常因僅作為子串出現(xiàn)而被誤刪,如“tecnología(技術(shù))”、“sistema(系統(tǒng))”等.可見,本文方法更適用于語(yǔ)料規(guī)模較大的西語(yǔ)文本的詞語(yǔ)提取.

    總之,在西語(yǔ)文本詞語(yǔ)提取方面,本文方法的召回率顯著高于經(jīng)典的C-value和NC-value 方法;在成詞度計(jì)算方面,3 種方法的準(zhǔn)確率區(qū)別不大,都較為令人滿意.并且,語(yǔ)料規(guī)模越大,本文方法的準(zhǔn)確率越高.

    7 結(jié)論

    作為聯(lián)合國(guó)和眾多國(guó)際組織的工作語(yǔ)言,西班牙語(yǔ)在全球具有廣泛的使用范圍,是僅次于漢語(yǔ)的世界第二大語(yǔ)言,但目前西語(yǔ)文本挖掘研究尚不成熟,尤其是針對(duì)西語(yǔ)文本詞語(yǔ)提取的方法研究.我國(guó)與西語(yǔ)國(guó)家的雙邊經(jīng)貿(mào)關(guān)系發(fā)展迅速,為了支持基于西語(yǔ)信息的管理決策,本文提出一種西語(yǔ)文本詞語(yǔ)提取方法,以支持針對(duì)西語(yǔ)文本的文本挖掘和自動(dòng)分析.

    給定待分析的西語(yǔ)文本或語(yǔ)料庫(kù),本文分3 步自動(dòng)提取詞語(yǔ)集合:(1)對(duì)輸入文本進(jìn)行預(yù)處理,包括:文本清洗、詞性標(biāo)注和詞形還原;(2)根據(jù)西語(yǔ)語(yǔ)法特征總結(jié)停用詞表和停用詞性表,刪除文本中的停用詞,然后基于串頻統(tǒng)計(jì)提取得到候選詞語(yǔ)集合;(3)計(jì)算候選詞語(yǔ)的成詞度,以成詞度降序輸出給人工判斷選擇,得到最終的詞語(yǔ)集合.實(shí)驗(yàn)表明,本文方法的召回率顯著高于C-value和NC-value 等經(jīng)典的西語(yǔ)文本詞語(yǔ)提取方法,且準(zhǔn)確率與這些經(jīng)典方法持平.

    本文方法適用于大規(guī)模西語(yǔ)文本語(yǔ)料的詞語(yǔ)提取.在面向西語(yǔ)文本分類、聚類等文本挖掘任務(wù)時(shí),采用本文方法的前兩個(gè)步驟(文本預(yù)處理和候選詞語(yǔ)提取)即可無(wú)監(jiān)督地提取待分析文本中的詞語(yǔ)集合,供文本建模從中選取特征詞.在面向西語(yǔ)文本命名實(shí)體識(shí)別、本體構(gòu)建、機(jī)器翻譯等需要準(zhǔn)確詞語(yǔ)的任務(wù)時(shí),除了前兩個(gè)步驟,還需采用本文方法的第3 步(成詞度計(jì)算)計(jì)算候選詞語(yǔ)的成詞度.候選詞語(yǔ)按成詞度降序排列交由西語(yǔ)專業(yè)人士進(jìn)行人工判斷確定最終的詞語(yǔ)集合,能夠降低人工選詞的工作量.

    本文的西詞文本詞語(yǔ)提取方法的準(zhǔn)確率受到停用詞表和停用詞性表的影響,因此,未來(lái)將在應(yīng)用研究中繼續(xù)完善停用詞表和停用詞性表,進(jìn)一步提高西班牙語(yǔ)文本詞語(yǔ)提取方法的準(zhǔn)確率.

    猜你喜歡
    西文詞串西語(yǔ)
    高校圖書館西文古籍開發(fā)整理實(shí)踐及對(duì)策探討
    ——以河北大學(xué)圖書館為例
    樂(lè)籍西譯:五種《樂(lè)記》西文譯本、譯者及其傳播
    2019年拉美西語(yǔ)國(guó)家熱帶花卉園林景觀研修班結(jié)業(yè)
    靈動(dòng)的詞串,寫話的紐帶
    殯葬展
    《習(xí)近平喜歡的典故——平“語(yǔ)”近人》(西語(yǔ)版)全球上線
    報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
    新聞傳播(2018年15期)2018-09-18 03:19:58
    西文圖書編目中RDA書目記錄使用分析
    An Examination of the Main Characters in Heart of Darkness With Freud’s Theory
    高等教育英語(yǔ)專業(yè)建設(shè)回顧
    久久国内精品自在自线图片| 男人舔奶头视频| 国产在视频线在精品| 丰满少妇做爰视频| 日本猛色少妇xxxxx猛交久久| 国产黄频视频在线观看| 国产成人精品福利久久| 亚洲在线自拍视频| 免费看日本二区| 日韩亚洲欧美综合| 激情 狠狠 欧美| 国产亚洲最大av| 国产 一区精品| 一区二区三区高清视频在线| 久久久欧美国产精品| 99久国产av精品| 美女cb高潮喷水在线观看| 我要看日韩黄色一级片| 国产伦精品一区二区三区视频9| 久久精品人妻少妇| 夫妻性生交免费视频一级片| 午夜免费观看性视频| 女的被弄到高潮叫床怎么办| 亚洲国产色片| 亚洲最大成人手机在线| 国内精品宾馆在线| 午夜福利网站1000一区二区三区| 亚洲人成网站高清观看| 免费看日本二区| 欧美日韩国产mv在线观看视频 | xxx大片免费视频| 亚洲激情五月婷婷啪啪| 国产伦一二天堂av在线观看| 午夜免费观看性视频| 国产在线一区二区三区精| 日本欧美国产在线视频| 亚洲国产精品sss在线观看| 国产综合懂色| 日韩 亚洲 欧美在线| 天美传媒精品一区二区| 国产精品一区二区三区四区久久| 国产不卡一卡二| 边亲边吃奶的免费视频| 成年版毛片免费区| 久久亚洲国产成人精品v| 免费黄频网站在线观看国产| 免费少妇av软件| 精品久久久噜噜| 免费黄频网站在线观看国产| 午夜久久久久精精品| 亚洲美女搞黄在线观看| 成年av动漫网址| 中文字幕免费在线视频6| 亚洲精品国产av蜜桃| 蜜桃亚洲精品一区二区三区| 一级av片app| 欧美丝袜亚洲另类| 国产亚洲精品久久久com| 国产高清国产精品国产三级 | 夫妻午夜视频| 777米奇影视久久| 美女主播在线视频| 国产伦一二天堂av在线观看| 亚洲av在线观看美女高潮| 欧美 日韩 精品 国产| 秋霞在线观看毛片| 日韩亚洲欧美综合| 18禁裸乳无遮挡免费网站照片| 在线观看免费高清a一片| 最近视频中文字幕2019在线8| 免费电影在线观看免费观看| 看非洲黑人一级黄片| 日本与韩国留学比较| 国产永久视频网站| 人妻夜夜爽99麻豆av| 高清午夜精品一区二区三区| 岛国毛片在线播放| av在线亚洲专区| 国产激情偷乱视频一区二区| 国产成人精品一,二区| 尤物成人国产欧美一区二区三区| 超碰97精品在线观看| 久久精品久久久久久久性| 亚洲av电影不卡..在线观看| 狠狠精品人妻久久久久久综合| 狂野欧美白嫩少妇大欣赏| 插阴视频在线观看视频| 男女视频在线观看网站免费| 欧美日韩国产mv在线观看视频 | 天堂网av新在线| 精品亚洲乱码少妇综合久久| 欧美日韩亚洲高清精品| 麻豆av噜噜一区二区三区| 免费黄色在线免费观看| 国产精品嫩草影院av在线观看| 亚洲国产最新在线播放| 18禁在线无遮挡免费观看视频| 国精品久久久久久国模美| 听说在线观看完整版免费高清| 国产亚洲午夜精品一区二区久久 | 欧美日韩精品成人综合77777| av在线观看视频网站免费| 热99在线观看视频| 久久久成人免费电影| 一级毛片 在线播放| 欧美性猛交╳xxx乱大交人| 91久久精品国产一区二区成人| 好男人视频免费观看在线| 午夜福利视频1000在线观看| 亚洲婷婷狠狠爱综合网| 丝袜美腿在线中文| 男女边吃奶边做爰视频| 少妇的逼好多水| 观看美女的网站| 嫩草影院入口| 国内精品宾馆在线| 亚洲一区高清亚洲精品| 中文字幕制服av| 午夜精品一区二区三区免费看| 18+在线观看网站| 女人久久www免费人成看片| 少妇的逼水好多| 日韩成人伦理影院| 久久久久久久久久久免费av| 国内精品美女久久久久久| 日日啪夜夜撸| 亚洲欧洲国产日韩| 一边亲一边摸免费视频| 亚洲丝袜综合中文字幕| 亚洲在线观看片| 看黄色毛片网站| 亚洲av二区三区四区| 亚洲成色77777| 尾随美女入室| 亚洲精品一二三| 久久久久久久久中文| 国产 一区 欧美 日韩| 亚洲国产成人一精品久久久| 男人狂女人下面高潮的视频| 干丝袜人妻中文字幕| 三级毛片av免费| 久久久久性生活片| 久久草成人影院| 国产单亲对白刺激| 亚洲精品成人av观看孕妇| 久久久久精品性色| 成年人午夜在线观看视频 | 韩国av在线不卡| a级毛色黄片| 亚洲一区高清亚洲精品| 女人被狂操c到高潮| 国产一级毛片在线| 日韩一区二区三区影片| 97精品久久久久久久久久精品| 能在线免费观看的黄片| 简卡轻食公司| 欧美丝袜亚洲另类| 一级黄片播放器| 午夜免费激情av| 一区二区三区乱码不卡18| 大香蕉97超碰在线| av女优亚洲男人天堂| 国产精品美女特级片免费视频播放器| 99热全是精品| 日韩 亚洲 欧美在线| 精品人妻熟女av久视频| 中文乱码字字幕精品一区二区三区 | 在线观看一区二区三区| 久久久久精品久久久久真实原创| 亚洲美女视频黄频| 国产精品久久久久久精品电影| av又黄又爽大尺度在线免费看| 亚洲国产欧美在线一区| 久久人人爽人人爽人人片va| 2018国产大陆天天弄谢| 欧美另类一区| 超碰av人人做人人爽久久| 日日干狠狠操夜夜爽| 日日摸夜夜添夜夜爱| videossex国产| 麻豆成人午夜福利视频| 在线免费观看不下载黄p国产| 又爽又黄无遮挡网站| 极品教师在线视频| 亚洲av电影不卡..在线观看| 精品久久久久久成人av| 国产亚洲av片在线观看秒播厂 | kizo精华| 伊人久久精品亚洲午夜| 精品不卡国产一区二区三区| 国产免费福利视频在线观看| 国产永久视频网站| 中文字幕av成人在线电影| ponron亚洲| 精品人妻偷拍中文字幕| 日韩av在线免费看完整版不卡| 亚洲精品,欧美精品| 精品人妻视频免费看| 亚洲国产av新网站| 高清av免费在线| 一级片'在线观看视频| 777米奇影视久久| a级毛片免费高清观看在线播放| 亚洲aⅴ乱码一区二区在线播放| 国产精品久久视频播放| 久久国内精品自在自线图片| 成人鲁丝片一二三区免费| 成年免费大片在线观看| 中文字幕制服av| av黄色大香蕉| 黄色欧美视频在线观看| 国产伦理片在线播放av一区| 人体艺术视频欧美日本| 亚洲av日韩在线播放| 午夜日本视频在线| 97人妻精品一区二区三区麻豆| 国产成人91sexporn| 国产男人的电影天堂91| 久久久精品欧美日韩精品| 18禁在线无遮挡免费观看视频| 久久国内精品自在自线图片| 久久人人爽人人片av| 99久国产av精品| 中文在线观看免费www的网站| 成人午夜精彩视频在线观看| 伦理电影大哥的女人| 永久网站在线| 2021天堂中文幕一二区在线观| 国内少妇人妻偷人精品xxx网站| 熟女电影av网| 日韩人妻高清精品专区| 久久久午夜欧美精品| 九九久久精品国产亚洲av麻豆| 日韩大片免费观看网站| 成人午夜高清在线视频| 三级毛片av免费| 天堂影院成人在线观看| 亚洲人成网站在线观看播放| 国产高清不卡午夜福利| 日韩av不卡免费在线播放| 草草在线视频免费看| 日日干狠狠操夜夜爽| 国产精品嫩草影院av在线观看| 国产v大片淫在线免费观看| 国产一区有黄有色的免费视频 | 久久人人爽人人片av| 熟妇人妻不卡中文字幕| 波多野结衣巨乳人妻| 一个人看视频在线观看www免费| 国产精品久久久久久久电影| 人人妻人人澡欧美一区二区| 亚洲av免费在线观看| 最近中文字幕高清免费大全6| 中文乱码字字幕精品一区二区三区 | 伊人久久国产一区二区| 国产在线男女| 熟女电影av网| 深夜a级毛片| av在线天堂中文字幕| 免费在线观看成人毛片| 亚洲丝袜综合中文字幕| 黄色一级大片看看| 日本免费在线观看一区| 亚洲成人精品中文字幕电影| 2018国产大陆天天弄谢| 国产成人a∨麻豆精品| 国产美女午夜福利| 晚上一个人看的免费电影| 日韩一区二区视频免费看| 国产老妇女一区| 中文欧美无线码| 床上黄色一级片| 能在线免费看毛片的网站| 久久99热6这里只有精品| 国产一区有黄有色的免费视频 | 边亲边吃奶的免费视频| 最近视频中文字幕2019在线8| 春色校园在线视频观看| 一级av片app| kizo精华| 国产亚洲5aaaaa淫片| 欧美激情在线99| 国产成人a区在线观看| 久久99精品国语久久久| 日本爱情动作片www.在线观看| av女优亚洲男人天堂| 久久精品国产亚洲av天美| 国产成人午夜福利电影在线观看| 亚洲av二区三区四区| 人人妻人人澡欧美一区二区| 777米奇影视久久| 男女视频在线观看网站免费| 久久久久性生活片| 真实男女啪啪啪动态图| 国产一区二区三区综合在线观看 | 白带黄色成豆腐渣| 国产黄频视频在线观看| 国产av不卡久久| 久久国内精品自在自线图片| 极品少妇高潮喷水抽搐| 人妻一区二区av| 国产高潮美女av| 又粗又硬又长又爽又黄的视频| 亚洲国产色片| 免费人成在线观看视频色| 国产爱豆传媒在线观看| 夫妻午夜视频| 少妇人妻精品综合一区二区| 看黄色毛片网站| 国产精品国产三级专区第一集| 国产精品日韩av在线免费观看| 老司机影院成人| 亚洲三级黄色毛片| 美女脱内裤让男人舔精品视频| 亚洲国产精品专区欧美| 欧美日韩国产mv在线观看视频 | 亚洲av中文av极速乱| 亚洲怡红院男人天堂| 超碰av人人做人人爽久久| 99热6这里只有精品| 国产免费又黄又爽又色| 99视频精品全部免费 在线| 看非洲黑人一级黄片| 青青草视频在线视频观看| 熟女人妻精品中文字幕| 免费观看精品视频网站| 国产精品1区2区在线观看.| 人妻夜夜爽99麻豆av| 国产成人91sexporn| 免费观看性生交大片5| 少妇熟女欧美另类| 免费观看精品视频网站| 欧美区成人在线视频| 国产成人免费观看mmmm| 18禁在线无遮挡免费观看视频| 女的被弄到高潮叫床怎么办| 麻豆成人av视频| 97人妻精品一区二区三区麻豆| 男女国产视频网站| 欧美精品一区二区大全| 国产成人91sexporn| 69av精品久久久久久| 晚上一个人看的免费电影| 91狼人影院| 自拍偷自拍亚洲精品老妇| 色综合站精品国产| 午夜福利视频1000在线观看| 老女人水多毛片| 插逼视频在线观看| 国产精品无大码| 亚洲av电影在线观看一区二区三区 | 亚洲av日韩在线播放| 日韩制服骚丝袜av| 天天躁日日操中文字幕| 亚洲av不卡在线观看| 黄色配什么色好看| 国产亚洲5aaaaa淫片| 18禁在线播放成人免费| 韩国av在线不卡| 少妇的逼水好多| 永久网站在线| 国产成人免费观看mmmm| 久久午夜福利片| 午夜精品国产一区二区电影 | 亚洲国产最新在线播放| 久久99热6这里只有精品| 日韩电影二区| 欧美日韩一区二区视频在线观看视频在线 | 午夜爱爱视频在线播放| 精品一区二区三卡| 亚洲av日韩在线播放| 777米奇影视久久| 久99久视频精品免费| 赤兔流量卡办理| 国产免费福利视频在线观看| 亚洲av免费在线观看| 毛片女人毛片| 成人综合一区亚洲| 三级国产精品欧美在线观看| 国产国拍精品亚洲av在线观看| 国产精品久久久久久精品电影小说 | 成人午夜精彩视频在线观看| 亚洲精品乱码久久久久久按摩| 亚洲内射少妇av| 能在线免费观看的黄片| 午夜免费男女啪啪视频观看| 久久久午夜欧美精品| 亚洲av一区综合| 久久久久久久大尺度免费视频| 三级经典国产精品| 七月丁香在线播放| 成年人午夜在线观看视频 | 国内精品美女久久久久久| 亚洲欧洲日产国产| 中文字幕制服av| 亚洲欧美一区二区三区黑人 | a级毛色黄片| 97超碰精品成人国产| 看非洲黑人一级黄片| 国产精品熟女久久久久浪| 国产精品人妻久久久久久| 婷婷六月久久综合丁香| 久久久久网色| 久久久久国产网址| 99久久中文字幕三级久久日本| 国产精品一区www在线观看| 成年女人在线观看亚洲视频 | 成人亚洲欧美一区二区av| 国产黄a三级三级三级人| 又爽又黄无遮挡网站| 国产老妇女一区| 91久久精品国产一区二区三区| 99热这里只有精品一区| 成人毛片60女人毛片免费| 国产亚洲午夜精品一区二区久久 | 成人二区视频| 免费观看av网站的网址| 日本猛色少妇xxxxx猛交久久| 99热这里只有是精品在线观看| 看免费成人av毛片| 亚洲国产精品专区欧美| 禁无遮挡网站| 午夜免费观看性视频| 精品久久久久久久久亚洲| av卡一久久| 免费黄频网站在线观看国产| 免费av不卡在线播放| 国产精品一区二区三区四区久久| 中文字幕亚洲精品专区| 亚洲精品视频女| 国语对白做爰xxxⅹ性视频网站| 99久久精品一区二区三区| 亚洲国产精品sss在线观看| 男人和女人高潮做爰伦理| 国产成人freesex在线| 2018国产大陆天天弄谢| 亚洲一区高清亚洲精品| 免费大片黄手机在线观看| 欧美精品国产亚洲| 狂野欧美白嫩少妇大欣赏| 成人高潮视频无遮挡免费网站| 免费av毛片视频| 国产中年淑女户外野战色| 亚洲人成网站在线观看播放| 亚洲熟女精品中文字幕| 丝袜美腿在线中文| 成人一区二区视频在线观看| 国产亚洲5aaaaa淫片| 久久国内精品自在自线图片| 日韩国内少妇激情av| 少妇的逼好多水| 少妇高潮的动态图| 边亲边吃奶的免费视频| 日韩av在线大香蕉| 中文字幕av在线有码专区| 一级毛片 在线播放| 久久久久久久久久久丰满| av在线观看视频网站免费| 大香蕉97超碰在线| 网址你懂的国产日韩在线| 免费看美女性在线毛片视频| 亚洲三级黄色毛片| 国产成人免费观看mmmm| 午夜精品国产一区二区电影 | 看黄色毛片网站| 亚洲18禁久久av| 色尼玛亚洲综合影院| 日韩欧美精品v在线| 亚洲欧美一区二区三区国产| 人妻一区二区av| 久久久久久久久久黄片| 麻豆av噜噜一区二区三区| 国产精品久久久久久久电影| 免费大片18禁| 免费少妇av软件| 黄片wwwwww| 久99久视频精品免费| 国产成人精品福利久久| 久久久久久久午夜电影| 99久国产av精品| 国产av在哪里看| 精品欧美国产一区二区三| 日日摸夜夜添夜夜添av毛片| 亚洲18禁久久av| 99久久人妻综合| 欧美日韩在线观看h| 一区二区三区乱码不卡18| 久久亚洲国产成人精品v| 亚洲一级一片aⅴ在线观看| 免费看av在线观看网站| 1000部很黄的大片| 亚洲国产最新在线播放| 99久久九九国产精品国产免费| 久久综合国产亚洲精品| 精品久久久噜噜| 国产精品国产三级国产av玫瑰| 亚洲精品456在线播放app| 国产女主播在线喷水免费视频网站 | 午夜福利在线观看吧| 中文字幕久久专区| 26uuu在线亚洲综合色| 一级黄片播放器| 永久免费av网站大全| 天天躁日日操中文字幕| 国产伦一二天堂av在线观看| 欧美精品国产亚洲| 别揉我奶头 嗯啊视频| 自拍偷自拍亚洲精品老妇| 久久国内精品自在自线图片| 国产精品一区二区三区四区免费观看| 久久久久久国产a免费观看| 精品久久久久久久久久久久久| 欧美日韩在线观看h| 午夜爱爱视频在线播放| 国产精品1区2区在线观看.| 天美传媒精品一区二区| a级一级毛片免费在线观看| 亚洲av男天堂| 又爽又黄无遮挡网站| 国内少妇人妻偷人精品xxx网站| 精品久久久久久久末码| 特级一级黄色大片| 一级毛片电影观看| 一级爰片在线观看| 搡女人真爽免费视频火全软件| 在线免费观看不下载黄p国产| 国产有黄有色有爽视频| 成人午夜高清在线视频| 免费av观看视频| 爱豆传媒免费全集在线观看| 极品教师在线视频| 日日啪夜夜撸| 在线免费十八禁| 九九在线视频观看精品| 欧美激情在线99| 日韩国内少妇激情av| 欧美性感艳星| 国产又色又爽无遮挡免| 777米奇影视久久| 直男gayav资源| 日本色播在线视频| 久久人人爽人人片av| 三级国产精品欧美在线观看| 嫩草影院入口| 不卡视频在线观看欧美| 亚洲精品国产成人久久av| 精品久久久久久久人妻蜜臀av| 精品久久久久久久久av| 亚洲丝袜综合中文字幕| 日韩av免费高清视频| 国产免费又黄又爽又色| 777米奇影视久久| 久久久a久久爽久久v久久| 草草在线视频免费看| 亚洲国产成人一精品久久久| 亚洲精品日韩av片在线观看| 美女高潮的动态| 汤姆久久久久久久影院中文字幕 | 熟妇人妻不卡中文字幕| 亚洲精品成人久久久久久| 麻豆乱淫一区二区| 久久久午夜欧美精品| 三级毛片av免费| 国内少妇人妻偷人精品xxx网站| 在现免费观看毛片| 精品熟女少妇av免费看| 亚洲综合精品二区| 大陆偷拍与自拍| 久久午夜福利片| 久久久久久久久久久免费av| 一区二区三区四区激情视频| 亚洲在久久综合| 18禁在线播放成人免费| 日韩欧美一区视频在线观看 | 视频中文字幕在线观看| 国产探花极品一区二区| 国产黄片视频在线免费观看| 99re6热这里在线精品视频| 视频中文字幕在线观看| 搞女人的毛片| 两个人视频免费观看高清| 国内精品一区二区在线观看| 成人午夜高清在线视频| 亚洲欧美日韩东京热| 嫩草影院新地址| 国产伦在线观看视频一区| 综合色丁香网| 九草在线视频观看| 卡戴珊不雅视频在线播放| h日本视频在线播放| videossex国产| 国产有黄有色有爽视频| 日韩亚洲欧美综合| 中文字幕av成人在线电影| 麻豆乱淫一区二区| 深夜a级毛片| 成人亚洲精品av一区二区| 草草在线视频免费看| 男女那种视频在线观看| 亚洲熟妇中文字幕五十中出| 国产欧美日韩精品一区二区| 欧美另类一区| 91精品一卡2卡3卡4卡| 观看美女的网站| 看免费成人av毛片| 色播亚洲综合网| 国产精品一区二区在线观看99 | 51国产日韩欧美| 日产精品乱码卡一卡2卡三| 免费在线观看成人毛片| 国产精品福利在线免费观看| 久久草成人影院| 国产精品久久久久久精品电影| 黄色欧美视频在线观看| 久久久久久久午夜电影|