• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于百科語料的中英文雙語詞典提取

    2021-03-18 02:52:52單力秋于濟凡陶明陽
    中文信息學報 2021年1期
    關(guān)鍵詞:百科詞條括號

    王 星,單力秋,侯 磊,于濟凡,陳 吉,陶明陽

    (1. 遼寧工程技術(shù)大學 電子與信息工程學院,遼寧 葫蘆島 125105;2. 清華大學 計算機科學與技術(shù)系,北京 100084;3. 清華大學 人工智能研究院知識智能研究中心,北京 100084;4. 清華大學 北京信息科學與技術(shù)國家研究中心,北京 100084)

    0 引言

    隨著信息技術(shù)的飛速發(fā)展,不同國家和地區(qū)之間的交流日趨頻繁,這使得跨語言自然語言處理顯得愈發(fā)的有價值。在跨語言自然語言處理中,雙語詞典是一項非常重要的資源,其可以提供詞匯語義的跨語言等價信息[1],對許多跨語言自然語言處理任務很有幫助,例如,跨語言信息檢索[2]、機器翻譯[3]、跨語言標注投射[4]等。

    隨著社會的發(fā)展,新的概念、術(shù)語層出不窮,專業(yè)領(lǐng)域新詞不斷涌現(xiàn),手工編纂雙語詞典的方法已經(jīng)無法及時滿足需求[5]。近年來,使用計算機技術(shù)自動提取雙語詞典的方法得到了許多研究人員的關(guān)注[6]。一般來說,使用計算機技術(shù)自動提取雙語詞典的方法按照語料庫的不同分為基于平行語料庫的方法和基于可比語料庫的方法[7]。但是這兩種方法往往會因為沒有足夠多對應的雙語語料,以至于無法提取出新詞或者某些技術(shù)術(shù)語[8-9]。Nagata等人[9]在2001年指出,對于某些技術(shù)術(shù)語,可以從部分雙語數(shù)據(jù)中獲得其雙語信息。例如,在日語中,當引入眾所周知的詞(如技術(shù)術(shù)語或名稱)時,通常在第一次使用后在括號中添加與之等價的英文。不僅僅是日語,在中文中也常會出現(xiàn)這種情形,例如,在“姚明”的百科信息中,就存在“姚明(Yao Ming),男,漢族”的信息,名詞“姚明”的后面就是括號和姚明的英文?;诖?,F(xiàn)rancis Bond[8]在2008年提出了一種在部分雙語語料中提取雙語術(shù)語的方法,但由于該方法的語料庫為論文集、期刊文章以及IT新聞中的文本,故該方法缺少對文本內(nèi)容以外部分的提取。

    針對此類不足,本文以中英文兩種語言為例,提出了一種基于百科語料的中英文雙語詞典提取方法。網(wǎng)上的資源豐富、種類繁雜,而且更新很快,幾乎所有新出現(xiàn)的概念或術(shù)語都會在網(wǎng)上有所論述[10],而在線百科是對這些資源的匯總,故對在線百科進行專門的雙語詞典提取能夠提取出新詞和技術(shù)術(shù)語。本方法在一定程度上彌補了基于平行語料庫和基于可比語料庫兩種方法的不足,同時相比于只從部分雙語語料文本內(nèi)容里提取雙語信息的方法,本方法結(jié)合了在線百科特有的結(jié)構(gòu)特點,多提取到了一倍多的雙語信息。但也由于在線百科是不斷更新的,我們的語料庫是離線的源代碼,可能會出現(xiàn)術(shù)語覆蓋不全面的情況,因此我們的語料庫也需要定期的更新。

    本方法一共分為兩大模塊,分別對百科語料進行了五種不同的提取方法,其中第一模塊的三種提取方法的成功率都達到了98%以上,五種提取方法提取到的雙語信息進行綜合查重后的數(shù)量為969 308條。與其他方法不同,由于本方法所使用的語料庫是其他方法沒有使用過的百科語料,故本方法的評價指標是總的提取數(shù)量和提取的成功率。綜上所述,本文的貢獻主要體現(xiàn)在以下三點: 一是本文提出了一種對新詞和技術(shù)術(shù)語有很好的提取效果的雙語詞典的提取方法;二是首次直接使用了百科語料作為語料庫進行雙語詞典的提?。蝗潜痉椒ㄏ啾然诓糠蛛p語語料文本內(nèi)容的方法、在百科語料的數(shù)據(jù)集上對雙語信息的提取效果有顯著提升。

    1 相關(guān)研究

    目前,提取雙語詞典的方法有基于平行語料庫的方法、基于可比語料庫的方法和基于部分雙語語料的方法。

    基于平行語料庫的方法是利用平行語料庫中的高質(zhì)量的雙語文檔對齊信息來進行雙語詞典提取的[11-12]。這種方法以孫樂等人[11]在2000年完成的基于中英文平行語料庫的雙語詞典自動抽取的工作為代表,他們首先對平行語料進行句子對齊,其次對英語語料進行詞性標注,對中文語料進行切分并做詞性標注,統(tǒng)計名詞和名詞短語生成候選術(shù)語集、計算中英文的翻譯概率,最后通過設(shè)定閾值來選取中文翻譯,得到雙語詞典。平行語料庫是由同一個文件的兩種或者多種不同的語言表達所產(chǎn)生的語料組成,所以利用該方法來構(gòu)建雙語詞典具有很好的提取效果。但平行語料庫的構(gòu)建比較困難,僅存于少數(shù)語種和少數(shù)的領(lǐng)域之中,不利于該方法的推廣使用。相比之下,基于可比語料庫的方法則解決了這一問題。

    基于可比語料庫的方法是利用可比語料庫中大量交叉但不是嚴格互相翻譯的雙語信息進行雙語詞典的提取[13-14],這些互譯的雙語信息詞語基本出現(xiàn)在內(nèi)容、語域、交際環(huán)境等方面相近的不同語言文本上下文環(huán)境中。1995年,Rapp[15]發(fā)現(xiàn): 在單語種文本中,一個單詞會出現(xiàn)在不同的文本中,而且與這個單詞共同出現(xiàn)的單詞集合是基本一樣的,說明單詞的共現(xiàn)關(guān)系具有穩(wěn)定性,這種規(guī)律也被推廣到了多語言中。基于此,Rapp[16]在1999年提出了基于詞語關(guān)系矩陣從可比語料庫中提取雙語詞典的方法;張永臣等人[17]在2006年提出了基于Web數(shù)據(jù)的特定領(lǐng)域雙語詞典抽取。近年來,基于神經(jīng)網(wǎng)絡(luò)的方法得到的詞向量[18]被廣泛應用于各個領(lǐng)域,這種詞向量表示也為雙語詞典構(gòu)建的方法打開了新思路。一部分基于詞向量的方法首先把兩種語言的每個詞表示成詞向量[19-25],然后為兩種語言的向量空間建立聯(lián)系,得到共有的雙語詞向量空間;另一部分基于詞向量的方法是直接訓練神經(jīng)網(wǎng)絡(luò)模型得到共有的雙語詞向量空間[26-29],這些方法的共同點是在得到共有的雙語詞向量空間之后,在雙語詞向量空間中進行查找,獲取雙語詞典。與平行語料相比,可比語料更容易獲得,且存在于大量的語種和領(lǐng)域中,便于推廣使用。但是這兩種方法在提取新詞或者某些技術(shù)術(shù)語時都存在雙語資源匱乏的問題,對此,衍生出來了一種基于部分雙語語料的方法。

    基于部分雙語語料的方法可以從部分雙語數(shù)據(jù)(又稱“主要使用一種語言的數(shù)據(jù)”)中提取出雙語詞典。Nagata等人[9]指出,對于某些技術(shù)術(shù)語,可以從部分雙語數(shù)據(jù)中獲得雙語信息,這種部分雙語數(shù)據(jù)通常是來自新聞或者一些領(lǐng)域內(nèi)的文章,故此類方法對新詞和一些技術(shù)術(shù)語的雙語信息有很好的提取效果。這種方法主要以Francis Bond[8]的工作為代表,其方法是通過使用部分雙語數(shù)據(jù)中明確的提示(括號中的單詞)來提高精度,查找出所有出現(xiàn)的“詞(翻譯)”,并將其編譯為詞典;Cao等人于2018年提出了一種基于超鏈接的半監(jiān)督雙語詞典提取方法[30],這兩種方法給我們提供了啟發(fā)。

    2 方法描述

    為提取到所有新詞和技術(shù)術(shù)語,本方法對所有的百度百科詞條源代碼進行了提取。在Francis Bond[8]的思想基礎(chǔ)上,本方法融合了基于在線百科特有的基本信息框提取和基于Web標簽特有的超鏈接提取,在一定程度上提高了雙語詞典的提取效果。

    本方法的原理框圖如圖1所示,首先對百度百科詞條的源代碼進行預處理,并把百度百科詞條分成三個部分,分別是詞條摘要、基本信息框和正文內(nèi)容;然后分別對這三個部分進行對應的五種不同方法的提取,得到對應的提取結(jié)果;最后進行綜合查重,把這五種提取方法的提取結(jié)果按照不同的權(quán)重綜合到一個雙語詞典之中。

    圖1 基于百科語料的中英文雙語詞典提取原理框圖把百度百科詞條分成詞條摘要、基本信息框和正文內(nèi)容三個部分,分別對這三個部分進行對應的五種不同方法的提取,對提取結(jié)果進行綜合查重并融合到一個雙語詞典之中,其中基于詞條摘要、基于基本信息框和基于詞條正文的三種提取方法組成了基于單百科詞條的雙語詞典提取模塊,基于超鏈接和基于正則匹配括號的兩種提取方法組成了基于多百科詞條的雙語詞典提取模塊。

    根據(jù)使用百科詞條數(shù)量的不同,本方法分為基于單百科詞條的雙語詞典提取和基于多百科詞條的雙語詞典提取兩大模塊,一共五種提取方法,其中: ①基于基本信息框的提取方法利用了基本信息框中結(jié)構(gòu)化的數(shù)據(jù),因結(jié)構(gòu)化的數(shù)據(jù)置信度高,數(shù)據(jù)的質(zhì)量也比較可靠[31],所以非常適合提取雙語信息;②基于超鏈接的提取方法利用了Web標簽的性質(zhì),每一條超鏈接都有可能代表著一個新詞或者技術(shù)術(shù)語;③基于詞條摘要、基于正文及基于正則匹配括號這三種提取方法,由于語料均可以視為部分雙語語料的文本內(nèi)容,故用到了Francis Bond[8]的提取思想,即利用部分雙語語料中的特殊字符進行提取,比如在文本中提到某些新詞或者技術(shù)術(shù)語時,有的會有一個括起來的英語解釋,這種提取方法就是利用此線索來提取出雙語信息,不同的是,百度百科中括號里面可能會有部分中文信息,例如,“英文: ”“英語: ”“學名: ”等,本文方法是在匹配到這些中文信息之后先將中文信息剔除,再進行英文信息提取。

    2.1 基于單百科詞條的雙語詞典提取模塊

    單個百度百科詞條的內(nèi)容通常由三個部分組成,分別是詞條摘要(詞條簡介)、基本信息框和詞條的正文部分,所以基于單百科詞條的雙語詞典的提取模塊分別對這三部分進行提取。首先對百度百科源代碼進行預處理,取出詞條名稱、詞條摘要和詞條正文的文字部分,對詞條摘要和詞條正文進行詞條名稱的正則匹配,做對應的基于部分雙語語料的提取,對于基本信息框部分則保留其原本的代碼形態(tài),我們可以使用專門的方法來對其進行提取。

    2.1.1 基于詞條摘要的雙語詞典提取方法

    有些詞條的詞條摘要部分會出現(xiàn)該詞條的名稱及其對應的英文,并會用全角或者半角的小括號括起來。例如,如圖2所示,“數(shù)據(jù)挖掘”的百度百科詞條中,詞條摘要的第一句話就是“數(shù)據(jù)挖掘(Data mining)又譯為資料探勘、數(shù)據(jù)采礦。”我們可以用正則來檢索詞條摘要里是否有詞條名稱“數(shù)據(jù)挖掘”和其后面是括號英文,如果有再用正則提取出括號里的內(nèi)容,從這個詞條摘要中我們就抽取出來了“數(shù)據(jù)挖掘”及英文“Data mining”這一對雙語信息。

    圖2 “數(shù)據(jù)挖掘”百科詞條中摘要部分出現(xiàn)了該詞條的雙語信息

    2.1.2 基于基本信息框的雙語詞典提取方法

    有些詞條摘要的下面可能擁有該詞條的基本信息框。如圖3所示,“數(shù)據(jù)挖掘”的百度百科詞條的詞條摘要下面就存在這樣的信息框,信息框中的外文名屬性對應的屬性值即為該詞條的英文信息,從這個基本信息框的源代碼中我們先檢索屬性是否為外文名,如果是就提取出它屬性值里的文字,即“Data mining”這一英文信息,與詞條名稱結(jié)合,形成一對雙語信息。

    圖3 “數(shù)據(jù)挖掘”百科詞條中基本信息框部分出現(xiàn)了該詞條的英文信息

    2.1.3 基于詞條正文的雙語詞典提取方法

    有些詞條的摘要部分可能不存在該詞條的雙語信息,但是其正文部分可能存在該詞條的雙語信息。例如,如圖4(a)所示,“蓮花灘鄉(xiāng)”這個百度百科詞條中,其摘要部分并沒有該詞條的雙語信息,而圖4(b)中,“蓮花灘鄉(xiāng)”百科頁面中的正文部分卻出現(xiàn)了“蓮花灘鄉(xiāng)(Lianhuatan Xiang)”這一雙語信息,為了提高雙語詞典的提取效果,正文這部分的雙語信息也要提取出來,其提取方法與詞條摘要的提取方法類似,也可以用正則檢索到詞條正文里是否有詞條名稱并且其后面是括號英文,再用正則提取出括號里的內(nèi)容,與詞條名稱結(jié)合,成為一對雙語信息。

    2.2 基于多百科詞條的雙語詞典提取模塊

    在某詞條的正文部分,可能會出現(xiàn)其他詞條的雙語信息,例如,在“數(shù)據(jù)挖掘”的百科詞條的正文部分,就出現(xiàn)了如圖5所示的內(nèi)容,其中“分類(Classification)”“估計(Estimation)”等都不是該百度百科詞條名稱對應的雙語信息,但卻是各自對應的百度百科詞條的雙語信息,例如,“分類”就對應著如圖6所示的百科信息,對于這種在某詞條的正文部分出現(xiàn)的其他百度百科詞條雙語信息,也要提取出來備用。針對這一種情況,本方法進行了基于多百科詞條(跨百度百科)的雙語詞典的提取,基于多百科詞條的雙語詞典提取模塊分為基于超鏈接和基于正則匹配括號這兩種提取方法。

    圖4 “蓮花灘鄉(xiāng)”百科詞條的信息

    圖5 “數(shù)據(jù)挖掘”百科詞條中的正文部分出現(xiàn)了其他雙語信息

    圖6 “分類”的百科詞條的摘要部分信息

    2.2.1 基于超鏈接的雙語詞典提取方法

    跨百度百科進行提取最直觀的方法就是查找詞條全文所有的超鏈接,因為在所有在線百科詞條的內(nèi)容中,每一個超鏈接都對應著其他的百科詞條,如果該超鏈接是圖7中“統(tǒng)計”所示的可以點擊的超鏈接,后面是“(Statistics)”這樣的英文,這里就是一對雙語信息,而且這種雙語信息的準確率非常高,這里的提取方法利用了href標簽的特性。

    圖7 “數(shù)據(jù)挖掘”百科詞條的正文部分的超鏈接出現(xiàn)了雙語信息

    2.2.2 基于正則匹配括號的雙語詞典提取方法

    沒有超鏈接的詞語也有可能是其他百度百科的詞條名稱,如圖5中的“分類(Classification)”,沒有超鏈接,但卻是百度百科詞條的雙語信息。而且網(wǎng)絡(luò)上的詞語更新速度非??欤F(xiàn)在不是百科詞條名稱的詞語以后也有可能成為百科詞條名稱,所以也要把這些雙語信息提取出來。對此本文提出一種基于正則匹配括號的提取方法,該方法首先對百度百科的源代碼進行預處理,取出全文的內(nèi)容,然后把內(nèi)容進行反向處理,再匹配反向全文的所有括號,提取出括號前的K個字符,并對這K個字符按順序進行下面兩種不同方法的提取。

    (1) 首先在百科語料中提取出百度百科所有的詞條名稱,用文件的形式進行保存,然后用這個詞條名稱文件對這K個字符進行檢索,如果檢索出了詞條名稱且恰好該詞條名稱在K個字符的末尾,則意味著這個詞條名稱及其后面括號里的英文是一對雙語信息,提取出這一對雙語信息;若檢索時發(fā)現(xiàn)多個詞條名稱都在這K個字符的末尾,則以長度更長的詞條名稱為主。此方法使用了Zhang等人快速匹配的方法[32],加快了程序運行的速度。

    (2) 對于那些沒有檢索出詞條名稱或者檢索出來了但沒恰好在末尾的這K個字符,我們把它添加到一個列表中,若再遇到相同的情況且是相同的英文,也把它的前K個字符放入該列表中,最后對這個列表取公共的后綴,并提取出該公共后綴和這個英文,作為一對雙語信息。實驗中將K設(shè)置為25,在實驗部分會詳述這樣設(shè)置的原因。

    3 實驗

    3.1 實驗語料及評估標準

    本實驗選擇了中文和英文兩個語種,實驗中所使用的語料庫為百度百科詞條的源代碼,該語料庫可以通過爬蟲爬取得到,本實驗用到的百度百科詞條的源代碼一共9 133 651條。在基于正則匹配括號的提取方法中,使用了所有的百度百科詞條的名稱文件,這個文件需要對所有百度百科詞條源代碼進行對應提取才能得到,由于很多詞條的名稱是重復的,所以最終提取到的百度百科詞條的名稱一共8 169 135個。此外,并非所有的百度百科詞條都擁有雙語信息,故我們手動標注了以擁有基本信息框為主要條件的1 000個百度百科詞條的源代碼,用以測試各個提取方法的成功率。

    本實驗的實驗評估標準為總的提取數(shù)量和提取的成功率,其中總的提取數(shù)量是所有提取方法的提取結(jié)果綜合查重后的數(shù)量,提取成功率(extraction success rate,ESR)的計算方法如式(1)所示。

    其中,SEN為成功提取的雙語信息數(shù)量,TN為標注的總數(shù)量。

    3.2 實驗結(jié)果

    通過對本方法提取出來的雙語信息進行檢查,我們發(fā)現(xiàn)這些雙語信息中大部分的質(zhì)量較高,但語料庫中存在少量的噪聲數(shù)據(jù),例如,這五種提取方法都有可能提取出同一個中文的英文信息,但這些英文信息可能是不完全相同的,如表1中的“蓮花灘鄉(xiāng)”雙語信息中,基于摘要和超鏈接的方法沒有提取到雙語信息,其余三種方法卻找到了兩種不同的信息。

    表1 “蓮花灘鄉(xiāng)”雙語信息表

    在百科語料中,基本信息框?qū)儆诘湫偷慕Y(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)的置信度高,數(shù)據(jù)質(zhì)量可靠,所以基于基本信息框方法提取下來的數(shù)據(jù)也作為了本次提取的雙語詞典的基礎(chǔ),即Top 1,然后依次是基于超鏈接、摘要、正文和正則匹配括號的四種方法,這四種方法提取出來的結(jié)果在基于基本信息框方法提取結(jié)果的基礎(chǔ)上進行綜合。

    我們對每一種方法所提取到的雙語詞典進行了長度測量,各方法雙語信息的數(shù)量如表2所示,對于1 000個手動標注的數(shù)據(jù),標注的數(shù)量、各個提取方法實際提取到的數(shù)量和提取的成功率如表3所示,其中基于超鏈接和基于正則匹配括號的兩種方法為基于多百科詞條的方法,每個百科詞條內(nèi)容中可能會出現(xiàn)數(shù)個符合條件的詞, 故其標注的數(shù)量可能會超過標注的數(shù)據(jù)數(shù)量。由表2、表3可知,基于基本信息框的提取方法比較適合在線百科語料庫,也適合所有擁有基本信息框的語料,且該提取方法可以將大部分的雙語信息提取出來。

    表2 每一種方法提取到的雙語信息數(shù)量以及綜合查重后的雙語信息總數(shù)量

    表3 每種方法的提取成功率

    3.3 對比實驗

    為了驗證本文方法的有效性,本文設(shè)計了對比實驗,即基于部分雙語語料文本內(nèi)容的方法與本實驗基于部分雙語語料百科的方法進行了比較。表4為兩種方法查重后的雙語信息數(shù)量,由表4可知在百科語料庫中本方法提取出來的雙語信息數(shù)量遠遠超過基于文本內(nèi)容的方法提取出來的雙語信息數(shù)量;表5為兩種方法提取出來的部分詞語的英文信息, 由兩種方法提取出來的雙語信息情況的對比可知,本方法所提取出來的雙語信息更加準確。

    表5 兩種方法提取出英文信息的對比

    3.4 實驗參數(shù)分析及錯誤分析

    對于基于正則匹配括號的提取方法中的參數(shù)K=25,這里給予解釋。圖8顯示了百度百科詞條的名稱中各個長度的數(shù)量,由圖可知,當詞條名稱的長度超過25之后,名稱的數(shù)量較少,長度在1~25之間的名稱數(shù)量更是占據(jù)了總數(shù)量的99.5%;當參數(shù)小時,錯誤率會非常大;當參數(shù)大時,如圖9所示,提取到的雙語信息數(shù)量卻又會下降,其原因是正則表達式在匹配的過程中,覆蓋了想要提取的詞。在使用基于正則匹配括號的提取方法中的第二個方法時,例如,原文本是“數(shù)據(jù)挖掘(Data mining)是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟,數(shù)據(jù)挖掘(Data mining)通常與計算機科學有關(guān)...”目標是提取出{‘數(shù)據(jù)挖掘’:Data mining},即把這個雙語信息放在列表的第0位置。若取小參數(shù),例如10,則可以正常提取,即列表的第0位置為“掘挖據(jù)數(shù)”;若取大參數(shù),例如50,正則表達式會優(yōu)先匹配第一個括號,而后指針向后挪動50位,這樣就會覆蓋住相同的信息,導致提取失敗,這時列表的第0位置就變成了“掘挖據(jù)數(shù),驟步個一的中現(xiàn)發(fā)識知庫據(jù)數(shù)是)”,明顯這不是我們所需信息。綜合以上兩點,最終確定了25為最后的參數(shù)。

    圖8 百科詞條中各個名稱長度所擁有的名稱數(shù)量

    圖9 隨機10 000條數(shù)據(jù)各個參數(shù)的提取數(shù)量

    經(jīng)過對各個提取方法出現(xiàn)的錯誤進行分析,我們總結(jié)出了以下三點:

    (1) 超鏈接準確率低于95%,其原因是實驗時所用的百度百科源代碼是一年前爬取下來的,但是標注的時候使用的是現(xiàn)在的百度百科,超鏈接的更新很快,現(xiàn)在有很多以前所沒有的超鏈接,這就降低了此模塊的實際成功率,為反映真實情況,我們在爬取下來的部分源代碼上進行了標注,如表3基于超鏈接方法的括號內(nèi)容所示,其成功率達到了97.08%。

    (2) 基于正則匹配括號的提取方法的成功率為54.46%,其主要原因是這種提取方法的特點是: 語料的數(shù)量越多,所能提取的雙語信息的數(shù)量越多,而如果語料數(shù)量少則表現(xiàn)欠佳,為此我們提出了新的測量方式,即先用此方法在全部數(shù)據(jù)中匹配,再在結(jié)果中抽樣進行人工判斷,如表3基于正則匹配括號方法的括號內(nèi)容所示,其成功率達到了63%。

    (3) 基于詞條摘要、基本信息框和正文的這三種提取方法的成功率比較高,錯誤可能是人工標注時的錯誤或者一部分百度百科的更新導致的。

    4 結(jié)論與展望

    雙語詞典是跨語言自然語言處理中一項非常重要的資源。隨著社會的發(fā)展,新詞以及具體的技術(shù)術(shù)語不斷涌現(xiàn),某些新詞或技術(shù)術(shù)語可以通過基于部分雙語語料的方法提取出來,而目前基于部分雙語語料的方法主要集中在對文本內(nèi)容的提取上。針對此不足,本文提出了一種基于百科語料的中英文雙語詞典的提取方法,本方法分為兩大模塊,共用五種不同的方法對百科語料進行提取,其中第一模塊的三種提取方法的成功率都達到了98%以上,最終的結(jié)果是對這五種方法的提取結(jié)果進行綜合查重后的雙語詞典,查重后雙語信息的提取數(shù)量為969 308條。與以往的基于部分雙語語料的方法不同,本方法在對文本內(nèi)容的提取基礎(chǔ)上融合了基于在線百科特有的基本信息框提取和基于Web標簽特有的超鏈接提取,在一定程度上提升了雙語詞典的提取效果。

    在實驗過程中我們也發(fā)現(xiàn)了一些不足之處,例如存在選取大參數(shù)導致有些雙語信息提取不出來以及成功率低的問題。因此,下一步的研究方向?qū)⒓性谌绾卧趨?shù)選取最大值的情況下依然不干擾雙語信息的提取上,并尋找方法解決第五種方法成功率低的問題,以提高最終的雙語詞典的提取效果。

    猜你喜歡
    百科詞條括號
    括號填數(shù)
    我曾丟失過半個括號
    “入”與“人”
    樂樂“畫”百科
    百科小知識
    漏寫括號鬧出的笑話
    2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
    2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
    2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
    大數(shù)據(jù)相關(guān)詞條
    久久久久久久午夜电影 | 在线观看免费视频日本深夜| 国产xxxxx性猛交| 久久精品人人爽人人爽视色| 中文字幕人妻熟女乱码| 欧美最黄视频在线播放免费 | 女性生殖器流出的白浆| 欧美激情高清一区二区三区| 日韩av在线大香蕉| 狂野欧美激情性xxxx| 亚洲中文日韩欧美视频| 久久久久久免费高清国产稀缺| 啦啦啦免费观看视频1| 99国产综合亚洲精品| 99久久国产精品久久久| 精品高清国产在线一区| 午夜免费成人在线视频| 俄罗斯特黄特色一大片| 操美女的视频在线观看| 超碰成人久久| 久久狼人影院| 久久天躁狠狠躁夜夜2o2o| av片东京热男人的天堂| 99国产精品一区二区三区| 涩涩av久久男人的天堂| 免费高清在线观看日韩| 女人被狂操c到高潮| 亚洲午夜理论影院| 日韩免费av在线播放| 欧美黑人欧美精品刺激| 一区二区三区精品91| 亚洲欧洲精品一区二区精品久久久| 亚洲色图av天堂| 亚洲国产精品sss在线观看 | 看免费av毛片| 精品一区二区三区视频在线观看免费 | 久久精品国产清高在天天线| cao死你这个sao货| 99久久综合精品五月天人人| 成人永久免费在线观看视频| 国产av在哪里看| 国产免费现黄频在线看| 在线观看免费午夜福利视频| 黄色怎么调成土黄色| 激情视频va一区二区三区| 亚洲精品一二三| 色精品久久人妻99蜜桃| 熟女少妇亚洲综合色aaa.| 不卡av一区二区三区| 亚洲国产毛片av蜜桃av| 日韩欧美免费精品| 国产亚洲欧美98| 欧美日韩国产mv在线观看视频| 每晚都被弄得嗷嗷叫到高潮| 国产欧美日韩精品亚洲av| 欧美日韩视频精品一区| 久久人人爽av亚洲精品天堂| 久久久久久免费高清国产稀缺| 男女床上黄色一级片免费看| 欧美精品一区二区免费开放| 人人妻人人添人人爽欧美一区卜| 激情视频va一区二区三区| 99精品欧美一区二区三区四区| 黄片大片在线免费观看| 黑人欧美特级aaaaaa片| 丰满饥渴人妻一区二区三| 亚洲精品一二三| 午夜免费激情av| 9色porny在线观看| 亚洲 欧美 日韩 在线 免费| 黄片小视频在线播放| 国产精品偷伦视频观看了| 久久热在线av| 欧美亚洲日本最大视频资源| 国产精品二区激情视频| 一级,二级,三级黄色视频| 视频区图区小说| 精品第一国产精品| 在线观看www视频免费| 亚洲 国产 在线| 国产av一区二区精品久久| 90打野战视频偷拍视频| cao死你这个sao货| 亚洲一区高清亚洲精品| 国产aⅴ精品一区二区三区波| 在线国产一区二区在线| 一二三四在线观看免费中文在| 午夜两性在线视频| 伊人久久大香线蕉亚洲五| 国产三级在线视频| 欧美日本中文国产一区发布| 99国产综合亚洲精品| 青草久久国产| 日本vs欧美在线观看视频| 自拍欧美九色日韩亚洲蝌蚪91| 成人国语在线视频| www.www免费av| 夜夜夜夜夜久久久久| 久久午夜综合久久蜜桃| 一本大道久久a久久精品| 成人av一区二区三区在线看| 欧美黑人欧美精品刺激| 这个男人来自地球电影免费观看| 欧美日韩亚洲国产一区二区在线观看| 成人精品一区二区免费| 麻豆久久精品国产亚洲av | 免费久久久久久久精品成人欧美视频| 亚洲中文日韩欧美视频| 成人特级黄色片久久久久久久| 亚洲成人免费av在线播放| 欧美激情 高清一区二区三区| а√天堂www在线а√下载| 在线观看免费午夜福利视频| 十分钟在线观看高清视频www| 亚洲欧洲精品一区二区精品久久久| 日日摸夜夜添夜夜添小说| 国产精品乱码一区二三区的特点 | 欧美日韩黄片免| 亚洲欧美日韩无卡精品| 宅男免费午夜| 久久久久久久午夜电影 | 亚洲欧美日韩另类电影网站| 黑人巨大精品欧美一区二区蜜桃| 两个人免费观看高清视频| 淫秽高清视频在线观看| 97超级碰碰碰精品色视频在线观看| 久久精品亚洲熟妇少妇任你| 欧美黑人精品巨大| 大香蕉久久成人网| 丁香六月欧美| www.自偷自拍.com| 少妇被粗大的猛进出69影院| 91av网站免费观看| 欧美中文综合在线视频| 亚洲欧美激情在线| 免费高清视频大片| 国产黄色免费在线视频| 91麻豆av在线| www日本在线高清视频| 两个人免费观看高清视频| 欧美成狂野欧美在线观看| 成人精品一区二区免费| 一级a爱片免费观看的视频| av超薄肉色丝袜交足视频| 淫妇啪啪啪对白视频| 精品电影一区二区在线| 国内毛片毛片毛片毛片毛片| 免费av中文字幕在线| 久久婷婷成人综合色麻豆| 免费高清在线观看日韩| 成人亚洲精品av一区二区 | 精品国产一区二区久久| 好看av亚洲va欧美ⅴa在| 乱人伦中国视频| 最近最新中文字幕大全免费视频| 久久人妻av系列| 伊人久久大香线蕉亚洲五| 亚洲七黄色美女视频| 中文字幕最新亚洲高清| 老熟妇仑乱视频hdxx| 国产有黄有色有爽视频| 成人18禁在线播放| 午夜精品国产一区二区电影| а√天堂www在线а√下载| 欧美大码av| 男人舔女人的私密视频| 亚洲精品中文字幕一二三四区| 亚洲精品国产色婷婷电影| 黄色 视频免费看| av在线天堂中文字幕 | 在线观看一区二区三区激情| 国产精品久久视频播放| av国产精品久久久久影院| 新久久久久国产一级毛片| 亚洲国产欧美一区二区综合| 亚洲欧美日韩高清在线视频| 涩涩av久久男人的天堂| 免费人成视频x8x8入口观看| 9色porny在线观看| av中文乱码字幕在线| 中亚洲国语对白在线视频| 啦啦啦在线免费观看视频4| 成人三级黄色视频| 国产精华一区二区三区| 精品卡一卡二卡四卡免费| av欧美777| 99在线视频只有这里精品首页| 欧美乱色亚洲激情| 波多野结衣av一区二区av| 俄罗斯特黄特色一大片| 欧美中文综合在线视频| 免费在线观看影片大全网站| 18禁美女被吸乳视频| 丰满迷人的少妇在线观看| 婷婷精品国产亚洲av在线| 母亲3免费完整高清在线观看| 9色porny在线观看| 免费在线观看影片大全网站| 日韩三级视频一区二区三区| 大码成人一级视频| 国产无遮挡羞羞视频在线观看| 亚洲九九香蕉| 男女高潮啪啪啪动态图| www.自偷自拍.com| 亚洲一区二区三区欧美精品| 美女福利国产在线| 精品人妻在线不人妻| 日韩高清综合在线| 人妻丰满熟妇av一区二区三区| 亚洲伊人色综图| 啪啪无遮挡十八禁网站| 丁香六月欧美| 日本 av在线| 人人妻人人澡人人看| av免费在线观看网站| 欧美激情极品国产一区二区三区| 精品午夜福利视频在线观看一区| 精品国产亚洲在线| 女生性感内裤真人,穿戴方法视频| 免费在线观看亚洲国产| 亚洲人成网站在线播放欧美日韩| 精品久久久久久久毛片微露脸| 高清在线国产一区| 免费看a级黄色片| 高清毛片免费观看视频网站 | 天堂动漫精品| 91麻豆av在线| 国产欧美日韩一区二区三区在线| 老鸭窝网址在线观看| 窝窝影院91人妻| 国产男靠女视频免费网站| 欧美在线一区亚洲| 看片在线看免费视频| 精品国产一区二区三区四区第35| 欧美人与性动交α欧美精品济南到| 成人永久免费在线观看视频| 80岁老熟妇乱子伦牲交| 如日韩欧美国产精品一区二区三区| 一本综合久久免费| 国产欧美日韩精品亚洲av| 高清av免费在线| 欧美+亚洲+日韩+国产| 日韩高清综合在线| 国产精品久久久久成人av| 99在线人妻在线中文字幕| 成人三级做爰电影| 欧美一区二区精品小视频在线| 夜夜爽天天搞| 午夜91福利影院| 丰满的人妻完整版| 日本撒尿小便嘘嘘汇集6| 国产亚洲精品久久久久久毛片| 中文字幕人妻丝袜制服| 我的亚洲天堂| 久久久国产欧美日韩av| 免费女性裸体啪啪无遮挡网站| 精品久久久久久成人av| 老汉色∧v一级毛片| 99国产精品一区二区蜜桃av| 色综合婷婷激情| a级片在线免费高清观看视频| 成人国语在线视频| 国产精品综合久久久久久久免费 | 国产精品偷伦视频观看了| 免费日韩欧美在线观看| 色综合站精品国产| 两个人看的免费小视频| av在线播放免费不卡| 精品无人区乱码1区二区| 亚洲成人免费电影在线观看| 欧美成人性av电影在线观看| 真人做人爱边吃奶动态| 亚洲,欧美精品.| 欧美成人免费av一区二区三区| 三上悠亚av全集在线观看| 最近最新免费中文字幕在线| 一本综合久久免费| 国产一区二区激情短视频| 91大片在线观看| 精品一区二区三卡| 美女 人体艺术 gogo| 一二三四在线观看免费中文在| 中文字幕另类日韩欧美亚洲嫩草| 脱女人内裤的视频| 黄色女人牲交| 久久久久国产一级毛片高清牌| 欧美+亚洲+日韩+国产| 久久性视频一级片| av免费在线观看网站| 国产伦人伦偷精品视频| 中文字幕高清在线视频| 欧美老熟妇乱子伦牲交| 亚洲国产中文字幕在线视频| 久久国产乱子伦精品免费另类| 国产精品美女特级片免费视频播放器 | 不卡av一区二区三区| 久久久久久大精品| 亚洲情色 制服丝袜| 欧美黑人精品巨大| 精品久久蜜臀av无| 人人妻,人人澡人人爽秒播| 99在线视频只有这里精品首页| 黑人巨大精品欧美一区二区mp4| 亚洲性夜色夜夜综合| 丁香六月欧美| 国产一卡二卡三卡精品| 午夜久久久在线观看| 国产野战对白在线观看| 日本一区二区免费在线视频| 夜夜看夜夜爽夜夜摸 | 在线观看舔阴道视频| 久久久水蜜桃国产精品网| 丰满迷人的少妇在线观看| 日韩欧美一区视频在线观看| 亚洲欧美精品综合久久99| 亚洲精品在线观看二区| 国产av又大| 免费在线观看视频国产中文字幕亚洲| 成人三级黄色视频| 免费看十八禁软件| 国产熟女xx| 亚洲精品美女久久久久99蜜臀| 午夜成年电影在线免费观看| 国产精品久久久av美女十八| 99久久精品国产亚洲精品| 天天躁夜夜躁狠狠躁躁| 99在线视频只有这里精品首页| 夜夜看夜夜爽夜夜摸 | 精品国产乱子伦一区二区三区| 日韩欧美一区视频在线观看| 欧美日韩亚洲国产一区二区在线观看| 亚洲欧美日韩无卡精品| 女人精品久久久久毛片| 亚洲精品在线观看二区| 久久久精品国产亚洲av高清涩受| netflix在线观看网站| 日韩三级视频一区二区三区| 黄色怎么调成土黄色| 欧美黄色片欧美黄色片| 国产高清videossex| 日韩精品免费视频一区二区三区| 女人被狂操c到高潮| 国产av在哪里看| 日本wwww免费看| 亚洲 国产 在线| 99热国产这里只有精品6| 国产无遮挡羞羞视频在线观看| 嫁个100分男人电影在线观看| 又紧又爽又黄一区二区| 狠狠狠狠99中文字幕| 色播在线永久视频| 亚洲第一青青草原| 最新在线观看一区二区三区| 精品国产亚洲在线| 大香蕉久久成人网| 丰满饥渴人妻一区二区三| 午夜免费激情av| 一边摸一边做爽爽视频免费| 又大又爽又粗| 国产视频一区二区在线看| 交换朋友夫妻互换小说| 真人做人爱边吃奶动态| 免费av毛片视频| 欧美中文综合在线视频| 亚洲精品在线观看二区| 亚洲一卡2卡3卡4卡5卡精品中文| 在线观看www视频免费| 国产精华一区二区三区| 精品国产超薄肉色丝袜足j| 在线观看免费日韩欧美大片| 久久精品91蜜桃| 超色免费av| 国产视频一区二区在线看| 日韩大码丰满熟妇| 日韩中文字幕欧美一区二区| 久久性视频一级片| 色哟哟哟哟哟哟| 成年人黄色毛片网站| 热re99久久精品国产66热6| 欧美成狂野欧美在线观看| 亚洲一区二区三区色噜噜 | 久久 成人 亚洲| 天堂动漫精品| 可以在线观看毛片的网站| 19禁男女啪啪无遮挡网站| 日日夜夜操网爽| 亚洲精品美女久久av网站| 亚洲色图综合在线观看| 琪琪午夜伦伦电影理论片6080| 一区二区三区国产精品乱码| 天天添夜夜摸| 一本大道久久a久久精品| 51午夜福利影视在线观看| 亚洲国产精品合色在线| 久久久精品欧美日韩精品| 脱女人内裤的视频| 琪琪午夜伦伦电影理论片6080| 亚洲中文日韩欧美视频| av在线天堂中文字幕 | 久久久国产精品麻豆| 精品第一国产精品| 99国产精品免费福利视频| xxx96com| 黄色视频不卡| 亚洲中文日韩欧美视频| 亚洲九九香蕉| 亚洲国产欧美网| 久久人妻福利社区极品人妻图片| 欧美性长视频在线观看| 交换朋友夫妻互换小说| 久久国产精品影院| 久久精品亚洲av国产电影网| 国产成人欧美| 国产成人av教育| av天堂在线播放| 免费在线观看黄色视频的| 99久久人妻综合| 久久久国产成人精品二区 | 一级毛片女人18水好多| videosex国产| 中文字幕精品免费在线观看视频| 日韩av在线大香蕉| 一边摸一边做爽爽视频免费| 成人黄色视频免费在线看| 精品电影一区二区在线| 夜夜夜夜夜久久久久| 国产一区在线观看成人免费| 免费av中文字幕在线| 免费在线观看完整版高清| 精品国内亚洲2022精品成人| 淫秽高清视频在线观看| 欧美性长视频在线观看| 久久精品91无色码中文字幕| 亚洲精品国产区一区二| 99久久国产精品久久久| 亚洲国产精品999在线| 国产精品久久电影中文字幕| 在线免费观看的www视频| 免费观看精品视频网站| 国产精品爽爽va在线观看网站 | 色综合欧美亚洲国产小说| 国产蜜桃级精品一区二区三区| 久久久久久久久免费视频了| 久久精品人人爽人人爽视色| 超碰成人久久| 视频在线观看一区二区三区| 搡老熟女国产l中国老女人| 欧美激情极品国产一区二区三区| 一本综合久久免费| 久久精品国产亚洲av高清一级| 亚洲专区国产一区二区| 中文字幕人妻熟女乱码| av天堂在线播放| 一级片'在线观看视频| 1024香蕉在线观看| 美女福利国产在线| 国产成人精品久久二区二区91| 亚洲欧美日韩另类电影网站| 操出白浆在线播放| 国产成人系列免费观看| 成人影院久久| 亚洲av日韩精品久久久久久密| 一本综合久久免费| 在线观看午夜福利视频| 大型黄色视频在线免费观看| 99久久综合精品五月天人人| 精品乱码久久久久久99久播| 亚洲av成人一区二区三| 亚洲国产欧美一区二区综合| 女人被躁到高潮嗷嗷叫费观| av片东京热男人的天堂| 国产精品久久久人人做人人爽| 久久人妻av系列| 午夜福利,免费看| 久久人妻av系列| 男女床上黄色一级片免费看| 咕卡用的链子| 一边摸一边抽搐一进一小说| 亚洲专区中文字幕在线| 精品午夜福利视频在线观看一区| 亚洲av美国av| 黑人操中国人逼视频| 久久人妻熟女aⅴ| 亚洲va日本ⅴa欧美va伊人久久| 日韩av在线大香蕉| 亚洲成人久久性| 最新在线观看一区二区三区| 91麻豆精品激情在线观看国产 | 日韩av在线大香蕉| 每晚都被弄得嗷嗷叫到高潮| 久久久久国产一级毛片高清牌| 国产精品免费一区二区三区在线| 亚洲午夜理论影院| 久久精品成人免费网站| 欧美一区二区精品小视频在线| 老司机午夜福利在线观看视频| 亚洲成人国产一区在线观看| 久久精品国产综合久久久| 亚洲国产欧美一区二区综合| 午夜精品国产一区二区电影| 欧美另类亚洲清纯唯美| 啦啦啦 在线观看视频| 99国产精品一区二区三区| 久久久久久久精品吃奶| 成年版毛片免费区| 一级片免费观看大全| 久久国产精品影院| 欧美日韩国产mv在线观看视频| 电影成人av| 日本免费一区二区三区高清不卡 | 亚洲av五月六月丁香网| 99精品久久久久人妻精品| 啦啦啦免费观看视频1| 亚洲在线自拍视频| 黄频高清免费视频| 丰满饥渴人妻一区二区三| 97超级碰碰碰精品色视频在线观看| 国产蜜桃级精品一区二区三区| 91精品国产国语对白视频| 日韩av在线大香蕉| 国产欧美日韩一区二区三区在线| 高清av免费在线| 99在线人妻在线中文字幕| 在线十欧美十亚洲十日本专区| 亚洲五月天丁香| 一区二区三区激情视频| 69精品国产乱码久久久| 精品一区二区三卡| 亚洲精品av麻豆狂野| 久久久久久久精品吃奶| 三上悠亚av全集在线观看| 亚洲avbb在线观看| 色综合站精品国产| 少妇 在线观看| 久久这里只有精品19| 日韩欧美一区二区三区在线观看| 亚洲国产欧美网| 在线观看午夜福利视频| 亚洲精品一区av在线观看| 天堂影院成人在线观看| 黄色视频,在线免费观看| 中文亚洲av片在线观看爽| 国产亚洲欧美98| 日韩欧美三级三区| 99国产精品一区二区三区| 波多野结衣一区麻豆| 精品一区二区三卡| 麻豆一二三区av精品| 色精品久久人妻99蜜桃| 国产av在哪里看| 国产日韩一区二区三区精品不卡| 少妇裸体淫交视频免费看高清 | 母亲3免费完整高清在线观看| 亚洲 国产 在线| 国产片内射在线| 午夜福利在线免费观看网站| 欧美成人午夜精品| 十分钟在线观看高清视频www| 男女床上黄色一级片免费看| 欧美日韩瑟瑟在线播放| 精品熟女少妇八av免费久了| 久久精品国产亚洲av香蕉五月| 国产亚洲精品综合一区在线观看 | 亚洲精品一区av在线观看| 久久国产精品人妻蜜桃| av在线天堂中文字幕 | 一级,二级,三级黄色视频| 亚洲精品在线观看二区| 黑人欧美特级aaaaaa片| 最近最新中文字幕大全免费视频| 天天躁夜夜躁狠狠躁躁| 亚洲精品国产色婷婷电影| 久久人妻福利社区极品人妻图片| 亚洲一区二区三区色噜噜 | 亚洲自拍偷在线| 黄色怎么调成土黄色| 交换朋友夫妻互换小说| 久久久久亚洲av毛片大全| xxx96com| 男女下面插进去视频免费观看| 好男人电影高清在线观看| 中文字幕最新亚洲高清| 久久人妻熟女aⅴ| 纯流量卡能插随身wifi吗| 国产av一区在线观看免费| 91av网站免费观看| 国产精品综合久久久久久久免费 | 精品高清国产在线一区| 桃红色精品国产亚洲av| 美女午夜性视频免费| 国产成人精品久久二区二区免费| 一区二区三区精品91| 精品国产一区二区三区四区第35| 亚洲中文日韩欧美视频| 青草久久国产| 波多野结衣av一区二区av| 丝袜美腿诱惑在线| 在线观看www视频免费| 久久久国产一区二区| 午夜福利在线免费观看网站| 妹子高潮喷水视频| 欧洲精品卡2卡3卡4卡5卡区| 国产一区二区三区在线臀色熟女 | 国产亚洲欧美98| 日本黄色日本黄色录像| 久久国产精品影院| 精品久久蜜臀av无| 久久久久久大精品| 超碰97精品在线观看| 法律面前人人平等表现在哪些方面| 国产av精品麻豆| 女人被躁到高潮嗷嗷叫费观| 亚洲欧洲精品一区二区精品久久久| 天堂中文最新版在线下载| 日韩精品青青久久久久久|