• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的自動(dòng)識(shí)別與術(shù)語(yǔ)庫(kù)構(gòu)建

      2022-01-12 02:35:01夏榕璟張克亮
      中國(guó)科技術(shù)語(yǔ) 2022年1期
      關(guān)鍵詞:自動(dòng)識(shí)別

      夏榕璟 張克亮

      摘 要:網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)(Network Informal Language Expression, NILE)具有的創(chuàng)新性強(qiáng)、超常規(guī)化、表達(dá)方式口語(yǔ)化等特點(diǎn),為許多自然語(yǔ)言處理任務(wù)帶來(lái)了挑戰(zhàn)。在使用網(wǎng)絡(luò)語(yǔ)言進(jìn)行交流的過(guò)程中,部分網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)逐漸標(biāo)準(zhǔn)化和規(guī)范化,形成網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)。通過(guò)對(duì)46萬(wàn)余條Twitter數(shù)據(jù)的收集、處理和分析,英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)可以在音、形、義層面劃分為13類,并對(duì)其特征進(jìn)行分析和總結(jié)。結(jié)合統(tǒng)計(jì)方法和規(guī)則方法的優(yōu)點(diǎn),設(shè)計(jì)了統(tǒng)計(jì)和規(guī)則融合的英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)自動(dòng)識(shí)別方法。最終構(gòu)建規(guī)模為7000余條的網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)庫(kù)。

      關(guān)鍵詞: 網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá);自動(dòng)識(shí)別;術(shù)語(yǔ)庫(kù)

      中圖分類號(hào):N04; H083? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.004

      Automatic Recognition and Terminology Database Construction of English Network Informal Language Expressions//XIA Rongjing, ZHANG Keliang

      Abstract: Network Informal Language Expression (NILE) has the characteristics of novelty, unconventionality and colloquialism,which poses a challenge to many natural language processing tasks. In the process of using online language for communication, some NILEs are gradually standardized and normalized, forming a crucial part of the NILE terminology. By collecting, processing and analyzing more than 460 000 tweets, we divide English NILEs into 13 categories from the perspectives of sound, form and sense, and further analyzed their characteristics. Taking the advantage of statistic-based approach and rule-based approach, we design an automatic English NILE recognition system based on the integration of statistical techniques and linguistic rules, and thereupon build a terminology database of 7000 NILE items.

      Keywords: Network Informal Language Expression (NILE); automatic recognition; terminology database

      引言

      術(shù)語(yǔ)(terminology)指在特定領(lǐng)域用于表示概念的稱謂的集合,是思想和認(rèn)識(shí)交流的工具,具有單義性、純概念性、理?yè)?jù)性、簡(jiǎn)潔性、構(gòu)詞的能產(chǎn)性、穩(wěn)定性與國(guó)際性[1]。每一個(gè)具體術(shù)語(yǔ)具有上述八種屬性的部分或全部屬性。

      網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)(Network Informal Language Expression, NILE)指應(yīng)用于網(wǎng)絡(luò)中的特殊語(yǔ)言形式,可以體現(xiàn)為單詞、詞組、短語(yǔ)、句子等多種表現(xiàn)形式,但主要為單詞和詞組兩種類型。部分網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)逐漸規(guī)范化和標(biāo)準(zhǔn)化,在網(wǎng)絡(luò)交流中形成了固定用法,具有了術(shù)語(yǔ)的性質(zhì)。因此,網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)是網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)的上位概念。網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)包括黑客語(yǔ)(leetspeak)、常用語(yǔ)縮寫(xiě)、具有特定用法和意義的符號(hào)等多種表達(dá)方式。

      術(shù)語(yǔ)的自動(dòng)識(shí)別和網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)庫(kù)構(gòu)建的根本目的在于能夠使機(jī)器“讀懂”網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá),服務(wù)于自然語(yǔ)言處理任務(wù)。例如機(jī)器翻譯需要準(zhǔn)確翻譯網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的含義;情感分析任務(wù)需要正確理解網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的情感傾向。所以,網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)識(shí)別和術(shù)語(yǔ)庫(kù)建設(shè)具有重要的理論意義和應(yīng)用價(jià)值。

      1 相關(guān)工作

      目前,自動(dòng)術(shù)語(yǔ)識(shí)別和抽取可以分為基于規(guī)則、基于統(tǒng)計(jì)和基于深度學(xué)習(xí)的方法。但是基于深度學(xué)習(xí)的方法需要更大規(guī)模的訓(xùn)練語(yǔ)料,跨領(lǐng)域能力弱[2],相較于基于統(tǒng)計(jì)的方法,其效果提升并不明顯,所以統(tǒng)計(jì)方法在新詞識(shí)別中仍有較大優(yōu)勢(shì)。

      術(shù)語(yǔ)識(shí)別作為信息抽取中的一個(gè)重要任務(wù),目前已有許多研究成果。Pantel和Lin[3]采用互信息來(lái)衡量術(shù)語(yǔ)的單元度。Chang等[4]利用熵來(lái)判別術(shù)語(yǔ)。Kamel[5]基于規(guī)則提出了一個(gè)本體信息抽取系統(tǒng)(OBIE),對(duì)Twitter數(shù)據(jù)中的本體(ontology)進(jìn)行語(yǔ)義描述[6]。陳飛等[7]基于條件隨機(jī)場(chǎng)將新詞發(fā)現(xiàn)轉(zhuǎn)換為序列標(biāo)注問(wèn)題,在開(kāi)放領(lǐng)域識(shí)別新詞邊界。杜麗萍等[8]通過(guò)改進(jìn)的互信息算法,與少量規(guī)則相結(jié)合,在大規(guī)模語(yǔ)料中自動(dòng)識(shí)別網(wǎng)絡(luò)新詞。趙頌歌等[9]引入遠(yuǎn)程監(jiān)督的方法解決缺乏大規(guī)模訓(xùn)練語(yǔ)料的問(wèn)題,然后基于自注意力機(jī)制的Bi-LSTM模型對(duì)科技術(shù)語(yǔ)進(jìn)行自動(dòng)提取。

      關(guān)于術(shù)語(yǔ)庫(kù)的建設(shè),早在20世紀(jì)80年代,聯(lián)合國(guó)總部已經(jīng)建立了名為UNTERM(The United Nations Terminology Database)的術(shù)語(yǔ)庫(kù)[10]。劉宇紅等[11]設(shè)計(jì)了“詞頻統(tǒng)計(jì)”“停用詞列表”“運(yùn)用互信息熵和詞組教學(xué)值”“基于人工語(yǔ)義判斷”四個(gè)步驟,以英語(yǔ)語(yǔ)言學(xué)為例,識(shí)別和歸納總結(jié)術(shù)語(yǔ),并認(rèn)為這種識(shí)別方法能夠遷移到其他學(xué)科和領(lǐng)域。

      隨著網(wǎng)絡(luò)日益流行,學(xué)者對(duì)網(wǎng)絡(luò)語(yǔ)言特征的研究也在不斷深入。Zhang和Yao[12]認(rèn)為網(wǎng)絡(luò)非正規(guī)表達(dá)是一種文本噪聲,并討論了與英語(yǔ)關(guān)聯(lián)的網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的特點(diǎn)。景漾[13]借鑒傳統(tǒng)的構(gòu)詞方法,認(rèn)為英語(yǔ)中網(wǎng)絡(luò)語(yǔ)言構(gòu)詞方法主要有縮略法、合成法、省略法。劉宇紅[14]將語(yǔ)言學(xué)術(shù)語(yǔ)分為四類,其中“利用現(xiàn)有語(yǔ)言資源進(jìn)行部分創(chuàng)新”“創(chuàng)造新的術(shù)語(yǔ)”和“非常規(guī)的術(shù)語(yǔ)創(chuàng)新”這三類可以在很大程度上覆蓋網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的形成原因。

      在目前的研究基礎(chǔ)上,本文擬通過(guò)社交媒體數(shù)據(jù)對(duì)英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)特征進(jìn)行分類和分析,結(jié)合目前已有的術(shù)語(yǔ)識(shí)別方法研究英語(yǔ)NILE的識(shí)別方法,設(shè)計(jì)高效網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)識(shí)別系統(tǒng),最后構(gòu)建英語(yǔ)NILE術(shù)語(yǔ)庫(kù)。

      2 英語(yǔ)NILE特征分析

      2.1 英語(yǔ)NILE的類型

      不同于漢語(yǔ)網(wǎng)絡(luò)語(yǔ)言中復(fù)雜的漢字、字母、數(shù)字、符號(hào)的混合使用,英語(yǔ)網(wǎng)絡(luò)非正規(guī)表達(dá)僅有英語(yǔ)字母、數(shù)字、符號(hào)以及它們的組合。英語(yǔ)非正規(guī)表達(dá)可從音、形、義三個(gè)層面上進(jìn)行細(xì)化分類,具體分類方法見(jiàn)表1。

      表1中展示了按音、形、義劃分的13類網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)。在“音”的層面上,英語(yǔ)NILE可分為借用英語(yǔ)字母、數(shù)字的英語(yǔ)發(fā)音、混合借用英語(yǔ)字母和數(shù)字的英語(yǔ)發(fā)音和借用英語(yǔ)的音表其他語(yǔ)言的義四小類。在“形”的層面上,英語(yǔ)NILE可分為借用字母的形、借用符號(hào)的形、借用數(shù)字的形、混合借用字母數(shù)字和符號(hào)的形、帶有符號(hào)五小類。在“義”的層面上,英語(yǔ)NILE可分為詞義縮略、借用其他語(yǔ)言的語(yǔ)義、舊詞新義、舊詞組合衍生出新義四小類。

      2.2 英語(yǔ)NILE的特征

      通過(guò)對(duì)英語(yǔ)NILE分類整理,可以總結(jié)得到NILE識(shí)別的兩個(gè)重點(diǎn)——縮略詞和新義詞。英語(yǔ)NILE中的縮略詞指英語(yǔ)詞匯的縮略和混合字母、數(shù)字、符號(hào)縮略的詞或詞組,新義詞指具有新義的英語(yǔ)單詞或由單詞組合衍生得到新義的詞組。

      (1)縮略詞分析

      縮略法(Abbreviation)是英語(yǔ)的主要構(gòu)詞方法之一,可以分為首字母拼音法(Acronym)、截成法(Clipping)和混成法(Blending)[15],具有非常濃烈的“非正式”特點(diǎn),是英語(yǔ)NILE詞匯的主要構(gòu)詞方法之一。

      在13類英語(yǔ)NILE分類中,縮略詞覆蓋了借用字母的音、借用數(shù)字的英語(yǔ)發(fā)音、混合借用英語(yǔ)字母和數(shù)字的英語(yǔ)發(fā)音、帶有符號(hào)、詞義縮略五小類。由于縮略詞特征鮮明,基于規(guī)則的方法能夠有效識(shí)別英語(yǔ)NILE縮略詞。

      部分縮略詞在網(wǎng)絡(luò)文本中常見(jiàn),已經(jīng)形成了固定用法,人們一看到這種縮略方法,就會(huì)想到這個(gè)詞,比如“LOL = laugh out loud”“BTW = by the way”。還有一類縮略詞是基于話題標(biāo)簽的具有一定時(shí)效性的縮略詞,例如“MAGA(make America great again)”“KAG(keep America great)”。這類縮略詞因社會(huì)中某一事件而產(chǎn)生,在一段時(shí)間內(nèi)高頻出現(xiàn),但是過(guò)后可能不再使用。同時(shí),這類作為標(biāo)簽的縮略詞也有演變?yōu)樾g(shù)語(yǔ)的潛力。所以,在構(gòu)建英語(yǔ)NILE術(shù)語(yǔ)庫(kù)時(shí),應(yīng)該考慮是否將這類詞收錄。

      (2)新義詞分析

      對(duì)于新義詞,英語(yǔ)單詞或是構(gòu)成新義詞詞組的單詞在詞典中能夠查詢得到,但是其在網(wǎng)絡(luò)中表達(dá)的含義和詞典中的意義并不相同,或者并不是詞典中單詞意義的簡(jiǎn)單堆疊。新義詞主要覆蓋了上述英語(yǔ)NILE的13類中的“借用其他語(yǔ)言語(yǔ)義”“舊詞新義”和“舊詞組合衍生出新義”三小類。

      基于規(guī)則的方法難以識(shí)別新義詞,然而這三小類NILE往往是機(jī)器翻譯、情感分析等自然語(yǔ)言處理任務(wù)中需要重點(diǎn)解決的問(wèn)題。

      例如,對(duì)于“Miley’s new album slayed!”這一句子,常用機(jī)器翻譯引擎將其翻譯為“麥莉的新專輯被淘汰了!”這里“slayed”翻譯是錯(cuò)誤的。“slay”的原義為“kill in a violent way”,用于物品上被譯作“淘汰”。但是作為網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)時(shí),則是語(yǔ)氣強(qiáng)烈的褒義詞,表示“succeed in something amazing”。該例的意思實(shí)際上是“麥莉的新專輯棒極了!”。在中文的非正規(guī)表達(dá)中,“slay全場(chǎng)”里的“slay”一詞也是取它的衍生義,表示“十分厲害而吸引全場(chǎng)”。如果是進(jìn)行情感分析任務(wù),“slay”的原義和衍生義則是完全不同的兩種情感。對(duì)于這三小類NILE,本文擬采用統(tǒng)計(jì)的方法進(jìn)行識(shí)別。

      3 融合統(tǒng)計(jì)和規(guī)則的英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)識(shí)別

      3.1 英語(yǔ)NILE識(shí)別方法

      (1)基于統(tǒng)計(jì)的方法

      英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)中,單詞和詞組為主要表現(xiàn)形式。識(shí)別單詞類NILE,采用最簡(jiǎn)單的詞頻統(tǒng)計(jì)的方法;識(shí)別詞組類NILE,則采用互信息和信息熵的方法。

      詞頻(term frequency, TF)是發(fā)現(xiàn)新詞或者新短語(yǔ)最直接簡(jiǎn)單的一種方法,其基本思想是:詞語(yǔ)或短語(yǔ)出現(xiàn)的頻率表現(xiàn)了單詞的重要性;一個(gè)未收錄的詞或者搭配在某一領(lǐng)域文本中出現(xiàn)的頻率越高,則是這個(gè)領(lǐng)域的新詞的可能性越大。對(duì)于46萬(wàn)余條Twitter數(shù)據(jù),沒(méi)有必要對(duì)所有詞都進(jìn)行詞頻統(tǒng)計(jì),可以基于WordNet詞典過(guò)濾停用詞和大部分正常使用的單詞。此外,由于英語(yǔ)單詞具有多種形態(tài),所以詞頻統(tǒng)計(jì)時(shí),需要進(jìn)行詞形還原和詞干提取。

      點(diǎn)互信息和信息熵常用于中文新詞識(shí)別任務(wù),可以在不切詞的條件下預(yù)測(cè)文本中的新詞。英語(yǔ)文本有空格作為天然的分割符,在分詞任務(wù)上具有優(yōu)勢(shì)。點(diǎn)互信息和信息熵運(yùn)用于漢語(yǔ)新詞預(yù)測(cè)時(shí),以字為切分單元。在英語(yǔ)文本中,既可以以字母為切分單位識(shí)別新單詞,也可以以單詞為切分單位識(shí)別新的單詞搭配,即詞組或短語(yǔ)。

      點(diǎn)互信息(Pointwise Mutual Information)在NLP任務(wù)中,表示兩個(gè)語(yǔ)言單元的相關(guān)性。其公式為:

      PMIX,Y=log2P(X,Y)PXP(Y)

      其中,P(X,Y)表示X和Y兩個(gè)語(yǔ)言單元的共現(xiàn)概率。PX和P(Y)分別表示X和Y兩個(gè)語(yǔ)言單元出現(xiàn)的概率。兩個(gè)語(yǔ)言單元間的點(diǎn)互信息值越大,說(shuō)明這兩個(gè)語(yǔ)言單元越是經(jīng)常一起出現(xiàn),意味著兩個(gè)單元的凝固程度就越大,形成一個(gè)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)的可能性也就越大。因此,在進(jìn)行NILE的識(shí)別時(shí),可以將語(yǔ)言單元設(shè)定為詞,識(shí)別得到表現(xiàn)為詞組形式的“新表達(dá)”。也可以設(shè)定語(yǔ)言單元為字母,識(shí)別詞典中未收錄的、表現(xiàn)形式為詞的“新表達(dá)”。

      信息熵(Information Entropy)是一種表示信息量的指標(biāo),熵越高表示信息量越大,不確定性越高,越難以預(yù)測(cè)。對(duì)于一個(gè)隨機(jī)變量X,其熵可以表示為:

      HX=-∑x∈Xp(x)log2p(x)

      在NILE識(shí)別任務(wù)中,p(x)表示一個(gè)語(yǔ)言單元出現(xiàn)的概率。左右熵指文本中語(yǔ)言單元的左邊界的熵和右邊界的熵。通過(guò)計(jì)算一個(gè)候選語(yǔ)言單元左邊和右邊的信息熵得到一個(gè)語(yǔ)言單元是否有豐富的左右搭配,達(dá)到一定閾值則可以認(rèn)為兩個(gè)語(yǔ)言單元組成一個(gè)新詞。

      在Twitter語(yǔ)料的處理中,點(diǎn)互信息可以識(shí)別出“新表達(dá)”,這些“新表達(dá)”包括“新搭配”的短語(yǔ)或者詞。然后通過(guò)計(jì)算信息熵得到這些“新表達(dá)”的信息量,兩者結(jié)合識(shí)別得到潛在的新的NILE。

      通過(guò)統(tǒng)計(jì)的方法,可以初步得到英語(yǔ)NILE術(shù)語(yǔ)候選集。

      (2)基于規(guī)則的方法

      基于規(guī)則的方法是對(duì)統(tǒng)計(jì)方法篩選得到的語(yǔ)言單元,通過(guò)規(guī)則對(duì)候選NILE進(jìn)行進(jìn)一步識(shí)別和確認(rèn),得到NILE術(shù)語(yǔ)。

      根據(jù)上述總結(jié)和分析得到的特征,設(shè)計(jì)以下三條規(guī)則。

      第一,所有字母都為大寫(xiě)字母的語(yǔ)言單元。

      對(duì)于網(wǎng)絡(luò)文本,由于人名、地名、機(jī)構(gòu)名常采用全大寫(xiě)的方法,所以在所有字母都為大寫(xiě)字母的語(yǔ)言單元中,命名實(shí)體(Named Entity)占很大比例,但是這類命名實(shí)體不屬于英語(yǔ)NILE。在46萬(wàn)余條Twitter數(shù)據(jù)中,出現(xiàn)了如“TRUMP(特朗普)”“LOS ANGELES(洛杉磯)”“THE HOUSE(白宮)”等詞。這類命名實(shí)體可以使用現(xiàn)有的封裝好的自然語(yǔ)言處理工具進(jìn)行識(shí)別,因此將這類詞從NILE候選集中排除。

      第二,帶有“#”的語(yǔ)言單元。

      在Twitter中,“#”有兩種用法,一種是用于固定NILE術(shù)語(yǔ)中,如“#FF(等于‘#Follow Friday’,是Twitter中一種分享和推薦的方式,作為一個(gè)標(biāo)簽常添加于一條推薦性推文后)”,這種固定用法較少;另一種則表示一個(gè)創(chuàng)建或者設(shè)定一個(gè)話題標(biāo)簽,便于搜索關(guān)鍵詞時(shí)對(duì)相關(guān)內(nèi)容進(jìn)行過(guò)濾。前者收錄于NILE術(shù)語(yǔ)庫(kù)中,后者則進(jìn)一步判斷是否具有成為NILE術(shù)語(yǔ)的潛力。

      標(biāo)簽之間沒(méi)有空格,這就會(huì)出現(xiàn)“#WorstPresidentEver”“#TrumpRallyNJ”等情況。這類標(biāo)簽經(jīng)過(guò)切分后,能夠調(diào)用常用機(jī)器翻譯引擎正確翻譯,不屬于上述的NILE特征分類,所以可以將這類詞從NILE候選集中排除。

      但是也有可以從這些標(biāo)簽中提取出NILE表達(dá)的情況。例如“#GOPTraitors”中的“GOP”是“Grand Old Party”的縮寫(xiě),在網(wǎng)絡(luò)語(yǔ)言中用于代指“共和黨”;“GetTheGat”拆分得到“get the gat”后,調(diào)用百度翻譯API,翻譯為“去拿服”,不具有可讀性。這一標(biāo)簽翻譯錯(cuò)誤的原因是“gat”是“gun”的一個(gè)俚語(yǔ),“gat”在網(wǎng)絡(luò)中常代指“gun”。這種情況下,“GOP”和“gat”應(yīng)該被收錄進(jìn)入NILE術(shù)語(yǔ)庫(kù)中。

      第三,混合數(shù)字、符號(hào)和字母的語(yǔ)言單元。

      混合數(shù)字、符號(hào)和字母的語(yǔ)言單元涵蓋了上述NILE分類中的六類。這類語(yǔ)言單元可以通過(guò)正則表達(dá)式匹配出。滿足匹配條件且滿足統(tǒng)計(jì)條件的語(yǔ)言單元,可以判定為NILE術(shù)語(yǔ)。

      3.2英語(yǔ)NILE識(shí)別系統(tǒng)設(shè)計(jì)

      針對(duì)英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的特征,設(shè)計(jì)基于統(tǒng)計(jì)和規(guī)則融合的英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)識(shí)別系統(tǒng),系統(tǒng)結(jié)構(gòu)如圖1所示。

      總結(jié)來(lái)說(shuō),英語(yǔ)非正規(guī)語(yǔ)言表達(dá)識(shí)別經(jīng)過(guò)數(shù)據(jù)預(yù)處理、判斷是否已經(jīng)在術(shù)語(yǔ)庫(kù)中、基于統(tǒng)計(jì)的方法、基于規(guī)則的方法、人工最終篩選五個(gè)階段。

      在第三階段基于統(tǒng)計(jì)的方法中,詞頻統(tǒng)計(jì)以詞為統(tǒng)計(jì)單位,點(diǎn)互信息和信息熵兼顧詞和短語(yǔ)的統(tǒng)計(jì)。詞頻統(tǒng)計(jì)需要基于WordNet過(guò)濾停用詞和大部分正常使用的單詞,得到候選集a。在點(diǎn)互信息和信息熵的計(jì)算時(shí),首先計(jì)算點(diǎn)互信息,得到一個(gè)候選集b,然后計(jì)算候選集b中元素的信息熵,最終得到候選集c。候選集a與候選集c取并集得到NILE候選集1。

      詞頻統(tǒng)計(jì)和點(diǎn)互信息與信息熵計(jì)算后,數(shù)據(jù)放置于.csv文件中,部分?jǐn)?shù)據(jù)如表2、表3所示。

      可以看出,經(jīng)過(guò)數(shù)據(jù)預(yù)處理、已有術(shù)語(yǔ)判斷和統(tǒng)計(jì)的數(shù)據(jù)中,很大一部分是命名實(shí)體,所以,在基于規(guī)則判定之前,需要篩選出命名實(shí)體。

      階段4中使用了3.1中的三條規(guī)則,在NILE候選集1上進(jìn)行了進(jìn)一步的篩選,得到候選集2。最終經(jīng)過(guò)人工一一校驗(yàn),得到以下NILE術(shù)語(yǔ)庫(kù)中未收錄的英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá),存儲(chǔ)在.csv文件中(如表3所示),共170個(gè)未收錄的NILE術(shù)語(yǔ)。

      46萬(wàn)余條Twitter語(yǔ)料,使用AntConc進(jìn)行統(tǒng)計(jì),語(yǔ)料容量為6 763 672個(gè)詞,包括不重復(fù)的單詞93 439個(gè)。經(jīng)過(guò)前三個(gè)階段,即統(tǒng)計(jì)方法過(guò)后,候選集1中共有5828個(gè)表達(dá)。經(jīng)過(guò)階段4,即規(guī)則的方法的篩選過(guò)后,得到272個(gè)表達(dá)。最終人工篩選后,得到170個(gè)術(shù)語(yǔ)庫(kù)中未收錄的NILE,且這些表達(dá)具有可以演變?yōu)镹ILE術(shù)語(yǔ)的潛力,能夠收錄于NILE術(shù)語(yǔ)庫(kù)中。所以,截止到階段5,即人工篩選前,NILE術(shù)語(yǔ)的自動(dòng)識(shí)別的準(zhǔn)確率為62.5%。在46萬(wàn)余條語(yǔ)料中,識(shí)別得到的新的NILE術(shù)語(yǔ),約占不重復(fù)單詞總量的0.182%。

      NILE自動(dòng)識(shí)別的準(zhǔn)確率并不是很高,NILE術(shù)語(yǔ)識(shí)別錯(cuò)誤的類型和錯(cuò)誤原因可以從以下幾個(gè)方面進(jìn)行分析:(1)部分識(shí)別錯(cuò)誤的NILE是非正規(guī)表達(dá)術(shù)語(yǔ)庫(kù)中的NILE術(shù)語(yǔ)的衍生,這類衍生不考慮為NILE術(shù)語(yǔ)。例如,“KAG”(Keep America Great)和“POTUS”(President of the United States)是NILE術(shù)語(yǔ),但是“KAG2020”“POTUS45”這類由NILE術(shù)語(yǔ)衍生出來(lái)的表達(dá)不具備術(shù)語(yǔ)的八種屬性中的任何一種屬性。(2)仍然存在部分命名實(shí)體的衍生被錯(cuò)誤識(shí)別為NILE術(shù)語(yǔ)。例如,“TRUMP2020”“Sleep Joe”這些表達(dá)可以看作命名實(shí)體的衍生,但本質(zhì)上仍然是命名實(shí)體,而不是NILE術(shù)語(yǔ)。然而,也不是所有帶命名實(shí)體的表達(dá)都不是NILE術(shù)語(yǔ),比如“Uncle Sam”就是美國(guó)的綽號(hào),在網(wǎng)絡(luò)中常被使用。(3)語(yǔ)料本身主題的問(wèn)題,使得一些短語(yǔ)的點(diǎn)互信息和信息熵很高。例如“Fake News”(假新聞)和“FOLLOW ME”。“Follow”本身是一個(gè)NILE術(shù)語(yǔ),作為NILE的含義是“關(guān)注”。但是由于語(yǔ)料主題(美國(guó)大選)的限制,結(jié)合不同的語(yǔ)境,“FOLLOW ME”可以解釋為 “跟隨我”“支持我”或“關(guān)注我”。這是導(dǎo)致NILE術(shù)語(yǔ)識(shí)別錯(cuò)誤的三種主要原因。人能夠相對(duì)容易地識(shí)別出這些錯(cuò)誤,但是機(jī)器通過(guò)統(tǒng)計(jì)和規(guī)則的方法可能難以判別。

      4 英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)庫(kù)構(gòu)建

      在構(gòu)建英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)庫(kù)時(shí),需要用標(biāo)準(zhǔn)化的、可讀的表達(dá)解釋術(shù)語(yǔ)庫(kù)中的每一個(gè)術(shù)語(yǔ)。例如,“142n8ly”被解釋為“Unfortunately”,“troo”被解釋為“true”。所以,術(shù)語(yǔ)庫(kù)中存儲(chǔ)的NILE術(shù)語(yǔ)需要具有解釋性。

      通過(guò)對(duì)數(shù)據(jù)的分析,能夠發(fā)現(xiàn)相同的含義有多種表達(dá)方式,也就是存在“一義多詞”(即同義,synonymy)的現(xiàn)象,例如“LOL (= Laughing Out Loud)”“LOOL(= Laughing Outrageously Out Loud)”“LOOMM(= Laughing Out Of My Mind)”是三個(gè)不同NILE表達(dá)的縮寫(xiě),但是都表示“very happy”這一含義,所以可以通過(guò)這一含義在這三個(gè)不同的表達(dá)中構(gòu)建聯(lián)系,這種關(guān)聯(lián)可以看作為一種“同義聯(lián)系”。

      如果兩個(gè)或多個(gè)表達(dá)之間在含義上相近或者相關(guān),這兩個(gè)或多個(gè)表達(dá)之間也應(yīng)該構(gòu)建一種聯(lián)系。例如“l(fā)uv(= love)”“I <3 U(= I love you)”和“ILI(= I Love It)”雖然表述不同,含義也不盡相同,但都和“l(fā)ove”這一概念有所關(guān)聯(lián),這種關(guān)聯(lián)關(guān)系可以看作一種“相關(guān)聯(lián)系”。

      因此,在構(gòu)建英語(yǔ)NILE術(shù)語(yǔ)庫(kù)時(shí),術(shù)語(yǔ)庫(kù)應(yīng)該存儲(chǔ)某一術(shù)語(yǔ)的準(zhǔn)確解釋上述兩種關(guān)聯(lián)。由此設(shè)計(jì)一個(gè)三元組用于存儲(chǔ)每一術(shù)語(yǔ)。三元組結(jié)構(gòu)如下所示。

      <W,E,R>

      該三元組中,W表示一個(gè)NILE術(shù)語(yǔ),E表示W(wǎng)的解釋,R表示關(guān)聯(lián)術(shù)語(yǔ),關(guān)聯(lián)術(shù)語(yǔ)間用“;”進(jìn)行分隔。

      術(shù)語(yǔ)庫(kù)的來(lái)源主要有兩方面。一部分來(lái)源于相關(guān)網(wǎng)站的數(shù)據(jù)爬取,得到部分NILE術(shù)語(yǔ)信息;另一部分來(lái)源于基于上述統(tǒng)計(jì)和規(guī)則融合的NILE自動(dòng)識(shí)別方法得到的170個(gè)未收錄的NILE,共得到7000余個(gè)NILE術(shù)語(yǔ)及相關(guān)信息,即7000余個(gè)NILE術(shù)語(yǔ)三元組。將得到的NILE術(shù)語(yǔ)庫(kù)按符號(hào)和字母索引存儲(chǔ)于.csv文件中,如表5所示。該.csv文件可以用于進(jìn)一步構(gòu)建MongoDB數(shù)據(jù)庫(kù)或Neo4j數(shù)據(jù)庫(kù),以提高存儲(chǔ)能力和檢索效率。

      5 結(jié)語(yǔ)

      對(duì)于英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的研究,首先闡述了術(shù)語(yǔ)識(shí)別方法、術(shù)語(yǔ)庫(kù)建設(shè)和網(wǎng)絡(luò)非正規(guī)特征表達(dá)的研究現(xiàn)狀,總結(jié)了英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)的特征并對(duì)特征進(jìn)行了分析。針對(duì)總結(jié)得到的特征,制定三條規(guī)則,并且結(jié)合統(tǒng)計(jì)的方法,設(shè)計(jì)了基于統(tǒng)計(jì)和規(guī)則融合的英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)識(shí)別系統(tǒng)。最后基于兩種來(lái)源構(gòu)建了英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)術(shù)語(yǔ)庫(kù)。英語(yǔ)網(wǎng)絡(luò)非正規(guī)語(yǔ)言表達(dá)識(shí)別與NILE術(shù)語(yǔ)庫(kù)構(gòu)建對(duì)于語(yǔ)言學(xué)研究和自然語(yǔ)言處理都具有重要意義。

      參考文獻(xiàn)

      [1] 朱偉華.談?wù)勑g(shù)語(yǔ)的特性[J].外語(yǔ)教學(xué)與研究,1987(2):47-49.

      [2] 張雪, 孫宏宇, 辛東興,等.自動(dòng)術(shù)語(yǔ)抽取研究綜述[J].軟件學(xué)報(bào),2020,31(7):2062-2094.

      [3] PANTEL P,LIN D. A Statistical Corpus-Based Term Extractor[M] / / STUMPTNER M,CORBETTD,BROOKS M. Advances in Artificial Intelligence. Berlin Heidelberg: Springer-Verlag, 2001: 36-46.

      [4] HANG J S. Domain specific word extraction from hierarchical web documents: a first step toward building lexicon trees from web corpora[C] / / Proceedings of the 4th SIGHAN Workshop on Chinese Language Learning: 64-71.

      [5] KAMEL N. Ontology-Based Information Extraction from Twitter[J]. Proceedings of the Workshop on Information Extraction and Entity Analytics on Social Media Data, 2012, 12: 17-22.

      [6] 張艷,宗成慶,徐波.漢語(yǔ)術(shù)語(yǔ)定義的結(jié)構(gòu)分析和提取[J].中文信息學(xué)報(bào),2003(6):9-16.

      [7] 陳飛,劉奕群,魏超,等.基于條件隨機(jī)場(chǎng)方法的開(kāi)放領(lǐng)域新詞發(fā)現(xiàn)[J].軟件學(xué)報(bào),2013,24(5):1051-1060.

      [8] 杜麗萍,李曉戈,于根,等.基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):35-40.

      [9] 趙頌歌,張浩,常寶寶.基于自注意力機(jī)制的科技術(shù)語(yǔ)自動(dòng)提取技術(shù)研究[J].中國(guó)科技術(shù)語(yǔ),2021,23(2):20-26.

      [10] 顧春輝,溫昌斌.聯(lián)合國(guó)術(shù)語(yǔ)庫(kù)建設(shè)及其對(duì)中國(guó)術(shù)語(yǔ)庫(kù)建設(shè)的啟示[J].中國(guó)科技術(shù)語(yǔ),2017,19(3):5-9,34.

      [11] 劉宇紅, 殷銘.術(shù)語(yǔ)表研制的四個(gè)步驟:以英語(yǔ)語(yǔ)言學(xué)為例[J].中國(guó)科技術(shù)語(yǔ),2021,23(2):11-19.

      [12] ZHANG X, YAO T. A Study of Network Informal Language Using Minimal Supervision Approach[J]. Autonomous Systems:Self-Organization, Management, and Control, 2008: 978-1-4020-8888-9.

      [13] 景漾. 英漢網(wǎng)絡(luò)詞語(yǔ)構(gòu)詞淺析[J].校園英語(yǔ),2016(2):205.

      [14] 劉宇紅. 語(yǔ)言學(xué)術(shù)語(yǔ)的理?yè)?jù)類型研究[J]. 中國(guó)科技術(shù)語(yǔ),2021,23(1):17-22.

      [15] 張懷建, 黎進(jìn)安, 劉麗燕,等. 新世紀(jì)大學(xué)英語(yǔ)語(yǔ)法 (下冊(cè))[M]. 廣州:華南理工大學(xué)出版社, 2003:25.

      作者簡(jiǎn)介:夏榕璟(1998—),女,信息工程大學(xué)洛陽(yáng)校區(qū)研究生。主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯、知識(shí)圖譜等。通信方式:cczxxrj@163.com。

      張克亮(1964—),男,博士,信息工程大學(xué)洛陽(yáng)校區(qū)教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、機(jī)器翻譯、知識(shí)工程等。先后兼任中國(guó)人工智能學(xué)會(huì)理事及自然語(yǔ)言理解專委會(huì)委員,中國(guó)中文信息處理學(xué)會(huì)機(jī)器翻譯專委會(huì)委員,國(guó)家自然科學(xué)基金、國(guó)家社會(huì)科學(xué)基金、教育部學(xué)位中心學(xué)位論文評(píng)審專家。長(zhǎng)期從事計(jì)算語(yǔ)言學(xué)和語(yǔ)言信息處理教學(xué)科研工作,主持或參與完成國(guó)家科技支撐計(jì)劃、國(guó)家自然科學(xué)基金、國(guó)家社會(huì)科學(xué)基金、裝備科研等10余項(xiàng)課題的研究工作,其中包括主持國(guó)家自然科學(xué)基金重大項(xiàng)目課題1項(xiàng),出版專著、編著、詞典、教材4部(套),發(fā)表中英文論文80余篇。通信方式:kliang99@sina.com。

      猜你喜歡
      自動(dòng)識(shí)別
      中國(guó)自動(dòng)識(shí)別技術(shù)協(xié)會(huì)
      船舶模擬駕駛系統(tǒng)障礙物自動(dòng)識(shí)別方法
      基于數(shù)據(jù)挖掘的船舶航跡自動(dòng)識(shí)別系統(tǒng)
      太陽(yáng)黑子自動(dòng)識(shí)別與特征參量自動(dòng)提取
      基于衛(wèi)星遙感圖像的收費(fèi)站位置自動(dòng)識(shí)別與校核
      船舶自動(dòng)識(shí)別系統(tǒng)對(duì)船舶救助的影響
      水上消防(2019年3期)2019-08-20 05:46:08
      基于改進(jìn)Canny算法的道路標(biāo)線自動(dòng)識(shí)別及定位
      自動(dòng)識(shí)別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      金屬垃圾自動(dòng)識(shí)別回收箱
      基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
      礼泉县| 大关县| 尉氏县| 普格县| 丰台区| 彩票| 托克托县| 孟州市| 恩平市| 屏山县| 望谟县| 威宁| 天门市| 普宁市| 黔江区| 汉阴县| 二手房| 成都市| 宜兴市| 屏东县| 尼木县| 黄陵县| 福贡县| 孝昌县| 云阳县| 京山县| 牡丹江市| 东丽区| 成武县| 海安县| 嘉祥县| 建始县| 永康市| 宁津县| 延寿县| 基隆市| 定远县| 晋城| 深泽县| 吴旗县| 南溪县|