郭博露 熊旭輝
摘 ?要:冒犯性語言在社會(huì)化媒體上頻繁出現(xiàn),為了建立友好的網(wǎng)絡(luò)社區(qū),研究高效而準(zhǔn)確的冒犯性語言檢測(cè)方法具有重要意義。文章首先闡述冒犯性語言的定義,然后分析各種檢測(cè)方式的特點(diǎn)與基于預(yù)訓(xùn)練的深度學(xué)習(xí)檢測(cè)方法的潛力和優(yōu)勢(shì)。隨后對(duì)現(xiàn)階段常見的預(yù)處理方法及幾種典型的深度學(xué)習(xí)模型的利弊、現(xiàn)狀進(jìn)行介紹。最后對(duì)冒犯性語言檢測(cè)領(lǐng)域面臨的挑戰(zhàn)和期望進(jìn)行歸納總結(jié)。
關(guān)鍵詞:深度學(xué)習(xí);冒犯性語言;文本分類;數(shù)據(jù)預(yù)處理
中圖分類號(hào):TP391.1 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)05-0005-06
A Review of Offensive Language Detection Methods Based on Deep Learning
GUO Bolu, XIONG Xuhui
(College of Computer and Information Engineering, Hubei Normal University, Huangshi ?435002, China)
Abstract: Offensive language appears frequently in social media. In order to establish a friendly online community, it is of great significance to study efficient and accurate offensive language detection methods. This paper explains the definition of offensive language firstly, and analyzes the characteristic of each detection method and the advantages and potentiality of deep learning detection method based on pre-training. Then the paper introduces the advantages and disadvantages and current situation of common pre-processing methods at the present stage and several typical deep learning models. Finally, it concludes and summarizes the challenges and expectations of the field of offensive language detection.
Keywords: deep learning; offensive language; text classification; data preprocessing
0 ?引 ?言
隨著社會(huì)化網(wǎng)絡(luò)應(yīng)用的高速發(fā)展,網(wǎng)絡(luò)社交媒體由于其公共性、虛擬性及匿名性等特點(diǎn)吸引了數(shù)量龐大的用戶。以微博、Twitter為代表的網(wǎng)絡(luò)社交媒體已經(jīng)成為人們交流信息的一個(gè)重要渠道[1]。而網(wǎng)絡(luò)社交媒體中言論自由的界限模糊,冒犯性語言甚至攻擊性語言在網(wǎng)絡(luò)平臺(tái)上頻繁出現(xiàn)。因此,為了約束用戶的言論進(jìn)行和建立網(wǎng)絡(luò)友好社區(qū),有必要研究網(wǎng)絡(luò)社交媒體冒犯性語言的高效、準(zhǔn)確檢測(cè)方法[2]。
關(guān)于冒犯性語言的定義,現(xiàn)代漢語詞典將冒犯解釋為:言語或行動(dòng)沒有禮貌,沖撞了對(duì)方。對(duì)于語言接受者而言,包含威脅、辱罵、負(fù)面評(píng)價(jià)等言語的段落都可以被稱為冒犯性語言[3]。而社交媒體中的冒犯性語言常表現(xiàn)為辱罵性語言、網(wǎng)絡(luò)欺凌及仇恨言論等方面[4-6]。
目前,冒犯性語言的檢測(cè)方法分為人工檢測(cè)與自動(dòng)化檢測(cè)兩種類型[7]。人工檢測(cè)方法雖然準(zhǔn)確率高,但是,效率低、反應(yīng)速度慢,難以滿足海量的社交媒體數(shù)據(jù)的實(shí)時(shí)檢測(cè)要求[8]。因此,社交媒體中的攻擊性、冒犯性語言的自動(dòng)化檢測(cè)是網(wǎng)絡(luò)環(huán)境凈化的關(guān)鍵,通??梢苑譃槿N方法:
(1)機(jī)器學(xué)習(xí)檢測(cè)方法。以SVM為代表的機(jī)器學(xué)習(xí)方法是基于概率、規(guī)則、空間等分類器實(shí)現(xiàn)的,同時(shí)可以使用詞向量、攻擊性詞語、情感分?jǐn)?shù)等特征輔助檢測(cè)手段,從而提高準(zhǔn)確率[9,10]。在該類方法中,人工完成特征的提取和選擇,其結(jié)果作為機(jī)器學(xué)習(xí)算法參數(shù)訓(xùn)練的前置數(shù)據(jù),因此需要大量的人力和時(shí)間完成準(zhǔn)備工作,同時(shí),得到的機(jī)器學(xué)習(xí)模型的健壯、魯棒性較低[11]。
(2)傳統(tǒng)深度學(xué)習(xí)檢測(cè)方法。傳統(tǒng)深度學(xué)習(xí)方法一般是指基于RNN、CNN、LSTM等模型的檢測(cè)方法[12,13]。社交媒體中,網(wǎng)絡(luò)用語變化極快,具有很強(qiáng)的時(shí)效性,因此要求模型具有很高的魯棒性。相比于機(jī)器學(xué)習(xí)檢測(cè)方法,傳統(tǒng)深度學(xué)習(xí)檢測(cè)方法是基于骨干特征提取網(wǎng)絡(luò)獲取特征數(shù)據(jù),因此在魯棒性方面具有更好的表現(xiàn)[14]。該類模型通常只依賴于上文信息識(shí)別語義,然而語言的含義常常也和下文相關(guān),因此,即使雙向LSTM等方法具備了一定的感知能力,但仍然難以解決長(zhǎng)文本、長(zhǎng)距離依賴關(guān)系中的上下文信息的提取問題[15,16]。
(3)基于預(yù)訓(xùn)練模型的檢測(cè)方法?;赥ransformer的預(yù)訓(xùn)練模型近年來受到廣泛關(guān)注,其代表模型有BERT和XLNet等[17,18]。Transformer結(jié)構(gòu)通過Multi-Headed Attention捕獲上下文關(guān)系,同時(shí)僅關(guān)注詞語間緊密程度,忽略文本的位置信息,解決了傳統(tǒng)機(jī)器學(xué)習(xí)中長(zhǎng)文本信息缺失的問題。此外,Transformer增加了Positional Encoding來處理Multi-Headed Attention中忽略的位置信息[19]。
基于預(yù)訓(xùn)練模型的檢測(cè)方法解決了傳統(tǒng)的人工檢測(cè)方法效率低下及深度學(xué)習(xí)模型特征提取不全面等問題,憑借其強(qiáng)大的學(xué)習(xí)能力和特征提取能力成為自動(dòng)化檢測(cè)社交媒體中的冒犯性語言領(lǐng)域廣受關(guān)注的方法,也是當(dāng)前的研究主流。因此,下面重點(diǎn)介紹社交網(wǎng)絡(luò)冒犯性語言的數(shù)據(jù)預(yù)處理及幾種典型的深度學(xué)習(xí)語言冒犯性檢測(cè)方法[20],主要包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和Transformer等深度學(xué)習(xí)模型。
1 ?預(yù)處理方法
冒犯性語言檢測(cè)任務(wù)通常使用攻擊性語言識(shí)別數(shù)據(jù)集(OLID)[21],該數(shù)據(jù)集一共包含14 100條文本數(shù)據(jù),取其中13 240條作為訓(xùn)練集,860條作為測(cè)試集。OLID數(shù)據(jù)集采用三層的分層標(biāo)注模式,每條文本數(shù)據(jù)的攻擊目標(biāo)和冒犯言論的類型都進(jìn)行了人工標(biāo)注。
冒犯性語言檢測(cè)包含三個(gè)子任務(wù)。首先,子任務(wù)A的目標(biāo)是區(qū)分冒犯性推文(OFF)和非冒犯性推文(NOT)。其次,子任務(wù)B的目標(biāo)是對(duì)推文中的攻擊性內(nèi)容的類型進(jìn)行分類,主要分為針對(duì)個(gè)人、團(tuán)體或其他的侮辱類型(TIN)和非針對(duì)的咒罵(UNT)等類型。最后,對(duì)于子任務(wù)B中的劃分出來的TIN類型,在子任務(wù)C中再對(duì)攻擊目標(biāo)進(jìn)行詳細(xì)區(qū)分。子任務(wù)C分為針對(duì)個(gè)人的冒犯(IND)、針對(duì)群體的冒犯(GRP)和針對(duì)事件/現(xiàn)象/問題的冒犯言論(OTH)。在社交媒體中,仇恨言論通常是指針對(duì)群體的侮辱,而網(wǎng)絡(luò)欺凌通常針對(duì)個(gè)人。表1為OLID數(shù)據(jù)集在三個(gè)子任務(wù)中標(biāo)簽的分布情況。
1.1 數(shù)據(jù)增強(qiáng)
通過數(shù)據(jù)增強(qiáng)方法,可以增加訓(xùn)練數(shù)據(jù)數(shù)量、避免樣本不均衡、提升模型的魯棒性,避免過擬合。在一定程度上,數(shù)據(jù)增強(qiáng)能夠解決OLID數(shù)據(jù)集較小,樣本不足的問題。數(shù)據(jù)增強(qiáng)可以分為文本改寫、增加噪聲和采樣等三種方法。其中,文本改寫是指對(duì)句子中的詞、短語、句子結(jié)構(gòu)進(jìn)行更改,利用詞典通過隨機(jī)將一組詞替換為具有相似語義內(nèi)容的詞,從而獲得少數(shù)群體的合成樣本;增加噪聲是在保證分類標(biāo)簽不變的同時(shí),增加一些離散或連續(xù)的噪聲,在不影響語義信息的同時(shí)提升模型的魯棒性;采樣旨在根據(jù)目前的數(shù)據(jù)分布選取新的樣本,生成更豐富的數(shù)據(jù)。
1.2 ?數(shù)據(jù)清洗
OLID數(shù)據(jù)集中的文本數(shù)據(jù)來自社交平臺(tái)Twitter,包含錯(cuò)誤拼寫、Emoji表情、特殊符號(hào)、俚語、冗余信息等各種混雜信息,對(duì)模型的預(yù)測(cè)結(jié)果產(chǎn)生干擾,因此必須進(jìn)行數(shù)據(jù)預(yù)處理。這類問題常見的預(yù)處理方法有以下6種:
(1)拼寫糾錯(cuò)。拼寫糾錯(cuò),即自動(dòng)識(shí)別和糾正自然語言中出現(xiàn)的錯(cuò)誤。拼寫糾錯(cuò)主要分為拼寫錯(cuò)誤識(shí)別和拼寫錯(cuò)誤糾正兩個(gè)子任務(wù)。英文拼寫糾錯(cuò)按照錯(cuò)誤類型不同,可以分為Non-word Errors和Real-word Errors。Non-word Errors是指拼寫錯(cuò)誤后的單詞本身就不合法,而Real-word Errors是表示那些拼寫錯(cuò)誤后的單詞仍然是正確的詞匯,但是表達(dá)含義有誤差的情況。中文糾錯(cuò)單個(gè)字為單位,分為同音字錯(cuò)誤和同形字錯(cuò)誤兩種,需要結(jié)合語境以及上下文之間的關(guān)系進(jìn)行檢錯(cuò)糾錯(cuò)。常用的方法有:基于規(guī)則、統(tǒng)計(jì)和特征的技術(shù)進(jìn)行糾錯(cuò)、基于深度學(xué)習(xí)算法進(jìn)行糾錯(cuò)、命名實(shí)體識(shí)別等。
(2)Emoji替換。在網(wǎng)絡(luò)社交語言中,Emoji表情的使用現(xiàn)象十分普遍,直接過濾表情可能會(huì)造成語義表達(dá)的缺失。通過預(yù)處理將表情統(tǒng)一映射為替換短語,可以保留原本的語義信息。例如,將豎大拇指的表情替換成同義短語“thumbs up”。
(3)大小寫轉(zhuǎn)換。英文單詞有大小寫區(qū)分,社交媒體中的文本輸入存在不規(guī)范使用大小寫的情況。在進(jìn)行預(yù)處理時(shí)一般需要將所有的詞都轉(zhuǎn)化為小寫,例如將“Home”轉(zhuǎn)換成“home”。
(4)停止詞、非文本部分刪除。停止詞即信息檢索中的虛字、非檢索用字,對(duì)語義表達(dá)并沒有實(shí)際含義。OLID數(shù)據(jù)集中的文本除了含有停用詞之外,還包含用于定義網(wǎng)頁內(nèi)容的含義和結(jié)構(gòu)的超文本標(biāo)記語言標(biāo)簽(HTML標(biāo)簽)以及包含用戶名的標(biāo)簽@USER和標(biāo)點(diǎn)符號(hào)等內(nèi)容。刪除標(biāo)點(diǎn)、重復(fù)字符等內(nèi)容可以過濾無意義的信息。
(5)詞干提取。詞干提取是去除一個(gè)詞的詞綴得到它的詞根形式的過程。詞干提取的主要目的在于避免單詞的時(shí)態(tài)和單復(fù)數(shù)形式對(duì)于文本處理的精度造成影響。例如詞干提取可以簡(jiǎn)化詞“finishes”“finishing”和“finished”為同一個(gè)詞根“finish”,去除文章里的多種詞性變化,減少計(jì)算量,提高效率。詞干提取的常用方法有Porter Stemmer、Lancaster Stemmer和Snowball Stemmer。
(6)詞形還原。詞形還原是一種基于詞典的、將單詞的復(fù)雜形態(tài)轉(zhuǎn)變成一般形式形態(tài),實(shí)現(xiàn)語義的完整表達(dá)。與詞干提取不同,詞形還原不是簡(jiǎn)單地剝離單詞的前后綴,而是轉(zhuǎn)換單詞的形態(tài)。因此,詞干提取的結(jié)果完整的、具有意義的詞。例如“is”“are”和“been”詞干提取的結(jié)果為“be”詞形還原一般可以使用TreeTagger和WordNet詞形還原方法。
1.3 ?類不平衡
在OLID數(shù)據(jù)集中,類不平衡問題表現(xiàn)為每個(gè)子任務(wù)的標(biāo)簽分布不均衡,少數(shù)標(biāo)簽的樣本數(shù)目稀少。在訓(xùn)練模型時(shí),類不平衡問題會(huì)對(duì)訓(xùn)練結(jié)果產(chǎn)生一定干擾,影響模型的分類性能。過采樣、調(diào)整閾值和調(diào)節(jié)樣本權(quán)重等方法可以緩解類不均衡問題對(duì)訓(xùn)練結(jié)果產(chǎn)生的影響。過采樣方法通過增加分類中少數(shù)類樣本的數(shù)量來實(shí)現(xiàn)樣本均衡,最直接的方法是簡(jiǎn)單復(fù)制少數(shù)類樣本形成多條記錄,這種方法的缺點(diǎn)是如果樣本特征少而可能導(dǎo)致過擬合的問題;經(jīng)過改進(jìn)的過抽樣方法通過在少數(shù)類中加入隨機(jī)噪聲、干擾數(shù)據(jù)或通過一定規(guī)則產(chǎn)生新的合成樣本,例如SMOTE算法。調(diào)整閾值是根據(jù)實(shí)際情況調(diào)整劃分類別的閾值,對(duì)不均衡的樣本數(shù)據(jù),根據(jù)正負(fù)樣本的比例對(duì)閾值進(jìn)行適當(dāng)調(diào)整。調(diào)節(jié)樣本權(quán)重即對(duì)訓(xùn)練集里的每個(gè)類別或者樣本加一個(gè)權(quán)重。如果該類別的樣本數(shù)多,那么它的權(quán)重就低,反之則權(quán)重就高。
2 ?深度學(xué)習(xí)模型
2.1 ?CNN
1987年由Alexander Waibel等人[22]提出的時(shí)間延遲網(wǎng)絡(luò)(Time Delay Neural Network, TDNN),這是卷積神經(jīng)網(wǎng)絡(luò)(CNN)出現(xiàn)的開端。卷積神經(jīng)網(wǎng)絡(luò)是一種包含卷積運(yùn)算的深度神經(jīng)網(wǎng)絡(luò),主要由輸入層、卷積層、池化層、全連接層、輸出層5個(gè)部分構(gòu)成。近年來,CNN在圖像處理及自然語言處理領(lǐng)域中應(yīng)用十分普遍。
在文本分類中,卷積神經(jīng)網(wǎng)絡(luò)處理的對(duì)象是以短文本為主,其算法流程主要分為四步:(1)首先將一句話中的每一個(gè)詞使用word2vec拼接,構(gòu)成句子的特征矩陣,作為神經(jīng)網(wǎng)絡(luò)的輸入。(2)進(jìn)入卷積層,與卷積核進(jìn)行卷積運(yùn)算,用于特征提取和特征映射,捕捉更高層次的特征。(3)通過池化層進(jìn)行下采樣,對(duì)特征進(jìn)行壓縮、去除冗余信息、抽取最重要的特征(4)形成了特征向量后,使用dropout規(guī)則化,防止過擬合,再采用全連接層使用Softmax分類器完成多分類任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)用于文本分類的模型框架如圖1所示。
卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的局部特征提取能力,但卷積運(yùn)算和池化導(dǎo)致信息的丟失,同時(shí)也會(huì)忽略掉整體與部分之間的關(guān)聯(lián)。其應(yīng)用場(chǎng)景包括機(jī)器學(xué)習(xí)、語音識(shí)別、文檔分析、語言檢測(cè)和圖像識(shí)別等領(lǐng)域。
2.2 ?RNN
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類用于處理序列數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)。為了處理序列建模問題,循環(huán)神經(jīng)網(wǎng)絡(luò)引入了隱藏態(tài)的概念,由輸入層、隱藏層和輸出層組成,可以對(duì)序列型的數(shù)據(jù)提取特征,接著再轉(zhuǎn)換為輸出。隱藏層的值不僅僅取決于當(dāng)前輸入值,還取決于上一個(gè)時(shí)間點(diǎn)的隱藏層信息。
循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)文本的處理有著出色的表現(xiàn),可以通過利用輸入序列的上下文,提取具有上下文語境信息的文本特征。圖2是循環(huán)神經(jīng)網(wǎng)用于文本分類的模型架構(gòu)。
圖2 ?循環(huán)神經(jīng)網(wǎng)絡(luò)用于文本分類的模型框架
循環(huán)神經(jīng)網(wǎng)絡(luò)的常用領(lǐng)域有圖像處理、機(jī)器翻譯、情緒分析、文本生成和語音識(shí)別等。理論上,循環(huán)神經(jīng)網(wǎng)絡(luò)可以記憶任意長(zhǎng)度序列的信息,其記憶單元中可以保存此前很長(zhǎng)時(shí)刻網(wǎng)絡(luò)的狀態(tài),但是實(shí)際應(yīng)用中的記憶能力存在局限性,通常只能記住最近幾個(gè)時(shí)刻的網(wǎng)絡(luò)狀態(tài)。
為了解決長(zhǎng)距離依賴的缺陷,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)在循環(huán)神經(jīng)網(wǎng)絡(luò)隱藏層的基礎(chǔ)上,再增加一個(gè)狀態(tài),讓它保存長(zhǎng)期記憶的能力。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)通過“記憶門”和“遺忘門”實(shí)現(xiàn)了對(duì)重要內(nèi)容的保留和對(duì)不重要內(nèi)容的去除,普遍用于文本生成、機(jī)器翻譯、語音識(shí)別和圖像描述等領(lǐng)域。
2.3 ?Transformer
Transformer是谷歌于2017年提出的一個(gè)深度學(xué)習(xí)模型框架[23]。它提出了一種基于注意力的特征抽取機(jī)制,大幅提升了模型的準(zhǔn)確率和運(yùn)算效率。不同于基于RNN的seq2seq模型框架,Transformer采用注意力(Attention)機(jī)制代替RNN來搭建整體模型框架。此外,模型提出了多頭注意力(Multi-headed attention)機(jī)制方法,在模型結(jié)構(gòu)中大量地使用了多頭注意力機(jī)制,廣泛應(yīng)用于NLP領(lǐng)域,例如機(jī)器翻譯、問答系統(tǒng)、文本摘要和語音識(shí)別等。
Transformer模型采用了encoder-decoder架構(gòu),如圖3所示。編碼器(encoder)將輸入序列(x1,…,xn)轉(zhuǎn)換為一個(gè)包含特征信息的序列Z=(z1,…,zn),然后解碼器再基于該序列生成輸出序列(y1, …, ym)。
Transformer結(jié)構(gòu)的核心是自注意力(Self-Attention)機(jī)制。該機(jī)制計(jì)算輸入序列中每個(gè)單詞與該序列中所有單詞的相互關(guān)系,然后根據(jù)計(jì)算過后的相互關(guān)系來調(diào)整每個(gè)單詞的權(quán)重,得到包含上下文單詞信息的新序列。采用該機(jī)制得到的單詞向量既包含單詞本身含義又具有該詞與其他詞之間的關(guān)系,因此,這種方式可以學(xué)習(xí)到序列內(nèi)部的長(zhǎng)距離依賴關(guān)系。計(jì)算方法如式(1)所示。其中,Q表示查詢向量;K表示鍵向量;V表示值向量;dk示輸入向量維度。
(1)
自注意力機(jī)制只能捕獲一個(gè)維度的信息,因此,在Transformer中采用了多頭注意力機(jī)制。多頭注意力機(jī)制通過多個(gè)不同的線性變換對(duì)Q,K,V進(jìn)行投影,然后分別計(jì)算attention,最后再將所有特征矩陣拼接起來,從而獲得多個(gè)維度的信息。計(jì)算公式如式(2)所示。
MultiHead(Q,K,V)=Concat(head1,…,headh)(2)
這里,
Transformer模型的多頭注意力機(jī)制有助于網(wǎng)絡(luò)捕捉到更豐富的特征,但架構(gòu)中沒有循環(huán)以及卷積結(jié)構(gòu),缺少輸入序列中單詞順序的解釋方法。為了使模型能夠利用序列的順序,捕獲的順序信息,額外引入了位置向量和段向量來區(qū)分兩個(gè)句子的先后順序。
型忽略單詞之間的距離直接計(jì)算依賴關(guān)系,這種計(jì)算方法所需的操作次數(shù)不隨單詞之間距離的增加而增長(zhǎng)。與基于RNN的方法相比,Transformer不需要循環(huán),突破了RNN模型不能并行計(jì)算的限制,可以并行處理序列中的所有單詞或符號(hào)。同時(shí)利用自注意力機(jī)制將上下文與較遠(yuǎn)的單詞結(jié)合起來,并讓每個(gè)單詞在多個(gè)處理步驟中注意到句子中的其他單詞。Transformer方便并行計(jì)算,能解決長(zhǎng)距離依賴問題,在自然語言處理領(lǐng)域應(yīng)用廣泛。
2.4 ?BERT
BERT是谷歌團(tuán)隊(duì)Jacob Devlin等人于2018年提出的一種基于Transformer模型的編碼器的大規(guī)模掩碼語言模型[24]。BERT采用了Transformer的encoder框架,并且堆疊了多個(gè)Transformer模型,并通過聯(lián)合調(diào)節(jié)所有層中的雙向Transformer來預(yù)先訓(xùn)練雙向深度表示。
目前將預(yù)訓(xùn)練的語言模型應(yīng)用到NLP任務(wù)主要有兩種策略,一種是基于特征信息的語言模型,如ELMo模型;另一種是基于微調(diào)的語言模型,如OpenAI GPT。
BERT模型與OpenAI GPT模型均采用了Transformer的結(jié)構(gòu)。BERT使用的是Transformer的encoder框架,由于自注意力機(jī)制,模型上下層直接全部互相連接的。而OpenAI GPT基于Transformer的decoder框架,是一個(gè)從左及右的Transformer結(jié)構(gòu),只能捕獲前向信息。ELMo模型使用的是雙向LSTM,將同一個(gè)詞的前向隱層狀態(tài)和后向隱層狀態(tài)拼接在一起,可以進(jìn)行雙向的特征提取。但是ELMo模型僅在兩個(gè)單向的LSTM的最高層進(jìn)行簡(jiǎn)單的拼接,并非并行執(zhí)行的雙向計(jì)算,上文信息和下文信息在訓(xùn)練的過程中并沒有發(fā)生交互。ELMo這種分別進(jìn)行l(wèi)eft-to-right和right-to-left的模型實(shí)際上是一種淺層雙向模型。BERT、OpenAI GPT和ELMo模型對(duì)比如圖4所示。因此,只有BERT具有深層的雙向表示,是其中僅有的深層雙向語言模型,能同時(shí)對(duì)上下文的信息進(jìn)行預(yù)測(cè)。
BERT模型是在來自不同來源的大量語料庫上進(jìn)行預(yù)訓(xùn)練,使用的兩個(gè)無監(jiān)督任務(wù)分別是掩碼語言模型(Masked LM)和下一個(gè)句子預(yù)測(cè)(NSP)。
掩碼語言模型通過隨機(jī)使用[MASK]標(biāo)記掩蓋句子中的部分詞語,然后使用上下文對(duì)掩蓋的詞語進(jìn)行預(yù)測(cè)。這個(gè)方式融合了雙向的文本信息,并且由解決了多層累加的自注意力機(jī)制帶來信息泄露的問題,因而可以預(yù)訓(xùn)練深度雙向的Transformer模型。
傳統(tǒng)語言模型并沒有對(duì)句子之間的關(guān)系進(jìn)行考慮。為了獲取比詞更高級(jí)別的句子級(jí)別的語義表征,讓模型學(xué)習(xí)到句子之間的關(guān)系,BERT提出了第二個(gè)目標(biāo)任務(wù)就是下一個(gè)句子預(yù)測(cè)。下一個(gè)句子預(yù)測(cè)通過預(yù)測(cè)上下句的連貫性來判斷上下句的關(guān)系。最后整個(gè)BERT模型預(yù)訓(xùn)練的目標(biāo)函數(shù)就是這兩個(gè)任務(wù)的取和求似然。使用BERT模型不需要人工標(biāo)注,降低了訓(xùn)練語料模型的成本。通過大規(guī)模語料預(yù)訓(xùn)練后,預(yù)訓(xùn)練的BERT模型可以通過一個(gè)額外的輸出層來進(jìn)行微調(diào),很大程度上緩解了具體任務(wù)對(duì)模型結(jié)構(gòu)的依賴,能適應(yīng)多種任務(wù)場(chǎng)景,并且不需要做更多重復(fù)性的模型訓(xùn)練工作。
然而BERT也存在缺陷,使得模型的有一定局限性。例如,BERT模型在預(yù)訓(xùn)練中對(duì)被[MASK]標(biāo)記替換掉的單詞進(jìn)行獨(dú)立性假設(shè),即假設(shè)被替換的單詞之間是條件獨(dú)立的,實(shí)際中這些被替換的單詞可能存在相互關(guān)系。此外,BERT模型在預(yù)訓(xùn)練中使用[MASK]標(biāo)記,但這種人為的符號(hào)在調(diào)優(yōu)時(shí)在真實(shí)數(shù)據(jù)中并不存在,會(huì)導(dǎo)致預(yù)訓(xùn)練與調(diào)優(yōu)之間的差異。
2.5 ?XLNet
XLNet改進(jìn)自BERT,是一種自回歸預(yù)訓(xùn)練模型[25]。XLNet針對(duì)BERT的缺點(diǎn)從三個(gè)方面進(jìn)行了優(yōu)化:(1)使用自回歸語言模型,解決[MASK]標(biāo)記帶來的負(fù)面影響;(2)采用雙流自注意力(Two-Stream Self-Attention)機(jī)制;(3)引入Transformer-xl。
XLNet首先通過亂序語言模型(Permutation Language Model,PLM)隨機(jī)排列文本的語句,再使用自回歸語言模型(Autoregressive Language Model)進(jìn)行訓(xùn)練,將上下文信息和token的依賴納入學(xué)習(xí)范圍。同時(shí),XLNet還引入Transformer-xl模型擴(kuò)大了上下文信息的廣度。
BERT作為自編碼語言模型,可以結(jié)合上下文的語義進(jìn)行雙向預(yù)測(cè),而不是僅僅依據(jù)上文或者下文進(jìn)行單向的預(yù)測(cè)。同時(shí)也導(dǎo)致BERT受[MASK]的負(fù)面影響,忽略了被替換的詞之間的相互關(guān)系。因此,XLNet在單向的自回歸語言模型的基礎(chǔ)上,構(gòu)建了亂序語言模型,使用因式分解的方法,獲取所有可能的序列元素的排列順序,最大化其期望對(duì)數(shù)似然,提取上下文語境的信息。XLNet提出的亂序語言模型,避免使用[MASK]標(biāo)記來替換原有單詞,保留了BERT模型中替換詞之間的存在依賴關(guān)系,又解決了BERT不同目標(biāo)詞依賴的語境趨同問題。
由于因式分解進(jìn)行重新排列,采用標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)會(huì)導(dǎo)致不同位置的目標(biāo)得到相同的分布結(jié)果,因此,XLNet使用新的目標(biāo)分布計(jì)算方法,目標(biāo)感知表征的雙流自注意力來解決這一問題。
對(duì)于長(zhǎng)文本數(shù)據(jù),BERT使用絕對(duì)位置編碼,當(dāng)前位置的信息僅針對(duì)某一片段,而不是文本整體。相對(duì)位置編碼基于文本描述位置信息,可以很好的解決這一問題。因此,XLNet集成了Transformer-xl的相對(duì)位置編碼與片段循環(huán)機(jī)制。在計(jì)算當(dāng)前時(shí)刻的隱藏信息的過程中,片段循環(huán)機(jī)制通過循環(huán)遞歸的方式,將上一時(shí)刻較淺層的隱藏狀態(tài)拼接至當(dāng)前時(shí)刻進(jìn)行計(jì)算,增加了捕獲長(zhǎng)距離信息的能力,加快了計(jì)算速度。
3 ?結(jié) ?論
人為篩選冒犯性語言的工作繁瑣且十分有限。冒犯性語言檢測(cè)最初的目的是凈化網(wǎng)絡(luò)環(huán)境,在冒犯性語言出現(xiàn)在社交平臺(tái)之前,自動(dòng)檢測(cè)并限制這些內(nèi)容的出現(xiàn)。許多研究工作都致力于實(shí)現(xiàn)這一任務(wù)的自動(dòng)檢測(cè),傳統(tǒng)學(xué)習(xí)和深度學(xué)習(xí)在這項(xiàng)任務(wù)上得到了廣泛的應(yīng)用。就目前的發(fā)展?fàn)顩r,基于深度學(xué)習(xí)的方法對(duì)這些充滿仇恨、暴力的言論進(jìn)行識(shí)別分類是非常具有前景的手段。雖然冒犯性語言檢測(cè)分類的任務(wù)上有表現(xiàn)優(yōu)異的算法模型,取得了很多優(yōu)秀的研究成果,但仍然有些問題亟待解決:
(1)跨語種分類。由于源語言與目標(biāo)語言的特征空間存在差異,且語言特征不盡相同,對(duì)不同語言進(jìn)行識(shí)別分類的技術(shù)仍需突破。目前冒犯性檢測(cè)的數(shù)據(jù)集采用的單一語言文本,跨語種或者多語種的文本分類還不是很成熟。
(2)自動(dòng)檢測(cè)精確度不足?,F(xiàn)階段很多優(yōu)秀的模型在冒犯性語言檢測(cè)上表現(xiàn)出優(yōu)異的性能,取得了很大進(jìn)展,但和人為篩選的準(zhǔn)確率相比還有很大差距。尋找高效、準(zhǔn)確的檢測(cè)方法,提出新的算法模型,有效彌補(bǔ)自動(dòng)檢測(cè)精確度不足的缺陷。
(3)數(shù)據(jù)集挑戰(zhàn)。冒犯性語言檢測(cè)的數(shù)據(jù)集相對(duì)較小,且存在類不平衡問題,容易導(dǎo)致過擬合。對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充或特征增強(qiáng)可以一定程度上緩解樣本過小的壓力,但是容易引入噪聲數(shù)據(jù),對(duì)分類效果產(chǎn)生負(fù)面影響。需要構(gòu)建一個(gè)更大規(guī)模的冒犯性語言檢測(cè)數(shù)據(jù)集。
(4)衡量算法性能與效率。目前冒犯性語言檢測(cè)任務(wù)中不僅僅只考慮提升算法精確度的問題,提升算法的運(yùn)行效率也同樣值得關(guān)注?,F(xiàn)有的深度學(xué)習(xí)模型都需要在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練,當(dāng)訓(xùn)練樣本總數(shù)變大時(shí),會(huì)使計(jì)算復(fù)雜度增高,導(dǎo)致運(yùn)行效率降低。如何在不犧牲太多精度的情況下提升運(yùn)行效率依然是值得研究的課題。
冒犯性語言檢測(cè)這項(xiàng)任務(wù)中,文本數(shù)據(jù)嘈雜、訓(xùn)練樣本不均衡、預(yù)測(cè)精確度以及模型的優(yōu)化等問題仍然需要研究和突破。因此,探索的有效方法,產(chǎn)生更好的性能是這一任務(wù)未來研究的目標(biāo)。
參考文獻(xiàn):
[1] 臧敏,徐圓圓,程春慧.社交媒體對(duì)網(wǎng)絡(luò)新聞傳播的影響分析——以微博為例 [J].赤峰學(xué)院學(xué)報(bào)(漢文哲學(xué)社會(huì)科學(xué)版),2024,35(4):121–122.
[2] WANG S H,LIU J X,YANG X O,et al. Galileo at SemEval-2020 Task 12: Multi-lingual Learning for Offensive Language Identification Using Pre-trained Language Models [J/OL].arXiv:2010.03542 [cs.CL].[2021-12-25].https://doi.org/10.48550/arXiv.2010.03542.
[3] 冉永平,楊巍.人際沖突中有意冒犯性話語的語用分析 [J].外國(guó)語(上海外國(guó)語大學(xué)學(xué)報(bào)),2011,34(3):49-55.
[4] DAVIDSON T,WARMSLEY D, MacyM,et al.Automated hate speech detection and the problem of offensive language [J/OL].arXiv:1703.04009 [cs.CL].[2021-12-24].https://doi.org/10.48550/arXiv.1703.04009.
[5] DADVAR M, TRIESCHNIGG D,ORDELMAN R,et al. Improving Cyberbullying Detection withUserContext [EB/OL].[2012-12-25].https://link.springer.com/chapter/10.1007/978-3-642-36973-5_62.
[6] MALMASI S,ZAMPIERI M. Challenges in Discriminating Profanity from Hate Speech [J/OL].arXiv:1803.05495[cs.CL].[2021-12-25].https://doi.org/10.48550/arXiv.1803.05495.
[7] SINGH P,CHAND S. Identifying and Categorizing Offensive Language in Social Media.using Deep Learning [C]//Proceedings of the 13th International Workshop on Semantic Evaluation.Minneapolis:Association for Computational Linguistics,2019:727–734.
[8] 高玉君,梁剛,蔣方婷,等.社會(huì)網(wǎng)絡(luò)謠言檢測(cè)綜述 [J].電子學(xué)報(bào),2020,48(7):1421-1435.
[9] BURNAP P,WILLIAMS M L. Cyber hate speech on twitter:An application of machine classification and statistical modeling for policy and decision making [J].Policy & Internet,2015,7(2):121-262.
[10] MODHA S, MAJUMDER P,MANDL T,et al. Filtering Aggression from the Multilingual Social Media Feed [C]//Proceedings of the First Workshop on Trolling, Aggression and Cyberbullying (TRAC-2018),Santa Fe:Association for Computational Linguistics,2018:199–207.
[11] 李康,李亞敏,胡學(xué)敏,等.基于卷積神經(jīng)網(wǎng)絡(luò)的魯棒高精度目標(biāo)跟蹤算法 [J].電子學(xué)報(bào),2018,46(9):2087-2093.
[12] BANSAL H,NAGEL D,SOLOVEVA A. Deep Learning Analysis of Offensive Language on Twitter:Identification and Categorization [C]//Proceedings of the 13th International Workshop on Semantic Evaluation.Minneapolis:Association for Computational Linguistics,2019:622-627.
[13] GAMBACK B,SIKDAR U K. Using convolutional neural networks to classify hatespeech[EB/OL].[2021-12-25].https://aclanthology.org/W17-3013.pdf.
[14] GOODFELLOW I,BENGIO Y,COURVILLE A.Deep Learning [EB/OL].[2021-12-25].https://www.deeplearningbook.org/.
[15] ZHANG Y J,XU B,ZHAO T J.CN-HIT-MI.T at SemEval-2019 Task 6:Offensive Language Identification Based on BiLSTM with Double Attention [C]//Proceedings of the 13th International Workshop on Semantic Evaluation,Minneapolis:Association for Computational Linguistics,2019:564–570.
[16] ALTIN L S M,SERRANO à B,SAGGION H. LaSTUS/TALN at SemEval-2019 Task 6:Identification and Categorization of Offensive Language in Social Media with Attention-based Bi-LSTM model [C]//Proceedings of the 13th International Workshop on Semantic Evaluation.Minneapolis:Association for Computational Linguistics,2019:672–677.
[17] DEVLIN J,CHANG M W,LEE K,et al. Bert: Pre-training of deep bidirectional transformers for language understanding [J/OL].arXiv:1810.04805 [cs.CL].[2021-12-25].https://arxiv.org/abs/1810.04805.
[18] YANG Z L,DAI Z H,YANG Y M,et al. XLNet:Generalized Autoregressive Pretraining for Language Understanding [EB/OL].[2021-12-25].https://zhuanlan.zhihu.com/p/403559991.
[19] VASWANI A,SHAZEER N,PARMAR N,et al. Attention Is All You Need [J/OL].arXiv:1706.03762 [cs.CL].[2021-12-25].https://arxiv.org/abs/1706.03762v1.
[20] ZAMPIERI M,MALMASI S,NAKOV P,et al. NULI at SemEval-2019 Task 6: Transfer Learning for Offensive Language Detection using Bidirectional [C]//Transformers2019.Proceedings of the 13th International Workshop on Semantic Evaluation,Minneapolis:Association for Computational Linguistics,2019:75–86.
[21] ZAMPIERI M,MALMASI S,NAKOV P,et al. Predicting the Type and Target of Offensive Posts in Social Media [J/OL].arXiv:1902.09666[cs.CL].[2021-12-25].https://arxiv.org/abs/1902.09666.
[22] WAIBEL A,HANAZAWA T,HINTON G,et al. Phoneme recognition using time-delay neural networks [J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1989,37(3):328-339.
[23] VASWANI A,SHAZEER N,PARMA N,et al. Attention is All you Need [J/OL].arXiv:1706.03762 [cs.CL].[2012-12-25].https://arxiv.org/abs/1706.03762v1.
[24] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-training of deep bidirectional transformers for language understanding [J/OL].arXiv:1810.04805 [cs.CL].[2012-12-26].https://arxiv.org/abs/1810.04805.
[25] YANG Z L,DAI Z H,YANG Y M,et al. XLNet:Generalized Autoregressive Pretraining for Language Understanding[J/OL].arXiv:1906.08237 [cs.CL].[2021-12-26].https://doi.org/10.48550/arXiv.1906.08237.
作者簡(jiǎn)介:郭博露(1999—),女,漢族,湖北荊州人,碩士研究生在讀,主要研究方向:自然語言處理;通訊作者:熊旭輝(1971—),男,漢族,湖北黃石人,副教授,碩士生導(dǎo)師,工學(xué)博士,主要研究方向:計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)、自然語言處理。