臧義
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
網(wǎng)絡(luò)社區(qū)是指網(wǎng)上論壇、貼吧、微博、博客、網(wǎng)絡(luò)游戲聊天區(qū)等公共平臺(tái),在這些平臺(tái)上用戶(hù)可以隨意通過(guò)發(fā)布帖子或者評(píng)論帖子來(lái)發(fā)表自己的言論。臟話(huà)作為人們的一種非正式語(yǔ)言,在現(xiàn)實(shí)生活中經(jīng)常出現(xiàn)?;ヂ?lián)網(wǎng)的便利和虛擬性質(zhì)更加助長(zhǎng)了臟話(huà)的泛濫,尤其是在娛樂(lè)性質(zhì)比較強(qiáng)的平臺(tái)如網(wǎng)絡(luò)游戲聊天區(qū)是臟話(huà)言論的高發(fā)地,在缺乏完善的監(jiān)管之前,人們幾乎不會(huì)為自己所發(fā)表的臟話(huà)言論承擔(dān)責(zé)任,這為維護(hù)健康的網(wǎng)絡(luò)公共環(huán)境、凈化網(wǎng)絡(luò)風(fēng)氣造成了風(fēng)險(xiǎn)。因此,研究針對(duì)一段文本來(lái)自動(dòng)識(shí)別其是否為臟話(huà)的系統(tǒng)具有十分重要的現(xiàn)實(shí)意義。
臟話(huà)言論是指針對(duì)某個(gè)人或者某個(gè)群體的辱罵或者發(fā)表攻擊性言論的行為,根據(jù)辱罵內(nèi)容的不同又可以細(xì)分為:性別歧視、種族歧視、仇恨言論、個(gè)人人身共計(jì)、諷刺、欺凌、褻瀆等方面,我們這里研究的臟話(huà)是指廣義方面的臟話(huà)。網(wǎng)絡(luò)社區(qū)的臟話(huà)言論一般具有以下特點(diǎn):①臟話(huà)的書(shū)寫(xiě)往往不規(guī)范,辱罵者一般為了規(guī)避敏感詞檢測(cè)系統(tǒng),會(huì)采用縮寫(xiě)、更換為其他語(yǔ)言等方式來(lái)表達(dá)同樣意思的臟話(huà)言論;②臟話(huà)的語(yǔ)言更新發(fā)展速度較快;③為了表達(dá)情緒,臟話(huà)相比于正式書(shū)面文本往往會(huì)伴隨一些表情符號(hào)或者不規(guī)范用法的標(biāo)點(diǎn)符號(hào);④部分臟話(huà)詞存在非臟話(huà)詞的意思,通過(guò)關(guān)鍵字匹配來(lái)屏蔽臟話(huà)詞并不一定能夠有效屏蔽臟話(huà)。
臟話(huà)識(shí)別可以看作一個(gè)文本二分類(lèi)的任務(wù),即針對(duì)一段聊天或評(píng)論文本判斷它是否是臟話(huà)言論。在實(shí)際應(yīng)用中,臟話(huà)識(shí)別較為復(fù)雜的任務(wù),主要表現(xiàn)在以下幾個(gè)方面:①由于臟話(huà)的表達(dá)形式豐富以及部分臟話(huà)詞存在非臟話(huà)意思,所以通過(guò)關(guān)鍵字匹配的方法往往效果不理想;②在語(yǔ)法上,臟話(huà)言論可能也比較流利,例如仇恨言論或方面;③存在模糊或者比擬手法等比較隱晦的臟話(huà)用法;④根據(jù)各細(xì)分領(lǐng)域的不同,臟話(huà)的文本風(fēng)格也不相同。
早期對(duì)于臟話(huà)識(shí)別的技術(shù)主要是基于敏感詞過(guò)濾的方法,該方法事先要建立過(guò)濾敏感詞詞典,根據(jù)輸入的句子進(jìn)行分詞,然后根據(jù)敏感詞詞典進(jìn)行機(jī)器匹配,如果匹配到敏感詞則被認(rèn)為這一段文本是臟話(huà),該方法于精確率和召回率都不高,并且可能造成誤判,因此在實(shí)際應(yīng)用中會(huì)影響用戶(hù)正常信息的發(fā)布。這是由于臟話(huà)語(yǔ)言更新速度較快、用戶(hù)變換臟話(huà)的形式以及部分臟話(huà)詞存在非臟話(huà)意思所導(dǎo)致的結(jié)果,所以敏感詞過(guò)濾的方法需要人為經(jīng)常更新敏感詞詞典。S.O.Sood、J.Antin等人[1]通過(guò)使用眾包來(lái)標(biāo)注了臟話(huà)行為,采用敏感詞過(guò)濾的方式褻瀆檢測(cè),該方法由于無(wú)法適應(yīng)臟話(huà)語(yǔ)言自身的特點(diǎn),對(duì)于臟話(huà)識(shí)別具有一定的局限性。
基于敏感詞過(guò)濾的方法不能兼顧到臟話(huà)詞本身快速發(fā)展的特點(diǎn),并且還可能會(huì)因?yàn)榕K話(huà)詞在某些上下文中當(dāng)非臟話(huà)詞意思使用的情況而導(dǎo)致本身不應(yīng)為臟話(huà)的樣例被誤分類(lèi)臟話(huà)。和敏感詞過(guò)濾方法相比,機(jī)器學(xué)習(xí)方法可以考慮人工設(shè)計(jì)加入更多更豐富的特征,例如N-Gram、詞匯特征、句法特征、用戶(hù)特定特征,等等?;谠~匯的檢測(cè)方法會(huì)將所有出現(xiàn)臟話(huà)詞的文本分類(lèi)為臟話(huà)而造成的低精確率,而臟話(huà)詞在表達(dá)臟話(huà)詞意思的時(shí)候,往往帶有固定地句法搭配??紤]捕捉臟話(huà)詞及其使用搭配的句法特征,有助于提升臟話(huà)識(shí)別的效果。Thomas Davidson[2]和Zeerak Waseem[3]等人考慮引入N-Gram 的詞性特征來(lái)捕捉句法特征,并且還加入了一條推文中的hashtag 數(shù)量、提及用戶(hù)的數(shù)量、URL 數(shù)量等特征,最后采用了邏輯回歸模型來(lái)分類(lèi)。William Warner 等人[4]也使用通過(guò)支持向量機(jī)來(lái)對(duì)捕捉的N-Gram 特征進(jìn)行分分類(lèi)。
傳統(tǒng)機(jī)器學(xué)習(xí)方法雖然取得不錯(cuò)的效果,但是該方法依然存在以下缺點(diǎn):①人工特征工程需要較大的時(shí)間成本和人力成本;②人工特征方法的模型在任務(wù)目標(biāo)各異的臟話(huà)識(shí)別領(lǐng)域的通用性能較差,換一個(gè)數(shù)據(jù)集或者任務(wù),則可能模型效果降低而導(dǎo)致部分特征需要重新設(shè)計(jì)。由于神經(jīng)網(wǎng)絡(luò)方法具有自動(dòng)學(xué)習(xí)特征的優(yōu)勢(shì),越來(lái)越多的研究人員使用神經(jīng)網(wǎng)絡(luò)方法運(yùn)用于臟話(huà)識(shí)別領(lǐng)域。
針對(duì)用戶(hù)故意對(duì)單詞進(jìn)行混淆以規(guī)避臟話(huà)檢測(cè)系統(tǒng)的現(xiàn)象,Ji Ho Park 等人[5]考慮捕捉臟話(huà)詞字符層面的特征,采用基于詞級(jí)和字符級(jí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型來(lái)分別抽取基于詞和字符的局部特征,再將兩部分特征進(jìn)行融合,再通過(guò)一個(gè)CNN 抽取特征后進(jìn)行分類(lèi)。Mishra 等人[6]通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)捕捉字符級(jí)別的特征。Zhang 等人[7]考慮捕捉臟話(huà)詞的共現(xiàn)現(xiàn)象(即臟話(huà)詞及其附近固定用詞搭配),例如:(muslim refugees, deported)和(muslim refugees, not welcome)。而近兩年來(lái),研究人員考慮使用更加復(fù)雜的模型以及引入輔助知識(shí)來(lái)提高臟話(huà)識(shí)別效果。研究人員發(fā)現(xiàn)單獨(dú)從一段文本尤其是在文本字?jǐn)?shù)和信息較少的情況下很難去判斷該文本是否為臟話(huà),作者的社區(qū)信息或者元數(shù)據(jù)包括作者之前的發(fā)文相關(guān)信息、個(gè)人信息以及基于社會(huì)網(wǎng)絡(luò)的信息,往往有作案前科的臟話(huà)言論者在社區(qū)信息或元數(shù)據(jù)特征上會(huì)有一個(gè)傾向性,捕捉這種特征的傾向性,有助于判斷該作者發(fā)文是臟話(huà)的準(zhǔn)確率,提升臟話(huà)識(shí)別的效果。Mishra 等人[8]在N-Gram 字符級(jí)特征的基礎(chǔ)上考慮再加上作者的社區(qū)信息作為特征,F(xiàn)ounta 等人[9]以文本和文本作者的元數(shù)據(jù)作為模型的兩個(gè)輸入,分別通過(guò)RNN 和多層感知機(jī)(MLP)抽取各自的隱藏特征,并使用一個(gè)拼接層將兩部分特征融合起來(lái)再作分類(lèi)。作者在前期實(shí)驗(yàn)中發(fā)現(xiàn)兩條輸入路徑存在收斂速率不同的情況,在論文的實(shí)驗(yàn)中,作者使用遷移學(xué)習(xí)的思想,分別單獨(dú)訓(xùn)練兩條路徑,保留拼接層以上的參數(shù),重新初始化拼接層,重新訓(xùn)練整個(gè)模型且只對(duì)之前保留的拼接層以上的參數(shù)進(jìn)行微調(diào)。Rajamanickam 等人[10]基于《褻瀆心理學(xué)》[11]中的“臟話(huà)行為跟發(fā)表臟話(huà)者的心理狀態(tài)和情緒是息息相關(guān)的”這一理論,提出用多任務(wù)學(xué)習(xí)框架對(duì)臟話(huà)識(shí)別和情緒分類(lèi)聯(lián)合建模,其中主任務(wù)是臟話(huà)識(shí)別,輔助任務(wù)是情緒分類(lèi)。兩個(gè)任務(wù)采用交替學(xué)習(xí)的方式,在主任務(wù)訓(xùn)練的時(shí)候,將兩個(gè)任務(wù)編碼端的信息進(jìn)行融合再進(jìn)行分類(lèi),并且同時(shí)更新兩個(gè)任務(wù)編碼端的參數(shù);在輔助任務(wù)訓(xùn)練的時(shí)候,僅更新輔助任務(wù)編碼端的參數(shù)。通過(guò)實(shí)驗(yàn)證明,加入情緒分類(lèi)的輔助任務(wù)的確有助于提升臟話(huà)識(shí)別的效果,而且相比于采用遷移學(xué)習(xí)的方式來(lái)訓(xùn)練,交替訓(xùn)練方式能夠更多保留輔助任務(wù)編碼端中隊(duì)臟話(huà)識(shí)別有幫助的信息。
目前臟話(huà)識(shí)別領(lǐng)域的數(shù)據(jù)集的概況有以下幾個(gè)特點(diǎn):①公開(kāi)可用的數(shù)據(jù)集較少。臟話(huà)識(shí)別領(lǐng)域大多數(shù)數(shù)據(jù)集只是作為研究人員各自的研究工作所用,并沒(méi)有對(duì)外公開(kāi),導(dǎo)致該領(lǐng)域數(shù)據(jù)集眾多,但是可以直接在網(wǎng)上下載的只有寥寥幾個(gè)。Waseem and Hovy 2016 數(shù)據(jù)集來(lái)自文獻(xiàn)工作[12],該工作主要檢測(cè)與宗教,性,性別和少數(shù)民族相關(guān)的常用誹謗和粗話(huà),數(shù)據(jù)集來(lái)自推文,總共有16,202 條數(shù)據(jù),標(biāo)注分為三種:種族主義(占比12%),性別歧視(19.4%)或兩者都不存在(68.6%)。OffensEval 2019[13]數(shù)據(jù)集來(lái)自SemEval 2019 比賽第六個(gè)任務(wù),旨在檢測(cè)社交媒體上的攻擊性言論,這里的攻擊性言論包含令人反感的語(yǔ)言或針對(duì)性的攻擊,包括侮辱,威脅,褻瀆性語(yǔ)言和臟話(huà)。該數(shù)據(jù)集共有13,240條推文,其中33%為攻擊性言論,另外67%為非攻擊性言論;②數(shù)據(jù)集的標(biāo)注各異。由于研究人員根據(jù)各自的研究工作的任務(wù)不同,各自工作所用的數(shù)據(jù)集標(biāo)注類(lèi)別也各異,這就造成了目前臟話(huà)領(lǐng)域數(shù)據(jù)集雜亂的情況。并且由于各任務(wù)之間的數(shù)據(jù)分布差異,使得臟話(huà)領(lǐng)域中還沒(méi)有可以作為大量引用的標(biāo)準(zhǔn)化數(shù)據(jù)集;③標(biāo)注數(shù)據(jù)困難。一方面臟話(huà)在數(shù)據(jù)分布中的比例較少,要標(biāo)注一定量的正例(臟話(huà))需要較大的工作量;另一方面,眾包模式可以解決標(biāo)注工作量的問(wèn)題,但是同時(shí)也存在著標(biāo)注質(zhì)量低的問(wèn)題。
本文對(duì)網(wǎng)絡(luò)社區(qū)臟話(huà)識(shí)別的研究進(jìn)展進(jìn)行了介紹,簡(jiǎn)單介紹了臟話(huà)識(shí)別的應(yīng)用價(jià)值、臟話(huà)的特點(diǎn)和臟話(huà)識(shí)別任務(wù)的難點(diǎn),重點(diǎn)介紹了臟話(huà)識(shí)別領(lǐng)域方法的發(fā)展歷程以及最新研究成果。臟話(huà)識(shí)別作為一個(gè)極具研究?jī)r(jià)值和現(xiàn)實(shí)意義的課題,該領(lǐng)域目前的研究水平還不夠充分,尤其深度學(xué)習(xí)的快速發(fā)展能夠?yàn)榕K話(huà)識(shí)別領(lǐng)域的研究帶來(lái)重大突破。當(dāng)下階段臟話(huà)識(shí)別領(lǐng)域不僅僅有難以獲取數(shù)據(jù)集的困難,而且大部分工作都集中在以英語(yǔ)為主要語(yǔ)言的領(lǐng)域,而在其他語(yǔ)言領(lǐng)域的研究極具匱乏,這些挑戰(zhàn)和研究空缺都需要研究人員去進(jìn)一步探索新的解決方法。