王俊芳 韓澤峰 陳楠
摘要:在線社區(qū)已經(jīng)成為許多用戶交流與獲取信息的主要場(chǎng)所。但是同時(shí),很多廣告信息也充斥在許多網(wǎng)絡(luò)社區(qū)里。這些廣告不僅嚴(yán)重?fù)p害了社區(qū)的使用質(zhì)量,使得用戶在瀏覽這些無的信息上浪費(fèi)了大量時(shí)間,一些虛假廣告還有可能對(duì)普通網(wǎng)民的財(cái)產(chǎn)等方面帶來嚴(yán)重的損失。目前已經(jīng)在廣告文本檢測(cè)上已經(jīng)有相關(guān)研究,相應(yīng)的算法也應(yīng)用于實(shí)際系統(tǒng)??紤]到幾乎所有的在線社區(qū)廣告均包含了聯(lián)系方式,本項(xiàng)工作研究從檢測(cè)到的廣告文本里面提取聯(lián)系方式。我們提取了兩種算法:基于規(guī)則的算法和基于深度學(xué)習(xí)的算法。實(shí)驗(yàn)表明我們的算法具備較好的性能。
關(guān)鍵詞:廣告文本;抽??;算法;深度學(xué)習(xí)
1 前言
經(jīng)過網(wǎng)絡(luò)文本中聯(lián)系方式的抽取具有重要的意義,從我們接觸到的文獻(xiàn)來看,目前尚沒有專門的公開論文來探討這一問題。本文提出了兩種聯(lián)系方式抽取算法:基于規(guī)則的算法和基于深度學(xué)習(xí)的算法。同時(shí),我們構(gòu)造了一個(gè)包含7000條互聯(lián)網(wǎng)文本的數(shù)據(jù)集來驗(yàn)證我們算法的性能。本文的貢獻(xiàn)主要體現(xiàn)在:1)我們首次研究了互聯(lián)網(wǎng)文本中聯(lián)系方式的抽取問題;2)我們提出了兩種有效地算法,特別是首次將深度學(xué)習(xí)應(yīng)用到該問題上;3)我們提出了一種結(jié)合拼音嵌入的方式來作為深度神經(jīng)網(wǎng)絡(luò)的輸入。
2 相關(guān)工作
2.1 深度學(xué)習(xí)
現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)主要包含三種主要的架構(gòu)。第一種架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)在于其每一層的特征都由上一層的局部區(qū)域通過共享權(quán)值的卷積核激勵(lì)得到。這一特點(diǎn)使得卷積神經(jīng)網(wǎng)絡(luò)相比于其他神經(jīng)網(wǎng)絡(luò)方法更適合應(yīng)用于圖像特征的學(xué)習(xí)與表達(dá)。第二種架構(gòu)是循環(huán)神經(jīng)網(wǎng)絡(luò)。RNN的本質(zhì)特征是在處理單元之間既有內(nèi)部的反饋連接又有前饋連接,并且RNN特別適宜用于建立序列性數(shù)據(jù),例如文本。第三種架構(gòu)是前面兩種架構(gòu)的融合,特別是在視頻信息處理上,通過CNN來表征單幀信息,通過RNN來建模時(shí)序信息。由于本文所處理的對(duì)象是文本,所以本文將利用RNN來作為基本架構(gòu)進(jìn)行算法設(shè)計(jì)。
2.2 網(wǎng)絡(luò)廣告文本識(shí)別
網(wǎng)絡(luò)廣告文本識(shí)別基本都是沿用文本分類的思路來處理。傳統(tǒng)文本分類一般包括特征選擇與分類器構(gòu)建兩個(gè)步驟。特征選擇的方法包括信息增益、互信息等等。而深度學(xué)習(xí)廣泛應(yīng)用于自然語言處理之后,一般利用字向量或者詞向量來作為最基本的特征輸入,然后利用網(wǎng)絡(luò)來逐步得到句子、段落甚至篇章級(jí)的特征表示,并且分類器也融入網(wǎng)絡(luò)之中。文本分類所采用的網(wǎng)絡(luò)架構(gòu)既有CNN,也有RNN,也有兩者的結(jié)合。
3 本文的方法
3.1 基于語句規(guī)則的抽取
本文主要是針對(duì)中文文本中聯(lián)系方式的提取,提取類型主要分為微信,QQ,手機(jī)號(hào)碼三大類,其中微信又分為微信號(hào)和公眾號(hào)兩小類,QQ分為QQ號(hào)和QQ群號(hào)兩小類。顧名思義,基于語義規(guī)則提取即根據(jù)數(shù)據(jù)中出現(xiàn)的標(biāo)志性詞匯來提取數(shù)據(jù)中可能的聯(lián)系方式。本文規(guī)則提取的特點(diǎn)在于應(yīng)用了拼音函數(shù)和漢字判別函數(shù),現(xiàn)在的廣告商為躲避各種屏蔽機(jī)制,往往會(huì)以標(biāo)致性詞匯的諧音詞代替原來的標(biāo)志性詞匯,要統(tǒng)計(jì)所有的標(biāo)致性詞匯和其諧音詞工作量大,且往往會(huì)漏掉一部分諧音詞,現(xiàn)在我們通過拼音函數(shù)將9萬多的漢字翻譯成400個(gè)左右的拼音,這不僅使標(biāo)致性詞匯無所遁形,并且大大的降低了規(guī)則類別的維度,從而減輕了人工查找規(guī)則的負(fù)擔(dān)和機(jī)器運(yùn)行的負(fù)擔(dān)。
3.2 基于深度神經(jīng)網(wǎng)絡(luò)的抽取
鑒于LSTM+CRF對(duì)于詞性、命名體等信息提取的良好性能,本文將該模型作為聯(lián)系方式提取的核心模型。模型訓(xùn)練數(shù)據(jù)的預(yù)處理通過語義規(guī)則標(biāo)注部分?jǐn)?shù)據(jù),之后將標(biāo)注結(jié)果再進(jìn)行人工處理,完善規(guī)則標(biāo)注程序的短板,從而保證訓(xùn)練出的模型在有限條件下效果最佳。標(biāo)注好的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,實(shí)驗(yàn)中我們選取了漢字,漢字拼音,詞性,以及對(duì)應(yīng)的標(biāo)簽四個(gè)特征(其中標(biāo)簽必選),并對(duì)其進(jìn)行了不同的組合方式對(duì)模型進(jìn)行了訓(xùn)練,其中包括基于(漢字,漢字拼音,標(biāo)簽),(漢字,詞性,標(biāo)簽),(漢子拼音,詞性,標(biāo)簽)三種特征方式的LSTM模型以及三種特征方式的GRU模型。
4 實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)指標(biāo)
4.1 實(shí)驗(yàn)數(shù)據(jù)
本文選取的數(shù)據(jù)為一游戲相關(guān)數(shù)據(jù),其中大多包含了游戲金幣鉆石買賣,戰(zhàn)盟拉人等相關(guān)聯(lián)系方式,其中主要包括QQ,QQ群,微信,微信公眾號(hào),手機(jī)號(hào)碼這五類聯(lián)系方式。本次實(shí)驗(yàn)的數(shù)據(jù)量為7442,其中1000條作為測(cè)試集,其余6442條數(shù)據(jù)作為訓(xùn)練集。
4.2 評(píng)價(jià)指標(biāo)
本文主要考慮了兩類評(píng)價(jià)指標(biāo):準(zhǔn)確率和召回率。其中準(zhǔn)確率包括各類聯(lián)系方式的準(zhǔn)確率以及平均準(zhǔn)確率。對(duì)于五個(gè)小類分別有一個(gè)準(zhǔn)確率和召回率,并且最終會(huì)有一個(gè)平均的準(zhǔn)確率和召回率。
5 實(shí)驗(yàn)結(jié)果與結(jié)論分析
在以上所提到的兩類方法的基礎(chǔ)上,我們對(duì)已有數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),以下是兩類模型在樣本容量為1000的同一測(cè)試集上作用得到的結(jié)果。
語義規(guī)則下的聯(lián)系方式提取準(zhǔn)確率占優(yōu),其主要優(yōu)勢(shì)體現(xiàn)在QQ和QQ群的提取,而其余的準(zhǔn)確率均在深度學(xué)習(xí)模型里取得最優(yōu)值,其中漢字,拼音,標(biāo)簽為特征的模型效果最佳。
語義規(guī)則同樣占優(yōu),其主要優(yōu)勢(shì)體現(xiàn)在QQ群和電話的提取,但其短板也尤為突出,公眾號(hào)召回率低至15.79%。除QQ群的其余聯(lián)系方式的召回率均在深度學(xué)習(xí)模型里取得最優(yōu)值,且集中體現(xiàn)在漢字,拼音,標(biāo)簽三種特征下的GRU模型之中。
由以上兩組數(shù)據(jù)的對(duì)比可知基于此數(shù)據(jù)集語義規(guī)則提取效果較好,漢字拼音標(biāo)簽GRU模型次之,語義規(guī)則在處理純數(shù)字類型的聯(lián)系方式上效果尤為突出,但在其他類型數(shù)據(jù)上尤其是包含漢字的公眾號(hào)上效果不佳。對(duì)于深度學(xué)習(xí)模型其表現(xiàn)較為均衡,但在QQ和QQ群提取方面表現(xiàn)不突出,其原因是提取時(shí)部分QQ群錯(cuò)誤提取成QQ,致使整體稍遜色于規(guī)則?;诖宋覀儗?duì)數(shù)據(jù)集進(jìn)行了分析,手機(jī)號(hào)碼和公眾號(hào)的比例與其他三類聯(lián)系方式的比例相差甚大,且QQ,QQ群占據(jù)了數(shù)據(jù)的主要部分,由此可見數(shù)據(jù)分布可能會(huì)更有利于規(guī)則提取。
6 總結(jié)
本文基于7442條中文數(shù)據(jù),對(duì)其分別進(jìn)行了基于LSTM/GRU模型和傳統(tǒng)語義規(guī)則提取聯(lián)系方式的實(shí)驗(yàn)。傳統(tǒng)語義規(guī)則提取更為精準(zhǔn),對(duì)于適量的數(shù)據(jù)可以擬定有限的規(guī)則提取出盡可能多類別的目標(biāo)數(shù)據(jù),但對(duì)于大數(shù)據(jù)傳統(tǒng)語義規(guī)則離散型較強(qiáng),擬定規(guī)則費(fèi)時(shí)費(fèi)力,且規(guī)則之間的影響會(huì)限制規(guī)則的種類,導(dǎo)致部分類別的數(shù)據(jù)難提取甚至漏提取;基于LSTM/GRU模型和傳統(tǒng)語義規(guī)則相比提取更具有連續(xù)性,學(xué)習(xí)規(guī)則也更具有主動(dòng)性,在當(dāng)今大數(shù)據(jù)的背景下更為適用和契合,但其也暴露出致命的難點(diǎn)和弊端,深度學(xué)習(xí)模型對(duì)數(shù)據(jù)的依賴性強(qiáng),數(shù)據(jù)量和數(shù)據(jù)分布也有比較高的要求,所以數(shù)據(jù)擴(kuò)充和怎樣高效的處理數(shù)據(jù)是當(dāng)前科技環(huán)境亟需探索的一大方向。下一步還將探索更為高效的嵌入方式和網(wǎng)絡(luò)結(jié)構(gòu)。
參考文獻(xiàn):
[1]張嬙嬙,黃廷磊,張銀明.基于聚類分析的二分網(wǎng)絡(luò)社區(qū)挖掘[J]. 計(jì)算機(jī)應(yīng)用,2015,35(12):3511-3514.
[3]艾瑞咨詢集團(tuán),《2016年中國(guó)網(wǎng)絡(luò)廣告行業(yè)年度監(jiān)測(cè)報(bào)告簡(jiǎn)版》
基金項(xiàng)目: 本文工作受國(guó)際自然科學(xué)基金支持(資助號(hào):61673377).