王宏宇
摘要:黨的十九大報(bào)告提出“加強(qiáng)互聯(lián)網(wǎng)內(nèi)容建設(shè),建立網(wǎng)絡(luò)綜合治理體系,營造清朗的網(wǎng)絡(luò)空間?!?,這是對(duì)新時(shí)期網(wǎng)絡(luò)信息內(nèi)容安全及管理的新要求。該文介紹了不良圖片識(shí)別技術(shù)的發(fā)展現(xiàn)狀和相關(guān)概念,并從卷積神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)、類別響應(yīng)圖可視化和損失函數(shù)五個(gè)方面,說明了不良圖片識(shí)別的有關(guān)技術(shù)特點(diǎn)和難點(diǎn)。
關(guān)鍵詞:信息內(nèi)容安全;不良圖片識(shí)別
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)12-0195-02
當(dāng)前互聯(lián)網(wǎng)絡(luò)已經(jīng)成為影響廣泛、傳播力強(qiáng)大的大眾傳媒,各種信息通過文字、圖片、視頻等在網(wǎng)絡(luò)上傳播,極大地滿足了公眾的信息需求。但是虛假信息、垃圾信息、暴力色情等非法有害信息在網(wǎng)絡(luò)傳播中也不時(shí)出現(xiàn),這給國家和社會(huì)帶來了不可低估的破壞作用和負(fù)面影響。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第41次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示:“截至2017年12月,中國網(wǎng)民規(guī)模達(dá)7.72億,手機(jī)網(wǎng)民規(guī)模達(dá)7.53億;網(wǎng)民仍以10-39歲群體為主,其中10—19 歲年齡段群體占比分別為19.6%,網(wǎng)民中學(xué)生群體占比仍然最高,為25.4%?!彪S著近幾年移動(dòng)社交類、UGC 類平臺(tái)、App等應(yīng)用每天產(chǎn)生大量圖片,無數(shù)暴力、淫穢色情圖片混雜其中,將會(huì)對(duì)青少年的身心健康成長帶來不良影響,如何應(yīng)對(duì)網(wǎng)絡(luò)信息傳播中出現(xiàn)的淫穢色情等不良圖片信息問題,保障網(wǎng)絡(luò)信息內(nèi)容安全,成為業(yè)界急需研究的內(nèi)容。以此為出發(fā)點(diǎn),本文對(duì)如何識(shí)別網(wǎng)絡(luò)上的各種不良非法圖片進(jìn)行了研究,以便有效及時(shí)的識(shí)別發(fā)現(xiàn)互聯(lián)網(wǎng)信息傳播中的各種不良非法圖片信息,保障網(wǎng)絡(luò)信息內(nèi)容安全。
1 網(wǎng)絡(luò)不良圖片識(shí)別技術(shù)相關(guān)研究及概念
1.1 論文統(tǒng)計(jì)
在中國知網(wǎng)CNKI中以“不良圖片識(shí)別”為關(guān)鍵詞進(jìn)行檢索,檢索時(shí)間從2005年1月1日到2017年12月31日,共檢索到關(guān)于不良圖片識(shí)別研究的論文2篇(含博、碩士論文)。以“不良圖片識(shí)別”為主題檢索,檢索到論文12篇,均為2010年以后發(fā)表論文。由此可見業(yè)界對(duì)此方面的研究還較少,今后還需各界加以重視,加大研究力度。
1.2 相關(guān)概念
不良圖片識(shí)別一般是指基于計(jì)算機(jī)視覺的不良圖片檢測(cè)。其發(fā)展過程主要經(jīng)歷以下三個(gè)階段。第一人工階段,互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)絡(luò)信息較少,網(wǎng)絡(luò)環(huán)境也不夠穩(wěn)定,網(wǎng)絡(luò)不良圖片識(shí)別主要靠“人肉攻略”,即人工肉眼查看,發(fā)現(xiàn)不良圖片及時(shí)刪除。第二算法過濾階段,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)量開始劇增,人工識(shí)別已難以為繼。以膚色識(shí)別算法過濾“黃色”圖片成為“不良圖片識(shí)別”主流,此時(shí)計(jì)算機(jī)識(shí)別與人工審核分別占80%和20%。第三人工智能階段,移動(dòng)互聯(lián)網(wǎng)的發(fā)展產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)量使人工審核20%的數(shù)據(jù)也難易實(shí)現(xiàn),加上視頻、直播等業(yè)務(wù)和數(shù)據(jù)的爆發(fā)式增長,純靠膚色識(shí)別算法作為“過濾”的方式已經(jīng)落后,此時(shí)機(jī)器學(xué)習(xí)開始作為一種新的方式,承擔(dān)起網(wǎng)絡(luò)不良圖片識(shí)別的重任。
不良圖片識(shí)別從機(jī)器學(xué)習(xí)的角度看,本質(zhì)上是一個(gè)圖像分類問題,即通過分類器來判斷圖片是否含有不良信息。一般來說主要有以下三個(gè)實(shí)現(xiàn)步驟:一是分類器數(shù)學(xué)模型預(yù)定義,即首先定義一個(gè)數(shù)學(xué)模型如[y=F(x)],把待識(shí)別的圖片[x]作為輸入值,然后通過定義設(shè)計(jì)的數(shù)學(xué)模型[F], 輸出該圖片為不良圖片的概率[y]。該步驟的關(guān)鍵在于分類標(biāo)準(zhǔn)的定義,即什么樣的圖片是不良圖片。這里的不良圖片不單單是指“露點(diǎn)”圖片,還包括不“露點(diǎn)”的色情、低俗圖片,另外還要排除雕塑、藝術(shù)作品等正常圖片。二是訓(xùn)練學(xué)習(xí),該步驟首先收集大量的樣本數(shù)據(jù),然后通過圖片識(shí)別訓(xùn)練學(xué)習(xí),進(jìn)行特征提取,得到數(shù)學(xué)模型定義中的[F],由于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在圖像識(shí)別技術(shù)中獲得了突破性的進(jìn)展,目前一般不良圖片的識(shí)別通常采用CNN(卷積神經(jīng)網(wǎng)絡(luò))、GoogLeNet、ResNet(殘差網(wǎng)絡(luò))三種深度網(wǎng)絡(luò)模型結(jié)構(gòu)。通過模型,高效地將圖片數(shù)據(jù)轉(zhuǎn)變成可以運(yùn)算的數(shù)學(xué)模型,以便更快更好地得到[F]。三是確定模型,通過第二步的訓(xùn)練學(xué)習(xí),經(jīng)過不斷地迭代、算法調(diào)參,最終確定越來越精準(zhǔn)的數(shù)學(xué)模型[F]。
網(wǎng)絡(luò)視頻和直播中的不良信息鑒別,在本質(zhì)上與不良圖片識(shí)別類似。在鑒別視頻和直播中的不良信息時(shí),動(dòng)態(tài)的內(nèi)容可以解碼成圖像幀進(jìn)行判斷,這樣就與靜態(tài)圖片鑒別方法相似了。
2 網(wǎng)絡(luò)不良圖片識(shí)別技術(shù)綜述
如上所述,網(wǎng)絡(luò)不良圖片識(shí)別雖然是個(gè)圖像分類問題,但是和常見的MNIST、CIFAR、ImageNet等分類任務(wù)不同,不良圖片識(shí)別有如下特點(diǎn)和難點(diǎn):一是多標(biāo)簽數(shù)據(jù)。和 ImageNet 等單標(biāo)簽數(shù)據(jù)集不同,不良圖片識(shí)別模型面對(duì)的圖片沒有特定類型,畫面中包含的物體也沒有限制。如穿著暴露的人和全裸露點(diǎn)的人物同時(shí)出現(xiàn)在畫面內(nèi),輸出的最終結(jié)果不能是色情和性感,而是判定為色情圖片,也就是說是個(gè)帶優(yōu)先級(jí)的分類任務(wù)。二是非符號(hào)化圖像。在 ImageNet、CIFAR 等數(shù)據(jù)集中,圖像內(nèi)容往往是比較明確的,而在不良圖片識(shí)別中,面向的是真實(shí)場(chǎng)景中的圖像,包含大量的非符號(hào)化數(shù)據(jù)。三是數(shù)據(jù)特殊性。在不良圖片識(shí)別任務(wù)中,色情和性感圖片在像素空間占據(jù)的只是很小的區(qū)域,其他類別占據(jù)了絕大部分像素空間。而在模型中,一般則是期望模型學(xué)習(xí)到的特征主要是和色情和性感圖片相關(guān)的特征。在用于分類的特征空間中,因?yàn)槠渌悇e圖片種類非常豐富,所以和色情、性感類別的分類邊界是難以捉摸的,另一方面色情、性感類別圖片因?yàn)槌3:芟嗨?,所以分類邊界的求解非常有難度。針對(duì)不良圖片識(shí)別的特點(diǎn)和難點(diǎn),現(xiàn)階段的關(guān)鍵技術(shù)研究如下。
2.1 卷積神經(jīng)網(wǎng)絡(luò)
目前卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已經(jīng)應(yīng)用在幾乎所有圖像分類任務(wù)中。早在 1989 年,LeCun等就發(fā)明了卷積神經(jīng)網(wǎng)絡(luò),并且被廣泛應(yīng)用于美國的很多銀行系統(tǒng)中,用來識(shí)別支票上的手寫數(shù)字。2012 年,Krizhevsky使用擴(kuò)展了深度的卷積神經(jīng)網(wǎng)絡(luò) AlexNet 在 ILSVRC 比賽中的取得了當(dāng)時(shí)最佳的分類效果,使得卷積神經(jīng)網(wǎng)絡(luò)逐漸受到研究者們的重視。2014年,Network in Network 被提出,[1×1]卷積和 GlobalPooling 被廣泛應(yīng)用。同年的 GoogLeNet 開始把“并聯(lián)”卷積路徑的方式發(fā)揚(yáng)光大,并在 ILSVRC 中拿下了分類指標(biāo)的冠軍。2015 年,為了解決深度網(wǎng)絡(luò)隨著層數(shù)加深性能卻退化的問題,何愷明提出了 Residual Block 并基于此和前人經(jīng)驗(yàn)推出了 ResNet,ResNet 雖然看上去更深了,直觀來理解其實(shí)是不同深度網(wǎng)絡(luò)的一個(gè) ensemble。沿著這個(gè)思路,Gao Huang等在 2016 年合作提出了 DenseNet,并獲得了 2017 年 CVPR 最佳論文。也有沿著 GoogLeNet 繼續(xù)把“并聯(lián)”卷積研究到極致的,其主要的觀點(diǎn)是,卷積核的維度和學(xué)習(xí)難度也直接相關(guān),讓卷積響應(yīng)圖之間去掉關(guān)聯(lián),既能學(xué)習(xí)到?jīng)]有相關(guān)性的特征,還能降低卷積核學(xué)習(xí)的難度??傊芯空邆?cè)趦?yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的道路上還在繼續(xù),不過從實(shí)用的角度看,越是復(fù)雜的網(wǎng)絡(luò),訓(xùn)練的難度也常常越高。研究者們?cè)诓涣紙D片識(shí)別模型研發(fā)的長時(shí)間摸索中,發(fā)現(xiàn) ResNet 是在訓(xùn)練難度和模型性能上最平衡的一種結(jié)構(gòu)。
2.2 遷移學(xué)習(xí)
盡管網(wǎng)絡(luò)上的不良圖片比比皆是,但樣本數(shù)據(jù)的積累卻不是一蹴而就的。而且訓(xùn)練數(shù)據(jù)與所需進(jìn)行的分類任務(wù)中的測(cè)試數(shù)據(jù)的特征分布不相同,這種情況下采用合適的遷移學(xué)習(xí)方法則可以大大提高樣本不充足任務(wù)的分類識(shí)別結(jié)果。也就是通常所說的將知識(shí)遷移到新環(huán)境中的能力,這一般被稱為遷移學(xué)習(xí)。具體應(yīng)用到不良圖片識(shí)別上,就是在基于其他經(jīng)過大量數(shù)據(jù)訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,利用有限的數(shù)據(jù)進(jìn)行參數(shù)微調(diào)。
微調(diào)的思路是:在神經(jīng)網(wǎng)絡(luò)中,特征是分層一步步組合的。低層參數(shù)學(xué)習(xí)的一般是線條,紋理,顏色等信息,再高一些的層學(xué)習(xí)到簡(jiǎn)單圖案,形狀等,最高層的參數(shù)學(xué)習(xí)到的是由底層特征組合成的語義信息。所以在不同任務(wù)中,低層的特征往往是差不多的,那么只需要改變高層的參數(shù)就可以在不同任務(wù)間最大化共享信息,并達(dá)到很好的泛化。也就是說在不良圖片的檢測(cè)中,背景畫面部分就是一般的圖片,色情內(nèi)容其實(shí)也是人,很多信息是和一般數(shù)據(jù)集,如 ImageNet 數(shù)據(jù)共享的。所以只需要學(xué)習(xí)到針對(duì)色情圖片的高層語義信息就可以用少量數(shù)據(jù)訓(xùn)練一個(gè)良好泛化的模型。為了實(shí)現(xiàn)微調(diào),一般首先會(huì)找一個(gè)常見的基礎(chǔ)模型,比如 ImageNet預(yù)訓(xùn)練好的各種流行網(wǎng)絡(luò)結(jié)構(gòu)。然后凍結(jié)低層參數(shù)的學(xué)習(xí)率,只讓模型高層和語義相關(guān)的參數(shù)在少量樣本上進(jìn)行學(xué)習(xí)。
2.3 類別響應(yīng)圖可視化
當(dāng)一個(gè)模型訓(xùn)練好之后,為了提升指標(biāo)研究者會(huì)探索一些模型本身的特性,然后做針對(duì)性的改進(jìn),可視化是這一步驟中最常見的手段之一。較常用的方法是類別激活響應(yīng)圖(Class Activation Map,CAM)。該方法的基本思想是把 Global Pooling 之后,特定類別的權(quán)重應(yīng)用在 pooling 之前的 feature channel上,然后按照像素加權(quán)求和,得到該類別激活在不同位置上的響應(yīng)。通過這種方法可以了解當(dāng)前類別中圖像的哪些部分是主要的激活圖案。在分析模型的漏檢和誤檢樣本的時(shí)候,研究者可通過這種方法分析模型對(duì)圖像中人眼能立即識(shí)別的圖案是否敏感,以確定改進(jìn)模型時(shí)更新數(shù)據(jù)的策略。
2.4 損失函數(shù)
在進(jìn)行機(jī)器學(xué)習(xí)任務(wù)時(shí),一般來說使用的每一個(gè)算法都有一個(gè)目標(biāo)函數(shù),算法便是對(duì)這個(gè)目標(biāo)函數(shù)進(jìn)行優(yōu)化,特別是在分類或者回歸任務(wù)中,通常使用損失函數(shù)(Loss Function)作為其目標(biāo)函數(shù),又稱為代價(jià)函數(shù)(Cost Function)。
損失函數(shù)是用來評(píng)價(jià)模型的預(yù)測(cè)值 [Y∧=F(x)]與真實(shí)值[Y]的不一致程度,它是一個(gè)非負(fù)實(shí)值函數(shù)。通常使用 [L(Y,F(xiàn)(x))]來表示,損失函數(shù)越小,模型的性能就越好。選擇一個(gè)合適的損失函數(shù),是成功訓(xùn)練一個(gè)深度學(xué)習(xí)模型的關(guān)鍵,也是機(jī)器學(xué)習(xí)研究者專注改進(jìn)的目標(biāo)。各種各樣的損失函數(shù)層出不窮,其中包括:適用于訓(xùn)練回歸任務(wù)的歐式距離損失函數(shù)(Euclidean Loss),適用于 Siamese 網(wǎng)絡(luò)的對(duì)比損失函數(shù)(Contrastive loss),適用于一對(duì)多分類任務(wù)的鉸鏈損失函數(shù)(Hinge Loss),預(yù)測(cè)目標(biāo)概率分布的 Sigmoid 交叉熵?fù)p失函數(shù)(Sigmoid Cross Entropy Loss),信息增益損失函數(shù)(InformationGain Loss),多項(xiàng)式邏輯損失函數(shù)(Multinomial Logistic Loss),Softmax損失函數(shù) (SoftmaxWithLoss) 等等。
TripletLoss 是一種基于歐式距離的損失函數(shù),自從 Google 提出后,在人臉識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。優(yōu)化 TripletLoss 時(shí),算法盡量減小正樣例對(duì)的歐氏距離,增大負(fù)樣例對(duì)的歐式距離?;跉W式距離的分類,主要缺陷是對(duì)銳化圖像和模糊圖像缺少區(qū)分能力。SoftmaxWithLoss 是深度學(xué)習(xí)分類任務(wù)中最常用的損失函數(shù),softmax 采用了連續(xù)函數(shù)來進(jìn)行函數(shù)的逼近,最后采用概率的形式進(jìn)行輸出,這樣弱化了歐氏距離損失函數(shù)帶來的問題。
3 結(jié)語
隨著網(wǎng)絡(luò)信息量的日益劇增,網(wǎng)絡(luò)不良圖片也隨之泛濫。不良圖片的識(shí)別技術(shù)也從以人工審核為主逐漸轉(zhuǎn)變到以機(jī)器學(xué)習(xí)等人工智能技術(shù)為主的階段。以機(jī)器學(xué)習(xí)為主的不良圖片識(shí)別技術(shù)的重點(diǎn)雖然在算法上,但是算法本身的迭代優(yōu)化速度沒有數(shù)據(jù)迭代快,而且各種圖片識(shí)別算法差距并不是多大,所以目前不良圖片識(shí)別技術(shù)的優(yōu)化差異依然是基于數(shù)據(jù)本身, 而數(shù)據(jù)的難點(diǎn)是數(shù)據(jù)多樣化,而不是數(shù)據(jù)的純數(shù)量。擁有更多數(shù)據(jù)類型,并且能針對(duì)不同數(shù)據(jù)應(yīng)用場(chǎng)景提出最合適的數(shù)據(jù)模型,才是不良圖片識(shí)別技術(shù)的關(guān)鍵所在。
參考文獻(xiàn):
[1] 陳驍,金鑫,譚曉陽.基于軀干檢測(cè)的單人不良圖片識(shí)別[J].中國圖象圖形學(xué)報(bào),2016(3).
[2] 楊虹,王一丁.一種不良圖片快速過濾方法[J].軟件時(shí)空,2008(4).
[3] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017(6).
[4] 常亮,鄧小明,周明全,等.圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J].自動(dòng)化學(xué)報(bào),2016(9).
[5] 盧慶武,胡輝,胡松,等.實(shí)際網(wǎng)絡(luò)環(huán)境中不良圖片的過濾方法分析[J].信息與電腦,2016(5).