基于圖像識(shí)別的網(wǎng)絡(luò)敏感信息過(guò)濾技術(shù)

2019-11-30 12:49:10趙旭

電子技術(shù)與軟件工程 2019年1期

文/趙旭

網(wǎng)絡(luò)時(shí)代信息技術(shù)飛速發(fā)展，各種各樣的信息資源呈指數(shù)級(jí)增長(zhǎng)，文化傳播方式、社會(huì)經(jīng)濟(jì)發(fā)展方式不斷發(fā)生改變。人們獲取信息越來(lái)越方便的同時(shí)有害信息也得到了新的載體與傳播方式，敏感信息不利于社會(huì)穩(wěn)定與經(jīng)濟(jì)發(fā)展，尤其是未成年人健康發(fā)展的阻礙不斷的引起人們的關(guān)注。敏感信息是指帶有敏感政治傾向（或反執(zhí)政黨傾向）、暴力傾向、不健康色彩的信息，它就有社會(huì)危害性、隱秘性和廣泛性的特點(diǎn)。網(wǎng)絡(luò)信息形式多樣，敏感信息可以以文字、圖像、聲音等各種形式存在和傳播，如何有效的識(shí)別與過(guò)濾這些敏感信息具有非常重要的意義。

為構(gòu)建一個(gè)安全健康的網(wǎng)絡(luò)環(huán)境，就要有效的識(shí)別并過(guò)濾掉敏感信息。敏感信息識(shí)別過(guò)濾技術(shù)有很多，如網(wǎng)絡(luò)內(nèi)容分級(jí)、URL過(guò)濾技術(shù)、文本內(nèi)容過(guò)濾技術(shù)、多媒體信息過(guò)濾技術(shù)等等。傳統(tǒng)的信息過(guò)濾方案如黑名單，關(guān)鍵詞匹配和代理服務(wù)器端過(guò)濾等，很少采取圖像識(shí)別分析來(lái)實(shí)現(xiàn)敏感信息的過(guò)濾。

1 工作原理與研究現(xiàn)狀

比起文字類的敏感信息，圖片類的敏感信息相對(duì)更加難以識(shí)別與過(guò)濾，這也是目前網(wǎng)絡(luò)敏感信息過(guò)濾面臨的難題?，F(xiàn)有的敏感圖像過(guò)濾方案大多工作原理類似，主要是通過(guò)利用瀏覽器的緩存機(jī)制，充分利用各種瀏覽器緩存到硬盤中的圖像進(jìn)行比對(duì)分析計(jì)算，將包含有敏感信息的有害網(wǎng)頁(yè)地址加入黑名單，由此來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息的過(guò)濾。網(wǎng)絡(luò)敏感信息過(guò)濾技術(shù)的核心在于圖像過(guò)濾算法，如何辨別敏感圖像的突出特征并將這些突出特征提取出來(lái)是亟待解決的問(wèn)題。

對(duì)于敏感圖像，最直觀和基本的特征就是大片的裸漏皮膚，因此膚色和圖像理特征可以用來(lái)鑒別圖像是否為敏感圖像。文章結(jié)合Daubeachies小波、歸一化中心矩和色彩直方圖生成特征向量，由此來(lái)實(shí)現(xiàn)敏感特征的提取，對(duì)敏感圖像與正常圖像進(jìn)行分類。還有許多敏感圖像特征信息提取方案通過(guò)建立膚色模型來(lái)隊(duì)敏感圖像進(jìn)行甄別。

在很多的敏感信息過(guò)濾方案中，會(huì)在識(shí)別到敏感信息后將該網(wǎng)站加入黑名單，但“不健康”圖像依舊會(huì)顯示并且緩存中會(huì)留有痕跡，用戶可以脫機(jī)瀏覽，楊金鋒等人通過(guò)瀏覽器模塊與圖像過(guò)濾模塊的協(xié)同工作實(shí)現(xiàn)了一種新型的給予內(nèi)容的圖像識(shí)別與過(guò)濾方法，將實(shí)時(shí)過(guò)濾后的網(wǎng)頁(yè)顯示給用戶。2001年中科院計(jì)算所的段麗娟等人提出一種基于計(jì)算機(jī)視覺(jué)和模式識(shí)別的色情圖像過(guò)濾方法，通過(guò)研究人類視覺(jué)對(duì)圖像的分析機(jī)理, 提出綜合膚色模型檢驗(yàn)、支持向量機(jī)(SVM) 分類和最近鄰方法校驗(yàn)的多層次圖像處理框架。

近年來(lái)，對(duì)于基于圖像識(shí)別的敏感信息過(guò)濾技術(shù)已經(jīng)得到了很好的發(fā)展，更多的敏感信息過(guò)濾技術(shù)也開(kāi)始注意信息過(guò)濾的實(shí)時(shí)性，不斷有新的處理技術(shù)被提出，很多技術(shù)得到了實(shí)踐應(yīng)用，目前比較得到認(rèn)可的系統(tǒng)性軟件有“火眼金睛”、“網(wǎng)絡(luò)爸爸”、“美萍反黃專家”、“護(hù)花使者”、Image-Filter等。目前各種敏感圖像識(shí)別與信息過(guò)濾方法的檢出率與誤檢率并未達(dá)到理想狀態(tài)，依舊需要進(jìn)一步的探索與討論。

2 關(guān)鍵問(wèn)題

基于圖像識(shí)別的網(wǎng)絡(luò)敏感信息過(guò)濾技術(shù)已經(jīng)得到大量的研究投入，但存在很多問(wèn)題依舊很難界定，需要不斷的努力，如準(zhǔn)確性、時(shí)效性、可操作性等，在現(xiàn)實(shí)實(shí)現(xiàn)中，需要合理的權(quán)衡三者的比重以實(shí)現(xiàn)高檢出率與低誤檢率。

2.1 一個(gè)準(zhǔn)確性的問(wèn)題

通過(guò)各類膚色模型或者各種人體姿態(tài)幾何特征的比對(duì)可以識(shí)別很大一部分，但是將被檢測(cè)圖像與事先收集的材料，即與典型敏感圖像及非敏感圖像比較的方案進(jìn)行敏感圖像識(shí)別并不能覆蓋包含所有的敏感圖像，如何創(chuàng)建一個(gè)全面的數(shù)據(jù)庫(kù)集合值得進(jìn)一步的研究。

2.2 時(shí)效性的問(wèn)題

現(xiàn)有的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)處理速度較慢，無(wú)法滿足網(wǎng)絡(luò)條件下大規(guī)模的圖片信息實(shí)時(shí)處理，這就使得網(wǎng)絡(luò)信息過(guò)濾時(shí)效性得到了挑戰(zhàn)，既要滿足敏感圖像識(shí)別過(guò)濾的準(zhǔn)確性，又要實(shí)現(xiàn)識(shí)別過(guò)濾的高效率，這對(duì)基于圖像識(shí)別的網(wǎng)絡(luò)信息過(guò)濾算法的時(shí)間復(fù)雜度提出了嚴(yán)峻挑戰(zhàn)。

2.3 可操作性的問(wèn)題

很多研究者將一系列的方法串聯(lián)起來(lái)形成逐層過(guò)濾的敏感圖像識(shí)別辦法，理論上十分嚴(yán)謹(jǐn)也具有很強(qiáng)的說(shuō)服性，但是經(jīng)常涉及太多的技術(shù)，同時(shí)對(duì)硬件要求很高，可實(shí)施性并不強(qiáng)。

3 展望與總結(jié)

信息時(shí)代帶來(lái)了許多便利，但也帶了了許多問(wèn)題，如何甄別網(wǎng)絡(luò)信息中的敏感圖像實(shí)現(xiàn)網(wǎng)絡(luò)信息過(guò)濾是一個(gè)非常嚴(yán)肅的問(wèn)題，為了肅清網(wǎng)絡(luò)垃圾，基于內(nèi)容的圖像過(guò)濾技術(shù)適合時(shí)機(jī)的出現(xiàn)了。網(wǎng)絡(luò)信息過(guò)濾技術(shù)在文字類的信息過(guò)濾上已經(jīng)接近成熟，但是在圖像類敏感信息識(shí)別與過(guò)濾上需要不斷的提升。

對(duì)于圖像過(guò)濾技術(shù)進(jìn)一步的發(fā)展，必須要實(shí)現(xiàn)準(zhǔn)確性、時(shí)效性、可操作性三者的有機(jī)結(jié)合，圖片庫(kù)、皮膚紋理識(shí)別等將會(huì)是將來(lái)著重研究發(fā)展的方向。通過(guò)各方面的研究與努力，網(wǎng)絡(luò)環(huán)境會(huì)越來(lái)越健康，帶給人們更加美好的體驗(yàn)。