文/趙旭
網(wǎng)絡(luò)時(shí)代信息技術(shù)飛速發(fā)展,各種各樣的信息資源呈指數(shù)級(jí)增長(zhǎng),文化傳播方式、社會(huì)經(jīng)濟(jì)發(fā)展方式不斷發(fā)生改變。人們獲取信息越來(lái)越方便的同時(shí)有害信息也得到了新的載體與傳播方式,敏感信息不利于社會(huì)穩(wěn)定與經(jīng)濟(jì)發(fā)展,尤其是未成年人健康發(fā)展的阻礙不斷的引起人們的關(guān)注。敏感信息是指帶有敏感政治傾向(或反執(zhí)政黨傾向)、暴力傾向、不健康色彩的信息,它就有社會(huì)危害性、隱秘性和廣泛性的特點(diǎn)。網(wǎng)絡(luò)信息形式多樣,敏感信息可以以文字、圖像、聲音等各種形式存在和傳播,如何有效的識(shí)別與過(guò)濾這些敏感信息具有非常重要的意義。
為構(gòu)建一個(gè)安全健康的網(wǎng)絡(luò)環(huán)境,就要有效的識(shí)別并過(guò)濾掉敏感信息。敏感信息識(shí)別過(guò)濾技術(shù)有很多,如網(wǎng)絡(luò)內(nèi)容分級(jí)、URL過(guò)濾技術(shù)、文本內(nèi)容過(guò)濾技術(shù)、多媒體信息過(guò)濾技術(shù)等等。傳統(tǒng)的信息過(guò)濾方案如黑名單,關(guān)鍵詞匹配和代理服務(wù)器端過(guò)濾等,很少采取圖像識(shí)別分析來(lái)實(shí)現(xiàn)敏感信息的過(guò)濾。
比起文字類的敏感信息,圖片類的敏感信息相對(duì)更加難以識(shí)別與過(guò)濾,這也是目前網(wǎng)絡(luò)敏感信息過(guò)濾面臨的難題?,F(xiàn)有的敏感圖像過(guò)濾方案大多工作原理類似,主要是通過(guò)利用瀏覽器的緩存機(jī)制,充分利用各種瀏覽器緩存到硬盤中的圖像進(jìn)行比對(duì)分析計(jì)算,將包含有敏感信息的有害網(wǎng)頁(yè)地址加入黑名單,由此來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息的過(guò)濾。網(wǎng)絡(luò)敏感信息過(guò)濾技術(shù)的核心在于圖像過(guò)濾算法,如何辨別敏感圖像的突出特征并將這些突出特征提取出來(lái)是亟待解決的問(wèn)題。
對(duì)于敏感圖像,最直觀和基本的特征就是大片的裸漏皮膚,因此膚色和圖像理特征可以用來(lái)鑒別圖像是否為敏感圖像。文章結(jié)合Daubeachies小波、歸一化中心矩和色彩直方圖生成特征向量,由此來(lái)實(shí)現(xiàn)敏感特征的提取,對(duì)敏感圖像與正常圖像進(jìn)行分類。還有許多敏感圖像特征信息提取方案通過(guò)建立膚色模型來(lái)隊(duì)敏感圖像進(jìn)行甄別。
在很多的敏感信息過(guò)濾方案中,會(huì)在識(shí)別到敏感信息后將該網(wǎng)站加入黑名單,但“不健康”圖像依舊會(huì)顯示并且緩存中會(huì)留有痕跡,用戶可以脫機(jī)瀏覽,楊金鋒等人通過(guò)瀏覽器模塊與圖像過(guò)濾模塊的協(xié)同工作實(shí)現(xiàn)了一種新型的給予內(nèi)容的圖像識(shí)別與過(guò)濾方法,將實(shí)時(shí)過(guò)濾后的網(wǎng)頁(yè)顯示給用戶。2001年中科院計(jì)算所的段麗娟等人提出一種基于計(jì)算機(jī)視覺(jué)和模式識(shí)別的色情圖像過(guò)濾方法,通過(guò)研究人類視覺(jué)對(duì)圖像的分析機(jī)理, 提出綜合膚色模型檢驗(yàn)、支持向量機(jī)(SVM) 分類和最近鄰方法校驗(yàn)的多層次圖像處理框架。
近年來(lái),對(duì)于基于圖像識(shí)別的敏感信息過(guò)濾技術(shù)已經(jīng)得到了很好的發(fā)展,更多的敏感信息過(guò)濾技術(shù)也開(kāi)始注意信息過(guò)濾的實(shí)時(shí)性,不斷有新的處理技術(shù)被提出,很多技術(shù)得到了實(shí)踐應(yīng)用,目前比較得到認(rèn)可的系統(tǒng)性軟件有“火眼金睛”、“網(wǎng)絡(luò)爸爸”、“美萍反黃專家”、“護(hù)花使者”、Image-Filter等。目前各種敏感圖像識(shí)別與信息過(guò)濾方法的檢出率與誤檢率并未達(dá)到理想狀態(tài),依舊需要進(jìn)一步的探索與討論。
基于圖像識(shí)別的網(wǎng)絡(luò)敏感信息過(guò)濾技術(shù)已經(jīng)得到大量的研究投入,但存在很多問(wèn)題依舊很難界定,需要不斷的努力,如準(zhǔn)確性、時(shí)效性、可操作性等,在現(xiàn)實(shí)實(shí)現(xiàn)中,需要合理的權(quán)衡三者的比重以實(shí)現(xiàn)高檢出率與低誤檢率。
通過(guò)各類膚色模型或者各種人體姿態(tài)幾何特征的比對(duì)可以識(shí)別很大一部分,但是將被檢測(cè)圖像與事先收集的材料,即與典型敏感圖像及非敏感圖像比較的方案進(jìn)行敏感圖像識(shí)別并不能覆蓋包含所有的敏感圖像,如何創(chuàng)建一個(gè)全面的數(shù)據(jù)庫(kù)集合值得進(jìn)一步的研究。
現(xiàn)有的網(wǎng)絡(luò)信息過(guò)濾系統(tǒng)處理速度較慢,無(wú)法滿足網(wǎng)絡(luò)條件下大規(guī)模的圖片信息實(shí)時(shí)處理,這就使得網(wǎng)絡(luò)信息過(guò)濾時(shí)效性得到了挑戰(zhàn),既要滿足敏感圖像識(shí)別過(guò)濾的準(zhǔn)確性,又要實(shí)現(xiàn)識(shí)別過(guò)濾的高效率,這對(duì)基于圖像識(shí)別的網(wǎng)絡(luò)信息過(guò)濾算法的時(shí)間復(fù)雜度提出了嚴(yán)峻挑戰(zhàn)。
很多研究者將一系列的方法串聯(lián)起來(lái)形成逐層過(guò)濾的敏感圖像識(shí)別辦法,理論上十分嚴(yán)謹(jǐn)也具有很強(qiáng)的說(shuō)服性,但是經(jīng)常涉及太多的技術(shù),同時(shí)對(duì)硬件要求很高,可實(shí)施性并不強(qiáng)。
信息時(shí)代帶來(lái)了許多便利,但也帶了了許多問(wèn)題,如何甄別網(wǎng)絡(luò)信息中的敏感圖像實(shí)現(xiàn)網(wǎng)絡(luò)信息過(guò)濾是一個(gè)非常嚴(yán)肅的問(wèn)題,為了肅清網(wǎng)絡(luò)垃圾,基于內(nèi)容的圖像過(guò)濾技術(shù)適合時(shí)機(jī)的出現(xiàn)了。網(wǎng)絡(luò)信息過(guò)濾技術(shù)在文字類的信息過(guò)濾上已經(jīng)接近成熟,但是在圖像類敏感信息識(shí)別與過(guò)濾上需要不斷的提升。
對(duì)于圖像過(guò)濾技術(shù)進(jìn)一步的發(fā)展,必須要實(shí)現(xiàn)準(zhǔn)確性、時(shí)效性、可操作性三者的有機(jī)結(jié)合,圖片庫(kù)、皮膚紋理識(shí)別等將會(huì)是將來(lái)著重研究發(fā)展的方向。通過(guò)各方面的研究與努力,網(wǎng)絡(luò)環(huán)境會(huì)越來(lái)越健康,帶給人們更加美好的體驗(yàn)。