劉佳 張琳
一、背景
近年來(lái),移動(dòng)網(wǎng)絡(luò)不斷發(fā)展,4G網(wǎng)絡(luò)已經(jīng)深深融入社會(huì)生活的方方面面,人們通過(guò)移動(dòng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理,溝通交流。在網(wǎng)絡(luò)資源越來(lái)越豐富的同時(shí),垃圾信息,不良網(wǎng)站等不健康內(nèi)容也充斥著移動(dòng)網(wǎng)絡(luò),如何更好的利用信息網(wǎng)絡(luò),保證上網(wǎng)環(huán)境的健康和安全是移動(dòng)運(yùn)營(yíng)商非常重視的問(wèn)題。
本文結(jié)合中國(guó)移動(dòng)各類富媒體業(yè)務(wù),研究文本、圖片、音視頻等富媒體不良信息識(shí)別技術(shù),對(duì)各項(xiàng)同類技術(shù)進(jìn)行評(píng)估和比較,并提出了未來(lái)移動(dòng)網(wǎng)絡(luò)不良信息治理技術(shù)的發(fā)展建議。
二、富媒體不良信息識(shí)別技術(shù)
富媒體不良信息一般指包含不良內(nèi)容的文字、圖片、音視頻等多媒體內(nèi)容。為了能夠?qū)崿F(xiàn)對(duì)這些多媒體內(nèi)容特別是反動(dòng)涉黃類內(nèi)容的識(shí)別和封堵,需要運(yùn)用行之有效的不良信息識(shí)別技術(shù)才能達(dá)到較好的治理效果。
(一)文本識(shí)別技術(shù)
1. 關(guān)鍵詞識(shí)別技術(shù)
關(guān)鍵詞識(shí)別技術(shù)是一項(xiàng)比較成熟的識(shí)別技術(shù)。關(guān)鍵詞識(shí)別技術(shù)的實(shí)現(xiàn)原理非常簡(jiǎn)單。首先與關(guān)鍵詞庫(kù)進(jìn)行關(guān)鍵詞匹配,然后通過(guò)統(tǒng)計(jì)一篇文檔中關(guān)鍵詞出現(xiàn)的次數(shù),與事先設(shè)定的判別閾值進(jìn)行比較,如果大于閾值,則認(rèn)為是不良的文本。
此外,現(xiàn)有的關(guān)鍵詞識(shí)別技術(shù)一般也支持關(guān)鍵詞的“與”、“或”邏輯組合關(guān)系。另外,為了提升關(guān)鍵詞判別的準(zhǔn)確性,可對(duì)關(guān)鍵詞進(jìn)行分級(jí),并進(jìn)行不同的權(quán)重設(shè)置,即對(duì)于非常敏感的詞匯一般可設(shè)置權(quán)重比較高,或者可直接攔截/封堵,對(duì)于一般敏感或者比較中性的詞匯,則可進(jìn)行設(shè)置較低的權(quán)重。
2. 文本分類識(shí)別技術(shù)
文本分類識(shí)別技術(shù)涉及的算法很多,包括K臨近算法、貝葉斯算法、動(dòng)態(tài)詞典算法、卷積神經(jīng)網(wǎng)絡(luò)算法等。這里重點(diǎn)介紹一下較為常見的K臨近算法和樸素貝葉斯算法。
(1) K臨近算法(KNN算法)
KNN算法的基本思路即在訓(xùn)練文本集中找出與待測(cè)文本距離最近(最相似)的K個(gè)文本,然后計(jì)算新文本屬于每類的權(quán)重,最后將其分到權(quán)重最大的一類中。一般的計(jì)算方式是:在訓(xùn)練文本集中選出與待測(cè)文本最相似的K個(gè)文本;對(duì)文本進(jìn)行預(yù)處理,形成去掉特殊符號(hào)、數(shù)字后的純文字類文本;把預(yù)處理后的文本看成是一個(gè)字的集合,并設(shè)計(jì)兩個(gè)文本的相似度;通過(guò)相似度進(jìn)一步計(jì)算新文本在每一類文本中的權(quán)重,并將新文本劃分到權(quán)重最大的一類當(dāng)中。K臨近算法的關(guān)鍵是如何設(shè)計(jì)文本相似度,對(duì)文本識(shí)別的準(zhǔn)確性至關(guān)重要。
(2)樸素貝葉斯算法(NB算法)
3. 文本識(shí)別技術(shù)小結(jié)
基于移動(dòng)網(wǎng)絡(luò)業(yè)務(wù)特點(diǎn),在現(xiàn)網(wǎng)中應(yīng)用的主要技術(shù)仍是關(guān)鍵詞識(shí)別技術(shù),同時(shí)結(jié)合樸素貝葉斯等分類識(shí)別技術(shù)進(jìn)行策略優(yōu)化,進(jìn)而提升文本識(shí)別準(zhǔn)確率,降低人工審核工作量。各類文本識(shí)別技術(shù)在應(yīng)用中各有優(yōu)缺點(diǎn),總結(jié)如下:
(二)圖片識(shí)別匹配技術(shù)
圖片的識(shí)別一般分為普通圖片、變形圖片、文字圖片、涉黃圖片等幾類,識(shí)別方法也不盡相同。
1. 一致性對(duì)比技術(shù)
一致性比對(duì)技術(shù)即采用MD5技術(shù)比對(duì)。MD5是message-digest algorithm 5(信息-摘要算法)的縮寫,被廣泛用于加密和解密技術(shù)上,它可以說(shuō)是文件的“數(shù)字指紋”。任何一個(gè)文件,無(wú)論是可執(zhí)行程序、圖像文件、臨時(shí)文件或者其他任何類型的文件,也不管它體積多大,都有且只有一個(gè)獨(dú)一無(wú)二的MD5信息值,并且如果這個(gè)文件被修改過(guò),它的MD5值也將隨之改變。通過(guò)比較圖像的MD5值,可以判斷兩個(gè)圖像的內(nèi)容是否完全一致。
2. SIFT圖片模糊匹配技術(shù)
違法者常常將同一張圖片進(jìn)行縮放、拉伸、截取、遮蓋、變色、翻轉(zhuǎn)、扭曲、羽化等操作形成一系列不影響視覺含義的變形圖片,來(lái)輕易繞過(guò)監(jiān)控系統(tǒng)的識(shí)別,從而導(dǎo)致監(jiān)控策略的查全率很低。因此需要引入圖片模糊匹配技術(shù),這種技術(shù)主要基于計(jì)算機(jī)圖形學(xué)中比較成熟的SIFT(Scale Invariant Feature Transform)特征算子的方法來(lái)實(shí)現(xiàn)。SIFT特征算子具有尺度、平移、旋轉(zhuǎn)、仿射等諸多不變性,同時(shí)它表示的是圖像內(nèi)容的本質(zhì)屬性特征,能夠在觀測(cè)條件變化大,遮擋,雜亂干擾等復(fù)雜情況下對(duì)圖像內(nèi)容進(jìn)行有效地描述。通過(guò)分別對(duì)樣例圖片和待匹配圖片進(jìn)行SIFT特征提取,并進(jìn)行相似性比對(duì),可以判斷出兩幅圖像的相似程度。
3. 文字圖片識(shí)別技術(shù)
現(xiàn)有不良信息監(jiān)控系統(tǒng)發(fā)現(xiàn)許多不法分子都是將反動(dòng)文字作為圖片發(fā)送來(lái)繞過(guò)監(jiān)控系統(tǒng)的審查,危害性較大。當(dāng)前比較成熟的OCR(Optical Character Recognition)技術(shù),在文字較多且字體較規(guī)整的情況下識(shí)別率較高。但其對(duì)源數(shù)據(jù)不加區(qū)分。即使圖片中不包含任何文字,也會(huì)強(qiáng)行進(jìn)行轉(zhuǎn)換。一方面無(wú)效轉(zhuǎn)換浪費(fèi)了大量時(shí)間,另一方面轉(zhuǎn)換結(jié)果中會(huì)包含垃圾信息,給后續(xù)的關(guān)鍵字匹配帶來(lái)額外開銷,查準(zhǔn)率也會(huì)降低。因此一般在OCR轉(zhuǎn)換前會(huì)對(duì)圖像進(jìn)行二值化處理,對(duì)文字圖片進(jìn)行篩選,能夠?qū)ξ淖謭D片過(guò)濾進(jìn)行一定的輔助識(shí)別。
4. 淫穢色情圖片識(shí)別技術(shù)
黃色圖片具有皮膚裸露面積大的特點(diǎn),一般需要進(jìn)行人臉檢測(cè)、膚色監(jiān)測(cè)、紋理監(jiān)測(cè)檢測(cè)等。人臉識(shí)別一般通過(guò)小波來(lái)提取并描述人臉中的一些局部特征點(diǎn)(節(jié)點(diǎn)),并把它們用成標(biāo)記圖(Labeled Graph)的形式連接起來(lái),用標(biāo)記圖之間的相似度來(lái)衡量人臉圖像之間的相似度。膚色檢測(cè)是黃色圖片識(shí)別的一個(gè)重要手段,一般采用膚色模型(高斯模型)YCbCr空間膚色區(qū)域模型來(lái)確定各像素是否屬于膚色范疇。紋理檢測(cè)能夠輔助膚色檢測(cè),一般是將膚色掩碼圖中誤識(shí)為膚色像素的像素點(diǎn)(例如黃色的沙發(fā))去除。一般可采用小波紋理檢測(cè)算法,對(duì)膚色掩碼圖進(jìn)行修正后得到皮膚掩碼圖。除此之外,色情圖片識(shí)別技術(shù)也會(huì)基于關(guān)鍵部位檢測(cè)等多概念檢測(cè)方式,來(lái)彌補(bǔ)膚色、紋理模型的不足,從而顯著提高檢測(cè)性能。
5. 圖像識(shí)別技術(shù)小結(jié)
目前在移動(dòng)現(xiàn)網(wǎng)中樣例圖片檢測(cè)、淫穢色情圖像識(shí)別等主要技術(shù)均有應(yīng)用,具體識(shí)別方法不盡相同。針對(duì)本文介紹的各類圖片識(shí)別方法的優(yōu)缺點(diǎn)總結(jié)如下:
(三) 音視頻識(shí)別技術(shù)
1. 一致性對(duì)比技術(shù)
與圖像的一致性對(duì)比技術(shù)相同。通過(guò)比較音視頻的MD5值,可以判斷兩個(gè)文件的內(nèi)容是否完全一致。
2. 色情視頻識(shí)別判定技術(shù)
色情視頻識(shí)別的原理是對(duì)視頻文件提取關(guān)鍵幀,關(guān)鍵幀即圖像內(nèi)容大幅跳變的關(guān)鍵點(diǎn)。形成關(guān)鍵幀組成的一組圖片,然后使用圖片識(shí)別技術(shù)進(jìn)行內(nèi)容判別,從而識(shí)別出視頻中是否包括淫穢的內(nèi)容。由于視頻中的證據(jù)數(shù)據(jù)較多,即聯(lián)合多個(gè)圖片進(jìn)行判定,因此色情視頻識(shí)別查準(zhǔn)率和查全率甚至?xí)?yōu)于色情圖片識(shí)別。
3. 音頻識(shí)別匹配技術(shù)
在移動(dòng)網(wǎng)絡(luò)應(yīng)用中純不良音頻的識(shí)別應(yīng)用較少,一般通過(guò)語(yǔ)音識(shí)別形成語(yǔ)音文本,再加以關(guān)鍵詞處理找出敏感詞,最終通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型、音頻指紋模型等進(jìn)行聲紋識(shí)別確定敏感人的方式進(jìn)行識(shí)別處理。
三、不良信息治理建議
根據(jù)前面的各類技術(shù)的介紹,可以看出目前文本識(shí)別技術(shù)比較成熟,圖片、視頻、音頻識(shí)別技術(shù)識(shí)別準(zhǔn)確率較文本差一些。為了進(jìn)一步提升富媒體不良信息識(shí)別準(zhǔn)確率,建議除了不良內(nèi)容的檢測(cè)技術(shù)之外,需要加入一些輔助策略,治理效果會(huì)事半功倍。具體建議如下:
用戶屬性過(guò)濾策略,包括黑名單、白名單等用戶分級(jí)過(guò)濾機(jī)制;
行為過(guò)濾策略,顧名思義,即反應(yīng)用戶的基本行為的策略,對(duì)特殊行為的用戶進(jìn)行重點(diǎn)監(jiān)測(cè)。這類的策略一般包括信息發(fā)布或轉(zhuǎn)發(fā)頻次,相似內(nèi)容過(guò)濾,收發(fā)比行為,設(shè)備行為等;
熱點(diǎn)追蹤策略,即根據(jù)最新時(shí)事熱點(diǎn)進(jìn)行跟蹤和過(guò)濾。
除了以上策略之外,一般為了降低誤判,會(huì)再加上人工復(fù)合,但是前期策略的合理配置會(huì)大大提升系統(tǒng)識(shí)別準(zhǔn)確率,并降低人工審核工作量,從而實(shí)現(xiàn)高效的不良信息識(shí)別和治理。