尚秋明,王利軍,鄧桂英,趙彤,張立坤
(中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心 技術(shù)研發(fā)部,北京 100190)
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)賭博、淫穢色情等不良信息的傳播越來(lái)越泛濫,對(duì)我國(guó)網(wǎng)民尤其是未成年網(wǎng)民的生活及學(xué)習(xí)產(chǎn)生十分不良的影響[1]。網(wǎng)絡(luò)賭博、淫穢色情等網(wǎng)絡(luò)不良信息一直是我國(guó)凈化網(wǎng)絡(luò)環(huán)境重點(diǎn)打擊的內(nèi)容。域名是網(wǎng)絡(luò)信息的主要訪問(wèn)入口,通過(guò)技術(shù)手段對(duì)網(wǎng)絡(luò)不良信息進(jìn)行檢測(cè),進(jìn)而對(duì)相關(guān)域名進(jìn)行過(guò)濾封堵是不良信息治理的重要保障。隨著5G 時(shí)代的到來(lái),域名不良應(yīng)用空間不再局限于傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)站,網(wǎng)絡(luò)直播、APP、微信群等新型互聯(lián)網(wǎng)應(yīng)用不斷涌現(xiàn),進(jìn)一步加快不良信息的傳播速度和增長(zhǎng)規(guī)模,管控難度增加,安全問(wèn)題更加嚴(yán)峻,不良域名的實(shí)時(shí)檢測(cè)和處置需求進(jìn)一步提高。
現(xiàn)有不良域名的檢測(cè)識(shí)別多是基于域名相關(guān)信息,包括注冊(cè)信息、DNS 解析服務(wù)器、網(wǎng)站IP 歸屬地等,結(jié)合不良域名黑白名單,利用機(jī)器學(xué)習(xí)預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)域名不良程度進(jìn)行判定。該方法的前提是不良域名之間存在若干相關(guān)性。由于域名的注冊(cè)成本較低且可選注冊(cè)的頂級(jí)域名類型超過(guò)1 000個(gè),借助于大量的域名托管服務(wù)商和云服務(wù)商,域名注冊(cè)者可通過(guò)打破不良域名之間關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)逃避此類檢測(cè)算法的目的。同時(shí)該方法的域名不良判定結(jié)果仍需大量的人工檢驗(yàn)工作,以便開展相關(guān)處置工作。
此外,還有根據(jù)網(wǎng)頁(yè)DOM 相關(guān)結(jié)構(gòu)進(jìn)行相似性判定,同時(shí)存在判斷結(jié)果不準(zhǔn)確,處置前需要人工一一核驗(yàn)的工作投入問(wèn)題[2]。在利用文本相似性進(jìn)行判定方面,隨著網(wǎng)絡(luò)信息指數(shù)級(jí)地增長(zhǎng),敏感詞越發(fā)多變,要求敏感詞庫(kù)涵蓋周全且不斷更新十分不現(xiàn)實(shí),現(xiàn)有的文本過(guò)濾篩查機(jī)制準(zhǔn)確率也相應(yīng)下降[3-5]。在利用圖片相似性進(jìn)行判定方面,隨著圖片樣本空間的增大,不良圖片因其海量規(guī)模、形式多樣、隱蔽性越來(lái)越強(qiáng)等特點(diǎn),現(xiàn)有的圖片相似性算法出現(xiàn)誤判、錯(cuò)判、無(wú)法判定等現(xiàn)象,局限性越來(lái)越大,且事后需要大量人工輔助糾正,泛化能力較差,可靠性不高[6]。
以上檢測(cè)識(shí)別方法都可識(shí)別實(shí)現(xiàn)對(duì)不良域名網(wǎng)頁(yè)內(nèi)容的自動(dòng)識(shí)別、截圖取證與判定,進(jìn)而加快不良域名人工核驗(yàn)認(rèn)定的速度。但是,根據(jù)日常不良域名認(rèn)定處置經(jīng)驗(yàn),大量網(wǎng)絡(luò)賭博、淫穢色情等不良域名的網(wǎng)頁(yè)內(nèi)容存在高度相似性。不良域名網(wǎng)站運(yùn)營(yíng)者多采用注冊(cè)大量域名的方式來(lái)部署同一套網(wǎng)站代碼的方式,變相規(guī)避域名被封。
本文根據(jù)大量不良域名內(nèi)容高度相似性特點(diǎn),提出一種針對(duì)“涉黃”“涉賭”兩類網(wǎng)站快速發(fā)現(xiàn)和處置的系統(tǒng)解決方案,該方案利用圖像相似性聚類和相似性搜索等技術(shù),大幅提升不良域名人工審核工作效率,可實(shí)現(xiàn)不良域名及時(shí)判定及處置的工作目標(biāo)。結(jié)果表明,該系統(tǒng)對(duì)于全網(wǎng)的不良域名應(yīng)用實(shí)現(xiàn)常規(guī)監(jiān)測(cè),快速發(fā)現(xiàn)、精準(zhǔn)識(shí)別、高效率處置有很好的效果。
實(shí)施數(shù)據(jù)集全部為主動(dòng)探測(cè)數(shù)據(jù),是指通過(guò)對(duì)頂級(jí)域的區(qū)文件解析獲取到的域名列表。包含“.CN”域名和151 個(gè)通用頂級(jí)域(其中.COM 域名數(shù)量超過(guò)1.4億,.NET域名1 300 多萬(wàn)個(gè)等)共計(jì)2 億多域名。
本方案實(shí)施環(huán)境如表1 所示。
表1 實(shí)施環(huán)境
圖1 為提供一種不良域名核驗(yàn)應(yīng)用場(chǎng)景示意圖,在圖1 所示場(chǎng)景中,互聯(lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)平臺(tái)中存儲(chǔ)了已確認(rèn)不良域名、注冊(cè)數(shù)據(jù)、DNS 數(shù)據(jù)(如DNS 解析服務(wù)器)、網(wǎng)站IP 歸屬地、域名黑名單等域名相關(guān)信息?;ヂ?lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)平臺(tái)通過(guò)接口連接有不良域名處置系統(tǒng),該不良域名處置系統(tǒng)用于對(duì)不良域名進(jìn)行域名停止解析、域名刪除、網(wǎng)站停止訪問(wèn)、網(wǎng)站內(nèi)容清理等處置操作?;ヂ?lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)平臺(tái)連接至相關(guān)應(yīng)用(如不良數(shù)據(jù)分析、數(shù)據(jù)統(tǒng)計(jì)、疑似不良域名應(yīng)用識(shí)別等),對(duì)不良域名的相關(guān)信息進(jìn)行統(tǒng)計(jì)分析或者對(duì)域名進(jìn)行進(jìn)一步識(shí)別。
本模型設(shè)計(jì)思路為:
(1)通過(guò)篩選規(guī)則快速篩選出疑似不良域名,完成已有頂級(jí)域的大范圍全域檢測(cè)和快速篩選。將新注冊(cè)域名放在后續(xù)黃賭識(shí)別的優(yōu)先隊(duì)列,可以提高檢測(cè)效率,有效降低延遲,便于及時(shí)發(fā)現(xiàn)將新注冊(cè)域名應(yīng)用于不良網(wǎng)站的情況。
(2)將疑似不良域名對(duì)應(yīng)的網(wǎng)站截屏圖像作為檢索項(xiàng),在已人工確認(rèn)的不良網(wǎng)頁(yè)截圖庫(kù)中進(jìn)行相似性搜索,若搜索命中,則將最相似網(wǎng)頁(yè)截圖的域名不良分?jǐn)?shù)作為該域名的不良相似度分?jǐn)?shù),將該域名不良類型作為該域名的不良類型,無(wú)需人工判定。
(3)對(duì)于在不良域名網(wǎng)頁(yè)截圖庫(kù)中未搜索到匹配項(xiàng)或圖片重合度未達(dá)到閾值的域名,按照不良域名人工審核時(shí)間間隔,進(jìn)行網(wǎng)頁(yè)截圖的智能識(shí)別(包含文本識(shí)別、圖像識(shí)別),并分別計(jì)算色情疑似度、賭博疑似度分?jǐn)?shù)。
(4)根據(jù)日常不良域名認(rèn)定處置經(jīng)驗(yàn),大量淫穢色情、網(wǎng)絡(luò)賭博等不良域名的網(wǎng)頁(yè)內(nèi)容存在高度相似性,為避免人工判定過(guò)程的大量重復(fù)勞動(dòng),利用圖像相似性聚類和相似性搜索技術(shù),將高相似網(wǎng)頁(yè)圖像自動(dòng)歸類,推送給人工進(jìn)一步判定。審核人員參照步驟(3)智能識(shí)別結(jié)果,對(duì)網(wǎng)頁(yè)圖像聚類結(jié)果每個(gè)分類進(jìn)行不良類型的批量標(biāo)識(shí),即一個(gè)不良域名標(biāo)識(shí)即全類標(biāo)識(shí)。
下面將進(jìn)行每個(gè)步驟的詳細(xì)闡述。
疑似域名快速篩查指利用大數(shù)據(jù)技術(shù)對(duì)域名對(duì)應(yīng)網(wǎng)站數(shù)據(jù)(網(wǎng)站A 記錄、網(wǎng)頁(yè)DOM 結(jié)構(gòu)、網(wǎng)頁(yè)文本內(nèi)容等)進(jìn)行特征提取及分析,根據(jù)規(guī)則篩選出涉黃、涉賭疑似域名列表。
疑似域名快速篩查過(guò)程如圖2 所示,包含如下主要步驟:
(1)通過(guò)解析區(qū)文件,獲取“.COM”“.NET”等通用頂級(jí)域(gTLD)域名列表,以及“.CN”等國(guó)家域名的域名列表。
(2)采用分布式數(shù)據(jù)采集系統(tǒng)遍歷所有域名,針對(duì)域名或者域名變種(加上www.前綴),按照具備A 記錄、80端口已開通、網(wǎng)站為中或英文網(wǎng)站等規(guī)則進(jìn)行快速篩查,將符合篩選條件送入篩選域名列表。
(3)對(duì)網(wǎng)站內(nèi)容進(jìn)行自動(dòng)化采集、截屏取證、清洗和預(yù)處理(將域名網(wǎng)站對(duì)應(yīng)的截圖保存在圖片庫(kù)中;對(duì)網(wǎng)站文本內(nèi)容進(jìn)行清洗和預(yù)處理,剔除HTML、JavaScript腳本、特殊字符、亂碼和停用詞等內(nèi)容,對(duì)漢字進(jìn)行繁簡(jiǎn)轉(zhuǎn)換以及分詞處理,將清洗后的文本內(nèi)容存入文本庫(kù)中),將包括有關(guān)網(wǎng)絡(luò)賭博、淫穢色情關(guān)鍵詞的網(wǎng)頁(yè)域名定義為疑似不良域名。
(4)獲取疑似域名IP 解析歸屬地、ICP 備案信息、域名DNS 解析信息、域名注冊(cè)人等信息并保存,以供后續(xù)數(shù)據(jù)關(guān)聯(lián)分析。
通過(guò)疑似域名快速篩查,完成已有頂級(jí)域的大范圍全域檢測(cè)及快速篩選,同時(shí),基于新注冊(cè)域名的近實(shí)時(shí)的檢測(cè),一方面可避免大范圍的爬網(wǎng),提高檢測(cè)效率;另一方面,可有效降低發(fā)現(xiàn)延遲,避免不良網(wǎng)站帶來(lái)的惡劣影響。
不良網(wǎng)頁(yè)截圖庫(kù)相似性檢索是指將新采集的截屏圖像文件作為檢索項(xiàng),在已人工確認(rèn)的不良網(wǎng)頁(yè)截圖庫(kù)中進(jìn)行相似性搜索,若搜索命中,則將最相似網(wǎng)頁(yè)截圖的域名不良分?jǐn)?shù)作為該域名的不良相似度分?jǐn)?shù),將該域名不良類型作為該域名的不良類型,無(wú)需人工判定。
圖像相似性檢索框架如圖3 所示。
(1)離線處理過(guò)程。首先遍歷已取證域名網(wǎng)頁(yè)截圖庫(kù),對(duì)圖像庫(kù)中每個(gè)圖像進(jìn)行特征提取,將提取的所有特征進(jìn)行量化處理,創(chuàng)建多維倒排索引。
(2)在線處理過(guò)程。對(duì)疑似不良域名網(wǎng)頁(yè)截圖進(jìn)行特征提取,經(jīng)過(guò)有序量化處理及多維倒排索引后,通過(guò)圖像相似性匹配算法(近似RANSAC 算法),將疑似不良域名網(wǎng)頁(yè)截圖的特征與已取證不良域名網(wǎng)頁(yè)截圖特征庫(kù)中的特征元數(shù)據(jù)進(jìn)行相似性匹配,若滿足條件(相似度閾值以上),則按照相似度數(shù)值大小返回檢索結(jié)果。
對(duì)于在不良域名網(wǎng)頁(yè)截圖庫(kù)中未搜索到或圖片重合度未達(dá)到預(yù)設(shè)值的截圖,按照不良域名人工審核時(shí)間間隔,進(jìn)行基于網(wǎng)頁(yè)截圖內(nèi)容的智能識(shí)別(包含文本識(shí)別、圖像識(shí)別)。
2.4.1 不良文本識(shí)別
不良文本識(shí)別是指篩選域名網(wǎng)頁(yè)中滿足和不滿足文本特征值,再根據(jù)篩選出的特征值差異計(jì)算閾值的過(guò)程。當(dāng)域名文本信息特征值超過(guò)閾值時(shí),進(jìn)行不良信息分類標(biāo)記處理。
圖4 為本方案的不良文本識(shí)別流程,關(guān)鍵詞自動(dòng)提取和權(quán)值計(jì)算主要采用LDA(Latent Dirichlet Allocation)主題模型。其中,Dirichlet 是指一類高維連續(xù)概率分布,是Beta 分布在高維的推廣。LDA 模型包含文檔、主題、詞匯三層結(jié)構(gòu),假設(shè)文檔主題的先驗(yàn)分布和主題中詞匯的先驗(yàn)分布均服從于Dirichlet 分布。利用Dirichlet-Multi共軛特性,通過(guò)貝葉斯推斷方法得到基于Dirichlet 分布的文檔主題后驗(yàn)分布和基于Dirichlet 分布的主題詞匯后驗(yàn)分布,從而根據(jù)文檔與詞匯之間的知識(shí),生成文檔與主題、主題與詞匯的信息,完成關(guān)鍵詞的提取和權(quán)值的計(jì)算。
(1)將不良域名網(wǎng)址爬取網(wǎng)站文字內(nèi)容并進(jìn)行數(shù)據(jù)清洗和預(yù)處理。
具體包括:去掉HTML 標(biāo)簽、JavaScript 腳本、特殊字符、亂碼和停用詞,漢字繁簡(jiǎn)轉(zhuǎn)換以及分詞處理。通過(guò)構(gòu)建詞頻矩陣訓(xùn)練LDA 模型,得到帶權(quán)重的不良關(guān)鍵詞詞典,利用AC 自動(dòng)機(jī)算法針對(duì)不良關(guān)鍵詞進(jìn)行高效匹配。
(2)統(tǒng)計(jì)文本集單詞次數(shù)和文本集詞總量,計(jì)算文本集單詞平均詞頻。
設(shè)文本集第i 個(gè)單詞次數(shù)為Ni(i 為T 特征項(xiàng)的維數(shù),i=1,2,3,…,N),計(jì)算文本集詞總量ΣNi(i=1,2,3,…,N),計(jì)算文本集單詞平均詞頻f(Ti,x)=ΣNi/N。
(3)確定關(guān)鍵詞集。
選擇出現(xiàn)次數(shù)大于文本集中單詞出現(xiàn)次數(shù)的數(shù)學(xué)期望值的單詞作為關(guān)鍵詞,即遍歷文本集T,若Ni≥f(Ti,x),將該單詞加入關(guān)鍵詞表K(Kj(j=1,2,…,M)為關(guān)鍵詞集中的關(guān)鍵詞);否則,放棄該單詞。
(4)計(jì)算關(guān)鍵詞集的平均權(quán)重。
ΣNj為關(guān)鍵詞集K 中所有單詞權(quán)值之和,則關(guān)鍵詞集的平均權(quán)重=ΣNj/M。
(5)計(jì)算域名不良得分。
對(duì)過(guò)濾出的關(guān)鍵詞去重后個(gè)數(shù)大于等于7 個(gè)的,取關(guān)鍵詞去重權(quán)值的平均值作為文檔不良度得分;對(duì)個(gè)數(shù)小于7的,取關(guān)鍵詞去重后權(quán)值平均值×關(guān)鍵詞去重后個(gè)數(shù)/7 作為文檔不良度得分,公式表示為:
2.4.2 不良圖像識(shí)別
相對(duì)于網(wǎng)頁(yè)文本內(nèi)容,網(wǎng)頁(yè)圖像能承載更多的內(nèi)容。如何通過(guò)圖像識(shí)別算法來(lái)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行不良識(shí)別是不良域名發(fā)現(xiàn)的關(guān)鍵環(huán)節(jié),集中于涉黃圖像識(shí)別及涉賭圖像識(shí)別。
(1)涉黃圖像識(shí)別
網(wǎng)頁(yè)圖像涉黃一般是指網(wǎng)頁(yè)上的圖像包含暴露身體性器官的圖片。目前,圖像涉黃檢測(cè)技術(shù)相對(duì)成熟,主要采用深度學(xué)習(xí)技術(shù),由于涉黃圖片目標(biāo)明確,比較容易檢測(cè)。
深度學(xué)習(xí)技術(shù)基于人工神經(jīng)網(wǎng)絡(luò),屬于機(jī)器學(xué)習(xí)的一個(gè)新領(lǐng)域,該技術(shù)通過(guò)結(jié)合低級(jí)特征表達(dá)抽象高級(jí)屬性類別及特征,可模仿人腦機(jī)制解釋數(shù)據(jù),包括文本、圖像及聲音等。目前,深度學(xué)習(xí)類型包含監(jiān)督或非監(jiān)督兩種,前者以卷積神經(jīng)網(wǎng)絡(luò)為代表,后者以深度置信網(wǎng)絡(luò)為代表[7]。深度學(xué)習(xí)方法利用大數(shù)據(jù)的優(yōu)勢(shì),能夠自動(dòng)學(xué)習(xí)特征表示、高效提取圖像的全局特征和上下文信息。但對(duì)于經(jīng)典不良圖像識(shí)別存在訓(xùn)練數(shù)據(jù)類型單一、數(shù)據(jù)質(zhì)量不高、圖片誤識(shí)率較高等缺點(diǎn)與難題。
為此,研究者們根據(jù)各自研究目標(biāo)類型的特點(diǎn),選擇了不同的卷積神經(jīng)網(wǎng)絡(luò)算法對(duì)圖片的基礎(chǔ)特征進(jìn)行提取[8]。Girshick[9]等人提出基于區(qū)域候選的卷積神經(jīng)網(wǎng)絡(luò)R-CNN 用于圖像目標(biāo)檢測(cè),避免了傳統(tǒng)圖像處理中涉及復(fù)雜的目標(biāo)特征,同時(shí)在準(zhǔn)確率和速度上得到很大提升。He[10]提出一種新的網(wǎng)絡(luò)結(jié)構(gòu)(在ResNet 設(shè)計(jì)殘差模塊)解決了無(wú)法構(gòu)建更深網(wǎng)絡(luò)的問(wèn)題,使得網(wǎng)絡(luò)的深度直至152 層卷積層時(shí)最低錯(cuò)誤率僅為3.57%。王紅君[11]等人采用弱監(jiān)督遷移訓(xùn)練算法訓(xùn)練ResNet 模型,在大規(guī)模復(fù)雜場(chǎng)景下(光照、攝像機(jī)視角、存在移動(dòng)物體、氣候、地貌特征等條件的大幅變化)提取圖像特征,解決了提升精度和魯棒性問(wèn)題。周忠義[12]在ResNet-50 模型基礎(chǔ)上,通過(guò)增加淺層網(wǎng)絡(luò)層到深層網(wǎng)絡(luò)層的多個(gè)通路,將具有更強(qiáng)細(xì)節(jié)紋理信息的淺層特征和具有更明確語(yǔ)義分類信息的深層特征相結(jié)合,增強(qiáng)了后續(xù)卷積運(yùn)算的特征信息,分類準(zhǔn)確率達(dá)到99.2%。雷景生等[13]以完整圖像作為輸入和輸出,利用Inception 模塊對(duì)噪聲圖像進(jìn)行去噪,使用改進(jìn)Inception 反卷積模塊將去噪圖像進(jìn)行還原,有效去除了圖像中存在的高斯噪聲。王丹峰等[14]將Inception 網(wǎng)絡(luò)結(jié)構(gòu)融入檢測(cè)網(wǎng)絡(luò)中以提升網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度和檢測(cè)精確度,一定程度上提高精確度和檢測(cè)速率。
以上每個(gè)算法模型在一定的條件下對(duì)涉黃圖像識(shí)別判斷均起到一定的識(shí)別效果。相比于GoogleNet,Inception3 模型的非對(duì)稱結(jié)構(gòu)在減小網(wǎng)絡(luò)計(jì)算量方面具備明顯的優(yōu)勢(shì)。該模型通過(guò)增加非線性激活減小過(guò)擬合概率,采用輔助分類結(jié)構(gòu)加速訓(xùn)練過(guò)程、提升主分類器效果,且通過(guò)一定步長(zhǎng)卷積與池化并行的操作有效降低維度。ResNet 模型則針對(duì)于隨網(wǎng)絡(luò)加深、準(zhǔn)確率下降的問(wèn)題,采用Identity Mapping 和Residual Mapping 的設(shè)計(jì),即如果網(wǎng)絡(luò)已經(jīng)到達(dá)最優(yōu),繼續(xù)加深網(wǎng)絡(luò)時(shí),Residual Mapping 將趨向于0,僅余Identity Mapping,使網(wǎng)絡(luò)一直處于最優(yōu)狀態(tài)。經(jīng)過(guò)對(duì)多種模型的試驗(yàn)對(duì)比,考慮算法間適應(yīng)匹配度、提高效率優(yōu)先方面,最終選定Inception3與ResNet50 構(gòu)成的雙模型進(jìn)行組合預(yù)測(cè)。
在實(shí)時(shí)圖像檢測(cè)識(shí)別場(chǎng)景中,圖片不良程度監(jiān)測(cè)主要包括以下兩個(gè)實(shí)施步驟:
①提取網(wǎng)頁(yè)圖像下載鏈接并依次下載。
②依次對(duì)每張圖片進(jìn)行涉黃識(shí)別。首先對(duì)圖片進(jìn)行預(yù)處理,主要包括:圖片顏色空間的變換、圖片灰度變換和大小調(diào)整、圖片增強(qiáng)和去噪。預(yù)處理過(guò)的圖像經(jīng)由Inception3 與ResNet50 雙模型進(jìn)行檢測(cè),將兩個(gè)模型的綜合打分作為圖片的涉黃度得分。選取3 個(gè)最高涉黃度得分的平均值作為域名涉黃分?jǐn)?shù)。實(shí)驗(yàn)證明,該雙模型組合檢測(cè)方法在大數(shù)據(jù)量和多復(fù)雜數(shù)據(jù)類型、數(shù)據(jù)清洗手段、遷移學(xué)習(xí)等方面有效地提高了召回率,降低了單一模型帶來(lái)的誤識(shí)率。
(2)涉賭圖像識(shí)別
相對(duì)于涉黃網(wǎng)頁(yè)圖像區(qū)分度高,涉賭網(wǎng)頁(yè)特征不突出且不易區(qū)分,針對(duì)這種特征,本模型采用文獻(xiàn)[15]中提到的方法,利用卷積神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行涉賭圖像的識(shí)別判定。
①收集大量網(wǎng)頁(yè)圖像數(shù)據(jù)以構(gòu)造訓(xùn)練算法所需的數(shù)據(jù)集,采用正負(fù)樣本的網(wǎng)頁(yè)截圖,即涉賭的網(wǎng)頁(yè)截圖和正常網(wǎng)頁(yè)截圖,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
在訓(xùn)練過(guò)程中發(fā)現(xiàn),當(dāng)ResNet 網(wǎng)絡(luò)層數(shù)達(dá)到足夠深時(shí),在評(píng)測(cè)集上存在網(wǎng)絡(luò)退化、梯度消失爆炸問(wèn)題。因此,采用重新構(gòu)造的SE-Resnet 算法(在ResNet 網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行優(yōu)化,增加壓縮激勵(lì)(Squeeze-and-Excitation)模塊),在驗(yàn)證集上對(duì)涉賭網(wǎng)頁(yè)進(jìn)行識(shí)別和評(píng)測(cè),算法獲得了良好的識(shí)別效果。同時(shí),通過(guò)在線數(shù)據(jù)增強(qiáng)技術(shù)(如隨機(jī)圖像顏色變換、隨機(jī)翻轉(zhuǎn)、隨機(jī)摳圖等技術(shù))提升數(shù)據(jù)的多樣性和數(shù)據(jù)量及模型的泛化能力。
②利用訓(xùn)練涉賭識(shí)別模型計(jì)算域名涉賭度分?jǐn)?shù)。對(duì)于確認(rèn)的不良網(wǎng)頁(yè)截圖,存入圖像庫(kù),構(gòu)建圖像相似性搜索庫(kù),供后續(xù)圖像檢索使用。
根據(jù)日常不良域名認(rèn)定處置經(jīng)驗(yàn),大量網(wǎng)絡(luò)賭博、淫穢色情等不良域名的網(wǎng)頁(yè)內(nèi)容存在高度相似性,即不良域名人工審核認(rèn)定存在大量的重復(fù)工作。為避免高相似不良域名重復(fù)認(rèn)定,以便及時(shí)對(duì)不良域名進(jìn)行相應(yīng)處置,利用圖像相似性聚類和相似性搜索等技術(shù),將高相似網(wǎng)頁(yè)圖像自動(dòng)歸類,推送給人工進(jìn)一步判定。
(1)對(duì)于在不良域名網(wǎng)頁(yè)截圖庫(kù)中未搜索到或圖片重合度未達(dá)到預(yù)設(shè)值的截圖,按不良域名人工審核時(shí)間間隔,將指定時(shí)間段內(nèi)獲取的網(wǎng)頁(yè)截圖進(jìn)行自動(dòng)歸類后推送給審核人員。
(2)審核人員參照智能識(shí)別計(jì)算出的色情疑似度分?jǐn)?shù)、賭博疑似度分?jǐn)?shù),對(duì)網(wǎng)頁(yè)圖像聚類結(jié)果每個(gè)分類進(jìn)行不良類型的批量標(biāo)識(shí)(即一個(gè)不良域名標(biāo)識(shí)即全類標(biāo)識(shí)),同時(shí)提供手動(dòng)篩選機(jī)制,將錯(cuò)誤歸類的個(gè)別域名剔除或單獨(dú)設(shè)為一類。
(3)從已確認(rèn)的網(wǎng)頁(yè)圖像聚類結(jié)果中選取最靠近聚類中心點(diǎn)的圖像,存入圖像庫(kù),構(gòu)建圖像相似性搜索庫(kù),供后續(xù)圖像檢索使用。隨著圖像庫(kù)規(guī)模的增加,圖像相似度搜索結(jié)果將更加精準(zhǔn),將大大提升系統(tǒng)不良判定準(zhǔn)確率和系統(tǒng)自動(dòng)化率,提升不良域名的人工審核效率。
(4)考慮到圖像規(guī)模的大小,在實(shí)際檢索場(chǎng)景中對(duì)于中小規(guī)模圖像庫(kù)(圖像數(shù)量為5 萬(wàn)幅以下)及大規(guī)模圖形庫(kù)(圖像數(shù)量為5 萬(wàn)到上千萬(wàn)幅)采用不同的處理方式:
①中小規(guī)模的最近鄰圖像檢索。當(dāng)圖像數(shù)量為5 萬(wàn)幅以下時(shí),由于圖像數(shù)目較少,通過(guò)比較查詢圖像與圖像庫(kù)中每幅圖像之間的距離,返回與查詢圖像最近鄰的圖像集合。
②大規(guī)模的近似最近鄰圖像檢索。當(dāng)圖像數(shù)量為5萬(wàn)到上千萬(wàn)幅時(shí),考慮到特征的存儲(chǔ)空間和檢索速度兩個(gè)因素,采用近似最近鄰檢索策略,返回與查詢圖像最近鄰的圖像集合,同時(shí)按采樣時(shí)間和命中頻率持續(xù)地對(duì)樣本庫(kù)的圖片進(jìn)行更新替換。
為檢驗(yàn)準(zhǔn)確率,采用4 萬(wàn)余張疑似不良域名網(wǎng)頁(yè)截圖最終分為150 多類,網(wǎng)頁(yè)截圖聚類測(cè)試結(jié)果準(zhǔn)確率為99.86%。結(jié)果表明,該方式可大幅提升了不良域名人工核驗(yàn)認(rèn)定工作效率,有效降低了人工成本,實(shí)現(xiàn)了不良域名及時(shí)處置。
目前,該方法已應(yīng)用于基金“國(guó)家互聯(lián)網(wǎng)基礎(chǔ)資源大數(shù)據(jù)(服務(wù))平臺(tái)”項(xiàng)目,并對(duì)2 億多的域名進(jìn)行監(jiān)測(cè)采集與判定分析,最終發(fā)現(xiàn)不良域名155 萬(wàn)個(gè)。為驗(yàn)證本方法的準(zhǔn)確率,對(duì)經(jīng)過(guò)人工抽樣10 000 個(gè)不良域名樣本(淫穢色情和網(wǎng)絡(luò)賭博域名各自5 000 個(gè))進(jìn)行判定,驗(yàn)證結(jié)果為機(jī)器打分總體準(zhǔn)確率為99.67%,其中淫穢色情類準(zhǔn)確率為99.66%,網(wǎng)絡(luò)賭博類準(zhǔn)確率為99.68%。實(shí)驗(yàn)表明采用本文提出的不良域名快速核驗(yàn)方法可以有效地識(shí)別出涉黃、涉賭網(wǎng)頁(yè)類別,大幅提升不良域名的人工審核效率和準(zhǔn)確率,且具有較高的準(zhǔn)確率。
本文提出了一種不良域名快速檢驗(yàn)方法。對(duì)于未判定為不良的疑似域名進(jìn)行后續(xù)跟蹤,定期截取網(wǎng)站主頁(yè)進(jìn)行檢測(cè),一旦潛伏域名啟用后,可及時(shí)發(fā)現(xiàn)色賭類域名及非法網(wǎng)站,從而達(dá)到大幅度提升色賭類網(wǎng)站的發(fā)現(xiàn)及舉報(bào)量的目標(biāo);對(duì)于已判定為不良的域名進(jìn)行挖掘分析,結(jié)合站群信息、DNS 解析數(shù)據(jù)、域名注冊(cè)數(shù)據(jù)進(jìn)行綜合關(guān)聯(lián)分析,為相關(guān)部門提供有價(jià)值線索,以發(fā)現(xiàn)及治理違法組織。本模型對(duì)于網(wǎng)絡(luò)空間不良域名全方位監(jiān)測(cè),掌握不良域名的濫用程度、分布態(tài)勢(shì)及違法域名一體化治理等方面,可發(fā)揮一定效力。
針對(duì)實(shí)驗(yàn)結(jié)果分析過(guò)程中發(fā)現(xiàn)的問(wèn)題,下一步將采用遷移學(xué)習(xí)的方式對(duì)模型進(jìn)行持續(xù)優(yōu)化,提升對(duì)特定類型圖片處理的敏感性,改進(jìn)對(duì)攻擊樣本的抵抗效果。