◆張浩男 包健 張朝熙 衛(wèi)宇航
(中國移動通信集團(tuán)內(nèi)蒙古有限公司 內(nèi)蒙古 010021)
當(dāng)前,不良內(nèi)容信息泛濫已成為互聯(lián)網(wǎng)生態(tài)治理難題。社會聚焦、監(jiān)管行動也使得內(nèi)容安全成為電信運(yùn)營商的重點(diǎn)關(guān)注問題。為了營造良好網(wǎng)絡(luò)生態(tài),構(gòu)建天朗氣清的網(wǎng)絡(luò)空間,國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》于2020年3月1日起正式施行?!毒W(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》以網(wǎng)絡(luò)信息內(nèi)容為主要治理對象,以建立健全網(wǎng)絡(luò)綜合治理體系、營造清朗的網(wǎng)絡(luò)空間、建設(shè)良好的網(wǎng)絡(luò)生態(tài)為目標(biāo),突出了企業(yè)參與網(wǎng)絡(luò)生態(tài)治理的主觀能動性。
隨著中國移動呼和浩特數(shù)據(jù)中心業(yè)務(wù)的迅速發(fā)展,IDC 業(yè)務(wù)、云業(yè)務(wù)呈現(xiàn)爆發(fā)式增長趨勢。由于IDC 業(yè)務(wù)、云業(yè)務(wù)的企業(yè)客戶涉及各行各業(yè),在入網(wǎng)業(yè)務(wù)審核環(huán)節(jié)很難發(fā)現(xiàn)其未來搭建的業(yè)務(wù)是否包含不良內(nèi)容信息。而且數(shù)據(jù)中心網(wǎng)內(nèi)的互聯(lián)網(wǎng)網(wǎng)站、文本、圖片、視頻不計(jì)其數(shù),對暴恐和色情等不良內(nèi)容信息的排查和審核給電信運(yùn)營商帶來巨大挑戰(zhàn)。即使全部由人工審核,在時效性和準(zhǔn)確性上仍無法達(dá)到理想效果。
為了主動及時發(fā)現(xiàn)數(shù)據(jù)中心網(wǎng)內(nèi)出現(xiàn)的不良內(nèi)容信息,通過統(tǒng)一DPI 系統(tǒng),結(jié)合不良內(nèi)容審核引擎和人工審核服務(wù),對數(shù)據(jù)中心網(wǎng)內(nèi)對外提供訪問網(wǎng)站的文字、圖片、視頻進(jìn)行研判審核,對發(fā)現(xiàn)的不良內(nèi)容信息的URL、域名、IP 等進(jìn)行關(guān)停處置,防止不良內(nèi)容信息的傳播,實(shí)現(xiàn)對數(shù)據(jù)中心網(wǎng)內(nèi)可能在互聯(lián)網(wǎng)上傳播不良內(nèi)容信息等各類危害性不良信息的行為進(jìn)行即時有效的管控。
目前中國移動呼和浩特數(shù)據(jù)中心出口建設(shè)有一套統(tǒng)一DPI 系統(tǒng),實(shí)現(xiàn)對數(shù)據(jù)中心互聯(lián)網(wǎng)的網(wǎng)絡(luò)流量進(jìn)行雙向全量的監(jiān)測。通過統(tǒng)一DPI 系統(tǒng),可對網(wǎng)絡(luò)中http 協(xié)議流量的文字、圖片、視頻實(shí)現(xiàn)部分還原,進(jìn)行本地留存。
為了快速監(jiān)測數(shù)據(jù)中心網(wǎng)內(nèi)的淫穢色情、暴恐等不良內(nèi)容信息,通過與數(shù)據(jù)中心統(tǒng)一DPI 系統(tǒng)進(jìn)行對接獲取文字、圖片、視頻等內(nèi)容,進(jìn)行準(zhǔn)實(shí)時的不良內(nèi)容信息研判;同時為了彌補(bǔ)統(tǒng)一DPI 還原缺失的數(shù)據(jù),通過獲取DPI 系統(tǒng)捕捉的用戶上網(wǎng)的五元組信息(IP地址,源端口,目的IP 地址,目的端口和傳輸層協(xié)議),進(jìn)行篩選去重,再使用分布式網(wǎng)絡(luò)爬蟲對上網(wǎng)日志中的URL 內(nèi)容進(jìn)行爬取,對爬取的文字、圖片、視頻進(jìn)行準(zhǔn)實(shí)時的研判審核。
不良內(nèi)容信息監(jiān)測系統(tǒng)通過與統(tǒng)一DPI 系統(tǒng)對接,獲取文本、圖片、視頻等內(nèi)容,同時通過爬蟲集群采集IDC/ISP 上網(wǎng)日志提取URL 的進(jìn)行內(nèi)容爬取,對獲取的文本、圖片、視頻進(jìn)行不良內(nèi)容信息研判,對系統(tǒng)自動研判產(chǎn)生的疑似不良內(nèi)容URL 進(jìn)行二次人工審核,對確認(rèn)的不良違規(guī)URL 及時通知數(shù)據(jù)中心運(yùn)維值班人員進(jìn)行處置。
不良內(nèi)容信息監(jiān)控系統(tǒng)在技術(shù)架構(gòu)主要分為5 層。
(1)第一層為資源層,主要為監(jiān)測資源的類型,該資源是統(tǒng)一DPI 還原文件和上網(wǎng)日志XDR 話單。
圖1 不良信息監(jiān)測示意圖
(2)第二層是采集層,主要是依托分布式爬蟲作為采集工具,對日志進(jìn)行圖片、文本、視頻的下載還原。
(3)第三層是數(shù)據(jù)清洗預(yù)處理層,主要對數(shù)據(jù)進(jìn)行過濾、去重、清洗、比對等操作。
(4)第四層是不良內(nèi)容識別模型層,主要使用AI 智能識別模型和機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)不良內(nèi)容信息的研判。
(5)第五層是UI 展現(xiàn)層,提供人工審核、日常管理和審核結(jié)果呈現(xiàn)等功能。
根據(jù)現(xiàn)網(wǎng)測算,每天約有65 億條上網(wǎng)日志,按80%的比例去重,去重后的日志約13 億條,平均每秒需爬取1.51 萬條URL,需要使用分布式的爬蟲架構(gòu)才能滿足如此量級的爬蟲規(guī)模。通過對爬蟲相關(guān)資源的配置,包括爬取源信息,列表解析規(guī)則,詳情解析規(guī)則,爬蟲信息配置,爬取任務(wù)管理,各種爬取資源池的管理,保存到Mysql 數(shù)據(jù)庫中;
(1)調(diào)度程序從Mysql 數(shù)據(jù)庫中讀取需要執(zhí)行的爬蟲任務(wù),發(fā)送到Kafka 系統(tǒng)中,存放到待爬取列表隊(duì)列中;
(2)爬蟲監(jiān)聽Kafka 相應(yīng)的消息隊(duì)列,從中拿出待爬取的任務(wù),準(zhǔn)備執(zhí)行;
(3)爬取前,從Kafka 任務(wù)對象中解析出任務(wù)的相關(guān)配置并存放到Redis 緩存中,從Redis 集群中判斷待執(zhí)行的任務(wù)是否已經(jīng)被爬?。词欠褚呀?jīng)存在),如果存在則跳過此任務(wù),不存在就繼續(xù)執(zhí)行;
(4)爬蟲程序通過任務(wù)類別字段判斷任務(wù)的類型,從Redis 中獲取任務(wù)的相關(guān)配置,如各種規(guī)則,爬取頻率,任務(wù)需要用到的爬蟲插件等;
(5)爬蟲執(zhí)行列表爬取任務(wù),將爬取列表頁解析出來的明細(xì)URL發(fā)送到Kafka集群待爬取隊(duì)列中;并將已經(jīng)完成爬取的列表URL存儲到Redis 集群已完成任務(wù)集合中;
(6)爬蟲執(zhí)行明細(xì)爬取任務(wù),根據(jù)任務(wù)ID 從Redis 中獲取任務(wù)爬取解析的規(guī)則、需要用到的增強(qiáng)插件配置等,開始執(zhí)行任務(wù)的爬取工作。拿到爬取的結(jié)果后將爬取的內(nèi)容發(fā)送給內(nèi)容解析模塊,內(nèi)容解析模塊根據(jù)設(shè)定的解析規(guī)則,將解析出的數(shù)據(jù)由Flume 進(jìn)行收集發(fā)送給數(shù)據(jù)歸集模塊,由數(shù)據(jù)歸集模塊進(jìn)行數(shù)據(jù)的入庫;
(7)根據(jù)任務(wù)的參數(shù)配置,入庫可以將文件入庫到Hadoop 集群中,也可以對文件進(jìn)行分詞等分析處理后入庫到ES 集群中;
(8)集中配置模塊通過Zookeeper 來實(shí)現(xiàn)爬蟲的集中管理,所有爬蟲啟動時在ZK 上進(jìn)行注冊,基于ZK 的特性,有配置需要進(jìn)行下發(fā)的時候,ZK 會通知爬蟲進(jìn)行實(shí)時更新生效,可以監(jiān)控爬蟲程序的運(yùn)行及采集狀況。當(dāng)采集程序異常中止或由于其他原因無法處理待采集的任務(wù)時,ZK 能夠自動探測,探測后可以通過其他的技術(shù)手段嘗試重啟爬蟲、將爬蟲的任務(wù)分發(fā)寫回采集隊(duì)列或進(jìn)行系統(tǒng)警告。
(9)通過Zabbix 來實(shí)現(xiàn)爬蟲集群服務(wù)器的監(jiān)控;
(10)通過Flume 收集爬蟲集群中的關(guān)鍵日志,實(shí)現(xiàn)對集群業(yè)務(wù)的監(jiān)控。
不良內(nèi)容信息分類一般分為涉黃、涉政、涉爆、涉恐等多種類型。不良內(nèi)容信息監(jiān)測系統(tǒng)以AI 技術(shù)為核心,在畫面、圖片和文字層面進(jìn)行綜合型識別,通過人臉庫、敏感詞庫、敏感圖像視頻庫以及不良畫面模型,結(jié)合人工審核流程,組成不良內(nèi)容信息監(jiān)測系統(tǒng)。
由于互聯(lián)網(wǎng)文化的多樣性和開發(fā)性,系統(tǒng)自動研判的疑似結(jié)果需要進(jìn)行人工審核作為最終的不良判定依據(jù)。人工審核采用初審、復(fù)審二次審核管理方式。
(1)疑似不良內(nèi)容信息初審。平臺發(fā)布待審信息內(nèi)容后,系統(tǒng)根據(jù)特征庫對其進(jìn)行違規(guī)類型標(biāo)識。內(nèi)容審核人員根據(jù)相關(guān)文件內(nèi)容和各類輿情通知,對待審信息內(nèi)容進(jìn)行人工審核,將違禁內(nèi)容予以刪除,反之予以通過;
(2)疑似不良內(nèi)容信息復(fù)審。內(nèi)容復(fù)審人員會對已審核處理后的內(nèi)容進(jìn)行質(zhì)量審核、跟蹤,將誤通過的信息內(nèi)容予以刪除,將誤刪除的信息內(nèi)容予以通過;
(3)對于人工審核確認(rèn)為不良違規(guī)的URL,實(shí)時下發(fā)工單給數(shù)據(jù)中心運(yùn)維值班人員進(jìn)行處理,運(yùn)維人員收到工單后會聯(lián)系客戶進(jìn)行處置,同時對相應(yīng)的URL 的進(jìn)行封堵。對于多次違規(guī)的域名進(jìn)行封堵,相應(yīng)IP 收回。
(4)同時為了驗(yàn)證不良違規(guī)URL 處置的有效性,數(shù)據(jù)中心運(yùn)維值班人員會定期對已處置的不良違規(guī)URL 進(jìn)行撥測驗(yàn)證,確保違規(guī)不良URL 的成功處置。業(yè)務(wù)流程如下:
①內(nèi)容撥測人員發(fā)現(xiàn)不良內(nèi)容信息并通知信息安全專員;
②信息安全專員轉(zhuǎn)發(fā)不良內(nèi)容信息給客戶經(jīng)理和業(yè)務(wù)維護(hù)人員并明確清理時間;
③業(yè)務(wù)維護(hù)人員在要求時間內(nèi)驗(yàn)證不良內(nèi)容信息并進(jìn)行清理,驗(yàn)證清理結(jié)果后將清理結(jié)果反饋值班人員;
④值班人員判斷不良內(nèi)容信息是否在要求時間內(nèi)完成清理并備案;
⑤內(nèi)容撥測人員定期撥測驗(yàn)證是否成功有效清理。
不良內(nèi)容信息監(jiān)測系統(tǒng)于2018年開始運(yùn)行,其是基于統(tǒng)一DPI文件還原和上網(wǎng)日志爬蟲方式對數(shù)據(jù)中心網(wǎng)內(nèi)不良內(nèi)容信息進(jìn)行監(jiān)測。到目前為止,不良內(nèi)容信息監(jiān)測系統(tǒng)平均每天監(jiān)測統(tǒng)一DPI 還原的文件240G 文本、2479G 張圖片、796G 視頻,通過上網(wǎng)日志平均每天爬取994 個URL,平均每天識別出疑似違規(guī)1.9 條文本、10張圖片、0.9 個視頻,關(guān)聯(lián)疑似URL 21 條;人工審核發(fā)現(xiàn)真實(shí)違規(guī)文本1 條、違規(guī)圖片10 條、違規(guī)視頻1 個,關(guān)聯(lián)的違規(guī)URL 20 條。
從2018年開始實(shí)施不良信息監(jiān)測,截止至2020年12月,日均封堵約15 條不良信息,均為IDC 客戶產(chǎn)生,無自有系統(tǒng)不良信息安全事件,有效保障數(shù)據(jù)中心IDC 機(jī)房的信息安全管控能力,杜絕各類不良及有害信息傳播。后續(xù)可考慮將該能力包裝成服務(wù),向互聯(lián)網(wǎng)客戶輸出,在打擊違法犯罪、維護(hù)網(wǎng)絡(luò)環(huán)境同時,也為公司創(chuàng)造收入和利潤。