◆余思瑩 宋曉駿 丁橋
基于現(xiàn)有信息安全監(jiān)測(cè)平臺(tái)的研究與改進(jìn)
◆余思瑩 宋曉駿 丁橋
(中國(guó)電信上海公司信息網(wǎng)絡(luò)部 上海 200020)
本文通過(guò)分析現(xiàn)有信息安全處置平臺(tái)對(duì)不良信息以及輿情兩方面的處理能力、原理、不足、相通點(diǎn),以期能將現(xiàn)有能力運(yùn)用最大化本文主要綜合考慮了信息安全處置系統(tǒng)、輿情處置系統(tǒng)、以及一些對(duì)特定APP、微信公眾號(hào)的檢測(cè)工具的能力特點(diǎn),總結(jié)擴(kuò)展出其中可以綜合擴(kuò)展利用的功能,提出合理假想:形成一綜合的信息安全處置平臺(tái),將能力運(yùn)用最大化,最優(yōu)化,進(jìn)一步提高信息安全能力。
信息安全處置;輿情處置;系統(tǒng)平臺(tái);關(guān)鍵詞;爬蟲(chóng)
當(dāng)前飛速發(fā)展的互聯(lián)網(wǎng)信息技術(shù)逐步深入我們的生活,越來(lái)越普及化、全球化、智能化。互聯(lián)網(wǎng)正在影響和改變著當(dāng)代社會(huì)生活的各個(gè)方面。信息化為民族國(guó)家的建設(shè)發(fā)展帶來(lái)了前所未有的契機(jī),現(xiàn)在網(wǎng)絡(luò)的普及度和參與度也可能會(huì)潛在激化社會(huì)矛盾,可能成為群眾宣泄情緒的途徑。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第45次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,報(bào)告中顯示我國(guó)網(wǎng)民規(guī)模截至2020年3月已經(jīng)突破了9億。而對(duì)于運(yùn)營(yíng)商而言,對(duì)網(wǎng)絡(luò)不良信息及網(wǎng)絡(luò)輿情的治理,更是重中之重,對(duì)不良信息和網(wǎng)絡(luò)輿情的治理既是網(wǎng)絡(luò)空間治理的重要內(nèi)容,又是信息化浪潮中運(yùn)營(yíng)商需要面臨的重要課題。認(rèn)真貫徹黨的十九大報(bào)告關(guān)于“建立網(wǎng)絡(luò)綜合治理體系,營(yíng)造清朗的網(wǎng)絡(luò)空間”精神,加強(qiáng)對(duì)網(wǎng)絡(luò)環(huán)境綜合治理,利用現(xiàn)有能力,充分利用提高應(yīng)用能力,構(gòu)建協(xié)同聯(lián)動(dòng)、綜合治理的必然趨勢(shì)。
目前,網(wǎng)絡(luò)上不良信息以及輿情信息的載體多種多樣,且數(shù)據(jù)量大。群眾上網(wǎng)的頻率和規(guī)模,以及網(wǎng)絡(luò)平臺(tái)上網(wǎng)絡(luò)信息的飛速增加,可能會(huì)使得輿論傳播變得大眾化、無(wú)序化和分散化。面對(duì)網(wǎng)絡(luò)上大量的輿情信息及不良信息,需要用技術(shù)上的網(wǎng)絡(luò)分析和監(jiān)控,代替大量繁瑣的人工操作,協(xié)助相應(yīng)部門(mén)機(jī)構(gòu)及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)上不良信息、敏感鏈接,了解網(wǎng)絡(luò)輿情動(dòng)態(tài)等問(wèn)題,并需要對(duì)不良信息鏈接的封堵整改,對(duì)負(fù)面的輿情信息進(jìn)行記錄追蹤預(yù)警,做到能夠及時(shí)糾正網(wǎng)絡(luò)上不良信息帶來(lái)的危害影響,有效保障網(wǎng)絡(luò)環(huán)境的健康可靠。
目前對(duì)于網(wǎng)絡(luò)信息安全的監(jiān)控和處置主要分為輿情處理以及不良信息處理兩個(gè)板塊,對(duì)應(yīng)的也是兩個(gè)分開(kāi)的系統(tǒng):輿情監(jiān)測(cè)系統(tǒng)、互聯(lián)網(wǎng)信息安全處置系統(tǒng)平臺(tái),這兩個(gè)系統(tǒng)都是運(yùn)用了爬蟲(chóng)技術(shù),但面向的處理方向不同,關(guān)鍵詞的設(shè)置不一致,著重的應(yīng)用范圍也不一樣。輿情偏向微博、論壇、報(bào)道三個(gè)數(shù)據(jù)板塊,而不良信息處理側(cè)重于網(wǎng)頁(yè)內(nèi)容的爬取。除此之外,對(duì)應(yīng)公司在網(wǎng)絡(luò)信息安全方面的要求,還應(yīng)該對(duì)微信認(rèn)證公眾號(hào)以及公司指定APP上發(fā)送的文字、圖片甚至視頻內(nèi)容進(jìn)行采集檢測(cè)。目前來(lái)看各系統(tǒng)以及工作模塊通過(guò)內(nèi)容的劃分下,從系統(tǒng)平臺(tái)的不互通到檢測(cè)數(shù)據(jù)平臺(tái)側(cè)重不同,各個(gè)能力的運(yùn)用并沒(méi)有發(fā)揮到最大化,下面我們將通過(guò)分析研究,試著將能力運(yùn)用最大化。
當(dāng)前現(xiàn)有的系統(tǒng)能力包含:互聯(lián)網(wǎng)信息安全處置系統(tǒng)、輿情監(jiān)測(cè)系統(tǒng)、鷹眼系統(tǒng)、一些監(jiān)測(cè)指定APP和公眾號(hào)的小程序。
互聯(lián)網(wǎng)信息安全處置系統(tǒng)是集不良信息處置、域名備案處置、域名備案查詢(xún)等功能于一體,對(duì)違規(guī)網(wǎng)頁(yè)或涵蓋不良信息網(wǎng)頁(yè)進(jìn)行處置的綜合運(yùn)行平臺(tái)。平臺(tái)根據(jù)預(yù)設(shè)的關(guān)鍵詞庫(kù),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方法對(duì)運(yùn)營(yíng)商接入網(wǎng)站進(jìn)行深層次的網(wǎng)絡(luò)數(shù)據(jù)爬取,篩選出不違規(guī)網(wǎng)站:包含不良信息、未備案等。再根據(jù)人工的進(jìn)一步復(fù)核確認(rèn),最后通知用戶(hù)整改或者進(jìn)行封堵,實(shí)現(xiàn)對(duì)于網(wǎng)絡(luò)活躍網(wǎng)站數(shù)據(jù)的監(jiān)控和對(duì)不良信息網(wǎng)站的嚴(yán)查嚴(yán)控。平臺(tái)首頁(yè)如圖1所示。
首頁(yè)顯示菜單欄、信息公告欄、常用資料下載、法律法規(guī)資料下載。可以通過(guò)爬蟲(chóng)任務(wù)管理,實(shí)現(xiàn)任務(wù)的添加、修改、刪除、追溯等來(lái)實(shí)現(xiàn)對(duì)爬蟲(chóng)的更改,包括對(duì)關(guān)鍵詞的擴(kuò)充或精確、對(duì)新網(wǎng)站的爬取深度等。從而進(jìn)一步人工審核之后,下發(fā)相應(yīng)工單進(jìn)行處理,完成對(duì)相關(guān)不良信息的處置。還可進(jìn)一步跟蹤追溯,用以提高一些工作的效率。
輿情監(jiān)測(cè)系統(tǒng)主要是為了減少和避免特定主體負(fù)面新聞報(bào)道、群體性投訴事件等給企業(yè)造成的不良影響,對(duì)此類(lèi)情況及時(shí)發(fā)現(xiàn)和上報(bào)、有效監(jiān)控和響應(yīng)的系統(tǒng),針對(duì)突發(fā)輿情信息和應(yīng)急或?qū)m?xiàng)輿情信息,采用技術(shù)手段,對(duì)信息進(jìn)行收集、匯總和上報(bào);對(duì)輿情事態(tài)發(fā)展進(jìn)行跟蹤、上報(bào)。主要針對(duì)的是互聯(lián)網(wǎng)上出現(xiàn)的主要針對(duì)特定主體的各類(lèi)業(yè)務(wù)產(chǎn)品及服務(wù)或企業(yè)形象的報(bào)道、評(píng)論和投訴。經(jīng)過(guò)系統(tǒng)程序的篩查后,進(jìn)行人工復(fù)核,最終匯總上報(bào)。
輿情監(jiān)測(cè)工作一般按照數(shù)據(jù)類(lèi)型可分為:報(bào)道類(lèi)、微博類(lèi)、論壇類(lèi)、微信類(lèi)。目前對(duì)于輿情監(jiān)測(cè)日常工作主要使用了兩個(gè)系統(tǒng),分別是輿情監(jiān)測(cè)系統(tǒng)和鷹眼系統(tǒng)。輿情監(jiān)測(cè)系統(tǒng)對(duì)輿情處理:分為微博、論壇、報(bào)道三大塊;該欄目也是將系統(tǒng)爬蟲(chóng)根據(jù)設(shè)定好的關(guān)鍵詞所抓取來(lái)的數(shù)據(jù)根據(jù)三大板塊分類(lèi)后陳列出來(lái)。系統(tǒng)模塊如圖2所示。
圖2 輿情監(jiān)測(cè)系統(tǒng)板塊示意圖
其中,輿情情況:是將輿情處理欄目?jī)?nèi)所展示的數(shù)據(jù)經(jīng)過(guò)處理后,存檔保存,進(jìn)行內(nèi)檢索的欄目;輿情統(tǒng)計(jì):是將系統(tǒng)內(nèi)已處理過(guò)并存檔后,進(jìn)行統(tǒng)計(jì)及按要求生成報(bào)表的欄目;系統(tǒng)設(shè)置:是系統(tǒng)管理員進(jìn)行賬號(hào)和密碼,以及后端修改操作的欄目。此外還需要通過(guò)人工在百度、搜狗、360等較大的搜索引擎上進(jìn)行搜索,進(jìn)行有關(guān)數(shù)據(jù)的篩選。
作為對(duì)接入網(wǎng)站,公眾號(hào),APP等的檢測(cè)系統(tǒng),有內(nèi)容采集、內(nèi)容分析、統(tǒng)一管理系統(tǒng)平臺(tái)。內(nèi)容采集主要采集網(wǎng)站、APP、公眾號(hào)推送的文本、圖片、視頻等內(nèi)容信息。內(nèi)容分析系統(tǒng)通過(guò)關(guān)鍵詞匹配、自然文本語(yǔ)言處理、智能圖像識(shí)別、圖像內(nèi)容分析匹配、視頻識(shí)別分析匹配等技術(shù),高效識(shí)別色情、賭博、廣告、涉政、暴恐等多類(lèi)垃圾有害文字,精準(zhǔn)過(guò)濾推廣、涉黃、涉賭、暴恐、涉政等違規(guī)圖片或視頻。監(jiān)測(cè)系統(tǒng)平臺(tái)還可將監(jiān)測(cè)內(nèi)容分為文本區(qū)、圖片區(qū)等,對(duì)數(shù)據(jù)進(jìn)行分區(qū)處理,以此能夠更高效且清晰的對(duì)監(jiān)測(cè)內(nèi)容進(jìn)行查看和管理。
目前,醫(yī)院數(shù)據(jù)統(tǒng)計(jì)工作開(kāi)展中還存在諸多問(wèn)題,不利于統(tǒng)計(jì)數(shù)據(jù)發(fā)揮真正價(jià)值,不利于醫(yī)療服務(wù)質(zhì)量提升,對(duì)此,需要醫(yī)院加強(qiáng)信息化數(shù)據(jù)平臺(tái)建設(shè),借助互聯(lián)網(wǎng)科技,不斷優(yōu)化統(tǒng)計(jì)工作方法,提升統(tǒng)計(jì)工作能力,促進(jìn)數(shù)據(jù)統(tǒng)計(jì)的高效開(kāi)展。
系統(tǒng)對(duì)APP進(jìn)行定期的安全檢測(cè),若發(fā)現(xiàn)有包含違規(guī)信息的APP,系統(tǒng)后臺(tái)預(yù)警并對(duì)違規(guī)違法內(nèi)容取證存留,通過(guò)人工審核之后,發(fā)送相關(guān)違規(guī)信息給APP擁有單位。并通過(guò)搭建成熟內(nèi)容安全檢測(cè)系統(tǒng)平臺(tái),接入APP、公眾號(hào)、網(wǎng)站至檢測(cè)系統(tǒng),實(shí)現(xiàn)針對(duì)文本、圖片和視頻等內(nèi)容的違法違規(guī)安全檢測(cè),精準(zhǔn)過(guò)濾涉黃、涉賭、推廣、暴恐、涉政和其他個(gè)性化定義的違規(guī)圖片的檢測(cè)。實(shí)現(xiàn)高自動(dòng)化的檢測(cè),將數(shù)據(jù)整合輸出報(bào)告,規(guī)避內(nèi)容發(fā)布風(fēng)險(xiǎn),及時(shí)遏制內(nèi)容違法違規(guī)風(fēng)險(xiǎn),提高APP審核效率。
對(duì)于網(wǎng)頁(yè)頁(yè)面,包括文本、圖片采集由網(wǎng)頁(yè)掃描任務(wù)調(diào)度、網(wǎng)頁(yè)內(nèi)容抓取等功能;對(duì)于公眾號(hào)通過(guò)Web自動(dòng)化工具操作Chrome瀏覽器自動(dòng)采集獲取微信公眾號(hào)發(fā)布的內(nèi)容;對(duì)于指定APP類(lèi),則是通過(guò)安卓模擬器運(yùn)行APP軟件自動(dòng)采集獲取APP發(fā)布內(nèi)容。
根據(jù)以上的分析說(shuō)明,可以看出不同的系統(tǒng)能力各有側(cè)重的方向,能力優(yōu)勢(shì)也各有不同,對(duì)于已掌握的系統(tǒng)和能力,通過(guò)合理的分析與構(gòu)想,將每個(gè)系統(tǒng)的能力運(yùn)用范圍擴(kuò)展,融合各個(gè)系統(tǒng)優(yōu)勢(shì),能力互補(bǔ)完善,以下是對(duì)于各系統(tǒng)能力可以擴(kuò)展或吸收部分的分析構(gòu)想。
對(duì)于網(wǎng)絡(luò)不良信息方面系統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)的爬取,目主要是對(duì)網(wǎng)站數(shù)據(jù)的爬取,而當(dāng)前用戶(hù)非?;钴S的各類(lèi)社交軟件、論壇報(bào)道等渠道,沒(méi)有很全面的涉及。互聯(lián)網(wǎng)信息安全處置系統(tǒng)從目前關(guān)鍵詞對(duì)不良信息的覆蓋以及對(duì)網(wǎng)站的爬取范圍來(lái)看,則具有成熟的能力。
一方面可以將這種成熟的能力,通過(guò)擴(kuò)展關(guān)鍵詞庫(kù),或監(jiān)測(cè)更多非運(yùn)營(yíng)商自主撥測(cè)接入的網(wǎng)站,但和運(yùn)營(yíng)商有著很大關(guān)聯(lián)的其他網(wǎng)站等方法,來(lái)提升其他方面對(duì)于網(wǎng)站數(shù)據(jù)的監(jiān)測(cè)。另一方面通過(guò)其他系統(tǒng)擁有的能力擴(kuò)展,使對(duì)于不良信息的處理,不局限于網(wǎng)站數(shù)據(jù),能夠?qū)钴S在網(wǎng)絡(luò)的各種應(yīng)用都能進(jìn)行檢測(cè)監(jiān)控。
通過(guò)對(duì)比分析各系統(tǒng),可以看出對(duì)于網(wǎng)絡(luò)輿情方面數(shù)據(jù),主要依賴(lài)的兩個(gè)系統(tǒng),輿情數(shù)據(jù)目前最有效可靠的是輿情監(jiān)測(cè)系統(tǒng)中對(duì)與微博板塊數(shù)據(jù)的監(jiān)測(cè),對(duì)論壇博客討論數(shù)據(jù)通過(guò)鷹眼系統(tǒng)生成導(dǎo)出。而對(duì)于各網(wǎng)站輿情的監(jiān)控,當(dāng)前更依賴(lài)于人工檢索、篩選及分類(lèi)。通過(guò)鷹眼系統(tǒng)所得數(shù)據(jù)加人工檢索所得數(shù)據(jù),導(dǎo)入輿情監(jiān)測(cè)系統(tǒng)后,使數(shù)據(jù)源較為完整。即對(duì)于網(wǎng)站內(nèi)容的檢索,缺乏一個(gè)完善成熟的爬取能力。
一方面可以將輿情系統(tǒng)對(duì)于微博輿情數(shù)據(jù)的監(jiān)測(cè)情況進(jìn)行分析,監(jiān)測(cè)各微博、微信、公眾號(hào)等社交媒體中公司官方賬號(hào)發(fā)出的文章數(shù)據(jù),避免存在有害信息的情況。另一方面通過(guò)其他系統(tǒng)擁有的能力擴(kuò)展,完善對(duì)于輿情處理的數(shù)據(jù)源,減輕人工工作負(fù)擔(dān),更精確全面。
此類(lèi)系統(tǒng)軟件對(duì)于更側(cè)重于對(duì)指定接入APP以及微信公眾號(hào)內(nèi)容數(shù)據(jù)的監(jiān)測(cè),并沒(méi)有前文所提及的兩個(gè)系統(tǒng)的深度和廣度,對(duì)于大量的數(shù)據(jù)接入爬取和比對(duì)分析,存在運(yùn)算能力上的不足。但此類(lèi)涉及APP內(nèi)容的爬取比對(duì),以及其中對(duì)于圖片視頻的分析能力,可以擴(kuò)展對(duì)不良信息和輿情監(jiān)控的數(shù)據(jù)范圍,分析擴(kuò)大分析的數(shù)據(jù)范圍,對(duì)于指定賬號(hào)數(shù)據(jù),APP的監(jiān)控,可以做到文字?jǐn)?shù)據(jù)、圖片數(shù)據(jù)、視頻數(shù)據(jù)的覆蓋。能夠很好將監(jiān)測(cè)對(duì)象涉及的數(shù)據(jù)盡可能全面的覆蓋分析。
為了對(duì)網(wǎng)絡(luò)中的不良信息和輿情信息進(jìn)行高效的抓取和識(shí)別,建立全面完善的不良信息監(jiān)控系統(tǒng),綜合考慮現(xiàn)有互聯(lián)網(wǎng)信息安全處置、輿情監(jiān)測(cè)等系統(tǒng)的架構(gòu)流程能力,系統(tǒng)內(nèi)的抓取識(shí)別檢測(cè)的技術(shù)指標(biāo)、系統(tǒng)性能、使用范圍等,進(jìn)行統(tǒng)一信息安全監(jiān)測(cè)系統(tǒng)的總體設(shè)計(jì)。在統(tǒng)一信息安全監(jiān)測(cè)系統(tǒng)設(shè)計(jì)中,網(wǎng)絡(luò)上信息數(shù)據(jù)的采集與處理是重點(diǎn)核心,統(tǒng)一信息安全監(jiān)測(cè)系統(tǒng)架構(gòu)的總體設(shè)計(jì)包括從網(wǎng)站、新浪微博、微信公眾號(hào)、論壇博客以及指定APP等數(shù)據(jù)源篩選獲取數(shù)據(jù),對(duì)不良信息和網(wǎng)絡(luò)輿情兩個(gè)方面的數(shù)據(jù)分析。根據(jù)已有的系統(tǒng)技術(shù),對(duì)上述多個(gè)系統(tǒng)能力進(jìn)行參考整合利用,設(shè)計(jì)系統(tǒng)架構(gòu)。統(tǒng)一信息安全監(jiān)測(cè)系統(tǒng)的總體架構(gòu)包括數(shù)據(jù)的采集、預(yù)處理、分析及結(jié)果模塊。
數(shù)據(jù)采集主要是根據(jù)互聯(lián)網(wǎng)信息安全處置系統(tǒng)中對(duì)于網(wǎng)頁(yè)內(nèi)容的爬取、輿情監(jiān)測(cè)系統(tǒng)對(duì)與微博、搜索引擎、論壇等文本數(shù)據(jù)內(nèi)容的獲取。網(wǎng)頁(yè)數(shù)據(jù)爬蟲(chóng)是系統(tǒng)中適應(yīng)部門(mén)要求特定且高效的爬蟲(chóng)工具,也存在很多發(fā)展進(jìn)步的方向可以探討?,F(xiàn)有的系統(tǒng)主要采取關(guān)鍵詞庫(kù)對(duì)比對(duì)的方式來(lái)定位網(wǎng)絡(luò)上的不良信息。
除了現(xiàn)有的處理外,我們可以進(jìn)一步擴(kuò)展目前現(xiàn)有的爬蟲(chóng)能力,不局限運(yùn)營(yíng)商現(xiàn)自主撥號(hào)接入網(wǎng)站,爬取分析更多的相關(guān)網(wǎng)站,設(shè)置不同的關(guān)鍵詞集,根據(jù)不同的數(shù)據(jù)需求進(jìn)行不同的采集分析,例爬取相關(guān)報(bào)道網(wǎng)站對(duì)輿情方向的監(jiān)測(cè)。同時(shí)利用對(duì)指定APP、小程序的爬取和對(duì)于圖片,視頻的數(shù)據(jù)處理分析能力結(jié)合到對(duì)網(wǎng)頁(yè)內(nèi)容的分析,使得能夠盡可能全面且精確得獲取數(shù)據(jù)。
數(shù)據(jù)是后續(xù)處理分析的重要基石,大量爬取的原始數(shù)據(jù)無(wú)法直接使用,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后才能進(jìn)一步分析。對(duì)于數(shù)據(jù)的清洗、轉(zhuǎn)換、特征提取等都是預(yù)處理步驟。數(shù)據(jù)清洗是對(duì)與網(wǎng)頁(yè)上大量重復(fù)或缺失的數(shù)據(jù)進(jìn)行去重處理,數(shù)據(jù)轉(zhuǎn)換是對(duì)爬取出的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行類(lèi)型的轉(zhuǎn)換處理。
針對(duì)輿情處理有時(shí)不僅需要對(duì)數(shù)據(jù)信息進(jìn)行關(guān)鍵詞的匹配定位,還需要對(duì)廣泛的數(shù)據(jù)信息進(jìn)行簡(jiǎn)單的篩選判斷,去除一些重復(fù)性數(shù)據(jù),并進(jìn)行數(shù)據(jù)轉(zhuǎn)換,特征提取。包括對(duì)有害信息的處理,也可以進(jìn)一步對(duì)爬取的數(shù)據(jù)通過(guò)分析對(duì)比,而不僅限與有害網(wǎng)頁(yè)的關(guān)鍵詞匹配等。
數(shù)據(jù)預(yù)處理還包含對(duì)于圖片及視頻方向的數(shù)據(jù)分析,會(huì)先進(jìn)行一些視頻抽幀以及圖片關(guān)鍵信息的提取,以此來(lái)降低分析比對(duì)的運(yùn)算量。
對(duì)于初始比對(duì)匹配的數(shù)據(jù),還需要進(jìn)行分析查驗(yàn),而這一方面現(xiàn)主要通過(guò)人工進(jìn)行審核判斷,最終列出處置清單生成報(bào)表。出于嚴(yán)謹(jǐn)性考慮,不能完全將機(jī)械運(yùn)算分析代替人腦判斷,但可以通過(guò)算法算例,進(jìn)一步分析篩選,減輕人工工作量。
并將最終結(jié)果生成固定格式的表格,方便后續(xù)的處置以及溯源等,形成不良信息的處置閉環(huán)。
除了將現(xiàn)有能力最大化利用之外,本文還對(duì)數(shù)據(jù)處理模塊進(jìn)行了分析,提出一些可以進(jìn)一步提升的設(shè)想。
對(duì)數(shù)據(jù)的分析抓取可以不僅停留在關(guān)鍵詞的匹配比對(duì)上,針對(duì)輿情語(yǔ)義分析以及話題趨勢(shì)的預(yù)測(cè)分析,可以使得在大數(shù)據(jù)的基礎(chǔ)上呈現(xiàn)一個(gè)較為準(zhǔn)確的分析。通過(guò)分詞模塊對(duì)文本數(shù)據(jù)內(nèi)容進(jìn)行分詞,通過(guò)分類(lèi)或者聚類(lèi)分析,對(duì)爬取出的輿情文本進(jìn)行關(guān)鍵詞提取,對(duì)輿情進(jìn)行文本的情感分析和話題歸類(lèi),還可進(jìn)一步對(duì)相關(guān)話題進(jìn)行熱度統(tǒng)計(jì)分析,并提取出關(guān)鍵詞句,更利于人工核驗(yàn)時(shí)能者迅速掌握輿情內(nèi)容,也可針對(duì)每一個(gè)不同的需求進(jìn)行定制,將關(guān)鍵詞庫(kù)模塊化,就可以實(shí)現(xiàn)對(duì)輿情監(jiān)測(cè)分析的產(chǎn)品化。
除此之外還有很多技術(shù)上能夠分析進(jìn)步的方面,如爬蟲(chóng)爬取模式、匹配精確度、圖片深度分析、情感導(dǎo)向分析等方面,這里就不展開(kāi)設(shè)想。建立一個(gè)統(tǒng)一的信息安全監(jiān)測(cè)系統(tǒng),再逐步完善提升能力。
本文結(jié)合了相關(guān)背景要求,結(jié)合需求分析,通過(guò)分析現(xiàn)有對(duì)網(wǎng)絡(luò)信息各監(jiān)測(cè)的系統(tǒng)平臺(tái)能力優(yōu)勢(shì)及側(cè)重方面,將這些系統(tǒng)平臺(tái)的能力相互融合擴(kuò)展,業(yè)務(wù)范圍擴(kuò)大,形成一個(gè)功能全面,數(shù)據(jù)完善,且又具有針對(duì)性的一個(gè)綜合處理系統(tǒng)平臺(tái)。再逐步完善能力,對(duì)于現(xiàn)在網(wǎng)絡(luò)發(fā)展帶來(lái)的重大挑戰(zhàn)做到主動(dòng)適應(yīng)。
[1]鄭燕. 基于增量學(xué)習(xí)的自適應(yīng)話題追蹤技術(shù)研究[D]. 山東師范大學(xué),2013.
[2]胡傳志,程顯毅,曹小峰. 網(wǎng)絡(luò)敏感信息自適應(yīng)多重過(guò)濾模型研究[J]. 計(jì)算機(jī)科學(xué),2015,42(1):272-275.
[3]李可可. 基于 SVM 的微博情感傾向性分析研究[D]. 中原工學(xué)院,2014.
[4]中國(guó)信息通信研究院安全研究所. 人工智能安全白皮書(shū)(2018)[R]. 2018.
[5]宋蕾,馬春光,段廣晗. 機(jī)器學(xué)習(xí)安全及隱私保護(hù)研究進(jìn)展[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào),2018(8).
[6]中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟. 電信網(wǎng)絡(luò)人工智能應(yīng)用白皮書(shū)(2018)[R]. 2018.
[7]CNNIC.CNNIC 發(fā)布第45次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[OL]. http://www.cnnic.net.cn/gywm/xwzx/ rdxw/20172017_7057/ 202004/t20200427_70973.htm.
[8]丁杰,徐俊剛. IPSMS:一個(gè)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2010(4):188-190.
[9]白鶴,湯迪斌,王勁林. 分布式多主題網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程,2009(19):13-16.
[10]周義棋,田向亮,鐘茂華. 基于微博網(wǎng)絡(luò)爬蟲(chóng)的巴黎圣母院大火輿情分析[J]. 武漢理工大學(xué)學(xué)報(bào):信息與管理工程版,2019(5):461-466.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年5期