• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      開放網(wǎng)絡(luò)環(huán)境下不良信息的識(shí)別

      2017-04-23 00:54:20彭梅
      電子技術(shù)與軟件工程 2017年5期
      關(guān)鍵詞:數(shù)據(jù)挖掘互聯(lián)網(wǎng)

      彭梅

      摘 要 開放的互聯(lián)網(wǎng)可以為人們提供智能旅游、在線學(xué)習(xí)、電子商務(wù)、電子政務(wù)、金融證券等渠道,有效地實(shí)現(xiàn)了信息的傳輸和共享,被越來越多的人所關(guān)注和使用。但是,互聯(lián)網(wǎng)在為人們提供便捷信息傳輸?shù)耐瑫r(shí),也潛在帶來了許多的危害,比如淫穢色情信息、病毒木馬信息、暴力反動(dòng)信息等,這些信息將會(huì)影響青少年的健康成長,也會(huì)破壞社會(huì)的良好秩序,甚至一些言論會(huì)危害到國家政府的安全,因此開放網(wǎng)絡(luò)環(huán)境下快速的、準(zhǔn)確的識(shí)別和定位不良信息已經(jīng)成為網(wǎng)絡(luò)輿情監(jiān)控管理部門、科研院所的研究熱點(diǎn)。本文詳細(xì)地分析了開放網(wǎng)絡(luò)環(huán)境下不良信息的識(shí)別研究現(xiàn)狀,歸納了常用的不良信息識(shí)別算法,包括譜聚類算法、神經(jīng)網(wǎng)路算法、信息論算法和K均值算法,同時(shí)針對(duì)K均值算法進(jìn)行深入研究,提出了一個(gè)模糊K均值算法,以便能夠更加準(zhǔn)確的識(shí)別不良信息,準(zhǔn)確的獲取信息內(nèi)容。

      【關(guān)鍵詞】互聯(lián)網(wǎng) 不良信息 數(shù)據(jù)挖掘 K均值

      1 引言

      隨著移動(dòng)通信、光纖通信等技術(shù)的快速發(fā)展,促進(jìn)人們進(jìn)入到“互聯(lián)網(wǎng)+”時(shí)代,也使得人們的言論、行為更加開發(fā)和自由?;ヂ?lián)網(wǎng)是一個(gè)擁有數(shù)億網(wǎng)民的精神、文化、工作和生活家園,也是人們信息傳輸、分享的重要途徑,方便快速的互聯(lián)網(wǎng)平臺(tái)可以幫助人們實(shí)現(xiàn)各類信息的獲取。因此,開放環(huán)境下,網(wǎng)絡(luò)具有覆蓋范圍廣、用戶數(shù)量多、使用開銷低和發(fā)展前景好等各種優(yōu)點(diǎn),其在為人們提供優(yōu)良信息的同時(shí),互聯(lián)網(wǎng)也逐漸成為不法分子散布反動(dòng)、色情、暴力等不良信息的主要途徑,并且這些不良信息的傳播趨勢呈現(xiàn)出智能化、隱蔽化、迅速化等新型特點(diǎn)。據(jù)《國家互聯(lián)網(wǎng)管理辦公室》統(tǒng)計(jì)發(fā)布信息顯示,互聯(lián)網(wǎng)上的色情網(wǎng)站高達(dá)數(shù)百萬個(gè),并且網(wǎng)站的數(shù)量每天都在增長,誘發(fā)了更多的社會(huì)問題,對(duì)于自控能力相對(duì)薄弱的青少年來講,這些不良信息的危害非常嚴(yán)重,導(dǎo)致花季、雨季少年不能夠生活在一個(gè)健康的社會(huì)環(huán)境中。360網(wǎng)絡(luò)安全管理公司統(tǒng)計(jì)報(bào)告顯示,垃圾郵件是一種毫無價(jià)值信息的文件,其在嚴(yán)重干擾用戶對(duì)互聯(lián)網(wǎng)信息的應(yīng)用需求同時(shí)還攜帶了較多木馬和病毒,這些攻擊信息可以獲取人們的隱私信息,許多公司、個(gè)人為遏制垃圾郵件的傳播付出了非常高的代價(jià),每年都需要花費(fèi)數(shù)億元人民幣。因此,網(wǎng)絡(luò)上傳播的不良信息即可以危害人們的健康成長,同時(shí)也可以破壞社會(huì)的穩(wěn)定秩序,甚至危害國家的安全,構(gòu)建一個(gè)實(shí)時(shí)性、穩(wěn)定性、可靠性較強(qiáng)的不良信息識(shí)別算法或系統(tǒng)具有重要的作用和意義,也逐漸成為政府機(jī)關(guān)或科研機(jī)構(gòu)的研究熱點(diǎn)。

      不良信息識(shí)別是指利用先進(jìn)的模式識(shí)別、機(jī)器學(xué)習(xí)技術(shù)構(gòu)建一個(gè)學(xué)習(xí)器,同時(shí)利用學(xué)習(xí)器針對(duì)數(shù)據(jù)內(nèi)容進(jìn)行分析,可以尋找隱藏的不良信息內(nèi)容。不良信息識(shí)別操作模型主要有兩類,一種是描述型模型,另外一種是預(yù)測型。描述型的不良信息識(shí)別模型可以針對(duì)網(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行相關(guān)性分析,這樣就可以識(shí)別不良信息相關(guān)內(nèi)容;預(yù)測模型可以利用已經(jīng)獲取的不良信息特征進(jìn)行預(yù)測和推斷,從而可以獲取不良信息。

      2 開放網(wǎng)絡(luò)環(huán)境下不良信息識(shí)別研究現(xiàn)狀

      目前,經(jīng)過多年的研究和識(shí)別,不良信息識(shí)別算法包括基于模板的不良信息識(shí)別方法、基于統(tǒng)計(jì)的不良信息識(shí)別方法和基于分塊的不良信息識(shí)別方法。

      2.1 基于模板的網(wǎng)絡(luò)不良信息識(shí)別方法

      網(wǎng)絡(luò)不良信息識(shí)別過程中,為了提高識(shí)別實(shí)時(shí)性和迅速性,可以構(gòu)建一個(gè)模板,比如路徑抽取模板Xpath,能夠獲取網(wǎng)絡(luò)信息資源。采用模板的網(wǎng)絡(luò)不良信息識(shí)別算法最為耗費(fèi)精力的就是制作和分析模板,這個(gè)過程非常的繁瑣和復(fù)雜,一旦網(wǎng)絡(luò)信息的結(jié)構(gòu)發(fā)生了相關(guān)的變化,因此就需要重新構(gòu)建一個(gè)網(wǎng)絡(luò)不良信息識(shí)別模板,需要花費(fèi)較多的時(shí)間和成本,因此構(gòu)建一個(gè)高效處理的網(wǎng)絡(luò)不良信息識(shí)別模板已經(jīng)吸引了很多的人的研究。李強(qiáng)等人開發(fā)了一個(gè)強(qiáng)大的工具WIEN(Wrapper Induction Enviroment),可以增強(qiáng)網(wǎng)絡(luò)不良信息識(shí)別效率,該工具適用范圍比較廣泛,能夠處理所有的HTML網(wǎng)絡(luò)文檔數(shù)據(jù),并且還可以處理HLRT網(wǎng)絡(luò)文檔數(shù)據(jù),準(zhǔn)確區(qū)分包含很多起止分隔符、左右分隔符,提取相關(guān)的不良信息實(shí)體。王亞飛等人開發(fā)了一個(gè)功能強(qiáng)大的網(wǎng)絡(luò)不良信息識(shí)別工具TSIMMIS,其能夠自動(dòng)生成一個(gè)網(wǎng)絡(luò)不良信息識(shí)別規(guī)則,這個(gè)工具在使用過程中需要專業(yè)的人員進(jìn)行操作和維護(hù),因此如果應(yīng)用背景較少,不能準(zhǔn)確的的設(shè)計(jì)不良信息處理規(guī)則。徐根茂等人采用強(qiáng)大的C#程序開發(fā)可視化的網(wǎng)絡(luò)不良信息識(shí)別系統(tǒng)運(yùn)行界面,可以更加完善和方便的設(shè)計(jì)程序開發(fā)規(guī)則,能夠最終形成一個(gè)網(wǎng)絡(luò)不良信息識(shí)別模板。

      2.2 基于統(tǒng)計(jì)的不良信息識(shí)別方法

      基于統(tǒng)計(jì)的不良信息識(shí)別方法可以使用統(tǒng)計(jì)學(xué)、概率論等數(shù)學(xué)知識(shí)針對(duì)網(wǎng)絡(luò)文檔中出現(xiàn)的詞語進(jìn)行統(tǒng)計(jì)和分析,生成一個(gè)網(wǎng)絡(luò)用語密度矩陣,以便能夠?qū)⒕W(wǎng)絡(luò)中積極信息、不良信息的詞語進(jìn)行劃分,獲取不良信息的內(nèi)容。基于統(tǒng)計(jì)的不良信息識(shí)別方法可以有效的解決模板方法存在的問題,其不需要構(gòu)建一個(gè)識(shí)別模板,僅僅需要構(gòu)建一個(gè)不良信息詞庫即可,具有更強(qiáng)的自適應(yīng)性和可操作性,但是對(duì)于不同類型的、中性的網(wǎng)絡(luò)信息識(shí)別準(zhǔn)確度較低,存在較大的差異。余世文等人針對(duì)中文格式的網(wǎng)站新聞內(nèi)容進(jìn)行統(tǒng)計(jì)和分析,可以預(yù)先的互聯(lián)網(wǎng)正文中的詞語內(nèi)容進(jìn)行分析,針對(duì)位于Table節(jié)點(diǎn)內(nèi)部的詞語建立一個(gè)DOM樹形架構(gòu)模式,這樣就可以更好地刪除網(wǎng)絡(luò)文檔數(shù)據(jù)中的腳本文件、風(fēng)格文件、注釋文件等內(nèi)容,并且針對(duì)獲取的Table節(jié)點(diǎn)文件中的標(biāo)簽,將這些標(biāo)簽刪除,同時(shí)可以有效的統(tǒng)計(jì)表格中所有的文本字詞的數(shù)量,可以更加有效地結(jié)合中文網(wǎng)頁內(nèi)容的關(guān)鍵特征,克服傳統(tǒng)的模板難以創(chuàng)建和設(shè)計(jì)的缺陷。

      2.3 基于分塊的不良信息識(shí)別方法

      基于分塊的不良信息識(shí)別方法可以將相關(guān)的網(wǎng)絡(luò)內(nèi)容劃分為多個(gè)子塊,這些子塊之間可以包含許多的正文語義信息內(nèi)容,利用遞歸的操作模式分析每一個(gè)模塊中的不良信息內(nèi)容,最后可以將這些內(nèi)容集成在一起,形成一個(gè)不良信息識(shí)別結(jié)果。董耀光等人分析了普通不良信息識(shí)別算法存在許多的問題,比如通用性不強(qiáng)、模板難以構(gòu)造和維護(hù)等,提出了一種基于網(wǎng)絡(luò)文檔行塊分布的算法,其可以搜索網(wǎng)絡(luò)中文檔用語的相關(guān)字詞資源,將大塊的網(wǎng)絡(luò)內(nèi)容進(jìn)行劃分,接著可以針對(duì)每一個(gè)模塊繼續(xù)進(jìn)行劃分,并發(fā)處理每一個(gè)模塊中的不良信息,這樣就可以提高識(shí)別速度和效率,在更短時(shí)間內(nèi)完成不良信息識(shí)別和處理。吳敏等人經(jīng)過認(rèn)證和分析,認(rèn)為網(wǎng)絡(luò)不良信息識(shí)別處理過程中,可以根據(jù)文本的長度和密度進(jìn)行分塊,這樣就可以利用最小的單個(gè)字詞為原始節(jié)點(diǎn),實(shí)現(xiàn)每一個(gè)字詞的情感分析,發(fā)現(xiàn)這些字詞是不良信息或健康信息,能夠利用字詞包含的信息量降低識(shí)別復(fù)雜度,從時(shí)間和空間上提高算法識(shí)別效率。李瑞民等人提出了一個(gè)TVPS網(wǎng)絡(luò)不良信息識(shí)別的分塊模式,根據(jù)網(wǎng)絡(luò)文檔資源分塊模式和索引模塊進(jìn)行處理,按照網(wǎng)絡(luò)文檔數(shù)據(jù)資源實(shí)現(xiàn)信息標(biāo)題的模式處理和分析,采用DOM樹結(jié)構(gòu)中保存的表格針對(duì)標(biāo)簽進(jìn)行處理,將所有標(biāo)簽合并成一個(gè)大型標(biāo)簽集合,這樣就可以將所有的節(jié)點(diǎn)進(jìn)行不良信息處理和分析,能夠根據(jù)網(wǎng)絡(luò)不良信息資源進(jìn)行分塊處理,具有重要的作用和意義。

      3 基于K-均值的不良信息識(shí)別算法研究

      K均值一種無監(jiān)督學(xué)習(xí)算法,其可以將網(wǎng)絡(luò)上的數(shù)以億計(jì)不良信息劃分為N個(gè)簇,每一個(gè)簇都包含一個(gè)簇心,用戶輸入相關(guān)的信息之后,可以計(jì)算該不良信息與N個(gè)簇心得距離,選擇一個(gè)距離最近的簇與不良信息合并到一起。K均值經(jīng)過多年的應(yīng)用,在不良信息挖掘中得到了極大的改進(jìn),比如引入模糊數(shù)學(xué)理論優(yōu)化目標(biāo)函數(shù),提出了模糊K均值算法,將硬劃分模式改為軟劃分,這樣就可以更加準(zhǔn)確的劃分文本類別;引入模擬退火思想,可以自行向下將所有的不良信息進(jìn)行劃分,利用層次分析模式,構(gòu)建一個(gè)樹型不良信息識(shí)別結(jié)構(gòu),具有重要的作用。

      不良信息識(shí)別過程中,K均值算法首先將復(fù)雜的不良信息建模為一個(gè)矩陣S,假設(shè)該矩陣包括了h個(gè)不良信息,首先初始化矩陣S的m個(gè)特征值為不良信息的核心節(jié)點(diǎn),也即是聚類中心,則h個(gè)不良信息的K均值算法矩陣如公式(1)所示:

      其中,Sih表示類別h指標(biāo)i的歸一化特征值,0≤Sih≤1。

      在K均值算法聚類執(zhí)行過程中,可以設(shè)置不同的特征權(quán)重,一般能夠優(yōu)化突出較為重要的特征貢獻(xiàn),特征權(quán)重向量如公式(2)所示:

      通過分析,K均值算法聚類的目標(biāo)函數(shù)如公式(3)所示:

      在復(fù)雜的網(wǎng)絡(luò)不良信息識(shí)別過程中,K均值算法可以迭代執(zhí)行,直到獲取最優(yōu)解或次優(yōu)解,滿足人們的需求。為了驗(yàn)證本文算法的有效性,本文針對(duì)1500個(gè)網(wǎng)頁進(jìn)行不良信息識(shí)別,并且與已經(jīng)標(biāo)注好的不良信息識(shí)別標(biāo)注進(jìn)行比較,同時(shí)與遺傳算法和支持向量機(jī)算法進(jìn)行比較,發(fā)現(xiàn)本文采用的K均值算法不良信息識(shí)別準(zhǔn)確度最高。通常情況下,不良信息識(shí)別采用準(zhǔn)確度作為算法評(píng)價(jià)運(yùn)行結(jié)果的標(biāo)準(zhǔn),算法運(yùn)行結(jié)果準(zhǔn)確度評(píng)價(jià)公示如公式4所示。

      其中,t∈T,其可以描述相關(guān)的數(shù)據(jù)對(duì)象;c∈C,其可以描述相關(guān)的類別號(hào)或簇標(biāo)號(hào);A1(c,T)可以描述相關(guān)的已經(jīng)正確分配到c中的文檔或元組的數(shù)量;A2(c,T)可以描述相關(guān)的算法不正確的分配到c中的文檔或元組的數(shù)量;A3(c,T)可以描述相關(guān)的不正確的沒有分配到c中的文檔或元組的數(shù)量。通過觀察可以得知,在1500個(gè)網(wǎng)頁不良信息識(shí)別數(shù)據(jù)集上,本文算法可以很好地發(fā)現(xiàn)不良信息,準(zhǔn)確度更高。算法運(yùn)行結(jié)果如表1所示。

      4 結(jié)束語

      隨著互聯(lián)網(wǎng)的發(fā)展和普及,互聯(lián)網(wǎng)傳播的信息渠道、速度更快,因此構(gòu)建一個(gè)完善的不良信息識(shí)別系統(tǒng),可以更好地提高互聯(lián)網(wǎng)監(jiān)控能力。目前,不良信息識(shí)別方法經(jīng)過多年的研究和發(fā)展,已經(jīng)引入了許多先進(jìn)的方法,最為顯著的方法就是利用數(shù)據(jù)挖掘方法進(jìn)行分析和識(shí)別,比如聚類算法、信息論算法、支持向量機(jī)算法、BP神經(jīng)網(wǎng)絡(luò)算法和K均值算法,這些算法可以將不良信息從海量的數(shù)據(jù)中準(zhǔn)確的識(shí)別出來,具有重要的作用和意義。

      參考文獻(xiàn)

      [1]鄧東豐,魏薇.基于免疫原理的網(wǎng)絡(luò)不良信息識(shí)別方法[J].現(xiàn)代電信科技,2014,11(09):52-58.

      [2]劉劍,呂國瑛,孫迦.基于語義識(shí)別的不良傾向性信息過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2012,12(10):13-16.

      [3]俞浩亮,王秋森,馮旭鵬,等.基于特征加權(quán)的網(wǎng)絡(luò)不良內(nèi)容識(shí)別方法[J].現(xiàn)代電子技術(shù),2016,458(03):76-79.

      [4]崔鵬飛,裘玥,孫瑞.面向網(wǎng)絡(luò)內(nèi)容安全的圖像識(shí)別技術(shù)研究[J].信息網(wǎng)絡(luò)安全,2015,11(09):154-157.

      [5]李勇明,陳勃翰,王品.采用基于密度加權(quán)和偏好信息的K均值聚類的胸阻抗信號(hào)自動(dòng)檢測算法[J].電子與信息學(xué)報(bào),2015,37(04):824-829.

      [6]許爽,葉愷,畢新煕.基于關(guān)鍵路徑優(yōu)化交叉遺傳算法的掌紋識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(07):195-197.

      [7]紀(jì)凱,韓棟.基于支持向量機(jī)的信息檢索方法研究[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2014,30(04):82-84.

      猜你喜歡
      數(shù)據(jù)挖掘互聯(lián)網(wǎng)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      “互聯(lián)網(wǎng)+”環(huán)境之下的著作權(quán)保護(hù)
      今傳媒(2016年9期)2016-10-15 22:15:57
      “互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
      今傳媒(2016年9期)2016-10-15 22:06:04
      互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
      考試周刊(2016年79期)2016-10-13 23:23:28
      以高品質(zhì)對(duì)農(nóng)節(jié)目助力打贏脫貧攻堅(jiān)戰(zhàn)
      中國記者(2016年6期)2016-08-26 12:52:41
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      永川市| 长春市| 汶川县| 泰宁县| 进贤县| 筠连县| 呼图壁县| 桦甸市| 黄冈市| 贵南县| 长葛市| 西宁市| 陕西省| 麻栗坡县| 秦皇岛市| 玛曲县| 营口市| 南涧| 璧山县| 五常市| 白河县| 石泉县| 万源市| 上蔡县| 云阳县| 扎兰屯市| 若尔盖县| 仁怀市| 沭阳县| 长宁区| 平原县| 兴山县| 宾阳县| 桦甸市| 建水县| 冕宁县| 本溪市| 察哈| 侯马市| 尼木县| 台北市|