• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于TF—IDF改進聚類算法的網(wǎng)絡敏感信息挖掘

      2015-04-12 00:00:00孟彩霞陳紅玉
      現(xiàn)代電子技術 2015年24期

      摘 要: 網(wǎng)絡敏感信息挖掘過程中,敏感信息和正常信息的特征不同,具有較高的遮蔽性。利用傳統(tǒng)敏感信息挖掘方法時,固有的敏感信息被遮蔽,無法進行敏感信息的準確挖掘。提出基于TF?IDF改進聚類算法的網(wǎng)絡敏感信息挖掘方法,通過TF?IDF方法獲取網(wǎng)絡敏感信息文本,在網(wǎng)絡敏感信息文本中獲取有價值的敏感信息特征,采用該信息完成聚類算法,對全部敏感信息特征進行聚類分析,完成網(wǎng)絡敏感信息的挖掘。實驗結果說明,所提方法進行網(wǎng)絡敏感信息挖掘,具有較高的挖掘效率和精度。

      關鍵詞: TF?IDF; 聚類分析; 網(wǎng)絡敏感信息; 信息挖掘

      中圖分類號: TN911?34; TP33 文獻標識碼: A 文章編號: 1004?373X(2015)24?0044?03

      Objectionable internet information excavation performed by improved clustering algorithm based on TF?IDF

      MENG Caixia, CHEN Hongyu

      (Public security technology department, Railway Police College, Zhengzhou 450053, China)

      Abstract: In the mining process of objectionable Internet information, the sensitive information is different from normal information and has high shadowing property. When the traditional method is taken to excavate the sensitive information, the sensitive information can not be mined accurately because the inherent sensitive information is obscured. The objectionable Internet information excavation algorithm is proposed, in which clustering algorithm is improved on the basis of TF?IDF. It uses TF?IDF algorithm to obtain objectionable Internet informative text, in which valuable features of the sensitive information are got. This information is used to complete the clustering algorithm, and all the sensitive information features are clustered and analyzed, so that the network sensitive information is mined completely. The experimental results show that the proposed method has high efficiency and precision for objectionable network information excavation.

      Keywords: TF?IDF; clustering analysis; sensitive network information; information mining

      0 引 言

      隨著網(wǎng)絡技術的發(fā)展以及互聯(lián)網(wǎng)用戶的不斷增加,使得互聯(lián)網(wǎng)成為一種重要的交流渠道,其存儲和傳輸?shù)男畔?,特別是敏感話題,在很大程度上反映了社會不同領域和人們關注的熱點[1?3]。這些敏感信息對大眾輿論形成和傳播具有重要作用,同時也存在一定的潛在安全威脅。因此,分析如何及時挖掘網(wǎng)絡上的敏感信息,并對其采取有效的解決措施,成為相關部門分析的熱點方向[4?6]。

      當前主流的網(wǎng)絡中敏感信息挖掘方法主要有基于BP神經(jīng)網(wǎng)絡的網(wǎng)絡敏感信息挖掘方法、基于主元分析的網(wǎng)絡敏感信息挖掘方法和基于關聯(lián)規(guī)則算法的網(wǎng)絡敏感信息挖掘方法。網(wǎng)絡敏感信息在挖掘過程中,敏感信息與正常信息的特征不同,具有較高的遮蔽性。而利用上述分析的幾種傳統(tǒng)網(wǎng)絡敏感信息挖掘方法時,存在固有的敏感信息被遮蔽問題,無法對敏感信息進行準確的挖掘[7?10]。

      基于上述分析的問題,提出了基于TF?IDF改進聚類算法的網(wǎng)絡敏感信息挖掘方法,通過TF?IDF方法獲取網(wǎng)絡敏感信息文本,在網(wǎng)絡敏感信息文本中獲取有價值的敏感信息特征,采用聚類算法,對全部敏感信息特征進行聚類分析,完成網(wǎng)絡敏感信息的挖掘。實驗結果說明,所提方法進行網(wǎng)絡敏感信息挖掘,具有較高的挖掘效率和精度。

      1 基于TF?IDF和聚類算法的網(wǎng)絡敏感信息

      挖掘方法

      1.1 網(wǎng)絡敏感信息文本獲取

      通常采用TF?IDF方法提取網(wǎng)絡敏感信息文本。通過對比網(wǎng)絡敏感信息詞頻的高低,采集出網(wǎng)絡信息內(nèi)容中的高詞頻詞元,進而得到網(wǎng)絡敏感信息文本。TF?IDF方法的主要思想是:若某個詞或短語在一篇文章中產(chǎn)生的頻率TF高,且在其他文章中很少出現(xiàn),則說明該詞或短語具有很好的類別區(qū)分能力,可用于分類。TF?IDF是TF詞頻(Term Frequency),IDF反文檔頻率(Inverse Document Frequency)。TF表示敏感字在文檔d中產(chǎn)生的頻率。IDF的主要思想為:若含有敏感字t的文檔越少,即n越小,IDF越大,則說明敏感字具有很好的類別區(qū)分能力。采用TF?IDF方法獲取網(wǎng)絡敏感信息文本的過程如下:

      [Wij=TFij×IDFi] (1)

      [TFij=FijmaxFkjk=(1,2,...,T)] (2)

      [IDFi=logNnj] (3)

      式中:[Wij]表示在文檔[dj]中,敏感字[ki]所占的比重,也就是獲取的網(wǎng)絡敏感信息文本;[Fij]表示敏感字[ki]在文檔[dj]中出現(xiàn)的頻率,文檔[dj]中包含T個關鍵字;N表示文檔總數(shù);[nj]表示包含敏感字[ki]的文檔總數(shù)。

      1.2 采集網(wǎng)絡敏感信息特征

      通過上述分析的基于TF?IDF方法獲取網(wǎng)絡信息文本[Wij]后,應選擇具有代表性的敏感信息特征。采用式(4)運算敏感信息的特征數(shù)量:

      [ynml=Wij?vhml?log(Qql+0.01)?KIll=1r(hml?log(Q/ql+0.01)?KIl)2] (4)

      式中:[Wij]表示網(wǎng)絡敏感信息文本;[vhml]表示敏感信息在所有網(wǎng)絡信息中的比例;Q表示所有網(wǎng)絡信息中的敏感信息特征數(shù)量;n表示敏感信息數(shù)量;m表示所有網(wǎng)絡信息數(shù)量;l表示敏感信息特征參數(shù);v表示敏感信息權重;KI表示設定的閾值。

      采集網(wǎng)絡中敏感信息特征的詳細過程為:

      (1) 將任意一個屬性的敏感信息特征當成聚類中心;

      (2) 運算網(wǎng)絡中不同屬性的敏感信息間的相似程度;

      (3) 若不同屬性的敏感信息特征間的相似程度低于設定的閾值,則對聚類中心進行調(diào)整,否則,保留該敏感信息特征;

      (4) 對所有網(wǎng)絡敏感信息特征執(zhí)行過程(2)和過程(3);

      (5) 通過下述公式實現(xiàn)敏感信息特征的交叉處理,最終采集到網(wǎng)絡敏感信息特征,如式(5)所示:

      [C(v)=ynml×r[v]×r∈Er[ev]×logr[ev]r[e]] (5)

      式中:[ynml]表示敏感信息的特征數(shù)量;r表示敏感信息特征參數(shù)數(shù)量;v表示敏感信息的權重;e表示敏感信息的相似度。

      通過上述方法,可采集到敏感信息文本中的敏感信息特征,為敏感信息挖掘提供可靠的依據(jù)。

      1.3 實現(xiàn)網(wǎng)絡敏感信息的挖掘

      上述分析方法獲取的網(wǎng)絡敏感信息特征C(v)可用[Ckl]描述,在該集合中,[k=1,2,…,q],[l=1,2,…,r]。在上述集合中隨機選擇一個敏感信息特征[ckl],其對應的特征值如式(6)所示:

      [C=c11 c12 ... c1rc21 c22 ... c2r ? ? ? ?cq1 cq2 ... cqr] (6)

      在上述網(wǎng)絡敏感信息特征中,采集q個樣本,并設置成聚類中心。挖掘網(wǎng)絡敏感信息時,應設置合理的閾值,基于聚類結果,完成網(wǎng)絡敏感信息的挖掘。詳細的過程如下:

      設置[bkl(k=1,2,…,q, l=1,2,…,r)]表示網(wǎng)絡中敏感信息第k個聚類中心第1個特征參數(shù)。通過式(7)得到敏感信息的特征隸屬度:

      [igkl(n)=Ceekl(n)p] (7)

      式中:C表示網(wǎng)絡敏感信息特征值;p表示網(wǎng)絡信息數(shù)量的上限;e表示網(wǎng)絡中不同屬性的敏感信息間的相似度。

      通過式(8)得到敏感信息特征間的歐氏距離:

      [disk(n)=igkl(n)l=1r(bkl-blm)2] (8)

      通過式(9)獲取敏感信息同正常信息間的距離極大值:

      [umax=0.5×k=1qn=1qdisk(n)q×q] (9)

      則通過式(10)得到網(wǎng)絡敏感信息挖掘的聚類中心,實現(xiàn)網(wǎng)絡敏感信息的挖掘:

      [bml=m=1pbkl(mn)umaxp] (10)

      式中:p表示網(wǎng)絡信息數(shù)量上限;n表示敏感信息數(shù)量;m表示所有網(wǎng)絡信息數(shù)量。

      通過上述分析的方法,可在網(wǎng)絡敏感信息文本中采集有價值的敏感信息特征,為敏感信息挖掘提供有效的分析依據(jù)。通過聚類算法對全部的敏感信息特征進行聚類操作,完成網(wǎng)絡敏感信息的挖掘。

      2 實驗分析

      2.1 語料庫

      通過云蛛網(wǎng)絡信息獲取云服務平臺采集實際檢測網(wǎng)絡敏感數(shù)據(jù),并對數(shù)據(jù)進行人工處理,采集400篇敏感文本,400篇正常文本。其中與“留守兒童”有關的正常文115,敏感文本255篇;與“邪教”有關的正常文本104篇,敏感文本136篇;與“暴恐”有關的正常文本65篇,敏感文本114篇;與“竊聽”有關的正常文本163篇,敏感文本54篇;各類有交叉。實驗過程中,對某一類選擇其中[23]篇當成訓練集,[13]當成測試集。

      2.2 評價標準

      網(wǎng)絡敏感信息挖掘的評估標準是通過實驗采集數(shù)據(jù)完成評判的,評估標準對網(wǎng)絡敏感信息挖掘準確性具有較高的影響作用。本文實驗使用的挖掘評估指標主要有準確率、誤判率以及召回率,采用如下方法對各指標進行定義,如表1所示。

      表1 分類評價指標參數(shù)

      通過表1可得出以下基本結論:

      網(wǎng)頁文本總數(shù)為:n=a+b+c+d;正常文本總數(shù)為:a+c;敏感網(wǎng)頁文本總數(shù):b+d。

      敏感文本準確率:P敏感=[db+d×100%]。

      正常文本準確率:P正常=[aa+c×100%]。

      敏感文本誤判率:E敏感=[cc+d×100%]。

      正常文本誤判率:E正常=[ba+b×100%]。

      敏感文本召回率:R敏感=[dc+d×100%]。

      正常文本召回率:R正常=[aa+b×100%]。

      召回率不考慮誤判對網(wǎng)絡敏感信息挖掘帶來的影響,也就是說當誤判率很高時,召回率的值也會很大。通常正確率提高,召回率會相應的降低,反之召回率提高,正確率就會降低。因此應通過一個平衡值,確保召回率和正確率處于一個合理的區(qū)間內(nèi),用[F=2×R×PR+P]描述。

      2.3 實驗結果及分析

      采用本文方法對實驗敏感文本信息進行挖掘分析,結果用表2描述。

      表2 利用本文方法的敏感信息挖掘結果 %

      采用傳統(tǒng)方法對實驗網(wǎng)絡敏感信息進行挖掘,結果用表3描述。因為文檔集各類間存在一定的關聯(lián)性,因此所以實驗主要分析敏感文本和正常文本。

      表3 采用傳統(tǒng)BP神經(jīng)網(wǎng)絡方法的網(wǎng)絡敏感信息挖掘結果

      分析表2可得本文方法對“暴恐,邪教”的網(wǎng)絡敏感信息挖掘效果優(yōu)于“留守兒童,竊聽”,這還是符合客觀實際情況的,因為“暴恐,邪教”的敏感度高于“留守兒童,竊聽”的敏感度。說明本文提出的敏感信息挖掘方法實用性較強。

      對比分析表2和表3可得,采用傳統(tǒng)BP神經(jīng)網(wǎng)絡方法的網(wǎng)絡敏感信息挖掘準確率低于本文方法,主要是因為敏感信息同正常信息的特征不同,具有較高的遮蔽性。利用傳統(tǒng)敏感信息挖掘方法時,固有的敏感信息被遮蔽,無法進行敏感信息的準確挖掘。而本文方法通過TF?IDF獲取網(wǎng)絡敏感信息文本后,在網(wǎng)絡信息文本中獲取有價值的敏感信息特征,極大地提高了網(wǎng)絡敏感信息挖掘的準確率。

      3 結 語

      本文提出了基于TF?IDF和聚類算法的網(wǎng)絡敏感信息挖掘方法,通過TF?IDF獲取網(wǎng)絡敏感信息文本,在網(wǎng)絡信息中獲取有價值的敏感信息特征,采用聚類算法,對全部敏感信息特征進行聚類分析,完成網(wǎng)絡敏感信息的挖掘。實驗結果說明,所提方法進行網(wǎng)絡敏感信息挖掘,具有較高的挖掘效率和精度。

      參考文獻

      [1] WANG X B, FU M Y, ZHANG H S, et al. Target tracking in wireless sensor networks based on the combination of KF and MLE using distance measurements [J]. IEEE Transactions on Mobile Computing, 2012, 11(4): 567?576.

      [2] EKANAYAKE J, LI H, ZHANG B, ET AL. Twister: a runtime for iterative MapReduce [C]∥Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing. ACM: [s.n.], 2013: 810?818.

      [3] HE B, FANG W, LUO Q, et al. Mars: a MapReduce framework on graphics processors [C]// Proceedings of the 17th international conference on Parallel architectures and compilation techniques. ACM: [s.n.], 2014: 260?269.

      [4] 章武媚,陳慶章.引入偏移量遞階控制的網(wǎng)絡入侵HHT檢測挖掘算法[J].計算機科學,2014,41(12):107?111.

      [5] KANG L Y, WANG X Y, BAI R J. Analysis of MapReduce principle and its main implementation platforms [J]. New Technology of Library and Information Service, 2014, 55(2): 60?67.

      [6] 饒雨泰,楊凡.網(wǎng)絡入侵攪動下的網(wǎng)絡失穩(wěn)控制方法研究[J].科技通報,2014,30(1):185?188.

      [7] 肖金超,曾鵬,何杰,等.基于傳感器網(wǎng)絡的多信道定位挖掘技術[J].信息與控制,2015,44(3):44?46.

      [8] THUSOO A, SARMA J S, JAIN N, et al. Hive: a warehousing solution over a map?reduce framework [J]. Proceedings of the VLDB Endowment, 2013, 2(2): 1626?1629.

      [9] 侯森,羅興國,宋克.基于信息源聚類的最大熵加權信任分析挖掘算法[J].電子學報,2013,43(5):993?999.

      [10] ABOUZEID A, BAJDA?PAWLIKOWSKI K, ABADI D, et al. HadoopDB: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads [J]. Proceedings of the VLDB Endowment, 2014, 2(1): 922?933.

      连云港市| 仁怀市| 夏津县| 项城市| 武安市| 新绛县| 陆河县| 西林县| 永登县| 循化| 巩留县| 英山县| 沈阳市| 上高县| 河北省| 陆河县| 盖州市| 大同县| 长葛市| 卢氏县| 古交市| 南汇区| 内乡县| 肃宁县| 安阳市| 丰都县| 井冈山市| 武川县| 琼结县| 东方市| 安吉县| 中宁县| 丰都县| 金昌市| 临高县| 宁河县| 万安县| 城口县| 时尚| 镇沅| 瑞昌市|