• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      手機(jī)取證的中文短文本分類方法

      2019-12-19 02:05:49徐紅劉衍
      科技創(chuàng)新與應(yīng)用 2019年35期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

      徐紅 劉衍

      摘 ?要:手機(jī)取證是打擊利用手機(jī)犯罪的重要手段,手機(jī)取證面對(duì)的主要技術(shù)問題之一是中文短文本分類。文章研究手機(jī)取證的中文短文本分類,簡(jiǎn)析文本分類的流程,探討改進(jìn)普通文本分類技術(shù)以適應(yīng)中文短文本分類的需求,以及將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類器的設(shè)計(jì)方法。

      關(guān)鍵詞:手機(jī)取證;中文短文本分類;神經(jīng)網(wǎng)絡(luò)

      中圖分類號(hào):TP391 ? ? ? ? 文獻(xiàn)標(biāo)志碼:A ? ? ? ? ? ? ?文章編號(hào):2095-2945(2019)35-0134-02

      Abstract: Mobile phone forensics is an important means to combat the use of mobile phone crime. One of the main technical problems of mobile phone forensics is Chinese short text classification. This paper studies the Chinese short text classification of mobile phone forensics, briefly analyzes the process of text classification, discusses the improvement of common text classification technology to meet the needs of Chinese short text classification, and applies BP neural network to the design method of text classifier.

      Keywords: mobile phone forensics; Chinese short text classification; neural network

      1 概述

      最近幾年,伴隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,智能手機(jī)在我國得到了極大的普及。據(jù)統(tǒng)計(jì)顯示,2018年我國的智能手機(jī)用戶數(shù)量已達(dá)到了13億。與此同時(shí),手機(jī)廠商和移動(dòng)應(yīng)用開發(fā)商持續(xù)進(jìn)行創(chuàng)新,不斷拓展手機(jī)的功能,使得智能手機(jī)逐漸融入人們的日常工作與生活。

      另一方面,不法分子利用手機(jī)進(jìn)行違法犯罪的案件時(shí)有發(fā)生。為打擊這類型的犯罪,公安機(jī)關(guān)需要通過手機(jī)取證來收集不法分子的犯罪證據(jù)。手機(jī)取證,就是對(duì)保存在手機(jī)中和案件相關(guān)的信息進(jìn)行提取,獲得具有法律效力的證據(jù)。這些信息包含多種數(shù)據(jù),如手機(jī)通訊錄,瀏覽器瀏覽記錄,微信聊天記錄,地理數(shù)據(jù),手機(jī)通話記錄等等。

      就國內(nèi)而言,通過手機(jī)得到的手機(jī)數(shù)據(jù)往往以中文短文本為主,而且數(shù)據(jù)量較大,形式不規(guī)則,內(nèi)容關(guān)聯(lián)關(guān)系較弱。這樣的數(shù)據(jù)不可能依靠人工進(jìn)行證據(jù)的分析,而只有依靠自動(dòng)化方法來進(jìn)行分析,而中文短文本分類就是這種方法的核心。

      本文研究手機(jī)取證技術(shù),分析中文短文本分類在手機(jī)取證中的實(shí)現(xiàn),探討將BP神經(jīng)網(wǎng)絡(luò)用作手機(jī)取證的中文短文本分類算法的實(shí)現(xiàn)方法。

      2 手機(jī)取證與文本分類概述

      2.1 手機(jī)取證過程

      手機(jī)取證的過程可以分為以下幾個(gè)階段:

      (1)證據(jù)保全

      該階段主要操作是:現(xiàn)場(chǎng)記錄,記錄當(dāng)前手機(jī)的狀態(tài),如系統(tǒng)時(shí)間、圖標(biāo)、電量狀況等;網(wǎng)絡(luò)隔離,將手機(jī)與外部通信完全隔離,可通過將手機(jī)放入屏蔽容器等方法實(shí)現(xiàn)。

      (2)證據(jù)獲取

      在該階段可以采用物理獲取、邏輯獲取和手工獲取的方法來提取手機(jī)中的數(shù)據(jù)。物理獲取通過與手機(jī)芯片直接交互提取數(shù)據(jù);邏輯獲取將手機(jī)與計(jì)算機(jī)建立連接,通過軟件工具提取數(shù)據(jù);手工獲取通過人工操作手機(jī)上的APP提取數(shù)據(jù)。

      (3)證據(jù)分析

      手機(jī)的原始數(shù)據(jù)提取出來之后,必須經(jīng)過分析才能形成有效的證據(jù)。中文短文本分類是證據(jù)分析中重要的環(huán)節(jié)之一。

      (4)生成報(bào)告

      該階段是手機(jī)取證過程的總結(jié),報(bào)告的內(nèi)容包括手機(jī)取證過程中的全部操作以及最后的結(jié)論。

      2.2 文本分類

      所謂文本分類就是將文本劃分為不同類別。它包含訓(xùn)練和分類兩個(gè)過程,具體步驟如下:

      (1)預(yù)處理:文本往往是非結(jié)構(gòu)化的,首先要對(duì)其進(jìn)行預(yù)處理。

      (2)文本表示:利用文本表示模型將文本轉(zhuǎn)換為計(jì)算機(jī)可理解和計(jì)算的形式——向量。

      (3)文本特征提?。何谋巨D(zhuǎn)換為向量后,通過文本分類特征選擇方法提取出最能表征文本含義的特征,并給特征賦予相應(yīng)的權(quán)重。

      (4)訓(xùn)練:將經(jīng)過上述處理的訓(xùn)練數(shù)據(jù)訓(xùn)練分類器,分類器常用的分類算法有貝葉斯算法、K鄰近算法和支持向量機(jī)算法。

      (5)分類:將待分類數(shù)據(jù)完成上述處理后輸入分類器得到分類結(jié)果。

      3 手機(jī)取證中文短文本分類方法分析

      從智能手機(jī)中提取的信息多以中文短文本為主,如短信息、通訊錄、備忘錄和聊天記錄等,具有特征詞稀疏的特點(diǎn)。短文本分類的原理和操作流程與普通文本分類相同,如果直接沿用普通文本分類方法,短文本分類的效果將會(huì)很差,因此需要根據(jù)短文本的特點(diǎn)加以改進(jìn)。

      3.1 對(duì)普通文本分類方法的改進(jìn)

      中文短文本特征詞稀疏,按普通文本分類方法處理,會(huì)造成提取出的特征不明顯,不利于分類器的訓(xùn)練和后續(xù)的分類。為使文本分類能應(yīng)用于中文短文本分類,主要采取改進(jìn)特征權(quán)重計(jì)算和文本特征擴(kuò)展這兩種改進(jìn)措施。

      (1)改進(jìn)特征權(quán)重計(jì)算

      (2)文本特征擴(kuò)展

      擴(kuò)展文本特征是利用已有的人類知識(shí)進(jìn)行特征擴(kuò)展。一種簡(jiǎn)單的擴(kuò)展方法就是借助詞典,獲得文本中特征詞的解釋,而解釋語句中包含的詞匯與特征詞是邏輯相關(guān)的,所以可以用這些詞匯擴(kuò)展原來文本的特征。在實(shí)際應(yīng)用中,維基百科詞典常常被用來進(jìn)行文本特征擴(kuò)展。利用維基百科詞典,得到對(duì)于中文短文本詞匯的解釋文本后,將解釋文本轉(zhuǎn)換成具有權(quán)值的向量,權(quán)值代表了原詞匯和文本的相關(guān)程度,選取與原詞匯相關(guān)程度最高的部分特征詞擴(kuò)展到文本中。

      3.2 基于BP神經(jīng)網(wǎng)絡(luò)的分類算法實(shí)現(xiàn)

      分類器是文本分類的核心,它直接決定了文本分類的效果。BP神經(jīng)網(wǎng)絡(luò)在分類問題上有著廣泛的應(yīng)用,本文基于BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)分類器以處理中文短文本的分類問題,具體的設(shè)計(jì)和實(shí)現(xiàn)方法如下:

      (1)BP神經(jīng)網(wǎng)絡(luò)初始化

      將經(jīng)過上述處理的文本的向量作為神經(jīng)網(wǎng)絡(luò)的輸入,將文本對(duì)應(yīng)的類別作為神經(jīng)網(wǎng)絡(luò)的輸出,以此建立BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集。

      BP神經(jīng)網(wǎng)絡(luò)采用輸入層、隱含層和輸出層的三層結(jié)構(gòu),輸入層為k個(gè)節(jié)點(diǎn),輸出層為n個(gè)節(jié)點(diǎn),k和n分別對(duì)應(yīng)于文本向量的維數(shù)和文本類別數(shù)。根據(jù)Kolmogorov定理設(shè)置隱含層節(jié)點(diǎn)個(gè)數(shù)。隱含層和輸出層各節(jié)點(diǎn)的激活函數(shù)選用Sigmoid函數(shù)。

      初始化相關(guān)參數(shù),設(shè)置包括學(xué)習(xí)率、最大迭代次數(shù)、誤差范圍E等參數(shù),對(duì)BP神經(jīng)網(wǎng)絡(luò)連接權(quán)值矩陣賦隨機(jī)值。

      (2)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練

      BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程如下:

      a.在訓(xùn)練集中選取一組數(shù)據(jù)作為訓(xùn)練樣本;

      b.將訓(xùn)練樣本提供給BP神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)絡(luò)計(jì)算出隱含層、輸出層的輸出;

      c.計(jì)算模型輸出的總誤差,再通過求導(dǎo),計(jì)算各層的誤差,根據(jù)誤差對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行修正;

      d.選取下一組訓(xùn)練樣本,跳轉(zhuǎn)至步驟b,直至全部樣本都參與了訓(xùn)練;

      e.如果BP網(wǎng)絡(luò)全局誤差小于E或者訓(xùn)練已達(dá)到最大迭代次數(shù),則完成訓(xùn)練。

      (3)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)

      將待分類的中文短文本經(jīng)上述處理成向量后輸入訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)中,BP神經(jīng)網(wǎng)絡(luò)就會(huì)將該文本對(duì)應(yīng)類別輸出。

      4 結(jié)論

      手機(jī)取證是打擊手機(jī)犯罪必須的技術(shù)支撐手段。本文對(duì)手機(jī)取證進(jìn)行了討論,分析手機(jī)取證中的中文短文本分類技術(shù),重點(diǎn)探討了如何在普通文本分類技術(shù)通過改進(jìn)以適應(yīng)中文短文本分類的需求,以及如何將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類器的設(shè)計(jì)。

      參考文獻(xiàn):

      [1]秦玉梅,孫奕.智能手機(jī)取證[M].北京:清華大學(xué)出版社,2014.

      [2]張倩.基于半監(jiān)督學(xué)習(xí)的中文短文本分類研究[D].西安:西安電子科技大學(xué),2014.

      [3]羅燕.基于維基百科的短文本處理方法[D].石家莊:河北師范大學(xué),2016.

      [4]趙小敏.手機(jī)取證概述[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2005(12):79-80.

      [5]王細(xì)薇,樊興華,趙軍.一種基于特征擴(kuò)展的中文短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2009,29(3):843-845.

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)
      BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識(shí)別上的應(yīng)用研究
      基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
      電子制作(2019年24期)2019-02-23 13:22:36
      基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
      基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究
      青田县| 营口市| 湟中县| 太湖县| 卢龙县| 阳东县| 财经| 罗山县| 霍州市| 壤塘县| 廉江市| 偏关县| 从化市| 多伦县| 沅陵县| 海宁市| 大足县| 建平县| 蒙自县| 阿尔山市| 乃东县| 吉木乃县| 科技| 东平县| 深圳市| 南涧| 新闻| 明水县| 宁波市| 巢湖市| 平潭县| 通州市| 姜堰市| 平湖市| 大冶市| 会昌县| 上饶市| 铜山县| 蒙城县| 即墨市| 万荣县|