• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      輸入法詞庫(kù)取證比較研究

      2019-12-11 11:25:52王興丁錳段成閣上官夢(mèng)軒
      現(xiàn)代計(jì)算機(jī) 2019年30期
      關(guān)鍵詞:狼毫詞庫(kù)搜狗

      王興,丁錳,段成閣,上官夢(mèng)軒

      (1.中國(guó)人民公安大學(xué)刑事科學(xué)技術(shù)學(xué)院,北京100032;2.蘇州市公安局工業(yè)園區(qū)分局網(wǎng)絡(luò)警察大隊(duì),蘇州215000;3.溫州市公安局刑事科學(xué)技術(shù)研究所,溫州325000)

      0 引言

      輸入法作為用戶使用計(jì)算機(jī)的重要工具之一,近年來(lái)其智能化和網(wǎng)絡(luò)化不斷提高,功能和種類不斷增多,應(yīng)用范圍更加廣泛。在輸入法軟件的眾多功能中,用戶個(gè)性詞庫(kù)在提高輸入效率的同時(shí),也存儲(chǔ)了大量與用戶相關(guān)的信息,能夠作為重要的電子證據(jù)使用[1]。由于市面上各種輸入法用戶詞庫(kù)的記錄方式和存儲(chǔ)內(nèi)容不盡相同,其證據(jù)價(jià)值與分析方法也不同,對(duì)取證產(chǎn)生了一定的影響。本文將通過(guò)實(shí)驗(yàn)對(duì)十種常見(jiàn)輸入法詞庫(kù)的記錄情況進(jìn)行比較,分析不同輸入法詞庫(kù)的取證價(jià)值,從而確定針對(duì)不同輸入法詞庫(kù)的取證策略。

      1 研究現(xiàn)狀

      常見(jiàn)的電子取證對(duì)象包括與犯罪有關(guān)的文檔、電子郵件、照片、視頻、聊天記錄、轉(zhuǎn)賬記錄、計(jì)算機(jī)日志等電子數(shù)據(jù)[2]。隨著公民信息安全意識(shí)的不斷增強(qiáng)與計(jì)算機(jī)技術(shù)的發(fā)展,一些犯罪分子在實(shí)施犯罪后會(huì)使用反取證技術(shù)來(lái)逃避公安機(jī)關(guān)的偵查,包括數(shù)據(jù)加密、數(shù)據(jù)銷(xiāo)毀和數(shù)據(jù)隱藏[3]。犯罪嫌疑人可以使用BitLocker對(duì)內(nèi)部磁盤(pán)或外部驅(qū)動(dòng)器進(jìn)行數(shù)據(jù)加密[4];使用反取證工具包(TDT)中的Necrofile工具進(jìn)行數(shù)據(jù)覆蓋[5]或通過(guò)消磁法擦除硬盤(pán)上的電磁信息來(lái)實(shí)現(xiàn)存儲(chǔ)介質(zhì)中數(shù)據(jù)的銷(xiāo)毀[6];使用runefs工具將敏感數(shù)據(jù)塊標(biāo)記為磁盤(pán)壞塊[5]或使用Dementia工具在Windows操作系統(tǒng)內(nèi)存數(shù)據(jù)轉(zhuǎn)儲(chǔ)的過(guò)程中隱藏內(nèi)存數(shù)據(jù)[7],使電子取證工作獲取有效信息的難度不斷增加。

      輸入法是進(jìn)行人機(jī)交互的一個(gè)不可或缺的重要工具[8],輸入法詞庫(kù)的內(nèi)容能夠反映用戶使用計(jì)算機(jī)時(shí)直接接觸的信息和相關(guān)領(lǐng)域,包括用戶頻繁關(guān)注的人事物,與用戶自身存在聯(lián)系的人名、地點(diǎn)和時(shí)間日期,與他人的聊天記錄的關(guān)鍵詞或犯罪隱語(yǔ)等信息,對(duì)輸入法詞庫(kù)進(jìn)行取證,能夠獲取大量與用戶相關(guān)的直接、有效信息[9],對(duì)電子取證工作具有十分重要的意義。

      由于輸入法詞庫(kù)是一種相對(duì)隱蔽的痕跡信息,在國(guó)內(nèi)外電子取證領(lǐng)域和反取證技術(shù)方面都沒(méi)有受到過(guò)多關(guān)注。柴正[1]提出了一種基于選擇明文攻擊分析方法的中文輸入法用戶詞庫(kù)提取技術(shù)。該技術(shù)使用多線程、遞歸算法進(jìn)行文件快速檢索,使用跟蹤分析、反匯編等技術(shù)進(jìn)行詞庫(kù)內(nèi)容的提取與解析,對(duì)詞庫(kù)中的關(guān)鍵詞和高頻詞進(jìn)行檢索并過(guò)濾無(wú)效詞,從而實(shí)現(xiàn)自動(dòng)搜索輸入法詞庫(kù)文件并獲取完整內(nèi)容進(jìn)行解析。深藍(lán)詞庫(kù)轉(zhuǎn)換(imewlconverter)是一款基于.NET Core的開(kāi)源輸入法詞庫(kù)轉(zhuǎn)換程序。該程序能夠?qū)⒁环N輸入法的詞庫(kù)轉(zhuǎn)換成其他不同格式的輸入法詞庫(kù),使其能夠進(jìn)行跨輸入法詞庫(kù)導(dǎo)入,可以實(shí)現(xiàn)把加密的詞庫(kù)文件轉(zhuǎn)換成其他可讀格式的文件。

      需要注意的是,不同輸入法詞庫(kù)具有的自身特性會(huì)對(duì)其證據(jù)價(jià)值產(chǎn)生一定的影響,需要根據(jù)各輸入法詞庫(kù)的自身特性對(duì)其證據(jù)價(jià)值進(jìn)行比較研究,這對(duì)在工作中根據(jù)實(shí)際情況采取相應(yīng)的取證策略十分有利,因此,本文將通過(guò)設(shè)計(jì)實(shí)驗(yàn)比較幾種常見(jiàn)輸入法用戶詞庫(kù)的特點(diǎn),并對(duì)他們的取證價(jià)值進(jìn)行分析。

      2 輸入法詞庫(kù)比較分析

      2. 1 輸入法詞庫(kù)的獲取

      輸入法詞庫(kù)的獲取方法包括直接在硬盤(pán)中查找輸入法詞庫(kù)文件和通過(guò)輸入法軟件的詞庫(kù)管理功能進(jìn)行導(dǎo)出。使用直接檢索詞庫(kù)文件的方法獲取的詞庫(kù)文件,往往無(wú)法直接讀出其內(nèi)容,需要對(duì)詞庫(kù)進(jìn)行解析才能分析和解讀其中的信息,早期的輸入法如智能ABC就不具有導(dǎo)出詞庫(kù)文件的功能,其用戶詞庫(kù)文件存儲(chǔ)為WindowsSystemTMMR.REM和USER.REM的兩個(gè)文件。使用輸入法軟件的導(dǎo)出功能直接導(dǎo)出詞庫(kù)的方法,可以導(dǎo)出能夠直接讀寫(xiě)的文本文件,如百度輸入法、QQ拼音輸入法、手心輸入法等,如圖1、圖2所示。同時(shí),有些輸入法只能導(dǎo)出加密格式的詞庫(kù)文件,如搜狗輸入法、2345王牌輸入法等。本文將使用輸入法軟件的詞庫(kù)導(dǎo)出功能,獲取幾種常見(jiàn)輸入法的中文或英文用戶詞庫(kù)。

      2. 2 輸入法詞庫(kù)特征比較

      國(guó)內(nèi)用戶常用的輸入法種類較多,本文選取百度輸入法、QQ拼音輸入法、手心輸入法、搜狗輸入法、小狼毫輸入法、華宇拼音輸入法、谷歌拼音輸入法、東方輸入法、新浪拼音輸入法和智能云輸入法這十種輸入法軟件進(jìn)行用戶詞庫(kù)的比較研究,主要分析輸入法的中文和英文詞庫(kù),比較他們的特點(diǎn)和證據(jù)價(jià)值。

      圖1百度輸入法的詞庫(kù)管理功能

      圖2 QQ拼音輸入法的詞庫(kù)管理功能

      本文進(jìn)行分析的操作系統(tǒng)為Windows 7旗艦版操作系統(tǒng),百度輸入法軟件為5.5.5018.0版本,QQ拼音輸入法軟件為6.3版本,手心輸入法為2.7.0.1694版本,搜狗輸入法軟件為9.0.0.2502版本,小狼毫輸入法軟件為0.14.3版本,華宇拼音輸入法軟件為6.9.1.183版本,谷歌拼音輸入法軟件為2.7.22.120版本,東方輸入法軟件為2.7.5.11212版本,新浪拼音輸入法軟件為0.9.3287.0版本,智能云輸入法軟件為1.4.8.10806版本。在詞庫(kù)解析方面,使用了2.6版本的深藍(lán)詞庫(kù)轉(zhuǎn)換工具對(duì)搜狗輸入法的加密詞庫(kù)進(jìn)行格式轉(zhuǎn)換。本文所涉及的十種輸入法詞庫(kù)的基本結(jié)構(gòu)都包括輸入的文字和拼寫(xiě)這部分文字時(shí)的拼音兩部分,有些輸入法詞庫(kù)還包括記錄輸入詞頻的第三部分。下面從各輸入法詞庫(kù)對(duì)不同類型文本的記錄方面入手,對(duì)各輸入法詞庫(kù)進(jìn)行比較。

      (1)中文詞組

      在進(jìn)行測(cè)試前,先清空所使用輸入法的原有詞庫(kù),然后分別使用不同輸入法按照相同的拼寫(xiě)方法和打字順序,輸入“北京”、“西安”、“北京市西城區(qū)”、“北京大興”和“北京大興國(guó)際機(jī)場(chǎng)”五個(gè)詞組。通過(guò)對(duì)各輸入法詞庫(kù)進(jìn)行比較發(fā)現(xiàn),東方輸入法、華宇拼音輸入法、新浪拼音輸入法和智能云輸入法的詞庫(kù)記錄不完整,均沒(méi)有記錄“北京”,“西安”這兩個(gè)常見(jiàn)的地名詞語(yǔ),對(duì)“北京大興國(guó)際機(jī)場(chǎng)”這個(gè)組合詞均有記錄;百度輸入法、手心輸入法、搜狗輸入法和谷歌拼音輸入法的詞庫(kù)完整記錄了輸入的五個(gè)詞組,記錄順序與輸入順序無(wú)明顯關(guān)聯(lián),其中百度輸入法詞庫(kù)的記錄結(jié)果如圖3所示;小狼毫輸入法的詞庫(kù)在完整記錄輸入中文詞組的基礎(chǔ)上對(duì)其進(jìn)行了分詞處理,記錄結(jié)果如圖4所示;QQ拼音輸入法的詞庫(kù)除完整記錄輸入的中文詞組外,還出現(xiàn)了一個(gè)“北京西安”的記錄結(jié)果,其結(jié)果如圖5所示。

      圖3

      圖4

      圖5

      (2)中文句子、短語(yǔ)

      首先清空輸入法的原有詞庫(kù),然后分別使用各輸入法按照相同的拼寫(xiě)方法和打字順序,輸入“我們這周六一起去北京”、“在北京西站見(jiàn)面”、“參觀天安門(mén)”、“然后坐下周”和“四的火車(chē)回西安”五個(gè)短句。觀察各輸入法詞庫(kù)發(fā)現(xiàn),百度輸入法、手心輸入法、華宇拼音輸入法、智能云輸入法、谷歌拼音輸入法、QQ拼音輸入法和東方輸入法的詞庫(kù)都完整記錄了這五個(gè)短句,記錄順序與輸入順序無(wú)關(guān),東方拼音輸入法詞庫(kù)的記錄結(jié)果如圖6所示;新浪拼音輸入法的詞庫(kù)只記錄了一條短句,其記錄結(jié)果如圖7所示;小狼毫輸入法與搜狗輸入法在完整記錄短句的基礎(chǔ)上進(jìn)行了不同程度的分詞處理,搜狗輸入法詞庫(kù)的記錄結(jié)果如圖8所示。

      圖6

      圖7

      圖8

      (3)英文單詞、字母縮寫(xiě)

      首先清空所使用輸入法的原有詞庫(kù),根據(jù)輸入法的具體情況,用輸入法分別在中文輸入狀態(tài)和英文輸入狀態(tài)下,按照相同的輸入方法,輸入“Input Method”、“forensic science”、“TNT”和“gcd”四組英文字符。對(duì)各輸入法詞庫(kù)進(jìn)行觀察比較,在中文輸入狀態(tài)下,百度輸入法和手心輸入法的中文詞庫(kù)完整記錄了輸入的英文字符,圖9為手心輸入法詞庫(kù)的記錄結(jié)果;QQ拼音輸入法的英文詞庫(kù)記錄了輸入的英文字符,其記錄結(jié)果如圖10所示;谷歌拼音輸入法、華宇拼音輸入法、東方輸入法、小狼毫輸入法、新浪拼音輸入法、智能云拼音輸入法和搜狗輸入法的中文詞庫(kù)沒(méi)有對(duì)英文字符進(jìn)行任何記錄。在英文輸入狀態(tài)下,沒(méi)有輸入法的詞庫(kù)對(duì)輸入的五組英文進(jìn)行記錄。

      圖9

      圖10

      (4)中英文混合文本

      清空所使用輸入法的原有詞庫(kù),用上述輸入法按照相同的拼寫(xiě)方法和打字順序,輸入“出售二手iphoneX”、“轉(zhuǎn)換成 word 文檔”、“TNT 如何制作”和“中文ABC詞語(yǔ)word”這四個(gè)中英文混合短句。通過(guò)對(duì)導(dǎo)出的各輸入法詞庫(kù)進(jìn)行比較發(fā)現(xiàn),在中文輸入狀態(tài)下輸入整個(gè)短句時(shí),百度輸入法、手心輸入法和QQ拼音輸入法的中文詞庫(kù)會(huì)完整記錄輸入的中英文混合短句,搜狗輸入法的中文詞庫(kù)沒(méi)有記錄中英文混合文本,其中QQ拼音輸入法中文詞庫(kù)的記錄結(jié)果如圖11所示,若在英文部分切換至英文輸入狀態(tài)進(jìn)行輸入,則百度輸入法、手心輸入法、QQ拼音輸入法和搜狗輸入法將只記錄混合文本中的中文部分,此時(shí)搜狗輸入法中文詞庫(kù)的記錄結(jié)果如圖12所示;小狼毫輸入法、華宇拼音輸入法、谷歌拼音輸入法、新浪拼音輸入法、智能云輸入法和東方輸入法的詞庫(kù)只記錄了中文內(nèi)容,沒(méi)有記錄英文單詞,圖13為小狼毫輸入法詞庫(kù)的記錄結(jié)果。

      圖11

      圖12

      圖13

      2. 3 結(jié)果分析

      輸入法詞庫(kù)之所以能夠提供用戶使用計(jì)算機(jī)時(shí)直接接觸或與用戶自身相關(guān)的大量有效信息,主要是通過(guò)對(duì)記錄在詞庫(kù)中的物品名稱、地名、人名、時(shí)間日期或其他與案件有關(guān)的詞組進(jìn)行分析獲得的[9]。對(duì)輸入法詞庫(kù)進(jìn)行取證,關(guān)鍵就是要獲取輸入法詞庫(kù)中存儲(chǔ)的有效信息,進(jìn)而為案件的偵破提供重要線索。

      通過(guò)上面的實(shí)例可以看到,在記錄中文方面,新浪拼音輸入法、華宇拼音輸入法、東方輸入法和智能云輸入法的詞庫(kù)所記錄的用戶輸入信息較少,對(duì)于單獨(dú)出現(xiàn)的中文常見(jiàn)地名、物品名等存在遺漏,會(huì)對(duì)詞庫(kù)的分析產(chǎn)生一定的影響,降低自身的取證價(jià)值。百度輸入法、谷歌拼音輸入法、搜狗輸入法、小狼毫輸入法、手心輸入法和QQ拼音輸入法能夠較完整的記錄用戶輸入的中文文本,且具有統(tǒng)計(jì)記錄次數(shù)的功能,有利于取證人員從中獲取更多的信息。其中QQ拼音輸入法、小狼毫輸入法和搜狗輸入法的詞庫(kù)會(huì)對(duì)一些長(zhǎng)句或短語(yǔ)進(jìn)行分詞處理,然后將分詞結(jié)果和原本輸入的信息一并記錄在詞庫(kù)中,這會(huì)對(duì)后續(xù)進(jìn)行的在詞庫(kù)中查找高頻詞并進(jìn)行詞云可視化產(chǎn)生影響,需要根據(jù)具體情況選擇相應(yīng)的詞頻統(tǒng)計(jì)算法。

      對(duì)于英文單詞或字母縮寫(xiě),本文所測(cè)試的輸入法軟件都存在中文輸入和英文輸入兩種狀態(tài),而輸入法詞庫(kù)記錄的內(nèi)容主要集中在中文輸入狀態(tài)下輸入的信息,因此用戶在英文輸入狀態(tài)下輸入的英文單詞或字母縮寫(xiě)并不能被輸入法中文詞庫(kù)記錄,同時(shí),用戶的輸入習(xí)慣也會(huì)對(duì)英文的記錄結(jié)果產(chǎn)生影響,因此,輸入法詞庫(kù)中記錄的英文信息的有效性遠(yuǎn)低于中文信息,英文詞庫(kù)的證據(jù)價(jià)值低于中文詞庫(kù)。

      在獲取輸入法詞庫(kù)中有效信息的過(guò)程中,通常要對(duì)詞庫(kù)的內(nèi)容進(jìn)行數(shù)據(jù)清洗、文本分詞并去處停用詞,對(duì)不同詞性的詞進(jìn)行分類和統(tǒng)計(jì),分析具有詞頻統(tǒng)計(jì)功能的詞庫(kù)時(shí),還可以參考詞庫(kù)的統(tǒng)計(jì)情況進(jìn)行高頻詞的篩選,并將結(jié)果可視化,幫助取證人員充分利用詞庫(kù)記錄的內(nèi)容,挖掘其中蘊(yùn)藏的有效信息,因此輸入法詞庫(kù)的內(nèi)容和記錄方式是影響詞庫(kù)取證價(jià)值的重要因素之一。

      綜上所述,在本文選取的十種輸入法中,百度輸入法、谷歌拼音輸入法、搜狗輸入法、小狼毫輸入法、手心輸入法和QQ拼音輸入法詞庫(kù)的取證價(jià)值高于新浪拼音輸入法、華宇拼音輸入法、東方輸入法和智能云輸入法詞庫(kù)的取證價(jià)值。其中百度輸入法、谷歌輸入法和手心輸入法的詞庫(kù)沒(méi)有對(duì)所記錄的文本做其他過(guò)多的處理,有效減少了影響詞庫(kù)分析準(zhǔn)確性的干擾因素,而對(duì)于搜狗輸入法、小狼毫輸入法和QQ拼音輸入法的詞庫(kù),則需要考慮分詞對(duì)詞頻統(tǒng)計(jì)和詞庫(kù)內(nèi)容造成的影響,需要根據(jù)分詞情況,選擇相應(yīng)的數(shù)據(jù)清洗和詞頻統(tǒng)計(jì)算法。

      3 結(jié)語(yǔ)

      對(duì)輸入法詞庫(kù)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)處理與分析,能夠獲取與用戶相關(guān)的大量有價(jià)值信息。本文圍繞十種常見(jiàn)輸入法的用戶詞庫(kù),通過(guò)設(shè)計(jì)實(shí)驗(yàn)比較不同輸入法詞庫(kù)的特點(diǎn),并分析他們各自的取證價(jià)值。結(jié)果證明,不同輸入法詞庫(kù)的特點(diǎn)和取證價(jià)值之間存在差異,在取證工作中必須根據(jù)輸入法詞庫(kù)的具體類型進(jìn)行取證分析,才能獲取詞庫(kù)中的有用信息。最后,由于移動(dòng)設(shè)備在人們生活中的地位越來(lái)越高,同時(shí),輸入法軟件在移動(dòng)終端平臺(tái)上也得到了廣泛使用[8],下一步工作將針對(duì)智能手機(jī)、平板電腦等移動(dòng)設(shè)備應(yīng)用平臺(tái)上輸入法詞庫(kù)的取證進(jìn)行比較研究,比較各輸入法詞庫(kù)的特點(diǎn)并分析他們的取證價(jià)值,以便于充分挖掘移動(dòng)設(shè)備輸入法詞庫(kù)中存儲(chǔ)的更加豐富的信息。

      猜你喜歡
      狼毫詞庫(kù)搜狗
      狼毫不是狼毛
      騰訊擬147億元全資收購(gòu)搜狗
      情人潭感懷
      狼毫
      搜狗三季度營(yíng)收同比增長(zhǎng)
      CHIP新電腦(2016年11期)2016-12-03 14:26:58
      詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
      狠上一點(diǎn)為“狼”
      環(huán)境變了,詞庫(kù)別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      搜狗分號(hào)工具箱 輸入更便捷
      QQ手機(jī)輸入法如何導(dǎo)入分類詞庫(kù)
      電腦迷(2012年15期)2012-04-29 17:09:47
      大安市| 珠海市| 定西市| 金沙县| 樟树市| 都安| 邢台县| 佛坪县| 吉安市| 富顺县| 静乐县| 南充市| 施秉县| 凤凰县| 和平县| 桂东县| 临沧市| 甘南县| 缙云县| 仁寿县| 勐海县| 龙海市| 虹口区| 镇江市| 鞍山市| 普洱| 德化县| 金川县| 宁都县| 松滋市| 堆龙德庆县| 本溪市| 麦盖提县| 彰化县| 甘谷县| 郧西县| 宁乡县| 聂拉木县| 临洮县| 西乡县| 宁强县|