• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡(luò)和KNN算法的筆跡性別識(shí)別

      2020-02-22 06:52:26盛思遠(yuǎn)趙洋洋
      科技創(chuàng)新導(dǎo)報(bào) 2020年25期
      關(guān)鍵詞:筆跡卷積神經(jīng)網(wǎng)絡(luò)

      盛思遠(yuǎn) 趙洋洋

      摘? 要:基于筆跡的性別識(shí)別在取證分析中具有重要意義。但是目前的筆跡性別識(shí)別的智能算法大多是在筆跡空間進(jìn)行直接分類(lèi),筆跡中包含大量無(wú)意義信息,分類(lèi)準(zhǔn)確率不高。本文通過(guò)將筆跡空間轉(zhuǎn)化為筆跡相似度空間,通過(guò)Mnist數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)得到數(shù)字識(shí)別模型,然后用自制帶性別標(biāo)簽的數(shù)據(jù)集進(jìn)行測(cè)試并計(jì)算得到表現(xiàn)字跡風(fēng)格的兩種數(shù)據(jù)集。進(jìn)一步基于KNN算法,對(duì)字跡進(jìn)行性別識(shí)別,綜合兩種數(shù)據(jù)集得到的預(yù)測(cè)結(jié)果,測(cè)試準(zhǔn)確度能達(dá)到74%。

      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)? KNN算法? 性別識(shí)別? 筆跡

      中圖分類(lèi)號(hào):TP391.41? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2020)09(a)-0112-04

      Abstract:Gender recognition based on handwriting is of great significance in forensic analysis. However, the current intelligent algorithm of handwriting gender recognition mostly classifies directly in the handwriting space, which contains a lot of meaningless information, and the classification accuracy is not high. In this paper, we convert the handwriting space into the handwriting similar space, by training the convolutional neural network in the Mnist data set to obtain the digital recognition model, and then test the self-made data set with gender label and calculate the two data sets that show the handwriting style. Furthermore, based on KNN algorithm, gender recognition of handwriting was carried out, and the test accuracy reached 74% based on the prediction results obtained from the two data sets.

      Key Words: Convolutional neural network; KNN algorithm; Gender recognition; Handwriting

      對(duì)筆跡的性別識(shí)別在調(diào)查取證分析中有重要的意義[1],筆跡中包含的因素主要可以分為兩類(lèi),一是對(duì)已有字體進(jìn)行模仿,二是在模仿過(guò)程中形成個(gè)人的風(fēng)格。理論上來(lái)說(shuō)每個(gè)人的筆跡都有個(gè)人不同的風(fēng)格,因此從筆跡中獲得各種信息是理論可行的,一些專(zhuān)家學(xué)者提出了筆跡的動(dòng)態(tài)特征研究方法[2]。目前,大部分對(duì)于筆跡的分析都是基于圖像識(shí)別的原理,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的特征值進(jìn)行識(shí)別和操作,例如基于梯度的識(shí)別算法GLBP[3],準(zhǔn)確率可以達(dá)到70%,基于多層卷積網(wǎng)絡(luò)的模式識(shí)別算法,準(zhǔn)確率可以達(dá)到71.9%。直接對(duì)筆跡圖片進(jìn)行識(shí)別操作的方法,造成算法的應(yīng)用空間范圍在整個(gè)圖片上均勻分布,計(jì)算過(guò)程中輸入數(shù)據(jù)的復(fù)雜度較大,計(jì)算結(jié)果的準(zhǔn)確度不高。另一方面,由于缺乏統(tǒng)一規(guī)格的中文離線簽名數(shù)據(jù)庫(kù),在訓(xùn)練過(guò)程中,很難充分訓(xùn)練[4]。

      本文提出了一種在識(shí)別之前進(jìn)行空間轉(zhuǎn)換的思路,將筆跡圖片先行識(shí)別,利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)得到筆跡圖片對(duì)于真值的相似度向量集,再利用KNN算法預(yù)測(cè)筆跡的性別,在準(zhǔn)確度上有較大的提升。

      1? 相似度向量的提取

      為了提取筆跡的相似度,我們利用Mnist數(shù)據(jù)集訓(xùn)練一個(gè)4層卷積神經(jīng)網(wǎng)絡(luò),然后利用此網(wǎng)絡(luò)計(jì)算自制數(shù)據(jù)集訓(xùn)練組對(duì)照真值的相似度。

      1.1 用于識(shí)別數(shù)字的卷積神經(jīng)網(wǎng)絡(luò)

      Mnist數(shù)據(jù)集由6萬(wàn)個(gè)訓(xùn)練樣本和1萬(wàn)個(gè)測(cè)試樣本組成,每個(gè)樣本為單張手寫(xiě)數(shù)字圖片和對(duì)應(yīng)的數(shù)字標(biāo)簽,規(guī)格為28*28的灰度。卷積網(wǎng)絡(luò)由兩個(gè)卷積層兩個(gè)池化層和兩個(gè)全連接層組成。本文使用基于Tensorflow2.0的keras框架,搭建計(jì)算模型,激活函數(shù)和損失函數(shù)選取如表1。

      模型的最終輸出為10位One-hot形式,對(duì)訓(xùn)練得出的網(wǎng)絡(luò)利用測(cè)試樣本進(jìn)行檢測(cè),數(shù)字識(shí)別準(zhǔn)確率達(dá)到97.8%,將此模型當(dāng)作標(biāo)準(zhǔn)網(wǎng)絡(luò)計(jì)算相似度向量。

      1.2 差異度與相似度向量的計(jì)算

      由于Mnist數(shù)據(jù)集中,沒(méi)有性別標(biāo)簽,因此我們需要自建數(shù)據(jù)集獲得字跡和性別之間的關(guān)系,每個(gè)樣本必須是同一個(gè)人的字跡,包括0~9十張圖片和對(duì)應(yīng)的數(shù)字標(biāo)簽。利用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)辨識(shí)圖片得出Ont-hot類(lèi)型的結(jié)果Aij,Rij∈10*10。我們把訓(xùn)練的結(jié)果寫(xiě)成一個(gè)10*10的矩陣形式,其中Rij表示第i張圖片訓(xùn)練的One-hot形式的結(jié)果上第j個(gè)位的輸出。然后將A減去單位矩陣I得到結(jié)果矩陣R,由于R的每一個(gè)元素都代表著樣本測(cè)試距離Mnist字跡風(fēng)格的偏移,因此R代表了樣本字跡的風(fēng)格。

      R中每一列表示書(shū)寫(xiě)數(shù)字的字跡對(duì)某一個(gè)數(shù)字的傾向,因此將R縱向都加得出差異度向量M,Mj=Σi|Rij|。

      R中每一行表示書(shū)寫(xiě)某個(gè)數(shù)字時(shí)與Mnist字跡相比的偏差,因此將R橫向相加得出相似度向量N,Ni=Σj|Rij|。

      研究中,把每一人的字跡與對(duì)應(yīng)的性別標(biāo)簽當(dāng)作一個(gè)樣本,為了保證樣本對(duì)于性別的敏感性,我們選取了500組樣本,300組作為訓(xùn)練集,200組作為測(cè)試集,兩種性別各半。為了防止年齡文化程度等因素的干擾,我們直接從同一年級(jí)的學(xué)生作業(yè)中掃描得出樣本。

      2? 基于KNN的字跡性別識(shí)別

      KNN網(wǎng)絡(luò)是一種K近鄰算法,當(dāng)訓(xùn)練樣本較多時(shí),有很好的準(zhǔn)確度,我們分別從字跡的錯(cuò)誤傾向和字跡相似度兩個(gè)方面,利用KNN網(wǎng)絡(luò)對(duì)字跡進(jìn)行性別識(shí)別。其中,度量空間我們選用歐氏距離,并在K近鄰中取平均權(quán)重。

      2.1 實(shí)驗(yàn)結(jié)果

      在計(jì)算中,由于我們選取了歐式距離和平均權(quán)重,K近鄰算法只有一個(gè)超參數(shù)K,我們簡(jiǎn)單的進(jìn)行窮舉式的超參數(shù)優(yōu)化,計(jì)算不同的K值情況下,性別的預(yù)測(cè)結(jié)果。利用差異度向量樣本集進(jìn)行訓(xùn)練和測(cè)試,得到的最高準(zhǔn)確率在K=12時(shí)出現(xiàn),為68%;利用相似度向量樣本集進(jìn)行訓(xùn)練和測(cè)試,得到的最高準(zhǔn)確率在K=11時(shí)出現(xiàn),為70%。將兩種測(cè)試集的預(yù)測(cè)結(jié)果加權(quán)平均到一起,得到的最高準(zhǔn)確率在K=11時(shí)出現(xiàn),為70%,準(zhǔn)確度隨K的變化如圖1。

      2.2 優(yōu)化分析

      將兩種測(cè)試集的測(cè)試結(jié)果平均到一起,預(yù)測(cè)的結(jié)果并沒(méi)有顯著改變,說(shuō)明差異度向量和相似度向量中的每一個(gè)都可以完全代表樣本的字跡風(fēng)格,因此單獨(dú)使用一個(gè)測(cè)試集,經(jīng)過(guò)優(yōu)化就可以達(dá)到相同的準(zhǔn)確效果。

      在這里,我們猜測(cè),某些人的字跡有明顯的性別傾向,如果使用這些人的字跡作為訓(xùn)練集,應(yīng)該能更好表示字跡的性別特征?;诖?,我們利用循環(huán)的將每個(gè)樣本放入測(cè)試集進(jìn)行計(jì)算,將預(yù)測(cè)成功比率高的300個(gè)樣本當(dāng)作新的訓(xùn)練集,同時(shí)引入額外制作的測(cè)試集(樣本數(shù)量300,性別比1:1),同樣利用KNN,發(fā)現(xiàn)準(zhǔn)確率在K=10時(shí)達(dá)到了74%,比基于局部特征的算法[5]高出4個(gè)百分點(diǎn),比基于 GMM 的算法高出6.43個(gè)百分點(diǎn)。準(zhǔn)確度隨K的變化如圖2。

      由此可見(jiàn),有些字跡的風(fēng)格有明顯的性別傾向,而有些字跡的風(fēng)格與性別關(guān)系不大,因此選用隨性別變化明顯的字跡作為訓(xùn)練集更能體現(xiàn)字跡的性別傾向,識(shí)別的效果更好,驗(yàn)證了我們的猜測(cè)。

      2.3 算法進(jìn)化

      在實(shí)際應(yīng)用中,這樣選取樣本的代價(jià)過(guò)高,因此我們使用一種算法進(jìn)化的方式。首先我們隨機(jī)選取300個(gè)樣本作為訓(xùn)練集,每加入一個(gè)測(cè)試集,若預(yù)測(cè)成功,則以一定概率p代替據(jù)此測(cè)試樣本距離最遠(yuǎn)的訓(xùn)練樣本,被代替的樣本加入測(cè)試集的末尾,循環(huán)迭代。本文最終可以達(dá)到2.2中得到的準(zhǔn)確度,當(dāng)p=0.15時(shí),迭代次數(shù)最小,為12000左右,本質(zhì)上是一種隨機(jī)梯度下降的算法。

      3? 結(jié)語(yǔ)

      目前對(duì)于筆跡的性別識(shí)別的研究,準(zhǔn)確度依然無(wú)法達(dá)到一個(gè)令人滿意的程度??赡苡捎谝徊糠秩说墓P跡所包含的特征與性別的關(guān)系不大,而與其他一些諸如體質(zhì)、性格等因素相關(guān)。因此基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取和KNN的模式識(shí)別,在筆跡的性別識(shí)別中有很大的優(yōu)越性。但是由于KNN算法的限制,訓(xùn)練樣本數(shù)量不能過(guò)大,因此在訓(xùn)練集中筆跡的風(fēng)格可能不完備,無(wú)法識(shí)別測(cè)試樣本的某些特征,造成特征的缺失和疏漏,一定程度影響了準(zhǔn)確率。因此,需要繼續(xù)優(yōu)化算法對(duì)特征的識(shí)別,提高準(zhǔn)確率。

      參考文獻(xiàn)

      [1] 劉維達(dá),卜巍,鄔向前.基于深度學(xué)習(xí)的筆跡性別識(shí)別[J].智能計(jì)算機(jī)與應(yīng)用,2017,7(3):135-137.

      [2] 陳曉紅.司法筆跡鑒定[M].北京:科學(xué)出版社,2018.

      [3] Nesrine Bouadjenek, Hassiba Nemmour, Youcef Chibani. Age, gender and handedness prediction from handwriting using gradient features[C]// International Conference on Document Analysis & Recognition. IEEE, 2015.

      [4] 賈昊麗,程永強(qiáng),李志磊.區(qū)間模糊相似性度量的離線簽名驗(yàn)證[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(18):122-126.

      [5] N Bouadjenek, H Nemmour, Y Chibani. Local descriptors to improve off-line handwriting-based gender prediction[C]// Soft Computing & Pattern Recognition. IEEE, 2015.

      [6] 殷亞博,楊文忠,楊慧婷,等.基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類(lèi)算法研究[J].計(jì)算機(jī)工程,2018,44(7):193-198.

      猜你喜歡
      筆跡卷積神經(jīng)網(wǎng)絡(luò)
      大衛(wèi)的漂流瓶
      巧克力能否去除桌上的油性筆筆跡
      少兒科技(2021年3期)2021-01-20 13:18:34
      基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
      基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      筆跡泄露大秘密
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
      論書(shū)寫(xiě)速度變化筆跡鑒定
      西藏科技(2015年4期)2015-09-26 12:12:51
      筆跡不說(shuō)謊
      仁布县| 延安市| 盐池县| 江都市| 湘乡市| 临高县| 盐城市| 山阳县| 苍溪县| 鸡泽县| 湟中县| 吉安市| 云龙县| 包头市| 光山县| 新疆| 博野县| 建水县| 丹寨县| 平陆县| 华池县| 镇原县| 大名县| 临潭县| 焦作市| 清新县| 广灵县| 九龙城区| 叙永县| 胶南市| 绵阳市| 安远县| 防城港市| 天等县| 上林县| 沁水县| 砚山县| 左权县| 兰坪| 明水县| 遂平县|