• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于主成分降維模型的手寫數(shù)字識別研究

    2021-04-21 00:16:26楊濟萍
    關(guān)鍵詞:手寫降維準確率

    ◆楊濟萍

    基于主成分降維模型的手寫數(shù)字識別研究

    ◆楊濟萍

    (蘭州交通大學(xué) 甘肅 730070)

    手寫數(shù)字識別是光學(xué)字符識別技術(shù)的一個分支,因其受不同國家背景、個人書寫習慣等因素的影響,脫機手寫數(shù)字識別依舊是模式識別領(lǐng)域的重要難題.因此如何利用適當?shù)膱D像預(yù)處理過程消除冗雜信息對特征提取的影響,為不同形態(tài)的手寫體數(shù)字提供精準高效的算法模型是本文所研究的重點。

    手寫數(shù)字識別;K近鄰;支持向量機;主成分分析

    1 緒論

    1.1 光學(xué)字符識別

    計算機文字識別是一類光學(xué)字符識別(Optical Character Recognition,簡稱OCR),是一個結(jié)合模式識別的基本理論和許多典型處理技術(shù)的應(yīng)用,數(shù)字識別是模式識別領(lǐng)域中的冰山一角,在各類字符識別理論和技術(shù)的推廣上有著不可小覷的潛力。其中,數(shù)字識別中的脫機手寫數(shù)字識別因其不同國家背景、個人書寫習慣等因素的影響,對比人腦數(shù)字識別準確率較低,因而尋找較高識別準確率和較快識別速度的系統(tǒng)算法一直是學(xué)者們研究的熱點。

    1.2 本文研究意義與論文組織結(jié)構(gòu)

    本文選取阿拉伯數(shù)字為對象,采取KNN、SVM等經(jīng)典算法與PCA-KNN、PCA-SVM優(yōu)化模型實現(xiàn)阿拉伯數(shù)字的脫機手寫數(shù)字識別,本文擬從手寫數(shù)字圖像預(yù)處理、單一識別算法模型和PCA“降維”優(yōu)化后的手寫數(shù)字識別模型三大模塊進行。

    文章通過對手寫圖像的處理還原了MNIST數(shù)據(jù)集的創(chuàng)建過程,在基本預(yù)處理如圖像規(guī)范化、“平滑去噪”等步驟后。本文通過SVM算法與KNN算法,對比單一模型實現(xiàn)圖像識別效果。主要研究PCA“降維”對單一算法的優(yōu)化效果,從PCA“降維”的原理到PCA-SVM優(yōu)化模型的實現(xiàn),并將結(jié)果與單一模型進行比較。

    2 基于單一分類算法的手寫數(shù)字識別模型

    2.1 基于KNN算法的手寫數(shù)字識別

    2.1.1 KNN算法的基本步驟

    KNN算法的基本原理,簡單概括為:在確定訓(xùn)練集中樣本分布和特征的情況下,先把測試數(shù)據(jù)輸入并與訓(xùn)練集中對應(yīng)的特征進行互相對照,再比對訓(xùn)練集中與其最為相似的前K樣本,那么K樣本中出現(xiàn)次數(shù)最多的那個類別,就是該測試數(shù)據(jù)最終得到的分類類別。

    2.1.2 KNN算法的系統(tǒng)實現(xiàn)與結(jié)果分析

    本文在Anaconda.Python3.6集成開發(fā)環(huán)境(Integrated Development Environment,簡稱IDE)實現(xiàn)對MNIST數(shù)據(jù)集中訓(xùn)練集的訓(xùn)練,并且利用測試集對模型進行了誤差分析。

    對于KNN模型的實現(xiàn),本文通常采用兩種方法進行建模:一種是利用Numpy結(jié)合KNN分類原理,通過設(shè)定待分類數(shù)據(jù),利用Numpy模塊構(gòu)造矩陣進行距離運算,最后對距離排序得出最優(yōu)結(jié)果;另一種是利用sklearn工具中的KNN函數(shù):“neighbors.Kneighbors”將數(shù)據(jù)集導(dǎo)入,然后進行K值的設(shè)定,并且計算歐氏距離,再對距離進行排序,得到最終分類結(jié)果,單獨利用KNN算法進行脫機手寫數(shù)字識別準確率在98%以上。對Numpy與KNN原理結(jié)合的算法,當K值選定為“3”時,最高準確率為98.73%,可以說對10000個測試樣本中9873個樣本進行了正確的識別;而在sklearn工具包中,K值選定為“4”時,最高準確率為98.9315%,可以解釋為對10000個測試樣本中9893個樣本進行了正確的識別,可見正確率有所上升。但KNN算法整體上來看,該算法耗時太長,平均在半小時左右,并且對設(shè)備要求較高,不利于系統(tǒng)的推廣應(yīng)用。

    2.2 基于SVM算法的手寫數(shù)字識別

    SVM在解決非線性、高維模式識別及小樣本數(shù)據(jù)集中有許多特有的長處,在處理線性可分的問題時有一定的優(yōu)勢,并且能通過構(gòu)建函數(shù)來解決非線性問題的學(xué)習分類。

    2.2.1 SVM算法基本原理

    SVM分類原理是要找出一個能夠?qū)深悩颖具M行完全精確分類的分界線即超平面。優(yōu)化的目標就是要求分界線將兩類樣本準確分開并使安全間隔(Margin)越大越好。

    2.2.2構(gòu)建SVM分類模型

    對于本文中的手寫數(shù)據(jù)集來說,就是將多個二分類問題不斷地進行拆分,轉(zhuǎn)化為有限個十分類問題進行分類判別的實現(xiàn)。實驗中常用的拆分方法主要有以下兩種:一對一拆分法(One Versus One,簡稱OVO)和一對多拆分法(One Versus Rest,簡稱OVR)

    2.2.3結(jié)果展示與分析

    利用SVM進行手寫數(shù)字字體識別從精度和時效方面來看還是切實可行的,模型識別準確率為94.9843%,用時僅需196.58s,可以說對10000個測試樣本中9498個樣本進行了正確的識別。相比較單獨運用KNN進行識別時的98。73%高準確率和30分鐘的識別時長,SVM在準確率損失下大大減少了識別所需要的時間,對于人腦0.02s的反應(yīng)速度來說,SVM模型更適合于圖像識別分類。由此可見相比較KNN算法SVM模型更具有推廣性和實用性。

    3 基于PCA-SVM的手寫數(shù)字識別系統(tǒng)模型

    3.1 PCA-SVM算法的基本思想

    基于SVM算法對脫機手寫數(shù)字識別的實現(xiàn)發(fā)現(xiàn):當數(shù)據(jù)涉及高維度特征向量的問題時,算法學(xué)習所需要的數(shù)據(jù)量增加,使得大數(shù)據(jù)集訓(xùn)練學(xué)習需要較高的實驗設(shè)備,例如在運行KNN傳統(tǒng)算法對手寫數(shù)字進行分類時,時長均在30分鐘以上,可見該算法雖然可靠性較高,但識別效率不高,因此希望通過PCA實現(xiàn)在保留更多變量的同時,將“高維數(shù)據(jù)”集映射到“低維空間”,結(jié)合SVM計算原理,以實現(xiàn)手寫數(shù)字識別算法的優(yōu)化。

    3.2 PCA-SVM模型生成步驟

    在對數(shù)據(jù)進行讀取的同時輸入數(shù)據(jù)標簽,抽取一部分數(shù)字組成n×n矩陣,對數(shù)據(jù)在不同維度下的精確率進行排序選取,精確率最高的維度即為該數(shù)據(jù)集最適合進行特征提取的維度,對PCA處理“降維”后的數(shù)據(jù)利用SVM算法進行距離的計算與排序,得到基于PCA“降維”優(yōu)化后,再通過SVM運算得到脫機手寫數(shù)字識別可靠度。

    3.3 PCA-SVM算法的系統(tǒng)實現(xiàn)與結(jié)果分析

    3.3.1分類模型的實現(xiàn)

    此處沿用第三章中提到的MNIST數(shù)據(jù)集,該數(shù)據(jù)集每行代表一幅數(shù)字,一幅數(shù)字圖像是28×28像素,即共有784列(維)。在輸入數(shù)據(jù)和標簽后,本文選取了前64維數(shù)字組成一個8×8的矩陣。

    通過PCA“降維”的方法對數(shù)據(jù)進行多次嘗試,測試過程中發(fā)現(xiàn)從784個維度至10維度隨機選取的9個維度準確率結(jié)果如表1顯示,在維度的變化中,在選取25維度時準確率已經(jīng)達到96%,“降維”效果較好。

    表1 PCA 維度對準確率的影響展示表

    而在25維度之后,由于PCA維度驟減導(dǎo)致方差較小但重要的信息被過濾,從而使得準確率降低,如圖1所示:

    圖1 PCA維度對準確率的影響

    3.3.2結(jié)果展示與分析

    為了進一步證實PCA“降維”對分類模型的優(yōu)化,本文運用算法進行了數(shù)據(jù)集的識別,相比較單獨運用KNN(k=4)算法實現(xiàn)手寫數(shù)字識別結(jié)果可見,雖然在PCA維度縮減和KNN(k=4)模型重建之后的數(shù)據(jù)特征會損失2%左右的預(yù)測準確性,但是對于原784特征的實驗數(shù)據(jù)來說,PCA數(shù)據(jù)維度的運用大大減少了冗雜數(shù)據(jù)對數(shù)字骨架特征提取的影響,使得模型便于對數(shù)據(jù)集進行特征提取與劃分,并且在時效的提高和實驗設(shè)備的運行損耗上有了明顯的改善。在同樣運用SVM運算模塊前提下,PCA“降維”后的模型在準確度上有明顯的提高,錯誤數(shù)減少了195個,雖然所用時間變長,但其確保了對數(shù)據(jù)識別的準確率,由此可見PCA“降維”處理對模型優(yōu)化效用明顯,在不同單獨算法模型的推廣和運用上可行性較高。

    4 總結(jié)與展望

    4.1 總結(jié)

    本文著重探討了如何利用PCA“降維”對脫機手寫數(shù)字識別算法模型進行優(yōu)化。在此期間運用經(jīng)典算法例如KNN、SVM分別實現(xiàn)對MNIST數(shù)據(jù)集識別、分類,由此證明PCA“降維”對手寫字符數(shù)據(jù)的優(yōu)化處理能提高原模型的識別精確率,并且,PCA-SVM模型可靠性最高,時長最短。

    4.2 展望

    [1]章仁飛.基于支持向量機的多類數(shù)字調(diào)制識別方法[J] 世界科技研究與發(fā)展.2013(1):1-3.

    [2]趙曉娟.手寫體數(shù)字及英文字符的識別研究[D].吉林.東北師范大學(xué).2010.

    [3]劉荷葦.基于CUDA編程的神經(jīng)網(wǎng)絡(luò)手寫數(shù)字識別[D].成都.西南交通大學(xué).2013.

    [4]白天毅.基于神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別關(guān)鍵技術(shù)研究[D].西安.西安工業(yè)大學(xué).2014.

    猜你喜歡
    手寫降維準確率
    手寫比敲鍵盤更有助于學(xué)習和記憶
    Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
    我手寫我心
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
    2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
    抓住身邊事吾手寫吾心
    降維打擊
    海峽姐妹(2019年12期)2020-01-14 03:24:40
    基于集成學(xué)習的MINIST手寫數(shù)字識別
    電子制作(2018年18期)2018-11-14 01:48:08
    高速公路車牌識別標識站準確率驗證法
    汉阴县| 平塘县| 紫云| 鹿邑县| 铜梁县| 富顺县| 藁城市| 榕江县| 大城县| 武汉市| 皋兰县| 西吉县| 武强县| 东丽区| 常熟市| 尉氏县| 平远县| 德安县| 河南省| 客服| 和平区| 道孚县| 华池县| 德州市| 兴国县| 页游| 工布江达县| 文成县| 潼南县| 凤翔县| 平遥县| 乌鲁木齐市| 武乡县| 怀集县| 宿迁市| 栖霞市| 白山市| 东乌珠穆沁旗| 富宁县| 宣武区| 南溪县|