• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法研究

      2019-02-14 02:00:42
      數(shù)字通信世界 2019年1期
      關(guān)鍵詞:手寫體字符識(shí)別率

      胡 霖

      (中國(guó)石油大學(xué)勝利學(xué)院,東營(yíng) 257061)

      1 支持向量機(jī)

      1.1 支持向量機(jī)

      現(xiàn)在,隨著計(jì)算機(jī)科技的發(fā)展,機(jī)器學(xué)習(xí)的關(guān)注度越來(lái)越高,在眾多的及其學(xué)習(xí)方法中支持向量機(jī)是一個(gè)應(yīng)用比較廣泛的及其學(xué)習(xí)方法。支持向量機(jī)(support vector machines,SVM)的理論主要是建立在統(tǒng)計(jì)學(xué)習(xí)理論VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)之上[1]。

      在機(jī)器學(xué)習(xí)領(lǐng)域,支持向量機(jī)之所以應(yīng)用廣泛,主要是因?yàn)橹С窒蛄繖C(jī)在解決小樣本、非線性和高維模式識(shí)別問(wèn)題中能夠表現(xiàn)出強(qiáng)大的計(jì)算功能,特別是在遇到“維數(shù)災(zāi)難”和“過(guò)學(xué)習(xí)”等問(wèn)題的過(guò)程中,支持向量機(jī)能夠解決有效解決此類問(wèn)題[2]。同時(shí),支持向量機(jī)也是一種發(fā)展比較成熟的機(jī)器學(xué)習(xí)方法,它的理論發(fā)展非常成熟,數(shù)學(xué)模型易于理解,這就為研究此類算法的研究人員提供了極大的便利。

      機(jī)器學(xué)習(xí)的不斷發(fā)展,極大地促進(jìn)了模式識(shí)別、函數(shù)估計(jì)、回歸分析、時(shí)間序列預(yù)測(cè)等方面的發(fā)展,特別是在在文本識(shí)別、手寫字體識(shí)別、人臉圖像識(shí)別、基因分類及時(shí)間序列預(yù)測(cè)等領(lǐng)域有著重要應(yīng)用。

      1.2 支持向量機(jī)(support vector machines,SVM)的基本算法

      支持向量機(jī)作為及其識(shí)別中的一種分類器,屬于一種兩類分類器,可以通過(guò)對(duì)信息進(jìn)行分類進(jìn)行信息識(shí)別,其基本算法如下。

      設(shè)海量信息中的樣本集中n個(gè)樣本,樣本集表示為(xi,yi),i=1,2……n,xi∈Rd,yi∈{-1,1}可以表示樣本屬于xi的類別。實(shí)際應(yīng)用中,支持向量機(jī)依據(jù)訓(xùn)練樣本的信息找到識(shí)別樣本所需的超平面,將訓(xùn)練樣本分為兩類。在識(shí)別樣本的超平面中,ω是一個(gè)n維向量,x是樣本的向量表示,b為實(shí)數(shù)[3]。

      對(duì)于給定的樣本,理想的情況是使兩類分類邊界的間距最大,稱之為間隔,間隔在數(shù)學(xué)上的定義為。歸一化間隔ω和b后,間隔可以表示為

      歸一化后的間隔,稱為幾何間隔。

      在兩類樣本之間的幾何間隔中,ω是自變量,目標(biāo)函數(shù)是關(guān)于ω的二次函數(shù),約束條件是ω的線性函數(shù),這時(shí),支持向量機(jī)的目標(biāo)識(shí)別問(wèn)題就轉(zhuǎn)化為二次規(guī)劃函數(shù)的求解問(wèn)題,此時(shí)它的約束條件為

      為了解決目標(biāo)識(shí)別過(guò)程中產(chǎn)生的誤差問(wèn)題,此時(shí)需要引入松弛因子和懲罰因子C,引入后信息識(shí)別的過(guò)程中支持向量機(jī)會(huì)在錯(cuò)分時(shí)繼續(xù)工作,此時(shí)幾何間隔在約束條件下變?yōu)?/p>

      利用拉格朗日乘子,最優(yōu)決策函數(shù)為

      其中,sgn()是一個(gè)符號(hào)函數(shù),αi為分類間隔下的拉格朗日乘子。

      2 基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法

      為了提高手寫體數(shù)字的識(shí)別能力,本文提出了一種基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法,對(duì)手寫體數(shù)字的預(yù)處理、端點(diǎn)提取以及四交叉點(diǎn)特征的提取過(guò)程的算法進(jìn)行優(yōu)化。

      2.1 支持向量機(jī)核函數(shù)

      對(duì)于支持向量機(jī)來(lái)說(shuō),當(dāng)其進(jìn)行信息識(shí)別時(shí),經(jīng)常會(huì)遇到信息的線性不可分的現(xiàn)象,這種情況下,為了解決線型不可分問(wèn)題,需要引入核空間理論[4]。

      核空間理論可以解決線性不可分中的高維運(yùn)算過(guò)程中的內(nèi)積問(wèn)題。在支持向量機(jī)算法中,不同的核函數(shù)可以在信息識(shí)別中有不同的效果。支持向量機(jī)的核函數(shù)主要包括線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、二層神經(jīng)網(wǎng)絡(luò)核函數(shù),其中徑向基核函數(shù)和多項(xiàng)式核函數(shù)用途最多。

      在支持向量機(jī)進(jìn)行信息識(shí)別過(guò)程中,為了找到最合適的核函數(shù)和核函數(shù)參數(shù),算法通常使用窮舉搜索法。用窮舉搜索法進(jìn)行實(shí)驗(yàn),找到線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、二層神經(jīng)網(wǎng)絡(luò)核函數(shù)等核函數(shù)中最適合的核函數(shù)和參數(shù)。

      2.2 基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法

      (1)對(duì)手寫體數(shù)字字符進(jìn)行適當(dāng)?shù)念A(yù)處理,為數(shù)字識(shí)別做準(zhǔn)備。

      對(duì)手寫體數(shù)字字符進(jìn)行適當(dāng)?shù)念A(yù)處理的主要目的是解決圖像中的噪聲問(wèn)題,讓原本的數(shù)字變得更加清晰,同時(shí)將灰度圖像轉(zhuǎn)換為二值圖像。將灰度圖像轉(zhuǎn)換為二值圖像主要是便于信息的識(shí)別。預(yù)處理的主要過(guò)程包括讀圖并將其二值、平滑、切割、細(xì)化和歸一化等。

      平滑主要是為了去除手寫過(guò)程中產(chǎn)生圖像時(shí)產(chǎn)生的粗糙點(diǎn),平滑通常采用模板匹配法進(jìn)行粗糙點(diǎn)平滑。本文利用的是二次毛刺去除法對(duì)數(shù)字圖像進(jìn)行平滑處理,對(duì)數(shù)字圖像的毛刺進(jìn)行去除,增加數(shù)字的可識(shí)別性。為了更好地進(jìn)行平滑處理,可以將手寫體的數(shù)字分為粗線條和細(xì)線條兩種分別進(jìn)行處理。

      切割主要是利用算法,根據(jù)手寫體數(shù)字的輪廓將數(shù)字裁剪出來(lái),切割的第一個(gè)步驟是對(duì)手寫體數(shù)字進(jìn)行掃描,目的是確定上下左右切點(diǎn),然后,根據(jù)上下切點(diǎn)的行數(shù)和左右切點(diǎn)的列數(shù)確定要切割的字符的起始和終止的行數(shù)與列數(shù)。

      切割后,對(duì)手寫體數(shù)字進(jìn)行細(xì)化,將線條統(tǒng)一為細(xì)線條,線條細(xì)化后需要對(duì)手寫體數(shù)字進(jìn)行歸一化處理,并在特定大小的圖像空間中。

      去毛刺主要是為了去除細(xì)化后的手寫體數(shù)字邊緣的粗糙點(diǎn),本文提出的基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法需要對(duì)手寫體數(shù)字進(jìn)行兩次去毛刺處理。在對(duì)手寫體數(shù)字進(jìn)行第二次毛刺去除時(shí),要對(duì)不同的模板對(duì)手寫體數(shù)字的的左上、左下、右上、右下、左中、右中、上中和下中八個(gè)方向全部進(jìn)行處理以保證手寫體數(shù)字識(shí)別的準(zhǔn)確率。也需要對(duì)手寫體數(shù)字進(jìn)行模板匹配法,進(jìn)行斷點(diǎn)進(jìn)行修復(fù)。

      (2)利用改進(jìn)的C-支持向量機(jī)進(jìn)行手寫體數(shù)字字符的特征提取。

      特征提取包括很多方面,分別是孔洞特征、端點(diǎn)特征、四交叉點(diǎn)特征、左右截距特征、豎線特征和橫線特征,下面介紹改進(jìn)的C-支持向量機(jī)如何進(jìn)行特征提取。

      手寫體數(shù)字的孔洞特征,第一要找到字符的上切點(diǎn),并按照右、右上、上、左上、左、左下、下和右下八個(gè)方向?qū)κ謱戵w數(shù)字進(jìn)行搜索,重復(fù)以上操作,找到孔洞就需要進(jìn)行特征提取。值得注意的是,在搜索孔洞的過(guò)程中,如果搜索到的手寫體數(shù)字鏈碼碼長(zhǎng)小于算法中閾值,這條線就是一條干擾曲線,算法不需要對(duì)這條線進(jìn)行特征提取。

      豎線特征的提取是主要是用于識(shí)別字符5和字符7,這兩個(gè)數(shù)字具有明顯的豎線特征,橫線特征的提取主要是為了提高字符2的識(shí)別率,同樣,在識(shí)別豎線特征和橫線特征是也采用模板匹配的方法。

      2.3 利用改進(jìn)的C-支持向量機(jī)算法進(jìn)行手寫體數(shù)字識(shí)別

      為了提高手寫體數(shù)字識(shí)別的正確率,降低手寫體數(shù)字識(shí)別誤差,在利用本文算法進(jìn)行識(shí)別的過(guò)程中,要利用模板匹配法提取特征匹配,在識(shí)別的過(guò)程中提前規(guī)定每一個(gè)數(shù)字應(yīng)具備的特征,當(dāng)某個(gè)字符具備這些特征時(shí),就可判定該字符所代表的數(shù)字。

      3 結(jié)束語(yǔ)

      由于計(jì)算機(jī)技術(shù)的發(fā)展,手寫體數(shù)字識(shí)別率還有很多的限制,造成了手寫體數(shù)字識(shí)別率仍然比較低,為了便于手寫體數(shù)字應(yīng)用,很多專家學(xué)者開(kāi)始研究如何提高手寫體數(shù)字識(shí)別率。本文提出了一種基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法,對(duì)手寫體數(shù)字的預(yù)處理、端點(diǎn)提取以及四交叉點(diǎn)特征的提取過(guò)程都提出了具體的實(shí)驗(yàn)方法,實(shí)驗(yàn)結(jié)果證明基于改進(jìn)的C-支持向量機(jī)的手寫體數(shù)字高識(shí)別率方法有效可行,本實(shí)驗(yàn)方法可以提高手寫體數(shù)字識(shí)別率,為更多應(yīng)用手寫體數(shù)字的領(lǐng)域提供技術(shù)支持。

      猜你喜歡
      手寫體字符識(shí)別率
      哐當(dāng)(外一首)
      哐當(dāng)(外一首)
      尋找更強(qiáng)的字符映射管理器
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于大數(shù)據(jù)下的手寫體識(shí)別的設(shè)計(jì)與研發(fā)
      披著書(shū)法外衣的手寫體
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      消失的殖民村莊和神秘字符
      健康| 临城县| 高雄市| 来安县| 临武县| 南木林县| 松潘县| 平陆县| 星子县| 雷州市| 米脂县| 伊宁市| 长海县| 永安市| 吉水县| 修武县| 恩平市| 田林县| 乐都县| 五家渠市| 平谷区| 平凉市| 墨玉县| 雅江县| 佳木斯市| 鸡东县| 东城区| 天水市| 博白县| 安庆市| 成安县| 比如县| 梁山县| 大石桥市| 维西| 石阡县| 长岭县| 海南省| 兰西县| 陈巴尔虎旗| 抚宁县|