• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于SVM的多特征手寫體漢字識別技術

    2016-09-19 01:13:35周慶曙陳勁杰紀鵬飛
    電子科技 2016年8期
    關鍵詞:手寫體筆劃超平面

    周慶曙,陳勁杰,紀鵬飛

    (上海理工大學 機械工程學院,上海 200093)

    ?

    基于SVM的多特征手寫體漢字識別技術

    周慶曙,陳勁杰,紀鵬飛

    (上海理工大學 機械工程學院,上海 200093)

    針對傳統的模板匹配法對漢字的識別率較低,文中提出一種基于SVM的多特征手寫體漢字識別技術。在提取網格特征的基礎上增加對漢字質心特征、筆劃特征、特征點的提取,并采用SVM算法構造分類器,實現對手寫體漢字的識別。實驗結果表明,該方法的平均識別率為95.9%,高于傳統的模板匹配法。

    SVM;網格特征;質心特征;筆劃特征;特征點

    漢字作為中華民族文化的信息載體,與人們的日常學習和工作密不可分。在網絡信息交流中,需要輸入大量的中文信息[1],重復、單調的傳統鍵盤手工輸入方式效率低下,已逐漸不能滿足迅速發(fā)展的信息化時代。而傳統的模板匹配法對于漢字的識別率不高,作者提出一種基于SVM的多特征手寫漢字識別技術,可大幅提高漢字的識別率以及錄入效率。

    1 系統流程

    首先對漢字圖像進行灰度化、二值化、形態(tài)學處理、傾斜校正、字符分割和歸一化、細化等圖像預處理操作,再對字符進行特征提取,最后采用SVM算法構造分類器。系統識別流程如圖1所示。

    2 SVM原理

    SVM (Support Vector Machines)是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的,面對小樣本問題,其能表現出良好的學習能力,并能做到與數據的維數無關[2]。

    圖1 漢字識別流程圖

    SVM方法是從線性可分情況下的最優(yōu)分類超平面提出的,所謂最優(yōu)分類超平面就是要求分類平面不但能將兩類無錯地分開,且要使分類平面兩側樣本之間的間隔最大[4]。過兩類樣本中離最優(yōu)分類超平面最近的點,且平行于最優(yōu)分類超平面的分類超平面上的訓練樣本稱為支持向量[3]。設樣本集(xi,yi),xi∈Rd,yi∈{1,-1},i=1,…,n。在線性可分情況下,則可找到權向量w,使兩類間隔最大,即‖w‖2最小,同時滿足

    yi[(w,xi)+b]-1≥0

    (1)

    其中,i=1,…,n,n表示分類樣本的數目。

    為求解上述優(yōu)化問題,引入拉格朗日函數

    (2)

    式中,α為拉格朗日乘子,αi≥0。

    通過拉格朗日函數L分別對w,b求偏導,并令偏導數值為0,結果代入超平面方程得到最優(yōu)分類函數

    (3)

    漢字識別的分類對象是非線性不可分的。對于不可分問題,可通過引入非負松弛變量ξi加以解決,則約束條件變?yōu)?/p>

    yi[(w·xi)+b]≥1-ξi

    (4)

    (5)

    式中,C是懲罰因子,用來調節(jié)分類的準確率與泛化能力[5]。拉格朗日乘子α的取值范圍變?yōu)?≤αi≤C。對于低維空間的非線性可分問題,可通過引入核函數解決。原始數據的核函數變換為(xi·xj)→K(xi·xj),則非線性情況下,使用核函數之后對應的分類函數為

    (6)

    3 關鍵技術

    3.1質心特征的提取

    質心特征是字符筆劃分布的體現[6]。將二值圖像轉化成點陣形式,黑色像素點用“1”表示,白色像素點用“0”表示。設c(i,j)表示漢字點陣,質心計算如下:水平質心

    (7)

    垂直質心

    (8)

    式中,i表示該點陣的行;j表示該點陣的行。

    3.2筆劃特征的提取

    漢字由橫、豎、撇、捺4種基本筆劃構成,筆劃的構成體現了漢字的基本形態(tài)[7]。下面對4種基本筆劃進行提取。

    (1)橫、豎筆劃的提取。橫筆劃中所有的像素點具有同一縱坐標,而豎筆劃中所有的像素點具有同一橫坐標[8]。其特征明顯,提取算法也基本相同。本文提出一種將細化后圖像與原圖像相結合的筆劃提取方法,方法如下:1)對細化后圖像進行自上而下、從左往右的水平掃描,若同一縱坐標上連續(xù)的黑點個數大于或等于2,則記下這些黑點的坐標;2)對原圖像進行水平掃描,若這些黑點依然連續(xù),則說明這些黑點構成一個橫筆劃,橫筆劃數量加1;3)重復第1、2步;4)當細化后圖像水平掃描全部完成時,記下橫筆劃數。同理,對細化后圖像進行自左向右而下、從上往下的豎直掃描,可得到豎筆劃數;

    (2)撇、捺筆劃的提取。1)將細化后圖像中的橫、豎筆劃刪除,降低圖像的復雜性;2)自上而下、從左往右的水平掃描細化后圖像,如果第i行掃描到黑點,記下該黑點的縱坐標yi;3)跳出對第i行的掃描,依次掃描第i+1,i+2,i+3,…,20行,記下首次掃描到黑點的縱坐標y2,y3,y4,…,y21-i;4)比較y2,y3,y4,…,y21-i,若滿足yj+1≤yj≤yj+1+1∪yj+2≤yj≤yj+2+2,j∈{1,2,3,…,20-i},則這些點構成一撇筆劃,撇筆劃數量+1,若滿足yj≤yj+1≤yj+1∪yj≤yj+2≤yj+2,j∈{1,2,3,…,20-i},則這些點構成一捺筆劃,捺筆劃數量+1;5)刪除已提取的撇、捺筆劃,重復第2)~4)步;6)掃描結束后,記下撇、捺筆劃數。

    3.3特征點的提取

    漢字筆劃特征點主要有端點、折點、歧點、交點[9]。端點是筆劃的起點或終點(不與其他筆劃相接);折點是指筆劃方向出現顯著變化的點;歧點是三叉點,要求其中兩個筆端的分支方向相同;交點是四叉點,且有兩對等的對頂角。自左向右、自上而下的對二值圖像進行掃描,統計各筆劃特征點的個數。

    3.4構造分類器

    SVM方法的關鍵環(huán)節(jié)是選取參數(C,γ)[10]。本文通過網格化尋優(yōu)和交叉驗證的方法得到訓練集500×10(10個漢字各有500個樣本)的最優(yōu)參數為(1.76,0.02)。500×10訓練集的最優(yōu)參數網格化尋優(yōu)如表1所示。

    表1 500×10訓練集的最優(yōu)參數網格化尋優(yōu)

    4 實驗與分析

    實驗使用的計算機平臺為三星R467筆記本,2.13 GHz CPU,4 GB RAM,Win7 32位操作系統,軟件平臺為Visual Studio 2010。實驗圖片來自于HCL2000脫機手寫漢字庫,使用開源的LIBSVM軟件包作為SVM的開發(fā)工具。

    作者選取訓練集500×10、測試集200×10的樣本進行3組實驗,第一組采用多特征模板匹配法,第二組采用網格特征SVM法,第三組采用多特征SVM法。3組實驗的結果如表2~表4所示。由實驗結果可知,多特征模板匹配法的平均識別率為81.1%,網格特征SVM法的平均識別率為89.1%,多特征SVM法的平均識別率為95.1%,相比于傳統的模板匹配法,多特征SVM法的識別率得到顯著提高,從而驗證了該方法的有效性。

    圖2 用于實驗的10個漢字

    真實值識別值千山鳥飛絕萬徑人蹤滅識別率/%平均識別率/%千16623415510138381.1山81573337392578.5鳥53160655364380飛106315407390877絕007117216011286萬873120153180876.5徑117311016805484人103580711610580.5蹤10509041175587.5滅837315611015678

    表3 網格特征SVM法

    表4 多特征SVM法

    5 結束語

    文中提出的基于SVM的多特征手寫體漢字識別技術,為提高漢字的識別率,提取了較為全面的字符特征,但提取更多的字符特征意味著算法更為復雜,這樣將影響程序的執(zhí)行效率,降低了識別速度。因此在今后的研究中,還需繼續(xù)努力改進方法,進一步提高系統的識別速度,使其兼?zhèn)漭^高的識別率和較快的識別速度,這樣才能更好地替代人工錄入。

    [1]姜宇,張子潮,周富強.基于OpenCV的車牌識別系統研究[J].遼寧師范大學學報:自然科學版,2011,34(2):170-174.

    [2]Gary Bradski,Adrian Kaehler.學習OpenCV:中文版 [M].于仕琪,劉瑞禎,譯.北京:清華大學出版社,2009.

    [3]汪芳,康慕寧,李先國.印刷體漢字識別技術[J].情報雜志,2004(2):32-33.

    [4]王建平,錢自拓,王金玲,等.基于數學形態(tài)學的圖像漢字筆劃細化和提取[J].合肥工業(yè)大學學報:自然科學版,2005,28(11):1431-1435.

    [5]陳勝勇,劉盛.基于OpenCV的計算機視覺技術實現[M].北京:科學出版社,2008.

    [6]劉聚寧.印刷體漢字識別系統研究與實現[D].大連:大連理工大學,2011.

    [7]王曉雪.基于字型特征的脫機手寫體漢字多分類識別的研究[D].合肥:合肥工業(yè)大學,2008.

    [8]藺菲.手寫體漢字識別的研究[D].合肥:合肥工業(yè)大學,2006.

    [9]高彥宇,楊揚.脫機手寫體漢字識別研究綜述[J].計算機工程與應用,2004(7):74-77.

    [10] 尹芳,王衛(wèi)兵,陳德運.印刷體英文文檔識別系統的設計與實現[J].哈爾濱理工大學學報,2009,13(6):9-12.

    The Technology of Multiple Features Handwritten Chinese Character Recognition Based on SVM

    ZHOU Qingshu,CHEN Jinjie,JI Pengfei

    (School of Mechanical Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)

    To solve the recognition rate of traditional template matching method is not high for Chinese character, a new method of multiple featureshandwritten Chinese character recognition based on SVM is proposed. In addition to the extraction grid features, also extract the centroid feature, stroke feature, feature point, and use SVM algorithmconstructclassifierto achieve the recognition of handwritten Chinese characters. Experimental results show that the average recognition rate of the proposed method is 95.9% higher than that of the traditional template matching method.

    SVM; grid feature; centroid feature; stroke feature; feature point

    10.16180/j.cnki.issn1007-7820.2016.08.040

    2015-11-20

    周慶曙(1992-),男,碩士研究生。研究方向:機器學習。

    TP391

    A

    1007-7820(2016)08-136-04

    猜你喜歡
    手寫體筆劃超平面
    哐當(外一首)
    哐當(外一首)
    全純曲線的例外超平面
    涉及分擔超平面的正規(guī)定則
    基于大數據下的手寫體識別的設計與研發(fā)
    科技風(2020年3期)2020-02-24 06:52:46
    披著書法外衣的手寫體
    中國篆刻(2019年6期)2019-12-08 15:56:23
    以較低截斷重數分擔超平面的亞純映射的唯一性問題
    加筆劃成新字
    分擔超平面的截斷型亞純映射退化性定理
    KD357:模擬漢字筆劃的漢字鍵盤輸入法
    呼玛县| 德江县| 聂拉木县| 宁远县| 武义县| 丹寨县| 晋宁县| 新竹市| 平罗县| 新邵县| 鹿泉市| 扶风县| 博湖县| 东阿县| 新竹市| 兴仁县| 桐柏县| 称多县| 苍溪县| 天长市| 高邑县| 宜丰县| 项城市| 潼南县| 达尔| 进贤县| 九江县| 永丰县| 呼和浩特市| 嘉兴市| 阜新| 宁安市| 谢通门县| 疏勒县| 新闻| 吉林省| 内乡县| 稻城县| 金乡县| 上蔡县| 灯塔市|