• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漢字的大數(shù)據(jù)分析與可視化

      2018-05-30 11:50:08木合塔爾·沙地克布合力齊姑麗·瓦斯力
      中文信息 2018年5期
      關(guān)鍵詞:同音字多音字聲調(diào)

      木合塔爾·沙地克 布合力齊姑麗·瓦斯力

      摘 要:學(xué)國語是每位中國人的神圣職責(zé)。作為少數(shù)民族,學(xué)國語的難點莫過于是聲調(diào)。為了掀起學(xué)習(xí)國語的熱潮、揭開漢字聲調(diào)的神秘面紗,創(chuàng)新理念思路、創(chuàng)新方式方法對漢字進(jìn)行大數(shù)據(jù)分析并可視化。首先自動獲取Unicode漢字字符集中的所有漢字及其拼音,其后進(jìn)行基于聲調(diào)、多音字、同音字等多角度的分析并其可視化。分析發(fā)現(xiàn),漢字中第四聲調(diào)的最多;忽略聲調(diào)有421種發(fā)音,前二十發(fā)音的漢字累計占比20%;加聲調(diào)有1202種發(fā)音,前二十發(fā)音的漢字累計占比10%。雖然漢字入門比較難進(jìn),但學(xué)會常用字后,無需死記硬背海量詞匯。

      關(guān)鍵詞:多音字 同音字 聲調(diào) 基本漢字

      中圖分類號:TP392 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-9082(2018)05-0-02

      引言

      中華文化歷史悠久,內(nèi)涵豐富。能夠代表中華文化的符號數(shù)量眾多,其中最具有代表性的,一定非漢字莫屬。這不僅因為漢字是中華文化的載體,更是因為漢字本身就是中華文化不可或缺的組成部分1。漢字是世界上最古老的文字之一,已有四千多年的歷史。漢字的數(shù)量并沒有準(zhǔn)確數(shù)字,大約將近十萬個,日常所使用的漢字只有幾千個。

      Unicode 是全球文字統(tǒng)一編碼。它把世界上的各種文字的每一個字符指定唯一編碼,實現(xiàn)跨語種、跨平臺的應(yīng)用。基本漢字Unicode編碼范圍為4E00-9FA5,其中:大陸(S)提出的漢字17124個,臺灣(T)提出的漢字17258個;S與T的并集,即中國(C)提出的漢字為20158個。日本(J)提出的漢字為12157個,中國未提出的690個(Ja);韓國(K)提出的漢字為7477個,其中中國未提出的90個(Ka);Ja與Ka并集共744字2。

      《國家中長期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012-2020年)》提出了到2020年,普通話在全國范圍內(nèi)基本普及,漢字社會應(yīng)用的規(guī)范化程度進(jìn)一步提高,漢語拼音更好地發(fā)揮作用3。十九大報告提出“文化是一個國家、一個民族的靈魂。文化興國運興,文化強(qiáng)民族強(qiáng)。沒有高度的文化自信,沒有文化的繁榮興盛,就沒有中華民族偉大復(fù)興” 4。

      本文為了推廣和普及國家通用語言文字、提高國民語言文字應(yīng)用能力、弘揚傳播中華優(yōu)秀文化、掀起學(xué)習(xí)國語的熱潮、揭開漢字的神秘面紗,創(chuàng)新理念思路、創(chuàng)新方式方法,對Unicode基本漢字字符集中的20902個漢字進(jìn)行了統(tǒng)計分析與可視化。

      一、分析與可視化

      1.聲調(diào)占比分析(含多音)

      在基本漢字字符集的常用發(fā)音(即一字一音)聲調(diào)占比分析5基礎(chǔ)上,對含多音情況進(jìn)行聲調(diào)占比分析,如表1所示:

      表中看到,在基本漢字字符集中,發(fā)音為第一聲調(diào)的有7053個;第二聲調(diào)的有7734個;第三聲調(diào)的有4789個;第四聲調(diào)的最多,即9830個;輕聲或非漢字的有244個。在此基礎(chǔ)上,進(jìn)行占比分析,如圖1所示:

      圖中看到,第一聲調(diào)占比23.79%,第二聲調(diào)占比26.08%,第三聲調(diào)占比16.15%,第四聲調(diào)占比33.15%,輕聲或非漢字發(fā)音占比0.82%。

      另外,發(fā)音總數(shù)有明顯增大,即20902個漢字共有29650中發(fā)音,比常用發(fā)音多出了8748個音。各聲調(diào)的發(fā)音數(shù)也相應(yīng)的增加,其中第四聲的增幅最大,即增加了3167個,第三聲增加1418個,第二聲增加2098個,第一聲增加1969個,輕聲或非漢字發(fā)音增加96個。

      2.多音字分析

      在基本漢字字符集20902個漢字中,多音字有6164個(有兩個及以上發(fā)音),其中發(fā)音最多的前十漢字,如表2所示:

      表中看到,有些漢字的發(fā)音包括非漢語拼音,如“欸”、“誒”等。

      3.同音字分析

      3.1不帶聲調(diào)情況

      在基本漢字字符集20902個漢字中,共有421種不帶聲調(diào)的發(fā)音(即忽略聲調(diào)),其中前十同音字如表3所示(表中每種發(fā)音只取前十漢字):

      表中看到,讀音為yi的漢字共有364個,前十同音字中每個發(fā)音對應(yīng)的漢字?jǐn)?shù)均超過200。

      3.2帶聲調(diào)情況

      在基本漢字字符集20902個漢字中,共有1202種帶聲調(diào)的發(fā)音(不考慮多音字情況),其中前十同音字如表4所示(表中每種發(fā)音只取前十漢字):

      表中看到,讀音為yì的漢字共有203個,比不帶聲調(diào)的yi減少了161個,前十帶聲調(diào)同音字中每個發(fā)音對應(yīng)的漢字?jǐn)?shù)均超過90。

      4.同音字頻率分布

      4.1不帶聲調(diào)情況

      對基本漢字字符集中20902個漢字的421種不帶聲調(diào)發(fā)音進(jìn)行頻率分布分析,如圖2所示:

      圖中看到,頻率最高的前二十個發(fā)音的漢字?jǐn)?shù)占整個漢字的20%;yi,ji,yu,xi,zhi,li,yan,fu等八個發(fā)音的漢字占整個漢字的10%。

      4.2帶聲調(diào)情況

      對基本漢字字符集中20902個漢字的1202種帶聲調(diào)發(fā)音進(jìn)行頻率分布分析,如圖3所示:

      圖中看到,頻率最高的前二十個帶聲調(diào)發(fā)音的漢字?jǐn)?shù)占整個漢字的10%;yì,lì,xī,yù,zhì,bì,jī,jì,qí,fú等八個發(fā)音的漢字占整個漢字的6%。

      5.拼音云

      5.1不帶聲調(diào)情況

      繪制基本漢字字符集中20902個漢字的421種不帶聲調(diào)發(fā)音的拼音云圖,如圖4所示:

      圖中看到,yi,ji,yu,zhi,xi等包含最多同音詞的不帶聲調(diào)發(fā)音以大字顯示。

      5.2帶聲調(diào)情況

      繪制基本漢字字符集中20902個漢字的1202種帶聲調(diào)發(fā)音的拼音云圖,如圖5所示:

      圖中看到,yì,lì,xī,yù,zhì等包含最多同音詞的帶聲調(diào)發(fā)音以大字顯示。

      結(jié)語

      漢字的大數(shù)據(jù)非常博淵深奧,探淵索珠不易之事。本文只是對基本字符集中漢字的一知半解(因篇幅原因,除了聲調(diào)占比分析外,其它部分沒考慮一字多音情況)。學(xué)習(xí)漢字學(xué)的意義遠(yuǎn)不止于了解漢字的這些特征,通過漢字的深入研究,可以獲得更多的靈感,學(xué)到更多的研究漢字的方法6。

      中國文化起源于漢字,漢字對中華文明的傳播起到了不可或缺的作用。它是中華民族和世界的共同財富,不僅給漢民族帶來了文化的繁榮,也對我國其他少數(shù)民族的文化發(fā)展產(chǎn)生了深遠(yuǎn)影響。在幾千年的歷史當(dāng)中,繼續(xù)發(fā)展傳播日本、韓國、越南、新加坡等國家,在他們的文字和文化發(fā)展中發(fā)揮了重要作用。

      文化認(rèn)同是一種群體文化認(rèn)同的感覺。對外來文化價值的認(rèn)同,足以瓦解一國的政治制度,民族的凝聚力;反之,人民對本國自身文化的強(qiáng)烈認(rèn)同,既是該國自立于世界民族之林的偉大精神力量,又是使民族在激烈的國際競爭中立于不敗之地。

      學(xué)國語是每位中國人的神圣職責(zé)。作為少數(shù)民族,學(xué)國語的難點莫過于是聲調(diào)。經(jīng)過分析發(fā)現(xiàn),漢字中第四聲調(diào)的最多,忽略聲調(diào)時有421種發(fā)音,考慮聲調(diào)有1202種發(fā)音。雖然漢字入門比較難進(jìn),但學(xué)會常用字后,無需死記硬背海量詞匯。作為中華文化的傳承人,“要以科學(xué)武裝自己、把文化自信作為底氣,發(fā)展中國特色社會主義文化”4是我們不可推卸的責(zé)任。

      參考文獻(xiàn)

      [1]王立.漢字的強(qiáng)大生命力源自哪里?[EB/OL].(2017-11-30)[2017.12.4].光明日報微信平臺: http://mp.weixin.qq.com/s/g3zVyAW0_Kq_VqcB_Kfcsg.

      [2]漢典.漢字簡介. [EB/OL].[2017.12.4].http://www.zdic.net/appendix/f21.htm.

      [3]360百科.《國家中長期語言文字事業(yè)改革和發(fā)展規(guī)劃綱要(2012-2020年)》. [EB/OL].[2017.12.4]. https://baike.so.com/doc/8706653-9028846.html.

      [4]習(xí)近平.中共十九大開幕,習(xí)近平代表十八屆中央委員會作報告(直播全文).[EB/OL].(2017-10-18)[2017.12.4].http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm.

      [5]木合塔爾·沙地克,布合力齊姑麗·瓦斯力. 用Python數(shù)據(jù)分析方法進(jìn)行漢字聲調(diào)頻率統(tǒng)計分析[J].電腦知識與技術(shù), 2017年12月(已錄用).

      [6]百度文庫.漢字學(xué).[EB/OL].(2011-01-09)[2017.12.4].https://wenku.baidu.com/view/f3f0e52558fb770bf78a55ba.html

      猜你喜歡
      同音字多音字聲調(diào)
      巧記多音字
      聲調(diào)歌
      奇趣多音字
      巧記多音字
      聲調(diào)符號位置歌
      同音字與多音字練習(xí)
      面向語音合成的藏語同音字研究*
      西藏科技(2022年3期)2022-04-22 09:17:20
      聲調(diào)歌
      單韻母扛聲調(diào)
      同音字 我會分
      平舆县| 黔江区| 莫力| 大化| 夏邑县| 阿勒泰市| 武乡县| 东乌珠穆沁旗| 横峰县| 密山市| 汝州市| 张家界市| 肇庆市| 醴陵市| 自治县| 田东县| 晴隆县| 景谷| 隆林| 福安市| 宁波市| 义乌市| 孝义市| 鲜城| 荥经县| 威远县| 沁阳市| 双辽市| 长白| 凤阳县| 新疆| 万全县| 息烽县| 招远市| 石家庄市| 永德县| 额济纳旗| 贵溪市| 山丹县| 红河县| 沈丘县|