• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      初中數(shù)學(xué)維吾爾文教材詞頻統(tǒng)計(jì)分析

      2014-03-19 02:54:24熱西旦玉素甫
      語(yǔ)文學(xué)刊 2014年2期
      關(guān)鍵詞:維吾爾文維吾爾語(yǔ)用詞

      ○熱西旦·玉素甫

      (新疆師范大學(xué),新疆 烏魯木齊830054)

      詞頻統(tǒng)計(jì)是數(shù)據(jù)與信息處理、知識(shí)挖掘與傳播中的中心和基礎(chǔ)性工作,只有比較準(zhǔn)確地在文章中統(tǒng)計(jì)出詞及其頻度,才能進(jìn)行所有的下一步工作。維吾爾語(yǔ)是新疆地區(qū)少數(shù)民族使用較為廣泛的一種語(yǔ)言,系跨境語(yǔ)言,有自己的特點(diǎn),維吾爾文有32個(gè)字母,其中8個(gè)元音字母,24個(gè)輔音字母,在對(duì)維吾爾語(yǔ)統(tǒng)計(jì)時(shí)發(fā)現(xiàn)表面上毫無(wú)關(guān)系的詞頻之間實(shí)際上存在著內(nèi)在的聯(lián)系。

      一、詞頻統(tǒng)計(jì)的產(chǎn)生

      19世紀(jì)90年代初,一項(xiàng)龐大的語(yǔ)言調(diào)查工程在德國(guó)展開??硕ǎ↘aeding,F(xiàn).W.)在眾多合作者的協(xié)作下,耗時(shí)七年,手工統(tǒng)計(jì)了以報(bào)刊為主的14個(gè)語(yǔ)料來(lái)源的資料。在110份語(yǔ)料中,總詞匯量達(dá)10,910,777條。經(jīng)統(tǒng)計(jì),頻率在4以上的詞共79,716個(gè)。調(diào)查結(jié)果形成一部厚達(dá)671頁(yè)的《德語(yǔ)頻率詞典》,于1898年出版。這是第一次現(xiàn)代意義上的以統(tǒng)計(jì)調(diào)查方法完成的詞匯研究工作。緊隨克定詞表出現(xiàn)的是1920年美國(guó)學(xué)者凱尼斯頓(KOiston)的《西班牙語(yǔ)常用詞匯》和1921年美國(guó)教育學(xué)家兼心理學(xué)家桑代克(Thorndidc,E,L。1874~1949)編寫的《教師一萬(wàn)詞詞書》、《教師二萬(wàn)詞詞書》。

      二、語(yǔ)料資源的采集與預(yù)處理

      (一)采集對(duì)象的確定

      2003年,全球語(yǔ)言監(jiān)測(cè)網(wǎng)建立,總部設(shè)在美國(guó)圣地亞哥。它的主要任務(wù)是公布英語(yǔ)語(yǔ)言生活中產(chǎn)生廣泛影響的語(yǔ)言現(xiàn)象,包括各種新詞語(yǔ)、流行語(yǔ)、外來(lái)語(yǔ)以及政治性錯(cuò)誤用語(yǔ),對(duì)于語(yǔ)言發(fā)展趨勢(shì)以及其對(duì)政治、文化和經(jīng)濟(jì)影響的專業(yè)分析等。目前,在現(xiàn)代維語(yǔ)詞語(yǔ)使用頻率和分布情況方面,雖然有一定的研究,但是沒(méi)有對(duì)初中維吾爾文數(shù)學(xué)教材進(jìn)行真實(shí)語(yǔ)料的統(tǒng)計(jì)和研究,無(wú)法提供初中維吾爾文用詞分布情況具有科學(xué)性的依據(jù)。初中數(shù)學(xué)維吾爾文教材是九年義務(wù)教育課程的重要教學(xué)資源,其用詞狀況直接關(guān)系到數(shù)學(xué)教學(xué)的效果。為了研究初中數(shù)學(xué)維吾爾文教材中的用詞狀況,寫出了本文章。

      (二)語(yǔ)料資源的采集

      構(gòu)建初中數(shù)學(xué)維吾爾文教材語(yǔ)料庫(kù),語(yǔ)料文件格式轉(zhuǎn)換(語(yǔ)料庫(kù)來(lái)源:新疆師范大學(xué)人文社會(huì)科學(xué)重點(diǎn)研究基地和重點(diǎn)實(shí)驗(yàn)室提供)文本分類(初中維吾爾文各冊(cè)數(shù)學(xué)書的課文,練習(xí)等)文本統(tǒng)計(jì)(圖片統(tǒng)計(jì)、公式統(tǒng)計(jì)、表格統(tǒng)計(jì)、定義統(tǒng)計(jì)等)構(gòu)建生語(yǔ)料庫(kù)(通過(guò)轉(zhuǎn)換工具把doc文件轉(zhuǎn)換成txt文件,內(nèi)容保持一致)。

      (三)語(yǔ)料資源的預(yù)處理

      隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,詞匯的計(jì)量研究近十幾年來(lái)逐漸成熟,人們更多、更廣地利用詞匯計(jì)量方式探索各領(lǐng)域的詞匯規(guī)律與特點(diǎn)?;诂F(xiàn)代維吾爾語(yǔ)詞匯統(tǒng)計(jì)研究也需要諸多的新成果,本文利用維吾爾文信息處理技術(shù),對(duì)人教版(維吾爾文)全日制普通初中數(shù)學(xué)教材的文本與詞匯進(jìn)行相關(guān)統(tǒng)計(jì)并將統(tǒng)計(jì)結(jié)果進(jìn)行比較分析概貌,對(duì)初中數(shù)學(xué)教材的文本與詞匯進(jìn)行相關(guān)統(tǒng)計(jì)并分析初中數(shù)學(xué)教材指出相關(guān)的觀點(diǎn)。在文章中要做語(yǔ)料的準(zhǔn)備,分類,調(diào)整,開發(fā)軟件,對(duì)語(yǔ)料進(jìn)行統(tǒng)計(jì)等等重要工作。通過(guò)分詞及詞頻統(tǒng)計(jì)軟件,筆者將先前獲得的生語(yǔ)料進(jìn)行了初步的分詞,并將詞頻表導(dǎo)出為微軟的表格文件,微軟辦公軟件中的表格數(shù)據(jù)處理文件是一個(gè)功能十分強(qiáng)大而且非常易用的數(shù)據(jù)統(tǒng)計(jì)工具,可以在其中做出相應(yīng)的用詞調(diào)查報(bào)告。

      三、用詞使用情況

      (一)調(diào)查內(nèi)容

      本次的調(diào)查對(duì)象主要是維吾爾文初中數(shù)學(xué)語(yǔ)料中的詞。對(duì)這些詞的調(diào)查項(xiàng)目主要有頻次、頻率、詞匯長(zhǎng)度、文本書等。頻次詞是在實(shí)際應(yīng)用中,出現(xiàn)次數(shù)多、使用較頻繁的詞,頻率即每一調(diào)查對(duì)象的頻次與整個(gè)語(yǔ)料所含調(diào)查對(duì)象總次數(shù)的比值,抽樣一定數(shù)量的語(yǔ)料,計(jì)算其中各個(gè)不同詞語(yǔ)的出現(xiàn)次數(shù),每個(gè)詞語(yǔ)的出現(xiàn)次數(shù),叫做這個(gè)詞語(yǔ)的頻度。每個(gè)詞語(yǔ)的頻度與總頻度和之比,叫做頻率。這就是詞頻統(tǒng)計(jì)工程最主要的方法,或稱頻度(或頻率)的方法。

      (二)調(diào)查結(jié)果

      本人在研究中通過(guò)一些相關(guān)的系統(tǒng)處理了以下的結(jié)果,在系統(tǒng)中本人主要處理了一些關(guān)于詞匯的頻次、頻率、詞匯長(zhǎng)度、文本書等等數(shù)據(jù),下面的表格有一部分?jǐn)?shù)據(jù),在結(jié)果里可以看出來(lái)在初中維吾爾文數(shù)學(xué)教材中用得最多的詞是等等。

      教材每?jī)?cè)詞匯分布情況表

      四、結(jié)語(yǔ)

      初中數(shù)學(xué)維吾爾文詞頻統(tǒng)計(jì)系統(tǒng)是在計(jì)算語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)的軟件開發(fā)思想基礎(chǔ)上,根據(jù)系統(tǒng)需求設(shè)計(jì)和實(shí)現(xiàn)詞頻的統(tǒng)計(jì)系統(tǒng)。本文作者根據(jù)初中數(shù)學(xué)維吾爾語(yǔ)信息處理的工作流程,完成了對(duì)初中數(shù)學(xué)維吾爾文詞頻統(tǒng)計(jì)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。系統(tǒng)實(shí)現(xiàn)了使用真實(shí)的語(yǔ)料,以顯示系統(tǒng)進(jìn)度方式,通過(guò)構(gòu)詞規(guī)則的方法來(lái)判斷是否維吾爾文的詞,并在分析每一個(gè)文本的過(guò)程中一邊存儲(chǔ)詞匯,一邊對(duì)詞匯的頻次、頻率、詞匯長(zhǎng)度、文本書數(shù)據(jù),對(duì)系統(tǒng)統(tǒng)計(jì)結(jié)果進(jìn)行分析。目前,該系統(tǒng)還有不少問(wèn)題需要進(jìn)一步解決。比如,進(jìn)行詞頻統(tǒng)計(jì)之前準(zhǔn)備的電子資料非常費(fèi)時(shí),而且人工調(diào)整會(huì)有失誤,為解決此問(wèn)題,文本的調(diào)整就很重要,要是在統(tǒng)計(jì)功能之前有一個(gè)文本調(diào)整功能,就能保證統(tǒng)計(jì)的準(zhǔn)確率。

      [1]艾孜爾古麗,等.現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012(2).

      [2]艾孜爾古麗,等.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞干提取和應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2012(3).

      [3]玉素甫,艾孜爾古麗,基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞尾切分和應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012(4)

      [4]哈米提·鐵木爾.現(xiàn)代維吾爾語(yǔ)法[M].民族出版社,1987.

      [5]玉素甫,艾孜爾古麗,基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞長(zhǎng)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012(5).

      [6]艾斯卡爾·亞庫(kù)甫,艾孜爾古麗,玉素甫.維吾爾文語(yǔ)料庫(kù)建設(shè)中文件格式轉(zhuǎn)換技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012(6)(已錄用No 803783).

      猜你喜歡
      維吾爾文維吾爾語(yǔ)用詞
      需注意的規(guī)范醫(yī)學(xué)用詞
      強(qiáng)化詩(shī)詞用詞的時(shí)代性
      蒼涼又喧囂:《我與地壇》中的用詞
      西部少數(shù)民族語(yǔ)言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
      寫話妙計(jì)之用詞準(zhǔn)確
      統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語(yǔ)人名識(shí)別方法
      維吾爾語(yǔ)話題的韻律表現(xiàn)
      維吾爾語(yǔ)詞重音的形式判斷
      維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
      察合臺(tái)維吾爾文古籍的主要特點(diǎn)
      阜宁县| 德阳市| 开平市| 嘉定区| 安泽县| 元江| 随州市| 灵山县| 元阳县| 武义县| 孙吴县| 定结县| 华亭县| 泸定县| 桦南县| 滦南县| 通化市| 江孜县| 西盟| 仙桃市| 神池县| 绥棱县| 肇东市| 洪泽县| 江孜县| 昆山市| 会昌县| 宁安市| 万载县| 北辰区| 桂东县| 平顺县| 博白县| 伊宁市| 凌云县| 杂多县| 双牌县| 凉山| 平顶山市| 曲松县| 清徐县|