• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      “方言同音字匯”自動生成軟件①的設(shè)計及實現(xiàn)

      2013-04-23 12:26:11程南昌
      中文信息學(xué)報 2013年1期
      關(guān)鍵詞:同音字排序方言

      程南昌, 侯 敏

      (1. 中國傳媒大學(xué) 文學(xué)院, 北京 100024; 2. 百色學(xué)院 中文系,廣西 百色 533000; 3. 中國傳媒大學(xué) 有聲媒體語言分中心, 北京 100024)

      ① 軟件下載地址: http://ling.cuc.edu.cn/chs/News_View.asp?NewsID=192(中國傳媒大學(xué)有聲媒體語言資源網(wǎng));http://www.newhua.com/soft/115881.htm(華軍);http://www.crsky.com/soft/27371.html(非凡)。

      ② 引自著名語言學(xué)家張振興給筆者的郵件,此處引用已經(jīng)過張老師同意。

      1 引言

      中國是方言大國,每種方言都有自己的語音系統(tǒng),整理每種方言的語音系統(tǒng)是方言調(diào)查的基本任務(wù)?!胺窖酝糇謪R,簡單說就是把同音的字列放在一起。先把同韻母的字放在一起,再把同聲母的字放在一起,然后把同聲調(diào)的字放在一起。如果韻母、聲母、聲調(diào)都相同的字,只聽讀音,無法分辨到底是哪個字。”②在進(jìn)行方言田野記音調(diào)查之后,第一步要做的,也是最重要的,就是整理出“同音字匯”。在同音字匯整理出來后,才能初步了解整個方言的語音系統(tǒng),這是最基礎(chǔ)的工作。有了同音字匯,方言調(diào)查者才有可能進(jìn)一步記錄語音材料(例如,變調(diào)、兒化、輕聲、音變等),整理方言的詞匯和語法,方言研究者才有可能進(jìn)行方言語音系統(tǒng)以及古今語音演變的研究。另外,行內(nèi)的人也可以通過同音字匯來判斷調(diào)查者的記音是否正確,他人通過同音字匯也可以進(jìn)行該方言的研究。因此,研究方言的人非??粗亍巴糇謪R”。但是“方言同音字匯”的制作相當(dāng)困難,傳統(tǒng)是采用做卡片的方式,做好一個同音字匯需要很長時間,稍不小心,就會出錯,是一項很艱苦的“體力活”??梢哉f,“方言同音字匯”的制作,已成為制約加速方言調(diào)查工作的“瓶頸”。因此,利用計算語言學(xué)的知識,開發(fā)“方言同音字匯”自動生成軟件,就成為我們的一項重要任務(wù)。

      2 相關(guān)研究綜述

      隨著計算機(jī)的出現(xiàn),人們開始利用計算機(jī)輔助方言方面的調(diào)查與研究,以減輕方言調(diào)查者的工作量。在“同音字匯”自動處理方面,相關(guān)研究工作主要有以下三個方面。

      上海師范大學(xué)潘悟云(2006)利用Visual Foxpro開發(fā)了一個“漢語方言計算機(jī)處理系統(tǒng)”,在該系統(tǒng)的第四個功能“方言音系分析”中,可調(diào)入按一定格式建立的Visual Foxpro數(shù)據(jù)庫字表,生成同音字表。但是用戶在使用中必須嚴(yán)格采用該系統(tǒng)所規(guī)定的VFP數(shù)據(jù)庫格式,否則即會出現(xiàn)運行錯誤,并且要求數(shù)據(jù)庫中一定要有漢字、中古聲母、中古韻母、中古聲調(diào)等14個字段。[1]此外,該軟件最終生成的同音字表雖然按韻、聲、調(diào)的順序?qū)ν糇诌M(jìn)行了排序,但每一組同音字都有聲、韻、調(diào)三個屬性,要整理成文本形式的同音字匯“豎排表”,還需要一定的時間。

      廣西民族大學(xué)海柳文[2]利用Visual Foxpro開發(fā)的“漢語方言民族語言語音材料處理軟件”。在進(jìn)行“同音字匯排序”時,該系統(tǒng)只能按英文字母的音序進(jìn)行排序,因此影響了同音字匯生成的精度。

      廣西師范大學(xué)劉村漢[3]基于Excel開發(fā)的“方言字音處理系統(tǒng)”,在生成同音字匯時,要進(jìn)行復(fù)雜的公式運算,操作一不小心,就有可能出錯。對計算機(jī)不熟悉的方言調(diào)查者學(xué)習(xí)和操作起來有較大的難度。

      以上軟件在同音字匯自動生成方面做出了有效的嘗試,并且取得了一定的效果,但是由于在使用與操作上不夠方便,因此,有必要進(jìn)一步開發(fā)一種更加方便快捷的同音字匯自動生成軟件。

      3 軟件的設(shè)計與實現(xiàn)

      3.1 相關(guān)知識

      在方言田野調(diào)查中,往往要依據(jù)一個基本的《方言調(diào)查字表》作為參照,丁聲樹、李榮[4]的《漢語方言調(diào)查簡表》就是一個有代表性的字表,收字2 500多個。現(xiàn)行的《方言調(diào)查字表》為了照顧古音的音韻地位收了不少生僻字。我們在制作軟件的過程中,采用的測試字表共收字3 810個。李如龍[5]認(rèn)為在現(xiàn)行的《方言調(diào)查字表》中,有些字在許多方言中問不出音,勉強問出來也往往不可靠。對一般性調(diào)查來說,這就徒然增加了許多負(fù)擔(dān)。然而對任何一種真實的方言,該字表又是不夠用的,總有些方言特有的音節(jié)調(diào)查不到,單是根據(jù)這個字表記音,整理出來的同音字表會有遺漏。所以,學(xué)者們通常都以《方言調(diào)查字表》為基礎(chǔ),略去他們正在調(diào)查的方言里不用的字,根據(jù)該方言的實際情況補充《方言調(diào)查字表》里沒有的字,最后得到一個該方言的用字總表。漢語的字由字形、字音、字義三部分構(gòu)成。假如不考慮字義,把同形同音的字算一個字,把同形而不同音的字(例如,普通話中的種: zhong214、zhong51、chong35)算不同的字,對用字總表中每個字的讀音進(jìn)行比較,找出讀音相同的字,最后就可以得到一個同音字匯表。理想的同音字匯表中收錄的字都是該方言里用到的字,而沒有收錄的都是該方言里不用的字。

      因此,方言同音字匯自動生成軟件,要面對的是開放的方言調(diào)查字表,要求軟件可以自動判斷字表的字?jǐn)?shù)進(jìn)行統(tǒng)計分析。所需要的數(shù)據(jù)包括“索引、字目、聲、韻、調(diào)”。如果把零聲母也算作一類,每個字都應(yīng)該有“聲、韻、調(diào)”三個屬性。制作同音字匯主要是對“同音字”按一定的規(guī)律進(jìn)行排序,但是并不排除一個音只有一個“字”的情況,這樣的字也要被列入同音字匯中,可以把它看成是同音字的特例,它只與它本身相同。張振興[6]中的“快(kuai31)、怪(guai24)”就屬于這種情況。

      3.2 開發(fā)工具

      前面提到的三個同音字匯軟件,都是利用Visual Foxpro數(shù)據(jù)庫或Excel進(jìn)行排序, 而Visual Foxpro數(shù)據(jù)庫或者Excel的排序主要是針對英文字母,由于國際音標(biāo)的集合遠(yuǎn)遠(yuǎn)大于英文字母,且排列與英文字母不同,所以排序的時候會有很多困難。基于此,我們在制作同音字匯自動生成軟件的時候,數(shù)據(jù)庫只用于存儲,從數(shù)據(jù)中讀取所需要的數(shù)據(jù)信息后,所有運算都用程序進(jìn)行,所采用的程序開發(fā)語言為C#2008和Delphi XE,數(shù)據(jù)庫為Access(2003/2007)、Excel(2003/2007)。采用C#2008和Delphi XE的一個重要原因是它們都支持Unicode編碼,因為常用的國際音標(biāo)基本上是大字符集,大都是Unicode編碼的,例如“云龍國際音標(biāo)”[7]。采用Access與Excel作為數(shù)據(jù)庫的原因有三個: 一是支持Unicode編碼;二是Access與Excel作為 Microsoft Office 的系統(tǒng)程式,在windows系統(tǒng)上的安裝非常容易,為大多數(shù)用戶所熟悉;三是它們使用簡單方便,可移植性非常強,小巧靈活,用來存儲方言字表綽綽有余。

      3.3 軟件設(shè)計

      3.3.1 軟件運行的流程

      從數(shù)據(jù)庫中讀入“ID(索引)、字目、聲、韻、調(diào)”五個字段的信息→軟件自動分析出該方言的“聲、韻、調(diào)”系統(tǒng)→用戶對軟件自動分析出的“聲、韻、調(diào)”排序→根據(jù)用戶要求的“聲、韻、調(diào)”順序?qū)ψ直磉M(jìn)行排序,如省略該人機(jī)互動過程,軟件將按默認(rèn)的順序排序→過濾掉相同的聲、韻、調(diào)→生成同音字匯豎排表。

      3.3.2 數(shù)據(jù)的讀入

      軟件所需要的數(shù)據(jù)有兩個,一個是方言調(diào)查者在記音調(diào)查后得到的字表,這個字表用國際音標(biāo)記錄了每一個字目的“聲”“韻”“調(diào)”三個屬性。本軟件提供了三種方法讀入這些數(shù)據(jù)。

      第一,當(dāng)用戶沒有建立自己的Access或者Excel數(shù)據(jù)庫來存儲字表時,用戶可以從word、txt等文檔中復(fù)制字表到本軟件提供的數(shù)據(jù)庫中。

      第二,如果用戶的字表存儲在自己建立的Access數(shù)據(jù)庫中,軟件則可以與之掛接,并自動加載該數(shù)據(jù)庫的表和字段,用戶可以很方便地通過下拉框選擇字表和字表中的各個字段。

      第三,如果用戶的字表存儲在Excel表中,軟件也可以與之掛接,自動加載字表和各個字段。

      當(dāng)軟件讀入方言調(diào)查字表后,便能自動分析出該方言的聲、韻、調(diào)系統(tǒng)。本軟件所需要的第二個數(shù)據(jù)就是方言調(diào)查者在軟件得出的聲、韻、調(diào)系統(tǒng)的基礎(chǔ)上提供的順序表。通常,聲母是按發(fā)音部位排,韻母按開口度排,聲調(diào)是按平、上、去、入排,因每個方言點的語音系統(tǒng)都不相同,一般來說,應(yīng)由用戶即方言研究者自己設(shè)定。字目的“聲、韻、調(diào)”三個屬性,如果按不同的方式進(jìn)行組合,可以有六種排序方式。如果用戶沒有對聲、韻、調(diào)進(jìn)行排序,軟件將按默認(rèn)的“韻、聲、調(diào)”順序排列,韻母相同的,按聲母排,韻母和聲母都相同的,再按聲調(diào)排。

      3.3.3 排序算法

      為了便于說明,現(xiàn)在假設(shè)有一個方言字表,它有24個字目,具體見表1。

      表1 方言字表* 語料從廣州話方言調(diào)查字表中提取出,廣州話方言調(diào)查字表由廣西師范大學(xué)陳小燕教授提供。凡有國際音標(biāo)處,為防止亂碼,都以圖片的形式顯示。

      假定調(diào)查該方言的學(xué)者給出的韻、聲、調(diào)排列順序如表2所示。

      表2 韻、聲、調(diào)順序

      整個排序過程將采用韻、聲、調(diào)再加上字表所有字目的四重循環(huán)。循環(huán)流程圖如圖1所示。

      圖1 排序過程流程圖

      圖1中“strYun[m] == strYun_Type[i] && strSheng[m] == strSheng_Type[j] && strDiao[m] == strDiao_Type[k]”一句表示,當(dāng)字表中的某個字目的聲(strSheng)、韻(strYun)、調(diào)(strDiao)在循環(huán)中符合條件的時候。

      到這里,按韻、聲、調(diào)的順序排序的過程就完成了, 循環(huán)總次數(shù)為: 韻的個數(shù)×聲的個數(shù)×調(diào)的個數(shù)×字目的個數(shù),在這里就是5×5×6×24=3 600次。排序結(jié)果見表3。

      表3 按韻、聲、調(diào)排序后的字表

      在表3中,所有的字目都按韻、聲、調(diào)的順序進(jìn)行了排列,其中ID為24的“惹”字沒有與之同音的,軟件把它當(dāng)作同音字的一種特殊情況,也自動進(jìn)行了排序。

      這樣生成的同音字匯是一個表格的形式,每個字都有聲、韻、調(diào)三個屬性,不利于觀察和使用。因此最后一步,就是要把相同的“聲、韻、調(diào)”屬性過濾掉。所有屬于同一個韻母的字,韻母只表示一次;所有屬于同一個聲母的字,聲母只表示一次;所有屬于同一個聲調(diào)的字,聲調(diào)只表示一次。最后生成的同音字匯形式是一個文本,叫同音字匯豎排表。這一步算法設(shè)計相對前面的排序要簡單一些,因此不再贅述其實現(xiàn)原理。前面表1中提供的24個字目的字表最終生成的同音字匯豎排表見表4。

      表4 同音字匯豎排表

      到此,同音字匯的生成全部完成。

      3.4 軟件實用性分析

      作為一個實用軟件,應(yīng)最大限度滿足用戶需求。本軟件在技術(shù)上的特點主要表現(xiàn)在以下三個方面。

      1. 體積小,可移植性強。軟件編譯完成后,包括數(shù)據(jù)庫在內(nèi),總大小只有3.19MB。

      2. 運行速度快。我們在普通家用電腦上用桂林官話、北京話、廣州話三種方言進(jìn)行了測試,電腦的操作系統(tǒng)為win7,內(nèi)存2GB。表5是測試結(jié)果。

      表5 三種方言測試結(jié)果

      以上數(shù)據(jù)說明,字表大,排序需要的時間并不一定就長,排序時間主要取決于方言的聲、韻、調(diào)系統(tǒng)是否復(fù)雜。三種方言中,耗時最多的是聲、韻、調(diào)系統(tǒng)最復(fù)雜的廣州話,但是也僅僅只用了四分之一秒。

      3. 無需安裝,使用方便快捷。本軟件由于采用的是比較通用的Access與Excel數(shù)據(jù)庫,而且程序界面友好,學(xué)習(xí)與使用都比較容易。

      4 軟件的應(yīng)用

      同音字匯自動生成軟件于2008年開發(fā)完成。廣西師范大學(xué)方言專家陳小燕教授使用本軟件對“廣州話”“桂北五通平話”“鐘山董家垌土話”“玉林白話”“粵西封開粵語”“桂林官話”“全州湘語”“陸川客家話”“桂林大河平話”“仁義話”“桂嶺話”等十幾種不同方言進(jìn)行了測試,準(zhǔn)確生成了這些方言的同音字匯,取得了令人滿意的效果。為了惠及更多的方言研究者,我們在國家語言資源監(jiān)測與研究中心有聲媒體語言分中心網(wǎng)站上發(fā)布了“方言同音字匯自動生成軟件”,供用戶免費下載。隨著軟件影響的擴(kuò)大,華軍和非凡軟件園也收錄并發(fā)布了本軟件。僅就華軍網(wǎng)用戶IP信息顯示,本軟件的用戶除了國內(nèi)(含港、澳、臺),還包括了美國、馬來西亞、韓國、挪威、泰國等國家。

      5 結(jié)語

      “計算語言學(xué)(computational linguistics)是用計算機(jī)研究和處理自然語言的一門新興的邊緣學(xué)科?!盵8]同音字匯自動生成軟件利用計算機(jī)來處理方言,用來生成同音字匯豎排表,可以大大減少方言研究者的勞動量。目前計算語言學(xué)在處理人類的自然語言方面取得了突出的成就,在國內(nèi),計算語言學(xué)在處理漢語共同語(普通話)方面取得了長足的進(jìn)步,但是在處理方言和少數(shù)民族語言方面,相對還比較薄弱,因此,這方面的研究亟需進(jìn)一步加強。

      致謝:

      百色學(xué)院院長卞成林(博士)教授安排筆者參與了由廣西師范大學(xué)方言專家陳小燕(博士)教授主持的“高山漢”方言的田野調(diào)查活動,從而了解了方言同音字匯的基本原理。同音字匯自動生成軟件的測試語料由陳小燕教授提供。在軟件開發(fā)過程中,使用了語言學(xué)家潘悟云教授的“漢語方言計算機(jī)處理系統(tǒng)”與“云龍國際音標(biāo)”。廣西師范大學(xué)在讀碩士研究生劉艷平及上海師范大學(xué)在讀博士研究生呂嵩崧對軟件進(jìn)行了測試與反饋。在本文寫作過程中,得到了著名語言學(xué)家張振興教授的指導(dǎo)。在此對各位專家、同學(xué)表示衷心的感謝!

      [1] 潘悟云.漢語方言計算機(jī)處理系統(tǒng)[DB/OL].[2011-06-11].http://www.eastling.org/resource.htm.

      [2] 海柳文.漢語方言民族語言語音材料處理軟件設(shè)計[J].廣西民族大學(xué)學(xué)報,2005,11(3):60-64.

      [3] 劉村漢.方言字音Excel處理系統(tǒng)[CP/OL].2005-05-05[2011-06-11].http://pgsu.jnu.edu.cn/show.aspx?id=636&cid=12.

      [4] 丁聲樹,李榮. 漢語方言調(diào)查簡表[M].北京: 中國科學(xué)院語言研究所,1956.

      [5] 李如龍.漢語方言學(xué)(第二版)[M].北京: 高等教育出版社,2007.

      [6] 張振興. 漳平(永福)方言同音字匯[J].方言,1982(3):203-228.

      [7] 李龍,潘悟云.國際音標(biāo)輸入法及其實現(xiàn)[J].語言研究,2006,26(3):67-70.

      [8] 馮志偉.計算語言學(xué)基礎(chǔ)[M].北京:商務(wù)印書館,2001.

      猜你喜歡
      同音字排序方言
      方嚴(yán)的方言
      東方少年(2022年28期)2022-11-23 07:09:46
      同音字與多音字練習(xí)
      面向語音合成的藏語同音字研究*
      西藏科技(2022年3期)2022-04-22 09:17:20
      排序不等式
      方言
      恐怖排序
      說說方言
      留住方言
      同音字 我會分
      節(jié)日排序
      和林格尔县| 光泽县| 宾阳县| 栖霞市| 蒙自县| 茂名市| 上虞市| 台南县| 新密市| 唐山市| 银川市| 万盛区| 家居| 阿克苏市| 商水县| 澎湖县| 邢台市| 临西县| 阳谷县| 芒康县| 怀安县| 徐州市| 海南省| 葫芦岛市| 赣州市| 普宁市| 巴彦淖尔市| 纳雍县| 南安市| 剑阁县| 务川| 榆社县| 浦江县| 祁阳县| 驻马店市| 宝山区| 手机| 崇礼县| 丹寨县| 中卫市| 麦盖提县|