• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究

    2015-04-14 08:05:06艾孜爾古麗阿力木木拉提玉素甫艾白都拉
    中文信息學(xué)報(bào) 2015年6期
    關(guān)鍵詞:詞干維吾爾語詞類

    艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉

    (1.新疆師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,新疆維吾爾自治區(qū)烏魯木齊830054;2.中國科學(xué)院新疆理化技術(shù)研究所,新疆維吾爾自治區(qū),烏魯木齊830011)

    1 引言

    現(xiàn)代維吾爾語名詞詞干識別是自然語言處理領(lǐng)域的重要基礎(chǔ)性研究,主要目的是從句子中提取名詞詞干?,F(xiàn)代維吾爾語名詞具有豐富的句法和語義信息,識別的結(jié)果可以被廣泛應(yīng)用于維吾爾語名詞短語分析、詞性標(biāo)注、命名實(shí)體識別、句法分析、機(jī)器翻譯等領(lǐng)域。現(xiàn)代維吾爾語名詞詞干識別還被應(yīng)用在平行語料的對齊上,以提高詞對齊的效果;由于維吾爾語歧義切分問題導(dǎo)致句法分析的任務(wù)變得十分復(fù)雜,維吾爾語名詞詞干的識別能部分消解這些歧義;隨著新事物的不斷涌現(xiàn),新詞術(shù)語的識別、統(tǒng)計(jì)分析、翻譯也是亟待解決的重要問題。

    維吾爾語在形態(tài)結(jié)構(gòu)上屬于粘著語類型,作為粘著語類型的語言,詞的詞匯變化和各種語法變化都是通過在實(shí)詞詞干上綴接各種附加成分的方式來表現(xiàn)的。維吾爾語詞形態(tài)的多變性是維吾爾語的最突出的特點(diǎn)之一?!靶螒B(tài)是在語言中詞與詞組合時(shí)形式要發(fā)生變化,同一個(gè)詞與不同的詞組合就有不同的變化。這些不同的變化形成一個(gè)聚合,叫作詞形變化,或者叫做形態(tài)?!雹偃~蜚聲、徐通鏘著:《語言學(xué)綱要》,北京大學(xué)出版社,108頁維吾爾語名詞類詞語的特點(diǎn)就集中體現(xiàn)在形態(tài)的變化上,容易產(chǎn)生歧義。本文結(jié)合現(xiàn)代維吾爾語語言學(xué)、形態(tài)學(xué)、計(jì)算語言學(xué)、計(jì)量語言學(xué)等學(xué)科,通過研究維吾爾語名詞的形態(tài)特征,并根據(jù)名詞特定的構(gòu)詞規(guī)則和格式,很大程度上提高了名詞的識別率和機(jī)器翻譯的準(zhǔn)確性。例如北京人”是一個(gè)新詞,是由維吾爾語原詞(北京)連接詞綴(...人),通過這些形態(tài)特征可以準(zhǔn)確地識別其詞性和翻譯其意義。

    2 現(xiàn)代維吾爾語名詞形態(tài)分析研究

    2.1 維吾爾語的詞類劃分標(biāo)準(zhǔn)

    確定劃分詞類的標(biāo)準(zhǔn),實(shí)質(zhì)是找出各類詞在類別上的語法特點(diǎn)。每一種詞類都有區(qū)別于其他詞類的特點(diǎn)。維吾爾語的詞類特點(diǎn)表現(xiàn)在詞的形態(tài)學(xué)、結(jié)構(gòu)學(xué)和語義學(xué)三個(gè)方面。維吾爾語是黏著語,根據(jù)其語法特點(diǎn),應(yīng)該把形態(tài)學(xué)特征作為劃分維吾爾語詞類的重要標(biāo)準(zhǔn)之一。例如,維吾爾語的名詞有人稱、數(shù)、格的范疇。各個(gè)詞類有不同的形態(tài)變化。②程適良、阿不都熱西提、米扎爾等著:《現(xiàn)代維吾爾語語法》,新疆人民出版社,47頁

    形態(tài)學(xué)特征的另外一個(gè)重要標(biāo)志是維吾爾語的派生新詞的能力。根據(jù)構(gòu)詞詞綴的不同,很容易將維吾爾語詞的類別劃分清楚。如在原詞詞根后連接詞綴 構(gòu)成的詞是名詞。

    2.2 維吾爾語名詞的形態(tài)特征分析

    現(xiàn)代維吾爾語屬于黏著語,在形態(tài)學(xué)方面以詞干或詞根為基礎(chǔ),后接附加成分派生新詞和進(jìn)行詞形變化;附加成分分為構(gòu)詞附加成分和構(gòu)形附加成分(包含名詞、代詞、形容詞、數(shù)詞的格、領(lǐng)屬、數(shù)范疇以及動詞時(shí)、體、態(tài)、式等)兩大類,其中構(gòu)形附加成分不改變詞根或詞干的詞類屬性;但詞干后綴接構(gòu)詞附加成分時(shí),有時(shí)發(fā)生詞類變化,有時(shí)不發(fā)生詞類變化.因此,在維吾爾語名詞識別中上下文的詞類特征和當(dāng)前詞的形態(tài)特征都是很重要的。

    維吾爾語中有相當(dāng)一部分新詞都是由詞綴綴加于詞干構(gòu)成的。本文歸納總結(jié)了構(gòu)成名詞的詞綴,并通過這些詞綴識別名詞。表示人的維吾爾語詞綴20種,共36個(gè);表示物的維吾爾語名詞詞綴20種,共52個(gè);表示人、物的維吾爾語名詞詞綴五種,共13個(gè);表示地域的維吾爾語名詞詞綴五種,共五個(gè);不能構(gòu)成名詞的維吾爾語名詞詞綴53種,共53個(gè);共103種,共159個(gè)。樣例如表1,2,3,4,5所示。

    表1 表示人的維吾爾語名詞詞綴樣例

    表2 表示物的維吾爾語名詞詞綴樣例

    表3 表示人、物的維吾爾語名詞詞綴樣例

    表4 表示地域的維吾爾語名詞詞綴樣例

    表5 不能構(gòu)成名詞的維吾爾語名詞詞綴樣例

    2.3 詞綴歧義及消解規(guī)則

    同一詞綴接在詞干上也會產(chǎn)生不同的詞類。對于這個(gè)類型的問題,本文專門列出具有歧義的詞綴及其消歧規(guī)則,已提出七種,共19個(gè)詞綴歧義及消解規(guī)則,有效地提高了維吾爾語名詞的識別率。樣例如表6所示。

    3 基于形態(tài)分析的現(xiàn)代維吾爾語名詞識別方法

    3.1 識別總體思路

    現(xiàn)代維吾爾語名詞識別主要包括維吾爾語詞匯統(tǒng)計(jì)、詞性標(biāo)注(基于詞典、統(tǒng)計(jì))、名詞識別等關(guān)鍵技術(shù)與方法,如圖1所示。

    表6 詞綴歧義及消解規(guī)則樣例

    圖3 -1 名詞識別流程圖

    3.2 現(xiàn)代維吾爾語普通新詞中名詞識別算法研究

    本文提出一種融合現(xiàn)代維吾爾語形態(tài)變形特征的最大熵名詞識別模型。根據(jù)上述總結(jié)的維吾爾語構(gòu)詞特點(diǎn),定義上下文特征模板,提取特征集,再通過人工設(shè)置規(guī)則篩選模板;然后,訓(xùn)練最大熵概率模型參數(shù)。經(jīng)實(shí)驗(yàn)結(jié)果表明,融入多個(gè)語言形態(tài)特征的最大熵模型能獲得較好的性能。

    最大熵原理的主要思想描述為:將已知事實(shí)作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布。該模型的形式如式(1)-(2)所示。

    其中,Zλ(x)為歸一化函數(shù),fi(x,y)∈(0,1)為特征函數(shù),λi是特征函數(shù)的權(quán)重,它代表每個(gè)特征函數(shù)的重要性,每個(gè)λi對應(yīng)一個(gè)特征函數(shù)。

    3.2.1 特征選擇

    (1)特征選擇依據(jù)

    使用最大熵模型對維吾爾語名詞進(jìn)行識別,是根據(jù)當(dāng)前詞的上下文特征確定它的信息。本文的模型特征選擇依據(jù)維吾爾語名詞本身的構(gòu)詞特點(diǎn)。

    (2)特征模板定義

    根據(jù)維吾爾語構(gòu)詞特點(diǎn)和統(tǒng)計(jì)結(jié)果,本文共設(shè)計(jì)了詞內(nèi)部特征、前后依存詞特征。

    3.2.2 詞內(nèi)部特征

    詞內(nèi)部特征表現(xiàn)的是一個(gè)詞的內(nèi)部變化,包括詞干信息和詞綴信息。維吾爾語詞是通過在一個(gè)詞干之后連接不同的詞綴(構(gòu)詞詞尾)構(gòu)成,詞綴信息表現(xiàn)詞性等語法意義,本文設(shè)計(jì)了以下兩個(gè)類型的詞內(nèi)部信息特征模板。

    (1)詞干信息

    因?yàn)闃?gòu)形詞尾并不影響整個(gè)詞的詞類信息,對于維吾爾語詞干、詞根上連接構(gòu)形詞尾構(gòu)成的詞,只需考慮其詞干或詞根的標(biāo)注信息,詞內(nèi)部信息特征如表7所示。例如,“ ”(水壺)是名詞,該詞是由詞干“ ”(茶)加上詞綴“ ”構(gòu)成,只要考慮詞干“ ”的詞性即可,特征函數(shù)定義為式(3)。

    表7 詞內(nèi)部信息特征模板

    (2)詞綴信息

    盡管維吾爾文的構(gòu)詞和構(gòu)形都是以詞根、詞干上連接不同詞尾來完成,形成各類詞,但是詞尾信息是有限的,根據(jù)“維吾爾文語法語義信息詞典”收錄為準(zhǔn)維吾爾文詞綴中過濾的100余種名詞詞綴。設(shè)計(jì)如“ ”等作為名詞詞綴的一些特征模板。例如特征函數(shù)可以定義為式(4)。

    3.2.3 前后依存詞特征

    前后依存詞特征體現(xiàn)一個(gè)維吾爾文句子中與當(dāng)前詞緊密聯(lián)系的詞之間的關(guān)系,使用前后依存詞相關(guān)信息可以解決一詞兼多個(gè)詞類的問題.例如,句子1: (阿里木騎著馬玩)和句子2:(阿里木向進(jìn)入果園的小偷扔石頭)。句中的 有動詞和名詞兩種詞性,可以通過其前后詞的詞類特征進(jìn)行消歧處理。本文設(shè)計(jì)了以下特征,如表8所示。

    表8 前后依存詞信息特征模板

    4 實(shí)驗(yàn)結(jié)果分析

    本次統(tǒng)計(jì)語料以維吾爾語初中、高中物理教材為主。實(shí)驗(yàn)數(shù)據(jù)如表9所示。

    由表9所示,中學(xué)物理教材中名詞在整個(gè)教材詞匯的平均比例為46.37%,本教材作為實(shí)驗(yàn)語料合理、可行。

    表9 中學(xué)物理教材詞種數(shù)

    實(shí)驗(yàn)結(jié)果如表10所示,本實(shí)驗(yàn)中一些帶領(lǐng)屬性人稱的代詞、綴接一些詞綴的動詞命令式等也被識別成名詞。還有一些既不帶附加成分的,又不在名詞詞根庫中的名詞容易被忽略,需要豐富名詞詞根庫。

    表10 實(shí)驗(yàn)結(jié)果

    5 總結(jié)

    本文介紹了現(xiàn)代維吾爾語名詞詞干識別方面的一些研究工作,重點(diǎn)是維吾爾語名詞的形態(tài)分析和在最大熵模型特征的選擇。本文根據(jù)維吾爾語的特點(diǎn),選取詞內(nèi)部詞干和詞綴、詞前后信息等形態(tài)信息作為特征,構(gòu)建了名詞識別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,利用維吾爾語形態(tài)特征和最大熵模型,有效地利用上下文信息,得到了較好的識別率,尤其是對普通新詞的名詞識別有顯著的效果。

    [1] 趙巖,王曉龍,劉秉權(quán),等.融合聚類觸發(fā)對特征的最大熵詞性標(biāo)注模型[J].計(jì)算機(jī)研究與發(fā)展,2006,43(2):268-274.

    [2] 趙偉,趙法興,王東海,等.一種基于改進(jìn)的最大熵模型的漢語詞性自動標(biāo)注的新方法[J].計(jì)算機(jī)研究與發(fā)展,2006,43(增刊):174-178.

    [3] 玉素甫·艾白都拉,張海軍,艾孜爾古麗.信息處理用現(xiàn)代維吾爾語詞干類標(biāo)記集研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2011:45-48.

    [4] 艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉.現(xiàn)代維吾爾語常用詞統(tǒng)計(jì)關(guān)鍵技術(shù)研究[J].中文信息學(xué)報(bào),2014,28(5):192-197.

    [5] 艾孜爾古麗,艾山江·阿不力孜,玉素甫·艾白都拉.現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):67-68,121.

    [6] 艾孜爾古麗,齊向衛(wèi),玉素甫·艾白都拉.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞干提取和應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(3):32-34.

    [7] 玉素甫,艾孜爾古麗.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞尾切分和應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(4):13-15.

    [8] 玉素甫,艾孜爾古麗,祖力皮亞.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞長研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(5):32-34.

    [9] 蘇新春.漢語詞匯計(jì)量研究[M].廈門大學(xué)出版社,2001.

    [10] 蘇新春,楊爾弘.2005年度漢語詞匯大規(guī)模統(tǒng)計(jì)的分析與思考[J].廈門大學(xué)學(xué)報(bào),2006,6:84-91.

    [11] 趙小兵.基于動態(tài)流通語料庫的現(xiàn)代漢語基本詞匯自動識別與提取方法研究[D].中央民族大學(xué)博士學(xué)位論文,2007.

    猜你喜歡
    詞干維吾爾語詞類
    論柯爾克孜語詞干提取方法
    用詞類活用法擴(kuò)充詞匯量
    基于語料庫“隱秘”的詞類標(biāo)注初步探究
    從成語中學(xué)習(xí)詞類活用
    維吾爾語詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
    統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識別方法
    基于“字本位”理論再談漢語詞類問題
    維吾爾語話題的韻律表現(xiàn)
    維吾爾語詞重音的形式判斷
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    融合多策略的維吾爾語詞干提取方法
    合水县| 阳谷县| 马龙县| 日土县| 五华县| 临海市| 垣曲县| 灵武市| 南投县| 泸定县| 景洪市| 扶余县| 吐鲁番市| 桃江县| 丹棱县| 沈丘县| 托克托县| 墨江| 吉隆县| 郴州市| 高安市| 政和县| 华池县| 随州市| 松溪县| 封开县| 普兰县| 武胜县| 杭锦后旗| 东莞市| 尖扎县| 文水县| 呈贡县| 天长市| 乌兰察布市| 连州市| 漯河市| 苍南县| 萨迦县| 玉林市| 府谷县|