• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    THUUyMorph:維吾爾語形態(tài)切分語料庫

    2018-04-16 07:24:38哈里旦木阿布都克里木孫茂松阿布都克力木阿布力孜
    中文信息學(xué)報 2018年2期
    關(guān)鍵詞:詞干維吾爾語詞綴

    哈里旦木·阿布都克里木,孫茂松,劉 洋,阿布都克力木·阿布力孜

    (1.清華大學(xué) 計算機(jī)科學(xué)與技術(shù)系 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗室,清華信息科學(xué)與技術(shù)國家實(shí)驗室(籌),北京 100084)(2.清華大學(xué) 人文學(xué)院 計算語言學(xué)實(shí)驗室,北京 100084)

    0 引言

    深度學(xué)習(xí)在自然語言處理領(lǐng)域中廣泛應(yīng)用,形態(tài)切分工作也取得了極大進(jìn)展,實(shí)現(xiàn)了從規(guī)則和傳統(tǒng)統(tǒng)計方法向神經(jīng)網(wǎng)絡(luò)方法的跨越[8]。然而,當(dāng)前的深度學(xué)習(xí)技術(shù)主要是有監(jiān)督的學(xué)習(xí),深度學(xué)習(xí)的成功運(yùn)用前提是先具有一定規(guī)模的標(biāo)注語料[9]。

    維吾爾語在語料庫建設(shè)方面已做了大量的工作。新疆大學(xué)吐爾根·依布拉音等[10-12]和新疆師范大學(xué)的玉素甫·艾白都拉等[13-14]都已構(gòu)建了百萬詞次的維吾爾語詞法分析語料庫,并分別在這些語料庫基礎(chǔ)上進(jìn)行了詞法、句法及面向具體任務(wù)的標(biāo)注等。除此之外,文獻(xiàn)[15]構(gòu)建了FrameNet,文獻(xiàn)[16]建立了語法信息詞典,文獻(xiàn)[17]建立了小規(guī)模命名實(shí)體關(guān)系語料庫。雖然當(dāng)前已有了相當(dāng)規(guī)模的維吾爾語語料庫,但是還沒有可公開使用的維吾爾語形態(tài)切分語料庫。

    本文建立的形態(tài)切分語料庫——THUUyMorph,分為詞級和句子級兩種,可用于維吾爾語有監(jiān)督、半監(jiān)督、無監(jiān)督的形態(tài)切分,以及維吾爾語分詞、詞干提取等任務(wù)。在建立過程中本文參考了Ryan Cotterell的工作[18]。建立和公開的維吾爾語形態(tài)切分語料庫的開源網(wǎng)址為:http://thuuymorph.thunlp.org/。該研究不僅對維吾爾語語料庫的建設(shè)具有參考意義,而且為維吾爾語自然語言處理研究提供了有益的資源。

    1 研究背景

    1.1 維吾爾語形態(tài)切分的特點(diǎn)

    世界上語言分類包括:孤立語、屈折語和黏著語等。孤立語的特點(diǎn)一般不通過詞形變化來表達(dá)語法作用,如漢語。屈折語和黏著語的共同點(diǎn)是使用詞綴來實(shí)現(xiàn)語法功能。但是兩者的區(qū)別在于屈折語可通過一個詞綴實(shí)現(xiàn)多個語法功能,而黏著語中的一個詞綴一般只具有一個語法功能,因此黏著語中經(jīng)常會出現(xiàn)一個詞內(nèi)部有多個綴黏著的現(xiàn)象。屬于黏著語的語言有日語、韓語、朝鮮語、芬蘭語、土耳其語、維吾爾語、蒙古語和哈薩克語等幾十種,這些黏著語的特點(diǎn)是詞的詞匯變化和各種語法變化都是通過在實(shí)詞詞干上連接不同詞綴的方式來體現(xiàn)的[19],因此可以說黏著語是形態(tài)豐富的語言。作為黏著語,維吾爾語形態(tài)的多變性是維吾爾語最突出的特點(diǎn)之一。

    1.2 維吾爾語形態(tài)切分的難點(diǎn)

    維吾爾語形態(tài)切分是維吾爾語自然語言處理的一大難點(diǎn)。導(dǎo)致維吾爾語分詞精度不高的原因一般有:黏著性、語音變化現(xiàn)象、歧義和形態(tài)切分問題等。

    1.2.1黏著性

    維吾爾語作為一種黏著語在語素的組合上具有高度的靈活性,所謂黏著性指的是維吾爾語的絕大部分附加成分都依附在詞根之后,在同一個詞根上依次連綴幾個附加成分,形成一種線條性特點(diǎn)[19]。雖然詞干和詞綴的數(shù)量有限,但是理論上可以組合生成無限的詞語,其中,絕大多數(shù)維吾爾語詞語在語料庫中只出現(xiàn)一次[20-21]。維吾爾語通過在詞干上添加詞綴來實(shí)現(xiàn)豐富的句法和語義功能。這種情況在維吾爾語自然語言處理中造成了嚴(yán)重的數(shù)據(jù)稀疏問題。

    1.2.2語音變化現(xiàn)象

    1.2.3歧義

    維吾爾語詞的歧義現(xiàn)象也較嚴(yán)重,這種現(xiàn)象對維吾爾語形態(tài)切分任務(wù)帶來一定的困難。表1給出了一些例子。

    表1 維吾爾語的歧義現(xiàn)象舉例

    1.2.4形態(tài)切分問題

    2 維吾爾語形態(tài)切分標(biāo)注庫建設(shè)

    2.1 標(biāo)注規(guī)范

    2.1.1基本規(guī)則

    (1) 維吾爾語有兩種詞綴:構(gòu)詞詞綴和構(gòu)形詞綴。本文只考慮構(gòu)形詞綴的形態(tài)切分,例如,

    “旅游者、旅游業(yè)”由構(gòu)詞詞綴構(gòu)成,而“旅游者的、旅游業(yè)的”由構(gòu)形詞綴構(gòu)成,本文的形態(tài)切分任務(wù)是將“旅游者的”和“旅游業(yè)的”分別切分成“旅游者#的”和“旅游業(yè)#的”,而構(gòu)詞成分“旅游者”和“旅游業(yè)”不切分。

    (2) 當(dāng)詞干單獨(dú)出現(xiàn)時,不加任何標(biāo)記,默認(rèn)為詞干。例如:旅游。

    (3) 當(dāng)詞干與構(gòu)形詞綴一起出現(xiàn)時,詞干后面“#”與詞綴分開。例如,旅游者#的。

    2.1.2切分細(xì)則

    我們主要以名詞、形容詞、數(shù)詞、量詞、副詞、代詞、動詞為依據(jù)來進(jìn)行切分。目前進(jìn)行的是粗切分,即構(gòu)形切分。

    (1) 名詞:名詞原形(名詞的主格形式)為詞干,派生名詞(名詞的零派生形式)、專用名詞可以單獨(dú)做詞干,例如,人名。名詞后面加各種名詞人稱、格、數(shù)語法范疇時,名詞語法范疇和名詞詞干分開。

    (8) 模擬詞:模擬詞是詞干。

    (9) 連詞:連詞單獨(dú)出現(xiàn)時是詞干,附帶實(shí)詞作構(gòu)形附加成分時要切分。

    (10) 后置詞:后置詞是詞干。

    (12) 感嘆詞:維吾爾語中的所有感嘆詞以詞干形式出現(xiàn)。

    除此之外,維吾爾語中的縮略詞基本上存在三種情況。

    (3) 用拉丁字母縮寫,作為獨(dú)立的詞。例如,GDP、WTO、KTW等。

    2.2 形態(tài)切分語料庫建立流程

    我們首先從天山網(wǎng)維文版*http://uy.ts.cn/下載了維吾爾語語料,包含新聞、法律、經(jīng)濟(jì)和生活等。語料庫構(gòu)建步驟為:爬蟲、校對原始語料、分句、校對分句、人工和自動形態(tài)切分、人工標(biāo)注語音和諧變化現(xiàn)象、人工校對形態(tài)切分和語音和諧變化現(xiàn)象。語料庫包含10 596個文檔,69 200個句子,不同領(lǐng)域文檔數(shù)量的具體分布如表2所示。

    表2 不同領(lǐng)域文檔數(shù)量的領(lǐng)域分布

    我們使用tokenizer.perl(https://github.com/moses-smt/mosesdecoder)工具對語料進(jìn)行了標(biāo)點(diǎn)符號切分。同時,為了減輕標(biāo)注的工作量,我們提取了語料中的詞語類型作為人工標(biāo)注的數(shù)據(jù)。我們從中央民族大學(xué)維吾爾語語言學(xué)專業(yè)的學(xué)生中選擇了七位學(xué)生對語料進(jìn)行人工形態(tài)切分,要求對每一個詞進(jìn)行帶有語音和諧變化的形態(tài)切分。在人工標(biāo)注過程中不斷對語料和人工切分錯誤及不一致性進(jìn)行更正。人工標(biāo)注完成后,從七位學(xué)生中選出標(biāo)注最好的一份力克·阿卜杜瓦伊提進(jìn)行了一次校對,之后又邀請了新疆大學(xué)的阿布都熱依木·熱合曼副教授和這位原標(biāo)注者交替進(jìn)行了校對。

    2.3 維吾爾語語音變化現(xiàn)象分布

    我們對人工切分后的新聞領(lǐng)域語料的詞表進(jìn)行了語音變化現(xiàn)象統(tǒng)計。該新聞?wù)Z料詞表中發(fā)生語音和諧變化的詞占總詞表的23.9%。為了進(jìn)一步了解發(fā)生語音和諧變化的詞中詞干和詞綴在不同語音和諧變化現(xiàn)象下的分布我們做了進(jìn)一步統(tǒng)計,統(tǒng)計結(jié)果見表3。

    表3 語音和諧變化現(xiàn)象分布

    從表3可知,語音變化現(xiàn)象主要體現(xiàn)為弱化,詞干和詞綴的弱化分布相似。一般情況下,語音和諧變化發(fā)生在詞干或語素內(nèi)部,而語素之間不會發(fā)生語音和諧變化。由以上分析我們得知維吾爾語中語音和諧變化很嚴(yán)重,而且其中的弱化現(xiàn)象應(yīng)為研究重點(diǎn)。

    2.4 維吾爾語詞級形態(tài)切分語料庫

    我們從已進(jìn)行形態(tài)切分的維吾爾語詞表(89 923個)中抽取出一部分建立數(shù)據(jù)集,用于形態(tài)切分任務(wù),該數(shù)據(jù)集有19 629條維吾爾語詞。我們將該數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集和測試集。訓(xùn)練集有17 629條詞,開發(fā)集和測試集分別是1 000條詞。測試任務(wù)分為兩種:一種是只進(jìn)行詞干和詞綴的切分;一種是詞干、詞綴切分的同時考慮語音變化。該數(shù)據(jù)集已開源免費(fèi)使用*http://thuuymorph.thunlp.org/。目前,已有工作使用該數(shù)據(jù)集研究了維吾爾語形態(tài)切分在神經(jīng)網(wǎng)絡(luò)中的性能體現(xiàn),獲得了具有參考價值的實(shí)驗結(jié)果[21],對應(yīng)的預(yù)處理后的數(shù)據(jù)集和代碼也已開源*https://github.com/halidanmu/THUUMS。

    2.5 維吾爾語句子級形態(tài)切分語料庫

    我們進(jìn)一步完善形態(tài)切分語料的建設(shè),在詞級語料庫的基礎(chǔ)上建立了句子級形態(tài)切分語料。句子級語料包含69 200條句子。因為詞級形態(tài)切分語料建設(shè)中已經(jīng)建立了標(biāo)注規(guī)范,詞級規(guī)范直接應(yīng)用到句子中。句子級形態(tài)切分時,對句子中的每一個詞進(jìn)行人工形態(tài)切分并校對,詞干和詞綴之間用“#”號來分開,“’”表示右邊的語素是詞干,“$”表示左邊的語素是右邊語素的原形。如下例所示:

    句子級語料的建設(shè)比詞級形態(tài)語料建設(shè)有以下幾方面的優(yōu)勢:(1)句子級形態(tài)切分時完全可以按上下文來判斷句子中每一個詞的詞干部分,這樣就避免兼類詞難切分的情況; (2)句子形態(tài)切分時可以避免一些正字法、方言詞等詞匯切分錯誤。

    我們對句子級形態(tài)切分語料庫進(jìn)行了統(tǒng)計,統(tǒng)計結(jié)果見表4。通過實(shí)驗我們發(fā)現(xiàn)詞、詞干、詞綴的平均長度是17、14和5,維吾爾語詞的最大長度為33,每個詞的詞綴的平均個數(shù)是3.5。

    表4 維吾爾語句子級形態(tài)切分語料庫統(tǒng)計結(jié)果

    3 結(jié)論

    本文描述了構(gòu)建的維吾爾語形態(tài)切分語料庫—THUUyMorph,并著重分析了維吾爾語形態(tài)切分規(guī)則,同時進(jìn)行了一些語言學(xué)上的統(tǒng)計。該語料庫已被開源免費(fèi)使用。該文工作不僅對相關(guān)維吾爾語語料庫的建設(shè)具有參考意義,而且為維吾爾語自然語言處理的研究提供了有益的資源。

    [1]Afify M,Sarikaya R,Kuo H K J,et al.On the use of morphological analysis for dialectal arabic speech recogni-tion[C]//Interspeech 2006-ICSLP Ninth International Conference on Spoken Language Processing.Pittsbutgh,PA,USA:ISCA,2006:277-280.

    [2]Botha J A,Blunsom P.Compositional morphology for word representations and language modelling [C]// Proceedings of the 31st International Conference on Machine Learning,Beijing,China:JMLR,2014:W&CP volume 32.

    [3]Clifton A,Sarkar A.Combining morpheme-based machine translation with post-processing morpheme prediction[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technol-ogies,Portland,Oregon,USA:Association for Computa-tional Linguistics,2011:32-42.

    [4]Seeker W,Cetinoglu O.A graph-based lattice dependency parser for joint morphological segmentation and syntactic analysis [J].Transactions of the Association for Computa-tional Linguistics,2015,3:359-373.

    [5]Cotterell R,Schutze H.Joint semantic synthesis and morphological analysis of the derived word [J].Transactions of the Association for Computational Linguistics,2018,6:33-48.

    [6]Marslen-Wilson W.Lexical representation and process [M].Cambridge,MA,USA:MIT Press,1989.

    [7]哈里旦木·阿布都克里木,劉洋,孫茂松.神經(jīng)機(jī)器翻譯系統(tǒng)在維吾爾語—漢語翻譯中的性能對比 [J].清華大學(xué)學(xué)報:(自然科學(xué)版),2017,57(8):878-883.

    [8]Wang L,Cao C,Xia Y,et al.Morphological Segmentation with Window LSTM Neural Networks [C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix,Arizona,USA:Association for the Advancement of Artificial Intelligence,2016:2842-2848.

    [9]Zohp B,Yuret D,May J,et al.Transfer Learning for Low-Resource Neural Machine Translation [C]// Proceed-ings of the 2016 Conference on Empirical Methods in Nat-ural Language Processing.Austin,Texas:Association for Computational Linguistics,2016:1568-1575.

    [10]吐爾根·依布拉音,阿里甫·庫爾班.基于詞典的現(xiàn)代維吾爾語詞性自動標(biāo)注系統(tǒng)的研究[C].中國中文信息學(xué)會二十五周年學(xué)術(shù)會議.北京:中國中文信息學(xué)會,2006:148-152.

    [11]艾山·吾買爾.維吾爾語詞法句法分析關(guān)鍵技術(shù)的研究[D].烏魯木齊:新疆大學(xué),2009.

    [12]買合木提·買買提,吐爾根·依布拉音.基于N-gram的維吾爾語詞性標(biāo)注研究[C].第二屆全國少數(shù)民族青年自然語言處理學(xué)術(shù)研討會.合肥:中國中文信息學(xué)會,2008:206-209.

    [13]Yusup A,Lua K T.The development of tagged Uyghur corpus [C]//Proceedings of the 17th Pacific Asia Conference on Language,Information and Computation.Sentosa,Singapore:PACLIC Steering Committee,2003:228-234.

    [14]Yusup A,Iskender O,and Mamateli T.Progress on con-struction technology of Uyghur knowledge base [C]//Proceedings of the 2009 International Symposium on Intelligent Ubiquitous Computing and Education.Wash-ington,DC,USA:IEEE Computer Society,2009:554-557.

    [15]Mirejiguli R,Alifu K.Design of the Uyghur FrameNet desktop [J].Software Engineering,2015,3(1):53-56.

    [16]Jiamila W,Wayiti A,Kahaerjiang A,et al.Building con-temporary Uyghur grammatical information dictionary [C]//Proceedings of Worldwide Language Service Infrastructure:Second International Workshop.Kyoto,Japan:Springer Interna-tional Publishing,2015:137-144.

    [17]Kahaerjiang A,Maihemuti M,and Tuergen Y,et al.Annotation schemes for constructing Uyghur named entity relation corpus [C]//Proceedings of International Conference on Asian Language Processing.Taiwan:IEEE Computer Society,2017:103-107.

    [18]Cotterell R,Vieira T,Schütze H.A joint model of ortho-graphy and morphological segmentation [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.San Diego,California:Association for Computiaonal Linguistics,2016:664-669.

    [19]艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉.基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究 [J].中文信息學(xué)報,2015,29(6):208-212.

    [20]哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語形態(tài)切分 [J].清華大學(xué)學(xué)報:(自然科學(xué)版),2017,57(1):1-6.

    Abudukelimu Halidanmu,Cheng Yong,Liu Yang,et al.Uyghur morphological segmentation with bidirectional GRU neural networks [J].J Tsinghua Univ:(SciandTech),2017,57(1):1-6.(in Chinese)

    [21]Abudukelimu Halidanmu,Liu Y,Chen X,et al.Learning distributed representations of Uyghur words and morphemes [C]// Proceedings of CCL/NLP-NABD.Guangzhou,China:Springer,2015:202-211.

    [22]霍盛.試論維吾爾語形態(tài)變化的功能及其特點(diǎn) [J].新疆大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1991,(3):104-111.

    哈里旦木·阿布都克里木(1978—),博士研究生,主要研究領(lǐng)域為自然語言處理。E-mail:abdklmhldm@gmail.com

    孫茂松(1962—),博士,教授,主要研究領(lǐng)域為自然語言處理、網(wǎng)絡(luò)智能、計算社會科學(xué)。E-mail:sms@mail.tsinghua.edu.cn

    劉洋(1979—),通信作者,博士,副教授,主要研究領(lǐng)域為自然語言處理、機(jī)器翻譯。E-mail:liuyang2011@tsinghua.edu.cn

    猜你喜歡
    詞干維吾爾語詞綴
    從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
    論柯爾克孜語詞干提取方法
    維吾爾語詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
    釋西夏語詞綴wji2
    西夏研究(2017年1期)2017-07-10 08:16:55
    統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
    維吾爾語話題的韻律表現(xiàn)
    維吾爾語詞重音的形式判斷
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    融合多策略的維吾爾語詞干提取方法
    基于維吾爾語詞干詞綴粒度的漢維機(jī)器翻譯
    現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
    語言與翻譯(2014年3期)2014-07-12 10:32:09
    嘉黎县| 长兴县| 渝北区| 盖州市| 武川县| 太保市| 南华县| 连南| 五家渠市| 太原市| 乌兰浩特市| 蓝山县| 蚌埠市| 汤原县| 铁岭市| 新巴尔虎左旗| 高碑店市| 襄城县| 望都县| 千阳县| 卢湾区| 莫力| 永兴县| 镇巴县| 林西县| 达日县| 南京市| 连江县| 商南县| 湄潭县| 平原县| 依安县| 高淳县| 定陶县| 津市市| 女性| 法库县| 吉木乃县| 上饶市| 莎车县| 曲阜市|