• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏漢跨語言文本剽竊檢測數(shù)據(jù)集

      2022-07-03 14:05:12鮑薇董建徐洋申影利戚肖克
      關(guān)鍵詞:藏漢度值藏文

      鮑薇,董建,2,徐洋,申影利,戚肖克

      1.中國電子技術(shù)標(biāo)準(zhǔn)化研究院,北京 100007

      2.北京航空航天大學(xué),北京 100191

      3.中央民族大學(xué),北京 100081

      4.中國政法大學(xué),北京 102249

      引 言

      跨語言文本剽竊檢測可以檢測出從一種語言翻譯抄襲形成文章的現(xiàn)象,可用于論文、著作等的檢測,在知識產(chǎn)權(quán)保護(hù)方面具有重要應(yīng)用價值。但當(dāng)前的跨語言文本剽竊檢測研究多為中英,英法等[1],對藏文等低資源語言的研究較少,主要包括基于語法的文本剽竊檢測方法、基于詞典的方法、基于平行/可比語料的方法、基于機(jī)器翻譯的方法。SemEval是ACL舉辦的針對文本語義相似度計算研究的評測任務(wù),連續(xù)多年開展單語言、多語言語義相似度計算評測任務(wù)。在SemEval2016英語-西班牙語跨語言文本相似度計算評測任務(wù)中,CNRC[2]抽取句子的詞法語義特征,結(jié)合句對的淺層語義結(jié)構(gòu),在英語-西班牙語任務(wù)上的皮爾森相關(guān)系數(shù)達(dá)到了0.567。FBK[3]使用機(jī)器翻譯中的質(zhì)量評估特征和雙語詞向量特征,結(jié)合回歸模型,在該任務(wù)上的皮爾森相關(guān)系數(shù)達(dá)到了0.3953。

      目前,可用于跨語言文本剽竊檢測的公開語料資源較少,多是使用信息檢索、句子相似度計算任務(wù)的語料資源。Ferrero等人建立的包含35篇英語-法語自然科學(xué)研究論文的可比語料庫,其中,法語文章來源于1997-2014 TALN和2006-2011 RNTI,英語文章來源于谷歌學(xué)術(shù)。CLEF-PAN 2011年文本剽竊評測任務(wù)[4]中提供了 388篇英語-海地語的跨語言文檔,標(biāo)注人員對 5031篇英文文章進(jìn)行機(jī)器或人工翻譯,生成388篇“剽竊”的海地語文檔。SemEval 2016年和2017年評測任務(wù)中也提供了少量用于跨語言文本相似度計算的語料,涉及的語言包括英語-西班牙語、英語-阿拉伯語、英語-土耳其語,語料格式為“[英文句子,西班牙語句子,相似度值]”。

      為了緩解低資源語言的數(shù)據(jù)缺少問題,在機(jī)器翻譯任務(wù)中,多位學(xué)者使用數(shù)據(jù)增強(qiáng)方法生成語料。Sennrich[5]最早提出使用數(shù)據(jù)增強(qiáng)方法,基于單語語料構(gòu)造偽平行句對,擴(kuò)充機(jī)器學(xué)習(xí)模型訓(xùn)練語料。Fadaee[6]在訓(xùn)練語料中將部分低頻詞替換為高頻詞,減少低頻詞在訓(xùn)練語料中出現(xiàn)的頻次,降低了低頻詞對機(jī)器翻譯模型的負(fù)面影響。蔡子龍等人[7]在藏漢機(jī)器翻譯訓(xùn)練語料中,對句子塊中相似的模塊進(jìn)行位置調(diào)換,使訓(xùn)練語料擴(kuò)充了一倍,豐富了句子的結(jié)構(gòu),實驗獲得了4個雙語評估基礎(chǔ)值(Bilingual evaluation understudy,BLEU)的提高。李家寧等人[8]梳理總結(jié)了文本分類任務(wù)中的數(shù)據(jù)增強(qiáng)方法,如在文本數(shù)據(jù)中將性別相關(guān)詞語替換成相反性別的對應(yīng)詞語,并在西班牙語等某些性別與語法關(guān)聯(lián)緊密的語言中,對性別詞語進(jìn)行替換后,對文本的詞形、句法標(biāo)簽進(jìn)行調(diào)整;在情感分類任務(wù)中,匹配含義相近標(biāo)簽相反的文本尋找因果詞,并替換為反義詞。

      本研究采用數(shù)據(jù)增強(qiáng)(Data Augment)的數(shù)據(jù)擴(kuò)充方法,構(gòu)建了藏漢跨語言文本剽竊檢測數(shù)據(jù)集。該數(shù)據(jù)集包含標(biāo)注相似度值標(biāo)簽的15萬藏漢句對,為研究藏漢文本剽竊檢測提供數(shù)據(jù)基礎(chǔ)。

      1 數(shù)據(jù)采集和處理方法

      1.1 數(shù)據(jù)采集方法

      本研究所建立的跨語言文本剽竊檢測數(shù)據(jù)集,使用的原始數(shù)據(jù)包括單語語義相似度評測語料和跨語言機(jī)器翻譯平行語料。單語語義相似度評測語料為SemEval 2014年英語評測語料SICK,共包括10,000個英文單語句對,每句帶有人工標(biāo)注的句子相似度值標(biāo)簽,相似度值范圍為[0,5]。其中,0表示兩個句子無任何內(nèi)容相似,5表示兩個句子的內(nèi)容完全相同,語料標(biāo)注內(nèi)容如表1所示。標(biāo)注標(biāo)簽包括句對ID、句子A、句子B、蘊(yùn)含標(biāo)簽(neutral-中性、entailment-蘊(yùn)涵、contradiction-矛盾,用于判斷文本蘊(yùn)含關(guān)系)、相關(guān)度值、蘊(yùn)含_AB、蘊(yùn)含_BA、句子A的來源、句子B的來源、句子A所屬的數(shù)據(jù)集、句子B所屬的數(shù)據(jù)集、集合(開發(fā)集、訓(xùn)練集、測試集)。跨語言機(jī)器翻譯平行語料為CWMT評測中提供的14.6萬句對藏漢平行語料。

      表1 SICK語料標(biāo)注內(nèi)容Table 1 Annotations of SICK corpus

      由于漢文、藏文缺少人工標(biāo)注相似度值標(biāo)簽的語料,對新語料進(jìn)行人工標(biāo)注需要耗費(fèi)大量人力和物力。所以本研究首先使用將 SICK語料中的英文句對翻譯成相對應(yīng)的漢文句對和藏文句對,最終形成英文、漢文、藏文三種單語語料庫以及英-漢、英-藏、漢-藏三種跨語言語料庫,分別用SICK_en、SICK_cn、SICK_tib、SICK_en-cn、SICK_en-tib、SICK_cn-tib進(jìn)行表示。本研究所使用的藏文實驗語料SICK_tib和藏漢語料SICK_cn-tib均為機(jī)器翻譯產(chǎn)生的語料,因藏漢翻譯系統(tǒng)本身存在一定的誤差,導(dǎo)致藏文句子可能存在翻譯不準(zhǔn)確的問題。本研究針對藏漢文本的剽竊檢測,不針對藏漢機(jī)器翻譯研究,本研究未對機(jī)器翻譯的藏文語料進(jìn)行修改。

      1.2 數(shù)據(jù)預(yù)處理

      在低資源語言場景下,如何利用豐富的單語資源和其他領(lǐng)域資源來擴(kuò)充數(shù)據(jù)集尤為重要。近幾年,數(shù)據(jù)增強(qiáng)方法被成功應(yīng)用在機(jī)器翻譯、語言模型訓(xùn)練以及文本分類中,尤其在低資源語言機(jī)器翻譯研究中,用于增加深度學(xué)習(xí)所需的大規(guī)模訓(xùn)練語料,緩解數(shù)據(jù)稀疏問題。

      本研究建立的藏漢跨語言文本剽竊檢測數(shù)據(jù)集,使用數(shù)據(jù)增強(qiáng)方法擴(kuò)充語料。具體的處理步驟為:

      第一步,將SICK語料中的英文句對翻譯成相對應(yīng)的漢文句對、藏文句對,最終形成英文SICK_en、漢文SICK_cn、藏文SICK_tib三種單語語料庫,以及英-漢SICK_en-cn、英-藏SICK_en-tib、漢-藏SICK_cn-tib三種跨語言語料庫。其中,SICK語料中英文句對均有人工標(biāo)注的相似度值,相似度值范圍為[0,5]。其中,0表示兩個句子意義不相同,5表示兩個句子意義相同。因此,對應(yīng)翻譯的漢文句對、藏文句對的相似度值與英文句對相同。表2給出了以上語料庫的句子樣例。

      表2 語料庫中的句子樣例Table 2 Sentence samples in the corpus

      第二步,使用 SCIK_cn語料庫中的 10,000個漢語句對訓(xùn)練漢語單語孿生長短時記憶網(wǎng)絡(luò)模型[9],網(wǎng)絡(luò)模型的輸入為兩個漢語句子,輸出為這兩個句子的相似度值。其中,訓(xùn)練集中的相似度值同SICK語料中人工標(biāo)注的相似度值。調(diào)整參數(shù)使模型性能達(dá)到最優(yōu)。

      第三步,利用訓(xùn)練好的漢語單語孿生長短時記憶網(wǎng)絡(luò)模型對藏漢平行語料SICK_cn-tib中的漢語句對計算其相似度值,即輸入SICK_cn-tib中的任意兩個漢語句子到網(wǎng)絡(luò)中計算,輸出為這兩個句子的相似度值,該過程如式(1)所示。例如,對表3所示的cn1和cn2兩個漢語句子,即“他全神注視著這片金黃色的景色?!焙汀八杂職廒A得大家的尊敬?!?,網(wǎng)絡(luò)模型輸出得到的相似度值為 1.6,即表示cn1和cn2的相似度值sim1為1.6。

      其中,similarity()表示已訓(xùn)練的單語孿生長短時記憶網(wǎng)絡(luò)模型。cn1、cn2代表輸入到模型中的兩個漢語句子,sim1表示模型輸出的相似度值。

      第四步,計算藏漢平行語料SICK_cn-tib中任意組合的藏漢句對的相似度值。具體操作如下:由于藏漢平行句對中平行的句子語義完全相同,即如表3所示的cn1與tib1兩個藏漢平行句對的相似度值為5,cn2與tib2兩個藏漢平行句對的相似度值為5,因此,表3中tib1和tib2的相似度值等于cn1和cn2的相似度值,也是sim1,即獲得了包含相似度值標(biāo)簽的句對。以此類推,對cn1-tib1、cn2-tib2兩個藏漢句對的相似度值等于 cn1和 cn2的相似度值,也是 sim1,最終可得出 cn1-tib1、cn2-tib2、cn1-tib2、cn2-tib1四個帶有相似度值標(biāo)簽的藏漢跨語言句對。計算流程如下:

      表3 基于數(shù)據(jù)增強(qiáng)方法生成的藏漢句對樣例Table 3 Samples of Tibetan-Chinese sentence pairs based on data augmentation

      其中,cn1、cn2代表兩個漢語句子,tib1、tib2代表兩個藏文句子,sim1是兩個句子的相似度值。

      2 數(shù)據(jù)樣本描述

      2.1 數(shù)據(jù)結(jié)構(gòu)

      本數(shù)據(jù)集中包含一張數(shù)據(jù)表。表中有3個字段,包括漢文句子、藏文句子、句子相似度值。數(shù)據(jù)集共包括15萬個藏漢句對。

      2.2 數(shù)據(jù)樣本展示

      基于數(shù)據(jù)增強(qiáng)方法生成的藏漢句對示例如表4所示。

      表4 藏漢跨語言文本剽竊檢測數(shù)據(jù)集示例Table 4 Samples of Tibetan-Chinese cross-language text plagiarism detection dataset

      3 數(shù)據(jù)質(zhì)量控制和評估

      本研究使用基于數(shù)據(jù)增強(qiáng)方法生成的藏漢語料,在文獻(xiàn)[9]中的藏漢跨語言文本剽竊檢測模型中進(jìn)行實驗驗證,實驗結(jié)果表明,生成語料大幅提升了模型性能。實驗中使用皮爾森相關(guān)系數(shù)ρ(Pearson correlation coefficients)、平均平方誤差MSE(Mean-square error)和斯皮爾曼相關(guān)性系數(shù)ρs(Spearman correlation coefficient)衡量系統(tǒng)預(yù)測句對的相似度值與人工標(biāo)注的相似度值之間的差異。

      從表5中實驗結(jié)果對比可以看出,使用原始語料SICK_tib中10,000藏文句對訓(xùn)練的模型,藏漢跨語言剽竊檢測模型的皮爾森相關(guān)系數(shù)為0.1505,表明模型結(jié)果與人工標(biāo)注結(jié)果只達(dá)到弱相關(guān)程度。實驗中不斷增加生成語料,皮爾森相關(guān)系數(shù)不斷提升。語料量增加至15萬句對時,皮爾森相關(guān)系數(shù)達(dá)到0.4746,較基線結(jié)果提升了0.25,平均平方誤差降低了1.6,斯皮爾曼相關(guān)性系數(shù)提升了0.38,模型輸出的句對相似度值與人工標(biāo)注的相似度值達(dá)到了中等程度相關(guān)??梢钥闯?,本數(shù)據(jù)集中的數(shù)據(jù)對藏漢跨語言文本剽竊檢測研究起到積極作用。實驗結(jié)果表明,本研究中基于數(shù)據(jù)增強(qiáng)方法擴(kuò)充的藏漢語料可以顯著提升藏漢跨語言文本剽竊檢測實驗結(jié)果。

      表5 基于數(shù)據(jù)增強(qiáng)的藏漢跨語言剽竊檢測實驗結(jié)果Table 5 Experimental results of Tibetan-Chinese cross-language plagiarism detection based on data augmentation

      4 數(shù)據(jù)價值

      本研究從少數(shù)民族語言信息處理的實際需要出發(fā),建立的數(shù)據(jù)集不僅可用于藏漢跨語言文本剽竊檢測,也可用于藏漢句子相似度計算、語義計算等其他任務(wù)中,為低資源語言自然語言處理做出貢獻(xiàn)。另一方面,本研究在建立數(shù)據(jù)集中所使用的數(shù)據(jù)增強(qiáng)方法,擴(kuò)充了藏漢實驗語料,有效地解決了語料稀缺問題,為訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)模型奠定基礎(chǔ),也對其他低資源語言相關(guān)研究提供了研究方法。

      數(shù)據(jù)作者分工職責(zé)

      鮑薇(1990—),女,江蘇徐州人,博士,工程師,研究方向為人工智能標(biāo)準(zhǔn)化、自然語言處理、語音信號處理。主要承擔(dān)工作:基于數(shù)據(jù)增強(qiáng)方法計算數(shù)據(jù)相似度、論文撰寫。

      董建(1985—),男,山東單縣人,博士在讀,高級工程師,研究方向為人工智能、大數(shù)據(jù)、基礎(chǔ)軟件。主要承擔(dān)工作:修改論文。

      徐洋(1983—),女,遼寧沈陽人,碩士,高級工程師,研究方向為人工智能標(biāo)準(zhǔn)化、語音信號處理。主要承擔(dān)工作:數(shù)據(jù)集預(yù)處理。

      申影利(1994—),女,安徽亳州人,博士在讀,研究方向為機(jī)器翻譯。主要承擔(dān)工作:數(shù)據(jù)校對。

      戚肖克(1985—),女,山東菏澤人,博士,副教授,研究方向為語音信號處理、自然語言處理。主要承擔(dān)工作:數(shù)據(jù)集整合。

      猜你喜歡
      藏漢度值藏文
      探討公路項目路基連續(xù)壓實質(zhì)量檢測技術(shù)
      日常交際用語之藏漢對比分析
      客聯(lián)(2022年4期)2022-07-06 05:46:23
      藏漢孩子是一家
      黃河之聲(2022年4期)2022-06-21 06:54:52
      西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      藏文音節(jié)字的頻次統(tǒng)計
      無線傳輸中短碼長噴泉碼的度分布優(yōu)化算法*
      微博網(wǎng)絡(luò)較大度值用戶特征分析
      科技傳播(2016年17期)2016-10-10 01:46:58
      現(xiàn)代語境下的藏文報刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      基于Android 平臺的藏漢雙語學(xué)習(xí)軟件的研究與實現(xiàn)
      西藏科技(2015年12期)2015-09-26 12:13:51
      石门县| 元阳县| 珲春市| 仙游县| 右玉县| 五华县| 东丽区| 石门县| 永泰县| 灵石县| 广安市| 宝坻区| 汝阳县| 麻栗坡县| 山阴县| 类乌齐县| 藁城市| 江安县| 鸡东县| 沈丘县| 宜君县| 五家渠市| 鄱阳县| 钟祥市| 普兰县| 融水| 阿瓦提县| 蓝田县| 靖宇县| 连云港市| 云霄县| 五大连池市| 高雄市| 抚宁县| 和静县| 任丘市| 湾仔区| 黄平县| 黄石市| 隆化县| 宜州市|