• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    服務(wù)于拼寫檢查的偽語(yǔ)料生成方法實(shí)現(xiàn)*

    2021-03-24 03:26:26胡睿
    關(guān)鍵詞:拼寫錯(cuò)誤字形拼音

    胡睿

    (北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

    0 引言

    目前對(duì)于中文文本拼寫檢查的研究已經(jīng)持續(xù)了相當(dāng)一段時(shí)間。通過(guò)人工方法手動(dòng)識(shí)別并糾正出版物中所有的拼寫錯(cuò)誤,往往效果并不理想,而這項(xiàng)工作本身也十分耗費(fèi)精力[1-2]。隨著深度學(xué)習(xí)領(lǐng)域的不斷發(fā)展,越來(lái)越多的研究表明在某些事情上神經(jīng)網(wǎng)絡(luò)可以比人類做的更加出色。如何以較小代價(jià)訓(xùn)練語(yǔ)料庫(kù)來(lái)支撐深度學(xué)習(xí)等先進(jìn)的學(xué)習(xí)方法是急需解決的難題。

    本文在前人工作的基礎(chǔ)上,提出結(jié)合詞的拼音混淆,與字的字形混淆,兩種混淆方式的偽語(yǔ)料生成方法。該方法可以應(yīng)用于任意句子級(jí)別的生語(yǔ)料庫(kù),并快速生成大量包含帶有字和詞級(jí)別拼寫錯(cuò)誤的偽語(yǔ)料。

    1 主要方法

    1.1 生成混淆項(xiàng)

    本文研究自動(dòng)構(gòu)造偽語(yǔ)料庫(kù),將正常語(yǔ)料庫(kù)中混雜按照一定方法生成的錯(cuò)誤例子。預(yù)處理中將維基語(yǔ)料預(yù)處理為句子級(jí)別的語(yǔ)料庫(kù)[3-4]。

    過(guò)程中進(jìn)行如下操作:進(jìn)行繁體中文到簡(jiǎn)體中文的轉(zhuǎn)換;規(guī)范標(biāo)點(diǎn)、數(shù)字:將數(shù)字統(tǒng)一到半角,標(biāo)點(diǎn)統(tǒng)一到全角;剔除包含日韓文字的句子,剔除外文占比過(guò)大的句子。提取語(yǔ)料庫(kù)中所有單詞和拼音對(duì),整理為字典。

    對(duì)于給定的任意兩個(gè)拼音,計(jì)算二者的Levenshtein編輯距離,該距離越小則表示兩個(gè)單詞的相似度越高。對(duì)于給定拼音,遍歷所有不同的拼音組合,兩兩計(jì)算編輯距離,隨后將各編輯距離除以其中的最大值并用1 減去結(jié)果,將結(jié)果映射到區(qū)間[0,1]上,該值定義為拼音相似度。相似度越大,與原拼音越相似,值越接近1;相似度越小,與原拼音越不相似,值越接近0。隨后按照相似度隨機(jī)抽取備選拼音,該過(guò)程中相似度越大,被選取的概率越大。根據(jù)備選拼音找出所有可能的備選詞,按均勻分布隨機(jī)選一個(gè)作為混淆詞。在語(yǔ)料足夠大的情況下,可以平滑隨機(jī)抽取混淆詞帶來(lái)的負(fù)面影響(例如拼音相似但字形相差甚遠(yuǎn)),如果生語(yǔ)料不夠大,可以考慮在備選詞中計(jì)算與源詞的字形相似度,并以該相似度作為基準(zhǔn)隨機(jī)選取一個(gè)作為混淆詞。

    本文使用CHISE提供的基礎(chǔ)字符集IDS,在計(jì)算距離之前,首先將IDS從序列轉(zhuǎn)換為樹(shù)。除了字符之外,每個(gè)節(jié)點(diǎn)還帶有一個(gè)層級(jí)數(shù)字,該數(shù)字表征其所屬節(jié)點(diǎn)對(duì)于字形的貢獻(xiàn)級(jí)別。例如數(shù)字1表示該節(jié)點(diǎn)的內(nèi)容直接決定字形,而數(shù)字2 表示該節(jié)點(diǎn)需要先構(gòu)成一個(gè)字,以該字作為部分構(gòu)成其他字,以此類推??紤]原子字形,即字符本身不可拆分(存在于葉子節(jié)點(diǎn)的字符),在解析成樹(shù)時(shí)其單獨(dú)地位于根節(jié)點(diǎn),但并不屬于任何表意文字描述符,沒(méi)有字形結(jié)構(gòu),此時(shí)層級(jí)數(shù)字定義為0。

    給定任意一個(gè)字符,遍歷其他所有已知IDS的字符,兩兩計(jì)算樹(shù)編輯距離,隨后將各距離除以其中最大值,并以1減去結(jié)果,得到結(jié)果在區(qū)間[0,1],定義該值為字形相似度,字形相似度越接近1 表明該字與原字越像,相似度越接近0則表示該字越不像原字。按照相似度篩選后(剔除值小于給定閾值的結(jié)果)按照概率隨機(jī)選取一個(gè)字作為混淆字,過(guò)程中相似度越大,被選中的概率就越大。

    1.2 偽語(yǔ)料庫(kù)生成

    由于目前尚未有針對(duì)中文母語(yǔ)者錄入文字時(shí)產(chǎn)生的錯(cuò)誤的相關(guān)統(tǒng)計(jì)研究,因此下面所使用的參數(shù)全部是經(jīng)驗(yàn)參數(shù),需要根據(jù)模型的訓(xùn)練情況進(jìn)行調(diào)整。首先定義三個(gè)比率:拼音變異率、字形變異率、字形相似度閾值。對(duì)于語(yǔ)料庫(kù)中的句子處理如下:

    (1)從語(yǔ)料庫(kù)中取出一個(gè)尚未被處理過(guò)的句子。

    (2)分詞,遍歷每一個(gè)單詞,以拼音變異率為概率,根據(jù)拼音替換原單詞為選出的混淆詞,標(biāo)記未替換的單詞為O,替換的單詞為W。

    (3)按字遍歷步驟2)的結(jié)果,每個(gè)字以字形變異率為概率,以字形相似度閾值為選擇混淆字時(shí)的相似度閾值,根據(jù)對(duì)應(yīng)的IDS替換原字為選出的混淆字,標(biāo)記未替換字為原有詞的標(biāo)簽,替換的字為W。

    (4)將步驟3)的結(jié)果轉(zhuǎn)換為BIO標(biāo)記,即連續(xù)的W將第一個(gè)W 替換為B,隨后的W 為I,單獨(dú)的W 只替換為B。標(biāo)記O 不變。

    (5)回到步驟(1),直到所有句子被處理完。

    處理結(jié)束后得到BIO標(biāo)注的拼寫錯(cuò)誤對(duì)照語(yǔ)料,其中由標(biāo)簽B和I標(biāo)注拼寫有誤的部分。

    1.3 偽語(yǔ)料庫(kù)效果展示

    在兩個(gè)變異率都為0.1、字形相似度閾值為0.45的條件下,有如下句子:

    (1)所以武林盟主是典范楷模,溈天下江湖人索厄信服。

    所以武林盟主是典范楷模,為天下江湖人所信服。

    (2)男女刵刖均外西裝夾呈。

    男女制服均為西裝夾克。

    (3)即是奡偶5天工作,珻天最高巿時(shí)7小時(shí)。

    即是每周5天工作,每天最高工時(shí)7小時(shí)。

    (4)世民大悅,賜以小宴,引為右一府童軍。

    世民大悅,賜以曲宴,引為右一府統(tǒng)軍。

    上述各例從生成的語(yǔ)料庫(kù)中隨機(jī)選出,第一行為生成的偽語(yǔ)料,其中加粗字為混淆項(xiàng),第二行是原始句子。通過(guò)上下參照可以看出隨機(jī)產(chǎn)生的句子并不完美,但可以輕易的產(chǎn)生大量語(yǔ)料。

    2 訓(xùn)練模型

    2.1 模型概覽

    本文使用如下圖1所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,以前述隨機(jī)語(yǔ)料為例:

    字符首先轉(zhuǎn)換為詞向量,經(jīng)由一層雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)之后傳入循環(huán)注意力層(Recurrent Multi-Head Attention),原始句子在輸入神經(jīng)網(wǎng)絡(luò)前需要先轉(zhuǎn)換為數(shù)字形式的表示。

    該詞向量在百度百科、中文維基百科、人民日?qǐng)?bào)、搜狗新聞、知乎問(wèn)答等大量語(yǔ)料上,在字和詞級(jí)別上使用負(fù)采樣Skip-gram(SGNS)進(jìn)行訓(xùn)練,每一個(gè)字向量或詞向量的維度是300維。結(jié)果最終經(jīng)過(guò)一個(gè)前向傳播的多層感知機(jī)(MLP)輸出為標(biāo)簽。

    2.2 模型效果展示

    在現(xiàn)實(shí)語(yǔ)料上表現(xiàn)如下(斜體加粗為模型標(biāo)注出來(lái)的拼寫錯(cuò)誤):

    (1)即是奡偶5天工作,珻天最高巿時(shí)7小時(shí)。

    圖1 模型概覽Fig.1 Model Overview

    (2)所以武林盟主是典范楷模,溈天下江湖人索厄信服。

    (3)這是罕有中文拼寫錯(cuò)誤的一段文字。這句話中有中文措別字一個(gè)。

    (4)次の曲が始まるのです

    (5)其實(shí)答案很簡(jiǎn)單啊,因?yàn)槲腋阕隽送瑯拥氖虑椤?/p>

    (6)修橋補(bǔ)路雙瞎眼,殺人放火子孫多。

    (7)天匠染青紅,花腰呈裊娜。

    3 結(jié)語(yǔ)

    本文傾向于將模型解釋為對(duì)語(yǔ)言模型的學(xué)習(xí)。通過(guò)對(duì)正常句子的加工,標(biāo)注出其中故意引入錯(cuò)誤的位置,在學(xué)習(xí)的過(guò)程中模型能夠?qū)W習(xí)到哪些情況下句子的某個(gè)部分很奇怪,并對(duì)正常的句子建立一個(gè)模式。而諸如楷模、江湖人等詞在維基語(yǔ)料中出現(xiàn)的比例不大,因而很容易被誤判為錯(cuò)誤句,而當(dāng)句式符合訓(xùn)練語(yǔ)料的句式時(shí)(例如c句),模型能夠較好的判定拼音混淆(含有-罕有)和字形混淆(錯(cuò)別字-措別字)。而一旦句式脫離了模型熟悉的陳述句(例如人物對(duì)話、俗語(yǔ)或古詩(shī)文),則誤判較多。

    猜你喜歡
    拼寫錯(cuò)誤字形拼音
    甲骨文“黍”字形義考
    甲骨文中的字形直立化二則
    復(fù)習(xí)生字字形的方法
    初中生英語(yǔ)詞匯學(xué)習(xí)策略探究
    贏未來(lái)(2018年1期)2018-04-20 07:11:36
    從2017年6月四級(jí)翻譯閱卷看段落翻譯中的詞匯錯(cuò)誤類型
    考試周刊(2017年92期)2018-02-03 01:00:32
    添一筆變個(gè)字
    由wrong錯(cuò)拼成worry引發(fā)的行動(dòng)研究
    快樂(lè)拼音
    快樂(lè)拼音
    快樂(lè)拼音
    山东| 兴和县| 兰西县| 丰原市| 吉木萨尔县| 永寿县| 定州市| 射洪县| 东城区| 高唐县| 兴义市| 逊克县| 郧西县| 新干县| 开阳县| 台北县| 准格尔旗| 湘乡市| 昌乐县| 河池市| 射洪县| 阿城市| 淅川县| 塔河县| 永胜县| 榆林市| 永昌县| 荔波县| 德江县| 岑巩县| 株洲县| 荥阳市| 江华| 桑日县| 富源县| 道孚县| 德保县| 苏尼特右旗| 崇文区| 炉霍县| 陆良县|