• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      瀕危語言與漢語平行語料庫動態(tài)構(gòu)建技術(shù)研究

      2018-09-26 07:07:54于重重張青川尹蔚彬孫沁瑤
      計算機應(yīng)用與軟件 2018年9期
      關(guān)鍵詞:哈希分詞語料

      于重重 曹 帥 張青川 尹蔚彬 孫沁瑤 劉 暢

      1(北京工商大學計算機與信息工程學院 北京 100048)2(中國社會科學院民族學與人類學研究所 北京 100081)

      0 引 言

      瀕危語言,顧名思義,就是有瀕臨消失的危險的語言[1]。瀕危語言是不可再生的非物質(zhì)文化資源,搶救和保存瀕危語言資料的核心任務(wù)是對這些正在流失、不可復得的語言資料及其蘊含的文化信息進行全方位的語言記錄、語料處理和語言信息保存。作為低資源語言[2-4],瀕危語言很多沒有文字,以口語的形式存在,長篇自然話語的記錄極為有限,能找到的錄音人有限,不足以反映一種語言的基本面貌。同時,自然口語的人工標注、轉(zhuǎn)錄、對應(yīng)通用語言的翻譯工作量巨大。從機器翻譯的角度上去分析,建立比較好的語言模型,離不開豐富語料庫的支持[5]。因此,如何建立瀕危語言的跨語言平行語料庫是研究人員們面臨的又一重要課題。呂蘇語作為一種瀕危語言,目前只有雅礱和尼亞格楚江沿岸的大約7 000人使用[6]。本文以呂蘇語作為研究對象,為了建立呂蘇語與漢語的跨語言平行語料庫,首先使用jieba分詞對呂蘇語語料進行分詞處理;然后基于TF-IDF技術(shù)來提取呂蘇語語料的關(guān)鍵詞,再以提取的關(guān)鍵詞作為橋梁,在新浪博客靜態(tài)網(wǎng)頁下爬蟲獲取大量的漢語擴展文本;最后通過基于最小哈希的Jaccard相似度來計算并比較呂蘇語語料與漢語擴展文本之間的相似度,將相似度較高的漢語擴展文本作為呂蘇語的漢語擴展語料,實現(xiàn)呂蘇語與漢語雙語平行語料庫的動態(tài)構(gòu)建技術(shù),為機器翻譯奠定良好的基礎(chǔ)。

      1 語料擴展方案

      呂蘇語屬于漢藏語系,是藏語的一個分支。目前只有族群內(nèi)部的口語交流,沒有文字傳播。因此,為了保存呂蘇語,必須要借助懂得漢語與呂蘇語兩種語言的母語人進行漢語的轉(zhuǎn)譯。通過機器翻譯建立呂蘇語與漢語之間的語言模型將會大大減少母語人的人工轉(zhuǎn)譯工作。要實現(xiàn)這一目標,首先需要構(gòu)建呂蘇語與漢語雙語平行語料庫。

      本文針對呂蘇語口語的漢語標注語料進行擴展。包含15個呂蘇語的故事文本,總計25 746個單詞,6 257個句子。目前的語料對于訓練一個精確度較高的語言模型來說,是遠遠不夠的。所以將呂蘇語作為原始語料來獲取與之相對應(yīng)的漢語跨語言平行語料,簡稱漢語擴展語料,這一過程將有效擴展呂蘇語語料庫,為呂蘇語語言模型的建立做充分的準備。

      如圖1所示,呂蘇語的漢語擴展語料獲取可分為四個步驟。

      圖1 呂蘇語-漢語擴展語料獲取步驟

      其次,提取呂蘇語語料的關(guān)鍵詞。本文以提取出來的呂蘇語核心詞表作為用戶自定義詞典,先用jieba算法對呂蘇語語料進行分詞處理,然后用TF-IDF算法來實現(xiàn)每篇呂蘇語語料的關(guān)鍵詞抽取。平均每篇文檔提取10個關(guān)鍵詞,則提取的關(guān)鍵詞總數(shù)為150個。結(jié)果表明,提取的關(guān)鍵詞中包含一定數(shù)量的虛詞,為了解決這一問題,每篇文檔提取20個關(guān)鍵詞,然后去掉其中的虛詞,余下150詞。這樣不但保證了關(guān)鍵詞的數(shù)量,而且確保了關(guān)鍵詞的質(zhì)量。

      然后,爬蟲獲取大量漢語擴展文本。以提取的150個呂蘇語關(guān)鍵詞匯作為漢語語料爬蟲的種子詞匯,通過靜態(tài)網(wǎng)頁爬蟲的方式從新浪博客上爬取N篇漢語擴展文本,N的計算公式如下:

      (1)

      式中:n是平均每篇呂蘇語故事提取的關(guān)鍵詞數(shù),m是每篇呂蘇語故事對應(yīng)的k個關(guān)鍵詞組合下爬取的漢語擴展文本篇數(shù),l是呂蘇語故事總數(shù)。本文中n和m均取10,l取15。

      最后,比較每篇呂蘇語語料與其相對應(yīng)的漢語擴展語料的相似度。分別將呂蘇語語料與爬取的漢語擴展語料進行基于最小哈希的Jaccard相似度計算,得到與每篇呂蘇語語料相對應(yīng)的漢語擴展語料的相似度值。如果呂蘇語語料所對應(yīng)的前五個相似度的值均在0.7~1.0之間,則將由此得到的前五篇漢語擴展語料作為最終呂蘇語的漢語雙語平行語料;如果呂蘇語語料所對應(yīng)的前五個相似度的最低值在0.5~0.7之間,則返回到爬蟲環(huán)節(jié),繼續(xù)獲取語料;如果呂蘇語語料所對應(yīng)的前五個相似度的最低值在0~0.5之間,則返回到關(guān)鍵詞獲取環(huán)節(jié)。

      2 關(guān)鍵技術(shù)

      本文中用到的主要方法有:在提取呂蘇語語料的關(guān)鍵詞時用到了基于jieba算法的中文文本分詞技術(shù)、TF-IDF關(guān)鍵詞抽取算法;在比較呂蘇語語料與漢語擴展語料的相似度時用到了基于最小哈希簽名的Jaccard相似度改進算法。

      2.1 基于jieba的語料分詞

      目前,針對漢語分詞的方法包括三種[7-9]:基于知識理解的分詞方法、基于字典及詞庫匹配的分詞方法和基于詞頻度統(tǒng)計的分詞方法。本文使用的jieba分詞[10]是一種基于詞頻度統(tǒng)計的全切分分詞方法。jieba分詞采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合,對于未登錄詞,采用了基于漢字成詞能力的隱馬爾可夫模型,使用了維特比算法。

      如圖2所示,基于jieba方法的呂蘇語語料的分詞過程主要包括三個方面:首先對呂蘇語語料進行預處理,然后基于自定義詞典的詞圖掃描方式以及動態(tài)規(guī)劃算法建立模型,找到基于詞頻的最大切分組合,最后將分詞結(jié)果輸出。

      177 3D 打印輔助微創(chuàng)接骨板內(nèi)固定術(shù)(MIPO)改善脛骨旋轉(zhuǎn)不良的前瞻性隨機對照研究 張 磊,房 雷,陳 曉,史 萌,周 琳,徐盛明,蘇佳燦

      圖2 基于jieba方法的呂蘇語語料的分詞過程

      2.2 基于TF-IDF的語料關(guān)鍵詞提取

      基于TF-IDF的關(guān)鍵詞抽取算法[11,12]是一種主流的關(guān)鍵詞推薦方法。它利用候選關(guān)鍵詞的統(tǒng)計性質(zhì)對其進行排序,然后選取若干個排序最靠前的候選詞作為關(guān)鍵詞。

      本文中對呂蘇語語料及其漢語擴展語料進行關(guān)鍵詞提取時不僅考慮到了漢語的語言特性,而且考慮到呂蘇語的語言特性:在漢語特性中,如果以“的”、“了”、“是”等這些詞為關(guān)鍵詞獲取擴展語料,無疑是對結(jié)果毫無幫助,因此需要將這些停止詞進行過濾;在呂蘇語語特性中,像“拉菇薩”、“千子山”、“什巴”等這些少見的詞如果在某篇文章中多次出現(xiàn),就可將其作為反映某篇呂蘇語語料主題的關(guān)鍵詞。與此同時,在提取關(guān)鍵詞時用自定義詞典代替jieba分詞算法中的固有詞典,有效地保留了呂蘇語語料中的特有關(guān)鍵詞。

      基于TF-IDF的呂蘇語語料的關(guān)鍵詞提取步驟如圖3所示。

      圖3 基于TF-IDF的呂蘇語語料關(guān)鍵詞提取過程

      本文中對于每一篇呂蘇語語料,選擇其中具有代表性的20個特征詞作為關(guān)鍵詞的候選詞匯,然后去掉其中無意義的虛詞,剩余的候選詞匯作為呂蘇語語料的關(guān)鍵詞。

      2.3 基于最小哈希的Jaccard相似度計算

      為了識別字面上相似的文檔,最有效的方法是將文檔表示成短字符串集合,然后進行相似度比較。傳統(tǒng)意義上最常用的方法是Broder提出的Shingling算法[13]。Shingling算法的原理是假定一篇文檔就是一個字符串,則文檔的k-shingle定義為其中任意長度為k的子串,于是每篇文檔可以表示成文檔中出現(xiàn)一次或者多次的k-shingle集合。一般來講,對于少量語料相似度的計算,采用基于Shingling的Jaccard算法相對來說比較簡單,容易實現(xiàn);如果要比較相似度的語料數(shù)量較大,則會產(chǎn)生大量的shingling集合,導致計算的速度降低。

      Jaccard相似度計算方法用來測量多個集合在共同屬性上的重疊度[14]。假設(shè)給定兩個集合A和B,則A、B的Jaccard相似度記為sim(A,B)。sim(A,B)計算過程如式2所示:

      (2)

      本文中待處理的呂蘇語語料和漢語擴展語料的數(shù)量較多,故不將子字符串直接用成shingle,而是采用基于最小哈希的Jaccard相似度算法來計算呂蘇語語料與漢語擴展語料之間的相似度值。基于最小哈希的Jaccard相似度算法原理是:通過某個哈希函數(shù)將長度為k的子字符串映射為桶編號,然后將映射之后的桶編號看成最終的shingle集合來進行Jaccard相似度計算。采用基于最小哈希的Jaccard算法不僅使數(shù)據(jù)得到了壓縮,而且大幅度提升了程序運行的速度。具體計算過程如圖4所示。

      圖4 基于最小哈希的Jaccard相似度計算流程

      本文中基于最小哈希的Jaccard相似度計算過程如下:

      1) 將呂蘇語語料和漢語擴展語料中的每個故事表示成一個以k個字符為單位的k-shingle集合。假如某句子內(nèi)容是“我的名字叫次仁翁嘉”,如果k設(shè)為2,那么該句子對應(yīng)的k-shingle集合就是‘我的’,‘名字’,…,‘次仁’,‘翁嘉’等兩個字組合的集合。

      2) 統(tǒng)計呂蘇語語料和漢語擴展語料中每個故事對應(yīng)的k-shingle集合中的元素,形成特征矩陣Ma×b。Ma×b矩陣的列對應(yīng)每個呂蘇語及漢語擴展故事中的k-shingle集合,行對應(yīng)所有呂蘇語語料及漢語擴展語料中的元素。如果行r對應(yīng)的元素屬于列c對應(yīng)的集合,那么矩陣第r行第c列的元素為1,否則為0。

      3) 構(gòu)建簽名矩陣。首先定義哈希函數(shù),然后建立基于特征矩陣Ma×b的簽名矩陣。簽名矩陣的列數(shù)與Ma×b的列數(shù),其行數(shù)為哈希函數(shù)的個數(shù)n。令SIG(i,c)為簽名矩陣中第i個哈希函數(shù)在第c列上的元素。SIG(i,c)的計算過程如圖5所示。

      SIG(i,c):簽名矩陣中第i個哈希函數(shù)在c第列上的元素輸入: ? 哈希函數(shù)的個數(shù) ? 特征矩陣的維數(shù)初始化:將所有的i和c初始化為∞輸出:哈希簽名矩陣SIG(i,c)函數(shù):1. Loop for i=1,2,…,n2. 計算行r對應(yīng)的hi(r)3. End Loop for n4. Loop for c=1,2,…,b5. IfM(r,c)=16. SIG(i,c)=min(SIG(i,c),hi(r));i=1,…,n7. End Loop for b

      圖5SIG(i,c)算法流程

      4) 使用Jaccard相似度計算公式來計算最小哈希下每篇呂蘇語語料與其對應(yīng)的漢語擴展語料之間的相似度值。事實上,兩個集合經(jīng)過最小哈希簽名計算之后得到的兩個最小哈希值相等的概率等于這兩個集合的Jaccard相似度[15]。因此,本文中最終獲得的相似度值直接作為呂蘇語語料與其對應(yīng)的漢語擴展語料之間的相似度值。

      3 實驗與分析

      3.1 實驗數(shù)據(jù)

      本文使用的呂蘇語語料來源于呂蘇語口語的漢語標注語料,其中包含15個呂蘇語的故事文本,總計25 746個單詞、6 257個句子。通過對呂蘇語語料進行jieba分詞、TF-IDF關(guān)鍵詞提取以及靜態(tài)網(wǎng)頁爬蟲初步獲取呂蘇語的漢語擴展語料308篇。

      呂蘇語語料與初步獲取的漢語擴展語料數(shù)量比為1∶20,詞語數(shù)量比為2∶3。可以發(fā)現(xiàn),初步獲取的漢語擴展語料在數(shù)量上對呂蘇語語料起到了很好的擴展作用。為了獲取與呂蘇語語料內(nèi)容更加相似的漢語擴展語料,本文中設(shè)置了基于最小哈希的Jaccard相似度計算實驗。該實驗以15篇呂蘇語語料和初步獲取的308篇漢語擴展語料做為基本研究對象,通過計算呂蘇語語料與初步獲取的漢語擴展語料之間的相似度值,多次提取關(guān)鍵詞以及爬蟲獲取數(shù)據(jù),將相似度值為0.7及以上的前五篇漢語擴展語料作為最終呂蘇語的漢語平行語料。

      3.2 實驗結(jié)果

      本文中的所有算法均采用python編程在PC機下實現(xiàn)。為了確定該方法對瀕危語言的語料擴展是否準確有效,在實驗之前使用了大量的跨語言平行語料作為測試用例,編制了專門的測試程序,糾正了測試結(jié)果。測試環(huán)境為:計算機CPU為2.50 GHz,內(nèi)存8.00 GB;操作平臺是Windows 10;編程環(huán)境是Python2.7。

      通過實驗,獲取呂蘇語的漢語擴展語料共計75篇,其中包含的句子總數(shù)為4 231句,句子的平均長度為30詞。為了驗證相似性,本文對呂蘇語語料及其漢語擴展語料分別進行了核心詞以及文本之間的相似度計算實驗。部分實驗結(jié)果如表1所示。

      表1 實驗結(jié)果比較

      結(jié)果表明,通過jieba分詞、TF-IDF關(guān)鍵詞提取、靜態(tài)網(wǎng)頁爬蟲以及基于最小哈希的Jaccard相似度計算四個過程獲取的漢語擴展語料在字面上與呂蘇語語料之間存在較高的相似度。與此同時,通過閱讀呂蘇語語料及其漢語擴展語料發(fā)現(xiàn)二者語義都涉及到類似的生活場景。

      4 結(jié) 語

      本文以呂蘇語作為研究對象,應(yīng)用了基于jieba算法的中文語料分詞技術(shù)、TF-IDF的關(guān)鍵詞提取技術(shù)、靜態(tài)網(wǎng)頁爬蟲技術(shù)以及基于最小哈希的Jaccard相似度算法獲取了呂蘇語的漢語擴展語料。該擴展語料不僅使得呂蘇語語料庫在數(shù)量上得到了很好的擴展,而且呂蘇語的漢語擴展語料與呂蘇語語料在內(nèi)容上具有較高的相似度,為下一步呂蘇語語言模型的建立奠定了良好的基礎(chǔ)。

      通過對呂蘇語的漢語擴展語料的獲取,實現(xiàn)了瀕危語言與漢語雙語平行語料庫的動態(tài)構(gòu)建技術(shù)。此技術(shù)不僅為自動語音識別技術(shù)提供了良好的保障,而且對瀕危語言非物質(zhì)文化遺產(chǎn)的保存起到了至關(guān)重要的作用。在未來的研究當中,一方面會將語義作為文本相似性比較中的影響因素之一,目的是獲取語義相似度較高的擴展語料;另一方面改進相似度的計算方法,實現(xiàn)多個文本之間字面上、語義上相似度的全面比較。

      猜你喜歡
      哈希分詞語料
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      值得重視的分詞的特殊用法
      基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
      華語電影作為真實語料在翻譯教學中的應(yīng)用
      基于維度分解的哈希多維快速流分類算法
      計算機工程(2015年8期)2015-07-03 12:20:04
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
      計算機工程(2014年6期)2014-02-28 01:25:40
      一種基于Bigram二級哈希的中文索引結(jié)構(gòu)
      石阡县| 嘉义县| 古田县| 文昌市| 平远县| 乡城县| 九江市| 孝义市| 东海县| 巴马| 济宁市| 天气| 武强县| 于都县| 溧阳市| 子长县| 定兴县| 治多县| 吴川市| 汽车| 鞍山市| 临澧县| 芒康县| 芦溪县| 乳山市| 甘泉县| 蓬溪县| 高陵县| 利川市| 北海市| 古浪县| 许昌市| 曲靖市| 偃师市| 开平市| 大方县| 内丘县| 利辛县| 晋中市| 青川县| 茌平县|