• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于國(guó)內(nèi)現(xiàn)存文本語(yǔ)料庫(kù)規(guī)范化的現(xiàn)狀研究及改進(jìn)

      2016-11-11 02:57:12孫溫穩(wěn)
      河南科技 2016年11期
      關(guān)鍵詞:語(yǔ)料庫(kù)網(wǎng)頁(yè)規(guī)范化

      孫溫穩(wěn)

      (鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,河南 鄭州 450044)

      基于國(guó)內(nèi)現(xiàn)存文本語(yǔ)料庫(kù)規(guī)范化的現(xiàn)狀研究及改進(jìn)

      孫溫穩(wěn)

      (鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院,河南鄭州450044)

      當(dāng)前國(guó)內(nèi)對(duì)于文本可視化的研究還停留在初級(jí)階段,存在著許多方法處理文本語(yǔ)料庫(kù)。隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)變得越來(lái)越普及,人們可以從網(wǎng)絡(luò)上獲得大量的文本資料信息,本文主要針對(duì)如何獲取序列化、規(guī)范化的漢語(yǔ)的語(yǔ)料庫(kù)提出了一種新的框架。

      語(yǔ)料庫(kù);工具包;文本規(guī)范化

      1 文本可視化概述

      目前國(guó)內(nèi)對(duì)于文本可視化的研究還處在初級(jí)階段,主要停留在新技術(shù)的發(fā)展和新系統(tǒng)開(kāi)發(fā)等方面。對(duì)于文本集合可視化系統(tǒng),先通過(guò)文本采集模塊、中文分詞模塊、特征詞權(quán)重計(jì)算模塊和XML文件組織模塊構(gòu)成本地?cái)?shù)據(jù)庫(kù),然后通過(guò)可視化圖形界面模塊與本地?cái)?shù)據(jù)庫(kù)的接口交互,對(duì)用戶的檢索關(guān)鍵詞圖形化地顯示結(jié)果。其中,文本采集模塊在互聯(lián)網(wǎng)上搜集網(wǎng)頁(yè)文本,將采集到的文本作為原始數(shù)據(jù)源傳入中文分詞模塊;中文分詞模塊,對(duì)文本采集模塊中得到的文本內(nèi)容進(jìn)行分詞處理,獲得以詞為單位的語(yǔ)料,并統(tǒng)計(jì)詞頻,保存在本地文本,供后續(xù)的詞語(yǔ)權(quán)重計(jì)算模塊讀取詞頻信息計(jì)算權(quán)重;詞語(yǔ)權(quán)重計(jì)算模塊,用于對(duì)分詞后的結(jié)果進(jìn)行特征抽取即特征詞權(quán)重的計(jì)算,將計(jì)算結(jié)果連同對(duì)應(yīng)的特征詞,以及所在文本的標(biāo)題交給XML文件組織模塊;可視化圖形界面模塊以上述XML文件組織模塊保留在本地的結(jié)果數(shù)據(jù)為基本語(yǔ)料庫(kù),通過(guò)與用戶的交互取得用戶命令,并顯示出結(jié)果。

      2 文本語(yǔ)料庫(kù)規(guī)范化概述

      文本可視化涉及到信息采集,隨著科學(xué)技術(shù)的逐步發(fā)展,網(wǎng)絡(luò)也變得越來(lái)越普及。而絕大部分信息就分布在遍及世界各地大大小小的網(wǎng)站上,所以如何從互聯(lián)網(wǎng)上獲取信息并進(jìn)行規(guī)范化就變得迫在眉睫。本文著重講述提出一個(gè)新的框架用來(lái)處理和規(guī)范多語(yǔ)種文本語(yǔ)料庫(kù),為了擴(kuò)大語(yǔ)料庫(kù)的來(lái)源,可以直接創(chuàng)建互聯(lián)網(wǎng)的接口,將網(wǎng)頁(yè)作為語(yǔ)料庫(kù)的直接來(lái)源[1]。

      文本語(yǔ)料庫(kù)收集需要一個(gè)加工步驟才能構(gòu)成所需要的序列,這種序列可用于語(yǔ)音的識(shí)別和對(duì)話,比如在感知空間用多種方式交互的語(yǔ)音處理等。XML被構(gòu)想成為一門(mén)獨(dú)立的語(yǔ)言,其可提供一種可能性在同一個(gè)文件中能存儲(chǔ)多種語(yǔ)音。對(duì)一種已知的語(yǔ)言,且對(duì)于相同的一個(gè)語(yǔ)句,可以一樣地保存多種語(yǔ)言層次的分析。比如一篇文獻(xiàn)的整體包括作者、標(biāo)題、日期、正文等,正文部分可被劃分成為一些段落和一些語(yǔ)句。我們可保存這些原始的語(yǔ)句,然后將這些語(yǔ)句進(jìn)一步劃分詞、音節(jié)、短語(yǔ);將文本信息格式化成XML的形式,其將為我們提供一種適用于文本文件的模本化、序列化的形式,這種形式將帶來(lái)一系列的好處,快速、便利地開(kāi)發(fā)和使用。比如,當(dāng)需要增加、修改、提取一些新的模本時(shí),將會(huì)變得非常容易。而且這些模本將會(huì)使從一種語(yǔ)言變成另一種語(yǔ)言變得非常容易。文本信息以標(biāo)準(zhǔn)化、模塊化的形式存在,一方面能繼承一些工具集中處理、加工的特性,另一方面將能夠快速、特定地適用于其他工具的處理。當(dāng)一種語(yǔ)言翻譯成另一種語(yǔ)言時(shí),可以繼承兩種語(yǔ)言一些共有的部分,而且使得每種語(yǔ)言固有的模塊進(jìn)行匹配[2]。

      本文提出了一種通用XML格式的文本語(yǔ)料庫(kù)和介紹了一些工具轉(zhuǎn)換,規(guī)范多語(yǔ)種文本語(yǔ)料庫(kù)。更具體地說(shuō),在工作中,一個(gè)基于XML的文本語(yǔ)料庫(kù)是一套文件,包括描述(作者、標(biāo)題、等)和文字內(nèi)容。文件的內(nèi)容將分解成段落和句子。在句子層面把原來(lái)的句子(因?yàn)檫@是寫(xiě)在源文件)進(jìn)一步分解成為短語(yǔ)、詞、語(yǔ)素、音節(jié)等,當(dāng)然也涉及一些額外的信息,如引理、詞性或類(lèi)。

      3 語(yǔ)言GAWK編寫(xiě)程序的應(yīng)用

      將原始的中文網(wǎng)頁(yè)轉(zhuǎn)化成為一個(gè)可行的電子語(yǔ)料庫(kù),這需要編寫(xiě)許多應(yīng)用程序來(lái)實(shí)現(xiàn)。所有程序都是使用語(yǔ)言GAWK編寫(xiě)程序來(lái)實(shí)現(xiàn)的,包括文件的過(guò)濾、處理、加工、轉(zhuǎn)化成XML形式等。同樣的一件工作,以gawk程式來(lái)寫(xiě)會(huì)比用其他程式語(yǔ)言來(lái)寫(xiě)短很多。下面介紹所需要做的一些工作。

      3.1將原始的文本信息轉(zhuǎn)換成為結(jié)構(gòu)化的文件

      中文網(wǎng)頁(yè)的編碼一般使用GB2312,而我們的工作環(huán)境是LINUX,它不能處理使用編碼GB2312的文件,所以進(jìn)行編碼的轉(zhuǎn)換,由GB2312轉(zhuǎn)換為UTF-8。可使用iconv命令將一種編碼形式轉(zhuǎn)換成另一種形式。具體的工作中可以創(chuàng)建一個(gè)工具箱,在工具箱內(nèi)創(chuàng)建許多文件,這些文件分別實(shí)現(xiàn)不同的功能最終可以將原始的語(yǔ)料庫(kù)逐步規(guī)范成所需要的序列化的語(yǔ)料庫(kù)。下面分別介紹這些文件的功能,其中HtmltoText.awk將輸入的文件utf-8編碼格式的HTML文件轉(zhuǎn)換成為一個(gè)特定的格式化的XML文件,在XML文件中可以建立許多標(biāo)簽分別用來(lái)存放網(wǎng)頁(yè)上不同類(lèi)別的信息。比如,中文網(wǎng)頁(yè)上導(dǎo)航欄上的信息可以放在XML文件中的標(biāo)簽中,再者“<>< >‘表示網(wǎng)頁(yè)上一個(gè)新的段落開(kāi)始,’<>”表示網(wǎng)頁(yè)上一個(gè)新的句子開(kāi)始。具體目標(biāo)文件內(nèi)容格式如下所示(以網(wǎng)頁(yè)作為原始的HTML文件)。

      3.2將結(jié)構(gòu)化的文件進(jìn)一步進(jìn)行其他形式的轉(zhuǎn)換

      Text2XML.awk將上一步生成的XML文件(exple.1)進(jìn)一步規(guī)范化。在上一個(gè)步驟中將網(wǎng)頁(yè)上的內(nèi)容分成了許多段落,在這個(gè)階段中將每一個(gè)段落分離成為多個(gè)句子。可在XML文件中繼續(xù)添加一些標(biāo)簽,如標(biāo)簽中放置被分離的句子。SplitOrig2Wd.awk可將上一步分離出的句子再進(jìn)一步分割成每一個(gè)中國(guó)字符,為了實(shí)現(xiàn)這個(gè)功能可向這一階段生成的目標(biāo)文件中增添一系列的標(biāo)簽如,將每個(gè)字加入到這些標(biāo)簽中。如、等。Stick.awk根據(jù)已創(chuàng)建Lexique-cn.vocab中文詞典文件(這本詞典主要包括2個(gè)字的詞匯象中國(guó)、美國(guó)、經(jīng)濟(jì)等之類(lèi)常用詞匯)將已經(jīng)分割成的中文字符(也就是每一個(gè)字)粘貼成詞匯。這一步在執(zhí)行過(guò)程中,有一個(gè)重要的規(guī)則需要用到,粘貼成一個(gè)詞的順序是以每一個(gè)字出現(xiàn)在原始句子中的先后順序?yàn)榍疤岬摹R迟N成2個(gè)字的詞匯,如果一個(gè)句子中包含“ABC”,而字典中既有“AB”這個(gè)詞,也有“BC”這個(gè)詞匯,那么在粘貼成詞匯時(shí),選擇的是前者即“AB”,而不是后者即“BC”。Num2Letter.awk要將上一步所產(chǎn)生的目標(biāo)文件當(dāng)中的阿拉伯?dāng)?shù)字轉(zhuǎn)換成為中文形式,比如50轉(zhuǎn)換成為伍拾等。Remove.awk鑒于詞匯,一些文字中的標(biāo)點(diǎn)符號(hào),可以從文檔中移除。

      上面所建立的工具包主要應(yīng)用于對(duì)中文文本語(yǔ)料庫(kù)的規(guī)范化,也可以對(duì)工具包進(jìn)行擴(kuò)展用于加入其他一些功能或者是對(duì)其他的一些語(yǔ)言進(jìn)行規(guī)范化??舍槍?duì)其他語(yǔ)言與漢語(yǔ)的不同之處,對(duì)程序進(jìn)行相應(yīng)的修改,很容易就能獲取一個(gè)新的模塊用以處理其他語(yǔ)言。目前存在著許多方法處理文本語(yǔ)料庫(kù),但是本文描述的該工具包可獲得一個(gè)完整、清潔和統(tǒng)一版本不同語(yǔ)言的文本語(yǔ)料庫(kù)。

      [1]Brigitte Bigi,Viet-Bac Le.Normalisation et alignement de corpus fran?ais etvietnamiens:Format et Logiciels[J].JADT,2008(9):199-207.

      [2]Habert B,F(xiàn)abre C,Issac F.De l'écrit au numérique:constituer,normaliser,exploiter lescorpus électroniques[J].Paris:InterEditions-Masson,1998.

      Research and Improvement on the Current Situation of the Standardization of the Existing Text Corpus in China

      Sun Wenwen
      (Information Science&Technology College,Zhengzhou Normal University,Zhengzhou Henan 450044)

      The current domestic for text visualization research still stays in the primary stage,there are many ways to deal with text corpus.With the continuous development of science and technology,network has become more and more popular.We can get a lot of text information from the Internet,this paper focusedon how to obtain the serialization and standardization of the corpus of Chinese to propose a new framework.

      corpus;toolkit;text normalization

      TP311

      A

      1003-5168(2016)06-0019-02

      2016-05-21

      孫溫穩(wěn)(1974-),女,碩士,助理經(jīng)濟(jì)師,研究方向:人工智能。

      猜你喜歡
      語(yǔ)料庫(kù)網(wǎng)頁(yè)規(guī)范化
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      價(jià)格認(rèn)定的規(guī)范化之路
      商周刊(2017年23期)2017-11-24 03:24:09
      基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      狂犬?、蠹?jí)暴露規(guī)范化預(yù)防處置實(shí)踐
      高血壓病中醫(yī)規(guī)范化管理模式思考
      滿足全科化和規(guī)范化的新要求
      肇东市| 平定县| 林州市| 滦平县| 子洲县| 盐山县| 河池市| 太湖县| 元谋县| 霍林郭勒市| 奈曼旗| 肥城市| 石阡县| 玉龙| 县级市| 崇文区| 溧水县| 铜鼓县| 清新县| 北碚区| 巴彦县| 全椒县| 咸丰县| 方城县| 北流市| 安岳县| 综艺| 吴堡县| 承德县| 乌鲁木齐县| 开鲁县| 莱芜市| 苍南县| 邢台市| 乐亭县| 微山县| 保德县| 文安县| 上饶县| 广宗县| 宜都市|