• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    XML文本的標(biāo)準(zhǔn)化

    2016-07-10 05:38:09孫溫穩(wěn)
    電子技術(shù)與軟件工程 2016年7期

    本文針對文本信息資源的特征,提出了一個基于XML的文本信息可視化的通用模型,詳細(xì)介紹了模型的三個對象空間--XML文檔庫、XML特征庫和可視化對象以及三項關(guān)鍵技術(shù)--中文分詞、文本分割和可視化映射,并結(jié)合實例驗證了模型的實用性、易擴(kuò)展性以及可移植性。

    【關(guān)鍵詞】XML 多種語言 文本規(guī)范化

    1 前言

    計算機(jī)應(yīng)用技術(shù)領(lǐng)域的文本集合可視化系統(tǒng),包括:文本采集模塊、中文分詞模塊、詞語權(quán)重計算模塊、XML文件組織模塊、可視化圖形界面模塊,其中XML文件組織模塊負(fù)責(zé)將詞語權(quán)重計算模塊傳入的數(shù)據(jù)以設(shè)定的數(shù)據(jù)結(jié)構(gòu)組織成XML文件保留在本地計算機(jī),并為可視化圖形界面模塊提供讀取文本數(shù)據(jù)結(jié)構(gòu)化處理后的結(jié)果。本項目著重研究的是XML文件組織模塊,主要為語言方面工程服務(wù)開發(fā)一個多用途的多語種并行的文本語料。原始語料有各種來源,如HTML或ASCII。一般來說,對于一個給定的任務(wù),建立一個新的語言模型需要一個特殊任務(wù)的語料庫,這意味著需創(chuàng)造一些新的文字處理和一些新的數(shù)據(jù)副本。為了簡化這個過程,我們將提出了一種格式,這種新格式可以讓我們輕松地創(chuàng)建一個具體的語言模型,將數(shù)據(jù)從原始類型轉(zhuǎn)成XML形式,而且這種規(guī)范化的格式也可以用到其它方面如:統(tǒng)計語言學(xué),信息檢索,機(jī)器翻譯等等。

    2 XML格式步驟

    本文著重講述如何從中文網(wǎng)頁中抽取信息并將其規(guī)范化為XML格式,這需要八個步驟:

    (1)將HTML文件轉(zhuǎn)化成為半結(jié)構(gòu)化的文本形式。

    (2)將半結(jié)構(gòu)化的文本形式轉(zhuǎn)化成為XML形式。

    (3)將語句劃分成為字符和空格。

    (4)進(jìn)行一些相應(yīng)地替換。

    (5)分割成為中文的字符。

    (6)將中文的字符粘貼成為詞和短語。

    (7)轉(zhuǎn)換阿拉伯?dāng)?shù)字為中文字符。

    (8)刪除標(biāo)點符號。

    第一步:HTML文件轉(zhuǎn)化成為半結(jié)構(gòu)化的文本形式

    在這一步中輸入的文件為HTML文件,輸出的內(nèi)容為XML文件,包括XML類標(biāo)題、keywords、title,”<><> “表示一個新的段落開始,”<>” 表示一個新的句子開始。目標(biāo)文件內(nèi)容格式如下所示:(以新浪網(wǎng)頁作為原始的HTML文件)

    新聞 時事 時政

    <><>

    娛樂圈穿幫鏡頭集錦 實拍各地08初雪 下調(diào)漫游費(fèi)聽證會舉行 <>

    <><>

    第二步:半結(jié)構(gòu)化的文本形式轉(zhuǎn)化成為XML形式

    這一步可將文本形式文件轉(zhuǎn)換為XML形式。在中文的段落中,句子是以句號結(jié)尾的,所以句號可作為一個分離器,可將每一個段落分離成為多個句子。在XML文件中加入一些標(biāo)簽,如、中放置被分離的句子。放置句子個數(shù)的計數(shù)器。如下所示:

    娛樂圈穿幫鏡頭集錦

    第三步:將語句劃分成為字符

    所采用的原理是將每一個句子分割成為一個個的中文字符,先為每個中文字符添加空格,

    同時往目標(biāo)文件中增添一系列的標(biāo)簽如、,將字符加入到相應(yīng)的標(biāo)簽中。如下所示:

    娛樂圈穿幫鏡頭集錦

    第四步:進(jìn)行一些相應(yīng)的替換

    將文章當(dāng)中一些符號替換成中文字。如 <°C >替換成為<攝氏度>等等。

    第五步:分割成為中文的詞匯

    在這一步驟中主要創(chuàng)建一個中文的詞典文件,這本詞典主要包括一些常用的中文詞匯。新聞

    第六步:粘貼中文的字符成中文的詞匯

    完成這一步需要借助上一步產(chǎn)生的中文字典,要根據(jù)字典中的詞匯將已經(jīng)分割成的每一個字粘貼成詞匯。

    第七步:轉(zhuǎn)換文件中的數(shù)字

    在這一步中,要將上一步所產(chǎn)生的目標(biāo)文件作為源文件運(yùn)行,將文件當(dāng)中的阿拉伯?dāng)?shù)字轉(zhuǎn)換成為中文的字符。比如說<2 >轉(zhuǎn)換成為二,最后產(chǎn)生出新的目標(biāo)文件。

    第八步:刪除標(biāo)點符號

    創(chuàng)建標(biāo)點符號文件,包括我們?nèi)粘K玫降乃袠?biāo)點符號如,:等等之類的。根據(jù)標(biāo)點符號文件中標(biāo)點符號順序依次從上一步所產(chǎn)生的目標(biāo)文件中刪除這些標(biāo)點符號,形成最終的目標(biāo)文件。

    3 總結(jié)

    上面所述的每一步所產(chǎn)生的目標(biāo)文件將作為下一步中的源文件直至最終的目標(biāo)文件產(chǎn)生。對于上面的程序框架不僅僅可以實現(xiàn)規(guī)范中文文本語料庫,也可用于規(guī)范其它語種的文本語料庫,如法語。只是由于中文與法語語法結(jié)構(gòu)不同,所以實現(xiàn)的步驟略有不同,且對應(yīng)的程序也要做相應(yīng)的改動。這個工具包能迅速處理一個非常大的文本語料庫--幾百萬文件來自不同的來源。我們可以很容易地在原有的工具包中加入新的模塊,用于完成對其它語言的處理。

    參考文獻(xiàn)

    [1]Brigitte Bigi,Viet-Bac Le.Normalisation et alignement de corpus fran?ais et vietnamiens: Format et Logiciels.JADT2008.

    [2]Habert B.,F(xiàn)abre C.,Issac F.(1998). De l'écrit au numérique:constituer, normaliser,exploiter les corpus électroniques.Paris,InterEditions, Masson,Informatiques.

    作者簡介

    孫溫穩(wěn)(1974-),女,河北省徐水縣人。碩士學(xué)位。現(xiàn)供職于鄭州師范學(xué)院。主要研究方向為人工智能。

    作者單位

    鄭州師范學(xué)院信息科學(xué)與技術(shù)系 河南省鄭州市 450044

    定边县| 莱州市| 庆阳市| 资兴市| 日喀则市| 葫芦岛市| 高雄县| 土默特左旗| 柳江县| 绥德县| 望都县| 逊克县| 连云港市| 安吉县| 郯城县| 巨野县| 汤阴县| 晋江市| 兰西县| 建昌县| 新绛县| 读书| 平罗县| 巴楚县| 沿河| 安康市| 明光市| 绥芬河市| 理塘县| 贵阳市| 定陶县| 宣威市| 台山市| 正镶白旗| 鸡东县| 武隆县| 锡林郭勒盟| 波密县| 家居| 香河县| 卢氏县|