• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于句法規(guī)則的文本挖掘技術(shù)的設計

      2016-02-15 07:07:19
      現(xiàn)代情報 2016年2期
      關(guān)鍵詞:分詞句法規(guī)則

      寧 琳

      (重慶交通大學圖書館,重慶400074)

      一種基于句法規(guī)則的文本挖掘技術(shù)的設計

      寧 琳

      (重慶交通大學圖書館,重慶400074)

      文本挖掘是數(shù)據(jù)挖掘技術(shù)的一個重要方面,本文根據(jù)句法規(guī)則的特征,利用文本挖掘技術(shù),提出基于句法規(guī)則的文本知識挖掘設計模型,從數(shù)據(jù)準備、句法規(guī)則構(gòu)造、文本預處理、文本知識挖掘、挖掘結(jié)果評價等方面對工作原理進行了分析,重點闡述了句法規(guī)則的構(gòu)造過程,最后通過實驗驗證了該模型,該設計對實現(xiàn)文本知識的智能化挖掘具有一定的研究意義和應用價值。

      文本挖掘;句法規(guī)則;模式匹配;文本預處理

      隨著信息技術(shù)、網(wǎng)絡技術(shù)和各種數(shù)字化資源的建設,人們正面臨著海量、快速增長的文本數(shù)據(jù)資源,傳統(tǒng)的搜索引擎和查找技術(shù)已遠遠不能滿足人們的需求。如何從大量原始的、未經(jīng)處理的文本數(shù)據(jù)集合中挖掘出潛在未知的知識,滿足人們獲取各種信息和知識的需要,已成為一個重要的研究課題。

      1 文本挖掘及句法規(guī)則概述

      文本挖掘(Text Mining,TM)是在數(shù)據(jù)挖掘的基礎上發(fā)展起來的一個分支,它以文本數(shù)據(jù)作為挖掘?qū)ο?,主要任務是對隱藏于海量文本中沒有檢測到的非結(jié)構(gòu)化知識進行提取的過程[1]。文本挖掘處理的對象是由多數(shù)據(jù)源組成的大量文本文檔,包括新聞文章、研究論文、書籍期刊、報告會議、檔案文獻、Internet網(wǎng)絡信息等半結(jié)構(gòu)化或者高度非結(jié)構(gòu)化的數(shù)據(jù)[2]。

      漢語句子的結(jié)構(gòu)非常自由,但其蘊含的基本規(guī)則相對穩(wěn)定,句法規(guī)則是從漢語本身的屬性特點出發(fā),將構(gòu)成句子的詞或詞組按一定的語法關(guān)系和句子結(jié)構(gòu),組合成能夠表達完整意思的規(guī)則[3],如詞語的分類、句式結(jié)構(gòu)的確定、句法描述體系和句法構(gòu)成元素的建立等,它是對句子結(jié)構(gòu)的抽象概括,通過組合和聚合關(guān)系造出無數(shù)合格的句子,是對句子分析的一種總結(jié)結(jié)果。

      2 基于句法規(guī)則的文本知識挖掘技術(shù)的分析與設計

      本文采用句法規(guī)則構(gòu)造實現(xiàn)文本知識挖掘,主要設計如下:首先,根據(jù)知識的表示和用戶的不同需求,構(gòu)造出能全面準確表達文本內(nèi)容的句法規(guī)則;其次,針對多源文本數(shù)據(jù)的特點和存在的問題進行預處理操作,為核心挖掘提供干凈、準確、簡潔的目標數(shù)據(jù);再次,基于模式匹配算法,執(zhí)行句法規(guī)則與目標文本數(shù)據(jù)的匹配,得出滿足句法規(guī)則條件的挖掘結(jié)果;最后,通過一定的指標對挖掘結(jié)果進行評價,將滿足用戶需求的知識可視化表達到用戶界面,供其選擇和使用,具體過程如圖1所示:

      圖1 基于句法規(guī)則的文本知識挖掘設計

      2.1 數(shù)據(jù)準備

      數(shù)據(jù)準備主要是多源文本數(shù)據(jù)的獲取,它通過多種數(shù)據(jù)源獲取用于文本知識挖掘的數(shù)據(jù),并存儲在本地硬盤中[4]。文本數(shù)據(jù)的獲取有多種途徑,主要來源是Internet網(wǎng)絡信息、研究成果、各種專題數(shù)據(jù),以及其他文獻資料。選擇文本數(shù)據(jù)的數(shù)據(jù)源需要遵循以下原則:一是能為對象提供詳細、準確數(shù)據(jù);二是要考慮數(shù)據(jù)的可整合性、可挖掘性和現(xiàn)勢性。文本知識的挖掘是一種基于句法規(guī)則的集中式挖掘,務必要求多源文本數(shù)據(jù)在結(jié)構(gòu)上能夠整合到同一平臺框架下,并且保持一定的現(xiàn)勢性,從而簡化挖掘操作,提高知識獲取的準確度。

      2.2 句法規(guī)則構(gòu)造

      句法規(guī)則構(gòu)造是根據(jù)知識的表示方法和漢語的句法組成結(jié)構(gòu),通過對表達語料庫的的詳細分析,將知識規(guī)則化,為核心挖掘提供模式匹配的基礎條件。它主要分為3個層次:模板元素、句法規(guī)則、規(guī)則庫。建立用于構(gòu)造句法規(guī)則和約束文本分詞、詞性標注的模板元素,構(gòu)造出用于模式匹配的句法規(guī)則,構(gòu)建相應的規(guī)則樹。從模板元素建立到句法規(guī)則構(gòu)造,再到規(guī)則庫的構(gòu)建帶有明顯的層次性和結(jié)構(gòu)性。

      句法規(guī)則構(gòu)造過程分為以下幾步:一是收集并提煉出資料中的模板元素并建立相應的模板元素庫;二是根據(jù)語法要求和句法結(jié)構(gòu)將模板元素組合成句法規(guī)則;三是把句法規(guī)則存放入規(guī)則庫。

      2.2.1 句法規(guī)則的模板元素

      模板元素是用戶作為約束文本預處理結(jié)果的一種擴充詞典,各個模板元素之間相互作用、相互影響構(gòu)成了表達文本內(nèi)容的句法規(guī)則。在這里借鑒漢語句法結(jié)構(gòu)組成和本體概念的構(gòu)建方法,將構(gòu)成規(guī)則的每個〈詞語〉抽象為詞性,每種詞性下面包含了能夠反映該詞性性質(zhì)的元素,稱為模板元素,規(guī)則中的每個模板元素都是該事件的參與者,一個句法規(guī)則看作是一個句子的語義的某種抽象化表示[5],用模板元素表示該句子的語義,具體表示為:

      〈模板元素1〉+〈模板元素2〉+〈模板元素3〉+…+〈模板元素n〉(1)

      從式(1)可以看出,多個模板元素根據(jù)漢語句子的語法要求和句法結(jié)構(gòu)組合,即可構(gòu)成能夠表示特定文本知識的規(guī)則,我們稱這種表示知識的規(guī)則為句法規(guī)則。因此,本文的句法規(guī)則是以模板元素為基本單位,根據(jù)人們表達習慣將多個模板元素按照語法關(guān)系組合成能夠表達知識的句子。模板元素作為句法規(guī)則的組成,是一種類似本體的表達類型,可表示為屬性(內(nèi)容1,內(nèi)容2,…,內(nèi)容n),其中屬性抽象為能夠表達該領(lǐng)域知識的任意一種詞性,如“詞性:名詞”,內(nèi)容則表示該模板元素范圍內(nèi)包含的所有詞的集合。

      本文在采用中科院ICTCLAS分詞系統(tǒng)漢語詞性標記統(tǒng)計的基礎上,提出了多個屬性類別選項以描述模板元素,具體如表1所示:

      表1 詞類標注表

      然后,對各詞類內(nèi)容進行具體劃分,如以謂詞表為例:

      表2 謂詞表

      2.2.2 句法規(guī)則構(gòu)造

      句法規(guī)則是模式匹配的邏輯核心,是知識表示內(nèi)容的形式化概要,起到把要挖掘的知識內(nèi)容類型化和結(jié)構(gòu)化的作用。一條句法規(guī)則通常指出模板元素之間的關(guān)系,當句法規(guī)則與目標文本進行匹配時,必須合理約束各模板元素之間的語法關(guān)系和句法結(jié)構(gòu),嚴格按照每個模板元素在句法規(guī)則中的出現(xiàn)順序?qū)ζ溥M行匹配[4]。例如:北京是中國的首都,與天津市相鄰,它的句法化表達為:〈主語〉+〈謂詞〉+〈地名〉,〈連詞〉+〈地名〉+〈謂詞〉,它的句法規(guī)則為:n/v/ns/f/w2/cc/ns/v。

      2.2.3 規(guī)則庫

      規(guī)則庫是用戶需求與目標文本之間進行問題求解的基礎,用于描述相應領(lǐng)域內(nèi)知識概要的產(chǎn)生式集合[6],它包含了所有能反應和表達實體文本知識的方法和表現(xiàn)形式,能夠為用戶提供不同的抽象描述,形成不同的推理鏈,得出不同的挖掘結(jié)果。本文規(guī)則庫采用規(guī)則樹結(jié)構(gòu)存儲,如圖2所示:

      圖2 規(guī)則樹的建立

      圖2 中,規(guī)則庫作為樹的根結(jié)點,共包含24個子結(jié)點,分別代表本文構(gòu)造的24條句法規(guī)則。按照結(jié)點所在層次由高到低分別定義為一級、二級、三級和四級規(guī)則。該規(guī)則樹構(gòu)建的基本策略是:

      (1)將所有的句法規(guī)則置于一個集合中,即規(guī)則庫作為規(guī)則樹的根結(jié)點;

      (2)根據(jù)句法規(guī)則的組成結(jié)構(gòu)對其進行劃分,將相互獨立并且不被包含的句法規(guī)則按編號順序(從A到X)依次作為第二層的子結(jié)點,定義為一級規(guī)則;

      (3)將其余句法規(guī)則根據(jù)包含與被包含的關(guān)系,依次劃分到相應子結(jié)點下面,并分別定義為二級、三級和四級規(guī)則。

      采用以上樹結(jié)構(gòu)存儲句法規(guī)則,結(jié)構(gòu)清晰,便于執(zhí)行與目標文本的匹配,減少部分句法規(guī)則與目標文本之間不必要的匹配。

      2.3 文本預處理

      文本預處理是文本挖掘的基礎,主要對目標對象的多源文本數(shù)據(jù)進行操作,將多數(shù)據(jù)源中獲取的文本數(shù)據(jù)進行處理,為下一步的文本知識挖掘提供比較“滿意”的目標數(shù)據(jù)。預處理主要包括文本快速整合、文本分詞和詞性標注、目標文本存儲等,本文采用中科院的開源ICTCLAS分詞系統(tǒng)對文本進行分詞和詞性標注。

      文本預處理主要分為3個步驟:

      (1)多源文本數(shù)據(jù)快速整合。將目標對象的多源文本數(shù)據(jù)集成到同一文本文檔中。

      (2)中文分詞和詞性標注。將經(jīng)過整合的目標對象文本數(shù)據(jù)分詞、標注詞性。

      (3)目標文本存儲。將目標文本以段為單位編碼并索引標記,建立兩個二維表分開存儲目標文本分詞結(jié)果和目標文本詞性標注結(jié)果。例如,對于預處理之后的目標文本:南京/n位于/v江蘇省/ns中部/f,我們采用表3和表4所示存儲:

      表3 目標文本分詞

      表4 目標文本詞性

      2.4 文本知識挖掘

      文本預處理完成以后,即可進行文本挖掘操作。文本知識挖掘是采用模式匹配算法,將規(guī)則庫中的句法規(guī)則和目標文本執(zhí)行精確匹配,得出符合規(guī)則條件的文本結(jié)果,并將其保存。它的主要任務是通過各種算法挖掘出用戶需要的信息,主要包括特征提取、文本分類、文本聚類、文本提取、關(guān)聯(lián)分析等[7]。本文采用KMP(Knuth-Morris-Pratt)算法進行模式匹配,基本思想是:當匹配過程中出現(xiàn)字符比較不相等時,模式串利用已經(jīng)得到的“部分匹配”結(jié)果將模式串向右“滑動”,重新開始下一趟的匹配。例如對于主串“acabaabaabcac”,模式串“abaabcac”,利用KMP算法進行匹配的過程如下:

      表5 KMP算法匹配的過程

      具體挖掘流程如圖3:

      圖3 基于句法規(guī)則的文本知識挖掘流程

      基于句法規(guī)則的模式匹配的執(zhí)行步驟為:

      (1)讀取句法規(guī)則庫,輸入目標文本詞性和目標文本分詞,啟動基于句法規(guī)則的模式匹配。

      (2)對規(guī)則庫中的句法規(guī)則按照由高到低級別依次和所有編碼的目標文本詞性執(zhí)行匹配。采用匹配算法遍歷目標文本詞性執(zhí)行精確匹配,直到所有句法規(guī)則與目標文本詞性執(zhí)行完匹配,輸出所有句法規(guī)則匹配結(jié)果。若無句法規(guī)則匹配結(jié)果,則匹配失敗,結(jié)束整個模式匹配。

      (3)將所有句法規(guī)則匹配結(jié)果轉(zhuǎn)換為對應文本字符。根據(jù)二維表編碼關(guān)聯(lián)返回到對應目標文本分詞中,根據(jù)索引標記將句法規(guī)則匹配結(jié)果轉(zhuǎn)換成相對應的文本字符,該文本字符即為文本知識挖掘結(jié)果。

      (4)輸出所有基于句法規(guī)則的挖掘結(jié)果,匹配結(jié)束。

      2.5 挖掘結(jié)果評價和知識表達

      評價是指通過一定的評價標準對挖掘結(jié)果進行評估,把符合條件的結(jié)果返回到可視化模塊。知識表達是將評價后的結(jié)果表達到用戶界面,供用戶選擇使用,最終經(jīng)過可視化表達的結(jié)果即為用戶期待已久的知識。文本挖掘質(zhì)量評估是對挖掘結(jié)果的整體衡量,若挖掘結(jié)果滿足評價指標,則挖掘完成,否則重新挖掘。

      3 實驗結(jié)果驗證

      下面我們以鄭州市地理信息文本知識的挖掘為例,利用VisualStudio 2010作為開發(fā)平臺,介紹整個挖掘?qū)崿F(xiàn)過程。

      3.1 數(shù)據(jù)選取

      打開數(shù)據(jù)源接口,通過Internet搜索引擎選取30篇鄭州市地理信息數(shù)據(jù),并保存到“F:\鄭州市地理信息文本數(shù)據(jù)”中。

      3.2 文本預處理

      對以上選取的文本數(shù)據(jù)進行預處理。在ICTCLAS分詞系統(tǒng)上進行設置,通過選擇文本、添加用戶詞典、分詞并標注詞性、結(jié)果保存,實現(xiàn)文本快速整合、分詞和詞性標注。對預處理后的目標文本設置過濾功能,將對應的目標文本分詞和目標文本詞性以段為單位編碼同時用索引標記,分開存儲。存儲結(jié)果如下圖所示:

      圖4 目標文本詞性

      圖5 目標文本分詞

      3.3 文本知識挖掘

      文本知識挖掘是在本文2.2句法規(guī)則構(gòu)造的基礎上進行,主要分為3個過程:匹配條件提交、匹配實現(xiàn)和結(jié)果轉(zhuǎn)換。匹配條件提交指讀取規(guī)則庫、輸入目標文本詞性和目標文本分詞,匹配實現(xiàn)通過執(zhí)行模式匹配算法代碼來實現(xiàn),結(jié)果轉(zhuǎn)換利用句法規(guī)則匹配結(jié)果的編碼和索引標記將其轉(zhuǎn)換為對應的目標文本分詞字符,實現(xiàn)挖掘結(jié)果。挖掘結(jié)果分別如圖6所示:

      圖6 文本知識挖掘

      3.4 評價和表達

      在完成文本知識挖掘以后,便對挖掘結(jié)果進行評價,并按相對優(yōu)劣次序?qū)⒌乩砦恢梦谋局R可視化表達,并可導出為常用的EXCEL、WORD等文檔格式,如圖7所示:

      圖7 挖掘結(jié)果與表達

      通過以上實例可以看出,采用基于句法規(guī)則的文本挖掘方法,能夠為用戶在挖掘結(jié)果中得到比較滿意的信息,從而較好的達到設計的目的。

      4 結(jié)束語

      隨著文本數(shù)據(jù)資源的不斷增長,僅僅通過簡單的搜索引擎和數(shù)據(jù)篩選功能已經(jīng)無法滿足人們對信息和知識的需求,迫切需要高效率的信息分析方法。采用基于句法規(guī)則的文本知識挖掘設計方案,能夠從句法規(guī)則設計入手,利用現(xiàn)有文本挖掘技術(shù),從眾多文本數(shù)據(jù)中快速地獲取用戶需求的知識,對實現(xiàn)文本知識智能化挖掘具有一定的借鑒意義。

      [1]Antonis Spinakis.Text Mining A Powerful Tool for Knowledge Management[EB/OL].http:∥www.quantos-stat.com/articles/Text-Mining.pdf,2010,(7).

      [2]張雯雯,許鑫.文本挖掘工具述評[J].圖書情報工作,2012,(4):26.

      [3]楊暉.言語實踐中的句法認知[J].吉林師范大學學報:人文社會科學版,2007,(4):64-66.

      [4]馬紹龍.基于句法規(guī)則的地理位置文本知識挖掘[C].鄭州:信息工程大學論文集,2014(4):170-173.

      [5]吳平.論元控制謂詞與非論元控制謂詞的邏輯語義分析與計算[J].外語與外語教學,2006,17(3):5-10.

      [6]劉晨帆.基于規(guī)則引擎的軍事地理信息自定義查詢技術(shù)研究與實現(xiàn)[D].鄭州:信息工程大學,2010:23.

      [7]黃曉斌,趙超.文本挖掘在網(wǎng)絡輿情信息分析中的應用[J].情報科學,2009,(1):96.

      (本文責任編輯:孫國雷)

      Text Mining Design Based on Syntactic Rules

      Ning Lin
      (Library,Chongqing Jiaotong University,Chongqing 400074,China)

      Text mining is an important aspect of data mining technology.According to the features of syntactic rules,the paper uses the text mining technology,and puts forward the design model based on the syntactic rules text knowledge mining.It analyzes the working principles of the data preparation,the syntactic rules knowledge structure,the text preprocessing,the text mining and the evaluation of mining results.Meanwhile it expounds the process of the construction of the syntax rules.At last,the paper identifies the model after some physical experiments.All in all,the design has certain research significance and application value to implement the intelligent of the text knowledge mining.

      text mining;syntactic rules;pattern matching;text pretreatment

      10.3969/j.issn.1008-0821.2016.02.027

      TP391

      A

      1008-0821(2016)02-0140-05

      2015-11-05

      寧 琳(1979-),女,館員,碩士,研究方向:信息管理,發(fā)表論文10余篇。

      猜你喜歡
      分詞句法規(guī)則
      撐竿跳規(guī)則的制定
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      述謂結(jié)構(gòu)與英語句法配置
      數(shù)獨的規(guī)則和演變
      結(jié)巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      TPP反腐敗規(guī)則對我國的啟示
      值得重視的分詞的特殊用法
      云霄县| 宜州市| 甘谷县| 北京市| 饶河县| 嘉峪关市| 文昌市| 西乌珠穆沁旗| 宁明县| 谢通门县| 稻城县| 乌拉特中旗| 阿尔山市| 磐安县| 三都| 宁波市| 会泽县| 手游| 廉江市| 博客| 民勤县| 泸溪县| 独山县| 杂多县| 临沧市| 巴里| 固镇县| 五常市| 垣曲县| 九台市| 和林格尔县| 米脂县| 元氏县| 罗江县| 阳山县| 洪江市| 临朐县| 辛集市| 边坝县| 星子县| 特克斯县|