摘 要:為了準(zhǔn)確快速地抽取出用戶感興趣的信息,本文提出基于GATE的領(lǐng)域信息抽取。本文以“教育”領(lǐng)域?yàn)槔薷腉ATE的中文抽取插件Lang_chinese,精準(zhǔn)快速地抽取出該領(lǐng)域的學(xué)校名、專業(yè)名、人名,為進(jìn)一步提高中文信息抽取的準(zhǔn)確率和召回率提供了研究基礎(chǔ)。
關(guān)鍵詞:GATE;領(lǐng)域抽取
中圖分類號(hào):TP391.1
隨著現(xiàn)代通信和傳播技術(shù)的不斷發(fā)展,信息巨量生產(chǎn)、高速傳播,人們被大量洶涌而來的信息所包圍。怎么從浩瀚如煙的信息海洋中快速、準(zhǔn)確地找到所需要的信息成為當(dāng)前信息處理的研究重點(diǎn)。
1 信息抽取與GATE框架
1.1 信息抽取。信息抽取(Information Extraction,簡(jiǎn)稱IE)是指從文本中直接抽取用戶感興趣的信息,以結(jié)構(gòu)化的形式存入數(shù)據(jù)庫中,可供用戶直接使用或進(jìn)行下一步的信息處理[1]。信息抽取是領(lǐng)域相關(guān)的,只能抽取特定領(lǐng)域或某些范圍內(nèi)有限種類的信息。當(dāng)有大量的文本需要閱讀處理的時(shí)候,信息抽取可以高效、精準(zhǔn)地提取出所需要的領(lǐng)域信息。
1.2 GATE框架。GATE(General Architecture for Text Engineering)是英國Sheffield大學(xué)開發(fā)的,應(yīng)用非常廣泛的開源性自然語言處理框架。GATE框架為信息抽取提供了基本平臺(tái)[2]。針對(duì)英文信息抽取,已經(jīng)開發(fā)了基于該框架的應(yīng)用實(shí)例插件ANNIE。ANNIE在英文信息抽取的準(zhǔn)確率和召回率方面均已達(dá)到較高水準(zhǔn),并被一些商業(yè)公司使用,如惠普、大英電信等。
2 基于GATE的中文領(lǐng)域信息抽取
2.1 GATE中自帶的中文信息抽取插件。GATE平臺(tái)除了提供英文信息抽取插件ANNIE,也提供了中文信息抽取插件Lang_Chinese,但其設(shè)計(jì)比較簡(jiǎn)單。以中文插件Lang_Chinese的默認(rèn)設(shè)置對(duì)文本進(jìn)行抽取時(shí),如希望能抽取出需要的領(lǐng)域信息,如在“教育”領(lǐng)域希望抽取出“學(xué)校”等組織單位,“校長(zhǎng)”等人員信息,則結(jié)果不能讓人滿意。
分析其中的原因,主要有以下幾點(diǎn):(1)中文分詞處理不夠?qū)I(yè)。(2)缺乏針對(duì)專業(yè)領(lǐng)域構(gòu)造的中文詞表庫。(3)GATE中自帶的JAPE抽取規(guī)則,多是針對(duì)英文命名實(shí)體識(shí)別編寫,對(duì)中文支持不夠,導(dǎo)致相當(dāng)部分的中文不能被識(shí)別到。
2.2 改進(jìn)的GATE中文領(lǐng)域信息抽取。本研究選取Gate7.1為開發(fā)平臺(tái),針對(duì)其中文信息抽取插件Lang_Chinese的不足,面向“教育”領(lǐng)域,研究了改進(jìn)的方法。下面就其中的關(guān)鍵技術(shù)予以介紹:(1)文檔預(yù)處理。本研究采用中科院計(jì)算技術(shù)研究所開發(fā)的ICTCLAS分詞系統(tǒng)對(duì)文檔進(jìn)行分詞預(yù)處理。本研究將分詞后的文檔刪去詞性信息,將分開的詞組使用空格隔開,這樣就和英文的格式相同,每個(gè)分開后的詞語可做為一個(gè)Token,便于GATE抽取。(2)增加領(lǐng)域詞表。詞表是GATE進(jìn)行信息抽取的重要資源,詞表的豐富完整影響著命名實(shí)體的識(shí)別效果。Gate中的詞表用.lst文件表示,中文組件中自帶有城市名、組織名、公司名等。然后這些詞表名存在.def索引文件中供匹配訪問。(3)修改JAPE規(guī)則。GATE中使用JAPE規(guī)則來實(shí)現(xiàn)命名實(shí)體的識(shí)別。本文針對(duì)中文“教育”領(lǐng)域,編寫對(duì)應(yīng)的JAPE規(guī)則,使得該領(lǐng)域的命名實(shí)體能夠得到準(zhǔn)確的識(shí)別抽取。
學(xué)校識(shí)別。GATE7.1中可以使用自帶unversity.lst詞表將部分大中專院校識(shí)別為組織(organization),但對(duì)眾多的中小學(xué)無法識(shí)別。并且組織標(biāo)注集含義廣泛,學(xué)會(huì)、公司、政府機(jī)構(gòu)等都會(huì)被識(shí)別為組織。為了更有針對(duì)性的進(jìn)行識(shí)別,本研究新增學(xué)校(school)標(biāo)注,并分別針對(duì)中小學(xué)、本??圃盒<捌渌黝悓W(xué)校撰寫相應(yīng)的規(guī)則。
Macro:PRIMARY_HIGH //定義識(shí)別中小學(xué)的宏
({Token.string==\"小學(xué)\"}|{Token.string==\"附小\"}|{Token.string==\"中學(xué)\"}|{Token.string==\"附中\(zhòng)"}|{Token.string==\"小\"}|{Token.string==\"中\(zhòng)"})
Rule:primary_high
//識(shí)別中小學(xué)名,如北京第一師范小學(xué),南京瑯琊路小學(xué),山東師大附中等
(
({Lookup.majorType==location,Lookup.minorType==county_abbrev})
//county_abbrev.lst中存放了大量的地區(qū)名
({Token})?
({Token})?
({Token})?
//分詞后在地區(qū)和中小學(xué)之間可能出現(xiàn)0個(gè)、1個(gè)、2個(gè)或3個(gè)任意詞組
({Token.string==\"師范\"}|{Token.string==\"師范附屬\"})?
(PRIMARY_HIGH)
):school
-->
:school.school={kind=inferred,rule=\"primary_high\"}
Rule:university
//識(shí)別本??圃盒?,如上海水產(chǎn)大學(xué)等
(
{Lookup.majorType == organization,Lookup.minorType == university}
):school
-->
:school.school={rule=\"unversity\"}
Rule:school
//識(shí)別其他各類學(xué)校,如幼兒園,成人夜校等
(
{Lookup.majorType==school}
):school
-->
:school.school={rule=\"school\"}
3 實(shí)驗(yàn)結(jié)果及結(jié)論
對(duì)收集的“教育”領(lǐng)域文檔為例進(jìn)行抽取,如圖1,可以看出本研究能精準(zhǔn)的抽取出學(xué)校名、專業(yè)名、人名。基于Gate的領(lǐng)域抽取有效的提高抽取的召回率,快速準(zhǔn)確地抽取出用戶感興趣的信息。
由于時(shí)間和精力的關(guān)系,本文的提出的中文領(lǐng)域信息抽取,未考慮到中文的詞性。本研究的下一步研究方向,是充分利用中文的詞性信息,編寫出更為精確的JAPE規(guī)則,進(jìn)一步提高信息抽取的準(zhǔn)確率和召回率。
參考文獻(xiàn):
[1]原歡.基于GATE的貨物動(dòng)態(tài)郵件信息抽取方法與應(yīng)用研究[D].南京航天航空大學(xué),2013.
[2]GATE HOME.https://gate.ac.uk/.
[3]馬續(xù)補(bǔ),郭菊娥.基于GATE的任務(wù)信息抽取研究[J].情報(bào)雜志,2010(29):155-158+163.
作者簡(jiǎn)介:陳曉紅(1981-),女,講師,碩士,研究方向:數(shù)據(jù)挖掘。
作者單位:南通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇南通 226001
基金項(xiàng)目:南通大學(xué)校級(jí)自然科學(xué)類科研基金項(xiàng)目(項(xiàng)目編號(hào):12Z036)。