陳慧煒
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
在信息爆炸的今天,如何從海量的電子文檔中快速有效地獲得所需要的信息,成為了信息化時(shí)代亟待解決的問(wèn)題,信息抽取便是在這種需求下應(yīng)運(yùn)而生的,以期把人們從大量、低效的文本閱讀勞動(dòng)中解放出來(lái)。
信息抽取是指從一段文本中抽取指定的一類信息并將其形成結(jié)構(gòu)化的數(shù)據(jù),填入一個(gè)數(shù)據(jù)庫(kù)中供用戶查詢使用的過(guò)程。信息抽取已經(jīng)成為自然語(yǔ)言處理研究中的一個(gè)熱點(diǎn),近年來(lái)在許多應(yīng)用領(lǐng)域得以成功應(yīng)用。
公安領(lǐng)域的文本信息主要有業(yè)務(wù)人員日常工作中記錄下來(lái)的已經(jīng)入庫(kù)的半結(jié)構(gòu)化案件信息,和一些沒(méi)有入庫(kù)的文檔中的非結(jié)構(gòu)化信息。面對(duì)日益增長(zhǎng)的大量案件、涉案人員等信息數(shù)據(jù),目前公安部門面臨的問(wèn)題是:偵查人員需要花費(fèi)很多時(shí)間在閱讀案件筆錄上,如何將各類案件文本中的信息點(diǎn)分析出來(lái),對(duì)涉案人員、案情信息等進(jìn)行電子化管理,便于日后的查詢與單位之間的信息共享;如何利用過(guò)往案件的信息,分析當(dāng)前案情,挖掘線索,串并案件。信息抽取技術(shù)是解決這些問(wèn)題的基礎(chǔ)工作。
信息抽取系統(tǒng)的設(shè)計(jì)主要有知識(shí)工程方法和機(jī)器學(xué)習(xí)方法。
早期的信息抽取系統(tǒng)都是基于知識(shí)工程方法建立的,依靠人工編寫(xiě)抽取模式,使系統(tǒng)能處理特定知識(shí)領(lǐng)域的信息抽取問(wèn)題。如CIRCUS系統(tǒng)、LIEP系統(tǒng)、PALKA系統(tǒng)、RAPIER系統(tǒng)等。規(guī)則本身的學(xué)習(xí)和提取成為信息抽取的關(guān)鍵,而信息抽取則退居為次要過(guò)程。這種方法要求編寫(xiě)抽取模式的知識(shí)工程師對(duì)該知識(shí)領(lǐng)域有深入的了解。而由人建立的規(guī)則很難保證具有整體的系統(tǒng)性和邏輯性,并且這些規(guī)則一般具有高度的領(lǐng)域相關(guān)性和較差的可移植性。因此,迫切需要尋找更加有效的方法來(lái)自動(dòng)學(xué)習(xí)信息抽取的規(guī)則,這種形勢(shì)使得機(jī)器學(xué)習(xí)在信息抽取系統(tǒng)中的應(yīng)用研究顯得尤為重要和迫切。
機(jī)器學(xué)習(xí)方法是利用機(jī)器學(xué)習(xí)技術(shù)讓信息抽取系統(tǒng)通過(guò)訓(xùn)練文本來(lái)獲得抽取模式,實(shí)現(xiàn)特定領(lǐng)域的信息抽取功能。任何對(duì)該知識(shí)領(lǐng)域比較熟悉的人都可以根據(jù)事先約定的規(guī)則來(lái)標(biāo)記訓(xùn)練文本。利用這些訓(xùn)練文本訓(xùn)練后,系統(tǒng)能夠處理沒(méi)有標(biāo)記的新的文本。BBN公司的SIFT系統(tǒng),完全采用統(tǒng)計(jì)的方法,代表了在這個(gè)發(fā)展方向上跨出的重要一步。典型的機(jī)器學(xué)習(xí)方法有基于特征向量的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVM);有基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)方法,如隱馬爾科夫模型(HMM)、最大熵模型(ME)和條件隨機(jī)場(chǎng)模型(CRF);有基于核函數(shù)的機(jī)器學(xué)習(xí)方法,以及多種機(jī)器學(xué)習(xí)方法的集成等?,F(xiàn)有研究成果表明,當(dāng)多學(xué)習(xí)模型集成中的個(gè)體學(xué)習(xí)模型差異較大時(shí),集成的效果會(huì)較好。
知識(shí)工程方法的設(shè)計(jì)初始階段較容易,但是要實(shí)現(xiàn)較完善的規(guī)則庫(kù)的過(guò)程往往比較耗時(shí)耗力。機(jī)器學(xué)習(xí)方法抽取規(guī)則的獲取是通過(guò)學(xué)習(xí)自動(dòng)獲得的,但是該方法需要足夠數(shù)量的訓(xùn)練數(shù)據(jù),才能保證系統(tǒng)的抽取質(zhì)量。所以,采取何種方法要視任務(wù)和資源而定,若訓(xùn)練語(yǔ)料容易獲得,則傾向于機(jī)器學(xué)習(xí)的方法;若語(yǔ)言資源如詞表等容易獲得,則傾向于手工編寫(xiě)規(guī)則。
命名實(shí)體識(shí)別的任務(wù)被定義為識(shí)別出文本中出現(xiàn)的專有名稱和有意義的數(shù)量短語(yǔ)并加以歸類。命名實(shí)體是文本中基本的信息元素,是正確理解文本的基礎(chǔ)。狹義地講,命名實(shí)體是指現(xiàn)實(shí)世界中的具體的或抽象的實(shí)體,如人、組織、公司、地點(diǎn)等,通常用唯一的標(biāo)志符(專有名稱)表示,如人名、組織名、公司名、地名等。廣義地講,命名實(shí)體還可以包含時(shí)間、數(shù)量表達(dá)式等。至于命名實(shí)體的確切含義,只能根據(jù)具體應(yīng)用來(lái)確定。命名實(shí)體識(shí)別是信息抽取系統(tǒng)的一個(gè)基本而又重要的任務(wù)。
命名實(shí)體識(shí)別發(fā)展至今已經(jīng)取得了很多成果。1987年開(kāi)始由DARPA資助舉辦的MUC-6和MUC-7會(huì)議設(shè)立的命名實(shí)體專項(xiàng)評(píng)測(cè)大大推動(dòng)了英語(yǔ)命名實(shí)體識(shí)別技術(shù)的發(fā)展,到1998年MUC最后一屆會(huì)議時(shí),不少系統(tǒng)都已經(jīng)具備相當(dāng)程度的大規(guī)模真實(shí)文本的處理能力,最好的成績(jī)準(zhǔn)確率和召回率達(dá)到了95%和92%。中文NE識(shí)別的難處在于其缺乏形式標(biāo)志、分詞錯(cuò)誤會(huì)對(duì)其造成影響、內(nèi)部常包含有常用字詞以及詞義模糊,需要更大量的研究工作。
命名實(shí)體識(shí)別任務(wù)要完成兩個(gè)事情:一是找到文本中表達(dá)命名實(shí)體的詞語(yǔ),二是準(zhǔn)確給出該命名實(shí)體的分類,其技術(shù)大多依賴于命名實(shí)體的類別。不同的類別所采用的識(shí)別技術(shù)也不一樣。研究較多的幾種類別是人名、地名、組織機(jī)構(gòu)名、時(shí)間、數(shù)字。研究表明(張素香,2007),不是一個(gè)模型能夠完全解決所有的實(shí)體識(shí)別任務(wù)的,需要結(jié)合實(shí)體類型,采用不同的子模型識(shí)別能夠極大地改善實(shí)體識(shí)別的性能。
中文命名實(shí)體的識(shí)別不光是信息抽取的基礎(chǔ),其研究同時(shí)也是分詞、句法分析、問(wèn)答系統(tǒng)、機(jī)器翻譯等任務(wù)的基礎(chǔ),故對(duì)其研究,能從一定程度上對(duì)其他任務(wù)有所借鑒意義。
事件信息抽取(簡(jiǎn)稱事件抽?。┦切畔⒊槿∠到y(tǒng)的另一個(gè)工作,是在命名實(shí)體識(shí)別基礎(chǔ)之上實(shí)施的一個(gè)過(guò)程。其旨在利用計(jì)算機(jī)從文本中自動(dòng)地抽取特定類型的事件及其事件要素,是信息抽取研究中最具挑戰(zhàn)性的任務(wù)之一。
就前人研究情況來(lái)看,事件抽取主要有兩種方法:模式匹配的方法和機(jī)器學(xué)習(xí)的方法。模式匹配的方法是指對(duì)于某類事件的識(shí)別和抽取是在一些模式的指導(dǎo)下進(jìn)行的,采用各種模式匹配算法將待抽取的句子和已經(jīng)抽出的模板匹配。例如Surdeanu和Harabagiu針對(duì)開(kāi)放域的事件抽取系統(tǒng)FSA等。這種方法準(zhǔn)確率較高,但往往依賴于具體領(lǐng)域,可移植性差。機(jī)器學(xué)習(xí)的方法把事件抽取任務(wù)看作分類問(wèn)題,把主要精力放在分類器的構(gòu)建和特征的發(fā)現(xiàn)、選擇上。主要包括兩個(gè)過(guò)程,即事件探測(cè)和事件元素識(shí)別。所謂事件元素,也就是平常所說(shuō)的事件模板中的槽(Slot),或事件的參與者(Participants)。
觸發(fā)詞為事件語(yǔ)句的錨定和事件類別的確定提供了很大的幫助。關(guān)于如何構(gòu)建觸發(fā)詞集合,傳統(tǒng)方法是將文本中每個(gè)詞作為候選觸發(fā)詞,構(gòu)建訓(xùn)練實(shí)例進(jìn)行多元分類,但由于觸發(fā)詞只占候選觸發(fā)詞的一小部分,因此會(huì)引入大量的反例(趙妍妍,2008)。于江德(2007)對(duì)于“職務(wù)變動(dòng)”類事件抽取的觸發(fā)詞表采用手工的方式構(gòu)建,并借助于《現(xiàn)代漢語(yǔ)詞典》和《同義詞詞林》,構(gòu)建出的觸發(fā)詞表包含了136個(gè)職務(wù)變動(dòng)類事件的觸發(fā)詞。趙妍妍(2007)使用哈工大信息檢索研究室的《同義詞詞林(擴(kuò)展版)》自動(dòng)擴(kuò)展種子觸發(fā)詞,通過(guò)查找過(guò)濾構(gòu)建“種子觸發(fā)詞——事件類別”對(duì)照表,以便生成候選事件及其候選類別。
隨著科技的進(jìn)步,公安辦公逐步實(shí)現(xiàn)了信息化,案件信息直接填入了相應(yīng)的數(shù)據(jù)庫(kù)中,因此該領(lǐng)域的工作大多集中于數(shù)據(jù)挖掘,即從已有數(shù)據(jù)中發(fā)現(xiàn)隱含的相似案件、犯罪趨勢(shì)、犯罪特點(diǎn)等信息。但仍存在相當(dāng)一部分的文檔,或是偵查人員的案件筆錄,或是網(wǎng)上的案件信息,以文本的形式存在,需要信息抽取技術(shù)從中抽取案件相關(guān)實(shí)體和事件,進(jìn)而存入數(shù)據(jù)庫(kù)中供后續(xù)的數(shù)據(jù)挖掘分析。
美國(guó)克萊蒙研究生院的Chih Hao Ku等人2008年報(bào)導(dǎo)正在開(kāi)發(fā)一個(gè)自動(dòng)的犯罪信息報(bào)導(dǎo)與調(diào)查訪談系統(tǒng)。該系統(tǒng)認(rèn)為以往的格式化筆錄由于種種原因會(huì)遺漏一些信息,故利用基于認(rèn)知心理的訪談技術(shù),喚起證人足夠多的回憶信息,讓其用自然語(yǔ)言記錄案件情況,進(jìn)而用信息抽取技術(shù)從證人敘述與訪談對(duì)話記錄中抽取犯罪相關(guān)實(shí)體。在信息抽取模塊,采用了基于知識(shí)庫(kù)和基于規(guī)則的方法。定義了“姓名、代詞、時(shí)間、方式、武器、人物屬性、場(chǎng)景、私人財(cái)物、顏色、身體部位、動(dòng)作、事件、衣物”等實(shí)體類型。根據(jù)實(shí)體特點(diǎn),針對(duì)性地利用一些如維基百科、網(wǎng)頁(yè)博客、UCR官方信息、FrameNet等知識(shí)庫(kù)資源,建立了一個(gè)有索引的詞表,每個(gè)子表下設(shè)子類,如私人財(cái)物詞條下設(shè)包、首飾、錢、電腦、電話等,如此產(chǎn)生了126個(gè)子表,分別應(yīng)用于相應(yīng)的規(guī)則構(gòu)建。IE模塊采用了Gate系統(tǒng),包括:分詞、索引、分句、詞性標(biāo)注、名詞短語(yǔ)劃分、正字校對(duì)、以及JAPE(Java Annotations Pattern Engine)規(guī)則構(gòu)建等子模塊。對(duì)于系統(tǒng)所產(chǎn)生的名詞短語(yǔ)采用過(guò)濾算法,使提取的短語(yǔ)只與案件相關(guān)。 (Chih Hao Ku etal.,2008(a);Chih Hao Ku etal.,2008(b);Alicia Iriberrietal.,2008)。 另一個(gè)工作是美國(guó)亞利桑那州大學(xué)進(jìn)行的一個(gè)基于神經(jīng)網(wǎng)絡(luò)的實(shí)體抽取系統(tǒng)。利用知識(shí)庫(kù)、機(jī)器學(xué)習(xí)、少量手工規(guī)則的方法,對(duì)人名、住址、工具、麻醉藥物、私人財(cái)物等實(shí)體進(jìn)行了識(shí)別和抽取。 (Michael Chau etal.,2002;Hsin chun Chen etal.,2004)
國(guó)內(nèi)在該領(lǐng)域?qū)跀?shù)據(jù)庫(kù)的構(gòu)建和數(shù)據(jù)挖掘技術(shù)研究的較多,對(duì)自然語(yǔ)言文本進(jìn)行信息抽取研究的較少。喬春庚(2007)基于公安案件文本,對(duì)領(lǐng)域詞匯的獲取、命名實(shí)體的識(shí)別、實(shí)體關(guān)系的抽取等模塊進(jìn)行了研究。其搭建的分層的公安領(lǐng)域案件信息抽取系統(tǒng),能夠輸出各層次的中間成果。徐亞娟(2008)采用文本挖掘的相關(guān)技術(shù),主要實(shí)現(xiàn)了給定案件的相似性判別和文本聚類的功能。其在信息抽取階段的算法主要思想是:根據(jù)分詞結(jié)果得到的詞性標(biāo)注信息,通過(guò)掃描分詞得到的結(jié)果串,去除一些無(wú)關(guān)的詞性的詞語(yǔ),并結(jié)合專門的關(guān)鍵詞庫(kù),完成信息的提取,最后得到結(jié)構(gòu)化的文本信息,存入數(shù)據(jù)庫(kù)中。
信息抽取是數(shù)據(jù)挖掘的第一步處理任務(wù),若對(duì)案件文本進(jìn)行了很好的信息抽取,不僅能夠使業(yè)務(wù)人員免于閱讀大量的案件,節(jié)省時(shí)間和人力,而且是后期的數(shù)據(jù)挖掘如串并相似案件、挖掘破案線索、歸納犯罪趨勢(shì)等方面工作的良好基礎(chǔ)。
現(xiàn)代信息抽取技術(shù)的研究,一方面,在努力地向投入應(yīng)用發(fā)展,擴(kuò)大抽取的文本類型的范圍、擴(kuò)大面向領(lǐng)域的范圍,使科學(xué)技術(shù)能夠真正地為人們生產(chǎn)生活提供方便,最大程度地解放勞動(dòng)力;另一方面,在努力地探索如何加快其基礎(chǔ)研究,使信息抽取技術(shù)實(shí)現(xiàn)革命性技術(shù)進(jìn)步,使機(jī)器向高效自動(dòng)處理任務(wù)邁進(jìn),盡量減輕研究者的勞動(dòng)。這些,都需要學(xué)界人士的不斷努力。