邱奇志,周三三,劉長(zhǎng)發(fā),陳 暉
(武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430000)
我國正處于經(jīng)濟(jì)和社會(huì)的轉(zhuǎn)型期,公共安全保障基礎(chǔ)相對(duì)薄弱,其與經(jīng)濟(jì)高速發(fā)展的矛盾日益突出,形勢(shì)嚴(yán)峻[1]。同時(shí)近年來在經(jīng)濟(jì)全球化、國際政治風(fēng)云多變的影響下,全球范圍內(nèi)各類突發(fā)事件頻發(fā),波及范圍廣,持續(xù)時(shí)間長(zhǎng),給社會(huì)和諧穩(wěn)定、人民幸福生活帶來了極大的危害,應(yīng)急管理亦因此引起了各級(jí)地方政府的高度重視和大力支持。
相比于美、英、日、澳等國家領(lǐng)先的應(yīng)急管理能力,我國應(yīng)急管理尚處于初級(jí)建設(shè)階段,依然存在以下問題[2]: 管理體制不健全、運(yùn)行機(jī)制不成熟、原有的應(yīng)急工作基礎(chǔ)薄弱、救援力量及財(cái)力投入不足等。從信息處理的角度來看,解決應(yīng)急管理復(fù)雜性的根本方法就是建立涵蓋突發(fā)事件常識(shí)、經(jīng)典案例、相關(guān)決策、處置方法等內(nèi)容的突發(fā)事件知識(shí)系統(tǒng),其中突發(fā)事件案例庫和專家?guī)焓侵С謶?yīng)急管理決策的核心。[1]
近年來,國內(nèi)學(xué)者已開展了突發(fā)事件案例庫的研究,邵荃等[3]從消防視角考慮了火災(zāi)基本情況、作戰(zhàn)指揮和災(zāi)后經(jīng)驗(yàn)三個(gè)方面,建立了城市火災(zāi)案例庫,共構(gòu)建200余條數(shù)據(jù);廖振良等[4]則專注研究突發(fā)性環(huán)境污染事件;于璐等[5]研究了供應(yīng)鏈突發(fā)事件應(yīng)急系統(tǒng),構(gòu)建了GBR-GRA供應(yīng)鏈突發(fā)事件應(yīng)急系統(tǒng)。
以上研究發(fā)現(xiàn)突發(fā)事件案例庫具有如下幾個(gè)問題: 信息不全,有大量數(shù)據(jù)缺失;多采用人工構(gòu)建方法;事件類型單一,多為特定場(chǎng)景下對(duì)某類突發(fā)事件的研究,鮮有針對(duì)四種類型[6]的全面研究。人工智能、數(shù)據(jù)挖掘、自然語言處理等技術(shù)的蓬勃發(fā)展為突發(fā)事件案例庫的構(gòu)建提供了更為科學(xué)合理的解決方案,本文旨在采用成熟的自然語言處理方法解決應(yīng)急管理領(lǐng)域中的文本處理問題,提出合理、科學(xué)的抽取自由文本信息的方法,解決了繁瑣冗雜的人工操作,不僅省時(shí)省力,而且具有較高的準(zhǔn)確率。
近年來,信息抽取已經(jīng)在金融、醫(yī)藥、物流等許多領(lǐng)域得到了成功應(yīng)用[7-9]。趙小明等[8]提出一種基于統(tǒng)計(jì)的金融領(lǐng)域多元關(guān)系信息抽取算法,研究收購類事件描述句及事件角色,分別設(shè)計(jì)了單分類器和多分類器的算法,結(jié)果表明多分類器算法比單分類器識(shí)別算法F-Measure提高了1.90%。沈元一等[9]提出一個(gè)互聯(lián)網(wǎng)藥品信息抽取和監(jiān)測(cè)的整體解決方案,對(duì)互聯(lián)網(wǎng)商品信息進(jìn)行全面、準(zhǔn)確、實(shí)時(shí)、自動(dòng)的抽取,有效保障了互聯(lián)網(wǎng)藥品交易的質(zhì)量和服務(wù)。原歡[10]采用基于規(guī)則的信息抽取方法,提出了基于GATE的貨物動(dòng)態(tài)郵件信息抽取方法,應(yīng)用貨物動(dòng)態(tài)郵件驗(yàn)證了方法的科學(xué)性和有效性。
與此同時(shí),也有學(xué)者將信息抽取技術(shù)應(yīng)用于應(yīng)急管理領(lǐng)域[11-13],吳平博等[12]在建立了統(tǒng)一事件框架的基礎(chǔ)上,利用句型模板抽取了新聞事件的基礎(chǔ)信息,并且通過實(shí)驗(yàn)表明,該方法的召回率以及精度分別達(dá)到了60.82%和94.84%,但僅限于火災(zāi)、礦難和空難這三類新聞事件。余晨等[13]針對(duì)海事突發(fā)事件提出了一種基于規(guī)則的信息抽取方法,通過定義規(guī)則抽取海事新聞中的時(shí)間、地點(diǎn)、船舶名和事故類型。實(shí)驗(yàn)結(jié)果表明,該方法的準(zhǔn)確率均在94.52%以上,但僅限于單一的海事領(lǐng)域網(wǎng)站。
對(duì)突發(fā)事件信息來源的分析和研究顯示,突發(fā)事件信息來源通常較為單一,最常見的來源為Web新聞和政府公文,這兩類文本具有極其鮮明的文體特色,現(xiàn)有研究多忽略了這一事實(shí)。本文結(jié)合課題的研究目標(biāo),提出了基于文體和詞表的突發(fā)事件信息抽取方法,針對(duì)新聞文體所具有的規(guī)律性,將網(wǎng)絡(luò)自由文本轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),完成突發(fā)事件的信息抽取工作,構(gòu)建數(shù)據(jù)量較大的突發(fā)事件案例庫,為評(píng)估現(xiàn)有突發(fā)事件和風(fēng)險(xiǎn)措施的有效性提供數(shù)據(jù)支撐,具有重要的經(jīng)濟(jì)價(jià)值和社會(huì)意義。
信息抽取(information extraction,IE)[14-15]是指把文本中包含的無結(jié)構(gòu)、無組織的信息進(jìn)行一系列處理,轉(zhuǎn)化成統(tǒng)一格式的結(jié)構(gòu)化數(shù)據(jù)保存起來。輸入信息抽取系統(tǒng)的是各種非結(jié)構(gòu)化的文檔,輸出的是結(jié)構(gòu)化的信息點(diǎn),信息點(diǎn)從各類文檔中被提取出來,按照一定格式儲(chǔ)存到數(shù)據(jù)庫中。
信息抽取的方法大致可分為基于統(tǒng)計(jì)的方法和基于規(guī)則的方法。基于統(tǒng)計(jì)的方法以強(qiáng)大的統(tǒng)計(jì)學(xué)原理為基礎(chǔ),具有較高的可移植性,但準(zhǔn)確性不高;基于規(guī)則的方法以領(lǐng)域知識(shí)為基礎(chǔ),具有較高的準(zhǔn)確性,但跨應(yīng)用領(lǐng)域的移植性幾乎為零。
本文的研究目標(biāo)是合理、高效地實(shí)現(xiàn)突發(fā)事件信息結(jié)構(gòu)化,結(jié)構(gòu)化的突發(fā)事件信息能更有效地用于應(yīng)急管理各個(gè)方面,可作為突發(fā)事件案例庫的一部分,或案例推理系統(tǒng)的一部分為應(yīng)對(duì)未來突發(fā)事件提供決策輔助。待處理的數(shù)據(jù)來源為新聞或其他政府網(wǎng)站上的突發(fā)事件新聞報(bào)道,根據(jù)應(yīng)急決策系統(tǒng)的應(yīng)用需求,結(jié)構(gòu)化的突發(fā)事件信息主要包含兩大類屬性:
(1) 突發(fā)事件基本屬性: 從事件的角度描述突發(fā)事件,包括事件摘要、事件類型、發(fā)生時(shí)間、發(fā)生地點(diǎn);
(2) 突發(fā)事件類型屬性: 從應(yīng)急管理的角度,可將突發(fā)事件分為自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會(huì)安全事件[1,16-17]。
不同類型的突發(fā)事件具有不同的屬性,比如突發(fā)公共衛(wèi)生事件具有引發(fā)原因、表現(xiàn)形式等屬性,而事故災(zāi)難突發(fā)事件則具有因果演進(jìn)之類的屬性。本文主要研究突發(fā)事件中的傷亡屬性和自然災(zāi)害、火災(zāi)事件中特有的經(jīng)濟(jì)損失屬性抽取方法。
通過對(duì)突發(fā)事件Web新聞的文體特征和數(shù)據(jù)組織結(jié)構(gòu)的分析和研究,本文以基于規(guī)則的信息抽取方法為核心,融合統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法,制定了信息抽取規(guī)則和流程,基本思想如下:
首先,在領(lǐng)域?qū)<业闹笇?dǎo)下確定待抽取的數(shù)據(jù)屬性集合,比如,前文所述突發(fā)事件的基本屬性和類型屬性。
其次,分析數(shù)據(jù)源中各屬性的呈現(xiàn)方式,為不同的屬性制定不同的抽取方案,如“時(shí)間”屬性的呈現(xiàn)方式具有極強(qiáng)的文體特征,通常會(huì)出現(xiàn)在文章的開始部分;而“事件類型”屬性的呈現(xiàn)方式則具有極強(qiáng)的領(lǐng)域特征,如在報(bào)道地震這種自然災(zāi)害時(shí),常會(huì)出現(xiàn)“余震”“震中”等專業(yè)術(shù)語。規(guī)定“時(shí)間”屬性抽取策略為基于文體,而“事件類型”則是基于詞表。
最后,制訂抽取所需要的規(guī)則集合,構(gòu)建抽取所需要的領(lǐng)域詞表。
圖1為本文進(jìn)行突發(fā)事件案例信息抽取的架構(gòu)圖。從新聞網(wǎng)站獲取的信息首先經(jīng)過簡(jiǎn)單篩選等預(yù)處理,得到初始新聞?wù)Z料庫;接著借助構(gòu)建的詞表從初始新聞?wù)Z料庫中對(duì)突發(fā)事件進(jìn)行識(shí)別和分類。本文在研究新聞文體的基礎(chǔ)上,采取基于規(guī)則及其他輔助方法對(duì)突發(fā)事件新聞信息,包括突發(fā)事件時(shí)間、地點(diǎn)、傷亡情況、經(jīng)濟(jì)損失和事件摘要進(jìn)行抽取。其中,抽取突發(fā)事件摘要,使用的是最大邊界相關(guān)法MMR(maximal marginal relevance)算法,抽取地點(diǎn)時(shí)加入了命名實(shí)體識(shí)別的方法,抽取傷亡情況和經(jīng)濟(jì)損失時(shí)使用基于詞表的方法。圖1是本文的信息抽取架構(gòu)圖,由三個(gè)模塊組成:
圖1 突發(fā)事件信息抽取架構(gòu)圖
(1) 信息獲取模塊。利用網(wǎng)絡(luò)爬蟲爬取新聞網(wǎng)站內(nèi)容作為初始新聞?wù)Z料庫。
(2) 事件識(shí)別與分類模塊。對(duì)初始新聞?wù)Z料庫進(jìn)行預(yù)處理,根據(jù)基礎(chǔ)詞表和子關(guān)鍵詞,判斷新聞報(bào)道是否為突發(fā)事件,并在此基礎(chǔ)上對(duì)突發(fā)事件分類。
(3) 信息抽取模塊。完成突發(fā)事件基本屬性的抽取,實(shí)現(xiàn)突發(fā)事件屬性信息的結(jié)構(gòu)化抽取。
本文采用準(zhǔn)確率、召回率和F度量(F-Measure)作為突發(fā)事件信息抽取方法的評(píng)價(jià)指標(biāo)。計(jì)算標(biāo)準(zhǔn)見式(1)~(3)。
(1)
(2)
(3)
P為準(zhǔn)確率,R為召回率,c1為抽取信息中正確的個(gè)數(shù),c2為抽取信息的個(gè)數(shù),c3為樣本的個(gè)數(shù),β為權(quán)重系數(shù),決定在評(píng)價(jià)抽取結(jié)果時(shí)是側(cè)重準(zhǔn)確率還是側(cè)重召回率,通常設(shè)定1、2或1/2,β取值為1時(shí),準(zhǔn)確率和召回率一樣重要。
引言中已提及,數(shù)據(jù)來源為Web新聞或其他政府網(wǎng)站上的突發(fā)事件新聞報(bào)道,本文研究發(fā)現(xiàn)突發(fā)事件新聞報(bào)道具有以下規(guī)律性:
(1) 有固定語言體裁,且內(nèi)容真實(shí)可靠;
(2) 闡明事件所表達(dá)的中心。標(biāo)題突出新聞的要點(diǎn),并在首段對(duì)新聞的核心事件進(jìn)行描述;
(3) 遵循新聞特定體裁所要求的慣例。
本文針對(duì)新聞報(bào)道所具有的文體規(guī)律性展開研究。
文體style一詞源于拉丁語stilus,本義指用于在蠟板上寫字的骨制、木制或鐵制的尖頭筆,后引申為此種工具所寫的東西、文章、作文風(fēng)格和體裁、作文或說話的特殊風(fēng)格等[18-20]。傳統(tǒng)意義上的文體學(xué)者有以下觀點(diǎn)[21-22]: 布封(De Buffon)認(rèn)為“文體就是人本身”(the style proclaims the man);斯威夫特(J .Swift)認(rèn)為是“在恰當(dāng)?shù)牡胤绞褂们‘?dāng)?shù)脑~,這就是風(fēng)格的真實(shí)意義”(proper words in proper places make the true definition of a style)。在當(dāng)今互聯(lián)網(wǎng)時(shí)代,又衍生了具有時(shí)代特點(diǎn)的文體內(nèi)涵,如計(jì)量文體學(xué)[23],即結(jié)合當(dāng)今的信息技術(shù)對(duì)文本進(jìn)行定量分析,采用機(jī)器自動(dòng)處理,以發(fā)現(xiàn)文本中的潛在規(guī)律。
由此可見,目前對(duì)文體的認(rèn)識(shí)并不統(tǒng)一,但至少有兩點(diǎn)是學(xué)者較為普遍接受的: 一是文體是寫作者或說話者獨(dú)特的語言選擇;二是文體是對(duì)規(guī)范或常規(guī)語言用法的偏離,即有標(biāo)記的語言使用方式。前者是從文體生成方式講,后者則強(qiáng)調(diào)其表現(xiàn)方式。綜合兩種觀點(diǎn),可做出如下界定[18]: 文體是寫作者或說話者對(duì)語言規(guī)律性選擇的結(jié)果,這種個(gè)性化選擇使該文本不同于常規(guī)表達(dá)方式,其規(guī)律性表現(xiàn)出一定的穩(wěn)定性。本文針對(duì)前人研究中存在的問題,充分利用突發(fā)事件新聞報(bào)道的文體規(guī)律性進(jìn)行信息的抽取。
2.1.1 新聞文體的特征
新聞文體在廣義上指的就是消息,具有“5W1H”特點(diǎn),即誰(Who)、何時(shí)(When)、何地(Where)、何事(What)、為何(Why)以及過程如何(How),以敘述為主要形式,新聞通過以上六要素組織文字。敘述方式主要是圍繞“倒金字塔型”展開[24]。文字力求客觀、真實(shí),語言簡(jiǎn)潔平實(shí)。
新聞一般由五大部分構(gòu)成: 標(biāo)題、導(dǎo)語、主體、背景和結(jié)語,基于本文的研究目標(biāo),著重分析新聞的標(biāo)題和導(dǎo)語。標(biāo)題通常是新聞內(nèi)容的提要,導(dǎo)語則是新聞的第一句話或新聞的首段,其體現(xiàn)是用簡(jiǎn)明的文字概括出新聞報(bào)道的事實(shí)或中心。
2.1.2 基于文體的時(shí)間屬性抽取
根據(jù)文體特點(diǎn)及對(duì)突發(fā)事件新聞的廣泛閱讀發(fā)現(xiàn): 通常突發(fā)事件新聞報(bào)道在新聞導(dǎo)語中都會(huì)用最精煉簡(jiǎn)潔的文字客觀闡述事件,且由于新聞遵循倒金字塔結(jié)構(gòu)組織全文,采用“頭重腳輕”按重要性遞減安排全文結(jié)構(gòu),因此新聞的發(fā)生時(shí)間在新聞標(biāo)題和新聞首段被提及概率在98%左右。
在對(duì)新聞時(shí)間抽取中,目前有研究者使用報(bào)道時(shí)間作為新聞發(fā)生時(shí)間,該方法適合微博、微信等實(shí)時(shí)社交網(wǎng)絡(luò)平臺(tái),但對(duì)于非實(shí)時(shí)新聞,則存在較大的誤差。在突發(fā)事件的時(shí)間屬性抽取中,本文主要完成的工作是時(shí)間的識(shí)別和時(shí)間格式的轉(zhuǎn)換。
通過分析研究大量新聞報(bào)道,特別是新聞網(wǎng)站上的新聞報(bào)道,發(fā)現(xiàn)Web形式的新聞報(bào)道具有以下文體特征:
(1) Web頁面上通常存在三個(gè)時(shí)間,即新聞的發(fā)表時(shí)間、新聞報(bào)道時(shí)間和事件發(fā)生時(shí)間[25],其含義為:
? 新聞的發(fā)表時(shí)間,記為pt,一般在新聞標(biāo)題的下方會(huì)詳細(xì)給出發(fā)表新聞的時(shí)間。
? 新聞的報(bào)道時(shí)間,記為rt,一般在新聞的開頭,以“電”或“訊”結(jié)束。
? 事件的發(fā)生時(shí)間,記為et,在新聞內(nèi)容中給出,多出現(xiàn)在新聞標(biāo)題和導(dǎo)語部分。
這三者的大小關(guān)系為: et<=rt<=pt,即事件的發(fā)生時(shí)間早于新聞的報(bào)道時(shí)間,新聞報(bào)道時(shí)間早于新聞的發(fā)表時(shí)間。如圖2是一個(gè)新聞網(wǎng)頁時(shí)間屬性的示例。
(2) Web新聞的時(shí)間表達(dá)方式和精度也呈現(xiàn)一定的規(guī)律性:
? pt常精確到“年”“月”“日”“時(shí)”“分”“秒”,rt一般僅涉及“月”“日”,而et可能在rt基礎(chǔ)上繼續(xù)細(xì)化或者只提及“上午”“下午”“凌晨”“時(shí)”“分”“秒”等時(shí)間信息。
? 時(shí)間格式通常有以下幾種形式,某年某月某日、YYYY-MM-dd、YYYY/MM/dd、YYYY.MM.dd和YYYY-M-dd等。
圖2 新聞網(wǎng)頁時(shí)間屬性示例
在時(shí)間屬性抽取的執(zhí)行過程中,使用了簡(jiǎn)單高效的正則表達(dá)式對(duì)時(shí)間值進(jìn)行判斷,如圖2所標(biāo)識(shí)的各個(gè)時(shí)間信息中,“2017-11-07 22: 04”為Web新聞的發(fā)表時(shí)間pt,“11月7日”為新聞的報(bào)道時(shí)間rt,“6日下午15點(diǎn)”為事件的發(fā)生時(shí)間et。算法能夠?qū)π侣勚猩婕暗母黝悤r(shí)間信息進(jìn)行抽取并轉(zhuǎn)換成統(tǒng)一格式返回。
基于以上分析,時(shí)間屬性抽取見算法1。
算法1 時(shí)間屬性抽取算法
2.1.3 基于文體的事件摘要屬性抽取
文摘通常是指在給定字?jǐn)?shù)限制范圍內(nèi),去繁為簡(jiǎn),以簡(jiǎn)短、凝練的文字幫助人們獲取全面準(zhǔn)確的全文信息,提高閱讀效率,節(jié)省時(shí)間,同時(shí)也能夠幫助人們?nèi)ズY選海量信息。自動(dòng)文摘是自然語言處理的一個(gè)分支,即摘取原文中的部分句子概括全文的主要內(nèi)容,因此本文使用非監(jiān)督性自動(dòng)文摘從原始新聞中提取摘要,作為突發(fā)事件“事件摘要”屬性值。
在摘要的監(jiān)督性和非監(jiān)督性機(jī)器學(xué)習(xí)方法中,前者通常會(huì)產(chǎn)生重復(fù)語句的摘要。因此很多衍生出的監(jiān)督性模型采用增加句間關(guān)系的方式來解決該問題,但同時(shí)也增加了復(fù)雜度。非監(jiān)督性方法中,應(yīng)用最多的是最大邊界相關(guān)法MMR和基于圖(graph)的TextRank模型,前者在多樣性上優(yōu)于后者。本文的單篇新聞自動(dòng)摘要就是基于MMR模型。MMR是一種重新確定文檔序值的方法,如式(4)所示。
(4)
Di為當(dāng)前句子,Q為當(dāng)前文章的句子集合,S為當(dāng)前摘要的句子集合,R為當(dāng)前非摘要的句子集合,λ為相關(guān)性系數(shù)。
sim1計(jì)算的是句子的重要性分值,sim2計(jì)算的是句子與已經(jīng)被選擇成摘要的句子之間的相似度最大值,MMR方法在相似度和去冗余的計(jì)算中,按照文體的特點(diǎn)考察了句子的位置重要性,實(shí)現(xiàn)了對(duì)不同文體文摘的個(gè)性化和句子的多樣化。
2.2.1 詞表的構(gòu)建
詞表在自然語言處理中扮演著重要的角色,比如在中文分詞、新詞識(shí)別、命名實(shí)體識(shí)別等工作中起著不可或缺的作用。在信息抽取中采用領(lǐng)域詞表已經(jīng)成為提高準(zhǔn)確率的重要方法。
2013年,Google開源了用于詞向量計(jì)算的工具Word2Vec,它可以在海量數(shù)據(jù)集上進(jìn)行高效的訓(xùn)練,它包含CBOW(continuous bag-of-words)和Skip-Gram兩種核心架構(gòu),在對(duì)大量語料進(jìn)行訓(xùn)練的基礎(chǔ)上,量化了詞與詞之間的相關(guān)程度,同時(shí)解決了自然語言處理中的近義詞和相關(guān)詞的問題。如使用Word2Vec計(jì)算“危化品”相關(guān)詞,返回結(jié)果為“危險(xiǎn)品”“儲(chǔ)油區(qū)”“倉儲(chǔ)”等。Word2Vec所具有的強(qiáng)大統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)基礎(chǔ),使其在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用。
本文詞表以突發(fā)事件類型劃分為主線,分為基礎(chǔ)詞表和擴(kuò)充詞表,表1是構(gòu)建詞表的部分內(nèi)容?;A(chǔ)詞表由領(lǐng)域?qū)<覙?gòu)建;擴(kuò)充詞表則利用Google Word2Vec構(gòu)建,以基礎(chǔ)詞表為核心,無監(jiān)督地生成擴(kuò)充詞表,考慮到詞表的規(guī)模和系統(tǒng)的效率,選取了相關(guān)度最高的前10個(gè)詞構(gòu)成子關(guān)鍵詞,共同組成了擴(kuò)充詞表。至此完成了詞表的構(gòu)建。
表1 詞表(部分)
2.2.2 基于詞表的突發(fā)事件識(shí)別與分類
如圖1所示,在進(jìn)行突發(fā)事件屬性抽取之前,首先要完成對(duì)突發(fā)事件新聞的識(shí)別,本文基于上節(jié)構(gòu)建的詞表進(jìn)行突發(fā)事件新聞的識(shí)別及分類。
綜合考慮信息抽取的準(zhǔn)確率和效率,本文對(duì)匹配子關(guān)鍵詞個(gè)數(shù)進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果如圖3,(橫軸為子關(guān)鍵詞個(gè)數(shù),縱軸為突發(fā)事件分類準(zhǔn)確率)該實(shí)驗(yàn)采用中文維基百科語料庫訓(xùn)練模型,實(shí)驗(yàn)結(jié)果顯示當(dāng)子關(guān)鍵詞個(gè)數(shù)為2時(shí),準(zhǔn)確率達(dá)到最高,為91.84%,因此選定子關(guān)鍵詞個(gè)數(shù)為2。
圖3 子關(guān)鍵詞個(gè)數(shù)實(shí)驗(yàn)結(jié)果
在此基礎(chǔ)上,基于詞表的突發(fā)事件識(shí)別與分類的具體實(shí)現(xiàn)見算法2。
算法2 突發(fā)事件的識(shí)別與分類算法
2.3.1 基于文體和詞表的地點(diǎn)屬性抽取
命名實(shí)體識(shí)別在自然語言處理領(lǐng)域中占有很重要的地位,能在文本中識(shí)別具有特定意義的實(shí)體,如人名、地名、機(jī)構(gòu)名或其他專有名詞。
細(xì)究文體結(jié)構(gòu)和新聞敘述方式發(fā)現(xiàn),雖然新聞的發(fā)生地點(diǎn)在新聞標(biāo)題和新聞首段被提及的概率在98%左右,但通常在標(biāo)題中提及的地點(diǎn)范圍較大,而在正文中,會(huì)對(duì)發(fā)生地點(diǎn)進(jìn)行詳細(xì)闡述,呈現(xiàn)位置具體化、粒度縮小的趨勢(shì)。因而本文采用命名實(shí)體識(shí)別和詞表的方法,獲取突發(fā)事件詳細(xì)地點(diǎn)。
本文根據(jù)中國地名,建立各省市詳細(xì)的地名表,由于地名具有明顯的層次結(jié)構(gòu),本文采用樹結(jié)構(gòu)存儲(chǔ),層次清晰,簡(jiǎn)單明了。在對(duì)新聞中地名實(shí)體進(jìn)行識(shí)別后,遍歷地名結(jié)構(gòu)樹,從而得到突發(fā)事件完整地點(diǎn)。
2.3.2 基于文體和詞表的傷亡屬性抽取
突發(fā)事件傷亡信息描述,主要存在新聞的標(biāo)題、導(dǎo)語和主體三個(gè)部分。首先,標(biāo)題中涉及傷亡信息為最終傷亡結(jié)果,以醒目、直接的表達(dá)方式呈現(xiàn)事件
結(jié)果引起人們的普遍關(guān)注。其次,導(dǎo)語部分提及的傷亡信息是新聞?wù)w客觀性描述,通常會(huì)在主體部分進(jìn)行詳細(xì)展開。新聞報(bào)道要求全面、公正、客觀,在新聞報(bào)道中對(duì)傷亡結(jié)果信息都是言簡(jiǎn)意賅,不存在形式上的多樣性。
因此,對(duì)突發(fā)事件傷亡信息的抽取,本文結(jié)合文體特點(diǎn),并構(gòu)建傷亡詞表,同時(shí)定義相關(guān)規(guī)則進(jìn)行突發(fā)事件傷亡屬性抽取。由于四種類型事件的抽取傷亡表達(dá)上既有共性又有特性,因此先建立傷亡的公共詞表,又針對(duì)其存在的特殊性構(gòu)建了各自的專有詞表,二者共同識(shí)別突發(fā)事件的傷亡情況,如表2所示。
在著重研究上海大學(xué)公開的中國突發(fā)事件語料庫(Chinese emergency corpus,CEC)、暨南大學(xué)突發(fā)事件案例庫等資料的基礎(chǔ)上,通過使用正則表達(dá)式,定義如下的抽取規(guī)則:
規(guī)則1(程度副詞1)?(數(shù)詞)*(程度副詞1)?(人類數(shù)量詞)?(受災(zāi)對(duì)象)?(修飾詞)?{傷亡觸發(fā)詞}+.{1,4}|{觸發(fā)詞}+(數(shù)詞)*(程度副詞1)?(人類數(shù)量詞)?(受災(zāi)對(duì)象)?
? 程度副詞1: 左右、大約、多、上下、余、近、至少等
? 數(shù)詞: 阿拉伯?dāng)?shù)字,中文數(shù)字,“兩”(如: 兩死兩傷)
? 人類數(shù)量詞: 人、名、例、位、個(gè)等
? 受災(zāi)對(duì)象: 人、兒童、學(xué)生、老師、居民、工人、消防員、司機(jī)、師生等
? 修飾詞: 不同程度、全部、當(dāng)場(chǎng)、受……(如: 二十余人不同程度受傷)
? 傷亡觸發(fā)詞: 見表2
? ?: 表示匹配前面字符0~1次
? *: 表示匹配前面字符0~n次
? +: 表示匹配前面字符1~n次
? .: 表示匹配任意字符
圖4為傷亡屬性抽取示例。
圖4 傷亡屬性抽取示例
上述表達(dá)式在未造成人員傷亡、沒有人受傷、未收到人員受傷等信息時(shí)無法抽取。針對(duì)上述情況,補(bǔ)充如下規(guī)則:
規(guī)則2(0傷亡詞表)+.{1,6}(人類數(shù)量詞)?(受災(zāi)對(duì)象)?({傷亡觸發(fā)詞})
? 0傷亡詞表: 未、沒有、無人、尚無、尚未等
由于標(biāo)題和正文中均有可能對(duì)傷亡情況進(jìn)行描述,其中標(biāo)題中的傷亡信息通常是對(duì)整體事件的概括,當(dāng)標(biāo)題中提及傷亡信息時(shí),為了避免信息重復(fù)抽取,不需重復(fù)抽取內(nèi)容中的傷亡信息;當(dāng)標(biāo)題中未出現(xiàn)傷亡情況但文章中提及傷亡情況時(shí),根據(jù)構(gòu)建的傷亡詞表和定義的規(guī)則獲取傷亡結(jié)果。傷亡屬性抽取過程見算法3。
算法3 傷亡屬性抽取算法
2.3.3 基于文體和詞表的經(jīng)濟(jì)損失屬性抽取
對(duì)事件結(jié)果經(jīng)濟(jì)損失屬性的抽取,類似于傷亡屬性抽取,采用文體、詞表和規(guī)則相結(jié)合的方法。其中所構(gòu)建的經(jīng)濟(jì)損失屬性詞表見表3。
表3 經(jīng)濟(jì)損失屬性詞表
針對(duì)經(jīng)濟(jì)損失存在的特點(diǎn),使用正則表達(dá)式方法,定義如下的抽取規(guī)則:
規(guī)則3(經(jīng)濟(jì)損失觸發(fā)詞)+(程度副詞2)?(數(shù)字.數(shù)字)+(數(shù)詞)*(程度副詞2)?(單位量詞)+
研究發(fā)現(xiàn),上述匹配模式無法對(duì)如下表達(dá)進(jìn)行正確匹配,“倒塌房屋30戶99間,重?fù)p2 769戶9 626間……”,針對(duì)此類情況,定義如下規(guī)則:
規(guī)則4(經(jīng)濟(jì)損失觸發(fā)詞)+(程度副詞2)?(數(shù)詞)+(單位量詞)?(數(shù)字)+(單位量詞)?
? 經(jīng)濟(jì)損失觸發(fā)詞: 見表3
? 程度副詞2: 約、左右、已達(dá)、多、至少、余、近等
? 數(shù)字: 阿拉伯?dāng)?shù)字、中文數(shù)字、“兩”等
? 數(shù)詞: 十、百、千、萬、十萬、百萬、千萬、億、十億、百億、千億
? 單位量詞: 元、人民幣、美元、間、公頃、平方米、頭、畝、公里、戶、只、根、米、m3、處等
? .: 為轉(zhuǎn)義字符,代表普通圓點(diǎn)符號(hào)
圖5是經(jīng)濟(jì)損失的示例。
圖5 經(jīng)濟(jì)損失抽取示例
本文實(shí)驗(yàn)環(huán)境配置如下。
(1) 硬件環(huán)境
CPU: Intel(R) Core(TM) i5-6200U CPU @2.3GHz 2.40 GHz 4核
內(nèi)存: 8GB
硬盤: 250GB
(2) 軟件環(huán)境
操作系統(tǒng): Windows 10
開發(fā)平臺(tái): Python 3.6.2
IDE: PyCharm 2017.2.1
本文算法由Python語言實(shí)現(xiàn),包括網(wǎng)絡(luò)爬蟲、數(shù)據(jù)預(yù)處理、Word2Vec、核心算法實(shí)現(xiàn)等。選擇中文維基百科語料庫,訓(xùn)練Word2Vec模型,采用Python結(jié)巴分詞進(jìn)行命名實(shí)體識(shí)別。
3.2.1 突發(fā)事件語料庫構(gòu)建
本文選擇湖北地區(qū)新聞為研究對(duì)象,新聞網(wǎng)站選擇影響力大、涉及范圍廣、及時(shí)更新、權(quán)威性高的網(wǎng)站。
通過對(duì)各大網(wǎng)站的瀏覽和分析,選擇合適新聞板塊,使用Python 3.6編程語言,PyCharm編程工具,編寫爬蟲獲取新聞內(nèi)容,保存新聞標(biāo)題、報(bào)道時(shí)間、新聞內(nèi)容、新聞鏈接。
網(wǎng)絡(luò)爬蟲獲取的新聞,會(huì)存在少量的字符亂碼和異常數(shù)據(jù),需要對(duì)數(shù)據(jù)預(yù)處理。筆者對(duì)新聞?wù)Z料主要進(jìn)行如下兩個(gè)步驟的處理:
(1) 去除新聞在文本爬取保存過程中發(fā)生的字符亂碼,主要是一些Unicode字符,如xa0等;
(2) 網(wǎng)站轉(zhuǎn)發(fā)其他網(wǎng)站新聞進(jìn)行多次鏈接跳轉(zhuǎn)或者分頁處理大量的圖片新聞,會(huì)導(dǎo)致新聞內(nèi)容嚴(yán)重缺失,筆者設(shè)定當(dāng)新聞內(nèi)容字?jǐn)?shù)少于30個(gè)字符時(shí),舍棄這條新聞。
爬取新聞共獲取11 865條新聞,經(jīng)過上述預(yù)處理共收集8 123條內(nèi)容完整新聞。以此為初始語料庫建立突發(fā)事件研究數(shù)據(jù)集[注]https://gitee.com/Amos698/TuFaShiJianGongKaiShuJuJi。經(jīng)過突發(fā)事件識(shí)別與分類,共篩選出1 432篇突發(fā)事件相關(guān)內(nèi)容,此數(shù)據(jù)集相比其他研究數(shù)據(jù)集具有以下優(yōu)點(diǎn):
(1) 數(shù)據(jù)信息完整,數(shù)據(jù)集涵蓋范圍廣;
(2) 采用非監(jiān)督自動(dòng)構(gòu)建方法,節(jié)省人力物力;
(3) 數(shù)據(jù)規(guī)模大,至少是其他數(shù)據(jù)集的四五倍;
(4) 內(nèi)容豐富,不再是單一的事件類型,而是涵蓋四類突發(fā)事件信息來源。自然災(zāi)害類事件,如地震、臺(tái)風(fēng)等;公共衛(wèi)生事件,如登革熱、食物中毒事件等;事故災(zāi)害,如交通事故、火災(zāi)等;社會(huì)安全事件,如恐怖主義、群體性突發(fā)事件等。
3.2.1 公開語料庫CEC
CEC語料庫由上海大學(xué)劉宗田教授的《面向事件的本體研究》人工標(biāo)注所構(gòu)建完成。以六元組形式標(biāo)識(shí)事件[26],形式化地定義事件e為:e=(A,O,T,P,S,L),其中事件六元組中的元素稱為事件要素,分別表示動(dòng)作(action)、對(duì)象(object)、時(shí)間(time)、地點(diǎn)(place)、狀態(tài)(status)、語言表現(xiàn)(language expressions)。以此六元組表示新聞各個(gè)角色之間的聯(lián)系。CEC語料庫采用XML格式存儲(chǔ),共包含五種類型的突發(fā)事件,分別是地震、火災(zāi)、交通事故、恐怖襲擊、食物中毒,共332篇。
3.3.1 突發(fā)事件語料庫實(shí)驗(yàn)結(jié)果與分析
在爬取新聞,對(duì)初始語料庫進(jìn)行預(yù)處理之后,通過事件識(shí)別與分類模塊,將獲取突發(fā)事件新聞。本文隨機(jī)選取其中100篇突發(fā)事件新聞進(jìn)行測(cè)評(píng),通過專家評(píng)價(jià)實(shí)驗(yàn)結(jié)果的正確性,結(jié)果如表4所示。
(1) 從“時(shí)間”屬性結(jié)果中可以看出,時(shí)間屬性識(shí)別效果最好。主要是新聞事件中時(shí)間表達(dá)形式固定統(tǒng)一,有規(guī)律可循,但在個(gè)別新聞事件中出現(xiàn)了連續(xù)的事件流,導(dǎo)致時(shí)間信息沒有正確抽取,因此突發(fā)事件時(shí)間屬性抽取準(zhǔn)確率和召回率為94.00%。
表4 突發(fā)事件信息抽取結(jié)果
(2) 從“地點(diǎn)”結(jié)果中可以看出,對(duì)地點(diǎn)屬性識(shí)別效果的準(zhǔn)確率和召回率均為84.00%。分析發(fā)現(xiàn): 其一,由于結(jié)巴分詞自身的弊端,無法完全準(zhǔn)確識(shí)別出地點(diǎn)名詞和實(shí)體名詞;其二,本文選取的新聞?wù)Z料中,存在部分交通事故類型,此類事件的發(fā)生地點(diǎn),都是一些相關(guān)路段,例如“沿京港澳高速下行線由北往南行駛至孝昌段……”,根據(jù)詞性標(biāo)注和詞表信息,不能正確識(shí)別出地點(diǎn)名詞,也無法根據(jù)詞表信息返回事件發(fā)生地點(diǎn);其三,由于地點(diǎn)名詞本身的限制,部分地點(diǎn)并不在詞表中,導(dǎo)致事件發(fā)生地點(diǎn)無法被識(shí)別。
(3) 從“傷亡”結(jié)果中可以看出,傷亡屬性抽取準(zhǔn)確率高于召回率,究其原因: 其一,傷亡詞表需要進(jìn)行完善,某些事件發(fā)生頻率低,缺少此種表達(dá)規(guī)律;其二,個(gè)別事件側(cè)重描述細(xì)節(jié),比如“清潔工周某在送往醫(yī)院途中不幸身亡”,并不存在傷亡數(shù)量,規(guī)則無法識(shí)別周某,進(jìn)而推導(dǎo)出一人死亡。因此,傷亡屬性識(shí)別效果準(zhǔn)確率為89.47%,召回率為77.27%。
(4) 經(jīng)濟(jì)損失多存在于自然災(zāi)害類型和火災(zāi)事故中,此新聞?wù)Z料中涉及經(jīng)濟(jì)損失的新聞?shì)^少,共有13條。從結(jié)果中看出,經(jīng)濟(jì)損失屬性抽取的準(zhǔn)確率和召回率最差,主要有以下原因: 其一,詞表不夠全面,需要對(duì)其進(jìn)行擴(kuò)充。由于災(zāi)害事件造成的損失各種各樣,同時(shí)存在地域特色,需要閱讀足夠多的數(shù)據(jù),不斷完善詞表;其二,經(jīng)濟(jì)損失描述時(shí),多涉及具體的實(shí)體,有些實(shí)體在新聞中出現(xiàn)比較低頻。因此,經(jīng)濟(jì)損失識(shí)別效果準(zhǔn)確率只有80.00%,召回率只有61.54%。
(5) 從“事件分類”結(jié)果中可以看出,事件分類識(shí)別效果準(zhǔn)確率和召回率為92.00%。究其原因,在事件識(shí)別時(shí),出現(xiàn)了交叉事件類型的關(guān)鍵詞,導(dǎo)致類型識(shí)別不準(zhǔn)確。
3.3.2 CEC語料庫實(shí)驗(yàn)結(jié)果與分析
本文同時(shí)使用上海大學(xué)公開的CEC語料庫進(jìn)行測(cè)試,隨機(jī)選擇其中100條新聞,重復(fù)3.3.1中的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
從表5可以看出,使用公開語料庫的準(zhǔn)確率和召回率普遍高于突發(fā)事件語料庫,主要是因?yàn)镃EC語料庫是半結(jié)構(gòu)化的語料庫,經(jīng)過眾多專家學(xué)者精心挑選,結(jié)構(gòu)規(guī)范,表達(dá)具有一定的規(guī)律性,在進(jìn)行信息抽取時(shí),獲得了較好的效果。此外,其“地點(diǎn)”屬性抽取結(jié)果低于前者,主要原因是100條新聞數(shù)據(jù)中包含了大量的交通事故類型突發(fā)事件,導(dǎo)致抽取過程中一些路段名無法識(shí)別,因此地點(diǎn)屬性識(shí)別效果準(zhǔn)確率只有79.38%,召回率為77.00%。
表5 CEC信息抽取結(jié)果
本文提出了切實(shí)有效的結(jié)構(gòu)化突發(fā)事件案例信息的實(shí)施方案,從應(yīng)急管理的角度來看,結(jié)構(gòu)化案例信息是高效開展應(yīng)急管理的基礎(chǔ),一方面是構(gòu)建突發(fā)事件案例的基礎(chǔ)工作,另一方面也是應(yīng)急決策中案例推理的基礎(chǔ)工作;從自然語言處理的角度來看,本文所提出的基于文體和詞表的信息抽取方法融合了基于規(guī)則和統(tǒng)計(jì)方法的優(yōu)點(diǎn),同時(shí)利用新聞文體特點(diǎn),對(duì)于結(jié)構(gòu)化Web信息進(jìn)行了有效的探索,對(duì)于其他應(yīng)用領(lǐng)域的信息抽取具有較高的實(shí)踐價(jià)值。
由于詞表不夠完善、分詞軟件自身的局限性、Web新聞表達(dá)的多樣性及編寫規(guī)則不全面,造成“經(jīng)濟(jì)損失”和“地點(diǎn)”識(shí)別準(zhǔn)確率和召回率較低。同時(shí),由于存在交叉事件導(dǎo)致事件,分類的準(zhǔn)確率有待進(jìn)一步提高。
未來的工作中,我們將嘗試采用機(jī)器學(xué)習(xí)和規(guī)則相結(jié)合的方式,進(jìn)行快速、高效的信息抽取,考慮在其中引入語義語法分析,解決規(guī)則制定繁瑣、擴(kuò)展性較差的問題,同時(shí)能夠?qū)γ麑?shí)體識(shí)別進(jìn)行深入學(xué)習(xí),提高識(shí)別的準(zhǔn)確率。